多元统计分析报告.docx

资源描述

多元统计分析报告.docx

《多元统计分析报告.docx》由会员分享，可在线阅读，更多相关《多元统计分析报告.docx（12页珍藏版）》请在冰点文库上搜索。

多元统计分析报告.docx

多元统计分析报告

——按收入等级分家庭平均每人全年购买力差异

1、问题背景：

1.1数据来源：

数据完全来源于《中国统计年鉴》2010年的数据统计，原统计数据总共统计2010年各个等级家庭平均购买的物品有17种，考虑到自身对多元统计的不娴熟，因此只节选了其中的12种。

1.2问题背景：

近10年来，随着中国经济的飞速发展，城镇居民的贫富差距也在日益的增加。

本文通过2010年居民购买普通消费品数量差距的统计数据，针对我国8中不同收入等级的居民家庭做了多元统计分析。

根据此分析，可以看出家庭收入水平对日常消费品购买力的各种影响，并且可以看出各个收入等级的消费水平以及全民平均水平。

针对其结果分析，结合实际对我国的日常消费品在价格方面做出合理的建议，为经济市场的优化完善略尽薄力。

2、分析方法介绍：

2.1因子分析

因子分析模型是主成分分析的推广。

它也是利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。

相对于主成分分析，因子分析更倾向于描述原始变量之间的相关关系；因此，因子分析的出发点是原始变量的相关剧增。

因子分析的思想始于1904年查尔斯·斯皮尔曼对学生考试成绩的研究。

2.1.1因子分析思想

因子分析思想是把联系较为紧密的变量归为同一个类别，而不同类别的变量之间的相关性则较低。

在同一个类别内的变量，可以想象是受到了某个共同因素的影响才彼此高度相关的，这个共同因素也称之为公共因子，它是潜在的并且是不可观测的。

因子分析反映了一种降维的思想，通过降维将相关性高的变量聚在一起，不仅便于提取容易解释的特征，而且降低了需要分析的变量数目和问题分析的复杂性。

2.1.2因子分析模型

一般因子分析模型：

设有n个样品，每个样品观察p个指标，这p个指标之间有较强的相关性（要求p个指标相关性较强的理由是很明确的，只有相关性较强才能从原始变量中提取出“公共”因子）。

为了便于研究，并消除由于观测量纲的差异及数量级不同所造成的影响，将样本观测数据进行标准化处理，使标准化后的变量均值为0，方差为1。

2.1.3因子分析步骤

A）确定因子载荷：

主成分法、主轴因子法、最小二乘法、极大似然法、α因子提取法等。

由于这些方法求解因子载荷的出发点不同，所得的结果也不完全相同，为此我们就本论文所用到的主成分法寻找公共因子的方法做详细介绍。

主成分寻找公共因子的方法如下：

假定从相关阵出发求解主成分没有p个变量，则我们可以找出p个主成分。

将所得的p个主成分按由大到小的顺序排列，记为Y1,Y2,...,YP,则主成分与原始变量之间存在如下关系式:

{

（1）

式中，

为随机向量X的相关矩阵的特征值所对应的特征向量的分量，因为特征向量之间彼此正交，从X到Y的转换关系是可逆的，很容易得出由Y到X的转换关系为：

{

（2）

我们对上面每一等式只保留前m个主成分而把后面的部分用

代替，则

式可变为：

这个式子在形式上已经与因子模型相一致，且

之间相互独立，为了把Yi转化成合适的公因子，现在要做的工作只是把主成分Yi变为方差为1的变量。

为完成此变换，必须将Yi除以其标准差（即为特征根的平方根

。

于是，令：

，则

式变为：

这与因子模型完全一致，这样，就得到了载荷A矩阵和一组初始公因子（未旋转）。

B）因子旋转：

因子旋转分为正交旋转与斜交旋转，正交旋转由初始载荷矩阵A左乘一正交阵而得到。

经过正交旋转而得到的新的公因子仍然保持彼此独立的性质。

而斜交旋转则放弃了因子之间彼此独立这个限制，因而可能达到更为简洁的形式，其实际意义也更容易解释。

但不论是正交旋转还是斜交旋转，都应当使新

的因子载荷系数要么尽可能地接近与零，要么尽可能地远离零。

C）因子得分：

因子得分就是公共因子在每一个样品点上的得分。

根据因子得分我们可以知道那个城市的经济发展水平要高，那个城市的经济发展水平要底。

2.2聚类分析

SAS软件中用于聚类分析的过程主要有以下三个:

PROCCLUSTER系统聚类（Q型聚类分析）,适用于对观测值或样品聚类;

PROCFASTCLUS逐步聚类（Q型聚类分析）,适用于大样本聚类;

PROCVARCLUS变量聚类（R型聚类分析）,适用于对变量或指标聚类。

系统聚类法是聚类分析中采用最多的聚类方法,本次论文则主要运用这种聚类分析法。

3、SAS程序：

3.1变量设定及其数据录入

总平均数

最低收入户

困难户

低收入户

中等偏下收入

中等收入户

中等偏上收入

高收入户

最高收入户

其中，Y为因变量，Xi（i=1,2...8）为自变量。

3.2录入数据程序编辑

首先打开SAS软件，并编辑内容如下：

datafit;

title'userincomelevelofpurchasingpowerdifferences';

InputYX1X2X3X4X5X6X7X8@@;

cards;

20.7314.9813.3318.3920.2121.8422.6323.3524.05

2.531.581.372.052.402.802.912.982.96

10.007.586.958.669.6010.5911.1811.2411.09

116.1193.6890.01106.23113.15121.85125.32126.04125.42

2.081.811.621.942.202.282.191.941.74

4.663.303.083.664.555.035.475.235.03

0.280.190.180.210.240.280.340.360.40

54.2334.2431.4642.4249.2057.5663.4666.9970.91

5.093.012.633.924.575.435.966.486.89

13.987.396.469.7611.9614.9817.0219.1320.19

3.671.811.532.613.113.834.594.955.57

8.434.173.625.777.188.589.8311.5214.89

;

run;

procprint;

run;

结果如下图：

进行因子分析，程序如下：

datadan1;

infile'e:

rong.txt';

inputX1X2X3X4X5X6X7X8;

run;

procfactordata=dan1

method=principalpriors=onerotate=varimax;

varX1X2X3X4X5X6X7X8;

run;

procfactordata=dan1method=principal

priors=srotate=varimax;

varX1X2X3X4X5X6X7X8;

run;

procfactordata=dan1method=prinit

priors=srotatc=varimaxheywood;

varX1X2X3X4X5X6X7X8;

run;

procfactordata=dan1method=ml

priors=srotate=varimax

heywood;

varX1X2X3X4X5X6X7X8;

run;

程序说明：

原始数据存储在e盘下的文本文件dan1.txt中，在数据步中用infile语句进行读取，变量X1—X8分别表示变量的意思在前面已经提到过。

4个FACTOR过程步分别使用主成分法、无迭代的主因子法、迭代主因子法和最大似然法进行因子分析。

在factor语句中有一些选项是比较重要的，以下逐一对其进行说明。

选项method（可简写为m）用来指定提取公因子的方法，常用的方法有principal（主成分法）、prinit（迭代主因子法）和ml（最大似然法），其中principal为默认值。

选项priors用来给共性方差赋初值，赋值方式包括asmc、max、one、random、smc。

进行聚类分析，程序如下：

datadan2;

Inputname$YX1X2X3X4X5X6X7X8@@;

cards;

20.7314.9813.3318.3920.2121.8422.6323.3524.05

2.531.581.372.052.402.802.912.982.96

10.007.586.958.669.6010.5911.1811.2411.09

116.1193.6890.01106.23113.15121.85125.32126.04125.42

2.081.811.621.942.202.282.191.941.74

4.663.303.083.664.555.035.475.235.03

0.280.190.180.210.240.280.340.360.40

54.2334.2431.4642.4249.2057.5663.4666.9970.91

5.093.012.633.924.575.435.966.486.89

13.987.396.469.7611.9614.9817.0219.1320.19

3.671.811.532.613.113.834.594.955.57

8.434.173.625.777.188.589.8311.5214.89

;

run;

procclusterdata=dan2simplemethod=singlenonorm;

idname;

proctree;

procclusterdata=dan2method=averagenonorm;

idname;

proctree;

run;

程序说明：

此程序语句是用以下语句调用CLUSTER过程:

PROCCLUSTER选项;

VAR变量;

ID变量表;

BY变量表;

只有PROCCLUSTER语句是必须的,其他语句是可选择的。

PROCCLUSTER选项中:

DATA=数据名,用于指定所要处理的数据集名（本程序所指的数据集就是dan2这一数据集）;SIMPLE或S,输出均值、标准差、偏度、峰度及双峰系数;METHOD或M=聚类方法名,用于指定某种聚类方法,有十一种方法可供选择,此程序样品间距离采用的是最短距离法（M=SINGLE或SIN）和类平均法（M=AVERAGE或AVE）,其他的聚类方法还有重心法、最长距离法、密度法、最大似然法、可变法、中间距离法、二阶密度法、离差平方和法及相似分析法,要根据试验需要进行选择;NONORM选项防治将距离正态化,如果没有此选项,则距离被标准化为单位均值或单位均方根值。

ID变量表,指定各观测值名称,如果省略,则每个观测值由OBn标记,其中n为观测值序号。

PROCTREE语句,是调用TREE过程打印聚类的树状图,可直观明了的看出聚类的结果。

4、结果分析：

4.1因子分析结果

这是主成分法的第一部分结果，首先说明提取公因子的方法为主成分法，共性方差的初值为1。

接着给出相关矩阵的特征值，如果选择主因子法，给出的将是约相关矩阵的特征值，由左至右的4列依次为特征值、前后两个特征值之差、贡献率、累积贡献率。

由于没有定义保留因子数的最小特征值的界值，系统会默认为1，即特征值大于1的因子将被保留下来。

此次数据中前1个特征值大于1，故保留前一个公因子，对应的累积贡献率为99.64%。

以上输出的是因子载荷阵，从而可以写出含有一个公因子的因子模型。

结果显示，公因子在每个变量上的载荷差不多。

该结果表明公因子能解释的方差为7.9714671.

此部分输出的是共性方差，共性方差估计值之和为7.971467。

其中每个变量的共性方差都接近1，说明该公因子几乎包含了原始变量的信息。

以上输出的是经过因子旋转以后的分析结果，可以看出，与因子旋转之前的结果相比，因子在各个变量上的载荷都减小了，并且有了第二个因子的影响。

因此，经过因子旋转以后，各个公因子在专业上的意义更加明确了。

最后给出的是每个公因子所能解释的方差与共性方差，由于正交旋转并不改变共性方差的大小，所以这里各变量的共性方差与旋转之前的结果相同。

这是最后一部分的结果图。

聚类分析结果分析：

第一个结果，从左往右依次表示：

均值、标准差、偏度、峰值、双峰系数。

从均值可以看出，除了X1和X5（即最低收入户和中等收入户）以外的其他变量均在20%左右。

标准差能反映一个数据集的离散程度,标准差越大,数值越偏离平均值。

由图可以看出，在这个上，只有中等收入户的消费与其他相差较大。

偏度表征概率分布密度曲线相对于平均值不对称程度的特征数。

正态分布的偏度为0。

偏度小于0称分布

具有负偏离,偏度大于0称分布具有正偏离。

以下是树形图分析：

5、讨论及其建议：

由以上的SAS分析可以看出，购买力（即使是日常必需品）一般规律是会随着收入的增加而导致购买数量的增加，基于这一点，我个人觉得市场应当给予适当的控制，把购买能力控制在中等收入户的水平。

但是有数据的发展可以看出，除开困难用户和最低收入户，其他的相差数量不大，有经济学可以解释，这些物品是日常品，弹性很低。

6、参考文献：

[1]胡良平．现代统计学与SAS应用．北京：

军事医学科学出版社．2000：

316-330．

[2]中国统计局《中国统计年鉴》2010

[3]于秀林.多元统计分析[M].北京:

中国统计出版社,2006.61-97.

7、附录（原始数据）：

展开阅读全文