SPSS在主成分分析中的应用.docx
《SPSS在主成分分析中的应用.docx》由会员分享,可在线阅读,更多相关《SPSS在主成分分析中的应用.docx(25页珍藏版)》请在冰点文库上搜索。
SPSS在主成分分析中的应用
SPSS在主成分分析中的应用
一•主成分分析的原理。
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合
成一组新的互相无关的综合指标来代替原来的指标。
通常数学上的处理就是将
原来P个指标作线性组合,作为新的综合指标。
最经典的做法就是用F1(选取
的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示
F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最打的,
故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再
考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息
就不需要再出现再F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
主成分模型:
F1=*11X1*a21X2ap1Xp
jF2=*12X1+*22X2+"ap2Xp
Fp=a1pX〔+*2pX2+…appXp
J
满足以下条件:
1.每个主成分系数平方和为1即:
a2-a;j■■■api=1(i=1,2,…m)
2.主成分之前互不相关
即:
cov(Fi,Fi^0
3.主成分方差依次递减,即Var(FJ_Var(F2)一Var(Fp)
二•利用SPSS进行主成成分分析实例
以全国31个省市的8项经济指标为例,进行主成分分析第一步:
录入或调入数据(图1)。
国内生产
脣民辛肖费|固定资产|职工工资
货物周转
消费价格
繭品零售|工业产值
1
1394.09
2505.00
51901
8144.00
373.90
'17布
112,60
&43,43
2
920.11
272O.K)
34546
6501.00
342.90
11520
noeo
532.51
3
2849.52
1250.00
704S7
4339.00
2033.30
11520
115.S0
1234.85
4
1092.46
1250.00
29090
4721.00
717.30
11S.90
11560
697.25
5
33208
13B7.00
250.23
4134.00
73170
117.50
11680
419.39
6
辽宁
2793.37
239700
337.99
4911.00
1371.70
11S.10
11400
1940.55
7
吉林
11^.20
1872DO
320.45
4430.00
497.40
115.20
114.20
762.47
B
黒龙江
2014.53
2334.00
435.73
4145.00
924.80
115.10
114.30
124037
9
2462.57
5343.□□
995.46
9279.00
207.40
118.70
113.00
164295
10
5155.25
192600
1434.S5
5943.00
1025.SO
115.90
114.30
2026.64
11
3524.79
2249.00
1006.39
6619.00
75440
115.60
113.50
gi&59
12
2003.66
1254.OJ
474.0D
4E09.D0
9DS.30
114.SO
112.7Q
824.14
13
2160.52
23200D
56397
5357.00
E旧,30
115.20
114.4Q
433.67
14
P西
1205.11
1132.00
2G234
4211.00
411.70
115.90
115.90
571.04
15
ili^-
5002.34
1527.00
122955
5145.00
1196.50
117GO
114.20
2207,59
16
河鹵
300274
103J.UU
67035
4344.00
1674.40
11560
11490
1367.92
17
2391.42
1627.00
671.63
4665.00
S4S.00
120.00
llhoU
1230.72
18
湖南
219570
1406.00
422.61
4797.00
1011.60
119.00
115.50
643.93
19
5381.72
2699.00
1639.33
6250.00
65E.90
114.00
111.60
139635
20
广西「
1606.15
13H.00
392.59
5105.00
556.00
113.40
116.40
554.97
21
3B4.17
101400
198.35
5340.00
232.10
113.50
111.30
64.33
22
3534.D0
■261.00
82254
4645.00
902.30
118.50
117.00
1431.81
23
630.07
94200
153.84
4475.00
301.10
121.40
117.20
32472
24
1206.66
126100
334.00
6149.00
31040
121.30
11S.1Q
716.65
25
&5.98
qio.tu
1787
7362.00
4.20
I17.3D
114.9Q
5.57
26
1000.03
1200.00
30027
任GOQ
500.90
119.C0
117.00
W.^Q
27
甘肃
553.35
1007.00
114S1
£49300
507.00
119.60
11E.60
466.79
28
166.31
14458
47.76
676'<00
61.60
118.00
116.30
105.00
29
169.75
1355.00
HI93
5073.00
121.30
11710
115.30
114.40
30
S34.57
1469.00
37SS5
534S.00
339.00
11970
11670
42B.7B
图1原始数据(未经标准化)
第二步:
打开“因子分析”对话框
沿着主菜单的“AnalyzeDataReduction—Factor…”的路径(图2)打
开因子分析选项框(图3)
圉全国30T<市区毎济盍展的8顶將标-S
SPSSDataEditor
FileEditViewDataTransform
Analyze
GraphsUbiltiesWindowHelp
序旧|到暉|s|c|田]
Reports►
DescriptiveStatistics►
制卫貝1墻
P:
CormparBMeans
►
省俯
03内生产
GeneralLineorModelCorrelateRegression
Classify
职工工资|
1
北京
1394.E
F
1
8144.00
2
夭津
920.1
6
6501.00
3
河北
2SJ9.E
DataRedu匚lion
Factor...
4
lITE
1092.il
Scale
5
T蒙
832.E
NonparametricTests
3
4134.00
6
2793.3
MultipleResponse
9
4911®
图2打开因子分析对话框的路径
图3因子分析选项框
第三步:
选项设置。
首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。
在本例中,全部8个变量都要用上,故全部调入(图4)。
因无特殊需要,故不必理会“Value…”栏。
下面逐项设置。
图4将变量移到变量栏以后
1.设置Descriptives选项。
单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。
图5描述选项框
在Statistics栏中选中Univariatedescriptives复选项,则输出结果中
将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);
选中Initialsolution复选项,则会给出主成分载荷的公因子方差(这一栏数
据分析时有用)。
在CorrelationMatrix栏中,选中Coefficients复选项,则会给出原始变
量的相关系数矩阵(分析时可参考);选中Determinant复选项,则会给出相关系数矩阵的行列式,如果希望在Excel中对某些计算过程进行了解,可选此项,否则用途不大。
其它复选项一般不用,但在特殊情况下可以用到(本例不选)。
设置完成以后,单击Continue按钮完成设置(图5)。
2.设置Extraction选项。
打开Extraction对话框(图6)。
因子提取方法主要有7种,在Method栏中可以看到,系统默认的提取方法是主成分•因此对此栏不作变动,就是认可了主成分分析方法。
在Analyze栏中,选中Correlationmatirx复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中Covarianeematrix复选项,则因子分析基于数据的协方差矩阵进行分析。
对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。
在Display栏中,选中Unrotatedfactorsolution(非旋转因子解)复选
项,则在分析结果中给出未经旋转的因子提取结果。
对于主成分分析而言,这一
项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。
选中ScreePlot“山麓”图),则在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。
在Extract栏中,有两种方法可以决定提取主成分(因子)的数目。
一是根
据特征根(Eigenvalues)的数值,系统默认的是c"1。
我们知道,在主成分
分析中,主成分得分的方差就是对应的特征根数值。
如果默认’c二1,则所有方
差大于等于1的主成分将被保留,其余舍弃。
如果觉得最后选取的主成分数量不足,可
以将,c值降低,例如取’c=°.9;如果认为最后的提取的主成分数量偏多,则可以提高
c值,例如取c=1.10主成分数目是否合适,要在进行一轮分析以后才能肯定<因此,特征根数值的设定,要在反复试验以后才能决定。
一般而言,在初次分析时,最好降低特征根的临界值(如取’c=0.8),这样提取的主成分将会偏多,根据初次分析的结果,在第二轮分析过程中可以调整特征根的大小。
第二种方法是直接指定主成分的数目即因子数目,这要选中Numberof
factors复选项。
主成分的数目选多少合适?
开始我们并不十分清楚。
因此,首次不妨将数值设大一些,但不能超过变量数目。
本例有8个变量,因此,最大的
主成分提取数目为8,不得超过此数。
在我们第一轮分析中,采用系统默认的方法提取主成分。
图6提取对话框
需要注意的是:
主成分计算是利用迭代(Iterations)方法,系统默认的迭代次数是25次。
但是,当数据量较大时,25次迭代是不够的,需要改为50次、100次乃至更多。
对于本例而言,变量较少,25次迭代足够,故无需改动。
设置完成以后,单击Continue按钮完成设置(图6)。
3.设置Scores设置
选中Saveasvariables栏,则分析结果中给出标准化的主成分得分(在数
据表的后面)。
至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的“回归”(Regression)法即可。
图7因子得分对话框
选中Displayfactorscorecoefficientmatrix,贝U在分析结果中给出因
子得分系数矩阵及其相关矩阵。
设置完成以后,单击Continue按钮完成设置(图7)。
4.其它。
对于主成分分析而言,旋转项(Rotation)可以不必设置;对于数据没有缺失的情况下,Option项可以不必理会。
全部设置完成以后,点击OK确定,SPSS很快给出计算结果(图8)。
FactorAnalysis
Mean
std.Deviation
AH酬SN
国匹主产
1921.093
1474.30603
日口
民民消费
1745.923
ffil.64193
30
固定资产
511=5083
432,60540
30
职工工费
5457.633
1310-21005
30
货愉周转
666.1400
30
消那恪
117.2S67
2,02531
30
商品零售
114.9D67
1.69800
30
工业产值
862.9980
584.5B726
3D
CorrelationMatri?
cJ
居民垄费
固翅产
职工工费
tfi输周转
消费价格
商品零售
Correlatian田內生产
1.000
.267
.951
.191
.617
--273
-264
074
居民消费
1.CW
„426
.71B
-451
・-235
-.593
.363
固宦蚩产
.561
.426
1.000
,吗□□
.431
-.260
-,3sg
.792
關工I资
・归1
.710
1.000
-.356
-.539
104
丝物周转
巧1了
-.151
■4M1
-.^6
1.00D
-253
022
.639
消费价洛
-.273
-.235
2£0
-.135
-.252
1.000
.763
-.125
商品零善
•・264
-.593
叫3S9
-.539
■血
1.000
-.192
工业产倍
.874
.363
792
.104
.659
-.125
-.192
1.000
a.Determinant■1.133E-Oi
jd
图8主成分分析的结果
第四步,结果解读。
在因子分析结果(Output)中,首先给出的DescriptiveStatistics,第
一列Mean对应的变量的算术平均值,计算公式为
xj
第二列Std.Deviation对应的是样本标准差,计算公式为
n
'(Xj-Xj)2]1/2
iA
第三列AnalysisN对应是样本数目。
这一组数据在分析过程中可作参考
DescriptiveStatistics
Mean
Std.Deviation
AnalysisN
国内生产
1921.093
1474.80603
30
居民消费
1745.933
861.64193
30
固定资产
511.5083
402.88548
30
职工工资
5457.633
1310.21805
30
货物周转
666.1400
459.96699
30
消费价格
117.2867
2.02531
30
商品零售
114.9067
1.89808
30
工业产值
862.9980
584.58726
30
接下来是CorrelationMatrix(相关系数矩阵),一般而言,相关系数高的变量,大多会进入同一个主成分,但不尽然,除了相关系数外,决定变量在主成分中分布地位的因素还有数据的结构。
相关系数矩阵对主成分分析具有参考价值,毕竟
主成分分析是从计算相关系数矩阵的特征根开始的。
相关系数阵下面的
Determinant=1.133E-0.4是相关矩阵的行列式值,根据关系式det(7-R)=0可知,det(入l)=det(R),从而Determinant=1.133E-0.4=X1*入2*入3*入4*入5*入6*入7*入
&这一点在后面将会得到验证
CorrelationMatrixa
国内生产
居民消费
固定资产
职工工资
货物周转
消费价格
商品零售
工业产值
国内生产
1.000
.267
.951
.191
.617
-.273
-.264
.874
居民消费
.267
1.000
.426
.718
-.151
-.235
-.593
.363
固定资产
.951
.426
1.000
.400
.431
-.280
-.359
.792
职工工资
.191
.718
.400
1.000
-.356
-.135
-.539
.104
货物周转
.617
-.151
.431
-.356
1.000
-.253
.022
.659
消费价格
-.273
-.235
-.280
-.135
-.253
1.000
.763
-.125
商品零售
-.264
-.593
-.359
-.539
.022
.763
1.000
-.192
工业产值
.874
.363
.792」
.104
.659
-.125
-.192
1.000
a.Determinant=1.133E-04
在Communalities(公因子方差)中,给出了因子载荷阵的初始公因子方差(Initial)和提取公因子方差(Extraction),后面将会看到它们的含义。
Communalities
Initial
Extraction
国内生产
1.000
.945
居民消费
1.000
.800
固定资产
1.000
.902
职工工资
1.000
.875
货物周转
1.000
.857
消费价格
1.000
.957
商品零售
1.000
.929
工业产值
1.000
.903
ExtractionMethod:
PrincipalComponentAnalysis.
在TotalVarianceExplained(全全部解释方差)表的InitialEigenvalues(初始特
征根)中,给出了按顺序排列的主成分得分的方差(Total),在数值上等于相关系
数矩阵的各个特征根入,因此可以直接根据特征根计算每一个主成分的方差百分比(%ofVariance)。
由于全部特征根的总和等于变量数目,即有m=刀入i=8,故第一个特征根的方差百分比为入1/m=3.755/8=46.939,第二个特征根的百分比为入2/m=2.197/8=27.459,……,其余依此类推。
然后可以算出方差累计值
(Cumulative%)。
在ExtractionSumsofSquaredLoadings给出了从左边栏目中提取的三个主成分及有关参数,提取的原则是满足入>1,这一点我们在图6所示的对话框中进行了限定。
TotalVarianceExplained
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
Total
%of
Variance
Cumulative
%
Total
%of
Variance
Cumulative
%
1
3.755
46.939
46.939
3.755
46.939
46.939
2
2.197
27.459
74.398
2.197
27.459
74.398
3
1.215
15.186
89.584
1.215
15.186
89.584
4
.402
5.031
94.615
5
.213
2.660
97.275
6
.138
1.724
98.999
7
6.5E-02
.818
99.817
8
1.5E-02
.183
100.000
ExtractionMethod:
PrincipalComponentAnalysis.
ScreePlot
ComponentNumber
图8特征根数值衰减折线图(山麓图)
主成分的数目可以根据相关系数矩阵的特征根来判定,如前所说,相关系数
矩阵的特征根刚好等于主成分的方差,而方差是变量数据蕴涵信息的重要判据之一。
根据入值决定主成分数目的准则有三:
i只取>1的特征根对应的主成分
从TotalVarianeeExplained表中可见,第一、第二和第三个主成分对应的入
值都大于1,这意味着这三个主成分得分的方差都大于1。
本例正是根据这条准
则提取主成分的。
ii累计百分比达到80%~85%以上的入值对应的主成分
在TotalVarianceExplained表可以看出,前三个主成分对应的入值累计百分比达到89.584%,这暗示只要选取三个主成分,信息量就够了。
iii根据特征根变化的突变点决定主成分的数量
从特征根分布的折线图(ScreePlo)上可以看到,第4个入值是一个明显的折点,这暗示选取的主成分数目应有p<4(图8)。
那么,究竟是3个还是4个呢?
根据前面两条准则,选3个大致合适(但小有问题)。
在ComponentMatrix(成分矩阵)中,给出了主成分载荷矩阵,每一列载荷值都显示了各个变量与有关主成分的相关系数。
以第一列为例,0.885实际上是国内生产总值(GDP)与第一个主成分的相关系数。
将标准化的GDP数据与第一主成分得分进行回归,决定系数R2=0.783(图9),容易算出R=0.885,这正是GDP在第一个主成分上的载荷。
ComponentMatrixa
Component
1
2
3
国内生产
.885
.384
.121
居民消费
.607