SPSS在主成分分析中的应用.docx

资源描述

SPSS在主成分分析中的应用.docx

《SPSS在主成分分析中的应用.docx》由会员分享，可在线阅读，更多相关《SPSS在主成分分析中的应用.docx（25页珍藏版）》请在冰点文库上搜索。

SPSS在主成分分析中的应用.docx

SPSS在主成分分析中的应用

一•主成分分析的原理。

主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合

成一组新的互相无关的综合指标来代替原来的指标。

通常数学上的处理就是将

原来P个指标作线性组合，作为新的综合指标。

最经典的做法就是用F1（选取

的第一个线性组合，即第一个综合指标）的方差来表达，即Var（F1）越大，表示

F1包含的信息越多。

因此在所有的线性组合中选取的F1应该是方差最打的，

故称F1为第一主成分。

如果第一主成分不足以代表原来P个指标的信息，再

考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息

就不需要再出现再F2中，用数学语言表达就是要求Cov（F1,F2）=0,则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

主成分模型：

F1=*11X1*a21X2ap1Xp

jF2=*12X1+*22X2+"ap2Xp

Fp=a1pX〔+*2pX2+…appXp

满足以下条件：

1.每个主成分系数平方和为1即：

a2-a；j■■■api=1（i=1,2,…m）

2.主成分之前互不相关

即:

cov（Fi,Fi^0

3.主成分方差依次递减，即Var（FJ_Var（F2）一Var（Fp）

二•利用SPSS进行主成成分分析实例

以全国31个省市的8项经济指标为例，进行主成分分析第一步：

录入或调入数据（图1）。

国内生产

脣民辛肖费|固定资产|职工工资

货物周转

消费价格

繭品零售|工业产值

1394.09

2505.00

51901

8144.00

373.90

'17布

112,60

&43,43

920.11

272O.K）

34546

6501.00

342.90

11520

noeo

532.51

2849.52

1250.00

704S7

4339.00

2033.30

11520

115.S0

1234.85

1092.46

1250.00

29090

4721.00

717.30

11S.90

11560

697.25

33208

13B7.00

250.23

4134.00

73170

117.50

11680

419.39

辽宁

2793.37

239700

337.99

4911.00

1371.70

11S.10

11400

1940.55

吉林

11^.20

1872DO

320.45

4430.00

497.40

115.20

114.20

762.47

黒龙江

2014.53

2334.00

435.73

4145.00

924.80

115.10

114.30

124037

2462.57

5343.□□

995.46

9279.00

207.40

118.70

113.00

164295

5155.25

192600

1434.S5

5943.00

1025.SO

115.90

114.30

2026.64

3524.79

2249.00

1006.39

6619.00

75440

115.60

113.50

gi&59

2003.66

1254.OJ

474.0D

4E09.D0

9DS.30

114.SO

112.7Q

824.14

2160.52

23200D

56397

5357.00

E旧,30

115.20

114.4Q

433.67

P西

1205.11

1132.00

2G234

4211.00

411.70

115.90

571.04

ili^-

5002.34

1527.00

122955

5145.00

1196.50

117GO

114.20

2207,59

河鹵

300274

103J.UU

67035

4344.00

1674.40

11560

11490

1367.92

2391.42

1627.00

671.63

4665.00

S4S.00

120.00

llhoU

1230.72

湖南

219570

1406.00

422.61

4797.00

1011.60

119.00

115.50

643.93

5381.72

2699.00

1639.33

6250.00

65E.90

114.00

111.60

139635

广西「

1606.15

13H.00

392.59

5105.00

556.00

113.40

116.40

554.97

3B4.17

101400

198.35

5340.00

232.10

113.50

111.30

64.33

3534.D0

■261.00

82254

4645.00

902.30

118.50

117.00

1431.81

630.07

94200

153.84

4475.00

301.10

121.40

117.20

32472

1206.66

126100

334.00

6149.00

31040

121.30

11S.1Q

716.65

&5.98

qio.tu

1787

7362.00

4.20

I17.3D

114.9Q

5.57

1000.03

1200.00

30027

任GOQ

500.90

119.C0

117.00

W.^Q

甘肃

553.35

1007.00

114S1

£49300

507.00

119.60

11E.60

466.79

166.31

14458

47.76

676'<00

61.60

118.00

116.30

105.00

169.75

1355.00

HI93

5073.00

121.30

11710

115.30

114.40

S34.57

1469.00

37SS5

534S.00

339.00

11970

11670

42B.7B

图1原始数据（未经标准化）

第二步：

打开“因子分析”对话框

沿着主菜单的“AnalyzeDataReduction—Factor…”的路径（图2）打

开因子分析选项框（图3）

圉全国30T＜市区毎济盍展的8顶將标-S

SPSSDataEditor

FileEditViewDataTransform

Analyze

GraphsUbiltiesWindowHelp

序旧|到暉|s|c|田］

Reports►

DescriptiveStatistics►

制卫貝1墻

CormparBMeans

►

省俯

03内生产

GeneralLineorModelCorrelateRegression

Classify

职工工资|

北京

1394.E

8144.00

夭津

920.1

6501.00

河北

2SJ9.E

DataRedu匚lion

Factor...

lITE

1092.il

Scale

T蒙

832.E

NonparametricTests

4134.00

2793.3

MultipleResponse

4911®

图2打开因子分析对话框的路径

图3因子分析选项框

第三步：

选项设置。

首先，在源变量框中选中需要进行分析的变量，点击右边的箭头符号，将需要的变量调入变量（Variables）栏中（图3）。

在本例中，全部8个变量都要用上，故全部调入（图4）。

因无特殊需要，故不必理会“Value…”栏。

下面逐项设置。

图4将变量移到变量栏以后

1.设置Descriptives选项。

单击Descriptives按钮（图4）,弹出Descriptives对话框（图5）。

图5描述选项框

在Statistics栏中选中Univariatedescriptives复选项，则输出结果中

将会给出原始数据的抽样均值、方差和样本数目（这一栏结果可供检验参考）；

选中Initialsolution复选项，则会给出主成分载荷的公因子方差（这一栏数

据分析时有用）。

在CorrelationMatrix栏中，选中Coefficients复选项，则会给出原始变

量的相关系数矩阵（分析时可参考）；选中Determinant复选项，则会给出相关系数矩阵的行列式，如果希望在Excel中对某些计算过程进行了解，可选此项，否则用途不大。

其它复选项一般不用，但在特殊情况下可以用到（本例不选）。

设置完成以后，单击Continue按钮完成设置（图5）。

2.设置Extraction选项。

打开Extraction对话框（图6）。

因子提取方法主要有7种，在Method栏中可以看到，系统默认的提取方法是主成分•因此对此栏不作变动，就是认可了主成分分析方法。

在Analyze栏中，选中Correlationmatirx复选项，则因子分析基于数据的相关系数矩阵进行分析；如果选中Covarianeematrix复选项，则因子分析基于数据的协方差矩阵进行分析。

对于主成分分析而言，由于数据标准化了，这两个结果没有分别，因此任选其一即可。

在Display栏中，选中Unrotatedfactorsolution（非旋转因子解）复选

项，则在分析结果中给出未经旋转的因子提取结果。

对于主成分分析而言，这一

项选择与否都一样；对于旋转因子分析，选择此项，可将旋转前后的结果同时给出，以便对比。

选中ScreePlot“山麓”图），则在分析结果中给出特征根按大小分布的折线图（形如山麓截面，故得名），以便我们直观地判定因子的提取数量是否准确。

在Extract栏中，有两种方法可以决定提取主成分（因子）的数目。

一是根

据特征根（Eigenvalues）的数值，系统默认的是c"1。

我们知道，在主成分

分析中，主成分得分的方差就是对应的特征根数值。

如果默认’c二1，则所有方

差大于等于1的主成分将被保留，其余舍弃。

如果觉得最后选取的主成分数量不足，可

以将，c值降低，例如取’c=°.9；如果认为最后的提取的主成分数量偏多，则可以提高

c值，例如取c=1.10主成分数目是否合适，要在进行一轮分析以后才能肯定＜因此，特征根数值的设定，要在反复试验以后才能决定。

一般而言，在初次分析时，最好降低特征根的临界值（如取’c=0.8），这样提取的主成分将会偏多，根据初次分析的结果，在第二轮分析过程中可以调整特征根的大小。

第二种方法是直接指定主成分的数目即因子数目，这要选中Numberof

factors复选项。

主成分的数目选多少合适？

开始我们并不十分清楚。

因此，首次不妨将数值设大一些，但不能超过变量数目。

本例有8个变量，因此，最大的

主成分提取数目为8,不得超过此数。

在我们第一轮分析中，采用系统默认的方法提取主成分。

图6提取对话框

需要注意的是：

主成分计算是利用迭代（Iterations）方法，系统默认的迭代次数是25次。

但是，当数据量较大时，25次迭代是不够的，需要改为50次、100次乃至更多。

对于本例而言，变量较少，25次迭代足够，故无需改动。

设置完成以后，单击Continue按钮完成设置（图6）。

3.设置Scores设置

选中Saveasvariables栏，则分析结果中给出标准化的主成分得分（在数

据表的后面）。

至于方法复选项，对主成分分析而言，三种方法没有分别，采用系统默认的“回归”（Regression）法即可。

图7因子得分对话框

选中Displayfactorscorecoefficientmatrix，贝U在分析结果中给出因

子得分系数矩阵及其相关矩阵。

设置完成以后，单击Continue按钮完成设置（图7）。

4.其它。

对于主成分分析而言，旋转项（Rotation）可以不必设置；对于数据没有缺失的情况下，Option项可以不必理会。

全部设置完成以后，点击OK确定，SPSS很快给出计算结果（图8）。

FactorAnalysis

Mean

std.Deviation

AH酬SN

国匹主产

1921.093

1474.30603

日口

民民消费

1745.923

ffil.64193

固定资产

511=5083

432,60540

职工工费

5457.633

1310-21005

货愉周转

666.1400

消那恪

117.2S67

2,02531

商品零售

114.9D67

1.69800

工业产值

862.9980

584.5B726

CorrelationMatri?

居民垄费

固翅产

职工工费

tfi输周转

消费价格

商品零售

Correlatian田內生产

1.000

.267

.951

.191

.617

--273

-264

074

居民消费

1.CW

„426

.71B

-451

・-235

-.593

.363

固宦蚩产

.561

.426

1.000

，吗□□

.431

-.260

-,3sg

.792

關工I资

・归1

.710

1.000

-.356

-.539

104

丝物周转

巧1了

-.151

■4M1

-.^6

1.00D

-253

022

.639

消费价洛

-.273

-.235

2£0

-.135

-.252

1.000

.763

-.125

商品零善

•・264

-.593

叫3S9

-.539

■血

1.000

-.192

工业产倍

.874

.363

792

.104

.659

-.125

-.192

1.000

a.Determinant■1.133E-Oi

图8主成分分析的结果

第四步，结果解读。

在因子分析结果（Output）中，首先给出的DescriptiveStatistics，第

一列Mean对应的变量的算术平均值，计算公式为

第二列Std.Deviation对应的是样本标准差，计算公式为

'（Xj-Xj）2]1/2

第三列AnalysisN对应是样本数目。

这一组数据在分析过程中可作参考

DescriptiveStatistics

Mean

Std.Deviation

AnalysisN

国内生产

1921.093

1474.80603

居民消费

1745.933

861.64193

固定资产

511.5083

402.88548

职工工资

5457.633

1310.21805

货物周转

666.1400

459.96699

消费价格

117.2867

2.02531

商品零售

114.9067

1.89808

工业产值

862.9980

584.58726

接下来是CorrelationMatrix（相关系数矩阵）,一般而言，相关系数高的变量，大多会进入同一个主成分，但不尽然，除了相关系数外，决定变量在主成分中分布地位的因素还有数据的结构。

相关系数矩阵对主成分分析具有参考价值，毕竟

主成分分析是从计算相关系数矩阵的特征根开始的。