SPSS在主成分分析中的应用.docx

上传人:b****4 文档编号:4818112 上传时间:2023-05-07 格式:DOCX 页数:25 大小:301.30KB
下载 相关 举报
SPSS在主成分分析中的应用.docx_第1页
第1页 / 共25页
SPSS在主成分分析中的应用.docx_第2页
第2页 / 共25页
SPSS在主成分分析中的应用.docx_第3页
第3页 / 共25页
SPSS在主成分分析中的应用.docx_第4页
第4页 / 共25页
SPSS在主成分分析中的应用.docx_第5页
第5页 / 共25页
SPSS在主成分分析中的应用.docx_第6页
第6页 / 共25页
SPSS在主成分分析中的应用.docx_第7页
第7页 / 共25页
SPSS在主成分分析中的应用.docx_第8页
第8页 / 共25页
SPSS在主成分分析中的应用.docx_第9页
第9页 / 共25页
SPSS在主成分分析中的应用.docx_第10页
第10页 / 共25页
SPSS在主成分分析中的应用.docx_第11页
第11页 / 共25页
SPSS在主成分分析中的应用.docx_第12页
第12页 / 共25页
SPSS在主成分分析中的应用.docx_第13页
第13页 / 共25页
SPSS在主成分分析中的应用.docx_第14页
第14页 / 共25页
SPSS在主成分分析中的应用.docx_第15页
第15页 / 共25页
SPSS在主成分分析中的应用.docx_第16页
第16页 / 共25页
SPSS在主成分分析中的应用.docx_第17页
第17页 / 共25页
SPSS在主成分分析中的应用.docx_第18页
第18页 / 共25页
SPSS在主成分分析中的应用.docx_第19页
第19页 / 共25页
SPSS在主成分分析中的应用.docx_第20页
第20页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

SPSS在主成分分析中的应用.docx

《SPSS在主成分分析中的应用.docx》由会员分享,可在线阅读,更多相关《SPSS在主成分分析中的应用.docx(25页珍藏版)》请在冰点文库上搜索。

SPSS在主成分分析中的应用.docx

SPSS在主成分分析中的应用

SPSS在主成分分析中的应用

一•主成分分析的原理。

主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合

成一组新的互相无关的综合指标来代替原来的指标。

通常数学上的处理就是将

原来P个指标作线性组合,作为新的综合指标。

最经典的做法就是用F1(选取

的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示

F1包含的信息越多。

因此在所有的线性组合中选取的F1应该是方差最打的,

故称F1为第一主成分。

如果第一主成分不足以代表原来P个指标的信息,再

考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息

就不需要再出现再F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。

主成分模型:

F1=*11X1*a21X2ap1Xp

jF2=*12X1+*22X2+"ap2Xp

Fp=a1pX〔+*2pX2+…appXp

J

满足以下条件:

1.每个主成分系数平方和为1即:

a2-a;j■■■api=1(i=1,2,…m)

2.主成分之前互不相关

即:

cov(Fi,Fi^0

3.主成分方差依次递减,即Var(FJ_Var(F2)一Var(Fp)

二•利用SPSS进行主成成分分析实例

以全国31个省市的8项经济指标为例,进行主成分分析第一步:

录入或调入数据(图1)。

国内生产

脣民辛肖费|固定资产|职工工资

货物周转

消费价格

繭品零售|工业产值

1

1394.09

2505.00

51901

8144.00

373.90

'17布

112,60

&43,43

2

920.11

272O.K)

34546

6501.00

342.90

11520

noeo

532.51

3

2849.52

1250.00

704S7

4339.00

2033.30

11520

115.S0

1234.85

4

1092.46

1250.00

29090

4721.00

717.30

11S.90

11560

697.25

5

33208

13B7.00

250.23

4134.00

73170

117.50

11680

419.39

6

辽宁

2793.37

239700

337.99

4911.00

1371.70

11S.10

11400

1940.55

7

吉林

11^.20

1872DO

320.45

4430.00

497.40

115.20

114.20

762.47

B

黒龙江

2014.53

2334.00

435.73

4145.00

924.80

115.10

114.30

124037

9

2462.57

5343.□□

995.46

9279.00

207.40

118.70

113.00

164295

10

5155.25

192600

1434.S5

5943.00

1025.SO

115.90

114.30

2026.64

11

3524.79

2249.00

1006.39

6619.00

75440

115.60

113.50

gi&59

12

2003.66

1254.OJ

474.0D

4E09.D0

9DS.30

114.SO

112.7Q

824.14

13

2160.52

23200D

56397

5357.00

E旧,30

115.20

114.4Q

433.67

14

P西

1205.11

1132.00

2G234

4211.00

411.70

115.90

115.90

571.04

15

ili^-

5002.34

1527.00

122955

5145.00

1196.50

117GO

114.20

2207,59

16

河鹵

300274

103J.UU

67035

4344.00

1674.40

11560

11490

1367.92

17

2391.42

1627.00

671.63

4665.00

S4S.00

120.00

llhoU

1230.72

18

湖南

219570

1406.00

422.61

4797.00

1011.60

119.00

115.50

643.93

19

5381.72

2699.00

1639.33

6250.00

65E.90

114.00

111.60

139635

20

广西「

1606.15

13H.00

392.59

5105.00

556.00

113.40

116.40

554.97

21

3B4.17

101400

198.35

5340.00

232.10

113.50

111.30

64.33

22

3534.D0

■261.00

82254

4645.00

902.30

118.50

117.00

1431.81

23

630.07

94200

153.84

4475.00

301.10

121.40

117.20

32472

24

1206.66

126100

334.00

6149.00

31040

121.30

11S.1Q

716.65

25

&5.98

qio.tu

1787

7362.00

4.20

I17.3D

114.9Q

5.57

26

1000.03

1200.00

30027

任GOQ

500.90

119.C0

117.00

W.^Q

27

甘肃

553.35

1007.00

114S1

£49300

507.00

119.60

11E.60

466.79

28

166.31

14458

47.76

676'<00

61.60

118.00

116.30

105.00

29

169.75

1355.00

HI93

5073.00

121.30

11710

115.30

114.40

30

S34.57

1469.00

37SS5

534S.00

339.00

11970

11670

42B.7B

图1原始数据(未经标准化)

第二步:

打开“因子分析”对话框

沿着主菜单的“AnalyzeDataReduction—Factor…”的路径(图2)打

开因子分析选项框(图3)

圉全国30T<市区毎济盍展的8顶將标-S

SPSSDataEditor

FileEditViewDataTransform

Analyze

GraphsUbiltiesWindowHelp

序旧|到暉|s|c|田]

Reports►

DescriptiveStatistics►

制卫貝1墻

P:

CormparBMeans

省俯

03内生产

GeneralLineorModelCorrelateRegression

Classify

职工工资|

1

北京

1394.E

F

1

8144.00

2

夭津

920.1

6

6501.00

3

河北

2SJ9.E

DataRedu匚lion

Factor...

4

lITE

1092.il

Scale

5

T蒙

832.E

NonparametricTests

3

4134.00

6

2793.3

MultipleResponse

9

4911®

图2打开因子分析对话框的路径

图3因子分析选项框

第三步:

选项设置。

首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。

在本例中,全部8个变量都要用上,故全部调入(图4)。

因无特殊需要,故不必理会“Value…”栏。

下面逐项设置。

图4将变量移到变量栏以后

1.设置Descriptives选项。

单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。

图5描述选项框

在Statistics栏中选中Univariatedescriptives复选项,则输出结果中

将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);

选中Initialsolution复选项,则会给出主成分载荷的公因子方差(这一栏数

据分析时有用)。

在CorrelationMatrix栏中,选中Coefficients复选项,则会给出原始变

量的相关系数矩阵(分析时可参考);选中Determinant复选项,则会给出相关系数矩阵的行列式,如果希望在Excel中对某些计算过程进行了解,可选此项,否则用途不大。

其它复选项一般不用,但在特殊情况下可以用到(本例不选)。

设置完成以后,单击Continue按钮完成设置(图5)。

2.设置Extraction选项。

打开Extraction对话框(图6)。

因子提取方法主要有7种,在Method栏中可以看到,系统默认的提取方法是主成分•因此对此栏不作变动,就是认可了主成分分析方法。

在Analyze栏中,选中Correlationmatirx复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中Covarianeematrix复选项,则因子分析基于数据的协方差矩阵进行分析。

对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。

在Display栏中,选中Unrotatedfactorsolution(非旋转因子解)复选

项,则在分析结果中给出未经旋转的因子提取结果。

对于主成分分析而言,这一

项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。

选中ScreePlot“山麓”图),则在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。

在Extract栏中,有两种方法可以决定提取主成分(因子)的数目。

一是根

据特征根(Eigenvalues)的数值,系统默认的是c"1。

我们知道,在主成分

分析中,主成分得分的方差就是对应的特征根数值。

如果默认’c二1,则所有方

差大于等于1的主成分将被保留,其余舍弃。

如果觉得最后选取的主成分数量不足,可

以将,c值降低,例如取’c=°.9;如果认为最后的提取的主成分数量偏多,则可以提高

c值,例如取c=1.10主成分数目是否合适,要在进行一轮分析以后才能肯定<因此,特征根数值的设定,要在反复试验以后才能决定。

一般而言,在初次分析时,最好降低特征根的临界值(如取’c=0.8),这样提取的主成分将会偏多,根据初次分析的结果,在第二轮分析过程中可以调整特征根的大小。

第二种方法是直接指定主成分的数目即因子数目,这要选中Numberof

factors复选项。

主成分的数目选多少合适?

开始我们并不十分清楚。

因此,首次不妨将数值设大一些,但不能超过变量数目。

本例有8个变量,因此,最大的

主成分提取数目为8,不得超过此数。

在我们第一轮分析中,采用系统默认的方法提取主成分。

图6提取对话框

需要注意的是:

主成分计算是利用迭代(Iterations)方法,系统默认的迭代次数是25次。

但是,当数据量较大时,25次迭代是不够的,需要改为50次、100次乃至更多。

对于本例而言,变量较少,25次迭代足够,故无需改动。

设置完成以后,单击Continue按钮完成设置(图6)。

3.设置Scores设置

选中Saveasvariables栏,则分析结果中给出标准化的主成分得分(在数

据表的后面)。

至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的“回归”(Regression)法即可。

图7因子得分对话框

选中Displayfactorscorecoefficientmatrix,贝U在分析结果中给出因

子得分系数矩阵及其相关矩阵。

设置完成以后,单击Continue按钮完成设置(图7)。

4.其它。

对于主成分分析而言,旋转项(Rotation)可以不必设置;对于数据没有缺失的情况下,Option项可以不必理会。

全部设置完成以后,点击OK确定,SPSS很快给出计算结果(图8)。

FactorAnalysis

Mean

std.Deviation

AH酬SN

国匹主产

1921.093

1474.30603

日口

民民消费

1745.923

ffil.64193

30

固定资产

511=5083

432,60540

30

职工工费

5457.633

1310-21005

30

货愉周转

666.1400

30

消那恪

117.2S67

2,02531

30

商品零售

114.9D67

1.69800

30

工业产值

862.9980

584.5B726

3D

 

CorrelationMatri?

cJ

居民垄费

固翅产

职工工费

tfi输周转

消费价格

商品零售

Correlatian田內生产

1.000

.267

.951

.191

.617

--273

-264

074

居民消费

1.CW

„426

.71B

-451

・-235

-.593

.363

固宦蚩产

.561

.426

1.000

,吗□□

.431

-.260

-,3sg

.792

關工I资

・归1

.710

1.000

-.356

-.539

104

丝物周转

巧1了

-.151

■4M1

-.^6

1.00D

-253

022

.639

消费价洛

-.273

-.235

2£0

-.135

-.252

1.000

.763

-.125

商品零善

•・264

-.593

叫3S9

-.539

■血

1.000

-.192

工业产倍

.874

.363

792

.104

.659

-.125

-.192

1.000

a.Determinant■1.133E-Oi

jd

图8主成分分析的结果

第四步,结果解读。

在因子分析结果(Output)中,首先给出的DescriptiveStatistics,第

一列Mean对应的变量的算术平均值,计算公式为

xj

第二列Std.Deviation对应的是样本标准差,计算公式为

n

'(Xj-Xj)2]1/2

iA

第三列AnalysisN对应是样本数目。

这一组数据在分析过程中可作参考

DescriptiveStatistics

Mean

Std.Deviation

AnalysisN

国内生产

1921.093

1474.80603

30

居民消费

1745.933

861.64193

30

固定资产

511.5083

402.88548

30

职工工资

5457.633

1310.21805

30

货物周转

666.1400

459.96699

30

消费价格

117.2867

2.02531

30

商品零售

114.9067

1.89808

30

工业产值

862.9980

584.58726

30

接下来是CorrelationMatrix(相关系数矩阵),一般而言,相关系数高的变量,大多会进入同一个主成分,但不尽然,除了相关系数外,决定变量在主成分中分布地位的因素还有数据的结构。

相关系数矩阵对主成分分析具有参考价值,毕竟

主成分分析是从计算相关系数矩阵的特征根开始的。

相关系数阵下面的

Determinant=1.133E-0.4是相关矩阵的行列式值,根据关系式det(7-R)=0可知,det(入l)=det(R),从而Determinant=1.133E-0.4=X1*入2*入3*入4*入5*入6*入7*入

&这一点在后面将会得到验证

CorrelationMatrixa

国内生产

居民消费

固定资产

职工工资

货物周转

消费价格

商品零售

工业产值

国内生产

1.000

.267

.951

.191

.617

-.273

-.264

.874

居民消费

.267

1.000

.426

.718

-.151

-.235

-.593

.363

固定资产

.951

.426

1.000

.400

.431

-.280

-.359

.792

职工工资

.191

.718

.400

1.000

-.356

-.135

-.539

.104

货物周转

.617

-.151

.431

-.356

1.000

-.253

.022

.659

消费价格

-.273

-.235

-.280

-.135

-.253

1.000

.763

-.125

商品零售

-.264

-.593

-.359

-.539

.022

.763

1.000

-.192

工业产值

.874

.363

.792」

.104

.659

-.125

-.192

1.000

a.Determinant=1.133E-04

在Communalities(公因子方差)中,给出了因子载荷阵的初始公因子方差(Initial)和提取公因子方差(Extraction),后面将会看到它们的含义。

Communalities

Initial

Extraction

国内生产

1.000

.945

居民消费

1.000

.800

固定资产

1.000

.902

职工工资

1.000

.875

货物周转

1.000

.857

消费价格

1.000

.957

商品零售

1.000

.929

工业产值

1.000

.903

ExtractionMethod:

PrincipalComponentAnalysis.

在TotalVarianceExplained(全全部解释方差)表的InitialEigenvalues(初始特

征根)中,给出了按顺序排列的主成分得分的方差(Total),在数值上等于相关系

数矩阵的各个特征根入,因此可以直接根据特征根计算每一个主成分的方差百分比(%ofVariance)。

由于全部特征根的总和等于变量数目,即有m=刀入i=8,故第一个特征根的方差百分比为入1/m=3.755/8=46.939,第二个特征根的百分比为入2/m=2.197/8=27.459,……,其余依此类推。

然后可以算出方差累计值

(Cumulative%)。

在ExtractionSumsofSquaredLoadings给出了从左边栏目中提取的三个主成分及有关参数,提取的原则是满足入>1,这一点我们在图6所示的对话框中进行了限定。

TotalVarianceExplained

Component

InitialEigenvalues

ExtractionSumsofSquaredLoadings

Total

%of

Variance

Cumulative

%

Total

%of

Variance

Cumulative

%

1

3.755

46.939

46.939

3.755

46.939

46.939

2

2.197

27.459

74.398

2.197

27.459

74.398

3

1.215

15.186

89.584

1.215

15.186

89.584

4

.402

5.031

94.615

5

.213

2.660

97.275

6

.138

1.724

98.999

7

6.5E-02

.818

99.817

8

1.5E-02

.183

100.000

ExtractionMethod:

PrincipalComponentAnalysis.

ScreePlot

ComponentNumber

图8特征根数值衰减折线图(山麓图)

主成分的数目可以根据相关系数矩阵的特征根来判定,如前所说,相关系数

矩阵的特征根刚好等于主成分的方差,而方差是变量数据蕴涵信息的重要判据之一。

根据入值决定主成分数目的准则有三:

i只取>1的特征根对应的主成分

从TotalVarianeeExplained表中可见,第一、第二和第三个主成分对应的入

值都大于1,这意味着这三个主成分得分的方差都大于1。

本例正是根据这条准

则提取主成分的。

ii累计百分比达到80%~85%以上的入值对应的主成分

在TotalVarianceExplained表可以看出,前三个主成分对应的入值累计百分比达到89.584%,这暗示只要选取三个主成分,信息量就够了。

iii根据特征根变化的突变点决定主成分的数量

从特征根分布的折线图(ScreePlo)上可以看到,第4个入值是一个明显的折点,这暗示选取的主成分数目应有p<4(图8)。

那么,究竟是3个还是4个呢?

根据前面两条准则,选3个大致合适(但小有问题)。

在ComponentMatrix(成分矩阵)中,给出了主成分载荷矩阵,每一列载荷值都显示了各个变量与有关主成分的相关系数。

以第一列为例,0.885实际上是国内生产总值(GDP)与第一个主成分的相关系数。

将标准化的GDP数据与第一主成分得分进行回归,决定系数R2=0.783(图9),容易算出R=0.885,这正是GDP在第一个主成分上的载荷。

ComponentMatrixa

Component

1

2

3

国内生产

.885

.384

.121

居民消费

.607

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > PPT模板 > 商务科技

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2