主成分分析方法在主成分分析方法中的应用.docx

上传人:b****4 文档编号:5992683 上传时间:2023-05-09 格式:DOCX 页数:27 大小:130.12KB
下载 相关 举报
主成分分析方法在主成分分析方法中的应用.docx_第1页
第1页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第2页
第2页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第3页
第3页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第4页
第4页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第5页
第5页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第6页
第6页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第7页
第7页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第8页
第8页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第9页
第9页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第10页
第10页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第11页
第11页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第12页
第12页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第13页
第13页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第14页
第14页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第15页
第15页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第16页
第16页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第17页
第17页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第18页
第18页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第19页
第19页 / 共27页
主成分分析方法在主成分分析方法中的应用.docx_第20页
第20页 / 共27页
亲,该文档总共27页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

主成分分析方法在主成分分析方法中的应用.docx

《主成分分析方法在主成分分析方法中的应用.docx》由会员分享,可在线阅读,更多相关《主成分分析方法在主成分分析方法中的应用.docx(27页珍藏版)》请在冰点文库上搜索。

主成分分析方法在主成分分析方法中的应用.docx

主成分分析方法在主成分分析方法中的应用

主成分分析与因子分析及SPSS实现(-):

原理与方法

(2014-09-0813:

33:

57)

一、主成分分析

(1)问题提出

在问题研究中,为了不遗漏和准确起见,往往会面而俱到,取得大量的指标来进行分析。

比如为了研究某种疾病的彩响因素,我们可能会收集患者的人口学资料、病史、体征、化验检查等等数十项指标.如果将这些指标直接纳入多元统计分析,不仅会便模型变得复杂不稳定,而且还有可能因为变量之间的多重共践性引起较大的误差.有没有一种办法能对信息进行浓缩,减少变量的个数,同时消除多重共践性?

这肘,主咸分分析隆重登场。

(2)主成分分析的原理

主成分分析的本质是坐标的族转变换,将凍始的n个变量进行重新的线性组合,生成n个新的变量,他们之间互不相关,称为n个“成分”。

同时按照方差最大牝的原则,保证第一个成分的方差最大,然后依次递减。

这n个成分長按照方差从大到小排列的,其中前m个成分可能就包含了原始变量的大部分方差(及变异信息)。

那么这m个咸分就成为原始变苣的“主成分”,他们包含了原始变It的大部分信息。

注意得到的主成分不是原始变量筛选后的剩余变量,而是原始变量经过重新组合后的“综合变量”。

我们以最简单的二维数据来直观的解释主成分分析的原理。

假设现在有两个变itXI、X2,在坐标上画出散点图如下:

x2

XI与x2相关

可见,他们之间存在相关关系,如果我们将坐标轴整体逆时针敲转45°,变成新的坐标系Yl、Y2,如下图:

Y1与Y2不相关

根据坐标变化的原理.我们可以算出:

Y1=sqrt

(2)/2*XI+sqrt

(2)/2♦X2

Y2=sqrt

(2)/2♦XI-sqrt

(2)/2♦X2

其中sqrt(x)为x的平方根。

通过对XI、X2的重新进行践性组合,得到了两个新的变itYl、Y2。

此时,Yl、Y2变得不再相关,而且Y1方向变异(方差)较大,Y2方向的变异(方差)较小,这时我们可

以提取Y1作为XI、X2的主咸分,參与后续的统计分析,因为它携帶了原始变量的大部分信息。

至此我们解决了两个问题:

降维和消除共线性。

对于二维以上的数据,就不能用上面的几何图形直观的表示了,只能通过矩阵变换求解,但是本质思想爰一样的。

2.因子分析

(一)原理和方法:

因子分析是主成分分析的扩展。

在主咸分分析过程中,新变量是原始变量的线性组合,即将多个原始变量经过线性(坐标)变换得到新的变量。

因子分析中,長对原始变量间的在相关结构进行分组,相关性强的分在一组,组间相关性较弱,这样各组变量代表一个基本要素(公共因子)・通过原始变董之间的复杂关系对原始变量进行分解,徉到公共因子和特殊因子。

将原始变量表示成公共因子的线性组合。

其中公共因子是所有原始变量中所共同具有的特征,而轄殊因子则是原始变量所轄有的部分.因子分析强调对新变it(因子)的实际意义的

举个例子:

比如在市场调査中我们收集了食品的五项指标(xl-x5):

味道、价格、风味、長否快餐、能量,经过因子分析,我们发现了;

xl=0.02♦zl+0.99♦z2+el

x2=0.94*zl-0.01*z2+e2

x3=0・13車zl+0.98*z2+e3

x4=0.84♦zl+0.42♦z2+e4

x5=0.97♦zl-0.02♦z2+el

(以上的数字代表实际为变量间的相关系数,值越大,相关性趁大)

第一个公因子Z1主要与价格、咼否快餐、能量有关,代表“价格与营养”

第二个公因子z2主要与味道、风味有关,代表“口味”

el-5是特殊因子,長公因子中无法解释的,在分析中一般略去.

同时,我们也可以将公因子zl.z2表示成原始变量的践性组合,用于后续分析。

(二)使用条件:

(1)样本量足够大。

通常要求祥本量是变量数目的5倍以上,且大于100例.

(2)原始变董之间具有相关性。

如果变量之间彼此独立,无法使用因子分析。

在SPSS中可用KM0检脸和Bartlett球形检验来判斷。

(3)生成的公因子要有实际的意义,必要时可通过因子旅转(坐标变化)来达到。

三、主成分分析和因子分析的联系与区别

联系^两者都是降维和信息浓缩的方法。

生成的新变量均代表了原始变量的大部分信息且互相独立,都可以用于后续的回归分析、判别分析、聚类分析等等。

区别:

(1)主成分分析是按照方差最大化的方法生咸的新变量,强调新变量贡献了多大比例的方差,不关心新变量是否有明确的实际意义.

(2)因子分析着重要求新变量具有实际的意义,能解释原妁变量间的在结构。

下一篇文章,将介绍主成分分析和因子分析的在SPSS中的实现。

主成分分析与因子分析及SPSS实现

(二):

实例讨论

(2014-09-1306:

34:

09)

标签^分类:

SPSS

SPSS

教育

统计

因子分析

SPSS没有提供单独的主成分分析方法,而是混在因子分析当中,下面通过一个例子来讨论主成分分析与因子分析的实現方法及相关问题。

一、问题提出

男子十项全能比赛包含100米跑、姚远、跳高、推杆琳、铅球、铁饼、标枪、400米跑、1500米抱、110米跨栏十个项目,总分为各个项目得分之和.为了分析十项全能主要考察哪些方面的能力,以便有针对性的进行训竦,研究者收集了134个顶圾运动员的十项全能成绩单,将通过因子分析来达到分析目的。

二、分析过程变畳视图:

名称

类型

宽度

小数

标签

1

百米跑

数值(N)

8

2

100来(秒)

2

跳远

数值(N)

8

2跳远(米)

3

数值(N)

8

2铅球(米)

4

跳高

数值(N)

8

2跳高(米)

5

四百米跑

数值(N)

8

2

400米渺)

6

1百1十米栏

数值(N)

8

2

110来栏(秒)

7

铁饼

数值(N)

8

2铁饼(米)

3

撑杆跳

数值(N)

8

2撑杆跳(来)

9

标枪

数值(N)

8

2标枪(米)

10

一千五百米跑

数值(N)

8

2

估00米(秒)

廿

总分

数值(N)

8

0

总分

数据视图(部分〉:

百来跑

铅球

四百采跑

一百一+米栏

1

11.25

7.43

15.48

227

4890

15.13

49.26

2

1087

745

1497

197

4771

1446

4436

3

11.18

7.44

14.20

1.97

4829

14.81

43.66

4

1062

738

1502

203

4906

1472

4480

6

11.02

7.43

12.92

1.97

47.44

14.40

41.20

6

10.83

7.72

13.58

2.12

4834

14.18

43.06

7

11.18

7.05

14.12

2.06

4934

14.39

41.68

―8__I

11.05

6.95

15.34

2.00

4821

14.36

41.32

-_L—

1115

712

1452

203

4915

1466

4236

―10_1

11.23

7.28

15.25

1.97

4860

14.76

48.02

■H_J

10.94

7.45

15.34

1.97

49.94

14.25

41.66

12

11.18

7.34

14.48

1.94

4902

15.11

42.76

11.02

7.29

12.92

2.06

4823

14.94

39.54

14

1099

737

1361

197

4783

1470

4388

15|

11.03

7.45

14.20

1.97

48.94

15.44

41.66

~~I

1109

708

1451

203

4989

1478

4320

17

11.46

6.75

16.07

2.00

51.28

16.06

60.66

菜单选择(分析->降维->因子分析):

分析®直销(吵图形(£)实用程序刨窗口辿)

报告

描述统计

表(T)

 

比较均值迦)卜

—般线性模型(§)►

广兴线性模型►

混合複型©)►

相奂(£)►

回归迟)►

对数线性穆型

(2)►

神经网络►

分类匡)►

度fi(S)>

非参数絵脸尅)b

预测①卜

百釆跑一百一十米栏

48.90

15.13

4771

14.46

48.29

14.81

49.06

14.72

47.44

1440

48.34

14.18

49.34

14.39

48.21

14.36

An4r

4ACC

品因子分析(£)•••

B对应分析9)...止|最优尺度©)••・■4^23K94

打开因子分析的主界面,将十项成绩选入”变量“框中(不要包含总分),如下:

 

点击”描述“按钮,打开对话框,选中”系数“和”KMO和Bartlett球形度检验S

□单变疑描述性包)

0原贻分析结果

(1)

系数£)!

□逆模型迥)

□显著性水平©)□再生(g)i.行列式(0反腆象

QKMOWBartlett的球形度检验(K)

[继续][取消1[帮助]

上图相关解释:

”系数“:

为变量之问的相关系数阵列,可以直观的分析相关性.

”KMO和Bartlett球形度检验“:

用于定量的检验变量之间是否具有相关性。

点击”继续“,回到主界面,点击”抽取打开对话框。

基于特征值%

”方法“主成分”输出“==>”未旗转的因子解“和”碎石图“•”抽取“二〉其余选择默认。

 

 

解欷

1因子抽取的方法:

选取默认的主成分法即可,其余方法的计算结果可能有所差异。

2输出:

”未茨转的因子解”极为主成分分析结果。

碎石图有助于我们判斷因子的重要性(详细介绍见后面)。

3抽取:

为抽取主成分(因子)的方法,一般是基于特征值大于1,默认即可。

点击”继续“,回到主界面,点击”确定进入分析。

输出的主要表格如下:

(1)相关性检验

因子分析要求变量之间有相关性,所以首先要进行相关性检验。

首先输出的是变量之间的相关系败矩阵:

10貲比阵

loo

松琲(米)

统商(粉

400:

®)

悄干劇和

1500•-((:

WO紿)

1.000

•・691

-.420

Y64

.6&8

.751

-.353

-.627

-.344

.25

•'

-.691

1.000

.391

471

-636

-.654

.375

.632

.446

-.35

19球(米)

-.420

.391

1000

321

-U2

-.489

.856

643

703

.20

昨(*)

•364

.471

.321

1.000

-.275

-.487

.376

.472

.338

・.13

相0砂)

.698

-.636

-.142

・275

1000

655

・154

-521

-.150

55

他鴉栏的)

.751

-.654

-.489

-487

.655

1000

U03

-.709

-.350

J5

-.353

.375

.856

.376

-.154

-.403

1.000

.620

.618

.28

-,«27

.652

.643

472

-521

-709

620

1000

557

柘枪(旳

.344

.446

.703

.338

-150

・_350

.618

.557

1.000

.04

1500it:

(b)

.254

-.356

.202

-.132

554

.155

・?

B8

-.070

.045

1.00

可以直观的看到,变量之问有相关性。

但需要检验.接着输出的是相关性检轻:

KMOf[|Bartlett的检脸

取样足够度的Kais日「・Meye卜Olkin吃/

.788

Bartlett心球形度检验近似卡方

211.586

df

45

Sig.

.000

上图有两个指标:

笫一个長KMO值,一般大于0・7就说明不了之问有相关性了。

笫二个是Bartlett球形度检验,P值<0.001o综合两个指标,说明变量之间存在相关性,可以进行因子分析。

否则,不能进行因子分析。

(2)提取主成分和公因子

接下来输出主成分结果:

昭:

帑的总方羌

成f分

初始特征值

提取平方和较人

合计

方差的%

累枳%

台计

方羌的%

•累枳贻

1

5.024

50.235

50.235

5.024

50.235

50.235

2

2.080

20.799

71.034

2.080

20.799

71.034

3

.735

7.355

78.389

4

.686

6.857

85.246

5

.376

3.763

89.009

6

.302

3.021

92.030

7

.286

2.855

94.885

8

.224

2.238

97.123

9

.205

2.047

99.170

10

.083

.830

100.000

提取方法:

主成份分析,

这就長主成分分析的结果,表中笫一列为10个成分;第二列为对应的”特征值“,表示所解释的方差的大小;笫三列为对应的成分所包含的方差占总方差的百分比;笫四列为累计的百分比.一般来说.选择”特征值“大于1的成分作为主成分,这也是SPSS默认的选择。

在本例中,成分1和2的特征值大于1,他们合计能解释71.034%的方差,还算不错。

所以我们可以提取1和2作为主成分,抓住了主要矛盾,其余成分包含的信息较少,故弃去。

下面,输出碎石图,如下:

碎石图

成分数

碎石图来源于地质学的概念。

在岩层斜坡下方往往有很多小的碎石,其地质学意义不大。

碎石图以特征值为纵轴,成分为横轴。

前面陡峭的部分特征值大,包含的信息多,后面平坦的部分特征值小,包含的佶息也小。

由图直观的看出,成分1和2包含了大部分信息,从3开始就进入平台了。

接下来,捨出提取的成分矩阵:

成份矩附

成份

1

2

20米(秒)

-.804

.294

跳远(米)

.810

-.285

铅球(米)

.726

.569

跳髙傣)

.600

-.011

400米(秒)

-.660

.616

门0米栏(秒)

-.837

.189

铁饼(米)

.687

.601

瘁杆跳咪)

.872

.089

様枪(米)

.657

.430

1500米(秒)

-.187

.787

提取方法:

主成

乱已提取了2个成份。

上表中的数值为公因子与原始炎量之间的相关系数,绝对值越大,说明关系越密切。

公因子1和9个运动项目都正相关(注意更步运动运动的计分方式,时间越短,分数朋高),看来只能称为“综合运动”因子了。

公因子2与铁饼、铅球正相关,与1500米施、400米跑负相关,这究竟代表什么意思呢?

看来只能成为“不知所云”因子了。

(三)因子旅转

前面提取的两个公因子一个是大而全的“媒合因子”.一个不知所云.徉到这样的结果,无疑長分析的失败。

不过,不要灰心,我们可以通过因子的茨转来荻得更好的解释。

在主界面中点击“茨转”按钮,打开对话框,“方法”二〉“最大方差法”,“输出”=>“茨转解”。

的因子分析:

旋转

「方法

◎无◎最犬四次方值法©)

@最大方差法电)©最犬平衡值法(E)

©直接Oblimin方法(0)OPromax(P)

Delta(D):

oKappa(K)4

「輸出

a旋转^(R>a|SSS(Lj

最犬收敛性送代次数凶:

[玉羨][取消]]帮助j

点击“继续”,回到主界面点击“确认”进行分析。

输出结果如下:

1

2

100米(秒)冼远(米)铅球咪)跳高(米)

400米(秒)110米栏(秒)铁饼(米)押杆跳(米)标枪(米)

1500米(秒)

・785-783-.134•442

.903

737-.084-.570-.179

.678

-.341

.352

.913

.406-.009-.440

.909

.666

.765

.441

提取方法:

主成份

旋转法:

具有Kaiser様淮化的正交旋转法。

日・*•!

3I迭代后收妇

这長选择后的成分矩阵。

经过放转,可以看出:

公因子1得分越高.所有的跑步和跨栏咸绩越差,而跳远、撑杆跳等需要助跑类项目的成绩也越差,所以公因子1代表的是奔跑能力的反向指标,可称为“奔龜能力”。

公因子2与铁饼和铅球的正相关性很高,与标枪、撑杆跳等需要上肢力量的项目也正相关,所以该因子可以成为“上肢力量”。

经过族转,可以看出公因子有了更合理的解释。

(四)结果的保存在最后,我们还要将公因子储存下来供后续使用。

点击“得分”按钮,打开对话框,选中“保存为变量”,方法采用默认的“回归”方法,同时选中“显示因子得分系数矩阵”•

因子分析:

因子得分

gj保存为变>(&)

访法

@回归(旦)

◎Bartlett(B)

©Anderson-Rubin(A)

♦••••••••••••・••••・••••••••••••・•••••••••••・•••••••••・••••••・•••

[雄簇][取湧H帮助]

SPSS会自动生成2个新变量,分别为公因子的取值,放在数据的最后。

同时会输出一个因子系数表格:

鹵分得分佥效矩阵

成分

1

2

M0米(秒)

-.160

.142

冼远(米)

.161

-.137

铅球(米)

.145

.273

跳高咪)

.119

-.005

400米(秒)

-.131

.296

110米栏(秒)

-.167

091

铁讲(米)

.137

.289

撑杆跳侏)

.174

.043

标枪(米)

.131

.207

1500米(秒)

-.037

.378

提取方法:

主成怡构成得分。

由上图,我们可以写出公因子的表达式(用Fl、F2代表两个公因子,Zl^ZlO分别代表原妁变*):

F1=

-0.16*Z1+O.161*Z2+0.145*Z3+0.199*Z4-0.131*Z5-0.167*Z6+0.137*Z7+0.174*Z8+0.131*Z9-O.037*Z10F2同理,略去。

注意,这里的变量zrzio,Fl、F2不再長原始变量,而是标准正态变换后的变量。

当前位置:

一起大数据>自学中心>软件>SPSS>正文

SPSS主成分分析与因子分析之比校及实证分析

•xsndle发布于2015-07-20

•分类:

SPSS/数据分析

•阅读(399)

・评论⑴

来自blog.csdn.net/ysuncn/article/details/1924502

一、问题的提出

在科学研究或日常生活中,常常需要判断某一事物在同类事物中的好坏、优劣程度及其发展规体等问鹰。

而影响事物的待征及其发展規律的因素(指标)是多方面的,因此,在对该亭物进行研究时,为了能更全面、准确地反映出它的特征及其发展规律,就不应仅从单个指标或单方面去评价它,而应考虑到与其有关的多方面的因素,即研究中需要引入更多的与该事物有关系的变畳,来对其进行综合分析和评价。

多变畳大样本资料无疑能给研究人员或决策者提供很多有价值的信息,但在分析处理多变量问题时,由于众变量之间往往存在一定的相关性,使得观测数据所反映的信息存在重叠现象。

因此为了尽董避免信息重叠和减轻工作量,人们就往往希望能找出少数几个互不相关的综合变it来尽可能地反映原来数据所含有的绝大部分信息。

而主成分分析和因子分析正是为解决此类问題而产生的多元统计分析方法。

近年来,这两种方法在社会经济问题研究中的应用越来越多,其应用囤也倉加广泛。

因子分析曼主成分分析的推广和发展,二者之间就势必有着许多共同之处,而SPSS软件不能直接进行主成分分析,致便一些应用者在使用SPSS进行这两种方法的分析时,常常会出现一些混淆性的错误,这难免会使人们对分析结果产生质履.因此,有必要在运用SPSS分析时,将这两种方法加以严格区分,并针对实际问題选择正确的方法。

二、主成分分析与因子分析的联系与区别

两种方法的出发点都是变董的相关系数矩阵,在损失较少信息的前提下,把多个变量(这些变量之间要求存在较强的相关性,以保证能从原始变量中提取主成分)综合成少数几个综合变量来研究总体各方面信息的多元统计方法,且这少数几个综合变量所代表的信息不能重叠,即变量间不相关.

主要区别:

1.主成分分析是通过变量变换把注意力集中在具有较大变差的那些主成分上,而舍弃那些变差小的主成分;因子分析是因子模型把注意力集中在少数不可观测的潜在变董(即公共因子)上,而舍弃特殊因子。

2.主成分分析長将主成分表示为原观测变量的线性组合,

即乳沖

H

(1)

主成分的个数i=原变量的个数P,其中j=l,2,…,p,用是相关矩阵的特征值所对应的特征向量矩阵中的元素,是原始变量的标准化数据,均值为0,方差为1。

其实质是P维空间的坐标变换,不改变原始数据的结构。

而因子分析则是对原观测变畳分解成公共因子和特殊因子两部分.因子模型如式

(2)•

H

(2)

其中i=l,2,…,p,m

是因子分析过程中的初始因子载荷矩阵中的元素,四是第j个公共因子,s是第i个原观测变量的轄殊因子。

且此处的X与四的均值都为0,方差都为1。

3.主成分的各系数用,長唯一确定的、正交的.不可以对系数矩阵进行任何的茨转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的、可以进行放转的,且该矩阵表明了原变量和公共因子的相关程度.

4.主咸分分析,可以通过可观測的原变量X直接求得主成分Y,并具有可逆性:

因子分析中的载荷矩阵是不可逆的,只能通过可现测的原变量去估计不可观测的公共因子,的公共因子得分的估计值等于因子得

分系数矩阵与原观测变量标准化后的矩阵相乘的结果。

还有,主成分分析不可以像因子分析那样进行因子旅转处理。

5.综合排名。

主成分分析一般依据第一主成分的得分排名,若第一主成分不

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2