主成分分析聚类分析比较.docx

上传人:b****7 文档编号:16512606 上传时间:2023-07-14 格式:DOCX 页数:16 大小:162.57KB
下载 相关 举报
主成分分析聚类分析比较.docx_第1页
第1页 / 共16页
主成分分析聚类分析比较.docx_第2页
第2页 / 共16页
主成分分析聚类分析比较.docx_第3页
第3页 / 共16页
主成分分析聚类分析比较.docx_第4页
第4页 / 共16页
主成分分析聚类分析比较.docx_第5页
第5页 / 共16页
主成分分析聚类分析比较.docx_第6页
第6页 / 共16页
主成分分析聚类分析比较.docx_第7页
第7页 / 共16页
主成分分析聚类分析比较.docx_第8页
第8页 / 共16页
主成分分析聚类分析比较.docx_第9页
第9页 / 共16页
主成分分析聚类分析比较.docx_第10页
第10页 / 共16页
主成分分析聚类分析比较.docx_第11页
第11页 / 共16页
主成分分析聚类分析比较.docx_第12页
第12页 / 共16页
主成分分析聚类分析比较.docx_第13页
第13页 / 共16页
主成分分析聚类分析比较.docx_第14页
第14页 / 共16页
主成分分析聚类分析比较.docx_第15页
第15页 / 共16页
主成分分析聚类分析比较.docx_第16页
第16页 / 共16页
亲,该文档总共16页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

主成分分析聚类分析比较.docx

《主成分分析聚类分析比较.docx》由会员分享,可在线阅读,更多相关《主成分分析聚类分析比较.docx(16页珍藏版)》请在冰点文库上搜索。

主成分分析聚类分析比较.docx

主成分分析聚类分析比较

 

主成分分析、聚类

分析的比较与应用

 

主成分分析、聚类

分析的比较与应用

摘要:

主成分分析、聚类分析是两种比较有价值的多元统计方法,但同时也是在使用过程中容易误用或混淆的几种方法。

本文从基本思想、数据的标准化、应用上的优缺点等方面,详细地探讨了两者的异同,并且

举例说明了两者在实际问题中的应用。

关键词:

spss、主成分分析、聚类分析

一、基本概念

主成分分析就是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。

综合指标即为主成分。

所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。

因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。

聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。

其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。

二、基本思想的异同

(一)共同点

主成分分析法和因子分析法都是用少数的几个变量(因子)来综合反映原始变量(因子)的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85%以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。

并且新的变量彼此间互不相关,消除了多重共线性。

这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。

在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1,x2,...,x3,经过坐标变换,将原有的p个相关变量xi作线性变换,每个主成分都是由原有p个变量线性组合得到。

在诸多主成分Zi中,Z1在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。

因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。

公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。

对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。

聚类分析的基本思想是:

采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。

也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系。

聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。

对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。

(二)不同之处

主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量),使它们尽可能多地保留原始变量的信息,且彼此不相关。

它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0,或样本向量彼此相互垂直的随机变量),在这种变换中,保持变量的总方差(方差之和)不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。

依次类推。

若共有p个变量,实际应用中一般不是找p个主成分,而是找出m(m

主成分分析可以作为因子分析的一种方法出现。

因子分析是寻找潜在的起支配作用的因子模型的方法。

因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。

对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

通过因子分析得来的新变量是对每个原始变量进行内部剖析。

因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。

具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。

因子分析只能解释部分变异,主成分分析能解释所有变异。

聚类分析算法是给定m维空间R中的n个向量,把每个向量归属到k个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。

聚类可以理解为:

类内的相关性尽量大,类间相关性尽量小。

聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律。

从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量。

三、数据标准化的比较

主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1的无量纲数据。

而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,

并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化。

不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化。

在构造因子变量时采用的是主成分分析方法,

主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价。

聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。

因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响。

不同方法进行标准化,会导致不同的聚类结果要注意变量的分布。

如果是正态分布应该采用z分数法。

四、应用中的优缺点比较

(一)主成分分析

1、优点

首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。

其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。

再次它在应用上侧重于信息贡献影响力综合评价。

2、缺点

当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。

命名清晰性低。

(二)聚类分析

1、优点

聚类分析模型的优点就是直观,结论形式简明。

2、缺点

在样本量较大时,要获得聚类结论有一定困难。

由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,

而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。

五.案例分析:

下表是关于全国31个省市的8项经济指标,以此为例,进行主成分分析。

省份

国内生产

居民消费

固定资产

职工工资

货物周转

消费价格

商品零售

工业产值

北京

1394.89

2505

519.01

8144

373.9

117.3

112.6

843.43

天津

920.11

2720

345.46

6501

342.8

115.2

110.6

582.51

河北

2849.52

1258

704.87

4839

2033.3

115.2

115.8

1234.85

山西

1092.48

1250

290.9

4721

717.3

116.9

115.6

697.25

内蒙

832.88

1387

250.23

4134

781.7

117.5

116.8

419.39

辽宁

2793.37

2397

387.99

4911

1371.7

116.1

114

1840.55

吉林

1129.2

1872

320.45

4430

497.4

115.2

114.2

762.47

黑龙江

2014.53

2334

435.73

4145

824.8

116.1

114.3

1240.37

上海

2462.57

5343

996.48

9279

207.4

118.7

113

1642.95

江苏

5155.25

1926

1434.95

5943

1025.5

115.8

114.3

2026.64

浙江

3524.79

2249

1006.39

6619

754.4

116.6

113.5

916.59

安徽

2003.58

1254

474

4609

908.3

114.8

112.7

824.14

福建

2160.52

2320

553.97

5857

609.3

115.2

114.4

433.67

江西

1205.11

1182

282.84

4211

411.7

116.9

115.9

571.84

山东

5002.34

1527

1229.55

5145

1196.6

117.6

114.2

2207.69

河南

3002.74

1034

670.35

4344

1574.4

116.5

114.9

1367.92

湖北

2391.42

1527

571.68

4685

849

120

116.6

1220.72

湖南

2195.7

1408

422.61

4797

1011.8

119

115.5

843.83

广东

5381.72

2699

1639.83

8250

656.5

114

111.6

1396.35

广西

1606.15

1314

382.59

5105

556

118.4

116.4

554.97

海南

364.17

1814

198.35

5340

232.1

113.5

111.3

64.33

四川

3534

1261

822.54

4645

902.3

118.5

117

1431.81

贵州

630.07

942

150.84

4475

301.1

121.4

117.2

324.72

云南

1206.68

1261

334

5149

310.4

121.3

118.1

716.65

西藏

55.98

1110

17.87

7382

4.2

117.3

114.9

5.57

陕西

1000.03

1208

300.27

4396

500.9

119

117

600.98

甘肃

553.35

1007

114.81

5493

507

119.8

116.5

468.79

青海

165.31

1445

47.76

5753

61.6

118

116.3

105.8

宁夏

169.75

1355

61.98

5079

121.8

117.1

115.3

114.4

新疆

834.57

1469

376.96

5348

339

119.7

116.7

428.76

经过输入数据,设置各项,Spss最终输出结果如下:

描述统计量

均值

标准差

分析N

国内生产

1921.092667

1.4748060E3

30

居民消费

1745.93

861.642

30

固定资产

511.508667

402.8853614

30

职工工资

5457.63

1310.218

30

货物周转

666.140000

459.9669850

30

消费价格

117.287

2.0253

30

商品零售

114.907

1.8981

30

工业产值

862.998000

584.5872585

30

相关矩阵a

国内生产

居民消费

固定资产

职工工资

货物周转

消费价格

相关

国内生产

1.000

.267

.951

.191

.617

-.273

居民消费

.267

1.000

.426

.718

-.151

-.235

固定资产

.951

.426

1.000

.400

.431

-.280

职工工资

.191

.718

.400

1.000

-.356

-.135

货物周转

.617

-.151

.431

-.356

1.000

-.253

消费价格

-.273

-.235

-.280

-.135

-.253

1.000

商品零售

-.264

-.593

-.359

-.539

.022

.763

工业产值

.874

.363

.792

.104

.659

-.125

a.行列式=.000

相关矩阵a

商品零售

工业产值

相关

国内生产

-.264

.874

居民消费

-.593

.363

固定资产

-.359

.792

职工工资

-.539

.104

货物周转

.022

.659

消费价格

.763

-.125

商品零售

1.000

-.192

工业产值

-.192

1.000

a.行列式=.000

公因子方差

初始

提取

国内生产

1.000

.945

居民消费

1.000

.800

固定资产

1.000

.902

职工工资

1.000

.875

货物周转

1.000

.857

消费价格

1.000

.957

商品零售

1.000

.929

工业产值

1.000

.903

提取方法:

主成份分析。

解释的总方差

成份

初始特征值

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

1

3.755

46.939

46.939

3.755

46.939

46.939

2

2.197

27.459

74.398

2.197

27.459

74.398

3

1.215

15.186

89.584

1.215

15.186

89.584

4

.402

5.031

94.615

5

.213

2.660

97.275

6

.138

1.724

98.999

7

.065

.818

99.817

8

.015

.183

100.000

提取方法:

主成份分析。

成份矩阵a

成份

1

2

3

国内生产

.885

.384

.121

居民消费

.607

-.598

.271

固定资产

.912

.161

.212

职工工资

.466

-.722

.368

货物周转

.486

.738

-.275

消费价格

-.509

.252

.797

商品零售

-.620

.594

.438

工业产值

.823

.427

.211

提取方法:

主成份。

a.已提取了3个成份。

从“解释的总方差”一表中可以得出相关系数矩阵的特征值为

λ1=3.755,λ2=2.197,λ3=1.215,λ4=0.402,5=0.213,λ6=0.318,

λ7=0.065,λ8=0.015

前三个成分的特征值都大于1,并且累计贡献值达到了89.584%,所以选取了前三个因素作为主成分。

将“成分矩阵”表中没一列值分别除以特征值的开方,就得出了每一个特征值对应的特征向量,由此可以得出第一,第二,第三主成分表达式(令各因素为X1,X2……X8)

F1=0.4567*X1+0.4095*X2+0.8274*X3+0.735*X4+1.053*X5-1.37*X6-2.4318*X7+6.72*X8

F2=0.1982*X2-0.4034*X2+0.1501*X3-1.1387*X4+2.0468*X5+0.6784*X6+2.33*X7+3.4864*X8

F3=0.0624*X1+0.1828*X2+0.1923*X3+0.5804*X4-0.5959*X5+2.1455*X6+1.718*X7+1.7228*X8

根据三个主成分表达式,通过SPSS的转换功能,就可以得出成分结果:

省份

F1

F2

F3

北京

13705.16

-5881.95

7046.91

天津

10446.78

-5197.36

5630.69

河北

15956.23

3467.83

4713.74

山西

9721

-1372.14

4315.87

内蒙

7390.3

-1650.26

3462.48

辽宁

19564.53

3621.65

6335.88

吉林

10015.51

-1507.11

4506

黑龙江

14049.7

1160.94

5132.78

上海

21778.77

-5587.41

9863.21

江苏

22960.75

3202.46

7724.23

浙江

14746.51

-2511.37

6240.97

安徽

11271.67

-213.01

4438.96

福建

9819.83

-3990.12

4892.59

江西

8197.8

-1804.89

3979.48

山东

23365.65

5193.37

7352.74

河南

15953.51

3670.48

4892.37

湖北

14283.24

955.72

5312.38

湖南

11746.87

-168.98

4564.4

广东

20630.81

-2620.93

8383.58

广西

9209.94

-2542.96

4455.72

海南

5248.71

-5674.8

3899.05

四川

16350.02

2217.64

5689.45

贵州

6135.28

-3224.34

3679.63

云南

9817.7

-2591.24

4871.34

西藏

5522.4

-8464.57

4950.51

陕西

8549.38

-1775.92

4085.61

甘肃

8034.14

-3509.36

4391.51

青海

5266.56

-6247.95

4221.22

宁夏

4872.95

-5290.88

3791.89

新疆

8015.83

-3918.56

4491.04

综合上述可知,各省份的8个经济指标中国内资产,居民消费,固定工资可以作为衡量经济的主要成分。

聚类分析根据分类对象的不同,可分为样本聚类和变量聚类。

样本聚类又称Q型聚类,对样本进行分类。

变量聚类又称R型聚类,对变量进行分类。

Q型聚类实例分析

例:

一组有关12盎司啤酒成分和价格的数据,变量包括beername(啤酒名称)、

calorie(热量卡路里)、

sodium(纳含量)、

alcohol(酒精含量)、

cost(价格)。

要求根据12盎司啤酒的各成分含量及12盎司啤酒的价格对20种啤酒进行分类。

分析(Analysis)→分类(Classify)→分层聚类(HierarchicalCluster)

Q型聚类选个案,R型聚类选变量。

相似性矩阵:

表格形式给出任意两个样本的相关指数。

方法:

聚类方法:

组间聚类,组内聚类,最近邻元素法,最远邻元素法

度量标准:

平方Euclidean距离,Euclidean距离,Pearson相关性。

标准化:

如果参与聚类的变量的量纲不同会导致错误的聚类结果。

因此在聚类过程进行之前必须对变量进行标准化。

常用的是Z分数法和全距从0-1。

这是常用的几种方法,具体问题根据具体结果选择方法。

 

R型聚类实例分析

有10个测检项目,分别用x1-x10表示。

有50个学生参加测试,通过50个学生的数据,把这10个变量聚成两类。

并且找出每类中的代表元素。

•x3,x8,x9,x10是一类

•x1,x2,x4,x5,x6,x7是一类。

x8的相关指数最高,所以x8代表可第二类元素。

参考文献:

[1] 李云晋.非标准化数据的聚类分析方法[J].昆明冶金高等专科学校学报,2005,

(1).

[2] 王芳.主成分分析与因子分析的异同比较及应用[J].统计教育,2003,(5).

[3] 李蓉,李宇.基与主成分分析与聚类分析方法的我国西部区域划分问题的研究[J].科技广场,2006,(5).

[4] 王宏健,易柱新.主成分方法用于聚类分析[J].经济数学,1996,

(1).

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 经管营销

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2