兰大管理学院因子聚类案例分析.docx
《兰大管理学院因子聚类案例分析.docx》由会员分享,可在线阅读,更多相关《兰大管理学院因子聚类案例分析.docx(15页珍藏版)》请在冰点文库上搜索。
兰大管理学院因子聚类案例分析
基于因子分析与聚类分析的辽宁省区域经济综合评价
姓名:
专业:
学号:
基于因子分析与聚类分析的辽宁省区域经济综合评价
(兰州大学管理学院信息管理与信息系统)
摘要:
以2010年辽宁省经济数据为基础,采用因子分析与聚类分析相结合的方法对辽宁省区域经济的发展现状进行了实证分析与综合评估。
本研究结果可为下一步辽宁省政府出台政策以提振区域经济发展及平衡地区差异提供决策参考。
关键词:
区域经济;因子分析;聚类分析;
在辽宁省现辖的14个城市中,区域经济发展存在着很大的差距。
本文采用因子分析与聚类分析相结合的方法,对辽宁省区域经济的发展状况进行综合评价,旨在为辽宁经济的可持续发展提供决策参考。
1.方法原理
因子分析是一种主要用于数据化简和降维的多元统计分析方法。
它将相关性较强的几个变量归在同一个类中,每一类赋予新的名称,成为一个因子,反映事物的一个方面,或者说一个维度。
这样少数的几个因子就能够代表数据的基本结构,反映信息的本质特征。
更可以进一步从原始观测量的信息推出因子的值,然后用这些因子代替原来的变量进行其他统计分析。
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。
系统聚类法是聚类分析诸方法中用的最多的一种,其基本思想是:
开始将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。
2.实证分析
2.1样本数据的选取
本文选取以下9项指标:
X1:
年平均人口(万人),X2:
地区生产总值(万元),X3:
人均地区生产总值(元),X4:
地方财政一般预算内收入(万元),X5:
全社会固定资产投资总额(万元),X6:
社会消费品零售总额(万元),X7:
当年实际使用外资金额(万美元),X8:
城镇居民人均可支配收入(元),X9:
农民家庭人均收入(元)。
原始数据如下表1所示:
表1辽宁省地区经济原始数据
样本
X1
X2
X3
X4
X5
X6
X7
X8
X9
沈阳
715
42685137
54654
3202070
35199470
17785858
541039
18475
8753
大连
584.1
43495050
70781
4002340
31136950
13967483
601697
19014
10725
鞍山
351.7
17304740
49301
1231230
8750298
4359517
74177
16530
8094
抚顺
222.9
6986395
31343
537671
4960093
3380923
31284
13557
6146
本溪
155.6
6883947
44251
503177
3400658
1674164
20108
14705
6750
丹东
242.7
6075211
25034
501352
4920225
2340246
50003
12827
7295
锦州
310.2
7272951
23447
480088
3240989
2698830
36805
15386
6627
营口
234.4
7994827
34104
571465
7625589
2114411
50491
15858
7687
阜新
192.4
2879693
14967
185978
2014566
1265703
6413
11184
5382
辽阳
183.4
6082597
33151
479746
3466204
1771094
81718
14568
7076
盘锦
129.6
6768658
50930
434322
5040306
1568965
30178
18540
8479
铁岭
306
6057065
19795
479851
6960720
1932235
17197
12054
6585
朝阳
341.7
5180944
15724
421494
4554166
1827148
7332
11553
5170
葫岛
281.3
4455816
15856
373106
2540573
1983819
7447
15305
5595
2.2样本数据的处理
考虑到各指标数据的差异以及使得分析结果更加有效,首先将样本数据进行标准化处理,处理后的数据消除了量纲之间的差异(表2所示)。
表2标准化数据
样本
X1
X2
X3
X4
X5
X6
X7
X8
X9
沈阳
2.52057
2.26118
1.17304
1.94546
2.50742
2.68121
2.18517
1.36162
1.05085
大连
1.71849
2.32116
2.11283
2.63906
2.12092
1.92815
2.49349
1.57091
2.359
鞍山
0.29447
0.38162
0.8611
0.23731
-0.00888
0.03329
-0.18785
0.6064
0.6137
抚顺
-0.49475
-0.38252
-0.18538
-0.3638
-0.36947
-0.15971
-0.40588
-0.54799
-0.67852
本溪
-0.90712
-0.3901
0.56682
-0.3937
-0.51783
-0.49632
-0.46268
-0.10223
-0.27785
丹东
-0.37342
-0.44999
-0.55303
-0.39528
-0.37326
-0.36495
-0.31073
-0.83144
0.08368
锦州
0.04018
-0.36129
-0.64551
-0.41371
-0.53302
-0.29423
-0.37781
0.16219
-0.35945
营口
-0.42428
-0.30784
-0.02448
-0.33451
-0.11588
-0.40949
-0.30825
0.34547
0.34371
阜新
-0.68163
-0.68664
-1.13967
-0.66862
-0.6497
-0.57687
-0.53229
-1.4694
-1.18533
辽阳
-0.73678
-0.44945
-0.08002
-0.41401
-0.51159
-0.4772
-0.14952
-0.15543
-0.0616
盘锦
-1.06644
-0.39864
0.95603
-0.45338
-0.36184
-0.51706
-0.4115
1.38686
0.86909
铁岭
0.01444
-0.45134
-0.85832
-0.41391
-0.17913
-0.44542
-0.47748
-1.13159
-0.38731
朝阳
0.23319
-0.51622
-1.09556
-0.46449
-0.40809
-0.46614
-0.52762
-1.32612
-1.32596
葫岛
-0.1369
-0.56992
-1.08786
-0.50643
-0.59965
-0.43525
-0.52704
0.13074
-1.04403
2.3SPSS因子分析
因子分析的前提是原有变量之间具有较强的相关关系,否则根本无法从中综合出能够反映某些变量共同特性的几个较少的公因子变量来,因此在求解公因子之前,需要先检验数据的可适用性。
常用的检验方法有巴特利特球体检验和KMO测度,如表3所示。
表3KMO和Bartlett's检验结果
KMO和Bartlett的检验
取样足够度的Kaiser-Meyer-Olkin度量。
.804
Bartlett的球形度检验
近似卡方
235.146
df
36
Sig.
.000
由表3可以看出,KMO测度值大于0.7,巴特利特球体检验值也通过,表明样本数据可以进行因子分析。
通过SPSS软件中的一系列操作,以主成分方法作为因子提取方法,选定的因子提取标准是:
特征值≥1。
有2个满足条件的特征值,它们对样本方差的累计贡献率达到了95.7%(表4),即两个公共因子已经包括了原来9个指标的绝大部分信息,损失的信息量较少,具有较高的代表性,因此,提取两个因子便能够对所分析的问题进行很好的解释。
表4总的方差解释
解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
合计
方差的%
累积%
1
7.558
83.975
83.975
7.558
83.975
83.975
5.104
56.714
56.714
2
1.055
11.726
95.700
1.055
11.726
95.700
3.509
38.986
95.700
3
.202
2.244
97.944
4
.085
.946
98.891
5
.053
.584
99.475
6
.035
.385
99.860
7
.008
.092
99.951
8
.003
.037
99.988
9
.001
.012
100.000
提取方法:
主成份分析。
同时因子碎石图(图1)也支持了这一结论。
图1
利用SPSS求得因子载荷矩阵如表5所示。
表5
成份矩阵a
成份
1
2
年平均人口(万人)
.863
-.458
地区生产总值(万元)
.991
-.118
人均地区生产总值(元)
.842
.486
地方财政一般预算内收入(万元)
.982
-.111
全社会固定资产投资总额(万元)
.973
-.194
社会消费品零售总额(万元)
.959
-.245
当年实际使用外资金额(万美元)
.974
-.148
城镇居民人均可支配收入(元)
.774
.525
农民家庭人均收入(元)
.862
.433
提取方法:
主成份。
a.已提取了2个成份。
但由于原始因子载荷矩阵在因子解释过程中未达到理想效果,故选择方差最大化方法进行因子旋转,得到的因子载荷矩阵如表6所示。
表6
旋转成份矩阵a
成份
1
2
年平均人口(万人)
.962
.169
地区生产总值(万元)
.854
.516
人均地区生产总值(元)
.365
.901
地方财政一般预算内收入(万元)
.843
.516
全社会固定资产投资总额(万元)
.887
.444
社会消费品零售总额(万元)
.907
.395
当年实际使用外资金额(万美元)
.860
.482
城镇居民人均可支配收入(元)
.288
.890
农民家庭人均收入(元)
.414
.871
由表6可以看出,公因子F1下载荷较大的指标为年平均人口、地区生产总值、地方财政一般预算内收入、全社会固定资产投资总额、社会消费品零售总额和当年实际使用外资金额,说明这6项指标有较强的相关性,可以归为一类,这6项指标体现了各地区的经济竞争实力和经济发展水平,因此可以归结为经济实力因子;公因子F2下载荷较大的指标为人均地区生产总值、城镇居民人均可支配收入和农民家庭人均收入,这3项指标主要反映了居民人均生活水平,所以可归结为人民生活水平因子(如表7)。
这两个公因子综合起来基本能反映各地区的经济发展状况,可见提取的两个公因子是比较合理的。
表7因子解释
因子
F1
F2
被解释指标
X1,X2,X4,X5,X6,X7
X3,X8,X9
因子命名
经济实力因子
人名生活水平因子
同时可以由图2看出以上提取公因子的方法是正确的。
图2旋转空间中的成分图
根据因子得分系数(表8)可计算得到每个样本相对于两个主要因子的得分情况。
表8成分得分系数矩阵
成份得分系数矩阵
成份
1
2
年平均人口(万人)
.357
-.272
地区生产总值(万元)
.172
-.007
人均地区生产总值(元)
-.195
.432
地方财政一般预算内收入(万元)
.167
-.003
全社会固定资产投资总额(万元)
.215
-.066
社会消费品零售总额(万元)
.243
-.106
当年实际使用外资金额(万美元)
.188
-.031
城镇居民人均可支配收入(元)
-.225
.456
农民家庭人均收入(元)
-.162
.394
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
构成得分。
然后再根据各因子的方差贡献率与两个因子的累计方差贡献率之比对得分进行加权汇总,从而得到每一地区的总因子得分(表9)
表9因子得分及排名
地区
F1
F2
F
得分
排名
得分
排名
得分
排名
大连
1.697
2
1.642
2
1.675
1
沈阳
2.507
1
0.315
6
1.614
2
鞍山
-0.223
8
0.809
3
0.198
3
盘锦
-1.444
14
1.773
1
-0.134
4
营口
-0.571
11
0.462
4
-0.150
5
锦州
-0.226
9
-0.275
8
-0.246
6
辽阳
-0.603
12
0.165
7
-0.290
7
丹东
-0.222
7
-0.406
10
-0.297
8
抚顺
-0.228
10
-0.404
9
-0.300
9
本溪
-0.818
13
0.441
5
-0.305
10
铁岭
0.107
4
-0.965
12
-0.330
11
葫芦岛
-0.213
6
-0.676
11
-0.402
12
朝阳
0.344
3
-1.565
14
-0.434
13
阜新
-0.108
5
-1.315
13
-0.600
14
2.4聚类分析
根据以上因子分析,我们提取出了经济实力因子和人民生活水平因子两类公因子,据此我们把处理原始数据得出的两个公因子得分看成是反映各城市经济实力的两个指标,通过系统聚类法中的离差平方和法,对辽宁省14个城市进行合理的区域划分,所得分类结果如下表10所示。
表10
群集成员
案例
3群集
1
1
2
1
3
2
4
2
5
2
6
3
7
2
8
3
9
3
10
2
11
3
12
3
13
3
14
3
图3所示并类过程中的垂直冰柱图。
图3
整个并类过程也可由树状图(图4)表示出来。
图4
3.结果总结
根据上述因子分析和聚类分析结果,我们大体上了解了辽宁省各地区经济发展现状,进而大体上可以将辽宁省14个城市分为三类:
第一类,大连和沈阳,无论是经济总量还是人均经济指标都比较高,该类城市经济实力强,产业结构合理,区域创新能力强。
第二类,鞍山、盘锦、营口、辽阳和本溪,该类城市总体经济总量不大,但人均经济指标较高,综合经济实力居中。
第三类,抚顺、丹东、锦州、葫芦岛、阜新、铁岭和朝阳,该类城市经济总量以及人均经济指标都比较低,经济实力弱,区域创新能力需进一步加强。
参考文献:
[1]辽宁省统计局.辽宁统计年鉴2010[M].北京:
中国统计出版社,2010.
[2]薛薇.基于SPSS的数据分析[M].北京:
人民大学出版社,2006.
[3]何晓群.现代统计分析方法和应用[M].北京:
中国人民大学出版社,1998.
[4]王学民.应用多元分析[M].2版.上海:
上海财经大学出版社,2004.