就业主成分分析Word文档格式.doc
《就业主成分分析Word文档格式.doc》由会员分享,可在线阅读,更多相关《就业主成分分析Word文档格式.doc(12页珍藏版)》请在冰点文库上搜索。
X7:
就业人员(万人)
X8:
失业人员(万人)
通过相关资料的查找,得到最新我国2010年上述的8个指标的数据,如表1所示。
表12010年影响我国就业指标数据
地区
X1
X2
X3
X4
X5
X6
X7
X8
北京
14113.58
1961
5403
13699.84
328
65158
1317.7
7.7
天津
9224.46
1294
6278.1
16751.82
317.3
51489
520.8
16.1
河北
20394.26
7185
15083.4
31143.29
4309.4
31451
3790.2
35.1
山西
9200.86
3571
6063.2
12471.33
1047.8
33057
1665.1
20.4
内蒙古
11672
2471
8926.5
13406.11
1843.6
35211
1184.7
20.8
辽宁
18457.27
4375
16043
36219.42
3106.5
34437
2238.1
38.9
吉林
8667.58
2746
7870.4
13098.35
1850.3
29003
1248.7
22.7
黑龙江
10368.6
3831
6812.6
9535.15
2536.3
27735
1743.4
36.2
上海
17165.98
2302
5108.9
30114.41
287
66115
924.7
27.7
江苏
41425.48
7866
23184.3
92056.48
4297.1
39772
4731.7
40.6
浙江
27722.31
5443
12376
51394.2
2172.9
40640
3989.2
31.1
安徽
12359.33
5950
11542.9
18732
2955.4
33341
3846.8
26.9
福建
14737.12
3689
8199.1
21901.23
2307.1
32340
2181.3
14.5
江西
9451.26
4457
8772.3
13883.06
1900.6
28363
2306.1
26.3
山东
39169.92
9579
23280.5
83851.4
6650.9
33321
5654.7
59.5
河南
23092.36
9402
16585.9
34995.53
5734.2
29819
6041.6
38.2
湖北
15967.61
5724
10262.7
21623.12
3502
31811
3116.5
55.7
湖南
16037.96
6568
9663.6
19008.83
3787.5
29670
4007.7
43.2
广东
46013.06
10430
15623.7
85824.64
3754.9
40432
5776.9
39.3
广西
9569.85
4603
7057.6
9644.13
2721
30673
2945.3
19.1
海南
2064.5
867
1317
1381.25
821.3
30775
445.7
4.8
重庆
7925.58
2885
6688.9
9143.55
1021.1
34727
1912.1
13
四川
17185.48
8042
13116.7
23147.38
4081.8
32567
4997.6
34.6
贵州
4602.16
3475
3104.9
4206.37
997.8
30433
2402.2
12.2
云南
7224.18
4597
5528.7
6464.63
1810.5
29195
2814.1
15.7
西藏
507.46
300
462.7
62.22
100.8
49898
175
2.1
陕西
10123.48
3733
7963.7
11199.84
1666.1
33384
1952
21.4
甘肃
4120.75
2558
3158.3
4882.68
1057
29096
1431.9
10.7
青海
1350.43
563
1016.9
1481.99
201.3
36121
294.1
4.2
宁夏
1689.65
630
1444.2
1924.39
305.9
37166
326
新疆
5437.47
2181
3423.2
5341.9
1846.2
32003
852.6
11
数据来源:
《2011年统计年鉴》
(二)主成分分析
在数据处理中,经常会遇到高维数据组,由于数据维数过高,则变量较多,而且变量间往往存在相关关系,因此很难直接抓住他们的主要信息,这就需要有一种简化数据的方法,是高维数据降维,来获得主要的信息,而且在低维空间将信息分解为互不相关的部分以获得更有意义的解释。
主成分分析就是这样一种处理高维数据的方法,将高维数据尽可能少的信息损失为原则进行综合化为少数几个不相关的变量。
本篇论文研究的就是2010年我国31个省市地区的就业问题,其中选取了8个影响就业的因素变量相关的指标,最后通过主成分分析,得出几个主要影响我国就业方面的因素。
下面通过SPSS软件对上述数据进行主成分分析,分别得到如下结论。
表2描述性统计量
Mean
Std.Deviation
AnalysisN
14098.1287
11401.34550
31
4299.2903
2763.21418
8753.6419
5927.18166
22535.1787
24534.94200
2236.1161
1673.71617
36103.3226
9652.20768
2478.5323
1726.09088
24.3387
15.03739
通过描述性统计量我们可以看到这8个指标的均值、标准差和参与计算的观测量数。
整体上看数据比较完整。
表3原始变量相关矩阵
Correlation
1.000
.832
.888
.979
.732
.110
.804
.752
.869
.763
.918
-.280
.984
.822
.873
.883
-.136
.844
.836
.681
.121
.735
.701
-.404
.895
.849
-.268
-.197
.766
下一步进行相关矩阵分析,如表3所示,从表中可以看出几乎所有相关系数绝对值都大于0.3,因此适合做主成分分析。
为了更加准确的确定该数据是否适合做主成分分析,对数据进行相应的检验,如表4所示。
表4KMO测度和巴特利特球体检验
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.
.815
Bartlett'
sTestofSphericity
Approx.Chi-Square
400.363
df
28
Sig.
.000
从表4可以看出KMO值为0.815,大于0.5,因此适合做主成分分析。
并且巴特利特球体检验值小于α=0.05,再次说明该数据适合做主成分分析。
下一步再分析一下这8个指标对总体的影响程度大小情况,如表5所示。
表5Communalities
Initial
Extraction
.962
.940
.920
.915
.939
.933
.894
.788
ExtractionMethod:
PrincipalComponentAnalysis.
由表5可以看出各个指标对总体的影响程度几乎都在0.9左右,说明指标的选取是比较合理的。
为了了解最终提取了几个主成分,还需得到总方差分解图。
表6总方差分解图
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
1
6.011
75.138
2
1.280
16.005
91.143
3
.284
3.546
94.689
4
.247
3.086
97.775
5
.112
1.403
99.178
6
.045
.560
99.738
7
.013
.168
99.906
8
.008
.094
100.000
从表6可以看出第一主成分和第二主成分对总体的贡献是最大的,系统提取了两个主成分,第一主成分的贡献率是75.138%,第二主成分的贡献率是16.005%。
二者的累积贡献率就是91.143%。
91.143%比较接近85%,因此选择两个主成分是合理的。
下一步再看一下最后得出的因子载荷矩阵。
表7初始因子载荷矩阵
.353
-.124
.956
.071
.875
.387
.930
-.270
-.198
.945
.937
-.125
.886
-.061
a2componentsextracted.
由表7初始因子载荷矩阵可以得到上述两个住成分的对应因子载荷值,运用初始因子载荷矩阵可以计算出相应的特征向量。
设特征根为,初始因子载荷矩阵数值为,特征向量为。
公式如下:
(1)
将上述数据带入式
(1)中,得到特征向量,如表8所示。
表8特征向量
第一特征向量
第二特征向量
0.372709
0.311539
0.391749
-0.10965
0.389563
0.062951
0.356399
0.341865
0.378993
-0.2385
-0.08079
0.835494
0.381726
-0.11083
0.360799
-0.05355
上述已经计算得出了特征向量值,因此将特征向量带入Y的式子中,得到如下两个主成分表达式。
Y1=0.372709X1+0.391749X2+0.389563X3+0.356399X4+0.378993X5+-0.08079X6+0.381726X7+0.360799X8
Y2=0.311539X1-0.10965X2+0.062951X3+0.341865X4-0.2385X5+0.835494X6-0.11083X7-0.05355X8
通过上述一系列的计算已经得出了主成分的表达式,为了计算最终的综合水平,必须用到标准化的数据,因此用SPSS软件得到如表9所示的标准化数据。
表9标准化数据
地区
ZX1
ZX2
ZX3
ZX4
ZX5
ZX6
ZX7
ZX8
0.01
-0.85
-0.57
-0.36
-1.14
3.01
-0.67
-1.11
-0.43
-1.09
-0.42
-0.24
-1.15
1.59
-1.13
-0.55
0.55
1.04
1.07
0.35
1.24
-0.48
0.76
0.72
-0.26
-0.45
-0.41
-0.71
-0.32
-0.47
-0.21
-0.66
0.03
-0.37
-0.23
-0.09
-0.75
0.38
1.23
0.56
0.52
-0.17
-0.14
0.97
-0.56
-0.15
-0.38
-0.74
-0.11
-0.33
-0.53
0.18
-0.87
0.79
0.27
-0.72
-0.61
0.31
-1.16
3.11
-0.90
0.22
2.40
1.29
2.43
2.83
1.31
1.08
1.19
0.41
0.61
1.18
-0.04
0.47
0.88
0.45
0.60
-0.16
0.43
-0.29
0.17
0.06
-0.22
-0.03
0.04
-0.39
-0.65
0.00
-0.35
-0.20
-0.80
-0.10
0.13
2.20
1.91
2.45
2.50
2.64
1.84
2.34
1.85
1.32
0.51
2.09
2.06
0.92
0.16
0.25
-0.44
0.37
0.82
0.15
0.93
0.89
1.25
2.80
2.22
1.16
2.58
0.91
0.99
-0.40
0.11
0.29
-1.06
-1.24
-1.25
-0.86
-1.18
-1.30
-0.54
-0.51
-0.73
1.35
0.74
0.02
1.10
1.46
0.68
-0.83
-0.30
-0.95
-0.59
-0.81
-0.60
-0.25
0.19
-1.19
-1.45
-1.40
-0.92
-1.28
1.43
-1.33
-1.48
-0.13
-0.46
-0.34
-0.28
-0.31
-0.88
-0.63
-0.94
-0.70
-0.91
-1.12
-1.35
-1.31
-1.22
-1.27
-1.34
-1.23
-0.84
-0.76
-0.77
-0.89
为了使表格美观,将其保留了两位小数,但计算的过程使用