就业主成分分析Word文档格式.doc

资源描述

就业主成分分析Word文档格式.doc

《就业主成分分析Word文档格式.doc》由会员分享，可在线阅读，更多相关《就业主成分分析Word文档格式.doc（12页珍藏版）》请在冰点文库上搜索。

就业主成分分析Word文档格式.doc

X7：

就业人员（万人）

X8：

失业人员（万人）

通过相关资料的查找，得到最新我国2010年上述的8个指标的数据，如表1所示。

表12010年影响我国就业指标数据

地区

北京

14113.58

1961

5403

13699.84

328

65158

1317.7

7.7

天津

9224.46

1294

6278.1

16751.82

317.3

51489

520.8

16.1

河北

20394.26

7185

15083.4

31143.29

4309.4

31451

3790.2

35.1

山西

9200.86

3571

6063.2

12471.33

1047.8

33057

1665.1

20.4

内蒙古

11672

2471

8926.5

13406.11

1843.6

35211

1184.7

20.8

辽宁

18457.27

4375

16043

36219.42

3106.5

34437

2238.1

38.9

吉林

8667.58

2746

7870.4

13098.35

1850.3

29003

1248.7

22.7

黑龙江

10368.6

3831

6812.6

9535.15

2536.3

27735

1743.4

36.2

上海

17165.98

2302

5108.9

30114.41

287

66115

924.7

27.7

江苏

41425.48

7866

23184.3

92056.48

4297.1

39772

4731.7

40.6

浙江

27722.31

5443

12376

51394.2

2172.9

40640

3989.2

31.1

安徽

12359.33

5950

11542.9

18732

2955.4

33341

3846.8

26.9

福建

14737.12

3689

8199.1

21901.23

2307.1

32340

2181.3

14.5

江西

9451.26

4457

8772.3

13883.06

1900.6

28363

2306.1

26.3

山东

39169.92

9579

23280.5

83851.4

6650.9

33321

5654.7

59.5

河南

23092.36

9402

16585.9

34995.53

5734.2

29819

6041.6

38.2

湖北

15967.61

5724

10262.7

21623.12

3502

31811

3116.5

55.7

湖南

16037.96

6568

9663.6

19008.83

3787.5

29670

4007.7

43.2

广东

46013.06

10430

15623.7

85824.64

3754.9

40432

5776.9

39.3

广西

9569.85

4603

7057.6

9644.13

2721

30673

2945.3

19.1

海南

2064.5

867

1317

1381.25

821.3

30775

445.7

4.8

重庆

7925.58

2885

6688.9

9143.55

1021.1

34727

1912.1

四川

17185.48

8042

13116.7

23147.38

4081.8

32567

4997.6

34.6

贵州

4602.16

3475

3104.9

4206.37

997.8

30433

2402.2

12.2

云南

7224.18

4597

5528.7

6464.63

1810.5

29195

2814.1

15.7

西藏

507.46

300

462.7

62.22

100.8

49898

175

2.1

陕西

10123.48

3733

7963.7

11199.84

1666.1

33384

1952

21.4

甘肃

4120.75

2558

3158.3

4882.68

1057

29096

1431.9

10.7

青海

1350.43

563

1016.9

1481.99

201.3

36121

294.1

4.2

宁夏

1689.65

630

1444.2

1924.39

305.9

37166

326

新疆

5437.47

2181

3423.2

5341.9

1846.2

32003

852.6

数据来源：

《2011年统计年鉴》

（二）主成分分析

在数据处理中，经常会遇到高维数据组，由于数据维数过高，则变量较多，而且变量间往往存在相关关系，因此很难直接抓住他们的主要信息，这就需要有一种简化数据的方法，是高维数据降维，来获得主要的信息，而且在低维空间将信息分解为互不相关的部分以获得更有意义的解释。

主成分分析就是这样一种处理高维数据的方法，将高维数据尽可能少的信息损失为原则进行综合化为少数几个不相关的变量。

本篇论文研究的就是2010年我国31个省市地区的就业问题，其中选取了8个影响就业的因素变量相关的指标，最后通过主成分分析，得出几个主要影响我国就业方面的因素。

下面通过SPSS软件对上述数据进行主成分分析，分别得到如下结论。

表2描述性统计量

Mean

Std.Deviation

AnalysisN

14098.1287

11401.34550

4299.2903

2763.21418

8753.6419

5927.18166

22535.1787

24534.94200

2236.1161

1673.71617

36103.3226

9652.20768

2478.5323

1726.09088

24.3387

15.03739

通过描述性统计量我们可以看到这8个指标的均值、标准差和参与计算的观测量数。

整体上看数据比较完整。

表3原始变量相关矩阵

Correlation

1.000

.832

.888

.979

.732

.110

.804

.752

.869

.763

.918

-.280

.984

.822

.873

.883

-.136

.844

.836

.681

.121

.735

.701

-.404

.895

.849

-.268

-.197

.766

下一步进行相关矩阵分析，如表3所示，从表中可以看出几乎所有相关系数绝对值都大于0.3，因此适合做主成分分析。

为了更加准确的确定该数据是否适合做主成分分析，对数据进行相应的检验，如表4所示。

表4KMO测度和巴特利特球体检验

Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.

.815

Bartlett'

sTestofSphericity

Approx.Chi-Square

400.363

Sig.

.000

从表4可以看出KMO值为0.815，大于0.5，因此适合做主成分分析。

并且巴特利特球体检验值小于α=0.05，再次说明该数据适合做主成分分析。

下一步再分析一下这8个指标对总体的影响程度大小情况，如表5所示。

表5Communalities

Initial

Extraction

.962

.940

.920

.915

.939

.933

.894

.788

ExtractionMethod:

PrincipalComponentAnalysis.

由表5可以看出各个指标对总体的影响程度几乎都在0.9左右，说明指标的选取是比较合理的。

为了了解最终提取了几个主成分，还需得到总方差分解图。

表6总方差分解图

Component

InitialEigenvalues

ExtractionSumsofSquaredLoadings

Total

%ofVariance

Cumulative%

6.011

75.138

1.280

16.005

91.143

.284

3.546

94.689

.247

3.086

97.775

.112

1.403

99.178

.045

.560

99.738

.013

.168

99.906

.008

.094

100.000

从表6可以看出第一主成分和第二主成分对总体的贡献是最大的，系统提取了两个主成分，第一主成分的贡献率是75.138%，第二主成分的贡献率是16.005%。

二者的累积贡献率就是91.143%。

91.143%比较接近85%，因此选择两个主成分是合理的。

下一步再看一下最后得出的因子载荷矩阵。

表7初始因子载荷矩阵

.353

-.124

.956

.071

.875

.387

.930

-.270

-.198

.945

.937

-.125

.886

-.061

a2componentsextracted.

由表7初始因子载荷矩阵可以得到上述两个住成分的对应因子载荷值，运用初始因子载荷矩阵可以计算出相应的特征向量。

设特征根为，初始因子载荷矩阵数值为,特征向量为。

公式如下：

（1）

将上述数据带入式

（1）中，得到特征向量，如表8所示。

表8特征向量

第一特征向量

第二特征向量

0.372709

0.311539

0.391749

-0.10965

0.389563

0.062951

0.356399

0.341865

0.378993

-0.2385

-0.08079

0.835494

0.381726

-0.11083

0.360799

-0.05355

上述已经计算得出了特征向量值，因此将特征向量带入Y的式子中，得到如下两个主成分表达式。

Y1=0.372709X1+0.391749X2+0.389563X3+0.356399X4+0.378993X5+-0.08079X6+0.381726X7+0.360799X8

Y2=0.311539X1-0.10965X2+0.062951X3+0.341865X4-0.2385X5+0.835494X6-0.11083X7-0.05355X8

通过上述一系列的计算已经得出了主成分的表达式，为了计算最终的综合水平，必须用到标准化的数据，因此用SPSS软件得到如表9所示的标准化数据。

表9标准化数据

地区

ZX1

ZX2

ZX3

ZX4

ZX5

ZX6

ZX7

ZX8

0.01

-0.85

-0.57

-0.36

-1.14

3.01

-0.67

-1.11

-0.43

-1.09

-0.42

-0.24

-1.15

1.59

-1.13

-0.55

0.55

1.04

1.07

0.35

1.24

-0.48

0.76

0.72

-0.26

-0.45

-0.41

-0.71

-0.32

-0.47

-0.21

-0.66

0.03

-0.37

-0.23

-0.09

-0.75

0.38

1.23

0.56

0.52

-0.17

-0.14

0.97

-0.56

-0.15

-0.38

-0.74

-0.11

-0.33

-0.53

0.18

-0.87

0.79

0.27

-0.72

-0.61

0.31

-1.16

3.11

-0.90

0.22

2.40

1.29

2.43

2.83

1.31

1.08

1.19

0.41

0.61

1.18

-0.04

0.47

0.88

0.45

0.60

-0.16

0.43

-0.29

0.17

0.06

-0.22

-0.03

0.04

-0.39

-0.65

0.00

-0.35

-0.20

-0.80

-0.10

0.13

2.20

1.91

2.45

2.50

2.64

1.84

2.34

1.85

1.32

0.51

2.09

2.06

0.92

0.16

0.25

-0.44

0.37

0.82

0.15

0.93

0.89

1.25

2.80

2.22

1.16

2.58

0.91

0.99

-0.40

0.11

0.29

-1.06

-1.24

-1.25

-0.86

-1.18

-1.30

-0.54

-0.51

-0.73

1.35

0.74

0.02

1.10

1.46

0.68

-0.83

-0.30

-0.95

-0.59

-0.81

-0.60

-0.25

0.19

-1.19

-1.45

-1.40

-0.92

-1.28

1.43

-1.33

-1.48

-0.13

-0.46

-0.34

-0.28

-0.31

-0.88

-0.63

-0.94

-0.70

-0.91

-1.12

-1.35

-1.31

-1.22

-1.27

-1.34

-1.23

-0.84

-0.76

-0.77

-0.89

为了使表格美观，将其保留了两位小数，但计算的过程使用

展开阅读全文