统计专业实验-实验7-因子分析和综合评价.doc
《统计专业实验-实验7-因子分析和综合评价.doc》由会员分享,可在线阅读,更多相关《统计专业实验-实验7-因子分析和综合评价.doc(8页珍藏版)》请在冰点文库上搜索。
重庆工商大学数学与统计学院
《统计专业实验》课程
实验报告
实验课程:
统计专业实验
指导教师:
____叶勇
专业班级:
09级统计二班
学生姓名:
___陈文慧
学生学号:
__2009101218
实验报告
实验项目
实验七因子分析和综合评价
实验日期
2012.04.24
实验地点
80608
实验目的
了解因子分析的原理,并掌握因子分析和综合评价过程。
实验内容
对2008年重庆市40个区县经济发展基本情况进行分析,选择合适的分析变量,找出影响地区社会经济发展水平的主要因子,并对各地区发展水平进行综合评价或者对各地区经济发展状况进行分类。
实验思考题解答:
1.分析因子分析和主成分分析的异同,并写出各自的数学表达式。
答:
因子分析和主成分分析有许多相似之处,但这两种模型又存在明显的不同。
两者均是降维、简化数据的分析方法。
主成分分析:
它的数学模型本质上是一种线性变换,是将原始坐标变换到变异程度大的方向上去,相当于从空间上转换观看数据的角度,突出数据的变异方向,归纳重要信息。
数学表达式:
因子分析:
从本质上看是从显在变量去“提炼”潜在因子的过程。
通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。
数学表达式:
2.变量共同度和公因子的方差贡献率的数学形式?
变量共同度:
,即第行因子载荷的平方和,它描述的是全部公共因子对变量的总方差所做的贡献,反映了公共因子对变量的影响程度。
公因子的方差贡献率:
,即第列的因子载荷的平方和,表示同一公共因子对各个变量所提供的方差贡献之和,它是衡量每一个公共因子相对重要性的一个尺度。
实验运行程序、基本步骤及运行结果:
1.选择合适的分析变量
本实验是对2008年重庆市40个区县经济发展基本情况进行分析,分别从经济实力、工业化水平、经济潜在活力和效益三个层面对经济发展水平进行分析。
选取了10个指标:
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
地区生产总值(万元)
一般预算收入(万元)
农林牧渔业总 产 值(万元)
工业总产值(万元)
建筑业总产值(万元)
全社会固定资产投资(万元)
社会消费品零售总额(万元)
城乡居民储蓄
公路货运量(万吨)
城镇就业人员(万人)
2.进行因子分析
(1)选择Analyze→DataReduction→Factor,打开FactorAnalysis主界面,并将变量X1~X8,移入Variables框中;
(2)点击Descriptives按钮,选Coefficients复选框,输出相关系数;选中KMOandBartlett’stestofsphericity复选框,检验因子分析的适用条件;按Continue按钮返回主界面。
(3)点Extraction按钮,设置因子提取的选项。
选ScreePlot复选框,输出碎石图,按Continue按钮返回主界面。
(4)点Rotation按钮,设置因子旋转方法。
选Varimax复选框,选择方差最大化旋转方法,按Continue按钮返回主界面。
(5)单击Scores按钮,设置因子得分的选项。
选Displayfactorscorecoefficientmatrix显示因子得分函数系数矩阵,选Saveasvariable,保存因子得分,按Continue按钮返回主界面。
(6)点OK按钮开始因子分析过程。
得到的数据结果如下:
相关系数矩阵:
由相关系数矩阵看出各个变量之间存在较强的相关性,所以可以采用因子分析方法进行降维。
CorrelationMatrix
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
Correlation
X1
1.000
.815
.090
.805
.929
.809
.896
.940
.535
.932
X2
.815
1.000
-.128
.715
.779
.836
.862
.840
.508
.804
X3
.090
-.128
1.000
-.097
.047
.085
-.149
-.016
.049
-.030
X4
.805
.715
-.097
1.000
.804
.831
.612
.659
.531
.721
X5
.929
.779
.047
.804
1.000
.835
.838
.874
.461
.911
X6
.809
.836
.085
.831
.835
1.000
.699
.744
.605
.764
X7
.896
.862
-.149
.612
.838
.699
1.000
.970
.416
.913
X8
.940
.840
-.016
.659
.874
.744
.970
1.000
.448
.939
X9
.535
.508
.049
.531
.461
.605
.416
.448
1.000
.484
X10
.932
.804
-.030
.721
.911
.764
.913
.939
.484
1.000
KMOandBartlett'sTest
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.
.821
Bartlett'sTestofSphericity
Approx.Chi-Square
568.556
df
45
Sig.
.000
变量共同度:
可以看到变量共同度都很高,表面因子对变量的影响程度高。
Communalities
Initial
Extraction
X1
1.000
.945
X2
1.000
.832
X3
1.000
.937
X4
1.000
.699
X5
1.000
.889
X6
1.000
.819
X7
1.000
.879
X8
1.000
.889
X9
1.000
.410
X10
1.000
.897
特征根与方差贡献率:
有两个因子的特征值超过1,且前两个的累积方差贡献率已经超过了百分之八十,因此应该提取两个因子。
TotalVarianceExplained
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
RotationSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
1
7.107
71.074
71.074
7.107
71.074
71.074
7.107
71.071
71.071
2
1.088
10.885
81.959
1.088
10.885
81.959
1.089
10.888
81.959
3
.792
7.920
89.879
4
.466
4.657
94.536
5
.279
2.792
97.328
6
.116
1.158
98.486
7
.060
.602
99.088
8
.060
.598
99.686
9
.017
.168
99.854
10
.015
.146
100.000
因子载荷矩阵本实验中旋转前后得到的因子载荷阵中个系数都有明显的两极分化。
第一个公共因子在指标上有较大载荷,说明这个9个指标有较强的相关性,可归为一类,他们都属于衡量经济发展水平的正向指标。
第二个公共因子在上有较大载荷,单独一类。
农业产值随经济发展水平的提高,会减少,它属于逆向指标。
ComponentMatrixa
Component
1
2
X1
.968
.092
X2
.902
-.133
X3
-.023
.968
X4
.836
-.010
X5
.941
.060
X6
.891
.159
X7
.916
-.199
X8
.941
-.056
X9
.598
.229
X10
.946
-.041
RotatedComponentMatrixa
Component
1
2
X1
.968
.086
X2
.901
-.139
X3
-.016
.968
X4
.836
-.015
X5
.941
.053
X6
.892
.153
X7
.915
-.205
X8
.941
-.063
X9
.599
.225
X10
.946
-.048
因子转换矩阵:
若用表示旋转前的因子载荷阵,用表示因子转换矩阵,用表示旋转后的因子载荷阵,则有:
ComponentTransformationMatrix
Component
1
2
1
1.000
-.007
2
.007
1.000
因子得分系数矩阵:
根据每个观测值的各因子的的分数,可以将旋转后的因子得分表达式写成:
ComponentScoreCoefficientMatrix
Component
1
2
X1
.137
.084
X2
.126
-.123
X3
.003
.889
X4
.118
-.010
X5
.133
.054
X6
.126
.146
X7
.128
-.183
X8
.132
-.053
X9
.086
.210
X10
.133
-.039
(7)分析各公因子的含义,并进行命名。
:
非农业因子(反映的是除农业以外的正向经济指标)
:
农业因子(反映的是农业总产值经指标)
(8)使用Compute命令计算综合因子得分,以特征值为各公因子的权数。
刚刚已经将因子得分作为新变量保存在数据文件中,变量名分别为fact_1、fact_2,现在可以直接使用。
Transform->ComputeVariables,调出计算界面,目标变量命名为“综合因子得分”,将上面的公式带入,计算得到各个区县的综合得分。
对分数进行排序,得到最终结果如下:
区县
因子1得分
因子2得分
综合得分
排序
区县
因子1得分
因子2得分
综合得分
排序
渝北区
2.294
0.619
2.071
1
大足县
-0.446
0.577
-0.310
21
九龙坡区
2.428
-0.942
1.980
2
潼南县
-0.509
0.608
-0.360
22
渝中区
1.986
-2.345
1.410
3
南川区
-0.541
0.306
-0.428
23
沙坪坝区
1.808
-1.450
1.375
4
垫江县
-0.560
0.357
-0.438
24
万州区
1.139
1.639
1.206
5
梁平县
-0.579
0.163
-0.481
25
江北区
1.580
-1.354
1.190
6
忠县
-0.627
0.264
-0.508
26
南岸区
1.366
-0.759
1.083
7
奉节县
-0.647
0.272
-0.524
27
巴南区
0.882
1.010
0.899
8
云阳县
-0.658
0.345
-0.525
28
永川区
0.720
1.499
0.824
9
丰都县
-0.767
-0.144
-0.684
29
江津区
0.589
2.340
0.821
10
万盛区
-0.714
-0.633
-0.703
30
涪陵区
0.783
1.036
0.817
11
黔江区
-0.722
-0.655
-0.713
31
合川区
0.356
1.797
0.547
12
彭水县
-0.799
-0.335
-0.737
32
北碚区
0.371
-0.545
0.249
13
石柱县
-0.843
-0.370
-0.780
33
长寿区
0.147
0.636
0.212
14
武隆县
-0.824
-0.583
-0.792
34
綦江县
-0.138
1.188
0.038
15
巫山县
-0.885
-0.511
-0.835
35
大渡口区
0.075
-0.818
-0.044
16
酉阳县
-0.920
-0.325
-0.841
36
开县
-0.313
1.055
-0.131
17
秀山县
-0.877
-0.639
-0.845
37
铜梁县
-0.345
0.143
-0.281
18
巫溪县
-1.008
-0.772
-0.977
38
荣昌县
-0.399
0.445
-0.287
19
双桥区
-1.022
-1.498
-1.086
39
璧山县
-0.287
-0.425
-0.306
20
城口县
-1.092
-1.196
-1.105
40
(9)比较各地区综合因子得分,结合实际情况进行分析。
从表上可以看出,综合得分最高的是渝北区、九龙坡区、渝中区,排名靠前的主要是主城各区,排名靠后的则是以城口、双桥、巫溪、秀山、石柱为代表的区县,基本上代表了重庆市的社会经济现状。
由结果得知,一小时经济圈内的综合得分排位都比较靠前,这与中心区域经济效益相符合。
其中渝北区、九龙坡区、沙坪坝区、南岸区和江北区拥有较好的工业园区,在工业、建筑业等基础性产业上其产值有明显的优势,而这些优势又会带动其整体经济发展,所以排在前面。
渝中区的解放碑区域是重庆的金融中心,也是消费中心,所以也排在前面。
万州区、巴南区、永川区、江津区、江津区、涪陵区、合川区整体水平较好,农业发展较好。
综上,三峡库区边远区市县表现较为一致,作为第一类,其主要特征是综合实力、非农业实力因子和农业实力因子的得分均较低,整体经济基础薄弱,社会生产力水平低下;而以荣昌、大足、璧山、綦江为代表的成渝和渝黔线区市县为第二类,其特征是非农业实力因子得分低,农业实力因子得分较高,综合实力得分得分较低;其他以渝北区、沙坪坝区、渝中区为代表的主城各区及少数经济发展较好的区市县为第三类,其主要特征是综合实力得分和非农业实力因子均较高。
由各区市县的综合得分比较结果可以很好地解释重庆市政府制定的整体经济发展战略,将整个重庆划分为都市经济发达圈、渝西经济走廊和三峡库区生态经济带的发展思路,三个经济区域针对各自特点确定经济发展方向和重点。
8