基于SPSS因子分析的全国各省市经济发展水平文档格式.docx
《基于SPSS因子分析的全国各省市经济发展水平文档格式.docx》由会员分享,可在线阅读,更多相关《基于SPSS因子分析的全国各省市经济发展水平文档格式.docx(15页珍藏版)》请在冰点文库上搜索。
其中,、分别为指标的最大与最小值。
适度指标方面,叶宗裕认为正向化可以采用指标值减去适度值的绝对值的相反数。
公式为。
其中为正向后数据,为原始数据,M为适度值。
指标的无量纲化则是通过标准化处理,将不同的指标通过数学变换转化为统一的相对值,消除各个指标不同量纲的影响。
常用的无量纲化包括:
标准化法、均值法和极差正规化法。
本文采用最常见的标准化法进行无量纲化处理,公式处理如下:
(是X的期望值,是X的标准差)
(2)计算相关矩阵R的特征值和特征向量
根据特征方程,计算相关相关矩阵的特征值及对应的特征向量A,的大小描述了各个因子在解释对象所起的作用的大小。
(3)计算因子贡献率及累积贡献率,确定公共因子个数
因子贡献率表示每个因子的变异程度占所有因子变异程度的比率,公式为:
,表示方差贡献率。
当累积贡献率达到80%以上或者特征根不小于1,即确定了公因子的个数。
(4)求解初始因子载荷矩阵
X=AF,因子载荷矩阵A并不唯一,软件则是运用不同的参数估计方法求出相应的估计矩阵,参数估计方法主要包括:
最小平方法、极大似然法、主成分法、主因子法、多元回归法。
(5)因子载荷矩阵的旋转
若因子载荷较为平均,初始的因子载荷矩阵描述的经济含义不太明显,难以判断与各个因子的关系时,就需要进行因子旋转。
通过因子旋转,使使旋转后公共因子的贡献更加分散,并对主因子进行命名,确定经济含义。
因子旋转主要有正交旋转法和斜交旋转法。
(6)计算样本的综合得分
通过因子载荷矩阵,可以得出因子的因子得分系数矩阵B。
然后计算出每个因子的得分F=BZ,最后以各因子的方差贡献率占因子总方差的贡献率的比重作为权重加权汇总,得到应变综合得分
二、我国各省份城市经济发展水平实例研究
2.1数据的来源及指标的选取
本文选取了《中国统计年鉴》中2013年我国31个省市基础数据(不包括台湾省、香港特别行政区、澳门特别行政区3个地区)。
根据各省的具体情况,选取了如下几个方面具有代表性的指标。
第三产业占GDP的比重(%)X1、规模以上工业企业数(个)X2、普通高等学校(所)X3、各地区研究与试验发展经费投入强度(%)X4、地区生产总值(万元)X5、医院(个)X6、各地区研究与试验发展人员全时当量(人)X7、规模以上工业总产值规模以上工业总产值(万元)X8、人口状况(人)X9。
图2.1.1、.1.2各省市综合发展情况的部分数据截图。
城市省份名称
第三产业占GDP的比重
规模以上工业企业数
普通高等学校
试验发展经费投入强度
北京市
76.07
3740
89
5.82
天津市
46.16
5013
55
2.49
河北省
34.39
11570
117
.76
山西省
36.68
3674
76
.98
内蒙古自
38.13
3580
43
.55
辽宁省
38.27
16913
115
1.56
吉林省
36.95
4702
.87
黑龙江省
34.09
3310
83
1.19
上海市
58.05
9962
66
1.81
江苏省
42.47
43380
126
2.07
浙江省
42.98
34511
94
1.78
安徽省
32.13
12436
109
1.32
福建省
38.39
15667
85
1.16
江西省
31.04
6456
77
.92
山东省
38.24
35820
176
1.72
河南省
29.32
18025
113
.91
湖北省
37.50
9568
118
1.65
湖南省
35.53
12254
104
广东省
47.34
38279
139
1.76
图2.1.1数据前四个指标部分数据截图
地区生产总值
医院
各地区研究与试验发展人员全时当量
规模以上工业总产值
人口状况
162519300
522
217255
142254977
2485
113072800
255
74293
190301522
1813
246115694
1123
73025
141875363
8648
111489646
1163
47355
57505680
4503
142342639
469
27604
62160379
2853
246790794
829
80977
249654698
6149
109234250
560
44815
110087027
3378
137048790
918
66599
83029477
5148
191956900
296
148500
320136659
2770
495125525
1114
342765
506273503
10428
317290455
652
253687
268690379
6275
156553492
710
81087
140143750
8787
176437864
411
96884
120391026
4475
115210906
502
37517
66515186
5664
461414148
1319
228608
394567225
12400
268476584
1193
118041
129231280
13303
184621800
614
113920
160959991
6870
198262773
768
85783
115441871
8222
555906768
1064
410805
823359740
12007
图2.2.2数据后5个指标部分数据截图
2.2SPSS上机操作的具体步骤
(1)在SPSS的变量视图中,建立“地区”变量,表示各个省市,建立“第一产业占GRP的比重”、“第二产业占GRP的比重”、“第三产业占GRP的比重”、“规模以上工业企业数”、“普通高等学校”、“各地区研究与试验发展经费投入强度”、“地区生产总值”、“医院”、“各地区研究与试验发展人员全时当量”、“规模以上工业总产值规模以上工业总产值(万元)”、“人口”变量,表示各省经济发展衡量指标。
(2)在SPSS活动数据文件中的数据视图中,把相关数据输入到各个变量中。
(3)打开数据文件,进入SPSSSatatistics数据编辑器窗口,在菜单栏中依次单击“分析”“降维”“因子分析选项卡”,将“第一产业占GRP的比重”、“第二产业占GRP的比重”、“第三产业占GRP的比重”、“规模以上工业企业数”、“普通高等学校”、“各地区研究与试验发展经费投入强度”、“地区生产总值”、“医院”、“各地区研究与试验发展人员全时当量”、“规模以上工业总产值规模以上工业总产值(万元)”、“人口”变量选入“变量”列表。
(4)单击“描述”按钮,勾选“原始分析结果”复选框和“KMO与Bartlett球形度检验”复选框,单击“继续”按钮,保存设置结果。
(5)单击“抽取”按钮,勾选“碎石图”复选框,其他为系统默认选择,单击“继续”按钮,保存设置结果。
(6)单击“旋转”按钮,勾选“最大方差法”复选框,其他为系统默认选择,单击“继续”按钮,保存设置结果。
(7)单击“得分”按钮,勾选“保存为变量”和“因子得分系数”复选框,单击“继续”按钮,保存设置结果。
(8)单击“确定”按钮,SPSSStatistics查看器窗口输出结果。
2.3SPPS因子分析输出结果展示
SPSSStatistics查看器窗口的输出结果如图2.3.1~2.3.10所示:
KMO和Bartlett的检验
取样足够度的Kaiser-Meyer-Olkin度量。
.781
Bartlett的球形度检验
近似卡方
355.021
Df
36
Sig.
.000
图2.3.1KMO和Bartlett的检验
图2.3.1给出了KMO和Bartlett检验结果。
KMO检验给出抽样充足量的测度,检验变量间的偏相关系数是否过小。
Bartlett球形检验检验相关系数矩阵是否是单位阵,如果是单位阵,则表明不适合采用因子模型。
经SPSS检验结果如图2.3.1所示。
根据Kaiser给出的是否做因子分析的KMO标准为:
KMO>
0.9,非常适合;
0.9>
0.8,适合;
0.8>
0.7,一般;
0.7>
0.6,不太适合;
KMO<
0.5不适合,从该图可得KMO值为0.781,故KMO检验通过表示比较适合做因子分析。
同时,相伴概率为0.000,小于显著水平0.05,因此拒绝原假设。
Bartlett球形检验通过,说明变量之间存在相关关系,所以本文所选的变量适合做因子分析。
公因子方差
初始
提取
第三产业占GRP的比重
1.000
.855
.862
.861
.650
.965
.748
.953
.841
.899
提取方法:
主成份分析。
图2.3.2变量共同度表
图2.3.2给出了每个变量共同度的结果。
根据变量共同度的统计意义,它刻画了全部公因子对于原始变量的总方差所做的贡献,它说明了全部公因子反映出原变量信息的百分比。
从该表所示的变量共同度可知,除了“试验发展经费投入强度”X4、“医院”X6的共同度为0.650、0.748,其余变量的共同度都在85%以上,因此变量共同度都非常高,表明变量中的大部分信息均能被因子所提取,说明因子分析的结果是有效的。
解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的%
累积%
1
5.717
63.518
5.679
63.105
2
1.916
22.288
85.806
1.953
22.701
3
.679
7.540
92.346
4
.290
3.219
95.565
5
.168
1.864
97.429
6
.111
1.230
98.658
7
.080
.893
99.551
8
.023
.259
99.810
9
.017
.190
100.000
图2.3.3因子贡献率表
图2.3.3给出的是因子贡献率表。
左侧部分为初始特征值,中间为提取主因子结果,右侧为旋转后的主因子结果。
“合计”指因子特征值,“方差的%”表示该因子的特征值占总特征值的百分比,“累计%”表示累计的百分比。
因子载荷是公共因子与指标变量之间的相关系数,载荷越大,说明公共因子与指标变量之间的关系越密切。
在确定公共因子个数时,先选择与原变量数目相等的因子个数,其因子计算结果如图2.3.3所示。
取初始特征矩阵大于1的因子为公共因子。
经过总方差分解,可以明显看出有二个因子旋转后特征值大于1,它们的方差贡献率分别为63.105%、22.701%,累计贡献率为85.806%。
当累积贡献率达到85%以上,因此完全可以采用这二个因子作为主因子对全国31个省市的经济综合发展水平做出评价。
图2.3.4碎石图
图2.3.4给出提供了因子数目和特征值大小的碎石图。
一般选取主因子在非常陡峭的斜率上,而处在平缓斜率上的因子对变异的解释非常小。
从该图可以看出前两个因子都处在非常陡峭的斜率上,而从第三个因子开始斜率变平缓,因此可以选择前两个因子作为主因子。
成份矩阵a
-.156
.911
.927
.044
.917
-.143
.366
.718
.981
.056
.752
-.428
.901
.375
.877
.266
.865
-.388
提取方法:
主成分分析法。
a.已提取了2个成份。
图2.3.5未旋转的因子载荷表
图2.3.5给出了未旋转的因子载荷。
从未旋转的矩阵可以得到利用主成分方法提取的两个主因子的载荷值。
但结果并不令人满意,第二个主因子的因子载荷略模糊。
为了方便解释因子含义,需要进行因子旋转。
所以本文采用Kaiser标准化的正交旋转法对因子进行了旋转,得到了因子载荷矩阵如下图2.3.6,进而更清楚地观察样本。
旋转成份矩阵a
-.245
.892
.918
.135
-.051
.294
.751
.970
.153
.790
-.351
.859
.463
.847
.352
-.300
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在3次迭代后收敛。
图2.3.6旋转的因子载荷表
图2.3.6给出了旋转后的因子载荷矩阵,通过因子旋转,各个因子有了比较明确的含义。
所以可以看出影响各省份发展水平的因素大致分为两类:
(1)规模以上工业企业数(个)X2、普通高等学校(所)X3、地区生产总值(万元)X5、医院(个)X6、各地区研究与试验发展人员全时当量(人)X7、规模以上工业总产值(万元)X8、人口状况(万人)X9的因子载荷较高。
所以作为第一主因子。
他们的因子载荷分别为:
0.918、0.927、0.970、0.790、0.859、0.847、0.899;
这些指标都是从一个方面反映关于各省份自主社会经济发展水平的情况,故可命名此公共因子F1为:
各省份自主发展因子。
(2)第三产业占GDP的比重X1、试验发展经费投入强度X4合计为第二因子,他们的载荷值分别为:
0.892、0.751。
这些指标都是在一定程度上能够反映国家对各省份发展的投入及支持情况,故可以命名此公因子F2为:
国家积极投入因子。
成份转换矩阵
.995
.099
-.099
图2.3.7旋转成分矩阵
旋转的因子载荷阵=未旋转的因子载荷阵×
成份得分系数矩阵
-.074
.471
.159
.039
.167
-.058
.027
.379
.046
-.209
.137
.210
.139
.171
-.186
构成得分。
图2.3.8成份得分系数矩阵
图2.3.8为成份得分系数矩阵,根据因子得分系数和原始变量的值可以计算出每个观测值的各因子的分数,并可以据此对观测值进行下一步的分析。
旋转后的因子得分表达式如下:
F1=-0.074×
第三产业占GRP的比重+0.159×
规模以上工业企业数+0.167×
普通高等学校+0.027×
各地区研究与试验发展经费投入强度+0.168×
地区生产总值+0.153×
医院+0.137×
各地区研究与试验发展人员全时当量+0.139×
规模以上工业总产值规模以上工业总产值+0.171×
人口
F2=0.471×
第三产业占GRP的比重+0.039×
规模以上工业企业数-0.058×
普通高等学校+0.379×
各地区研究与试验发展经费投入强度+0.046×
地区生产总值-0.209×
医院+0.210×
各地区研究与试验发展人员全时当量+0.153×
规模以上工业总产值规模以上工业总产值-0.186×
由计算出的因子的得分,可以描述我国各省市绩效水平,利用因子得分可以从不同的角度对我国各省市经济发展水平进行比较分析。
为了对我国各省市综合经济发展水平进行评价,现利用各省市因子得分表计算综合得分,各省市经济水平综合得分的获取是基于总方差分解表中旋转后各因子的方差贡献率及累积的方差贡献率所得,其具体计算公式为:
综合得分=(63.105%×
F1+22.701%×
F2)/85.806%。
详细情况见下表2.3.1。
表2.3.131个省市因子得分、综合得分结果及排名
自主发展得分
排序1
国家积极投入得分
排序2
综合得分
综合排序
-.18880
17
3.59518
2.90
2.53278