最新因子分析在STATA中实现和案例资料Word文档格式.docx
《最新因子分析在STATA中实现和案例资料Word文档格式.docx》由会员分享,可在线阅读,更多相关《最新因子分析在STATA中实现和案例资料Word文档格式.docx(15页珍藏版)》请在冰点文库上搜索。
3053.4
13152.86
4656.38
118
10305
17521
2478.2
13821.16
4512.46
115
14455
广
37589
5529.2
19732.86
6399.79
15819
西
14966
1419
14146.04
3690.34
68
10427
海
17175
230.2
12607.84
4389.97
16
2220
重
庆
18025
1381.9
14367.55
4126.21
47
6265
四
川
15378
2918.7
12633.38
4121.21
90
20738
贵
州
8824
903
11758.76
2796.93
45
5848
云
12587
1551
13250.22
3102.6
59
9249
藏
13861
137.4
12481.51
3175.82
6
1326
陕
18246
2262.8
12857.89
3136.46
88
8812
甘
肃
12110
575.2
10969.41
2723.79
39
10534
青
17389
322.8
11640.43
3061.24
9
1582
宁
夏
17892
403.9
12931.53
3681.42
15
1629
新
疆
19893
1162.9
11432.1
3502.9
37
6739
程序:
clear*定义变量的标签labelvararea省份
labelvarx1"
人均GDP(元)“
labelvarx2"
新增固定资产(亿元)"
labelvarx3"
城镇居民人均年可支配收入(元)
labelvarx5"
高等学校数(所)"
labelvarx6"
卫生机构数(个)"
describefactorx1-x6
screeplot/*碎石图(特征值等于1处的水平线标示保留主成分的分界点)*/
*检验
estatkmo/*KMO检验,越高越好*/estatsmc/*SMC检验,值越高越好*/rotate/*旋转*/
loadingplot,yline(0)xline(0)/*载荷图*/
*预测
predictscorefitresidualq/*预测变量得分、拟合值和残差以及残差的平方和*/
labelvarf1收入因子
labelvarf2"
投资、社会因子"
listareaf1f2summarizef1f2correlatef1f2
scoreplot,xtitle("
收入因子"
)ytitle("
)///mlabel(area)yline(0)xline(0)/*得分图*/
分析:
首先通过主因子分析(factor),得到主成分因子:
Factoranalysis/correlationNumberofobs=31
Method:
principalfactorsRetainedfactors=3
Rotation:
(unrotated)Numberofparams=15
Factor|
-L
Eigenvalue
Difference
Proportion
Cumulative
Factor1|
3.28193
1.42544
0.6554
Factor2|
1.85648
1.81677
0.3707
1.0261
Factor3|
0.03971
0.06244
0.0079
1.0341
Factor4|
-0.02272
0.03972
-0.0045
1.0295
Factor5|
-0.06244
0.02293
-0.0125
1.0170
Factor6|
-0.08538
-0.01701.0000
LRtest:
independentvs.saturated:
chi2(15)=211.52Prob>
chi2=0.0000
Factorloadings(patternmatrix)anduniquevariances
Variable|Factor1Factor2Factor3|Uniqueness++
x1_s|
0.8609
-0.4463
-0.1125|
0.0469
x2_s|
0.6274
0.6026
-0.1061|
0.2320
x3_s|
0.8800
-0.3931
0.0998|
0.0611
x4_s|
0.9120
-0.3658
0.0365|
0.0332
x5_s|
0.6508
0.6526
0.0349|
0.1494
x6_s|0.34270.76160.0572|0.2993
从上面的分析可以看出,只有两个成分大于1大于的特征值,同时两个成分解释了全部六个变量组合的方差还多。
不重要的第2到6个主成分在随后的分析中可以放心地省略去。
运行factor命令后,我们可以接着运行screeplot命令画出碎石图。
碎石图中特征值等于1处的水平线标示了保留主成分的常用分界点,同时再次强调了本例中的成分3到成分6并不重要。
Number
碎石图
检验的方法还是跟上一章的主成分分析一样,由于我们都是选用实际的数据来进行分析,所以在一般情况下,检验都是通得过的,可以忽略,觉得有需要的再进行检验。
旋转会进一步简化因子结构。
在提取因子之后,键入rotate命令进行旋转。
orthogonalvarimax(Kaiseroff)Numberofparams=15
丄
Variance
2.90489
0.67214
0.5801
2.23276
2.19228
0.4459
1.0260
0.04047
0.0081
Rotatedfactorloadings(patternmatrix)anduniquevariances
Variable|Factor1Factor2Factor3|Uniqueness
+
+
x1|
0.9659
0.0601
0.1284|
x2|
0.2269
0.8399
0.1052|
x3|
0.9585
0.1143
-0.0844|
x4|
0.9708
0.1546
-0.0211|
x5|
0.2236
0.8940
-0.0362|
x6|
-0.0962
0.8291
-0.0635|
0.2993
Factorrotationmatrix
|Factor1Factor2Factor3
Factor1|0.85780.51380.0115
Factor2|-0.51370.8579-0.0135
Factor3|0.0168-0.0056-0.9998
结合实际情况,我们通过上面的分析整理出前两个主因子的正交因子表表:
正交因子表
子
Factor
指标
1
2
x1
x2
x3
x4
x5
x6
根据上表将六个指标按高载荷分成两类,并结合专业知识对各因子命名,如下表:
表:
高载荷分类
高载荷指标
因子命名
人均GDP
城镇居民人均年可支配收入农村居民家庭人均纯收入
收入因子
高等学校数卫生机构数新增固定资产
投资、社会因子
接着进行一个后续因子分析的制图命令loadingplote有助于将其可视化。
从图中我们就可以直观的看出在主因子1中x1、x3、x4明显取得较大值,而对于主因子2则是x2、x5、x6取得较大的值。
载荷图
Factorloadings
8
4
.5Factor1
orthogonalvarimaxMethod:
principalfactors
因子分是通过将每个变量标准化为平均数等于0和方差等于1然后以因子分系数进行加权合计为每个因子构成的线性组合。
基于最近的rotate或factor
结果,predict会自动进行这些计算。
通过命令predictflf2,我们得到了各个观察变量的主因子1、主因子2的得分情况。
.listareaflf2
7.|
吉
林
-.1869884
-.0693724
++
8.|
黑龙江
-.3388027
.0518705
|areaf1f2|
9.|
上
3.102133
-.8749663
|1
10.|
江
苏
.7713872
1.864629
1.|北京2.561218-.3716789|
|---
1
2.|天津1.557873-.9623399|
11.|
浙
1.640963
.5580102
3.|河北-.33086411.11135|
12.|
安
徽
-.5925296
.5026094
4.|山西-.4196471-.1267554|
13.|
福
建
.5376554
-.3128498
5.|内蒙古.0597282-.493462|
14.|
-.445243
.2467043
15.|
.1589503
1.588749
6.|辽宁.05891541.03599|
16.|
-.4744598
1.084772|
25.|
-.7608307
-.2586383
17.|
-.4194019
.7986803|
|
|
18.|
-.4611212
.8609527|
26.|
-.6072451
-1.569231
19.|
.6425342
1.33433|
27.|
-.7326311
.1913275
20.|
-.5491737
-.1288966|
28.|
-.9497479
-.5987777
29.|
-.6269016
-1.50444|
21.|
-.2889173
-1.39015|
30.|
-.4114082
-1.422286
22.|
-.3183038
-.6323313|
23.|
-.652319
.9108785|
31.|
-.5836563
-.7628338
24.|
-.9411649
-.6618432|
+---
Max
.summarizef1f2
Variable|ObsMeanStd.Dev.Min
f1|31-4.09e-09.988557-.94974793.102133
f2|319.13e-09.9464783-1.5692311.864629
在这些因子分之间是存在着相关,在默认选项中,promax旋转允许因子分之间存在相关。
通过运行命令correlatef1f2可得。
从运行出来的结果看到,
两个因子分相关关系是很小的。
.correlatef1f2(obs=31)
|f1f2
f1|1.0000
f2|0.01581.0000
另一个后因子分析制图命令,scoreplot可绘出这些观测案例的因子分的散点图。
在本例的得分图中,我们可以看到,上海、北京、浙江、天津这些城市的主因子1的得分相对于其他城市高,因为主因子1是收入因子,这些城市的收入在全国是排在前列的。
而我们可以看到北京、上海的在主因子2(即投资、社会因子)的得分是较低,这是因为这两个城市的经济总量相对较小。
在江苏、山东、广东这些经济总量名列前茅的省份,它们的主因子2的得分也是相应位于其他城市前面。
得分图
练习:
将上一章的主成分分析的例子的数据进行因子分析
省份
GDP
(亿元)
居民消费水平(元)
固定资
产投资
职工平
均工资
(元)
货物周
转量
(亿吨公
里)
居民消费价格指数(上年
100)
商品零售价格指数(上年
工业总产值
area
x7
x8
北京
10488.03
20346
3814.7
56328
758.9
105.1
104.4
10413
天津
6354.38
14000
3389.8
41748
2703.4
105.4
12503
河北
16188.61
6570
8866.6
24756
5925.5
106.2
106.7
23031
山西
6938.73
6187
3531.2
25828
2562.2
107.2
10024
内蒙古
7761.8
8108
5475.4
26114
3658.7
105.7
104.7
8740.2
辽宁
13461.57
9625
10019.1
27729
7033.9
104.6
105.3
24769
吉林
6424.06
7591
5038.9
23486
1157.8
8406.9
8310
7039
3656
23046
1690.9
105.6
105.8
7624.5
上海
13698.15
27343
4823.1
56565
16029.8
25121
江苏
30312.61
11013
15300.6
31667
4300.9
104.9
67799
浙江
21486.92
13893
9323
34146
4974.9
105
106.3
40832
安徽
8874.17
6377
6747
26363
5843.2
11162
10823.11
10361
5207.7
25702
2396.2
15213
6480.33
5753
4745.4
21000
2285.5
106
106.1
8499.6
31072.06
9573
15435.9
26404
10107.8
62959
18407.78
5877
10490.6
24816
5165.1
107
107.5
26028
11330.38
7406
5647
22739
2526.4
13455
11156.64
7145
5534
24870
2349.8
11553
35696.46
14390
10868.7
33110
4428.4
65425
7171.58
6103
3756.4
25660
2079
107.8
107.6
6072
1459.23
6550
705.4
21864
597.7
106.9
1103.1
5096.66
9835
3979.6
26985
1490.3
5755.9
12506.25
7127.8
25038
1578.7
14762
3333.4
4426
1864.5
24602
805.3
3111.1
5700.1
4553
3435.9
24030
821.3
5144.6
395.91
3504
309.9
47280
35.5
103.9
48.19
6851.32
6290
4614.4
25942
2027
106.4
7480.8
3176.11
4869
1712.8
24017
1594.9
108.2
107.9
3667.5
961.53
5830
583.2
30983
335.7
110.1
110.6
1098.51
7193
828.9
30719
703.6
108.5
1366.5
4203.41
5542
2260
24687
1273
108.1
4276.1