第8章统计实验因子分析.docx
《第8章统计实验因子分析.docx》由会员分享,可在线阅读,更多相关《第8章统计实验因子分析.docx(19页珍藏版)》请在冰点文库上搜索。
第8章统计实验因子分析
实验四R型因子分析
1.实验目的:
本实验讨论利用R型因子分析从具有错综复杂关系的变量中,找出数量较少的几个公因子来描述原始的变量,并且尽量减少信息的损失。
通过该实验,能够起到如下的效果:
(1)理解因子分析的作用、思想、数学基础、方法和步骤;
(2)熟悉如何利用因子分析,提出问题、分析问题、解决问题、得出结论;(3)会调用SAS软件实现因子分析的各个步骤,根据计算的结果进行分析,得出正确的结论,解决实际的问题。
2.知识准备:
R型因子分析是从具有错综复杂关系的变量中,找出数量较少的几个公因子来描述原始的变量,并且尽量减少信息的损失。
其思想是:
找出少量的不相关的若干个随机变量(公因子),))尽最大信息的描述原始众多的关系复杂的变量。
其数学模型有很多,如正交因子模型【1】,因子分析模型L【4】等,它们的数学模型和方法均有不相同。
我们下面采用因子分析模型L来进行分析。
R型因子分析的步骤大体分为:
首先正向化指标;然后计算样本相关阵的特征值、单位特征向量和方差贡献率,根据方差贡献率选取适当数量的初始因子,并得到初始因子载荷阵;再对初始因子进行旋转,选用行及列的元素的绝对值向0、1分化严重的旋转因子载荷阵对应的旋转因子作为最终的公因子;最后利用因子载荷阵求出因子得分函数。
3.实验内容:
表1的数据是全国30个省市自治区经济发展基本情况,其中X1-GDP,X2-居民消费水平,X3-固定资产投资,X4-职工平均工资,X5-货物周转量,X6-居民消费价格指数,X7-商品零售价格指数,X8-工业总产值,数据来源:
1996年《中国统计年鉴》;见【1】
表1全国30个省市自治区经济发展基本情况
序号
省市
X1
X2
X3
X4
X5
X6
X7
X8
1
北京
1394.89
2505
519.01
8144
373.9
117.3
112.6
843.43
2
天津
920.11
2720
345.46
6501
342.8
115.2
110.6
582.51
3
河北
2849.52
1258
704.87
4839
2033.3
115.2
115.8
1234.85
4
山西
1092.48
1250
290.9
4721
717.3
116.9
115.6
697.25
5
内蒙
832.88
1387
250.23
4134
781.7
117.5
116.8
419.39
6
辽宁
2793.37
2397
387.99
4911
1371.1
116.1
114
1840.55
7
吉林
1129.2
1872
320.45
4430
497.4
115.2
114.2
762.47
8
黑龙江
2014.53
2334
435.73
4145
824.8
116.1
114.3
1240.37
9
上海
2462.57
5343
996.48
9279
207.4
118.7
113
1642.95
10
江苏
5155.25
1926
1434.95
5943
1025.5
115.8
114.3
2026.64
11
浙江
3524.79
2249
1006.39
6619
754.4
116.6
113.5
916.59
12
安徽
2003.58
1254
474
4609
908.3
114.8
112.7
824.14
13
福建
2160.52
2320
553.97
5857
609.3
115.2
114.4
433.67
14
江西
1205.11
1182
282.84
4211
411.7
116.9
115.9
571.84
15
山东
5002.34
1527
1229.55
5145
1196.6
117.6
114.2
2207.69
16
河南
3002.74
1034
670.35
4344
1574.4
116.5
114.9
1367.92
17
湖北
2391.42
1527
571.68
4685
849
120
116.6
1220.72
18
湖南
2195.7
1408
422.61
4797
1011.8
119
115.5
843.83
19
广东
5381.72
2699
1639.83
8250
656.5
114
111.6
1396.35
续表
序号
省市
X1
X2
X3
X4
X5
X6
X7
X8
20
广西
1606.15
1314
382.59
5105
556
118.4
116.4
554.97
21
海南
364.17
1814
198.35
5340
232.1
113.5
111.3
64.33
22
四川
3534
1261
822.54
4645
902.3
118.5
117
1431.81
23
贵州
630.07
942
150.84
4475
301.1
121.4
117.2
324.72
24
云南
1206.68
1261
334
5149
310.4
121.3
118.1
716.65
25
西藏
55.98
1110
17.87
7382
4.2
117.3
114.9
5.57
26
陕西
1000.03
1208
300.27
4396
500.9
119
117
600.98
27
甘肃
553.35
1007
114.81
5493
507
119.8
116.5
468.79
28
青海
165.31
1445
47.76
5753
61.6
118
116.3
105.8
29
宁夏
169.75
1355
61.98
5079
121.8
117.1
115.3
114.4
30
新疆
834.57
1469
376.95
5348
339
119.7
116.7
428.76
(1)利用因子分析模型L进行分析,找出适当的公共因子及相应的因子得分函数;
(2)利用上面的因子得分函数对样品进行聚类分析,并给出适当的结论。
4.实验步骤:
(1)利用因子分析模型L进行分析,找出适当的公共因子及相应的因子得分函数:
1.读入数据,并且正向化指标;
SAS程序:
Dataeconomy1;
inputX1-X8;
cards;
1394.892505519.018144373.9117.3112.6843.43
920.112720345.466501342.8115.2110.6582.51
2849.521258704.8748392033.3115.2115.81234.85
1092.481250290.94721717.3116.9115.6697.25
832.881387250.234134781.7117.5116.8419.39
2793.372397387.9949111371.1116.1114.01840.55
1129.21872320.454430497.4115.2114.2762.47
2014.532334435.734145824.8116.1114.31240.37
2462.575343996.489279207.4118.7113.01642.95
5155.2519261434.9559431025.5115.8114.32026.64
3524.7922491006.396619754.4116.6113.5916.59
2003.5812544744609908.3114.8112.7824.14
2160.522320553.975857609.3115.2114.4433.67
1205.111182282.844211411.7116.9115.9571.84
5002.3415271229.5551451196.6117.6114.22207.69
3002.741034670.3543441574.4116.5114.91367.92
2391.421527571.684685849120116.61220.72
2195.71408422.6147971011.8119115.5843.83
5381.7226991639.838250656.5114111.61396.35
1606.151314382.595105556118.4116.4554.97
364.171814198.355340232.1113.5111.364.33
35341261822.544645902.3118.51171431.81
630.07942150.844475301.1121.4117.2324.72
1206.6812613345149310.4121.3118.1716.65
55.98111017.8773824.2117.3114.95.57
1000.031208300.274396500.9119117600.98
553.351007114.815493507119.8116.5468.79
165.31144547.76575361.6118116.3105.8
169.75135561.985079121.8117.1115.3114.4
834.571469376.955348339119.7116.7428.76
;
run;
Dataeconomy2;
seteconomy1;
X9=100/X6;
X10=100/X7;
run;
语句解释:
“Dataeconomy1;”指将原始数据输入到文件“economy1”中;
“InputX1-X8;cards;”指将后面的数据对应地赋予变量X1-X8;
“Dataeconomy2;seteconomy1;”指调用“economy1”中的数据,经计算后存入“economy2”;
“X9=100/X6;X10=100/X7”指将变量“X6、X7”进行正向化的计算,正向化后的数据分别存入变量“X9、X10”;
2.调用因子分析程序,计算样本相关阵的特征值、单位特征向量和方差贡献率,并根据方差贡献率选取适当数量的因子作为初始因子;
SAS程序:
Procfactordata=economy2M=prinpriors=onep=0.8simplecorr;
varX1-X5X9X10X8;
run;
语句解释:
“Procfactor”指调用因子分析程序;
“data=economy2”指调用“economy2”中的数据;
“M=prin”指定因子提取的方法;可供选择的方法有:
prin(主成份法)、prinit(主因子法)、mlim(最大似然法)等;
“priors=one”指定所有变量的初始共性方差估计值为1;
“p=0.8”指定选用的初始因子的累积贡献率和刚好大于0.8;
“simple”指显示均值、标准差及观察个数;
“corr”指显示相关系数阵或偏相关系数阵;
“varX1-X5X9X10X8”指需要分析的变量是“X1-X5X9X10X8”,其它更多的语句参见书【2】。
运行结果及解释:
图1相关阵的特征值、累计贡献率
图1数据“Eigenvalue”指相关系数阵的特征值;“Difference”指本行特征值与下行特征值之差;“Proportion”指本行特征值对应初始因子的方差贡献率;“Cumulative”指本行及上面各行特征值对应初始因子的累积贡献率;
图2 因子载荷阵
图1中数据结果说明:
前3个因子的累计贡献率为0.8957,大于0.8,因此可以只取前3个因子作为初始因子;
图2、图3中数据“Factor1-Factor3”是三个初始因子;图2中数据显示:
载荷矩阵中元素的绝对值向0、1分化不明显,需要作因子旋转;
图3 方差贡献率
图4中数据是变量“X1-X5X9X10X8”的共同度,数据显示:
每个变量的共同度都大于或等于0.8,这说明选用3个公因子就可以反映所有变量的绝大部分信息;
图4 各变量的共同度
3.调用因子分析程序,选取3个初始因子,利用正交方差最大旋转法进行因子旋转;
SAS程序:
Procfactordata=economy2R=Vn=3scoreout=result;
varX1-X5X9X10X8;
run;
Procprintdata=result;
varfactor1-factor3;
run;
语句解释:
“R=V”指定因子旋转的方法;可供选择的方法有:
V(正交方差最大旋转法)、Orthomax(最大正交旋转法)、Equamax(正交均方最大旋转法)等;
“n=3”指选取前3个因子为公因子;
“score”指显示因子得分系数;
“out=result”指将每个样品的因子得分“factor1-factor3”输出到文件“result”中;
“procprintdata=result;varfactor1-factor3;”指将文件“result”中的数据“factor1
-factor3”输出到屏幕上其它更多的语句参见书【2】。
运行结果及解释:
图5旋转变换的正交矩阵 图6旋转后的因子载荷阵
图7旋转后的方差贡献率
图8 旋转后各变量的共同度
图9最终的因子得分系数
实验结论:
图6中数据显示:
旋转后的载荷矩阵中元素的绝对值基本上向0、1分化,所以采用该旋转因子作为最终的公因子;
图8中数据显示:
每个变量的共同度都大于或等于0.8,这说明选用3个公因子就可以反映所有变量的绝大部分信息;
图9中数据显示:
因子得分函数为(记“Factor1、Factor2、Factor3”分别为“F1、F2、F3”):
F1=0.306Y1+0.023Y2+0.269Y3-0.0246Y4+0.25Y5-0.0676Y6-0.0774Y7+0.31617Y8;
F2=0.011Y1+0.3854Y2+0.128Y3+0.4526Y4-0.3168Y5-0.1803Y6+0.098Y7+0.0263Y8;
F3=-0.045Y1-0.036Y2-0.0717Y3-0.1Y4+0.1344Y5+0.652Y6+0.46269Y7-0.12339Y8;
其中Yi是Xi标准化以后的变量。
第一个因子F1与X1-GDP、X3-固定资产投资、X5-货物周转量、X8-工业总产值十分显著正相关,故称F1为经济总量因子;第二个因子F2与X2-居民消费水平、X4-职工平均工资十分显著正相关,与X5-货物周转量略为负相关,称F2为生活因子;第三个因子F3与X6-居民消费价格指数、X7-商品零售价格指数十分显著负相关,故称F3为价格因子;
根据图7中旋转后的方差贡献率为权数构造综合因子得分函数:
F综=(3.207F1+2.2197F2+1.739F3)/8;
容易计算各地区的因子得分的情况,具体见表2。
(2)利用前面的因子得分函数对样品进行聚类分析,并给出适当的结论:
SAS程序:
Dataresult;
setresult;
F=(3.207*factor1+2.2197*factor2+1.739*factor3)/8;
Procclusterdata=resultmethod=averagenonormcccpseudoout=tree;
varfactor1-factor3;
Proctreedata=treehorizontalspaces=1;
run;
表2全国30个省市自治区经济发展的因子得分
省市
F1
F2
F3
省市
F1
F2
F3
北京
-0.39597
1.589809
0.243384
河南
1.074393
-1.3164
0.450879
天津
-0.88884
0.987677
1.653053
湖北
0.597638
-0.29957
-1.25684
河北
1.231494
-1.52217
0.778953
湖南
0.261054
-0.52256
-0.52933
山西
-0.36304
-0.66365
0.131739
广东
1.478602
1.679266
1.222039
内蒙
-0.47699
-0.88334
-0.21422
广西
-0.28391
-0.27209
-0.62012
辽宁
0.963183
-0.43057
0.598747
海南
-1.47459
-0.01472
2.295604
吉林
-0.51245
-0.40505
0.942402
四川
1.105847
-0.52109
-0.97603
黑龙江
0.237184
-0.38024
0.56864
贵州
-0.7749
-0.35504
-1.62555
上海
0.60397
3.663595
-0.8434
云南
-0.28856
0.041591
-1.99748
江苏
2.034621
0.268164
0.167279
西藏
-1.59035
0.629962
-0.00828
浙江
0.653131
0.749526
0.316853
陕西
-0.41596
-0.53248
-0.88409
安徽
-0.06817
-0.80282
1.513597
甘肃
-0.72038
-0.22202
-1.0151
福建
-0.2664
0.267655
0.79539
青海
-1.34349
0.183551
-0.47019
江西
-0.55929
-0.68238
0.037252
宁夏
-1.35523
-0.15543
0.125034
山东
2.117601
-0.19441
-0.26507
新疆
-0.5802
0.11523
-1.13516
运行结果及解释:
图10聚类过程
图11聚类图
实验结论:
取分类的阈值为1.83时,分成七类,结合综合因子得分样品值排名顺序给出相应共性分类:
第一类:
广东、浙江、北京;
第二类:
上海;
第三类:
江苏、山东;
第四类:
天津、海南;
第五类:
辽宁、河北、河南、福建、黑龙江、安徽、吉林、山西、江西、内蒙古;
第六类:
四川、湖北、湖南、广西、新疆、陕西、甘肃、云南、贵州;
第七类:
西藏、宁夏、青海。
根据上面的数据容易得到30省市旋转后的因子得分和综合因子得分及排序,见表3;
表3旋转后因子得分、综合因子得分样品值及排序
省市
z1
序
z2
序
z3
序
z综
序
广东
1.479
3
1.679
2
1.222
4
1.324
1
上海
0.604
9
3.664
1
-0.843
23
1.076
2
江苏
2.035
2
0.268
7
0.167
13
0.926
3
山东
2.118
1
-0.194
14
-0.265
19
0.738
4
浙江
0.653
8
0.75
5
0.317
11
0.539
5
辽宁
0.963
7
-0.431
21
0.599
8
0.397
6
北京
-0.396
18
1.59
3
0.243
12
0.335
7
天津
-0.889
26
0.988
4
1.653
2
0.277
8
河北
1.231
4
-1.522
30
0.779
7
0.241
9
河南
1.074
6
-1.316
29
0.451
10
0.163
10
福建
-0.266
14
0.268
8
0.795
6
0.141
11
黑龙江
0.237
12
-0.38
19
0.569
9
0.113
12
续表
省市
z1
序
z2
序
z3
序
z综
序
四川
1.106
5
-0.521
22
-0.976
25
0.087
13
安徽
-0.068
13
-0.803
27
1.514
3
0.079
14
海南
-1.475
29
-0.015
12
2.296
1
-0.096
15
吉林
-0.512
21
-0.405
20
0.942
5
-0.113
16
湖北
0.598
10
-0.3
17
-1.257
28
-0.117
17
湖南
0.261
11
-0.523
23
-0.529
21
-0.155
18
山西
-0.363
17
-0.664
25
0.132
14
-0.301
19
广西
-0.284
15
-0.272
16
-0.62
22
-0.324
20
江西
-0.559
22
-0.682
26
0.037
16
-0.405
21
新疆
-0.58
23
0.115
10
-1.135
27
-0.447
22
西藏
-1.59
30
0.63
6
-0.008
17
-0.464
23
内蒙
-0.477
20
-0.883
28
-0.214
18
-0.483
24
陕西
-0.416
19
-0.532
24
-0.884
24
-0.507
25
云南
-0.289
16
0.042
11
-1.997
30
-0.538
26
宁夏
-1.355
28
-0.155
13
0.125
15
-0.559
27
甘