第8章统计实验因子分析.docx

资源描述

第8章统计实验因子分析.docx

《第8章统计实验因子分析.docx》由会员分享，可在线阅读，更多相关《第8章统计实验因子分析.docx（19页珍藏版）》请在冰点文库上搜索。

第8章统计实验因子分析.docx

第8章统计实验因子分析

实验四R型因子分析

1．实验目的：

本实验讨论利用R型因子分析从具有错综复杂关系的变量中，找出数量较少的几个公因子来描述原始的变量，并且尽量减少信息的损失。

通过该实验，能够起到如下的效果：

（1）理解因子分析的作用、思想、数学基础、方法和步骤；

（2）熟悉如何利用因子分析，提出问题、分析问题、解决问题、得出结论；（3）会调用SAS软件实现因子分析的各个步骤，根据计算的结果进行分析，得出正确的结论，解决实际的问题。

2．知识准备：

R型因子分析是从具有错综复杂关系的变量中，找出数量较少的几个公因子来描述原始的变量，并且尽量减少信息的损失。

其思想是：

找出少量的不相关的若干个随机变量（公因子），））尽最大信息的描述原始众多的关系复杂的变量。

其数学模型有很多，如正交因子模型【1】，因子分析模型L【4】等，它们的数学模型和方法均有不相同。

我们下面采用因子分析模型L来进行分析。

R型因子分析的步骤大体分为：

首先正向化指标；然后计算样本相关阵的特征值、单位特征向量和方差贡献率，根据方差贡献率选取适当数量的初始因子，并得到初始因子载荷阵；再对初始因子进行旋转，选用行及列的元素的绝对值向0、1分化严重的旋转因子载荷阵对应的旋转因子作为最终的公因子；最后利用因子载荷阵求出因子得分函数。

3．实验内容：

表１的数据是全国30个省市自治区经济发展基本情况，其中X1-GDP，X2-居民消费水平，X3-固定资产投资，X4-职工平均工资，X5-货物周转量，X6-居民消费价格指数，X7-商品零售价格指数，X8-工业总产值，数据来源：

1996年《中国统计年鉴》；见【１】

表1全国30个省市自治区经济发展基本情况

序号

省市

北京

1394.89

2505

519.01

8144

373.9

117.3

112.6

843.43

天津

920.11

2720

345.46

6501

342.8

115.2

110.6

582.51

河北

2849.52

1258

704.87

4839

2033.3

115.2

115.8

1234.85

山西

1092.48

1250

290.9

4721

717.3

116.9

115.6

697.25

内蒙

832.88

1387

250.23

4134

781.7

117.5

116.8

419.39

辽宁

2793.37

2397

387.99

4911

1371.1

116.1

114

1840.55

吉林

1129.2

1872

320.45

4430

497.4

115.2

114.2

762.47

黑龙江

2014.53

2334

435.73

4145

824.8

116.1

114.3

1240.37

上海

2462.57

5343

996.48

9279

207.4

118.7

113

1642.95

江苏

5155.25

1926

1434.95

5943

1025.5

115.8

114.3

2026.64

浙江

3524.79

2249

1006.39

6619

754.4

116.6

113.5

916.59

安徽

2003.58

1254

474

4609

908.3

114.8

112.7

824.14

福建

2160.52

2320

553.97

5857

609.3

115.2

114.4

433.67

江西

1205.11

1182

282.84

4211

411.7

116.9

115.9

571.84

山东

5002.34

1527

1229.55

5145

1196.6

117.6

114.2

2207.69

河南

3002.74

1034

670.35

4344

1574.4

116.5

114.9

1367.92

湖北

2391.42

1527

571.68

4685

849

120

116.6

1220.72

湖南

2195.7

1408

422.61

4797

1011.8

119

115.5

843.83

广东

5381.72

2699

1639.83

8250

656.5

114

111.6

1396.35

续表

序号

省市

广西

1606.15

1314

382.59

5105

556

118.4

116.4

554.97

海南

364.17

1814

198.35

5340

232.1

113.5

111.3

64.33

四川

3534

1261

822.54

4645

902.3

118.5

117

1431.81

贵州

630.07

942

150.84

4475

301.1

121.4

117.2

324.72

云南

1206.68

1261

334

5149

310.4

121.3

118.1

716.65

西藏

55.98

1110

17.87

7382

4.2

117.3

114.9

5.57

陕西

1000.03

1208

300.27

4396

500.9

119

117

600.98

甘肃

553.35

1007

114.81

5493

507

119.8

116.5

468.79

青海

165.31

1445

47.76

5753

61.6

118

116.3

105.8

宁夏

169.75

1355

61.98

5079

121.8

117.1

115.3

114.4

新疆

834.57

1469

376.95

5348

339

119.7

116.7

428.76

（1）利用因子分析模型L进行分析，找出适当的公共因子及相应的因子得分函数；

（2）利用上面的因子得分函数对样品进行聚类分析，并给出适当的结论。

4．实验步骤：

（1）利用因子分析模型L进行分析，找出适当的公共因子及相应的因子得分函数：

1.读入数据，并且正向化指标；

SAS程序:

Dataeconomy1;

inputX1-X8;

cards;

1394.892505519.018144373.9117.3112.6843.43

920.112720345.466501342.8115.2110.6582.51

2849.521258704.8748392033.3115.2115.81234.85

1092.481250290.94721717.3116.9115.6697.25

832.881387250.234134781.7117.5116.8419.39

2793.372397387.9949111371.1116.1114.01840.55

1129.21872320.454430497.4115.2114.2762.47

2014.532334435.734145824.8116.1114.31240.37

2462.575343996.489279207.4118.7113.01642.95

5155.2519261434.9559431025.5115.8114.32026.64

3524.7922491006.396619754.4116.6113.5916.59

2003.5812544744609908.3114.8112.7824.14

2160.522320553.975857609.3115.2114.4433.67

1205.111182282.844211411.7116.9115.9571.84

5002.3415271229.5551451196.6117.6114.22207.69

3002.741034670.3543441574.4116.5114.91367.92

2391.421527571.684685849120116.61220.72

2195.71408422.6147971011.8119115.5843.83

5381.7226991639.838250656.5114111.61396.35

1606.151314382.595105556118.4116.4554.97

364.171814198.355340232.1113.5111.364.33

35341261822.544645902.3118.51171431.81

630.07942150.844475301.1121.4117.2324.72

1206.6812613345149310.4121.3118.1716.65

55.98111017.8773824.2117.3114.95.57

1000.031208300.274396500.9119117600.98

553.351007114.815493507119.8116.5468.79

165.31144547.76575361.6118116.3105.8

169.75135561.985079121.8117.1115.3114.4

834.571469376.955348339119.7116.7428.76

;

run;

Dataeconomy2;

seteconomy1;

X9=100/X6;

X10=100/X7;

run;

语句解释：

“Dataeconomy1;”指将原始数据输入到文件“economy1”中；

“InputX1-X8；cards;”指将后面的数据对应地赋予变量X1-X8；

“Dataeconomy2;seteconomy1;”指调用“economy1”中的数据，经计算后存入“economy2”；

“X9=100/X6;X10=100/X7”指将变量“X6、X7”进行正向化的计算，正向化后的数据分别存入变量“X9、X10”；

２.调用因子分析程序，计算样本相关阵的特征值、单位特征向量和方差贡献率，并根据方差贡献率选取适当数量的因子作为初始因子；

SAS程序:

Procfactordata=economy2M=prinpriors=onep=0.8simplecorr;

varX1-X5X9X10X8;

run;

语句解释：

“Procfactor”指调用因子分析程序；

“data=economy2”指调用“economy2”中的数据；

“M=prin”指定因子提取的方法；可供选择的方法有：

prin（主成份法）、prinit（主因子法）、mlim（最大似然法）等；

“priors=one”指定所有变量的初始共性方差估计值为1；

“p=0.8”指定选用的初始因子的累积贡献率和刚好大于0.8；

“simple”指显示均值、标准差及观察个数；

“corr”指显示相关系数阵或偏相关系数阵；

“varX1-X5X9X10X8”指需要分析的变量是“X1-X5X9X10X8”，其它更多的语句参见书【2】。

运行结果及解释：

　　　　　　　　　　　　　　　　　图１相关阵的特征值、累计贡献率

图１数据“Eigenvalue”指相关系数阵的特征值；“Difference”指本行特征值与下行特征值之差；“Proportion”指本行特征值对应初始因子的方差贡献率；“Cumulative”指本行及上面各行特征值对应初始因子的累积贡献率；

　　　　　　　　　　　　图２　　因子载荷阵

图1中数据结果说明：

前3个因子的累计贡献率为0.8957，大于0.8，因此可以只取前3个因子作为初始因子；

图２、图３中数据“Factor1-Factor3”是三个初始因子；图2中数据显示：

载荷矩阵中元素的绝对值向0、１分化不明显，需要作因子旋转；

图３　　方差贡献率

图4中数据是变量“X1-X5X9X10X8”的共同度，数据显示：

每个变量的共同度都大于或等于0.8，这说明选用3个公因子就可以反映所有变量的绝大部分信息；

图４　　各变量的共同度

3.调用因子分析程序，选取3个初始因子，利用正交方差最大旋转法进行因子旋转；

SAS程序:

Procfactordata=economy2R=Vn=3scoreout=result;

varX1-X5X9X10X8;

run;

Procprintdata=result;

varfactor1-factor3;

run;

语句解释：

“R=V”指定因子旋转的方法；可供选择的方法有：

V（正交方差最大旋转法）、Orthomax（最大正交旋转法）、Equamax（正交均方最大旋转法）等；

“n=3”指选取前3个因子为公因子；

“score”指显示因子得分系数；

“out=result”指将每个样品的因子得分“factor1-factor3”输出到文件“result”中；

“procprintdata=result;varfactor1-factor3;”指将文件“result”中的数据“factor1

-factor3”输出到屏幕上其它更多的语句参见书【2】。

运行结果及解释：

图５旋转变换的正交矩阵　　　　　图6旋转后的因子载荷阵

图７旋转后的方差贡献率

图8　旋转后各变量的共同度

　　　　　　　　　　　　　　　　　　　图９最终的因子得分系数

实验结论：

图6中数据显示：

旋转后的载荷矩阵中元素的绝对值基本上向0、１分化，所以采用该旋转因子作为最终的公因子；

图8中数据显示：

每个变量的共同度都大于或等于0.8，这说明选用3个公因子就可以反映所有变量的绝大部分信息；

图9中数据显示：

因子得分函数为（记“Factor1、Factor2、Factor3”分别为“F1、F2、F3”）:

F1=0.306Y1＋0.023Y2＋0.269Y3-0.0246Y4＋0.25Y5-0.0676Y6-0.0774Y7＋0.31617Y8;

F2=0.011Y1＋0.3854Y2＋0.128Y3＋0.4526Y4-0.3168Y5-0.1803Y6＋0.098Y7＋0.0263Y8;

F3=-0.045Y1-0.036Y2-0.0717Y3-0.1Y4＋0.1344Y5＋0.652Y6＋0.46269Y7-0.12339Y8;

其中Yi是Xi标准化以后的变量。

第一个因子F1与X1-GDP、X3-固定资产投资、X5-货物周转量、X8-工业总产值十分显著正相关，故称F1为经济总量因子；第二个因子F2与X2-居民消费水平、X4-职工平均工资十分显著正相关，与X5-货物周转量略为负相关，称F2为生活因子；第三个因子F3与X6-居民消费价格指数、X7-商品零售价格指数十分显著负相关，故称F3为价格因子；

根据图7中旋转后的方差贡献率为权数构造综合因子得分函数：

F综=（3.207F1+2.2197F2+1.739F3）/8；

容易计算各地区的因子得分的情况，具体见表2。

（2）利用前面的因子得分函数对样品进行聚类分析，并给出适当的结论：

SAS程序:

Dataresult;

setresult;

F=（3.207*factor1+2.2197*factor2+1.739*factor3）/8;

Procclusterdata=resultmethod=averagenonormcccpseudoout=tree;

varfactor1-factor3;

Proctreedata=treehorizontalspaces=1;

run;

表2全国30个省市自治区经济发展的因子得分

省市

北京

-0.39597

1.589809

0.243384

河南

1.074393

-1.3164

0.450879

天津

-0.88884

0.987677

1.653053

湖北

0.597638

-0.29957

-1.25684

河北

1.231494

-1.52217

0.778953

湖南

0.261054

-0.52256

-0.52933

山西

-0.36304

-0.66365

0.131739

广东

1.478602

1.679266

1.222039

内蒙

-0.47699

-0.88334

-0.21422

广西

-0.28391

-0.27209

-0.62012

辽宁

0.963183

-0.43057

0.598747

海南

-1.47459

-0.01472

2.295604

吉林

-0.51245

-0.40505

0.942402

四川

1.105847

-0.52109

-0.97603

黑龙江

0.237184

-0.38024

0.56864

贵州

-0.7749

-0.35504

-1.62555

上海

0.60397

3.663595

-0.8434

云南

-0.28856

0.041591

-1.99748

江苏

2.034621

0.268164

0.167279

西藏

-1.59035

0.629962

-0.00828

浙江

0.653131

0.749526

0.316853

陕西

-0.41596

-0.53248

-0.88409

安徽

-0.06817

-0.80282

1.513597

甘肃

-0.72038

-0.22202

-1.0151

福建

-0.2664

0.267655

0.79539

青海

-1.34349

0.183551

-0.47019

江西

-0.55929

-0.68238

0.037252

宁夏

-1.35523

-0.15543

0.125034

山东

2.117601

-0.19441

-0.26507

新疆

-0.5802

0.11523

-1.13516

运行结果及解释：

图10聚类过程

图11聚类图

实验结论：

　取分类的阈值为1.83时，分成七类，结合综合因子得分样品值排名顺序给出相应共性分类：

第一类：

广东、浙江、北京；

第二类：

上海；

第三类：

江苏、山东；

第四类：

天津、海南；

第五类：

辽宁、河北、河南、福建、黑龙江、安徽、吉林、山西、江西、内蒙古；

第六类：

四川、湖北、湖南、广西、新疆、陕西、甘肃、云南、贵州；

第七类：

西藏、宁夏、青海。

　根据上面的数据容易得到30省市旋转后的因子得分和综合因子得分及排序，见表3；

表3旋转后因子得分、综合因子得分样品值及排序

省市

序

z综

序

广东

1.479

1.679

1.222

1.324

上海

0.604

3.664

-0.843

1.076

江苏

2.035

0.268

0.167

0.926

山东

2.118

-0.194

-0.265

0.738

浙江

0.653

0.75

0.317

0.539

辽宁

0.963

-0.431

0.599

0.397

北京

-0.396

1.59

0.243

0.335

天津

-0.889

0.988

1.653

0.277

河北

1.231

-1.522

0.779

0.241

河南

1.074

-1.316

0.451

0.163

福建

-0.266

0.268

0.795

0.141

黑龙江

0.237

-0.38

0.569

0.113

续表

省市

序

z综

序

四川

1.106

-0.521

-0.976

0.087

安徽

-0.068

-0.803

1.514

0.079

海南

-1.475

-0.015

2.296

-0.096

吉林

-0.512

-0.405

0.942

-0.113

湖北

0.598

-0.3

-1.257

-0.117

湖南

0.261

-0.523

-0.529

-0.155

山西

-0.363

-0.664

0.132

-0.301

广西

-0.284

-0.272

-0.62

-0.324

江西

-0.559

-0.682

0.037

-0.405

新疆

-0.58

0.115

-1.135

-0.447

西藏

-1.59

0.63

-0.008

-0.464

内蒙

-0.477

-0.883

-0.214

-0.483

陕西

-0.416

-0.532

-0.884

-0.507

云南

-0.289

0.042

-1.997

-0.538

宁夏

-1.355

-0.155

0.125

-0.559

甘

展开阅读全文