多元统计研究分析之因子研究分析.docx

资源描述

多元统计研究分析之因子研究分析.docx

《多元统计研究分析之因子研究分析.docx》由会员分享，可在线阅读，更多相关《多元统计研究分析之因子研究分析.docx（26页珍藏版）》请在冰点文库上搜索。

多元统计研究分析之因子研究分析.docx

多元统计研究分析之因子研究分析

第八章因子分析

§8.1什么是因子分析及基本思想

1904年CharlesSpearman发表一篇著名论文《对智力测验得分进行统计分析》视为因子分析的起点。

因子分析的形成和发展有相当长的历史，最早用以研究解决心理学和教育学方面的问题，由于计算量大，又缺少高速计算的设备使因子分析的应用和发展受到很大的限制，甚至停滞了很长时间。

后来由于电子计算机的出现，才使因子分析的理论研究和计算问题，有了很大的进展。

目前这一方法的应用范围已十分广泛，在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域都取得了显著的成绩。

1什么是因子分析

因子分析是主成分分析的推广和发展，它也是将具有错综复杂关系的变量（或样品）综合为数量较少的几个因子，以再现原始变量与因子之间的相互关系，同时根据不同因子还可以对变量进行分类，它也是属于多元分析中处理降维的一种统计方法。

例如，某公司对100名招聘人员的知识和能力进行测试，出了50道题的试卷，其内容包括的面较广，但总的来讲可归纳为六个方面：

语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等，我们将每一个方面称为因子，显然这里所说的因子不同于回归分析中因素，因为前者是比较抽象的一种概念，而后者有着极为明确的实际意义，如人口密度、工业总产值、产量等。

假设100人测试的分数可以用上述六个因子表示成线性函数：

其中表示六个因子，它对所有Xi是共有的因子，通常称为公共因子，它们的系数称为因子载荷，它表示第i个应试人员在六个因子方面的能力。

是第i个应试人的能力和知识不能被前六个因子包括的部分，称为特殊因子，通常假定，仔细观察这个模型与回归模型在形式上有些相似，实质很不同。

这里的的值未知的，并且有关参数的统计意义更不一样。

因子分析的任务，首先是估计出和方差，然后将这些抽象因子赋予有实际背景和因子之间的相互关系，以达到降维和对原始变量进行分类的目的。

因子分析的内容十分丰富，本章仅介绍因子分析常用的两种类型：

R型因子分析（对变量作因子分析）和Q型因子分析（对样品作因子分析）。

2基本思想

因子分析的基本思想是通过变量（或样品）的相关系数矩阵（对样品是相似系数矩阵）内部结构的研究，找出能控制所有变量（或样品）的少数几个随机变量去描述多个变量（或样品）之间的相关（相似）关系，但在这里，这少数几个随机变量是不可观测的，通常称为因子。

然后根据相关性（或相似性）的大小把变量（或样品）分组，使得同组内的变量（或样品）之间相关性（或相似性）较高，但不同组的变量相关性（或相似性）较低。

从全部计算过程来看作R型因子分析与作Q型因子分析都是一样的，只不过出发点不同，R型从相关系数矩阵出发，Q型从相似系数阵出发都是对同一批观测数据，可以根据其所要求的目的决定哪一类型的因子分析。

§8.2因子分析的数学模型

1数学模型（正交因子模型）

R型因子分析数学模型

用矩阵表示：

简记为

且满足：

1）

ii）即F和是不相关的；

iii）即F1…Fm不相关且方差皆为1。

即不相关，且方差不同。

其中是可实测的p个指标所构成p维随机向量，是不可观测的向量，F称为X的公共因子或潜因子，即前面所说的综合变量，可以把它们理解为在高维空间中的互相垂直的m个坐标轴；aij称为因子载荷是第i个变量在第j个公共因子上的负荷，如果把变量Xi看成m维因子空间中的一个向量，则表示Xi在坐标轴Fj上的投影，矩阵A称为因子载荷矩阵；称为X的特殊因子，通常理论上要求的协方差阵是对角阵，中包括了随机误差。

由上述模型满足的条件可知：

是不相关的。

若相关时，则D（F）就不是对角阵，这时的模型称为斜交因子模型，本章将不讨论这种模型。

类似地，Q型因子分析数学模型为：

此时X1,X2,…,Xn表示n个样品。

因子分析的目的就是通过模型代替X，由于，从而达到简化变量维数的愿望。

因子分析和主成分分析有很多相似之处，在求解过程中二者都是从一个协方差阵（或相似系数阵）出发，但这两种模型是有区别的，主成分分析的数学模型实质上是一种变换，而因子分析模型是描述原指标X协方差阵结构的一种模型，当时，若不能考虑，此时因子分析也对应于一种变量变换，但在实际应用中，m都小于p，且为经济起见总是越小越好。

另外在主成分分析中每个主成分相应的系数是唯一确定的，即因子戴荷阵不是唯一的，若为任一个阶正交阵，则因子模型可写成：

，仍满足约束条件，即，所以也是公共因子，也是因子载荷阵。

因子载荷这个不唯一性，从表面上看是不利的，但后面将会看到当因子载荷阵A的结构不够简化时，可对A实行变换以达到简化目的，使新的因子更具有鲜明的实际意义。

从因子分析的数学模型上看，它与多变量回归分析也有类似之处，但本质的区别是因子分析模型作为“自变量”的F是不可观测的。

2因子模型中公共因子、因子载荷和变量共同度的统计意义

为了便于对因子分析计算结果做解释，将因子分析数学模型中各个量的统计意义加以说明是十分必要的。

假定因子模型中，各个变量以及公共因子、特殊因子都已经是标准化（均值为0，方差为1）的变量。

（1）因子

（2）载荷的统计意义

已知模型：

两端后乘Fj得：

于是

由于在标准化下有：

因此

所以上式可写成：

（因为各因子不相关，所以相关系数为0）

故因子载荷的统计意义就是第i个变量与第j个公共因子的相关系数即表示Xi依赖Fj的份量（比重）。

因此用统计学的术语应该叫作权，但由于历史的原因，心理学家将它叫做载荷，即表示第i个变量在第j个公共因子上的负荷，它反映了第i个变量在第j个公共因子上的相对重要性。

（2）变量共同度的统计意义

所谓变量Xi的共同度定义为因子载荷阵A中第i行元素的平方和，即

为了说明它的统计意义，将下式两边求方差，即

由于Xi已标准化了，所以有

此式说明变量Xi的方差由两部分组成：

第一部分为共同度，它刻划全部公共因子对变量Xi的总方差所作的贡献，越接近1，说明该变量的几乎全部原始信息都被所选取的公共因子说明了，如则说明Xi的97%的信息被m个公共因子说明了，也就是说由原始变量空间转为因子空间转化的性质越好，保留原来信息量多，因此是Xi方差的重要组成部分。

当时，说明公共因子对Xi影响很小，主要由特殊因子来描述。

第二部分是特定变量所产生的方差，称为特殊因子方差仅与变量Xi本身的变化有关，它是使Xi的方差为1的补充值。

（3）公共因子Fj的方差贡献的统计意义

将因子载荷矩阵中各列元素的平方和记为

称Sj为公共因子Fj对X的贡献，即Sj表示同一公共因子Fj对诸变量所提供的方差贡献之总和，它是衡量公共因子相对重要性指标。

§8.3因子载荷阵的估计方法

要建立某实际问题的因子模型，关键是要根据样本数据矩阵估计因子载荷矩阵A。

对A的估计方法有很多，这里仅介绍使用较为普遍的主成分法。

设随机向量的协差阵为为的特征根，为对应的标准正交化特征向量（只要特征根不等，对应的单位特征向量一定是正交的），则根据线性代数知识可分解为：

上面的分解式恰是公共因子与变量个数一样多且特殊因子的方差为0时，因子模型中协差阵的结构。

因为这时因子模型为：

其中

所以即，对照的分解式，则因子载荷阵A的j列应该是，也就是说除常数外，第j列因子载荷恰是第j个主成分的系数ej，故称为主成分法。

上边给出的表达式是精确的，但实际应用时总是希望公共因子个数小于变量的个数即m

的贡献，于是得到

上式是假定了因子模型中的特殊因子是不重要的，因而从的分解中忽略掉特殊因子的方差。

如果考虑了特殊因子以后，协差阵为：

当未知，可用样本协差阵S去代替，要经过标准化处理，则S与相关阵R相同，仍然可作上面类似的表示。

一般设为样本相关阵R的特征根，相应的标准正交化特征向量为，设，则因子载荷阵的估计即

§8.4因子旋转

建立因子分析数学模型的目的不仅要找出公共因子以及对变量进行分组，更重要的是要知道每个公共因子的意义，以便对实际问题作出科学的分析，如果每个公共因子的涵义不清，不便于进行实际背景的解释，这时根据因子载荷阵的不唯一性，可知因子载荷实际旋转即用一个正交阵右乘A（由线性代数知道一个正交变换，对应坐标系的一次旋转）使旋转后的因子载荷阵结构简化，便于对公共因子进行解释。

所谓结构简化就是使每个变量仅在一个公共因子上有较大的载荷，而在其余公共因子上的载荷比较小，至多是中等大小。

这种变换因子载荷阵的方法称为因子轴的旋转，而旋转的方法有多种，如正交旋转，斜交旋轴等，本节只介绍常用的方差最大正交旋转法。

首先考虑m =2的情形。

设因子载荷阵

对A按行计算共同度。

考虑到各个变量Xi的共同度之间的差异所造成的不平衡，需对A中的元素进行规格化处理，即每行的元素用每行的共同度除之。

然后对规格化后的矩阵，为书写方便仍记为A，施行方差最大正交旋转。

设正交阵

记B=AT

这样做的目的是使因子载荷阵A的结构简化，换句话说，使载荷阵的每一列元素的平方值向0或1两极分化或者说公共因子的贡献越分散越好，这实际上希望将变量分成两部分，一部分主要与第一公共因子有关，另一部分与第二公共因子有关，因此，要求两组数据的方差V1和V2要尽可能地大。

为此，正交旋的角度必须满足使旋转后所得到因子载荷阵的总方差达到最大值，即

达到最大值（这里V的表达式形式类似一元统计中样本方差，可写成形式）

根据求极值原理，先求V对的导数。

令

经过计算，其旋转角度可按下面公式求得：

记

则

根据的分式的分子和分母取值的正负号来确定角的取值范围如下表：

分子取值符号

分母取值符号

取值范围

—

-~-

—

如果公共因子有m个，则需逐次对每两个公共因子进行上述旋转，也就是说对每两个因子所决定的因子面正交旋转一个角度，每次的转角,必须满足使旋转后所得到的因子载荷阵的总方差达到最大值，即

使达到最大，其中为如下的正交阵：

没有标明的元素均为0。

A经过Tkj旋转（变换）后，矩阵，其元素为

其中旋转角度仍按下面公式求得：

m个因子，每次取两个全部配对进行旋转，共需旋转次，算做一个循环完毕，如果循环完毕得出的因子载荷阵还没有达到目的，则可以继续进行第二轮次配对旋转，具体地说如果第一轮旋转完毕的因子载荷阵记为,则可写成：

即对A施行正交变换C1而得B

（1），并计算载荷阵B

（1）的方差记为V

（1），在第一轮循环完毕的基础上，从B

（1）出发进行第二轮旋转循环，旋转完毕得B

（2），则B

（2）可写：

从B

（2）算出V

（2）。

显然

（

从算出。

如此不断重复旋转循环可得V值的一个非降序列：

因为因子载荷的绝对值不大于1，故这个序列是有上界的，于是有极限记为，即为V的最大值。

因此只要循环次数k充分大，就有

为所要求的精度。

在实际应用中，经过若干次旋转之后，若相对方差改变不大，则停止旋转，最后得

即为旋转后的因子载荷矩阵。

§8.5因子得分

因子分析的数学模型是将变量（或样品）表示为公共因子的线性组合：

由于公共因子能反映原始变量的相关关系，用公共因子代表原始变量时，有时更有利于描述研究对象的特征，因而往往需要反过来将公共因子表示为变量（或样品）的线性组合，即

称上式为因子得分的函数。

用它来计算每个样品的公共因子得分。

比如，则将每个样品的p个变量值代入上式即可算出每个样品的因子得分和，这样就可以在二维平面上作出因子得分的散点图，进而对样品进行分类或作为下一步分析原始数据时对问题做更深入的研究。

由于因子得分函数中方程的个数m小于变量的个数p，因此不能精确计算出因子得分，只能对因子得分进行估计。

估计因子得分有很多方法如加权最小二乘法、回归法等。

下面仅介绍回归法，它是1939年由Thomson提出来的，所以又称为汤姆森回归法。

Thomson假设公共因子可以对p个变量作回归，对变量的回归方程为

由于假设变量及公共因子都已经标准化了，所以。

下面先求这些回归系数，然后给出因子得分的计算公式。

由于因子得分的值是待估的，我们仅知道利用样本值可得因子载荷阵。

由因子载荷的意义知：

即

其中

因此

记

则

于是

其中

这就是估计因子得分的计算公式。

§8.6计算步骤及实例

设原始数据资料如下表：

变量

样品

…

x11

x12

…

x1p

x21

x22

…

x2p

xn1

xn2

…

xnp

第一步将原始数据标准化，为书写方便仍记为。

第二步建立变量的相关系数阵

其中

若作Q型因子分析，则建立样品的相似系数阵。

其中

以下步骤类似，只是将相关阵R改变成相似阵Q即可。

第三步求R的特征根及相应的单位特征向量，分别记为和记

根据累计贡献率的要求比如，取前m个特征根及相应的特征向量写出因子载荷阵：

第四步对A进行方差最大正交旋转。

第五步计算因子得分。

例1将上一章例子对全国30个省市自治区的经济发展八项指标作因子分析。

首先对原始数据标准化，以消除量纲的影响；

第二步建立指标间的相关系数阵R。

1.000

0.267

0.951

0.191

0.617

-0.274

-0.264

0.874

0.267

1.000

0.426

0.718

-0.151

-0.234

-0.593

0.363

0.951

0.426

1.000

0.400

0.431

-0.282

-0.359

0.792

0.191

0.718

0.400

1.000

-0.356

-0.134

-0.539

0.104

0.617

-0.151

0.431

-0.356

1.000

-0.255

0.022

0.659

-0.274

-0.234

-0.282

-0.134

-0.255

1.000

0.760

-0.126

-0.264

-0.593

-0.359

-0.539

0.022

0.760

1.000

-0.192

0.874

0.363

0.792

0.104

0.659

-0.126

-0.192

1.000

第三步求R的特征值和特征向量。

序号

特征值

方差贡献率%

累积贡献率%

3.755

46.943

2.195

27.443

74.386

1.214

15.178

89.564

0.403

5.033

94.596

0.213

2.660

97.256

0.139

1.737

98.993

6.594E-02

0.824

99.817

1.462E-02

0.183

100.00

由于前三个特征值的累计贡献率已达89.564%。

所以取前三个特征值所对应的特征向量如下：

第一特征向量

第二特征向量

第三特征向量

0.470641

0.107995

0.19241

0.456708

0.256512

0.109819

0.424712

0.287536

0.19241

-0.31944

0.400931

0.397525

0.312729

0.40431

0.24505

0.250802

0.498801

-0.24777

0.240481

-0.48868

0.332179

-0.26267

0.167392

0.723351

第四步建立因子载荷阵。

因子

指标

Component

0.885

0.383

0.121

0.606

-0.599

0.270

0.912

0.160

0.212

0.466

-0.724

0.366

0.486

0.739

-0.273

-0.509

0.248

0.797

-0.619

0.594

0.438

0.823

0.426

0.212

第五步对因子载荷阵实行方差最大旋转，旋转后的矩阵如下：

正交因子表

因子

指标

Component

0.955

0.125

-0.132

0.217

0.841

-0.212

0.817

0.352

-0.138

5.102E-02

0.927

-0.114

0.752

-0.505

-0.190

-0.136

-8.325E-03

0.968

-0.102

-0.496

0.820

0.944

0.111

-1.465E-02

以上表可见，每个因子只有少数几个指标的因子载荷较大，因此可根据上表进行分类，将8个指标按高载荷分成三类，列于下表：

高载荷指标

意义

X1：

GDP

X3：

固定资产投资

X8：

工业总产值

总量因子

X2：

居民消费水平

X4：

职工平均工资

X5：

货物周转量

消费因子

X6：

居民消费价格指数

X7：

商品零售价格指数

价格因子

第一个因子在指标X1、X2、有较大的载荷，这些是从GDP、固定资产投资、工业总产值三个方面反映经济发展状况的，因此命名为总量因子。

第二个因子在指标X2、X4、X5有较大的载荷，这些是从居民消费水平，职工平均工资、货物周转量这三方面反映经济发展状况的，因此命名为消费因子。

第三个因子在指标X6、X7有较大的载荷，因此命名为价格因子。

例2利用1995年的数据对我国社会发展状况进行综合考察。

原始数据如下：

地区

人均GDP（元）

新增固定资产（亿元）

城镇居民人均年可支配收入（元）

农村居民家庭人均纯收入（元）

高等学校数（所）

卫生机构数（个）

北京

10265

30.81

6235

3223

4995

天津

8164

49.13

4929

2406

3182

河北

3376

77.76

3921

1668

10266

山西

2819

33.97

3305

1206

5922

内蒙

3013

54.51

2863

1208

4915

辽宁

6103

124.02

3706

1756

6719

吉林

3703

28.65

3174

1609

3891

黑龙江

4427

48.51

3375

1766

7637

上海

15204

128.93

7191

4245

5288

江苏

5785

101.09

4634

2456

12039

浙江

6149

41.88

6221

2966

8721

安徽

2521

55.74

3795

1302

6593

福建

5386

18.35

4506

2048

4537

江西

2376

26.28

3376

1537

5423

山东

4473

102.54

4264

1715

10463

河南

2475

71.36

3299

1231

7661

湖北

3341

37.75

4028

1511

9744

湖南

2701

43.10

4699

1425

9137

广东

6380

51.82

7438

2699

8848

广西

2772

32.52

4791

1446

5571

海南

4820

5.35

4770

1519

1653

四川

2516

80.97

4002

1158

18885

贵州

1553

22.07

3931

1086

3934

云南

2490

48.48

4085

1010

6395

陕西

2344

26.31

3309

962

6215

甘肃

1925

14.84

3152

880

4131

青海

2910

4.16

3319

1029

1176

宁夏

2685

7.94

3382

998

1028

新疆

3953

26.65

4163

1136

3932

资料来源：

《中国统计年鉴》。

第一步将数据标准化。

第二步建立指标间相关系数阵R如下：

1.00

0.46

0.76

0.93

0.29

-0.06

0.46

1.00

0.26

0.45

0.66

0.57

0.76

0.26

1.00

0.85

0.25

0.13

0.93

0.45

0.85

1.00

0.39

0.09

0.29

0.66

0.25

0.39

1.00

0.75

-0.06

0.57

0.13

0.09

0.75

1.00

第三步求R的特征值和累计贡献率。

序号

特征值

方差贡献率

累计贡献率

3.324650

55.41083

55.4108

1.790678

29.84463

85.2555

0.492583

8.20972

93.4652

0.263991

4.39985

97.8650

0.88465

1.47442

99.3395

0.039633

0.66054

100.0000

第四步建立因子载荷阵。

由于前三个特征值的累计贡献率已达93.46%，故取前三个特征值建立因子载荷阵如下：

因子

指标

Factor

0.612657

-0.141217

0.284904

0.240291

0.31504

0.888718

0.920468

0.158874

-0.00789

0.953077

0.33665

0.190316

0.189462

0.502540

0.307010

-0.30776

0.928865

0.252020

第五步将因子载荷阵实行方差最大正交旋转，得正交因子表如下：

因子

指标

Factor

0.953927

-0.18684

0.188985

0.339

展开阅读全文