多元统计研究分析之因子研究分析.docx
《多元统计研究分析之因子研究分析.docx》由会员分享,可在线阅读,更多相关《多元统计研究分析之因子研究分析.docx(26页珍藏版)》请在冰点文库上搜索。
多元统计研究分析之因子研究分析
第八章因子分析
§8.1什么是因子分析及基本思想
1904年CharlesSpearman发表一篇著名论文《对智力测验得分进行统计分析》视为因子分析的起点。
因子分析的形成和发展有相当长的历史,最早用以研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长时间。
后来由于电子计算机的出现,才使因子分析的理论研究和计算问题,有了很大的进展。
目前这一方法的应用范围已十分广泛,在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域都取得了显著的成绩。
1什么是因子分析
因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。
例如,某公司对100名招聘人员的知识和能力进行测试,出了50道题的试卷,其内容包括的面较广,但总的来讲可归纳为六个方面:
语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子,显然这里所说的因子不同于回归分析中因素,因为前者是比较抽象的一种概念,而后者有着极为明确的实际意义,如人口密度、工业总产值、产量等。
假设100人测试的分数可以用上述六个因子表示成线性函数:
其中表示六个因子,它对所有Xi是共有的因子,通常称为公共因子,它们的系数称为因子载荷,它表示第i个应试人员在六个因子方面的能力。
是第i个应试人的能力和知识不能被前六个因子包括的部分,称为特殊因子,通常假定,仔细观察这个模型与回归模型在形式上有些相似,实质很不同。
这里的的值未知的,并且有关参数的统计意义更不一样。
因子分析的任务,首先是估计出和方差,然后将这些抽象因子赋予有实际背景和因子之间的相互关系,以达到降维和对原始变量进行分类的目的。
因子分析的内容十分丰富,本章仅介绍因子分析常用的两种类型:
R型因子分析(对变量作因子分析)和Q型因子分析(对样品作因子分析)。
2基本思想
因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。
然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。
从全部计算过程来看作R型因子分析与作Q型因子分析都是一样的,只不过出发点不同,R型从相关系数矩阵出发,Q型从相似系数阵出发都是对同一批观测数据,可以根据其所要求的目的决定哪一类型的因子分析。
§8.2因子分析的数学模型
1数学模型(正交因子模型)
R型因子分析数学模型
用矩阵表示:
简记为
且满足:
1)
ii)即F和是不相关的;
iii)即F1…Fm不相关且方差皆为1。
即不相关,且方差不同。
其中是可实测的p个指标所构成p维随机向量,是不可观测的向量,F称为X的公共因子或潜因子,即前面所说的综合变量,可以把它们理解为在高维空间中的互相垂直的m个坐标轴;aij称为因子载荷是第i个变量在第j个公共因子上的负荷,如果把变量Xi看成m维因子空间中的一个向量,则表示Xi在坐标轴Fj上的投影,矩阵A称为因子载荷矩阵;称为X的特殊因子,通常理论上要求的协方差阵是对角阵,中包括了随机误差。
由上述模型满足的条件可知:
是不相关的。
若相关时,则D(F)就不是对角阵,这时的模型称为斜交因子模型,本章将不讨论这种模型。
类似地,Q型因子分析数学模型为:
此时X1,X2,…,Xn表示n个样品。
因子分析的目的就是通过模型代替X,由于,从而达到简化变量维数的愿望。
因子分析和主成分分析有很多相似之处,在求解过程中二者都是从一个协方差阵(或相似系数阵)出发,但这两种模型是有区别的,主成分分析的数学模型实质上是一种变换,而因子分析模型是描述原指标X协方差阵结构的一种模型,当时,若不能考虑,此时因子分析也对应于一种变量变换,但在实际应用中,m都小于p,且为经济起见总是越小越好。
另外在主成分分析中每个主成分相应的系数是唯一确定的,即因子戴荷阵不是唯一的,若为任一个阶正交阵,则因子模型可写成:
,仍满足约束条件,即,所以也是公共因子,也是因子载荷阵。
因子载荷这个不唯一性,从表面上看是不利的,但后面将会看到当因子载荷阵A的结构不够简化时,可对A实行变换以达到简化目的,使新的因子更具有鲜明的实际意义。
从因子分析的数学模型上看,它与多变量回归分析也有类似之处,但本质的区别是因子分析模型作为“自变量”的F是不可观测的。
2因子模型中公共因子、因子载荷和变量共同度的统计意义
为了便于对因子分析计算结果做解释,将因子分析数学模型中各个量的统计意义加以说明是十分必要的。
假定因子模型中,各个变量以及公共因子、特殊因子都已经是标准化(均值为0,方差为1)的变量。
(1)因子
(2)载荷的统计意义
已知模型:
两端后乘Fj得:
于是
由于在标准化下有:
因此
所以上式可写成:
(因为各因子不相关,所以相关系数为0)
故因子载荷的统计意义就是第i个变量与第j个公共因子的相关系数即表示Xi依赖Fj的份量(比重)。
因此用统计学的术语应该叫作权,但由于历史的原因,心理学家将它叫做载荷,即表示第i个变量在第j个公共因子上的负荷,它反映了第i个变量在第j个公共因子上的相对重要性。
(2)变量共同度的统计意义
所谓变量Xi的共同度定义为因子载荷阵A中第i行元素的平方和,即
为了说明它的统计意义,将下式两边求方差,即
V
由于Xi已标准化了,所以有
此式说明变量Xi的方差由两部分组成:
第一部分为共同度,它刻划全部公共因子对变量Xi的总方差所作的贡献,越接近1,说明该变量的几乎全部原始信息都被所选取的公共因子说明了,如则说明Xi的97%的信息被m个公共因子说明了,也就是说由原始变量空间转为因子空间转化的性质越好,保留原来信息量多,因此是Xi方差的重要组成部分。
当时,说明公共因子对Xi影响很小,主要由特殊因子来描述。
第二部分是特定变量所产生的方差,称为特殊因子方差仅与变量Xi本身的变化有关,它是使Xi的方差为1的补充值。
(3)公共因子Fj的方差贡献的统计意义
将因子载荷矩阵中各列元素的平方和记为
称Sj为公共因子Fj对X的贡献,即Sj表示同一公共因子Fj对诸变量所提供的方差贡献之总和,它是衡量公共因子相对重要性指标。
§8.3因子载荷阵的估计方法
要建立某实际问题的因子模型,关键是要根据样本数据矩阵估计因子载荷矩阵A。
对A的估计方法有很多,这里仅介绍使用较为普遍的主成分法。
设随机向量的协差阵为为的特征根,为对应的标准正交化特征向量(只要特征根不等,对应的单位特征向量一定是正交的),则根据线性代数知识可分解为:
上面的分解式恰是公共因子与变量个数一样多且特殊因子的方差为0时,因子模型中协差阵的结构。
因为这时因子模型为:
其中
所以即,对照的分解式,则因子载荷阵A的j列应该是,也就是说除常数外,第j列因子载荷恰是第j个主成分的系数ej,故称为主成分法。
上边给出的表达式是精确的,但实际应用时总是希望公共因子个数小于变量的个数即m
的贡献,于是得到
上式是假定了因子模型中的特殊因子是不重要的,因而从的分解中忽略掉特殊因子的方差。
如果考虑了特殊因子以后,协差阵为:
当未知,可用样本协差阵S去代替,要经过标准化处理,则S与相关阵R相同,仍然可作上面类似的表示。
一般设为样本相关阵R的特征根,相应的标准正交化特征向量为,设,则因子载荷阵的估计即
§8.4因子旋转
建立因子分析数学模型的目的不仅要找出公共因子以及对变量进行分组,更重要的是要知道每个公共因子的意义,以便对实际问题作出科学的分析,如果每个公共因子的涵义不清,不便于进行实际背景的解释,这时根据因子载荷阵的不唯一性,可知因子载荷实际旋转即用一个正交阵右乘A(由线性代数知道一个正交变换,对应坐标系的一次旋转)使旋转后的因子载荷阵结构简化,便于对公共因子进行解释。
所谓结构简化就是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上的载荷比较小,至多是中等大小。
这种变换因子载荷阵的方法称为因子轴的旋转,而旋转的方法有多种,如正交旋转,斜交旋轴等,本节只介绍常用的方差最大正交旋转法。
首先考虑m =2的情形。
设因子载荷阵
对A按行计算共同度。
考虑到各个变量Xi的共同度之间的差异所造成的不平衡,需对A中的元素进行规格化处理,即每行的元素用每行的共同度除之。
然后对规格化后的矩阵,为书写方便仍记为A,施行方差最大正交旋转。
设正交阵
记B=AT
这样做的目的是使因子载荷阵A的结构简化,换句话说,使载荷阵的每一列元素的平方值向0或1两极分化或者说公共因子的贡献越分散越好,这实际上希望将变量分成两部分,一部分主要与第一公共因子有关,另一部分与第二公共因子有关,因此,要求两组数据的方差V1和V2要尽可能地大。
为此,正交旋的角度必须满足使旋转后所得到因子载荷阵的总方差达到最大值,即
达到最大值(这里V的表达式形式类似一元统计中样本方差,可写成形式)
根据求极值原理,先求V对的导数。
令
经过计算,其旋转角度可按下面公式求得:
记
则
根据的分式的分子和分母取值的正负号来确定角的取值范围如下表:
分子取值符号
分母取值符号
取值范围
取值范围
+
+
0~
0~
+
—
~
—
—
-~-
—
+
-
如果公共因子有m个,则需逐次对每两个公共因子进行上述旋转,也就是说对每两个因子所决定的因子面正交旋转一个角度,每次的转角,必须满足使旋转后所得到的因子载荷阵的总方差达到最大值,即
使达到最大,其中为如下的正交阵:
没有标明的元素均为0。
A经过Tkj旋转(变换)后,矩阵,其元素为
其中旋转角度仍按下面公式求得:
m个因子,每次取两个全部配对进行旋转,共需旋转次,算做一个循环完毕,如果循环完毕得出的因子载荷阵还没有达到目的,则可以继续进行第二轮次配对旋转,具体地说如果第一轮旋转完毕的因子载荷阵记为,则可写成:
即对A施行正交变换C1而得B
(1),并计算载荷阵B
(1)的方差记为V
(1),在第一轮循环完毕的基础上,从B
(1)出发进行第二轮旋转循环,旋转完毕得B
(2),则B
(2)可写:
从B
(2)算出V
(2)。
显然
(
从算出。
如此不断重复旋转循环可得V值的一个非降序列:
因为因子载荷的绝对值不大于1,故这个序列是有上界的,于是有极限记为,即为V的最大值。
因此只要循环次数k充分大,就有
为所要求的精度。
在实际应用中,经过若干次旋转之后,若相对方差改变不大,则停止旋转,最后得
即为旋转后的因子载荷矩阵。
§8.5因子得分
因子分析的数学模型是将变量(或样品)表示为公共因子的线性组合:
由于公共因子能反映原始变量的相关关系,用公共因子代表原始变量时,有时更有利于描述研究对象的特征,因而往往需要反过来将公共因子表示为变量(或样品)的线性组合,即
称上式为因子得分的函数。
用它来计算每个样品的公共因子得分。
比如,则将每个样品的p个变量值代入上式即可算出每个样品的因子得分和,这样就可以在二维平面上作出因子得分的散点图,进而对样品进行分类或作为下一步分析原始数据时对问题做更深入的研究。
由于因子得分函数中方程的个数m小于变量的个数p,因此不能精确计算出因子得分,只能对因子得分进行估计。
估计因子得分有很多方法如加权最小二乘法、回归法等。
下面仅介绍回归法,它是1939年由Thomson提出来的,所以又称为汤姆森回归法。
Thomson假设公共因子可以对p个变量作回归,对变量的回归方程为
由于假设变量及公共因子都已经标准化了,所以。
下面先求这些回归系数,然后给出因子得分的计算公式。
由于因子得分的值是待估的,我们仅知道利用样本值可得因子载荷阵。
由因子载荷的意义知:
即
其中
因此
记
则
于是
其中
这就是估计因子得分的计算公式。
§8.6计算步骤及实例
设原始数据资料如下表:
变量
样品
X1
X2
…
Xp
1
x11
x12
…
x1p
2
x21
x22
…
x2p
n
xn1
xn2
…
xnp
第一步将原始数据标准化,为书写方便仍记为。
第二步建立变量的相关系数阵
其中
若作Q型因子分析,则建立样品的相似系数阵。
其中
以下步骤类似,只是将相关阵R改变成相似阵Q即可。
第三步求R的特征根及相应的单位特征向量,分别记为和记
根据累计贡献率的要求比如,取前m个特征根及相应的特征向量写出因子载荷阵:
第四步对A进行方差最大正交旋转。
第五步计算因子得分。
例1将上一章例子对全国30个省市自治区的经济发展八项指标作因子分析。
首先对原始数据标准化,以消除量纲的影响;
第二步建立指标间的相关系数阵R。
X1
X2
X3
X4
X5
X6
X7
X8
X1
1.000
0.267
0.951
0.191
0.617
-0.274
-0.264
0.874
X2
0.267
1.000
0.426
0.718
-0.151
-0.234
-0.593
0.363
X3
0.951
0.426
1.000
0.400
0.431
-0.282
-0.359
0.792
X4
0.191
0.718
0.400
1.000
-0.356
-0.134
-0.539
0.104
X5
0.617
-0.151
0.431
-0.356
1.000
-0.255
0.022
0.659
X6
-0.274
-0.234
-0.282
-0.134
-0.255
1.000
0.760
-0.126
X7
-0.264
-0.593
-0.359
-0.539
0.022
0.760
1.000
-0.192
X8
0.874
0.363
0.792
0.104
0.659
-0.126
-0.192
1.000
第三步求R的特征值和特征向量。
序号
特征值
方差贡献率%
累积贡献率%
1
3.755
46.943
46.943
2
2.195
27.443
74.386
3
1.214
15.178
89.564
4
0.403
5.033
94.596
5
0.213
2.660
97.256
6
0.139
1.737
98.993
7
6.594E-02
0.824
99.817
8
1.462E-02
0.183
100.00
由于前三个特征值的累计贡献率已达89.564%。
所以取前三个特征值所对应的特征向量如下:
第一特征向量
u1
第二特征向量
u2
第三特征向量
u3
0.470641
0.107995
0.19241
0.456708
0.256512
0.109819
0.424712
0.287536
0.19241
-0.31944
0.400931
0.397525
0.312729
0.40431
0.24505
0.250802
0.498801
-0.24777
0.240481
-0.48868
0.332179
-0.26267
0.167392
0.723351
第四步建立因子载荷阵。
因子
指标
Component
1
2
3
X1
0.885
0.383
0.121
X2
0.606
-0.599
0.270
X3
0.912
0.160
0.212
X4
0.466
-0.724
0.366
X5
0.486
0.739
-0.273
X6
-0.509
0.248
0.797
X7
-0.619
0.594
0.438
X8
0.823
0.426
0.212
第五步对因子载荷阵实行方差最大旋转,旋转后的矩阵如下:
正交因子表
因子
指标
Component
1
2
3
X1
0.955
0.125
-0.132
X2
0.217
0.841
-0.212
X3
0.817
0.352
-0.138
X4
5.102E-02
0.927
-0.114
X5
0.752
-0.505
-0.190
X6
-0.136
-8.325E-03
0.968
X7
-0.102
-0.496
0.820
X8
0.944
0.111
-1.465E-02
以上表可见,每个因子只有少数几个指标的因子载荷较大,因此可根据上表进行分类,将8个指标按高载荷分成三类,列于下表:
高载荷指标
意义
1
X1:
GDP
X3:
固定资产投资
X8:
工业总产值
总量因子
2
X2:
居民消费水平
X4:
职工平均工资
X5:
货物周转量
消费因子
3
X6:
居民消费价格指数
X7:
商品零售价格指数
价格因子
第一个因子在指标X1、X2、有较大的载荷,这些是从GDP、固定资产投资、工业总产值三个方面反映经济发展状况的,因此命名为总量因子。
第二个因子在指标X2、X4、X5有较大的载荷,这些是从居民消费水平,职工平均工资、货物周转量这三方面反映经济发展状况的,因此命名为消费因子。
第三个因子在指标X6、X7有较大的载荷,因此命名为价格因子。
例2利用1995年的数据对我国社会发展状况进行综合考察。
原始数据如下:
地区
人均GDP(元)
X1
新增固定资产(亿元)
X2
城镇居民人均年可支配收入(元)
X3
农村居民家庭人均纯收入(元)
X4
高等学校数(所)
X5
卫生机构数(个)
X6
北京
10265
30.81
6235
3223
65
4995
天津
8164
49.13
4929
2406
21
3182
河北
3376
77.76
3921
1668
47
10266
山西
2819
33.97
3305
1206
26
5922
内蒙
3013
54.51
2863
1208
19
4915
辽宁
6103
124.02
3706
1756
61
6719
吉林
3703
28.65
3174
1609
43
3891
黑龙江
4427
48.51
3375
1766
38
7637
上海
15204
128.93
7191
4245
45
5288
江苏
5785
101.09
4634
2456
67
12039
浙江
6149
41.88
6221
2966
37
8721
安徽
2521
55.74
3795
1302
35
6593
福建
5386
18.35
4506
2048
30
4537
江西
2376
26.28
3376
1537
31
5423
山东
4473
102.54
4264
1715
48
10463
河南
2475
71.36
3299
1231
50
7661
湖北
3341
37.75
4028
1511
56
9744
湖南
2701
43.10
4699
1425
47
9137
广东
6380
51.82
7438
2699
42
8848
广西
2772
32.52
4791
1446
27
5571
海南
4820
5.35
4770
1519
5
1653
四川
2516
80.97
4002
1158
64
18885
贵州
1553
22.07
3931
1086
22
3934
云南
2490
48.48
4085
1010
26
6395
陕西
2344
26.31
3309
962
46
6215
甘肃
1925
14.84
3152
880
17
4131
青海
2910
4.16
3319
1029
7
1176
宁夏
2685
7.94
3382
998
7
1028
新疆
3953
26.65
4163
1136
21
3932
资料来源:
《中国统计年鉴》。
第一步将数据标准化。
第二步建立指标间相关系数阵R如下:
X1
X2
X3
X4
X5
X6
X1
1.00
0.46
0.76
0.93
0.29
-0.06
X2
0.46
1.00
0.26
0.45
0.66
0.57
X3
0.76
0.26
1.00
0.85
0.25
0.13
X4
0.93
0.45
0.85
1.00
0.39
0.09
X5
0.29
0.66
0.25
0.39
1.00
0.75
X6
-0.06
0.57
0.13
0.09
0.75
1.00
第三步求R的特征值和累计贡献率。
序号
特征值
方差贡献率
累计贡献率
1
3.324650
55.41083
55.4108
2
1.790678
29.84463
85.2555
3
0.492583
8.20972
93.4652
4
0.263991
4.39985
97.8650
5
0.88465
1.47442
99.3395
6
0.039633
0.66054
100.0000
第四步建立因子载荷阵。
由于前三个特征值的累计贡献率已达93.46%,故取前三个特征值建立因子载荷阵如下:
因子
指标
Factor
Factor
Factor
1
2
3
1
0.612657
-0.141217
0.284904
2
0.240291
0.31504
0.888718
3
0.920468
0.158874
-0.00789
4
0.953077
0.33665
0.190316
5
0.189462
0.502540
0.307010
6
-0.30776
0.928865
0.252020
第五步将因子载荷阵实行方差最大正交旋转,得正交因子表如下:
因子
指标
Factor
Factor
Factor
1
2
3
X1
0.953927
-0.18684
0.188985
X2
0.339