因子分析.docx - 冰点文库

资源描述

因子分析.docx

《因子分析.docx》由会员分享，可在线阅读，更多相关《因子分析.docx（12页珍藏版）》请在冰点文库上搜索。

因子分析.docx

因子分析

一、基本概念

因子分析的基本目的是用少数的几个因子去描述多个变量之间的关系，以达到降维的目的。

被描述的变量一般都是可观测的随机变量，而因子是不可观测的潜在变量。

例如：

“态度”，“能力”都是不可观测的潜在变量，多用“受教育水平”“工作业绩”等可观测变量来反映潜在变量水平。

因子分析就是利用这些不可观测的潜在变量作为公共因子来解释可观测变量的一种工具。

因子分析的基本思想就是把联系比较紧密的变量归为同一个类别，实现不同类型的变量之间有较低相关性。

在同一个类别内的变量，认为是收到了某个共同的影响而高度相关，这个共同因素称之为公共因子，即为潜在的不可观测变量。

因子分析的基本原理是以相关性为基础，从协方差或相关矩阵入手把大部分的变异归结为少数几个公共因子所为，把剩余的变异称为特殊因子。

每一类变量代表了一个公共因子，因子分析就是寻找和确定这些公共因子的分析方法。

因子分析反映了一种降维的思想，通过降维将相关性高的变量聚在一起，不仅便于提取容易解释的特征，而且降低了需要分析的变量数目和分析问题的复杂性。

在问题内在体系还不了解时，可利用它吧观测变量鬼碧昂为少数几个公共因子，令每个因子代表一个空间的维度，经过正交或斜交旋转，使各个维度互不相连，用这些维度刻画系统的结构。

因子分析包括探索性因子分析（EFA）和验证性因子分析（CFA）两大类方法。

探索性因子分析致力于找出食物内在的本质结构，而验证性因子分析是用来检验已知的特定结构是否按照预期的方式产生作用。

两者之间既有区别又有联系，下面我主要对探索性因子分析进行讨论。

二、数学模型

1,数学模型

x1=u1+a11f1+a12f2+a13f3…..a1mfm+e1

x2=u2+a21f1+a22f2+a23f3…..a2mfm+e2

x3=u3+a31f1+a32f2+a33f3…..a3mfm+e3

xp=up+ap1f1+ap2f2+ap3f3…..apmfm+ep

矩阵表示：

x=u+Af+e

假设：

E（f）=0;

E（e）=0;

V（f）=I;

V（e）=D=diag（

…..

）;

Cov（f,e）=E（feT）=0.

其中：

（x1,x2,x3…..xm）T为P维可观测随机变量；

u=（u1,u2,u3….um）T为可观测变量的均值；

为协方差矩阵；

f=（f1,f2,f3….fm）T为公因子向量；

e=（e1,e2,e3…..em）T为特殊因子向量；

A=（aij）p*m为因子载荷矩阵。

2，数学模型的性质,

（1）

协方差矩阵的分解

=AAT+D

当X的各分量已经是标准化了的随机变量，则协方差矩阵的值与相关矩阵的值相同，=AAT+D

（2）统计性质

aij是xi与fj的协方差函数，若X是已经标准化的随机向量，则aij是xi与fj的相关系数。

=hi2+

即为公共因子对原始变量的x的方差贡献。

hi2反映了公共因子对xi的影响，可以看成是公共因子对xi的方差贡献，成为共性方差（communality）；而

2是特殊因子ei对xi的方差贡献，称为特殊方差（specificvariance）。

当x为标准化了的随机向量时，hi2+

2=1

gj2=

——公共因子fj对x的总方差贡献，反映了公共因子fj对x的影响，是衡量公共因子fj重要性的一个尺度

三、因子分析的步骤

1，因子分析的操作步骤

（1）确认待分析的变量是否适合做因子分析

（2）构造因子变量

（3）因子旋转是因子变量更具有可解释性

（4）计算因子得分

2，在因子分析过程中计算的过程分为以下几步

（1）对样本数据进行标准化处理；

（2）计算相关系数矩阵

（3）计算相关系数矩阵的特征值和特征向量，确定因子个数；

（4）求出因子载荷矩阵；

（5）根据情况进行因子旋转；

（6）计算因子得分

（7）以因子的贡献率为权重，计算因子得分的综合得分，根据综合得分排序。

四、操作步骤的详细解释

1，确认待分析的变量是否适合做因子分析

因子分析是从众多的原始变量中重构少数几个具有代表意义的因子变量的过程。

隐含的前提是原有变量之间要具有比较强的相关性。

所以，在因子分析之前，首要的就是要先对原有变量做相关分析，看它是否满足做因子分子的条件。

确定是否适合做因子分析的方法：

（1）计算变量之间的相关系数矩阵

如果相关系数矩阵在进行统计检验中大部分相关系数都小于0.3，那么表明这些变量不适合于进行因子分析。

（2）巴特利特球形检验（BartlettTestofSphericity）

此方法采用假设检验法。

假设各变量不相关，即相关系数矩阵对角线上值都为1，其他值都为0.统计量由行列式得到，如果显著性概率值小于0.05，则认为假设不成立，各变量相关性较大，适合做因子分析。

（3）KMO（Kaiser-Meyer-Olkin）检验

KMO值在0-1之间，其值越接近1，表明所有变量之间简单相关系数平方和远大于偏相关系数平方和，就越适合因子分析。

一般认为，大于0.7则适合做因子分析。

2，构造因子变量

因子分析中有很多确定因子变量的方法，如基于主成分模型的主成分分析和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。

下面对其中主成分分析法最为常用。

主成分分析通过坐标变换手段，将原有的相关向量x做线性变化，转换为另外一组不相关的变量y，并将y用x表示

y1,y2….yp为原有变量的主成分，按在总方差中所占比列排次序，所占比例越大，表明综合原有变量的能力也越强，这些从前往后取前面几个主成分，一般认为累积变量共享率达到85%以上时，所选择的所有主成分能够较为完整的表示所有原变量的信息，从而确定了因子个数和公共因子。

3，因子旋转

因子旋转的目的：

因子分析不仅是要找出主因子，更重要的是知道每个主因子所代表的意义。

通过估计因子载荷矩阵得到的因子模型还只是一个初始模型，不一定能反映问题的实质特征，它们所代表的实际意义也不一定容易解释。

因子旋转就是为了解决因子不能反映实际意义的问题的一种改进方法。

另外，如果求得的载荷举着A的所有元素都接近0或者|1|，则模型的公共因子就抑郁解释，反之，如果多数居中，不大不小，则对模型的公共因素不易做出解释。

这时，通过因子旋转，可以使得载荷矩阵的每一列上的元素的绝对值尽可能来开距离，是其中一些元素接近0，另一些接近|1|。

因子旋转的依据是因子模型的不唯一性。

附：

设T为任意一个m*m的正交矩阵，则TTT=I

X=u+Af+e=u+A（TTT）f+e=u+（AT）（TTf）+e

则载荷矩阵由A变为（AT）,公共因子由f变为（TTf），

此时，仍然满足因子模型的假设

E（TTf）=TTE（f）=0；

V（TTf）=TTV（f）T=I;

Cov（TTf,e）=E（TTfeT）=0.

所以，因子载荷是不唯一的，因子模型也是不唯一的，在满足条件的情况下，可以根据这个性质因子旋转，实现公共因子的实际可理解性。

因子旋转的方法很多，如正交旋转，斜交旋转，正交旋转又包括最大方差旋转，四次方最大化旋转等。

（1）最大方差旋转法

原理：

选择正交矩阵T，使得矩阵AT所有m个列元素平方的相对方差之和达到最大。

V=V1+V2+…….Vm

步骤：

设已求出的因子载荷矩阵为

任意选取两列A*（例如第一，二列）与正交变换矩阵T因子旋转，T可以表示为

A*T

由上式求得各列元素的相对方差之和V，易知V是

函数，利用微积分求极值的方法，将V对

导数等于0，求出

，使V达到最大。

此时，其余列不变。

之后，在其余列中再人选两列重复上述旋转，m个公因子总共需要进

行

m（m-1）次，此时算是完成了第一轮旋转，然后再重新开始，进行第

二轮配对旋转，如此继续下去，得到一系列因子载荷矩阵A1，A2…..,

必然有V1

实际应用中，当V的值变化不大时，即可停止旋转。

4，因子的命名解释

因子旋转的主要目的，就是能够更好地进行因子的命名解释。

这是因子分析中另一个核心问题。

经过上述步骤的分析，得到了公共因子，它能反映所有原有变量的信息。

经过因子旋转，每个不同的公共因子能够反映不同的原变量组合的信息，因子的命名解释就是为了进一步定义这些公共因子在实际应用中的含义。

5，因子得分

在所建立的因子模型中，将总体中的原有变量分解为公共因子与特殊因子的线性组合，同样的，也可以把每个公共因子表示成原有变量的线性组合，称之为因子得分函数。

常用方法有Thompson，加权最小二乘法，回归法等。

因子得分可以解决公共因子不可测量的问题。

同时，因子得分可以看做是各变量值得权数综合，表示各个变量对于公共因子的重要程度。

五、运用SPSS做因子分析

1，实验数据

为2012年2月到9月份商品零售价格分类统计表，下载自国家统计局网

附件：

因子分析2.xlsx数据表

2，操作设置过程

略

3，结果及分析

（1）描述性统计输出

关于17个初始统计量的描述性输出，包括均值和标准差以及有效值得个数。

（2）初始变量的相关性检验

由图可知，多个变量的相关系数较大，比如，五与二、六与二、九与六等等，说明多个变量之间存在较为显著的相关性，进而说明了因子分析的必要性和有效性。

（3）变量的共同度

公因子方差表格解释的实际是初始变量的共同度。

共同度取值0~1，在初始情况下其值都为1，表明所有变量的组合能够完全解释各个初始变量的方差，提取列表明在以提取的三个公共因子表示初始变量的情况下，能够解释的初始变量的方差百分比。

由列表值可知，提取的三个变量足以解释初始变量。

（4）方差解释表

此表格显示的是每个公共因子所解释的方差及其累加和。

在初始特征值那栏下，前三个公共因子可以解释的累加和已经达到94.696%，一般来说，累积贡献率达到85%以上就可以很好地认为公共因子具有解释原有问题的能力，所以，此图说明提取这三个公共因子就足以比较好的解释初始变量所包含的信息了，与上述公因子方差表所表现的一致。

提取平方和载入栏表示在未经过因子旋转时被提取的三个公共因子所能解释的初始变量的方差贡献率，此信息应与初始特征值栏一致。

旋转平方和载入栏所显示的是同样的三个公共因子在经过因子旋转后对初始变量的累积方差贡献率。

由表可知，各个因子的方差贡献率有所改变，但总贡献率不变。

这符合因子旋转的基本原理。

（5）碎石图

即为根据上述解释的总方差图标初始特征值栏的合计列所做的图。

从趋势上看，在第三个成分后趋势改变缓慢，所以，选择三个公共因子为宜，与上述分析一致。

（6）

此矩阵即为初始的因子模型矩阵，即为载荷矩阵。

在此矩阵中对于九、五等初始变量，能有较为明显的载荷分配，但对于如十一、八等初始变量就不那么明显了，在实际中难以解释，因此需要进行因子旋转

（7）因子旋转后的矩阵

旋转后，每个初始变量都有了较为清晰的载荷分配。

成分转换矩阵即为前述的T。

旋转空间成分图是旋转后成分矩阵的形象化体现。

因子载荷表示初始变量与公共因子的相关系数，所以认为初始变量主要受因子载荷较大的公共因子的影响。

从这一点出发，根据旋转成分矩阵，家具、日用品、体育娱乐用品、饮料烟酒、家用电器及音像器材、文化办公用品、交通通信用品、书报杂志及电子出版物、燃料等多受第一公共因子的影响，根据各变量特点，把第一公共因子解释为轻工业发展因素；金银珠宝、纺织品、化妆品、建筑材料及五金材料、服装鞋帽、中西药品及医疗保健用品等多受第二公共因子的影响，把第二公共因子解释为化工业发展因素；食品多受第三公共因子的影响，解释为农业发展因素。

（8）因子得分

此时，在数据编辑窗口会增加三列

在第二、三月份，在第一第二公共因子所得分较高，说明这两个月月份的价格变动，表现了此时期工业发展情况的波动。

在第五、六月份，在第三公共因子得分较高，说明这些月份在农业发展方面的原因引起了价格的波动。

展开阅读全文