因子分析.docx

上传人:wj 文档编号:5497996 上传时间:2023-05-08 格式:DOCX 页数:21 大小:509.08KB
下载 相关 举报
因子分析.docx_第1页
第1页 / 共21页
因子分析.docx_第2页
第2页 / 共21页
因子分析.docx_第3页
第3页 / 共21页
因子分析.docx_第4页
第4页 / 共21页
因子分析.docx_第5页
第5页 / 共21页
因子分析.docx_第6页
第6页 / 共21页
因子分析.docx_第7页
第7页 / 共21页
因子分析.docx_第8页
第8页 / 共21页
因子分析.docx_第9页
第9页 / 共21页
因子分析.docx_第10页
第10页 / 共21页
因子分析.docx_第11页
第11页 / 共21页
因子分析.docx_第12页
第12页 / 共21页
因子分析.docx_第13页
第13页 / 共21页
因子分析.docx_第14页
第14页 / 共21页
因子分析.docx_第15页
第15页 / 共21页
因子分析.docx_第16页
第16页 / 共21页
因子分析.docx_第17页
第17页 / 共21页
因子分析.docx_第18页
第18页 / 共21页
因子分析.docx_第19页
第19页 / 共21页
因子分析.docx_第20页
第20页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

因子分析.docx

《因子分析.docx》由会员分享,可在线阅读,更多相关《因子分析.docx(21页珍藏版)》请在冰点文库上搜索。

因子分析.docx

因子分析专题

§8.1引言

因子分析是主成分分析的推广,它也是一种把多个变量化为少数几个综合变量的多元分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。

例8.1.1Linden对二次大战以来奥林匹克十项全能比赛的得分做了分析研究,他收集了160组数据,这十个全能项目依次为:

100米跑、跳远、铅球、跳高、400米跑、110米跨栏、铁饼、撑竿跳高、标枪、1500米跑。

但是总的来说基本上可归结为他们的短跑速度、爆发性臂力、爆发性腿力和耐力这四个方面,每一个方面都称为一个因子。

用分别表示十个项目的得分,它们可以表示为含有上述四个因子的线性模型:

其中表示4个因子,称为公因子,称为第个变量在第个因子上的载荷。

是总平均,是第项得分不能被四个公因子解释的部分,称之为特殊因子。

这个模型形式上与线性回归模型几乎一样,但是它们有着本质的区别:

回归模型中自变量是可以被观测得到的,而上述因子模型中的是不可观测的隐变量,这使得该模型理解起来较为困难;再者,两个模型的参数意义也很不相同。

例8.1.2为了评价高中学生将来进大学时的学习能力,抽了200名高中生进行问卷调查,共50个问题。

所有这些问题可简单地归结为阅读理解、数学水平和艺术修养这三个方面。

这也是一个因子分析模型,每一方面就是一个因子。

例8.1.3公司老板对48名申请工作的人进行面试,并给出申请人在15个方面所得的分数,这15个方面是:

(1)申请信的形式;

(2)外貌;(3)专业能力;(4)讨人喜欢的能力;(5)自信心;(6)洞察力;(7)诚实;(8)推销能力;(9)经验;(10)驾驶汽车本领;(11)抱负;(12)理解能力;(13)潜力;(14)对工作要求强烈程度(15)适应性。

这些问题可以归结为如下的几个方面:

申请者外露的能力,讨人喜欢的程度,申请者的经验,专业能力。

每一方面都是因子模型中的一个因子。

§8.2因子模型

一、数学模型

设维可观测的随机向量的均值为,协方差矩阵为,因子分析的一般模型为

(8.2.1)

其中为公因子,为特殊因子,它们都是不可观测的随机变量。

公因子出现在每一个原始变量的表达式中,可理解为原始变量共同具有的公共因素;每个公因子至少对两个原始变量有作用,否则它将归入特殊因子。

每个特殊因子仅仅出现在与之相应的第个原始变量的表示式中,它只对这个原始变量有作用。

(8.2.1)式可用矩阵表示为

(8.2.2)

式中为公因子向量,为特殊因子向量,

称为因子载荷矩阵,并假设的秩为。

通常假定

(8.2.3)

同理易知,注意两个协方差矩阵阶数不一样。

由上述假定可以看出,公因子彼此不相关且具有单位方差,特殊因子彼此不相关且和公因子也不相关。

因子分析与主成分分析是多元分析中两种重要的降维方法,但两者有很大的不同。

主成分分析不能作为一个模型来描述,它只能作为一般的变量变换,主成分是可观测的原始变量的线性组合;而因子分析需要构造一个因子模型,公因子一般不能表示为原始变量的线性组合。

二、因子模型的性质

1.的协方差矩阵的分解

由(8.2.2)式知

即 (8.2.4)

这就是的一个分解。

如果为标准化了的随机向量,则就是相关矩阵,即有

(8.2.5)

2.模型不受单位的影响

将的单位作变化,就是作一变换,这里,,

,于是,令,,,,则有

(仍然为因子分析模型)

这个模型能满足完全类似于(8.2.3)式的假定,即

其中

即,,。

3.因子载荷是不唯一的

设为任意正交矩阵,令,,则模型(8.2.2)式能表示为

(8.2.6)

因为

所以仍满足条件(8.2.3)式。

从(8.2.4)式可以看出,也可分解为

(8.2.7)

因此,因子载荷矩阵不是唯一的,在实际应用中常常利用这一点,通过因子的变换,使得新的因子有更好的实际意义。

三、因子载荷矩阵的统计意义

1.的元素——原始变量与公因子之间的协方差函数

(8.2.1)式可以表示为

, (8.2.8)

(8.2.9)

即是与之间的协方差函数。

若为标准化了的随机向量,即,则与之间的相关系数

(8.2.10)

此时表示与的相关系数。

2.的行元素平方和——原始变量对公因子依赖的程度

对(8.2.8)式两边取方差

(8.2.11)

令,,于是

, (8.2.12)

反映了公因子对的影响,可以看成是公因子对的方差贡献,称为共性方差;而是特殊因子对的方差贡献,称为个性方差。

当为标准化了的随机向量时,,此时有

, (8.2.13)

3.的列元素平方和——公因子对的贡献

由(8.2.11)式得

(8.2.14)

其中

从(8.2.14)式可见,的第列元素的平方和是的系数,的值越大,反映了对的影响越大,是衡量公因子重要性的一个尺度,可视为公因子对的贡献。

§8.3参数估计

设是一组维样本,则和可分别估计为

为了建立因子模型,首先要估计因子载荷矩阵和个性方差矩阵

常用的参数估计方法有如下三种:

主成分法,主因子法和极大似然法。

一、主成分法

设样本协方差矩阵的特征值依次为,相应的正交单位特征向量为。

选取相对较小的主成分个数,并使得累计贡献率

达到一个较高的百分比,则可作如下的近似分解

其中

易知,,。

证明如下。

证明:

因为,即

又因为,即

对比等式两边,即得,。

证明完毕。

这里的和就是因子模型的一个解。

因子载荷矩阵的第列与的第个主成分的系数向量仅相差一个倍数(),因此这个解就称为主成分解。

若个原始变量的单位不同,则我们首先对原始变量作标准化变换,此时的样本协方差矩阵即为原始变量的样本相关矩阵,用代替(8.3.1)式中的,可类似地求得主成分的解。

二、主因子法

主因子法是因子分析中一种最简单、最有效的方法,它已经得到了最普遍的应用。

我们这里假定原始变量已作了标准化变换。

如果随机向量满足因子模型

则有,,其中为的相关矩阵,令

(8.3.2)

则称为的约相关矩阵。

易见,中的对角元素是,而不是1,非对角元素和中是完全一样的,并且是一个非负定矩阵。

我们首先在相关矩阵及个性方差矩阵

已知的条件下,求出因子载荷矩阵。

由上一节因子模型的性质3知,的解是不唯一的,可以有许多。

主因子法就是要求得到的解能使第一个公因子对的贡献达到最大,第二个公因子对的贡献次之,…,第个公因子对的贡献最小。

由于,所以有个正特征值,依次记为

,相应的正交单位特征向量为,故的谱分解为

(8.3.3)

其中, (8.3.4)

它就是我们所要求的主因子解。

中的第列元素的平方和为

,即

(8.3.5)

在实际应用中,相关矩阵和个性方差矩阵一般都是未知的,它们可通过一组样本

来进行估计。

为了符号上的方便,我们将(或)的估计值仍记为(或)。

估计个性方差等价于估计共性方差,这是因为由,式知

(或)的较好估计一般很难直接得到,通常是先给出它的一个初始估计(或),待载荷矩阵估计好之后再作出(或)的最终估计。

个性方差(或共性方差)的常用初始估计方法有如下几种:

(1)取为原始变量与其它原始变量的复相关系数的平方,则。

(2)取,其中是的对角元素。

(3)取,则。

(4)取,则,得到的是一个主成分解。

(因为此时,)

因子的个数应选取为多少呢?

一般可采用主成分分析中确定主成分个数的原则,即寻求一个较小的自然数,使得

达到一个较高的百分比(比如至少达到85%)。

需要指出的是,的部分特征值可能是负的。

最后,取的前的正特征值及其相应的正交单位特征向量

,可以得到近似分解式

其中

的最终估计为

, (8.3.7)

我们称这样求得的和为因子模型的主因子解。

如果我们希望求得近似程度更好的解,则可以采用迭代主因子法,即利用(8.3.7)式中的再作为个性方差的初始估计,重复上述步骤,直至解稳定为止。

三、极大似然法

设公因子,特殊因子,且相互独立,则原始向量

样本的似然函数为

容易知道,似然函数是的函数。

由于,故似然函数可确切地表示为

记的极大似然估计为,即有

可以证明,,而和满足以下方程组

(8.3.8)

其中,由于的解是不唯一的,为了得到唯一解,可附加计算上方便的唯一性条件:

是对角矩阵 (8.3.9)

(8.3.8)式中的和一般可用迭代方法解得。

共性方差的极大似然估计为:

第个因子对总样本方差的贡献为,其中为第个变量的方差。

极大似然法在正态性假定能较好地被满足或者在大样本的情况下,能给出比主因子法更好的估计,并且有令人满意的渐进性质。

极大似然法的计算量大约是主因子法的100倍,这是由于极大似然估计需要用迭代方法计算并且要试着提取不同个数的因子。

实际应用中,在使用极大似然法之前,一般先使用主因子法进行分析,以便给出因子个数的初步估计。

§8.4因子旋转

因子模型的参数估计完成之后,还必须对模型中的公因子进行合理的解释。

进行这种解释通常需要一定的专业知识和经验,要对每个公因子给出具有实际意义的一种名称,它可用来反映在预测每个可观测的原始变量时这个公因子的重要性,也就是相应于这个因子的载荷。

因子的解释带有一定的主观性,我们常常通过旋转公因子的方法来减少这种主观性。

公因子是否易于解释,很大程度上取决于因子载荷矩阵的元素结构。

假设是从相关矩阵出发求得的,则,故有,即的所有元素均在和1之间。

如果载荷矩阵的所有元素都接近于0或,则模型的公因子就容易解释。

这时可将原始变量分成个部分,第一部分对应第一个公因子,第二部分对应第二个公因子,…,第部分对应第个公因子。

反之,如果载荷矩阵的多数元素居中,不大不小,则对模型的公因子将难以作出解释,此时必须进行因子旋转,使得旋转之后的载荷矩阵在每一列上元素的绝对值尽量拉开大小距离,也就是尽可能地使其中的一些元素接近于0,另一些元素接近于。

因子旋转方法有正交旋转和斜交旋转两类,本书中我们只讨论正交旋转。

对公因子作正交旋转就是对载荷矩阵作一正交变换,右乘正交矩阵,使能有更鲜明实际意义。

旋转后的公因子向量为,它的各分量也是互不相关的公因子。

正交矩阵的不同选取法构成了正交旋转的各种不同方法,在这些方法中使用最普遍的是最大方差旋转法(varimax),本节仅介绍这一种正交旋转法。

令,,,则的第列元素平方的相对方差可定义为

取是为了消除符号不同的影响,除以是为了消除各个原始变量对公共因子依赖程度不同的影响。

备注:

的第行平方和等于的第行平方和,因为

两个矩阵相等,对应的对角线元素当然相等,即。

备注完毕。

所谓最大方差旋转法就是选择正交矩阵,使得矩阵所有个列元素平方的相对方差之和

(8.4.2)

达到最大。

当时,设已求出的因子载荷矩阵为

现选取正交变换矩阵进行因子旋转,可以表示为

这里是坐标平面上因子轴按逆时针方向旋转的角度,只要求出,也就求出了。

再由(8.4.1)式和(8.4.2)式即可求得各列元素平方的相对方差之和。

显然,是旋转角度的函数,按照最大方差旋转法的原则,应求出,使达到最大。

由微积分中求极值的方法,将对求导,并令其为零,可以推得满足

(8.4.3)

其中

,,,

当时,我们可以逐次对每两个公因子进行上述的旋转。

对公因子和进行旋转,就是对的第和两列进行正交变换,使这两列元素平方的相对方差之和达到最大,而其余各列不变,其正交变换矩阵为

其中是因子轴和的旋转角度,矩阵中其余位置上的元素全为0。

个公因子的两两配对旋转共需进行次,称其为完成了第一轮旋转,并记第一轮旋转后的因子载荷矩阵为。

然后再重新开始,进行第二轮的次配对旋转,新的因子载荷矩阵记为。

如此继续旋转下去,记第轮旋转后的因子载荷矩阵为,得到的一系列因子载荷矩阵为

,,…,,…

记为各列元素平方的相对方差之和,则必然有

这是一个有界的单调上升数列,因此一定会收敛到某一极限。

在实际应用中,当的值变化不大时,即可停止旋转。

§8.5因子得分

一、因子得分的概念

我们再回过来看一下因子模型,设为一组样本。

在前面的讨论中,我们根据这一组样本估计出了公因子个数、因子载荷矩阵和个性方差矩阵,并试图对公因子进行合理的解释,即给出具有实际意义的名称。

如果对这些公因子难以作出解释,则可以通过因子旋转的方法使得旋转后的公因子有着更鲜明的实际意义。

实际上,还有一个问题是令我们非常感兴趣的,就是给出每一个个体对个公因子的得分。

必须指出的是,因子得分的计算并不是通常意义下的参数估计,而是对不可观测的随机变量作出估计。

因子模型的式子意味着这些公因子一般不是可观测原始变量的线性组合,而是非线性组合。

这些公因子的得分是无法直接计算得到的,但它们可用各种不同的方法来进行估计。

为了数学上处理的方便,人们一般还是将公因子得分的估计值表达为原始变量的线性函数。

以下我们介绍两种常用的因子得分估计方法。

二、巴特莱特(Bartlett)因子得分

因子模型(8.2.1)式可以写为

(8.5.1)

其中,。

我们可以采用与求解线性回归模型相同的方法来求得因子得分。

由于个个性方差不全相等,因此应采用加权的最小二乘法,也就是寻求的一组取值使得加权的“残差”平方和

(8.5.2)

达到最小,这样求得的解就称为巴特莱特因子得分。

(8.5.1)式用矩阵来表示就是

(8.5.3)

(8.5.2)式可用矩阵表示为

(8.5.4)

其中

用微积分学求极值的方法可以解得巴特莱特因子得分为

(8.5.5)

在实际应用中,用估计值、和分别代替上述公式中的、和,并将每个样品的数据代入,便可得到相应的因子得分。

若将和不相关的假定加强为相互独立,则在值已知的条件下,由(8.5.5)式和(8.5.3)式可得因子得分的条件数学期望

(8.5.6)

因此,从条件意义上来说巴特莱特因子得分是无偏的。

我们再来计算反映估计精度的平均预报误差,由(8.5.5)式和(8.5.3)式得

(8.5.7)

三、汤姆森(Thompson)因子得分

在因子模型(8.2.2)式中,假设服从元正态分布,由条件(8.2.3)式得

(8.5.8)

由(3.2.6)式知,在给定的条件下,的条件数学期望

再由(8.2.4)知,,因此(8.5.10)式也可表示为

(8.5.11)

或者

(8.5.12)

易知,(8.5.11)式和(8.5.12)式相等。

证明如下。

证明:

欲证明(8.5.11)式和(8.5.12)式相等,只需证明,

证明完毕。

称为汤姆森因子得分。

在实际应用中,用估计值、和分别代替上述公式中的、和,并将每个样品的数据代入,便可得到相应的因子得分。

由(8.5.12)式和(8.5.3)式得

所以,汤姆森因子得分是有偏的。

因为

所以的平均预报误差

(8.5.14)

备注:

备注完毕。

比较(8.5.14)式与(8.5.7)两式,由于是正定矩阵,因此汤姆森因子得分比巴特莱特因子得分有更小的平均预报误差。

21

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 人文社科 > 军事政治

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2