1、 演讲者:王彤因子分析与典型相关分析 因子分析是主成分分析的推广和发展,它也是多元统计分析中降维的一种方法,是一种用来分析隐藏在表面现象背后的因子作用的一类统计模型。因子分析是研究相关阵或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。因子分析起源于 20 世纪初,K.Pearson 和 C.Spearman 等学者为定义和测定智力所作的统计分析。目前因子分析在心理学、社会学、经济学等学科取得了成功的应用。因子分析函数因子分析函数1.factanal 函数 factanal()函数完成因子分析的计算,它可以从样本、样本方差矩阵或者是样本相关矩阵出发对
2、数据做因子分析,采用极大似然法估计参数,可以给出方差最大的载荷因子矩阵,其使用格式为 factanal(x,factors,data=NULL,covmat=NULL,n.obs=NA,subset,na.action,start=NULL.scores=c(“none”,”regression”,”Bartlett”),rotation=”varimax”,control=NULL,.)2.varimax 函数 varimax()函数可以完成因子载荷矩阵的旋转变换(或反射变换),其使用格式为 varimax(x,normalize=TRUE,eps=1e-5)varimax()函数的返回值为
3、一个列表,有:loadings 表示旋转后的因子载荷矩阵,rotmat 表示旋转矩阵。3.promax 函数 在计算中,有时需要做斜交变换,得到的旋转矩阵允许彼此相关。promax()函数就是完成一种斜交变换的方法,其使用格式为 pormax(x,m=4)promax()函数的返回值与 varimax()函数相同,只是得到 rotmat(旋转矩阵),即矩阵 T,不再是正交阵,(TTT)(-1)为旋转因子的相关矩阵。因子分析的计算因子分析的计算例 7.21 对 55 个国家和地区的男子竞赛记录作统计,每位运动员记录 8 项指标:100m 跑(X1)、200m 跑(X2)、400m 跑(X3)、8
4、00m 跑(X4)、1500m 跑(X5)、5000m 跑(X6)、10000m 跑(X7)、马拉松(X8).8 项指标的相关矩阵 R 如表 7.18 所示.取因子个数为 2,用 factanal()函数计算因子载荷共性方差等指标,参数选择方差最大.例 7.22现有 48 位应聘者应聘某公司的某职位,公司为这些应聘者的 15 项指标打分,这 15 项指标分别是:求职信的形式(FL)、外貌(APP)、专业能力(AA)、讨人喜欢(LA)、自信心(SC)、洞察力(LC)、诚实(HON)、推销能力(SMS)、经验(EXP)、驾驶水平(DRV)、事业心(AMB)、理解能力(GSP)、潜在能力(POT)、
5、交际能力(KJ)和适应性(SUIT)。每项分数是从 0 分到 10 分,0 分最低,10 分最高。每位求职者的 15项指标列在表 7.19 中。试用因子分析的方法对 15 项指标做因子分析,在因子分析中选取 5 个因子。解:读数据(数据放在数据文件 employ.dat 中),再调用 factanal()函数进行因子分析。例 7.23(继例 7.22)假如公司计划录用 6 名最优秀的申请者,公司将如何挑选这些应聘者?解:简单的做法是计算每位申请者的总得分,按分数由高向低录取。但这种做法并不是最合适的,应该根据不同部分的需要按照公共因子的得分来录取。计算因子得分7.6 典型相关分析典型相关分析
6、典型相关分析是用于分析两组随机变量之间的相关程度的一种统计方法,它能够有效地揭示两组随机变量之间的相互线性依赖关系,这一方法是由 Hotelling(霍特林,1935)首先提出来的。假设有两组随机变量 X1,X2,Xp 和 Y1,Y2,,Yp,研究它们的相关关系,当 p=q=1 时,就是通常两个变量 X 与 Y 的相关关系。当 p1,q1 时,采用类似与主成分分析的方法,找出第一组变量的线性组合 U 和第二组变量的线性组合 V,即 U=a1X1+a2X2+apXp,V=b1Y1+b2Y2+bqYq,于是将两组变量的线性相关问题转化成研究两个变量的相关性问题,并且可以适当的调整相应的系数 a,b
7、,使得变量 U 和 V 的相关性达到最大,称这种相关为典型相关,基于这种原则的分析方法称为典型相关分析。7.6.1 典型相关分析的数学模型7.6.2 典型相关分析的计算 在 R 中,cancor()函数完成典型相关分析的计算,其使用格式为 cancor(x,y,xcenter=TURE,ycenter=TURE)参数 x,y 为两个随机变量样本构成的矩阵,xcenter,ycenter 为逻辑变量,取 TURE(默 认值)表示将数据中心化。cancor()函数的返回值为一个列表,有:cor 表示典型相关系数,xcoef 表示变量 X 的典型相关系数,ycoef 表示变量 Y 的典型相关系数,xcenter 表示变量 X 的样本均值,ycenter 表示变量 Y 的样本均值。例 7.24 某康复俱乐部对 20 名中年人测量了 3 个生理指标:体重(X1)、腰围(X2)、脉搏(X3)和 3 个训练指标:引体向上(Y1)、仰卧起坐次数(Y2)、跳跃次数(Y3)。其数据列在表 7.20 中。是对这组数据进行典型相关分析。谢谢大家!谢谢大家!
copyright@ 2008-2023 冰点文库 网站版权所有
经营许可证编号:鄂ICP备19020893号-2