SAS学习系列34因子分析.docx-资源下载

SAS学习系列34因子分析.docx

1、SAS学习系列34因子分析34.因子分析（一）基本原理一、概述因子分析，是用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据，表达一组相互关联的变量。通常情况下，这些相关因素并不能直观观测。因子分析是从研究相关系数矩阵部的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。简言之，即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。因子分析的作用是减少变量个数，根据原始变量的信息进行重组，能反映原有变量大部分的信息；原始部分变量之间多存在较显著的相关关系，重组变量（因子变量）之间相互独立；因子变量具有命名解释性，即该变量

2、是对某些原始变量信息的综合和反映。主成分分析是因子分析的特例。主成份分析的目标是降维，而因子分析的目标是找出公共因素及特有因素，即公共因子与特殊因子。因子分析模型在形式上与线性回归模型相似，但两者有着本质的区别：回归模型中的自变量是可观测到的，而因子模型中的各公因子是不可观测的隐变量，而且两个模型的参数意义也不相同。二、原理假设样品检测p个指标（变量）X1, , Xp，得到观测矩阵X，这p个指标变量可能受m(mm+1=p=0为*=-D的特征值，i为相应的特征向量。但在实际问题中，并不知道和D，就需要从n个样品，p个指标的np个样本数据，估计因子载荷aij和特殊因子方差i2. 常用的参数估计法有

3、：主成分法、主因子解法、极大似然法。（1）主成分法记样本数据的协方差矩阵为，其特征值12p0, 相应的特征向量为i. 当最后p-m个特征值较小时，对做谱分解：先取，看是否接近对角矩阵，若是，说明只取一个公共因子就行了，所有指标主要受到这一个公共因子的影响；若否，再取，看是否接近对角矩阵象主成分分析一样，直接取前q个特征值和特征向量，使得它们的特征值之和占全部特征值之和的85以上即可。此时，特殊因子方差为（2）主因子解法主因子解法是对主成分法的修正，记样品数据的相关矩阵为R，设R= AAT + D，则R* = RD = AAT称为约相关矩阵。若已知特殊因子方差的初始估计，则，故计算R*的特征值1

4、*2*p*0，相应的特征向量为ui*, 则有近似分解式：R* = AAT, 其中令则A和D为因子模型的一个解，称为主因子解。在实际中特殊因子方差是未知的，以上得到的解是近似解。为了得到近似程度更好的解，常常采用迭代主因子法。即利用上面得到的作为特殊因子方差的初始估计，重复上述步骤，直到解稳定为止。变量共同度hi2常用的初始估计有以下三种方法：取第i个变量与其他所有变量的多重相关系数的平方；取第i个变量与其他变量相关系数绝对值的最大值；取1（等价于主成分解）。（3）极大似然法假定公共因子f和特殊因子e服从正态分布，则可得到因子载荷阵和特殊因子方差的极大似然估计。设p维观测向量X(1)，

5、.，X(n)为来自正态总体Np(,)的随机样品，则样品似然函数为，的函数L(,). 设= AAT +D，取，则似然函数为A，D的函数：(A,D)，求A，D使(A,D)达到最大。为保证得到唯一解，可附加计算上方便的唯一性条件：ATD-1A = 对角阵，用迭代方法可求得极大似然估计A和D。四、公共因子的解释得到估计的因子模型后，还必须对得到的公因子进行解释。即对每个公共因子给出一种意义明确的名称，用来反映在预测每个可观察变量中这个公因子的重要性。该公因子的重要程度就是在因子模型矩阵中相应于这个因子的系数，显然这个因子的系数绝对值越大越重要，而接近0则表示对可观察变量没有什么影响。因子解释是一种主观

6、的方法，有时侯通过旋转公因子可以减少这种主观性，也就是要使用非奇异的线性变换。1. 因子旋转将因子载荷矩阵A右乘一个正交矩阵T后得到一个新的矩阵A*。它并不影响变量Xi的共同度hi2，却会改变因子的方差贡献gj2。因子旋转通过改变坐标轴，能够重新分配各个因子解释原始变量方差的比例，使因子更易于理解。设p维可观测向量X满足因子模型：X = AF +e。T为正交矩阵，则因子模型可写为X = ATTTF + e = A*F* + e其中A* = AT，F* = TTF. 易知，= AAT + D = A*A*T + D其中A* = AT. 这说明，若A，D是一个因子解，任给正交阵T，A* = AT，

7、D也是因子解。在这个意义下，因子解是不惟一的。由于因子载荷阵不惟一，故可对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化，使载荷矩阵每列或行的元素平方值向0和1两极分化，这样的因子便于解释和命名。有三种主要的正交旋转法：四次方最大法、方差最大法和等量最大法。这些旋转方法的目标是一致的，只是策略不同。如果两种旋转模型导出不同的解释，这两种解释不能认为是矛盾的。倒不如说是看待相同事物的两种不同方法，是在公因子空间中的两个不同点。在统计意义上所有旋转都是一样的，即不能说一些旋转比另一些旋转好。因此，在不同的旋转方法之间进行的选择必须根据非统计观点，通常选择最容易解释的旋转模型。2. 因子得分计算因

8、子得分，是用原有变量来描述因子，第j个因子在第i个样品上的值可表示为：Fji = j1xi1 + j2xi2 + jpxip j = 1, , k其中，xi1, , xip分别是第1, , p个原有变量在第i个样品上的取值， j1, , jp分别是第j个因子和第1, , k个原有变量间的因子值系数。可见，它是原有变量线性组合的结果(与因子分析的数学模型正好相反)，因子得分可看作各变量值的加权( j1, , jp)总和，权数的大小表示了变量对因子的重要程度。于是有Fj = j1X1+ j2X2+ jpXp j = 1, , k 称为因子得分函数。由于因子个数k小于原有变量个数p，故式中方程的个数

9、少于变量的个数。因此，对因子值系数通常采用最小二乘意义下的回归法进行估计。可将上式看作是因子变量Fj对p个原有变量的线性回归方程(其中常数项为0)。可以证明，式中回归系数的最小二乘估计满足：Bj = AjTR-1，其中Bj = ( j1, j2, jp)， AjT = (a1j,a2j,apj)为第1, , p个变量在第j个因子上的因子载荷，R-1为原有变量的相关系数矩阵的逆矩阵。由上式计算出因子变量Fj的因子值系数，再利用因子得分函数可算出第j个因子在各个样品上的因子得分。（二）SAS实现一、PROC FACTOR过程步基本语法：PROC FACTOR DATA=数据集 ;VAR变量列表;说

10、明：1. 可选项：out数据集存储原始数据和因子得分估计； outstat数据集用于存储因子分析的结果，可以用来做进一步因子分析；lmethod=因子选择方法常用的包括：principal（主成分法），ml（极大似然法），prinit（迭代主因子法），usl（未加权最小二乘因子法），alpha（因子法或称harris法）Heywood公因子方差大于1时令其为1，并允许迭代继续执行下去。因为公因子方差是相关系数的平方（介于0和1之间），若最终的公因子方差=1，称为Heywood状况；若大于1，称为超-Heywood状况，因子解无效。priors=计算公因子方差的方法即给各变量的公因子方差赋初

11、值，包括one（=1.0），max (最大绝对相关系数 )，smc（多元相关系数的平方），asmc (与多元相关系数的平方成比例，但要适当调整使它们的和等于最大绝对相关)。nfactors=n指定保留的因子个数；mineigen=p指定保留因子的最小特征值；l proportion=p使用先验公因子方差估计，对被保留的因子规定所占公共方差比例为这个p值。converge=p当公因子方差的最大改变小于p时停止迭代，默认为0.001；l maxiter=n规定迭代的最大步数，默认为30；l rotate因子旋转方法常用的有varimax（正交的最大方差转轴法）、orthomax（由gamma=指定

12、权数的正交方差最大转轴法）和promax（在正交最大方差转轴的基础上进行斜交旋转）。normkaiser | raw | weight | cov | none为了对因子模型进行旋转，规定模型矩阵中行的正规化方法。2. 输出选项simple输出简单统计数。corr输出相关阵和偏相关阵。score输出因子得分模型中的系数。scree输出特征值的屏幕图。ev输出特征向量。residuals输出残差相关阵和有关的偏相关阵。msa输出被所有其余变量控制的每对变量间的偏相关，并抽样适当的Kaiser度量。reorder在输出时让各种因子矩阵的这些行重新排序。按因子顺序，绝对载荷大的变量先被输出。 3.

13、PLOTS=绘图选项 ALL绘制所有图形；INITLOADINGS/ LOADINGS/PRELOADINGS未旋转的/旋转的/预先旋转的因子载荷，子选项有CIRCLE=, FLIP, NPLOTS=, PLOTREF, VECTOR；SCREE陡坡图和变量解释，子选项有UNPACK；4. priors语句为var变量设定公因子方差，值在0.0和1.0之间。其值的设定应与var语句的变量相对应。二、PROC SCORE过程步无论是初始因子模型还是旋转后的因子模型，都是将指标表示为公因子的线性组合。在因子分析中，还可以将公因子表示为指标的线性组合，这样就可以从指标的观测值估计各个公因子的值（因子

14、得分）。它对样品的分类有实际意义。因子得分可由proc score过程完成，可以输出特征值情况、因子载荷、公因子解释比例等。基本语法：PROC SCORE DATA = ;VAR ;或者在FACTOR过程步中加上可选项SCORE。注：factor和score两个过程写同一程序可以提高效率。例1对全国30个省市自治区经济发展基本情况的八项指标作因子分析。省份GDPx1居民消费水平x2固定资产投资x3职工平均工资x4货物周转量x5居民消费价格指数x6商品零售价格指数x7工业总产值x81394.892505519.018144373.9117.3112.6843.43天津920.112720345.

15、466501342.8115.2110.6582.512849.521258704.8748392033.3115.2115.81234.851092.481250290.94721717.3116.9115.6697.25832.881387250.234134781.7117.5116.8419.392793.372397387.9949111371.1116.11141840.551129.21872320.454430497.4115.2114.2762.472014.532334435.734145824.8116.1114.31240.372462.575343996.489279

16、207.4118.71131642.955155.2519261434.9559431025.5115.8114.32026.643524.7922491006.396619754.4116.6113.5916.592003.5812544744609908.3114.8112.7824.142160.522320553.975857609.3115.2114.4433.671205.111182282.844211411.7116.9115.9571.845002.3415271229.5551451196.6117.6114.22207.693002.741034670.354344157

17、4.4116.5114.91367.922391.421527571.684685849120116.61220.722195.71408422.6147971011.8119115.5843.835381.7226991639.838250656.5114111.61396.35广西1606.151314382.595105556118.4116.4554.97364.171814198.355340232.1113.5111.364.3335341261822.544645902.3118.51171431.81630.07942150.844475301.1121.4117.2324.7

18、21206.6812613345149310.4121.3118.1716.6555.98111017.8773824.2117.3114.95.571000.031208300.274396500.9119117600.98553.351007114.815493507119.8116.5468.79165.31144547.76575361.6118116.3105.8169.75135561.985079121.8117.1115.3114.4新疆834.571469376.955348339119.7116.7428.76代码：data Economics;infile C:MyRaw

19、DataEconomics.txt;input Province $ x1 x2 x3 x4 x5 x6 x7 x8;run;proc factor data = Economics n=3 SIMPLE CORR plots=(scree);var x1-x8;run;运行结果及说明：30 个观测的均值和标准差变量均值标准差x11921.09271474.8060x21745.9333861.6419x3511.5083402.8855x45457.63331310.2181x5666.1200459.9353x6117.28672.0253x7114.90671.8981x8862.998

20、0584.5873相关性x1x2x3x4x5x6x7x8x11.000000.266760.950580.190580.61724-0.27256-0.263630.87374x20.266761.000000.426140.71813-0.15101-0.23514-0.592730.36310x30.950580.426141.000000.399630.43062-0.28049-0.359050.79186x40.190580.718130.399631.00000-0.35559-0.13496-0.539160.10438x50.61724-0.151010.43062-0.355

21、591.00000-0.253180.021720.65858x6-0.27256-0.23514-0.28049-0.13496-0.253181.000000.76284-0.12522x7-0.26363-0.59273-0.35905-0.539160.021720.762841.00000-0.19207x80.873740.363100.791860.104380.65858-0.12522-0.192071.00000相关系数矩阵先验公因子方差估计: ONE 相关矩阵的特征值: 总计 = 8 平均值 = 1特征值差值比例累积13.755128081.558392080.46940

22、.469422.196736000.981844220.27460.744031.214891770.812491980.15190.895840.402399790.189597380.05030.946150.212802410.074843520.02660.972760.137958900.072501090.01720.990070.065457810.050832570.00820.998280.014625240.00181.0000相关矩阵的特征值和累积贡献，前三个主成分的累积贡献为89.58%，故考虑选取三个公共因子。3 个因子将被 NFACTOR 准则保留。绘图选项scre

23、e绘制陡坡图因子模式Factor1Factor2Factor3x10.884900.383620.12088x20.60671-0.598190.27132x30.911690.161120.21198x40.46622-0.722410.36793x50.485830.73829-0.27524x6-0.508560.251910.79664x7-0.619590.594380.43756x80.822730.426720.21098 因子模型（因子载荷矩阵），即公因子用原始变量表示的回归系数。由因子载荷系数看出，三个因子的含义不易解释，故需要考虑作因子旋转。每个因子说明的方差Factor1

24、Factor2Factor33.75512812.19673601.2148918最终的公因子方差估计: 总计 = 7.166756x1x2x3x4x5x6x7x80.944829540.799549480.902081120.874608600.856858090.956721360.928626830.90348083 公因子对原始变量的解释能力（方差贡献）的量度分别为3.7551281 2.1967360 1.2148918，三个公因子对变量的解释能力的总和为7.166756. 各个变量的共同度hi2都较大（接近1），可以认为三个公因子可以很好地解释原始变量中的信息。例2 为了更好地解释

25、公共因子，继续做因子旋转方差最大正交旋转。在PROC FACTOR语句中再加上一个ROTATE = PROMAX旋转选项，这样将在得到主成分解后再进行方差最大正交旋转(VARIMAX)，并加了REORDER选项使输出时把原始变量受相同因子影响的放一起。代码：proc factor data = Economics n=3 ROTATE = VARIMAX REORDER plots=(initloadings preloadings loadings);var x1-x8;run;运行结果及说明：初始因子方法: 主成分未旋转因子，变量有3个聚点。旋转因子目的是让一些变量取值是0.FACTOR 过程旋转方法: Varimax 旋转后的因子，x2, x4, x6, x7取值接近于0，只剩x1, x3, x5, x8.旋转方法: Varimax正交变换矩阵12310.817310.40776-0.4071020.54776-0.769070.329383

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？