SAS学习系列34因子分析Word文件下载.docx-资源下载

SAS学习系列34因子分析Word文件下载.docx

1、0，相应的特征向量为ui*, 则有近似分解式：R* = AAT, 其中令则A和D为因子模型的一个解，称为主因子解。在实际中特殊因子方差是未知的，以上得到的解是近似解。为了得到近似程度更好的解，常常采用迭代主因子法。即利用上面得到的作为特殊因子方差的初始估计，重复上述步骤，直到解稳定为止。变量共同度hi2常用的初始估计有以下三种方法：取第i个变量与其他所有变量的多重相关系数的平方；取第i个变量与其他变量相关系数绝对值的最大值；取1（等价于主成分解）。（3）极大似然法假定公共因子f和特殊因子e服从正态分布，则可得到因子载荷阵和特殊因子方差的极大似然估计。设p维观测向量X（1），.，X（n

2、）为来自正态总体Np（,）的随机样品，则样品似然函数为，的函数L（,）. 设= AAT +D，取，则似然函数为A，D的函数：（A,D），求A，D使（A,D）达到最大。为保证得到唯一解，可附加计算上方便的唯一性条件：ATD-1A = 对角阵，用迭代方法可求得极大似然估计A和D。四、公共因子的解释得到估计的因子模型后，还必须对得到的公因子进行解释。即对每个公共因子给出一种意义明确的名称，用来反映在预测每个可观察变量中这个公因子的重要性。该公因子的重要程度就是在因子模型矩阵中相应于这个因子的系数，显然这个因子的系数绝对值越大越重要，而接近0则表示对可观察变量没有什么影响。因子解释是一种主观的方法，有

3、时侯通过旋转公因子可以减少这种主观性，也就是要使用非奇异的线性变换。1. 因子旋转将因子载荷矩阵A右乘一个正交矩阵T后得到一个新的矩阵A*。它并不影响变量Xi的共同度hi2，却会改变因子的方差贡献gj2。因子旋转通过改变坐标轴，能够重新分配各个因子解释原始变量方差的比例，使因子更易于理解。设p维可观测向量X满足因子模型：X = AF +e。T为正交矩阵，则因子模型可写为X = ATTTF + e = A*F* + e其中A* = AT，F* = TTF. 易知，= AAT + D = A*A*T + D其中A* = AT. 这说明，若A，D是一个因子解，任给正交阵T，A* = AT，D也是因子

4、解。在这个意义下，因子解是不惟一的。由于因子载荷阵不惟一，故可对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化，使载荷矩阵每列或行的元素平方值向0和1两极分化，这样的因子便于解释和命名。有三种主要的正交旋转法：四次方最大法、方差最大法和等量最大法。这些旋转方法的目标是一致的，只是策略不同。如果两种旋转模型导出不同的解释，这两种解释不能认为是矛盾的。倒不如说是看待相同事物的两种不同方法，是在公因子空间中的两个不同点。在统计意义上所有旋转都是一样的，即不能说一些旋转比另一些旋转好。因此，在不同的旋转方法之间进行的选择必须根据非统计观点，通常选择最容易解释的旋转模型。2. 因子得分计算因子得分，是

5、用原有变量来描述因子，第j个因子在第i个样品上的值可表示为：Fji = j1xi1 + j2xi2 + jpxip j = 1, , k其中，xi1, , xip分别是第1, , p个原有变量在第i个样品上的取值，j1, , jp分别是第j个因子和第1, , k个原有变量间的因子值系数。可见，它是原有变量线性组合的结果（与因子分析的数学模型正好相反），因子得分可看作各变量值的加权（j1, , jp）总和，权数的大小表示了变量对因子的重要程度。于是有Fj = j1X1+j2X2+jpXp j = 1, , k 称为因子得分函数。由于因子个数k小于原有变量个数p，故式中方程的个数少于变量的个数。因

6、此，对因子值系数通常采用最小二乘意义下的回归法进行估计。可将上式看作是因子变量Fj对p个原有变量的线性回归方程（其中常数项为0）。可以证明，式中回归系数的最小二乘估计满足：Bj = AjTR-1，其中Bj = （j1,j2,jp）， AjT = （a1j,a2j,apj）为第1, , p个变量在第j个因子上的因子载荷，R-1为原有变量的相关系数矩阵的逆矩阵。由上式计算出因子变量Fj的因子值系数，再利用因子得分函数可算出第j个因子在各个样品上的因子得分。（二）SAS实现一、PROC FACTOR过程步基本语法：PROC FACTOR DATA=数据集 ;VAR变量列表;PARTIAL 变量列表;

7、FREQ 变量;WEIGHT变量;BY变量;说明：1. 可选项：out数据集存储原始数据和因子得分估计； outstat数据集用于存储因子分析的结果，可以用来做进一步因子分析； method=因子选择方法常用的包括：principal（主成分法），ml（极大似然法），prinit（迭代主因子法），usl（未加权最小二乘因子法），alpha（因子法或称harris法）Heywood公因子方差大于1时令其为1，并允许迭代继续执行下去。因为公因子方差是相关系数的平方（介于0和1之间），若最终的公因子方差=1，称为Heywood状况；若大于1，称为超-Heywood状况，因子解无效。priors=

8、计算公因子方差的方法即给各变量的公因子方差赋初值，包括one（=1.0），max （最大绝对相关系数），smc（多元相关系数的平方），asmc （与多元相关系数的平方成比例，但要适当调整使它们的和等于最大绝对相关）。nfactors=n指定保留的因子个数；mineigen=p指定保留因子的最小特征值； proportion=p使用先验公因子方差估计，对被保留的因子规定所占公共方差比例为这个p值。converge=p当公因子方差的最大改变小于p时停止迭代，默认为0.001； maxiter=n规定迭代的最大步数，默认为30； rotate因子旋转方法常用的有varimax（正交的最大方差转轴法

9、）、orthomax（由gamma=指定权数的正交方差最大转轴法）和promax（在正交最大方差转轴的基础上进行斜交旋转）。normkaiser | raw | weight | cov | none为了对因子模型进行旋转，规定模型矩阵中行的正规化方法。2. 输出选项simple输出简单统计数。corr输出相关阵和偏相关阵。score输出因子得分模型中的系数。scree输出特征值的屏幕图。ev输出特征向量。residuals输出残差相关阵和有关的偏相关阵。msa输出被所有其余变量控制的每对变量间的偏相关，并抽样适当的Kaiser度量。reorder在输出时让各种因子矩阵的这些行重新排序。按因子

10、顺序，绝对载荷大的变量先被输出。 3. PLOTS=绘图选项 ALL绘制所有图形；INITLOADINGS/ LOADINGS/PRELOADINGS未旋转的/旋转的/预先旋转的因子载荷，子选项有CIRCLE=, FLIP, NPLOTS=, PLOTREF, VECTOR；SCREE陡坡图和变量解释，子选项有UNPACK；4. priors语句为var变量设定公因子方差，值在0.0和1.0之间。其值的设定应与var语句的变量相对应。二、PROC SCORE过程步无论是初始因子模型还是旋转后的因子模型，都是将指标表示为公因子的线性组合。在因子分析中，还可以将公因子表示为指标的线性组合，这样就可

11、以从指标的观测值估计各个公因子的值（因子得分）。它对样品的分类有实际意义。因子得分可由proc score过程完成，可以输出特征值情况、因子载荷、公因子解释比例等。PROC SCORE DATA = ;VAR 或者在FACTOR过程步中加上可选项SCORE。注：factor和score两个过程写同一程序可以提高效率。例1对全国30个省市自治区经济发展基本情况的八项指标作因子分析。省份GDPx1居民消费水平x2固定资产投资x3职工平均工资x4货物周转量x5居民消费价格指数x6商品零售价格指数x7工业总产值x8北京1394.892505519.018144373.9117.3112.6843.43

12、天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.81234.85山西1092.481250290.94721717.3116.9115.6697.25内蒙古832.881387250.234134781.7117.5116.8419.39辽宁2793.372397387.9949111371.1116.11141840.55吉林1129.21872320.454430497.4114.2762.47黑龙江2014.532334435.734145824.8114.31240.37上海2462

13、.575343996.489279207.4118.71131642.95江苏5155.2519261434.9559431025.52026.64浙江3524.7922491006.396619754.4116.6113.5916.59安徽2003.5812544744609908.3114.8112.7824.14福建2160.522320553.975857609.3114.4433.67江西1205.111182282.844211411.7115.9571.84山东5002.3415271229.5551451196.6117.62207.69河南3002.741034670.354

14、3441574.4116.5114.91367.92湖北2391.42571.6846858491201220.72湖南2195.71408422.6147971011.8119115.5843.83广东5381.7226991639.838250656.5111.61396.35广西1606.151314382.595105556118.4116.4554.97海南364.171814198.355340232.1111.364.33四川35341261822.544645902.3118.51171431.81贵州630.07942150.844475301.1121.4117.2324.

15、72云南1206.683345149310.4121.3118.1716.65西藏55.98111017.8773824.25.57陕西1000.031208300.274396500.9600.98甘肃553.351007114.815493507119.8468.79青海165.31144547.76575361.6118116.3105.8宁夏169.75135561.985079121.8117.1115.3新疆834.571469376.955348339119.7116.7428.76代码：data Economics;infile C:MyRawDataEconomics.txt

16、input Province $ x1 x2 x3 x4 x5 x6 x7 x8;run;proc factor data = Economics n=3 SIMPLE CORR plots=（scree）;var x1-x8;运行结果及说明：30 个观测的均值和标准差变量均值标准差1921.09271474.8060x21745.9333861.6419x3511.5083402.8855x45457.63331310.2181666.1200459.9353117.28672.0253x7114.90671.8981862.9980584.5873相关性1.000000.266760.95

17、0580.190580.61724-0.27256-0.263630.873740.426140.71813-0.15101-0.23514-0.592730.363100.399630.43062-0.28049-0.359050.79186-0.35559-0.13496-0.539160.10438-0.253180.021720.658580.76284-0.12522-0.19207相关系数矩阵先验公因子方差估计: ONE 相关矩阵的特征值: 总计 = 8 平均值 = 1特征值差值比例累积13.755128081.558392080.469422.196736000.98184422

18、0.27460.744031.214891770.812491980.15190.895840.402399790.189597380.05030.946150.212802410.074843520.02660.972760.137958900.072501090.01720.990070.065457810.050832570.00820.998280.014625240.00181.0000相关矩阵的特征值和累积贡献，前三个主成分的累积贡献为89.58%，故考虑选取三个公共因子。3 个因子将被 NFACTOR 准则保留。绘图选项scree绘制陡坡图因子模式Factor1Factor2Fa

19、ctor30.884900.383620.120880.60671-0.598190.271320.911690.161120.211980.46622-0.722410.367930.485830.73829-0.27524-0.508560.251910.79664-0.619590.594380.437560.822730.426720.21098 因子模型（因子载荷矩阵），即公因子用原始变量表示的回归系数。由因子载荷系数看出，三个因子的含义不易解释，故需要考虑作因子旋转。每个因子说明的方差3.75512812.19673601.2148918最终的公因子方差估计: 总计 = 7.166

20、7560.944829540.799549480.902081120.874608600.856858090.956721360.928626830.90348083 公因子对原始变量的解释能力（方差贡献）的量度分别为3.7551281 2.1967360 1.2148918，三个公因子对变量的解释能力的总和为7.166756. 各个变量的共同度hi2都较大（接近1），可以认为三个公因子可以很好地解释原始变量中的信息。例2 为了更好地解释公共因子，继续做因子旋转方差最大正交旋转。在PROC FACTOR语句中再加上一个ROTATE = PROMAX旋转选项，这样将在得到主成分解后再进行方差最大正交旋转（VARIMAX），并加了REORDER选项使输出时把原始变量受相同因子影响的放一起。proc factor data = Economics n=3 ROTATE = VARIMAX REORDER plots=（initloadings preloadings loadings）;初始因子方法: 主成分未旋转因子，变量有3个聚点。旋转因子目的是让一些变量取值是0.FACTOR 过程旋转方法: Varimax 旋转后的因子，x2, x4, x6, x7取值接近于0，只剩x1, x3, x5, x8.正交变换矩阵0.817310.40776-0.407100.54

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？