1、0,相应的特征向量为ui*, 则有近似分解式:R* = AAT, 其中令则A和D为因子模型的一个解,称为主因子解。 在实际中特殊因子方差是未知的,以上得到的解是近似解。为了得到近似程度更好的解,常常采用迭代主因子法。即利用上面得到的作为特殊因子方差的初始估计,重复上述步骤,直到解稳定为止。 变量共同度hi2常用的初始估计有以下三种方法: 取第i个变量与其他所有变量的多重相关系数的平方; 取第i个变量与其他变量相关系数绝对值的最大值; 取1(等价于主成分解)。(3)极大似然法假定公共因子f和特殊因子e服从正态分布,则可得到因子载荷阵和特殊因子方差的极大似然估计。设p维观测向量X(1),.,X(n
2、)为来自正态总体Np(,)的随机样品,则样品似然函数为,的函数L(,). 设= AAT +D,取,则似然函数为A,D的函数:(A,D),求A,D使(A,D)达到最大。为保证得到唯一解,可附加计算上方便的唯一性条件:ATD-1A = 对角阵,用迭代方法可求得极大似然估计A和D。四、公共因子的解释得到估计的因子模型后,还必须对得到的公因子进行解释。即对每个公共因子给出一种意义明确的名称,用来反映在预测每个可观察变量中这个公因子的重要性。该公因子的重要程度就是在因子模型矩阵中相应于这个因子的系数,显然这个因子的系数绝对值越大越重要,而接近0则表示对可观察变量没有什么影响。因子解释是一种主观的方法,有
3、时侯通过旋转公因子可以减少这种主观性,也就是要使用非奇异的线性变换。1. 因子旋转将因子载荷矩阵A右乘一个正交矩阵T后得到一个新的矩阵A*。它并不影响变量Xi的共同度hi2,却会改变因子的方差贡献gj2。因子旋转通过改变坐标轴,能够重新分配各个因子解释原始变量方差的比例,使因子更易于理解。设p维可观测向量X满足因子模型:X = AF +e。T为正交矩阵,则因子模型可写为X = ATTTF + e = A*F* + e其中A* = AT,F* = TTF. 易知,= AAT + D = A*A*T + D其中A* = AT. 这说明,若A,D是一个因子解,任给正交阵T,A* = AT,D也是因子
4、解。在这个意义下,因子解是不惟一的。由于因子载荷阵不惟一,故可对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化,这样的因子便于解释和命名。有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法。这些旋转方法的目标是一致的,只是策略不同。如果两种旋转模型导出不同的解释,这两种解释不能认为是矛盾的。倒不如说是看待相同事物的两种不同方法,是在公因子空间中的两个不同点。在统计意义上所有旋转都是一样的,即不能说一些旋转比另一些旋转好。因此,在不同的旋转方法之间进行的选择必须根据非统计观点,通常选择最容易解释的旋转模型。2. 因子得分计算因子得分,是
5、用原有变量来描述因子,第j个因子在第i个样品上的值可表示为:Fji = j1xi1 + j2xi2 + jpxip j = 1, , k其中,xi1, , xip分别是第1, , p个原有变量在第i个样品上的取值,j1, , jp分别是第j个因子和第1, , k个原有变量间的因子值系数。可见,它是原有变量线性组合的结果(与因子分析的数学模型正好相反),因子得分可看作各变量值的加权(j1, , jp)总和,权数的大小表示了变量对因子的重要程度。于是有Fj = j1X1+j2X2+jpXp j = 1, , k 称为因子得分函数。由于因子个数k小于原有变量个数p,故式中方程的个数少于变量的个数。因
6、此,对因子值系数通常采用最小二乘意义下的回归法进行估计。可将上式看作是因子变量Fj对p个原有变量的线性回归方程(其中常数项为0)。可以证明,式中回归系数的最小二乘估计满足:Bj = AjTR-1,其中Bj = (j1,j2,jp), AjT = (a1j,a2j,apj)为第1, , p个变量在第j个因子上的因子载荷,R-1为原有变量的相关系数矩阵的逆矩阵。由上式计算出因子变量Fj的因子值系数,再利用因子得分函数可算出第j个因子在各个样品上的因子得分。(二)SAS实现一、PROC FACTOR过程步基本语法:PROC FACTOR DATA=数据集 ;VAR变量列表;PARTIAL 变量列表;
7、FREQ 变量;WEIGHT变量;BY变量;说明:1. 可选项:out数据集存储原始数据和因子得分估计; outstat数据集用于存储因子分析的结果,可以用来做进一步因子分析; method=因子选择方法 常用的包括:principal(主成分法),ml(极大似然法),prinit(迭代主因子法),usl(未加权最小二乘因子法),alpha( 因子法或称harris法)Heywood公因子方差大于1时令其为1,并允许迭代继续执行下去。因为公因子方差是相关系数的平方(介于0和1之间),若最终的公因子方差=1,称为Heywood状况;若大于1,称为超-Heywood状况,因子解无效。priors=
8、计算公因子方差的方法即给各变量的公因子方差赋初值,包括one(=1.0),max (最大绝对相关系数 ),smc(多元相关系数的平方),asmc (与多元相关系数的平方成比例,但要适当调整使它们的和等于最大绝对相关)。nfactors=n指定保留的因子个数;mineigen=p指定保留因子的最小特征值; proportion=p使用先验公因子方差估计,对被保留的因子规定所占公共方差比例为这个p值。converge=p当公因子方差的最大改变小于p时停止迭代,默认为0.001; maxiter=n规定迭代的最大步数,默认为30; rotate因子旋转方法常用的有varimax(正交的最大方差转轴法
9、)、orthomax(由gamma=指定权数的正交方差最大转轴法)和promax(在正交最大方差转轴的基础上进行斜交旋转)。normkaiser | raw | weight | cov | none为了对因子模型进行旋转,规定模型矩阵中行的正规化方法。2. 输出选项simple输出简单统计数。corr输出相关阵和偏相关阵。score输出因子得分模型中的系数。scree输出特征值的屏幕图。ev输出特征向量。residuals输出残差相关阵和有关的偏相关阵。msa输出被所有其余变量控制的每对变量间的偏相关,并抽样适当的Kaiser度量。reorder在输出时让各种因子矩阵的这些行重新排序。按因子
10、顺序,绝对载荷大的变量先被输出。 3. PLOTS=绘图选项 ALL绘制所有图形;INITLOADINGS/ LOADINGS/PRELOADINGS未旋转的/旋转的/预先旋转的因子载荷,子选项有CIRCLE=, FLIP, NPLOTS=, PLOTREF, VECTOR;SCREE陡坡图和变量解释,子选项有UNPACK;4. priors语句为var变量设定公因子方差,值在0.0和1.0之间。其值的设定应与var语句的变量相对应。二、PROC SCORE过程步无论是初始因子模型还是旋转后的因子模型,都是将指标表示为公因子的线性组合。在因子分析中,还可以将公因子表示为指标的线性组合,这样就可
11、以从指标的观测值估计各个公因子的值(因子得分)。它对样品的分类有实际意义。因子得分可由proc score过程完成,可以输出特征值情况、因子载荷、公因子解释比例等。PROC SCORE DATA = ;VAR 或者在FACTOR过程步中加上可选项SCORE。注:factor和score两个过程写同一程序可以提高效率。例1对全国30个省市自治区经济发展基本情况的八项指标作因子分析。省份GDPx1居民消费水平x2固定资产投资x3职工平均工资x4货物周转量x5居民消费价格指数x6商品零售价格指数x7工业总产值x8北京1394.892505519.018144373.9117.3112.6843.43
12、天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.81234.85山西1092.481250290.94721717.3116.9115.6697.25内蒙古832.881387250.234134781.7117.5116.8419.39辽宁2793.372397387.9949111371.1116.11141840.55吉林1129.21872320.454430497.4114.2762.47黑龙江2014.532334435.734145824.8114.31240.37上海2462
13、.575343996.489279207.4118.71131642.95江苏5155.2519261434.9559431025.52026.64浙江3524.7922491006.396619754.4116.6113.5916.59安徽2003.5812544744609908.3114.8112.7824.14福建2160.522320553.975857609.3114.4433.67江西1205.111182282.844211411.7115.9571.84山东5002.3415271229.5551451196.6117.62207.69河南3002.741034670.354
14、3441574.4116.5114.91367.92湖北2391.42571.6846858491201220.72湖南2195.71408422.6147971011.8119115.5843.83广东5381.7226991639.838250656.5111.61396.35广西1606.151314382.595105556118.4116.4554.97海南364.171814198.355340232.1111.364.33四川35341261822.544645902.3118.51171431.81贵州630.07942150.844475301.1121.4117.2324.
15、72云南1206.683345149310.4121.3118.1716.65西藏55.98111017.8773824.25.57陕西1000.031208300.274396500.9600.98甘肃553.351007114.815493507119.8468.79青海165.31144547.76575361.6118116.3105.8宁夏169.75135561.985079121.8117.1115.3新疆834.571469376.955348339119.7116.7428.76代码:data Economics;infile C:MyRawDataEconomics.txt
16、input Province $ x1 x2 x3 x4 x5 x6 x7 x8;run;proc factor data = Economics n=3 SIMPLE CORR plots=(scree);var x1-x8;运行结果及说明:30 个观测的均值和标准差变量均值标准差1921.09271474.8060x21745.9333861.6419x3511.5083402.8855x45457.63331310.2181666.1200459.9353117.28672.0253x7114.90671.8981862.9980584.5873相关性1.000000.266760.95
17、0580.190580.61724-0.27256-0.263630.873740.426140.71813-0.15101-0.23514-0.592730.363100.399630.43062-0.28049-0.359050.79186-0.35559-0.13496-0.539160.10438-0.253180.021720.658580.76284-0.12522-0.19207相关系数矩阵先验公因子方差估计: ONE 相关矩阵的特征值: 总计 = 8 平均值 = 1特征值差值比例累积13.755128081.558392080.469422.196736000.98184422
18、0.27460.744031.214891770.812491980.15190.895840.402399790.189597380.05030.946150.212802410.074843520.02660.972760.137958900.072501090.01720.990070.065457810.050832570.00820.998280.014625240.00181.0000相关矩阵的特征值和累积贡献,前三个主成分的累积贡献为89.58%,故考虑选取三个公共因子。3 个因子将被 NFACTOR 准则保留。绘图选项scree绘制陡坡图因子模式Factor1Factor2Fa
19、ctor30.884900.383620.120880.60671-0.598190.271320.911690.161120.211980.46622-0.722410.367930.485830.73829-0.27524-0.508560.251910.79664-0.619590.594380.437560.822730.426720.21098 因子模型(因子载荷矩阵),即公因子用原始变量表示的回归系数。由因子载荷系数看出,三个因子的含义不易解释,故需要考虑作因子旋转。每个因子说明的方差3.75512812.19673601.2148918最终的公因子方差估计: 总计 = 7.166
20、7560.944829540.799549480.902081120.874608600.856858090.956721360.928626830.90348083 公因子对原始变量的解释能力(方差贡献)的量度分别为3.7551281 2.1967360 1.2148918,三个公因子对变量的解释能力的总和为7.166756. 各个变量的共同度hi2都较大(接近1),可以认为三个公因子可以很好地解释原始变量中的信息。例2 为了更好地解释公共因子,继续做因子旋转方差最大正交旋转。在PROC FACTOR语句中再加上一个ROTATE = PROMAX旋转选项,这样将在得到主成分解后再进行方差最大正交旋转(VARIMAX),并加了REORDER选项使输出时把原始变量受相同因子影响的放一起。proc factor data = Economics n=3 ROTATE = VARIMAX REORDER plots=(initloadings preloadings loadings);初始因子方法: 主成分 未旋转因子,变量有3个聚点。旋转因子目的是让一些变量取值是0.FACTOR 过程旋转方法: Varimax 旋转后的因子,x2, x4, x6, x7取值接近于0,只剩x1, x3, x5, x8.正交变换矩阵0.817310.40776-0.407100.54
copyright@ 2008-2023 冰点文库 网站版权所有
经营许可证编号:鄂ICP备19020893号-2