5.2构造因子变量
因子分析中有许多确定因子变量的方法,如基于主成分模型的主成分分析和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。
前者应用最为广泛。
主成分分析法〔Principalcomponentanalysis〕:
该方法通过坐标变换,将原有变量作线性变更,转换为另外一组不相关的变量Zi〔主成分〕。
求相关系数矩阵的特征根λi(λ1,λ2,…,λp>0)和相应的标准正交的特征向量li;依据相关系数矩阵的特征根,即公共因子Zj的方差奉献〔等于因子载荷矩阵L中第j列各元素的平方和〕,计算公共因子Zj的方差奉献率与累积奉献率。
主成分分析是在一个多维坐标轴中,将原始变量组成的坐标系进展平移变换,使得新的坐标原点和数据群点的重心重合。
新坐标第一轴与数据变更最大方向对应。
通过计算特征根〔方差奉献〕和方差奉献率与累积方差奉献率等指标,来判定选取公共因子的数量和公共因子〔主成分〕所能代表的原始变量信息。
公共因子个数的确定准那么:
1〕依据特征值的大小来确定,一般取大于1的特征值对应的几个公共因子/主成分。
2〕依据因子的累积方差奉献率来确定,一般取累计奉献率达85-95%的特征值所对应的第一、其次、…、第m〔m≤p〕个主成分。
也有学者认为累积方差奉献率应在80%以上。
5.3因子变量的命名说明
因子变量的命名说明是因子分析的另一个核心问题。
经过主成分分析得到的公共因子/主成分Z1,Z2,…,Zm是对原有变量的综合。
原有变量是有物理含义的变量,对它们进展线性变换后,得到的新的综合变量的物理含义到底是什么?
在实际的应用分析中,主要通过对载荷矩阵进展分析,得到因子变量和原有变量之间的关系,从而对新的因子变量进展命名。
利用因子旋转方法能使因子变量更具有可说明性。
计算主成分载荷,构建载荷矩阵A。
计算主成分载荷,构建载荷矩阵A。
载荷矩阵A中某一行表示原有变量Xi与公共因子/因子变量的相关关系。
载荷矩阵A中某一列表示某一个公共因子/因子变量能够说明的原有变量Xi的信息量。
有时因子载荷矩阵的说明性不太好,通常须要进展因子旋转,使原有因子变量更具有可说明性。
因子旋转的主要方法:
正交旋转、斜交旋转。
正交旋转和斜交旋转是因子旋转的两类方法。
前者由于保持了坐标轴的正交性,因此运用最多。
正交旋转的方法许多,其中以方差最大化法最为常用。
方差最大正交旋转〔varimaxorthogonalrotation〕——根本思想:
使公共因子的相对负荷的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。
可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的说明。
斜交旋转〔obliquerotation〕——因子斜交旋转后,各因子负荷发生了变更,出现了两极分化。
各因子间不再相互独立,而是彼此相关。
各因子对各变量的奉献的总和也发生了变更。
斜交旋转因为因子间的相关性而不受欢迎。
但假设总体中各因子间存在明显的相关关系那么应当考虑斜交旋转。
适用于大数据集的因子分析。
无论是正交旋转还是斜交旋转,因子旋转的目的:
是使因子负荷两极分化,要么接近于0,要么接近于1。
从而使原有因子变量更具有可说明性。
5.4计算因子变量得分
因子变量确定以后,对于每一个样本数据,我们渴望得到它们在不同因子上的详细数据值,即因子得分。
估计因子得分的方法主要有:
回来法、Bartlette法等。
计算因子得分应首先将因子变量表示为原始变量的线性组合。
即:
回来法,即Thomson法:
得分是由贝叶斯Bayes思想导出的,得到的因子得分是有偏的,但计算结果误差较小。
贝叶斯〔BAYES〕判别思想是依据先验概率求出后验概率,并依据后验概率分布作出统计推断。
Bartlett法:
Bartlett因子得分是极大似然估计,也是加权最小二乘回来,得到的因子得分是无偏的,但计算结果误差较大。
因子得分可用于模型诊断,也可用作进一步分析如聚类分析、回来分析等的原始资料。
关于因子得分的进一步应用将在案例介绍一节分析。
5.5结果的分析说明
此局部详细见案例分析
二、案例分析
1探究问题
石家庄18个县市14个指标因子,详细来说有人均GDP(元/人)、人均全社会固定资产投资额、人均城镇固定资产投资额、人均一般预算性财政收入、第三产业占GDP比重(%)、人均社会消费品零售额、人均实际利用外资额〔万美元/人〕、人均城乡居民储蓄存款、农夫人均纯收入、在岗职工平均工资、人才密度指数、科技支出占财政支出比重〔%〕、每万人拥有执业医师数量、每千人拥有病床数。
要求依据这14项内容进展因子分析,得到维度较少的几个因子。
2实现步骤
【1】在“Analyze”菜单“DataReduction”中选择“Factor”叮嘱,如以下图所示。
【2】在弹出的以下图所示的FactorAnalysis对话框中,从对话框左侧的变量列表中选择这14个变量,使之添加到Variables框中。
【3】点击“Descriptives”按钮,弹出“FactorAnalysis:
Descriptives”对话框,如以下图。
Statistics框用于选择哪些相关的统计量,其中:
Univariatedescriptives〔变量描述〕:
输出变量均值、标准差;
Initialsolution〔初始结果〕
CorrelationMatrix框中供给了几种检验变量是否适合做引子分析的检验方法,其中:
Coefficients〔相关系数矩阵〕
Significanceleves〔显著性水平〕
Determinant〔相关系数矩阵的行列式〕
Inverse〔相关系数矩阵的逆矩阵〕
Reproduced〔再生相关矩阵,原始相关与再生相关的差值〕
Anti-image〔反影像相关矩阵检验〕
KMOandBartlett’stestofsphericity〔KMO检验和巴特利特球形检验〕
本例中,选中该对话框中全部选项,单击Continue按钮返回FactorAnalysis对话框。
【4】单击“Extraction”按钮,弹出“FactorAnalysis:
Extraction”对话框,选择因子提取方法,如以下图所示:
因子提取方法在Method下拉框中选取,SPSS共供给了7种方法:
PrincipleComponentsAnalysis〔主成分分析〕
Unweightedleastsquares〔未加权最小平方法〕
Generalizedleastsquares〔综合最小平方法〕
Maximumlikelihood〔最大似然估价法〕
Principalaxisfactoring〔主轴因子法〕
Alphafactoring〔α因子〕
Imagefactoring〔影像因子〕
Analyze框中用于选择提取变量依据,其中:
Correlationmatrix〔相关系数矩阵〕
Covariancematrix〔协方差矩阵〕
Extract框用于指定因子个数的标准,其中:
Eigenvaluseover〔大于特征值〕
Numberoffactors〔因子个数〕
Display框用于选择输出哪些与因子提取有关的信息,其中:
Unrotatedfactorsolution〔未经旋转的因子载荷矩阵〕
Screenplot〔特征值排列图〕
MaximuninterationsforConvergence框用于指定因子分析收敛的最大迭代次数,系统默认的最大迭代次数为25。
本例选用Principalcomponents方法,选择相关系数矩阵作为提取因子变量的依据,选中Unrotatedfactorsolution和Screeplot项,输出未经过旋转的因子载荷矩阵与其特征值的碎石图;选择Eigenvaluseover项,在该选项后面可以输入1,指定提取特征值大于1的因子。
单击Continue按钮返回FactorAnalysis对话框。
【5】单击FactorAnalysis对话框中的Rotation按钮,弹出FactorAnalysis:
Rotation对话框,如以下图所示:
该对话框用于选择因子载荷矩阵的旋转方法。
旋转目的是为了简化构造,以帮助我们说明因子。
SPSS默认不进展旋转〔None〕。
Method框用于选择因子旋转方法,其中:
None〔不旋转〕
Varimax〔正交旋转〕
DirectOblimin〔干脆斜交旋转〕
Quanlimax〔四分最大正交旋转〕
Equamax〔平均正交旋转〕
Promax〔斜交旋转〕
Display框用于选择输出哪些与因子旋转有关的信息,其中:
Rotatedsolution〔输出旋转后的因子载荷矩阵〕
Loadingplots〔输出载荷散点图〕
本例选择方差极大法旋转Varimax,并选中Rotatedsolution和Loadingplot项,表示输出旋转后的因子载荷矩阵和载荷散点图,单击Continue按钮返回FactorAnalysis对话框。
【6】单击FactorAnalysis对话框中的Scores按钮,弹出FactorAnalysis:
Scores对话框,如以下图所示:
该对话框用以选择对因子得分进展设置,其中:
Regression〔回来法〕:
因子得分均值为0,接受多元相关平方;
Bartlett〔巴特利法〕:
因子得分均值为0,接受超出变量范围各因子平方和被最小化;
Anderson-Rubin〔安德森-洛宾法〕:
因子得分均值为0,标准差1,彼此不相关;
Displayfactorscorecoefficientmatrix:
选择此项将在输出窗口中显示因子得分系数矩阵。
【7】单击FactorAnalysis对话框中的Options按钮,弹出FactorAnalysis:
Options对话框,如以下图所示:
该对话框可以指定其他因子分析的结果,并选择对缺失数据的处理方法,其中:
MissingValues框用于选择缺失值处理方法:
Excludecaseslistwise:
去除全部缺失值的个案
Excludecasespairwise:
含有缺失值的变量,去掉该案例
Replacewithmean:
用平均值代替缺失值
CofficientDisplayFormat框用于选择载荷系数的显示格式:
Sortedbysize:
载荷系数遵照数值大小排列
Suppressabsolutevalueslessthan:
不显示确定值小于指定值的载荷量
本例选中Excludecaseslistwise项,单击Continue按钮返回FactorAnalysis对话框,完成设置。
单击OK,完成计算。
3结果与探讨
〔1〕SPSS输出的第一局部如下:
第一个表格中列出了18个原始变量的统计结果,包括平均值、标准差和分析的个案数。
这个是步骤3中选中Univariatedescriptives项的输出结果。
DescriptiveStatistics
Mean
Std.Deviation
AnalysisN
人均GDP(元/人)
22600.5211
8410.55464
18
人均全社会固定资产投资额
15190.9515
5289.14499
18
人均城镇固定资产投资额
10270.3642
4874.14616
18
人均一般预算性财政收入
585.1712
550.45659
18
第三产业占GDP比重(%)
29.0612
9.46858
18
人均社会消费品零售额
6567.2566
3068.75463
18
人均实际利用外资额〔万美元/人〕
23.5667
40.31361
18
人均城乡居民储蓄存款
12061.2384
7363.08659
18
农夫人均纯收入
4852.5556
1202.52970
18
在岗职工平均工资
18110.3889
2374.05754
18
人才密度指数
8.1548
5.37552
18
科技支出占财政支出比重〔%〕
1.3494
.50193
18
每万人拥有执业医师数量
12.6883
8.88691
18
每千人拥有病床数
2.3608
1.16077
18
〔2〕SPSS输出结果文件中的其次局部如下:
该表格给出的是18个原始变量的相关矩阵
CorrelationMatrix
人均GDP(元/人)
人均全社会固定资产投资额
人均城镇固定资产投资额
Correlation
人均GDP(元/人)
1.000
.503
.707
人均全社会固定资产投资额
.503
1.000
.883
人均城镇固定资产投资额
.707
.883
1.000
人均一般预算性财政收入
.776
.571
.821
第三产业占GDP比重(%)
.567
.507
.759
人均社会消费品零售额
.737
.247
.600
人均实际利用外资额〔万美元/人〕
.454
.356
.648
人均城乡居民储蓄存款
.707
.480
.780
农夫人均纯收入
.559
-.073
.130
在岗职工平均工资
.789
.325
.544
人才密度指数
.741
.470
.737
科技支出占财政支出比重〔%〕
.582
.378
.486
每万人拥有执业医师数量
.434
.520
.733
每千人拥有病床数
.573
.565
.761
CorrelationMatrix
人均一般预算性财政收入
第三产业占GDP比重(%)
人均社会消费品零售额
Correlation
人均GDP(元/人)
.776
.567
.737
人均全社会固定资产投资额
.571
.507
.247
人均城镇固定资产投资额
.821
.759
.600
人均一般预算性财政收入
1.000
.830
.693
第三产业占GDP比重(%)
.830
1.000
.646
人均社会消费品零售额
.693
.646
1.000
人均实际利用外资额〔万美元/人〕
.797
.822
.616
人均城乡居民储蓄存款
.907
.882
.839
农夫人均纯收入
.132
.278
.516
在岗职工平均工资
.736
.548
.609
人才密度指数
.795
.745
.812
科技支出占财政支出比重〔%〕
.729
.575
.490
每万人拥有执业医师数量
.818
.844
.627
每千人拥有病床数
.911
.806
.629
CorrelationMatrix
人均实际利用外资额〔万美元/人〕
人均城乡居民储蓄存款
农夫人均纯收入
Correlation
人均GDP(元/人)
.454
.707
.559
人均全社会固定资产投资额
.356
.480
-.073
人均城镇固定资产投资额
.648
.780
.130
人均一般预算性财政收入
.797
.907
.132
第三产业占GDP比重(%)
.822
.882
.278
人均社会消费品零售额
.616
.839
.516
人均实际利用外资额〔万美元/人〕
1.000
.792
-.007
人均城乡居民储蓄存款
.792
1.000
.264
农夫人均纯收入
-.007
.264
1.000
在岗职工平均工资
.388
.647
.411
人才密度指数
.752
.868
.315
科技支出占财政支出比重〔%〕
.570
.626
.210
每万人拥有执业医师数量
.795
.885
-.075
每千人拥有病床数
.784
.866
.000
CorrelationMatrix
在岗职工平均工资
人才密度指数
科技支出占财政支出比重〔%〕
Correlation
人均GDP(元/人)
.789
.741
.582
人均全社会固定资产投资额
.325
.470
.378
人均城镇固定资产投资额
.544
.737
.486
人均一般预算性财政收入
.736
.795
.729
第三产业占GDP比重(%)
.548
.745
.575
人均社会消费品零售额
.609
.812
.490
人均实际利用外资额〔万美元/人〕
.388
.752
.570
人均城乡居民储蓄存款
.647
.868
.626
农夫人均纯收入
.411
.315
.210
在岗职工平均工资
1.000
.539
.421
人才密度指数
.539
1.000
.577
科技支出占财政支出比重〔%〕
.421
.577
1.000
每万人拥有执业医师数量
.477
.739
.519
每千人拥有病床数
.575
.719
.769
CorrelationMatrix
每万人拥有执业医师数量
每千人拥有病床数
Correlation
人均GDP(元/人)
.434
.573
人均全社会固定资产投资额
.520
.565
人均城镇固定资产投资额
.733
.761
人均一般预算性财政收入
.818
.911
第三产业占GDP比重(%)
.844
.806
人均社