潜在类别模型及数据模拟分析Word格式.docx
《潜在类别模型及数据模拟分析Word格式.docx》由会员分享,可在线阅读,更多相关《潜在类别模型及数据模拟分析Word格式.docx(9页珍藏版)》请在冰点文库上搜索。
潜在类别模型综合了结构方程模型与对数线性模型的思想,形成了自身的优势,其目的在于以最少的潜在类别数目来解释显变量之间的关联,来达到局部独立性。
潜在类别模型的提出弥补了结构方程模型仅能处理连续潜变量的不足,尤其重要的是分类潜变量的引入提高了分类变量的分析价值,使得研究者能够透过概率更加深入地了解分类变量背后的潜在影响因素。
1潜在类别模型的基本原理
潜在类别模型又称潜类模型(latentclassmodel,LCM),是建立在概率分布原理与对数线性模型基础之上,引入因子分析与结构方程模型的思想而形成的。
因此,掌握结构方程模型与对数线性模型有助于理解潜在类别模型。
潜在类别模型分析过程包括模型参数化、参数估计、模型识别、拟合优度评价、潜在分类与结果解释等[1~4]。
1.1概率参数化
LCM的概率参数化(probabilisticparameterization)包括两种类型的分类变量:
观察变量或显变量(observedvariable,manifestvariable)和非观察变量或潜变量(latentvariable);
两种类型的参数:
潜在类别概率(latentclassprobabilities)和条件概率(conditionalprobabilities)。
LCM假定任意两个观测变量之间的关系可以由潜变量解释。
现假定A、B、C、D为四个显变量(或条目),潜在类别模型可以表达为:
πABCDXijklt=πXtπA|XitπB|XjtπC|XktπD|Xlt
(1)
式
(1)包含潜在类别概率(πXt)和反映潜在类别对各显变量影响大小的四个条件概率(πA|Xit、πB|Xjt、πC|Xkt、πD|Xlt)。
在式
(1)中,潜在类别概率πXt表示当观察变量局部独立时,潜变量X在第t个水平的概率,即从样本中随机选取的观察对象属于潜在类别t的概率,各潜在类别的概率总和为1,tπXt=1。
条件概率,如πA|Xit,表示属于潜在类别t的个体对观察变量A的水平i作出反应的概率。
根据概率和条件概率的性质,有如下条件成立:
iπA|Xit=jπB|Xjt=kπC|Xkt=lπD|Xlt=1.0
1.2模型估计与模型识别
提出假定模型后,接下来的重要工作就是求出模型中参数的终解(finalsolution)和参数估计时的识别问题。
在潜在类别模型中常用的参数估计方法有EM(expectationmaximization)算法和NR(NewtonRaphson)算法。
如果模型中的参数要顺利求出一组最佳解,那么参数数目必须小于自由度。
如果自由度小于0,将造成模型不能识别的问题,无法运用EM算法与NR算法进行迭代求解。
相反自由度大于0也不一定能让模型具有可识别性。
Goodman(1974)提出了一个局部识别(localidentifiability)原则,利用偏导矩阵(partialderivativematrix)来判断模型是否可以得到有意义的解。
遇到模型无法识别的情况,可以限定部分参数,减少待估参数数目,提高模型估计的识别性。
1.3模型评价与潜在分类
模型评价的主要工作就是找出既简洁,具有最少的参数,又具有较好拟合优度的模型,其中4种指标Pearsonχ2、似然比χ2、Akaike信息准则(AIC)、Baysian信息准则(BIC)已经得到广泛使用。
在确定模型后,最后要将各组观察值分类到适当的潜在类别当中,来说明观察值的后验类别属性(posteriormembership),即潜在聚类分析(latentclassclusteranalysis)。
Kaufman和Rousseeuw(1990)将传统的聚类分析定义为把相似的目标分到相同的组别,而组别的数量和形态是未知的[2],而潜在聚类分析则是在一定的概率模型之下(modelbased),利用概率估计与比较来进行分类,分类的原理依据贝叶斯理论。
πABCDtijkl=πABCDXijkltTt=1πABCDXijklt
(2)
利用式
(2)求出值潜变量X的条件概率πABCDtijkl后,根据πABCDtijkl值的大小判断观察值属于哪一类。
如果潜在类别t在某一类的概率最大则相应的个体归为该类。
1.4探索性与验证性潜在类别分析
依据研究目的,潜在类别模型可以分为探索性潜在类别模型与验证性潜在类别模型两种类型。
邱皓政[3]对探索性潜在类别模型分析过程进行了总结,有以下几步:
1.估计初始模型(T=1的1cluster模型);
2.逐步增加类别数目,进行各模型的参数估计,计算拟合优度值;
3.进行拟合优度检验与差异检验,以决定最佳模型;
4.进行类别的命名与参数估计结果整理;
5.进行分类,决定各观察值的归属类别;
而验证性潜在类别分析步骤也为以下几步:
1.估计未限定模型(可以是探索性分析的最佳模型或次佳模型);
2.增加限定的参数,并进行模型的参数估计,计算拟合优度;
3.进行拟合优度检验与卡方差异检验,以决定模型拟合优度有无变化;
4.如果拟合变得不好,放弃该模型,以未限定模型作为最适当模型,或继续进行其他模型的估计;
5.如果拟合变得很好,则保留该限定,重新进行各潜在类别的命名与参数估计的说明;
6.进行分类,了解各观察值的分类情形。
1.5多样本潜在类别模型
在潜在类别分析中,研究人员经常面对来自两个或多个不同组别的观察对象进行潜在类别分析的情形。
在遇到这种情况时,可以利用多样本(multisample)潜在类别模型分析比较样本之间的潜结构。
多样本潜在类别模型分析(multisamplelatentclassmodeling,MSLCM)是对两组或两组以上观察对象在同一组显变量的反应同时进行分析,比较不同的样本下的潜在类别模型结果是否有所差异,因此又称为联立潜在类别分析(simultaneouslatentclassmodeling,SLCM)。
我们对式(1)中的参数进行修定使式中含有反映样本来源的分组变量,假定变量G表示分组变量且具有S个水平,比如为来自四个国家的不同样本(S=4),那么得到G1、G2、G3、G4。
多样本LCM的概率参数化可以表示为:
πABCDXGijklts=πGsπX|GtsπA|XGitsπB|XGjtsπC|XGktsπD|XGlts(3)
式(3)中分组变量的加入使得模型限定条件发生了改变:
tπX|Gts=iπA|XGits=jπB|XGjts=kπC|XGkts=lπD|XGlts 2模拟分析
2.1模拟分析步骤
利用Mplus软件蒙特卡罗模拟(MonteCarlosimulationstudy)产生潜在类别模型的模拟数据,然后利用Mplus软件对产生的模拟数据进行单样本与多样本潜在类别分析[5]。
2.1.1模型指定与变量产生条件
首先构造两个包含一个潜变量和四个显变量的潜在类别模型M1与M2,其中显变量和潜变量都为二分类变量,假定0表示不发生(否),1表示发生(是)。
对于潜在类别模型M1,在潜在类别1(cluster1)中指定二分类显变量U1、U2、U3、U4的界值为0.5、0.5、-0.5、-0.5;
在潜在类别2(cluster2)中指定界值为-0.5、-0.5、0.5、0.5;
指定潜变量界值为0。
对于潜在类别模型M2,在潜在类别1中指定二分类显变量U1、U2、U3、U4的界值为0.5、0.5、0、0;
在潜在类别2中指定界值为0、0、-0.5、-0.5;
2.1.2生成模拟数据
Mplus首先产生符合多元正态分布的四个连续变量,然后根据MODELPOPULATION命令或者MONTECARLO命令中的POPULATION选项指定的界值,根据Logistic分布原理,使用最大似然估计方法得到四个二分类显变量。
根据模型M1和模型M2指定的参数,分别产生了两组样本含量为=1000的随机数据,本研究进行一次数值模拟并保存数据。
2.1.3模拟数据潜在类别分析
把产生的模拟数据直接导入Mplus中进行单样本潜在类别分析与多样本潜在类别分析。
2.2模拟数据的单样本潜在类别分析
2.2.1模型拟合指标
表1模型M1与M2拟合优度指标(略)
表1结果显示指定模型拟合结果良好,符合理论预期,得到一个二分类潜在类别模型。
2.2.2参数估计结果
表2参数估计结果显示:
模型M1的潜在类别概率值(clustersize)分别是36.40%、63.60%,总和为1.0,可以看出类别2的比重大于类别1,差异明显。
模型M2中潜在类别概率值为97.75%、2.25%,很明显潜在类别1的概率值大于潜在类别2的概率值。
与因子分析中的因子贡献率类似,潜在类别的概率值越大表示在潜变量中地位越重要,对显变量的影响越大。
因此认为模型M1中潜在类别2作用大于潜在类别1的作用,且差异显著;
模型M2中潜在类别1的作用明显大于潜在类别2的作用,结果显著。
表2模型M1与M2单样本潜在类别的条件概率与潜在类别概率(略)
与因子分析中的因子载荷类似,条件概率表示各潜变量与显变量之间的关系,条件概率值越大说明潜变量对显变量的影响越大,可协助研究者解释潜变量各类别的内容与性质。
可以看出模型M1的潜在类别1中显变量U3、U4发生的条件概率分别为72.7%、60.00%,而显变量U1、U2发生的条件概率为30.7%、36.3%,因此潜在类别1主要影响显变量U3、U4;
在潜在类别2中显变量U1、U2发生的条件概率为63.1%、56.7%,而显变量U3、U4发生的条件概率为40.3%、40.5%,与潜在类别1正好相反,潜在类别2主要影响显变量U1、U2。
在模型M2潜在类别1中显变量U1、U2、U3、U4发生的条件概率为45.3%、43.7%、57.2%、51.6%,潜在类别1对四个显变量影响大小相近;
潜在类别2中显变量U3、U4发生条件概率为100%、93.9%,可以看出在模型M2中,潜在类别1不具有特异性,而潜在类别2主要影响U3、U4。
综上分析模型M1具有明显的倾向性,模型M1的潜在类别1可以认为是U3、U4倾向类,而潜在类别2是U1、U2倾向类;
模型M2的潜在类别1不具有识别性,而潜在类别2倾向于U3、U4为“是”的类别。
图1反映了模型M1四个显变量U1、U2、U3、U4发生的条件概率,图示的结果也说明了潜在类别1对变量U3、U4的影响较大,而类别2对变量U1、U2的影响较大。
绘成折线图,可以直观地表现两个类别的差异性。
图1模型M1四个显变量的条件概率分布情形(略)
图2模型M2四个显变量的条件概率分布情形(略)
图2反映了模型M2四个显变量U1、U2、U3、U4发生的条件概率,图示结果显示了潜在类别1对变量U1、U2、U3、U4的影响都比较接近,而潜在类别2对显变量U3、U4影响较大。
2.3模拟数据的多样本潜在类别分析
2.3.1模型拟合指标
表3多样本非限定潜在类别分析模型拟合优度指标(略)
表3给出了两样本潜在类别模型分析拟合效果。
χ2与G2显示三分类潜在类别模型结果拟合较好,而指标BIC与AIC结果显示潜变量二分类时结果较好。
综合考虑各个指标选择潜变量二分类的模型。
2.3.2参数估计结果
表4多样本二分类潜在类别模型条件概率(略)
表4结果显示,两样本潜在类别模型区分为两个潜在类别,全体潜在类别概率分别为69.5%、30.5%,两样本潜在类别概率分别是模型M1的49.98%、50.02%与模型M2的50.05%、49.95%,两组比例相当;
而各单元格条件概率差异明显。
图3多样本比较条件概率分布情形(略)
2.3.3模型M1和M2两样本比较结果
将模型M1与模型M2数据合并,样本含量为2000,根据式
(2)把观察值分到两个潜在类别中。
以观察值{0000}的分类结果为例,先根据式
(1)求期望概率(见表5第5、6列):
πABCDX00001=πX1πX01πX01πX01πX01
=0.451×
0.482×
0.519×
0.544×
0.723=0.044
πABCDX00002=πX2πX02πX02πX02πX02
=0.697×
0.691×
0.265×
0.382×
0.277=0.014
相应地样本量乘以期望概率可以得到期望频数(见表5第7、8列),然后得到分类条件概率:
πBCD10000=πABCDX00001πABCDX00001+πABCDX00002=0.759
πBCD20000=πABCDX00002πABCDX00001+πABCDX00002=0.241
由于潜在类别1的分类条件概率大于潜在类别2的分类条件概率,因此把观察值{0000}归为潜在类别1,其它观察值分类同理(见表5第9、10列)。
表5模型M1与模型M2合并样本观察值期望概率与分类情形(略)
把所有观察值区分为两类,然后检验模型M1与模型M2之间潜在类别的差异性,表6中χ2结果显示两个样本之间的分类没有统计学差异(P&
lt;
0.001)。
表6二分类潜在类别模型多样本比较(略)
注:
χ2=1.673;
df=1;
P&
0.05。
3讨论
潜在类别分析是描述一组分类变量间相互关系所形成的数学模型,综合了结构方程模型与对数线性模型的思想,可以做探索性研究,也可以用于验证性研究,拓展了潜变量模型的应用范围。
探索性潜在类别模型的主要任务是决定外显变量的变异最能够被几个潜在类别所解释。
当T个类别的模型即为最佳模型时,会使理论最接近实际数据,每一潜在类别有一群具有相同特征的观察值所组成。
验证性潜在类别模型的主要特征是研究者基于不同的理论观点或特殊需要,比对观察数据,对模型参数进行设限,借以检验特殊反映形态是否存在。
模型识别问题是潜在类别模型应用过程中的一个重要步骤。
一般对潜在类别模型理论不太清楚的研究者通常会忽视这一步骤。
当模型无法识别,Mplus软件会自动中止,出现警示语句。
当然,在某些情形之下,电脑的输出结果并未明显告知已有识别问题产生。
这时需要研究者仔细阅读输出的结果。
在潜在类别分析中,由于概率的参数化有其特殊前提,有可能导致模型识别问题的发生。
如果模型中的参数要能够顺利求出一组最佳解,那么参数数目必须小于自由度。
如果自由度小于0,将造成模型的识别不足问题,无法进行收敛求解的迭代。
但是并非自由度大于0就必然可以让模型具有可识别性。
如果模型无法识别,可以将部分参数设定限制,改变概率估计的方式,提高模型估计的数学条件。
不过值得注意的是此时自由度的数目就未必反映估计参数的多寡,若我们要进行设限模型的比较时,参数的变动未必是自由度相减。
本研究假定造成外显变量之间具有关联性的原因可能是外显变量背后存在一个共同的潜在变量,在模型分析时考虑了这个变量之后外显变量既无关联性,呈现局部独立性,这只是一维的情况。
如果造成外显变量之间的关联性的原因不是一个潜在类别变量,而是多个外显变量所造成,此时需利用多维度潜在类别模型(hierarchicallatentclassmodel)。
这些理论模型都具有进一步研究的重要价值。
目前已有多种软件可以进行潜在类别模型分析,如LatentGOLD、SASPROCLCA和SASPROCLTA、LEM等。
本文主要使用了Mplus软件进行编程实现,Mplus相对比其它软件在处理潜在类别模型时,具有综合性强、程序简单的特点和优势,尤其是处理混合模型、多水平模型时可以说无人能出其右。
【参考文献】
1&
amp;
latentclassanalysis.CambridgeUniversityPress,2002.
2L.Kaufman.&
FindingGroupsInData:
AnIntroductionToClusterAnalysis.NewYork:
wiley,1996.
3邱皓政,著.潜在类别模型的原理与技术.北京:
教育科学出版社,2008.
4张岩波.潜变量模型.北京:
高等教育出版社,2009.
5;
MplusStatisticalAnalysisWithLatentVariablesUser'
sGuide.FifthEdition.LosAngeles,CA:
2007,11.