缺失数据的聚类分析及SPSS模拟在经济学中的应用.pdf

资源描述

缺失数据的聚类分析及SPSS模拟在经济学中的应用.pdf

《缺失数据的聚类分析及SPSS模拟在经济学中的应用.pdf》由会员分享，可在线阅读，更多相关《缺失数据的聚类分析及SPSS模拟在经济学中的应用.pdf（5页珍藏版）》请在冰点文库上搜索。

缺失数据的聚类分析及SPSS模拟在经济学中的应用.pdf

第10卷第11期2010年11月科技和产业ScienceTechnologyandIndustryVol110,No111Nov.,2010缺失数据的聚类分析及SPSS模拟在经济学中的应用吕忠楷,胡锡健（新疆大学数学与系统科学学院,乌鲁木齐830046）摘要:

聚类分析需要完整数据集,但在有些经济研究领域,数据缺失是一个不可避免的问题,即经济研究所得数据中通常包含缺失数据,这无疑给聚类分析带来了一定的难度。

本文给出了一种算法为缺失数据模拟一个合理的插入值,构造出一个/完整的0数据集,之后再用聚类分析对数据进行分析,并用实例详细阐述了该方法的步骤及SPSS模拟过程和SPSS程序。

关键词:

缺失数据;聚类分析;SPSS模拟;经济学中图分类号:

O21319文献标志码:

A文章编号:

1671-1807（2010）11-0091-04收稿日期:

2010-09-17作者简介:

吕忠楷（1983）,男,四川泸州人,新疆大学数学与系统科学学院,硕士研究生,研究方向是概率统计及其应用。

缺失数据（MissingData）是指在数据收集过程中,未能收集到某些指标或变量的全部观察值,从而导致数据集中存在变量值缺失的一种现象。

在数据收集过程中,经常会遇到数据缺失的情况,这是统计分析人员最不愿意却又无法避免的。

绝大多数统计模型都不能对含有缺失数据的数据集进行直接分析,但直接删除含缺失值的记录又会浪费大量的信息,如果处理不当,往往会给数据分析结果带来不同程度的偏倚,甚至导致错误,无论在观察研究还是实验研究中,数据缺失的问题往往无法避免。

因此缺失数据的处理方法就成为数据分析过程中所必须考虑的操作环节之一。

聚类分析需要完整数据集,但在有些经济研究领域,数据缺失是一个不可避免的问题,这无疑给聚类分析带来了一定的难度。

本文介绍怎样把一个具有缺失数据的数据集进行模拟,再对模拟后的数据进行聚类分析,并给出SPSS操作过程和SPSS程序。

1缺失值的常用处理方法111简单缺失值处理方法及其缺陷常见的简单缺失值处理方法有完整数据集分析法,简单均数填补法,回归均数填补法,末次访视向后结转法和新类别法。

其中完整数据集分析法,简单均数填补法,回归均数填补法和末次访视向后结转法处理方法都较简单,其缺陷也显易而见。

以下就新类别法加以介绍。

新类别法是专门针对存在于分类变量下缺失值的一种简单处理方法。

当某个分类变量中存在缺失值时,就将缺失值本身当作该变量的一个新水平,即增加一个代表缺失值的新类别。

新类别法会将本属于差别较大类别的观测个体纳入到同一类别中,因此所得数据分析结果也存在较大的偏倚。

经此法处理的分类变量,如果被用作分层变量对分析结果进行校正,那么作为解释变量因素的分类变量的效应将很难被正确估计。

1112缺失值的高级处理方法常见的缺失值高级处理方法有基于特定模型法（WhollyModelBasedMethods）,简单随机填补法（SimpleStochasticImputation）,多重随机填补法（MultipleStochasticImputation）和加权处理法（WeightingMethods）。

这四种处理方法都不是直接将缺失值替换为某特定的数值,从而将其转化为非缺失值,而是将现有信息（实际观测到的数据和某些特定的背景信息）和不依赖于实测数据的特定假设相结合进行数据统计的一类分析方法。

该类方法的目的在于获得每一个缺失值的有关统计学信息,比如有关该缺失值真实取值的分布信息和有关缺失机制的某些信息等。

1以下着重介绍多重随机填补法的原理和优点以及SPSS软件的EM模拟法。

多重随机填补法是指由包含m（m2）个插补值的向量代替每一个缺失值的过程。

这m个完整数据集从插补向量中创建,由该向量的第一个元素代替每一个缺失值从而得到第一个完整数据集,第二个元素代替每一个缺失值得到第二个完整数据集,以此类推。

对于一个无回答模型,当m个插补值被重复随91机抽取时,m个完整数据组合起来形成一个能正确反映由于无回答引起的不确定性推断,当插补值来自两个或更多个无回答模型,根据模型的组合推断以便在模型间形成对照,从而说明模型对无回答的推断灵敏性。

通过多个简单填补的组合,多重随机填补法既分享简单填补的优点,也弥补其缺点。

特别地,在一个无回答模型中,当m重插补重复时,产生m套完全数据分析很容易合并并创建一个能有效地反映由于缺失数据引起抽样变异性推断结果。

应用多重随机填补法处理缺失数据时,多次填补所获得的有关统计量的变异度可被用来对基于完全数据的精度统计量（如方差等）进行校正,从而使所得的参数估计值更为客观、准确。

对于随机缺失,此种操作方法能够获得更为有效的统计推断结果。

2EM算法是求参数极大似然估计的一种方法,它可以从非完整数据集中对参数进行MLE估计,是一种非常简单实用的学习算法。

这种方法可以广泛地应用于处理缺失数据,截尾数据,带有讨厌数据等所谓的不完全数据（IncompleteData）。

EM算法包括两个步骤:

由E步和M步组成,它是通过迭代最大化完整数据的对数似然函数的期望来最大化不完整数据的对数似然函数,通过交替使用这两个步骤,EM算法逐步改进模型的参数,使参数和样本的似然概率逐渐增大,最后终止于一个极大点,并在新的参数下重新确定模型的状态。

通过多次的迭代与循环直至某个收敛条件满足为止,就可以使得模型的参数逐渐逼近真实参数。

SPSS软件提供的EM模拟法的假设是随机缺失,它通过特定的重复估计方程,以EM算法模拟缺失值,然后基于模拟后数据,可以给出当前处理变量的均数、方差协方差矩阵及相关矩阵。

32聚类分析我们认为,所研究的样品或指标之间存在着程度不同的亲疏关系。

于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合到另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。

这样的分析方法又称为聚类分析（ClusterAnalysis）。

聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比其他类的对象的相似性更强。

该方法的目的在于使类间对象的同质性最大化和类与类间对象的异质性最大化。

4聚类分析是通过数据建模简化数据的一种方法。

传统的聚类分析方法包括系统聚类法,动态聚类法,有重叠聚类和模糊聚类等。

聚类分析的基本思想是依照事物的数值特征来确定样本之间的亲疏关系,而样品之间的亲疏关系由它们之间的距离来衡量,一旦样品之间的距离确定之后,则把距离较近的样品归为一类。

传统的聚类分析要求变量为数值变量。

5设xik为第i个样品的第k个指标,每个样品测量了p个变量,则样品xi和xj之间的距离Dij定义为:

Dij（q）=（Epk=1|xik-xjk|q）1/q上式称为明考夫斯基（Minkowshi）距离,其中q为正数。

当q=1时,Dij

（1）称为绝对距离;当q=2时,Dij

（2）称为欧氏距离;当q=时,Dij（）=max1kp|xik-xjk|称为切比雪夫距离。

聚类分析既可以对样品聚类,又可以对变量聚类,样品聚类也称Q型聚类,变量聚类也称R型聚类。

根据样本量的大小,可以使用层次聚类或K中心聚类的方法,当样本量较大时,数值变量和分类变量并存时,也可以使用二阶段聚类法。

13实例分析与SPSS具体操作表1是2010年6月末中国分地区在岗职工工资总额统计节选数据（数据来源:

搜数网,缺失数据为随机缺失,原始数据有31例）,数据按国有,城镇集体,其他对数据进行分类,其中/NULL0为缺失数据（本例中SPSS版本为1310,个别操作可能与别的版本不一样,但大同小异）。

我们先对数据进行填补,再对填补后数据进行聚类分析。

第一步:

先对数据集进行填补（本例采用EM模拟法）SPSS操作提示:

Analyze-MissingValueAna-lysis,在弹出的/MissingValueAnalysis0对话框中,首先选定需要进行缺失值分析的全部变量。

将定量变量选入到/QuantitativeVariables0框中,此处选入/国有,城镇集体,其他03个变量;本例中没有分类变量,若有则将分类变量选入到/CategoricalVaria-bles0框中,以便进行分析;将变量/地区0作为记录标识选入/CaseLabels0框,输出结果中有关缺失数据信息的记录列表将以/地区0变量的值为标识,并选中/EM0复选框。

选入相应变量后的/MissingValueAnalysis0对话框如图1所示。

92科技和产业第10卷第11期表12010年6月末中国分地区在岗职工工资总额统计（节选）地区国有城镇集体其他地区国有城镇集体其他北京550189251281134110浙江NULL42162781120天津NULL6101217109安徽288110NULL198150河北47417423122187140福建27710918103377146山西346117NULL154123江西NULL912982171内蒙古2771661017391125山东76616357175545175辽宁44115525162294187河南52613648160NULL吉林NULL9179118125湖北NULL19176212186黑龙江41713620127122131湖南38716225134211176上海43514415193NULL广东882130NULL976165江苏NULL38193630187广西29012112170103125图1/MissingValueAnalysis0对话框图2/MissingValueAnalysis:

EM0对话框当选中/EM0复选框后,/Variables,0和/EM,0按钮都被激活,点击/Variables,0按钮,进入/MissingValueAnalysis:

VariablesforEMandRegression0对话框。

此对话框用于指定EM估计方法和回归估计方法中的因变量和自变量,在默认状态下,所有数值型变量都将被作为因变量和自变量来使用。

如果要指定这种方法的因变量和自变量,则选择对话框上方的/Selectvariables0单选钮,此时/QuantitativeVariables0列表框,/PredictedVariables0列表框和/PredictorVariables0列表框被激活,用户可以从左侧的全部数值型变量列表中选择变量,作为因变量和自变量来使用,一个变量可同时作为两种形式来使用。

此处保持其默认设置方式,点击/Continue0按钮,返回/MissingValueAnalysis0对话框,此时因变量和自变量的设置已经完成,若要重新设置,可再次点击/Variables,0按钮,进入/MissingValueAnaly-sis:

VariablesforEMandRegression0对话框重新设置即可。

返回到/MissingValueAnalysis0对话框后,点击/EM,0按钮,进入/MissingValueAnalysis:

EM0对话框。

/Distribution0项中的3个单选按钮用于指定数据的假定分布形式,其中/Normal0表示正态分布;/MixedNormal0表示混合正态分布,/Student.st0表示student-t分布,可进一步指定其自由度。

对话框下方的/Maximumiterations:

0输入框用于指定一个正整数,作为EM估计方法的最大迭代次数,当此迭代运算达到此最大次数之后即会停止,即使所得估计值未达到收敛界值。

/Savecompleteddata0复选框用来控制EM估计所得的完整数据集是否保存到指定的数据文件,选中此复选框后,/File,0按钮激活,点击File,0按钮进一步设置数据文件的物理路径和文件名称（如图2所示）,此时已完成对缺失数据的填补,表2是2010年6月末中国分地区在岗职工工资总额统计填补节选数据。

依次点击SPSS菜单下的File-New-Syntax进入SPSS程序编辑窗口,在窗口中输入下列程序:

MVA国有城镇集体其他/ID=地区/EM（TOLERANCE=01001CONVER-93缺失数据的聚类分析及SPSS模拟在经济学中的应用GENCE=010001ITERATIONS=25OUTFILE=C:

DocumentsandSettingsAdministrator桌面模拟后1sav）1再点击Run-All即运行以上程序,其结果与上面一样（此处把模拟后文件放在桌面,并命名为/模拟后1sav0）。

第二步:

对填补后的数据集进行聚类分析表22010年6月末中国分地区在岗职工工资总额统计填补数据（节选）地区国有城镇集体其他地区国有城镇集体其他北京550189251281134110浙江65914442162781120天津2251826101217109安徽28811014113198150河北47417423122187140福建27710918103377146山西34611718164154123江西233119912982171内蒙古2771661017391125山东76616357175545175辽宁44115525162294187河南52613648160441115吉林2431859179118125湖北35118919176212186黑龙江41713620127122131湖南38716225134211176上海43514415193361138广东88213058191976165江苏59918238193630187广西29012112170103125本例数据属于较小样本资料,故用层次聚类法处理比较适合。

以下是SPSS操作提示:

打开桌面/模拟后1sav0文件,在菜单中单击Analyze-Class-ify-HierarchicalCluster,弹出层次聚类分析主对话框（如图3所示）,选入聚类变量后,在Cluster栏中选择Cases,要求做样品的层次聚类,如果选择Varia-bles,则要求做变量聚类。

图3层次聚类分析主对话框SPSS程序:

CLUSTER国有城镇集体其他/METHODBAVERAGE/MEASURE=SEUCLID/ID=地区/PRINTSCHEDULE/PLOTDENDROGRAMVICICLE1再次点击Run-All即可。

第三步:

结果分析在Plot选项中选取Dendrogram,可输出树形图。

结果显示:

如果分成两类,则江苏,浙江,山东,北京,广东成一类,其他省（市或自治区）成一类;如果分成三类,则江苏,浙江,山东,北京成一类,广东,福建,上海,天津,四川,河北成一类,其他省（市或自治区）成一类,4模型分析本文先用EM算法对具有缺失数据的数据集进行填补,再对填补后的数据集进行聚类分析,结合实例和SPSS软件对模型进行验证和分析,有效地解决了聚类分析不能对缺失数据集进行直接分析的困难。

并给出SPSS具体操作步骤、程序和结果分析,使SPSS初学者也有很大的收获。

参考文献1宇传华1SPSS与统计分析M1北京:

电子工业出版社,2007:

333-354;461-46812SPRINGLEE1多重填补法EB/OL1（2006-04-25）2010-05-061http:

/baike1baidu1com/view/546411htm13IRDUT1EM算法简述EB/OL12010-09-161http:

/baike1baidu1com/view/15417071htm14何晓群1多元统计分析M1北京:

中国人民大学出版社,2004:

54-5515RODERICKJALITTLE,DONALDBRUBIN1缺失数据统计分析M1孙山泽,译1北京:

中国统计出版社,2004:

3-101（下转第103页）94科技和产业第10卷第11期产生重要影响。

同时我们反对少数发达国家企图在/后京都0国际协定谈判中为采取单边贸易措施提供便利,坚定维护自由贸易的立场2。

应尽早开展相关方面的研究和利弊分析,参与国际规则的讨论和制定,争取主动权。

参考文献1吴玲莉1WTO体制下的绿色贸易壁垒法律问题研究M1北京:

中国政法大学出版社,200912黄志雄1国际贸易新课题:

边境碳调节措施与中国的对策J.中国软科学,2010

（1）.3雷明1应对碳关税的战略和对策J1环境保护与循环经济,2009（8）14张中祥1美国拟征收碳关税中国当如何应对J1国际石油经济,2009（8）1ChinaShouldActivelyFaceCarbonTariffsZHANGXiao-mei（AnhuiInstituteofArchitecture,Hefei230601,China）Abstract:

Thecurrentclimatethefocusofworldattention,theUnitedStates,Franceinglobaltradetariffsontheattitudeofthecarbon,causingwidespreadconcernandcontroversyworldwide1Basedonthebackgroundandcarbontariffsinrealterms,analysisofcarbontariffsonthenegativeimpactofChinaseconomicdevelopment,takingintoaccountthefuturelow-carboneconomywillbecomeaneweconomicgrowthpoint,whichde-terminesthecarbontariffthatChinamustpreparebeforelevy,alsoputforwardourresponsetocarbontariffpolicyrecommendations1Keywords:

carbontariffs;tradeprotection;low-carbontechnology（上接第94页）ClusterAnalysisofMissingDataandSPSSApplicationSimulationinEconomicsLVZhong-kai,HUX-ijian（CollegeofMathematicsandSystemScience,XinjiangUniversity,Urumqi830046,China）Abstract:

Clusteranalysisrequirescompletedataset,butinsomefieldsofeconomicresearch,datamissingisanunavoidablequestion,whichmeansthateconomicstudiesoftenincludemissingdata,itobviouslybringsclusteranalysiscertaindegreeofdifficulty1Thispaperpresentsanalgo-rithmforthemissingdatatosimulatetheinsertionofareasonablevalue,toconstructa/complete0dataset,thenuseclusteranalysistoanalyzethedataandexamplestoelaboratethestepsofthismethodandSPSSsimulatingprocessandSPSSprogram1Keywords:

missingdata;clusteranalysis;SPSSsimulating;economics103中国应积极面对碳关税

展开阅读全文