第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx

上传人:wj 文档编号:10153686 上传时间:2023-05-24 格式:PPTX 页数:84 大小:1.14MB
下载 相关 举报
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第1页
第1页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第2页
第2页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第3页
第3页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第4页
第4页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第5页
第5页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第6页
第6页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第7页
第7页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第8页
第8页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第9页
第9页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第10页
第10页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第11页
第11页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第12页
第12页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第13页
第13页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第14页
第14页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第15页
第15页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第16页
第16页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第17页
第17页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第18页
第18页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第19页
第19页 / 共84页
第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx_第20页
第20页 / 共84页
亲,该文档总共84页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx

《第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx》由会员分享,可在线阅读,更多相关《第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx(84页珍藏版)》请在冰点文库上搜索。

第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx

高级计量经济学及Stata应用第五讲多值、排序与计数模型,陈强山东大学经济学院,多值选择模型,个体面临的多值选择:

交通工具;职业;手机消费品牌。

假设可供个体选择的方案为,J为正整数,即共有J种互相排斥的选择。

如果J=2,则为二值选择模型。

2019-06-19,陈强计量及Stata应用(c)2014,2,随机效用法,假设个体i选择方案j的随机效用为,解释变量xi只随个体i而变,不随方案j而变。

比如,个体的性别、年龄、收入等特征。

这种解释变量称为“只随个体而变”(case-specific)或“不随方案而变”(alternative-invariant)。

系数表明,xi对随机效用Uij的作用取决于方案j。

2019-06-19,陈强计量及Stata应用(c)2014,3,随机效用法(续),个体i选择方案j,当且仅当方案j的效用高于所有其他方案,故个体i选择方案j的概率可写为,假设为iid且服从I型极值分布(typeIextremevaluedistribution),可证明:

2019-06-19,陈强计量及Stata应用(c)2014,4,随机效用法(续2),选择各项方案的概率之和为1。

这是二值选择Logit模型向多值选择模型的推广。

但无法同时识别所有系数。

如果将变为,不影响模型的拟合。

常将某方案(比如方案1)作为“参照方案”(basecategory),令其系数为0。

2019-06-19,陈强计量及Stata应用(c)2014,5,多项logit,个体i选择方案j的概率为,此模型为“多项logit”(multinomiallogit),可用MLE进行估计。

2019-06-19,陈强计量及Stata应用(c)2014,6,多项Probit,如果假设服从J维正态分布,可得“多项probit”(multinomialprobit)模型但多项Probit的计算涉及高维积分,不易计算,较少使用。

2019-06-19,陈强计量及Stata应用(c)2014,7,2019-06-19,陈强计量及Stata应用(c)2014,8,随方案而变的解释变量,多项Logit仅考虑不随方案而变的解释变量(比如,个体收入),但有些解释变量既随个体,也随方案而变。

比如,在选择交通工具时,乘车时间既因个体而异,也因交通工具而异。

这种解释变量称为“随方案而变”(alternative-specific),既包括同时随方案与个体而变的变量,也包括随方案而变但不随个体而变的变量。

条件Logit,个体i选择方案j的随机效用为,解释变量xij,既随个体i而变,也随方案j而变。

系数表明,xij对随机效用Uij的作用不依赖于方案j。

比如,乘车时间依个体与方案而变,但乘车时间太长所带来的负效用是一致的。

2019-06-19,陈强计量及Stata应用(c)2014,9,条件Logit(续),根据与多项Logit类似的推导,,此模型称为“条件logit”(conditionallogit)(McFadden,1974)。

在条件Logit模型中,系数不依赖于方案,故无需选择参照方案。

2019-06-19,陈强计量及Stata应用(c)2014,10,混合Logit,前面分别考虑了解释变量不随方案而变的“多项Logit”,以及解释变量随方案而变的“条件Logit”。

考虑这两种情况同时发生的混合情形。

个体i选择方案j的随机效用为,个体i选择方案j的概率为,2019-06-19,陈强计量及Stata应用(c)2014,11,混合Logit(续),此模型在文献中称为“混合Logit”(mixedlogit),但Stata仍称为“条件Logit”。

为了识别该模型,也需要选择一个参照方案(比如方案1),然后令。

2019-06-19,陈强计量及Stata应用(c)2014,12,2019-06-19,陈强计量及Stata应用(c)2014,13,标准误,在多值选择模型中,由于被解释变量的分布必然为“多项分布”(multinomialdistribution),故一般不必使用稳健标准误,使用普通标准误即可;这一点类似于二值选择模型。

如果数据为聚类样本,则仍应使用聚类稳健的标准误,即Stata选择项vce(clusterclustvar)。

多值模型的系数解释,在多项Logit与混合Logit模型中,对系数的解释依参照方案(basecategory)为转移的(可根据理论或方便来选择参照方案)。

以多项Logit为例,假设“方案1”或“方案j”必然发生(必居其一),则方案j发生的条件概率为,2019-06-19,陈强计量及Stata应用(c)2014,14,IndependenceofIrrelevantAlternatives,此条件概率并不依赖于任何其他方案,而且在形式上与二值选择的Logit模型完全相同。

如果将多值选择模型中的任何两个方案单独挑出来,都是二值logit模型。

此假定称为“无关方案的独立性”(IIA)。

对IIA假定的检验尚不完善。

几率比(oddsratio)为:

2019-06-19,陈强计量及Stata应用(c)2014,15,2019-06-19,陈强计量及Stata应用(c)2014,16,多项选择模型的数据格式,在Stata中,多项选择模型的数据格式依赖于变量类型。

对于所有解释变量都只随个体而变(case-specific)的多项logit或多项probit模型,应使用“宽形格式”(wideform),即同一个体的所有数据均出现在数据表格的同一行。

在条件logit模型与混合logit模型中,由于存在随方案而变(alternative-specific)的解释变量,故应使用“长形格式”(longform),即同一个体的数据出现在数据表格的几行,对应于备选的几个方案(一个方案占一行)。

可通过命令reshape在宽形与长形格式之间转换。

多项Logit与多项Probit的Stata命令,mlogityx1x2x3,rrrbase(#)(多项Logit)其中,选择项“base(#)”用于指定参照组(basecategory);如果不指定,则默认使用观测值最多的方案为参照方案。

选择项“rrr”表示汇报“相对风险比率”(RelativeRiskRatio,简记RRR),即汇报,而非。

mprobityx1x2x3,base(#)(多项Probit),2019-06-19,陈强计量及Stata应用(c)2014,17,2019-06-19,陈强计量及Stata应用(c)2014,18,条件Logit的Stata命令,clogityx1x2x3,group(varname)or必选项“group(varname)”用来指定由归属同一个体的观测值所构成的组(因为数据按长形排列)选择项“or”表示汇报“几率比”(oddsratio)。

命令clogit不能直接处理只随个体而变(case-specific)的解释变量。

2019-06-19,陈强计量及Stata应用(c)2014,19,混合logit的Stata命令,asclogityx1x2x3,case(varname)alternatives(varname)casevars(varname)base(#)or“asclogit”表示“alternative-specificconditionallogit”必选项“case(varname)”指定个体(case),必选项“alternatives(varname)”指定方案(数据按长形排列),选择项“casevars(varname)”表示只随个体而变的解释变量;选择项“base(#)”用来指定参照方案;选择项“or”表示汇报“几率比”(oddsratio)。

2019-06-19,陈强计量及Stata应用(c)2014,20,例:

美国GeneralSocialSurvey的职业选择,以数据集nomocc2.dta为例。

被解释变量:

受访者职业分为五类(occ),即服务人员(menial),蓝领(bluecollar),工匠(craft),白领(whitecollar)及专业人士(professional)。

解释变量:

是否白人(white),受教育年限(ed),工龄(exper)。

这些解释变量都只依赖于个体,而不依赖于方案,故应使用多项logit或多项probit回归。

数据特征,usenomocc2.dta,clearsum,2019-06-19,陈强计量及Stata应用(c)2014,21,数据格式,通过前6个数据来看数据格式。

listin1/6,数据按职业排序,故前6名都从事服务业。

其中,5名为白人,受教育年限从11-14年不等,而工龄从3-44年不等。

由于数据表中每行对应于一名个体,故数据格式为宽形(wideform)。

2019-06-19,陈强计量及Stata应用(c)2014,22,初步考察,通过列表考察受教育年限(ed)与职业(occ)的关系tableocc,contents(Nedmeanedsded)命令“table”将变量的统计特征列表,选择项“contents()”用来指定最多5个统计量,“Nedmeanedsded”表示罗列变量ed的样本容量、均值与标准差(按变量occ分为5个子样本)。

2019-06-19,陈强计量及Stata应用(c)2014,23,2019-06-19,陈强计量及Stata应用(c)2014,24,多项Logit回归,mlogitoccwhiteedexper,nolog结果见下页:

由于没有指定参照方案(baseoutcome),故自动选择观测值最多的方案(即专业人士)为参照方案。

在5%的显著性水平上,给定其他变量,白人(white)更不可能选择服务业或工匠;但对选择蓝领或白领无显著影响受教育程度(ed)越高,越不可能选择除专业人士以外的职业。

工龄越长(exper),越不可能选择服务业或蓝领;工龄对于选择工匠或白领无显著影响。

mlogitoccwhiteedexper,rrr(汇报相对风险),2019-06-19,陈强计量及Stata应用(c)2014,25,2019-06-19,陈强计量及Stata应用(c)2014,26,职业选择的可能性,预测个体选择各种职业的可能性,分别记为occ1,occ2,occ3,occ4,occ5,并显示对前5个观测值的预测结果。

predictocc1occ2occ3occ4occ5listocc1-occ5in1/5,2019-06-19,陈强计量及Stata应用(c)2014,27,2019-06-19,陈强计量及Stata应用(c)2014,28,多项Probit回归,mprobitoccwhiteedexper,nolog多项probit的系数与多项logit的系数不具可比性;具有可比性的是两个模型的预测概率。

为此,计算多项probit模型所预测的各种职业的选择概率,分别记为occ1p,occ2p,occ3p,occ4p,occ5p。

predictocc1pocc2pocc3pocc4pocc5p,2019-06-19,陈强计量及Stata应用(c)2014,29,两模型预测的相关性,corrocc1occ1pcorrocc2occ2pcorrocc3occ3pcorrocc4occ4pcorrocc5occ5p,2019-06-19,陈强计量及Stata应用(c)2014,30,2019-06-19,陈强计量及Stata应用(c)2014,31,多项Logitvs.多项Probit,两个模型所预测的职业选择概率高度一致,相关系数均在99%以上。

这意味着,使用多项logit或多项probit在实际上并无多少区别。

多项probit的计算时间更长,且无法从几率比角度解释系数估计值,故实践中常使用多项logit。

2019-06-19,陈强计量及Stata应用(c)2014,32,例:

旅行方式的选择,以数据集travel2.dta为例,进行条件logit与混合logit估计该数据集包括152组人群(每组可视为一个旅行团),每组人群选择一种旅行方式,即火车,长途大巴,或自驾车。

随方案而变的解释变量包括:

time(总旅行时间),invc(乘车成本,in-vehiclecost)。

不随方案而变的解释变量包括:

hinc(家庭收入,householdincome),psize(旅行团人数,partysize)。

2019-06-19,陈强计量及Stata应用(c)2014,33,数据格式,通过前6个观测值来考察数据格式。

usetravel2.dta,clearlistidmodetrainbustimeinvcchoicehincpsizein1/6,sepby(id)其中,选择项“sepby(id)”表示根据变量id的取值来画表中的横线(默认每隔5个观测值画一条横线)。

数据格式(续),每个旅行团(由变量id指定)对应于3行数据,每行对应于一种旅行方式(mode),故样本容量为456(即1523)。

被解释变量choice为虚拟变量,表示选择哪种方案(比如,第1个旅行团选择自驾车,故car所对应的那一行choice=1,而其他两行choice=0)。

2019-06-19,陈强计量及Stata应用(c)2014,34,2019-06-19,陈强计量及Stata应用(c)2014,35,条件Logit回归,命令clogit只接受随方案而变的解释变量。

故仅使用总旅行时间(单位为分钟)、乘车成本、虚拟变量train以及虚拟变量bus为解释变量(以旅行方式car为参照方案)。

clogitchoicetrainbustimeinvc,group(id)nolog,条件Logit的结果解读,给定其他解释变量(time,invc),则旅行团最有可能选择火车,其次为长途大巴。

一个方案的总旅行时间越长,乘车成本越高,则选择该方案的概率越低。

2019-06-19,陈强计量及Stata应用(c)2014,36,汇报风险比率,clogitchoicetrainbustimeinvc,group(id)nologor,2019-06-19,陈强计量及Stata应用(c)2014,37,2019-06-19,陈强计量及Stata应用(c)2014,38,风险比率的解读,变量time的风险比率为0.98,意味着给定其他变量,一个方案的总旅行时间每增加1分钟,则选择此方案的概率将乘以0.98,即下降2%。

变量invc的风险比率可类似地解释。

虚拟变量bus的风险比率为4.36,意味着,给定旅行时间与成本,则旅行团选择长途大巴的概率是选择自驾车概率的4.36倍;虚拟变量train的风险比率也可类似地解释。

条件Logit的预测,predictproblistidmodeprobchoicetimeinvcin1/3,第1个旅行团实际选择自驾车(Car),而模型预测选择自驾车的概率高达0.925,且正好是旅行时间与成本最低的方案。

2019-06-19,陈强计量及Stata应用(c)2014,39,2019-06-19,陈强计量及Stata应用(c)2014,40,使用命令asclogit估计条件logit模型,asclogitchoicetimeinvc,case(id)alternatives(mode)base(3)nolog使用命令asclogit或clogit,二者的系数估计值与标准误完全相同。

命令asclogit的好处:

可通过选择项“casevars(varname)”将只随个体而变的解释变量也包括在模型中。

下面将“家庭收入”(hinc)包括进来,估计混合logit模型,2019-06-19,陈强计量及Stata应用(c)2014,41,混合logit模型,asclogitchoicetimeinvc,case(id)alternatives(mode)base(3)casevars(hincpsize)nolog结果见下页:

家庭收入(hinc)越高,越不倾向于选择火车;但对选择长途大巴无显著影响。

旅行团规模(psize)无显著影响。

旅行时间(time)与乘车成本(invc)的系数显著为负,与条件logit模型的结果接近。

结果不汇报准R2,但可手工计算。

该模型的对数似然函数为-77.504846。

2019-06-19,陈强计量及Stata应用(c)2014,42,2019-06-19,陈强计量及Stata应用(c)2014,43,只含常数项的模型,asclogitchoice,case(id)alternatives(mode)base(3)nolog结果见下页:

只含常数项模型的对数似然函数为-160.00172。

计算准R2如下:

dis(160.00172-77.504846)/160.0017251559992,2019-06-19,陈强计量及Stata应用(c)2014,44,2019-06-19,陈强计量及Stata应用(c)2014,45,排序数据,有些离散数据有天然排序。

比如,公司债券的评级(AAA,AA,A,B,C级),对春晚的满意度(很满意、满意、不满意、很不满意)。

LiandZhou(2005)研究经济增长绩效对地方官员仕途的影响,0表示卸任,1表示留任或平调,2表示提拔。

这种数据称为“排序数据”(ordereddata)。

如果使用multinomiallogit,将无视数据内在的排序,而OLS又把排序视为基数来处理。

排序模型,假设潜变量:

选择规则为:

为待估参数,称为“切点”(cut),2019-06-19,陈强计量及Stata应用(c)2014,46,排序模型示意图,2019-06-19,陈强计量及Stata应用(c)2014,47,MLE估计量,假设扰动项N(0,1)(方差标准化为1),2019-06-19,陈强计量及Stata应用(c)2014,48,MLE估计量(续),可写出样本似然函数,并得到MLE估计量,即orderedprobit模型。

如果假设扰动项服从逻辑分布,则得到orderedlogit模型,2019-06-19,陈强计量及Stata应用(c)2014,49,2019-06-19,陈强计量及Stata应用(c)2014,50,排序模型的Stata命令,oprobityx1x2x3(orderedprobit模型)ologityx1x2x3(orderedlogit模型),2019-06-19,陈强计量及Stata应用(c)2014,51,例:

公司债券评级,以数据集“panel84extract.dta”为例,估计决定公司债券评级的排序数据模型。

被解释变量为rating83c(1983年公司债券评级,取值2-5,其中5为最优评级)解释变量为ia83(1983年income-to-asset比率),dia(ia83减去ia82)。

OrderedProbit回归,usepanel84extract.dta,clearoprobitrating83cia83dia,nolog,cut1,cut2,cut3为切点。

准R2仅0.04,但两个变量较显著。

2019-06-19,陈强计量及Stata应用(c)2014,52,预测,预测每个公司的评级概率,并列出第1个观测值的预测结果:

predictp2p3p4p5listp2p3p4p5in1/1,2019-06-19,陈强计量及Stata应用(c)2014,53,OrderedLogit回归,ologitrating83cia83dia,nolog,2019-06-19,陈强计量及Stata应用(c)2014,54,预测,predictr2r3r4r5listr2r3r4r5in1/1,虽然orderedprobit与orderedlogit的系数与切点估计有所不同,但预测概率很接近。

2019-06-19,陈强计量及Stata应用(c)2014,55,2019-06-19,陈强计量及Stata应用(c)2014,56,计数数据,有些被解释变量只能取非负整数,即0,1,2,,称为“计数数据”(countdata)。

比如,专利个数、奥运金牌个数、子女人数、看病次数、战争次数。

对于计数数据,常使用“泊松回归”(Poissonregression)或“负二项回归”(negativebinomialregression)。

泊松回归,对于个体i,记被解释变量为Yi,假设Yi=yi的概率由参数为的泊松分布决定:

为“泊松到达率”(Poissonarrivalrate),表示事件发生的平均次数,由解释变量xi所决定。

泊松分布的期望与方差都等于泊松到达率。

2019-06-19,陈强计量及Stata应用(c)2014,57,MLE估计,假设Yi的“条件期望函数”(conditionalmeanfunction)为,假定样本iid,则样本的似然函数为,2019-06-19,陈强计量及Stata应用(c)2014,58,2019-06-19,陈强计量及Stata应用(c)2014,59,QMLE估计,如果似然函数正确,则MLE为一致估计量。

事实上,即使似然函数不正确,只要条件期望函数正确,则准最大似然估计(QMLE)依然一致。

如果似然函数不正确,则常规的标准误不一致。

应使用基于QMLE的稳健标准误,对于似然函数是否正确比较稳健。

此模型本来就允许异方差,故也是异方差稳健的。

系数的经济含义,泊松回归的系数并不表示边际效应。

由于,故。

可将解释为“半弹性”(semi-elasticity),即当解释变量增加微小量时,事件的平均发生次数将增加多少百分点。

由于泊松到达率,也可计算,,,称为“发生率比”(IncidenceRateRatio,简记IRR),表示当增加+1时,事件的平均发生次数将是原来的多少倍。

2019-06-19,陈强计量及Stata应用(c)2014,60,2019-06-19,陈强计量及Stata应用(c)2014,61,泊松回归的Stata命令,poissonyx1x2x3,rirr选择项“r”表示使用稳健标准误选择项“irr”表示显示发生率比,2019-06-19,陈强计量及Stata应用(c)2014,62,泊松回归的缺点,泊松回归的局限是泊松分布的期望与方差一定相等,称为“均等分散”(equidispersion);此特征常与实际数据不符。

如果被解释变量的方差明显大于期望,即存在“过度分散”(overdispersion),应使用负二项回归。

负二项分布,假设某事件在一次实验中成功的概率为。

记Y为在第J次成功前失败的总次数,则离散随机变量Y的分布律为:

由于第y+J次一定为成功,故只要在前面的y+J-1次中找出成功的J-1次的组合次数即可。

J=1,称为“几何分布”(geometricdistribution),2019-06-19,陈强计量及Stata应用(c)2014,63,负二项回归,负二项回归的条件期望仍为,而条件方差为,(NB1模型),则退化为泊松回归。

其中,。

如果,其中,。

如果,(NB2模型),则退化为泊松回归。

2019-06-19,陈强计量及Stata应用(c)2014,64,2019-06-19,陈强计量及Stata应

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 自然科学 > 物理

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2