第五讲多值、排序与计数模型高级计量经济学及Stata应用课件.pptx

资源描述

第五讲多值、排序与计数模型高级计量经济学及Stata应用课件.pptx

《第五讲多值、排序与计数模型高级计量经济学及Stata应用课件.pptx》由会员分享，可在线阅读，更多相关《第五讲多值、排序与计数模型高级计量经济学及Stata应用课件.pptx（84页珍藏版）》请在冰点文库上搜索。

第五讲多值、排序与计数模型高级计量经济学及Stata应用课件.pptx

高级计量经济学及Stata应用第五讲多值、排序与计数模型,陈强山东大学经济学院,多值选择模型,个体面临的多值选择：

交通工具；职业；手机消费品牌。

假设可供个体选择的方案为，J为正整数，即共有J种互相排斥的选择。

如果J=2，则为二值选择模型。

2019-06-19,陈强计量及Stata应用（c）2014,2,随机效用法,假设个体i选择方案j的随机效用为,解释变量xi只随个体i而变，不随方案j而变。

比如，个体的性别、年龄、收入等特征。

这种解释变量称为“只随个体而变”（case-specific）或“不随方案而变”（alternative-invariant）。

系数表明，xi对随机效用Uij的作用取决于方案j。

2019-06-19,陈强计量及Stata应用（c）2014,3,随机效用法（续）,个体i选择方案j，当且仅当方案j的效用高于所有其他方案，故个体i选择方案j的概率可写为,假设为iid且服从I型极值分布（typeIextremevaluedistribution），可证明：

2019-06-19,陈强计量及Stata应用（c）2014,4,随机效用法（续2）,选择各项方案的概率之和为1。

这是二值选择Logit模型向多值选择模型的推广。

但无法同时识别所有系数。

如果将变为，不影响模型的拟合。

常将某方案（比如方案1）作为“参照方案”（basecategory），令其系数为0。

2019-06-19,陈强计量及Stata应用（c）2014,5,多项logit,个体i选择方案j的概率为,此模型为“多项logit”（multinomiallogit），可用MLE进行估计。

2019-06-19,陈强计量及Stata应用（c）2014,6,多项Probit,如果假设服从J维正态分布，可得“多项probit”（multinomialprobit）模型但多项Probit的计算涉及高维积分，不易计算，较少使用。

2019-06-19,陈强计量及Stata应用（c）2014,7,2019-06-19,陈强计量及Stata应用（c）2014,8,随方案而变的解释变量,多项Logit仅考虑不随方案而变的解释变量（比如，个体收入），但有些解释变量既随个体，也随方案而变。

比如，在选择交通工具时，乘车时间既因个体而异，也因交通工具而异。

这种解释变量称为“随方案而变”（alternative-specific），既包括同时随方案与个体而变的变量，也包括随方案而变但不随个体而变的变量。

条件Logit,个体i选择方案j的随机效用为,解释变量xij，既随个体i而变，也随方案j而变。

系数表明，xij对随机效用Uij的作用不依赖于方案j。

比如，乘车时间依个体与方案而变，但乘车时间太长所带来的负效用是一致的。

2019-06-19,陈强计量及Stata应用（c）2014,9,条件Logit（续）,根据与多项Logit类似的推导，,此模型称为“条件logit”（conditionallogit）（McFadden,1974）。

在条件Logit模型中，系数不依赖于方案，故无需选择参照方案。

2019-06-19,陈强计量及Stata应用（c）2014,10,混合Logit,前面分别考虑了解释变量不随方案而变的“多项Logit”，以及解释变量随方案而变的“条件Logit”。

考虑这两种情况同时发生的混合情形。

个体i选择方案j的随机效用为,个体i选择方案j的概率为,2019-06-19,陈强计量及Stata应用（c）2014,11,混合Logit（续）,此模型在文献中称为“混合Logit”（mixedlogit），但Stata仍称为“条件Logit”。

为了识别该模型，也需要选择一个参照方案（比如方案1），然后令。

2019-06-19,陈强计量及Stata应用（c）2014,12,2019-06-19,陈强计量及Stata应用（c）2014,13,标准误,在多值选择模型中，由于被解释变量的分布必然为“多项分布”（multinomialdistribution），故一般不必使用稳健标准误，使用普通标准误即可；这一点类似于二值选择模型。

如果数据为聚类样本，则仍应使用聚类稳健的标准误，即Stata选择项vce（clusterclustvar）。

多值模型的系数解释,在多项Logit与混合Logit模型中，对系数的解释依参照方案（basecategory）为转移的（可根据理论或方便来选择参照方案）。

以多项Logit为例，假设“方案1”或“方案j”必然发生（必居其一），则方案j发生的条件概率为,2019-06-19,陈强计量及Stata应用（c）2014,14,IndependenceofIrrelevantAlternatives,此条件概率并不依赖于任何其他方案，而且在形式上与二值选择的Logit模型完全相同。

如果将多值选择模型中的任何两个方案单独挑出来，都是二值logit模型。

此假定称为“无关方案的独立性”（IIA）。

对IIA假定的检验尚不完善。

几率比（oddsratio）为：

2019-06-19,陈强计量及Stata应用（c）2014,15,2019-06-19,陈强计量及Stata应用（c）2014,16,多项选择模型的数据格式,在Stata中，多项选择模型的数据格式依赖于变量类型。

对于所有解释变量都只随个体而变（case-specific）的多项logit或多项probit模型，应使用“宽形格式”（wideform），即同一个体的所有数据均出现在数据表格的同一行。

在条件logit模型与混合logit模型中，由于存在随方案而变（alternative-specific）的解释变量，故应使用“长形格式”（longform），即同一个体的数据出现在数据表格的几行，对应于备选的几个方案（一个方案占一行）。

可通过命令reshape在宽形与长形格式之间转换。

多项Logit与多项Probit的Stata命令,mlogityx1x2x3,rrrbase（#）（多项Logit）其中，选择项“base（#）”用于指定参照组（basecategory）；如果不指定，则默认使用观测值最多的方案为参照方案。

选择项“rrr”表示汇报“相对风险比率”（RelativeRiskRatio，简记RRR），即汇报，而非。

mprobityx1x2x3,base（#）（多项Probit）,2019-06-19,陈强计量及Stata应用（c）2014,17,2019-06-19,陈强计量及Stata应用（c）2014,18,条件Logit的Stata命令,clogityx1x2x3,group（varname）or必选项“group（varname）”用来指定由归属同一个体的观测值所构成的组（因为数据按长形排列）选择项“or”表示汇报“几率比”（oddsratio）。

命令clogit不能直接处理只随个体而变（case-specific）的解释变量。

2019-06-19,陈强计量及Stata应用（c）2014,19,混合logit的Stata命令,asclogityx1x2x3,case（varname）alternatives（varname）casevars（varname）base（#）or“asclogit”表示“alternative-specificconditionallogit”必选项“case（varname）”指定个体（case），必选项“alternatives（varname）”指定方案（数据按长形排列），选择项“casevars（varname）”表示只随个体而变的解释变量；选择项“base（#）”用来指定参照方案；选择项“or”表示汇报“几率比”（oddsratio）。

2019-06-19,陈强计量及Stata应用（c）2014,20,例：

美国GeneralSocialSurvey的职业选择,以数据集nomocc2.dta为例。

被解释变量：

受访者职业分为五类（occ），即服务人员（menial），蓝领（bluecollar），工匠（craft），白领（whitecollar）及专业人士（professional）。

解释变量：

是否白人（white），受教育年限（ed），工龄（exper）。

这些解释变量都只依赖于个体，而不依赖于方案，故应使用多项logit或多项probit回归。

数据特征,usenomocc2.dta,clearsum,2019-06-19,陈强计量及Stata应用（c）2014,21,数据格式,通过前6个数据来看数据格式。

listin1/6,数据按职业排序，故前6名都从事服务业。

其中，5名为白人，受教育年限从11-14年不等，而工龄从3-44年不等。

由于数据表中每行对应于一名个体，故数据格式为宽形（wideform）。

2019-06-19,陈强计量及Stata应用（c）2014,22,初步考察,通过列表考察受教育年限（ed）与职业（occ）的关系tableocc,contents（Nedmeanedsded）命令“table”将变量的统计特征列表，选择项“contents（）”用来指定最多5个统计量，“Nedmeanedsded”表示罗列变量ed的样本容量、均值与标准差（按变量occ分为5个子样本）。

2019-06-19,陈强计量及Stata应用（c）2014,23,2019-06-19,陈强计量及Stata应用（c）2014,24,多项Logit回归,mlogitoccwhiteedexper,nolog结果见下页：

由于没有指定参照方案（baseoutcome），故自动选择观测值最多的方案（即专业人士）为参照方案。

在5%的显著性水平上，给定其他变量，白人（white）更不可能选择服务业或工匠；但对选择蓝领或白领无显著影响受教育程度（ed）越高，越不可能选择除专业人士以外的职业。

工龄越长（exper），越不可能选择服务业或蓝领；工龄对于选择工匠或白领无显著影响。

mlogitoccwhiteedexper,rrr（汇报相对风险）,2019-06-19,陈强计量及Stata应用（c）2014,25,2019-06-19,陈强计量及Stata应用（c）2014,26,职业选择的可能性,预测个体选择各种职业的可能性，分别记为occ1,occ2,occ3,occ4,occ5，并显示对前5个观测值的预测结果。

predictocc1occ2occ3occ4occ5listocc1-occ5in1/5,2019-06-19,陈强计量及Stata应用（c）2014,27,2019-06-19,陈强计量及Stata应用（c）2014,28,多项Probit回归,mprobitoccwhiteedexper,nolog多项probit的系数与多项logit的系数不具可比性；具有可比性的是两个模型的预测概率。

为此，计算多项probit模型所预测的各种职业的选择概率，分别记为occ1p,occ2p,occ3p,occ4p,occ5p。

predictocc1pocc2pocc3pocc4pocc5p,2019-06-19,陈强计量及Stata应用（c）2014,29,两模型预测的相关性,corrocc1occ1pcorrocc2occ2pcorrocc3occ3pcorrocc4occ4pcorrocc5occ5p,2019-06-19,陈强计量及Stata应用（c）2014,30,2019-06-19,陈强计量及Stata应用（c）2014,31,多项Logitvs.多项Probit,两个模型所预测的职业选择概率高度一致，相关系数均在99%以上。

这意味着，使用多项logit或多项probit在实际上并无多少区别。

多项probit的计算时间更长，且无法从几率比角度解释系数估计值，故实践中常使用多项logit。

2019-06-19,陈强计量及Stata应用（c）2014,32,例：

旅行方式的选择,以数据集travel2.dta为例，进行条件logit与混合logit估计该数据集包括152组人群（每组可视为一个旅行团），每组人群选择一种旅行方式，即火车，长途大巴，或自驾车。

随方案而变的解释变量包括：

time（总旅行时间），invc（乘车成本，in-vehiclecost）。

不随方案而变的解释变量包括：

hinc（家庭收入，householdincome），psize（旅行团人数，partysize）。

2019-06-19,陈强计量及Stata应用（c）2014,33,数据格式,通过前6个观测值来考察数据格式。

usetravel2.dta,clearlistidmodetrainbustimeinvcchoicehincpsizein1/6,sepby（id）其中，选择项“sepby（id）”表示根据变量id的取值来画表中的横线（默认每隔5个观测值画一条横线）。

数据格式（续）,每个旅行团（由变量id指定）对应于3行数据，每行对应于一种旅行方式（mode），故样本容量为456（即1523）。

被解释变量choice为虚拟变量，表示选择哪种方案（比如，第1个旅行团选择自驾车，故car所对应的那一行choice=1，而其他两行choice=0）。

2019-06-19,陈强计量及Stata应用（c）2014,34,2019-06-19,陈强计量及Stata应用（c）2014,35,条件Logit回归,命令clogit只接受随方案而变的解释变量。

故仅使用总旅行时间（单位为分钟）、乘车成本、虚拟变量train以及虚拟变量bus为解释变量（以旅行方式car为参照方案）。

clogitchoicetrainbustimeinvc,group（id）nolog,条件Logit的结果解读,给定其他解释变量（time,invc），则旅行团最有可能选择火车，其次为长途大巴。

一个方案的总旅行时间越长，乘车成本越高，则选择该方案的概率越低。

2019-06-19,陈强计量及Stata应用（c）2014,36,汇报风险比率,clogitchoicetrainbustimeinvc,group（id）nologor,2019-06-19,陈强计量及Stata应用（c）2014,37,2019-06-19,陈强计量及Stata应用（c）2014,38,风险比率的解读,变量time的风险比率为0.98，意味着给定其他变量，一个方案的总旅行时间每增加1分钟，则选择此方案的概率将乘以0.98，即下降2%。

变量invc的风险比率可类似地解释。

虚拟变量bus的风险比率为4.36，意味着，给定旅行时间与成本，则旅行团选择长途大巴的概率是选择自驾车概率的4.36倍；虚拟变量train的风险比率也可类似地解释。

条件Logit的预测,predictproblistidmodeprobchoicetimeinvcin1/3,第1个旅行团实际选择自驾车（Car），而模型预测选择自驾车的概率高达0.925，且正好是旅行时间与成本最低的方案。

2019-06-19,陈强计量及Stata应用（c）2014,39,2019-06-19,陈强计量及Stata应用（c）2014,40,使用命令asclogit估计条件logit模型,asclogitchoicetimeinvc,case（id）alternatives（mode）base（3）nolog使用命令asclogit或clogit，二者的系数估计值与标准误完全相同。

命令asclogit的好处：

可通过选择项“casevars（varname）”将只随个体而变的解释变量也包括在模型中。

下面将“家庭收入”（hinc）包括进来，估计混合logit模型,2019-06-19,陈强计量及Stata应用（c）2014,41,混合logit模型,asclogitchoicetimeinvc,case（id）alternatives（mode）base（3）casevars（hincpsize）nolog结果见下页：

家庭收入（hinc）越高，越不倾向于选择火车；但对选择长途大巴无显著影响。

旅行团规模（psize）无显著影响。

旅行时间（time）与乘车成本（invc）的系数显著为负，与条件logit模型的结果接近。

结果不汇报准R2，但可手工计算。

该模型的对数似然函数为-77.504846。

2019-06-19,陈强计量及Stata应用（c）2014,42,2019-06-19,陈强计量及Stata应用（c）2014,43,只含常数项的模型,asclogitchoice,case（id）alternatives（mode）base（3）nolog结果见下页：

只含常数项模型的对数似然函数为-160.00172。

计算准R2如下：

dis（160.00172-77.504846）/160.0017251559992,2019-06-19,陈强计量及Stata应用（c）2014,44,2019-06-19,陈强计量及Stata应用（c）2014,45,排序数据,有些离散数据有天然排序。

比如，公司债券的评级（AAA,AA,A,B,C级），对春晚的满意度（很满意、满意、不满意、很不满意）。

LiandZhou（2005）研究经济增长绩效对地方官员仕途的影响，0表示卸任，1表示留任或平调，2表示提拔。

这种数据称为“排序数据”（ordereddata）。

如果使用multinomiallogit，将无视数据内在的排序，而OLS又把排序视为基数来处理。

排序模型,假设潜变量：

选择规则为：

为待估参数，称为“切点”（cut）,2019-06-19,陈强计量及Stata应用（c）2014,46,排序模型示意图,2019-06-19,陈强计量及Stata应用（c）2014,47,MLE估计量,假设扰动项N（0,1）（方差标准化为1）,2019-06-19,陈强计量及Stata应用（c）2014,48,MLE估计量（续）,可写出样本似然函数，并得到MLE估计量，即orderedprobit模型。

如果假设扰动项服从逻辑分布，则得到orderedlogit模型,2019-06-19,陈强计量及Stata应用（c）2014,49,2019-06-19,陈强计量及Stata应用（c）2014,50,排序模型的Stata命令,oprobityx1x2x3（orderedprobit模型）ologityx1x2x3（orderedlogit模型）,2019-06-19,陈强计量及Stata应用（c）2014,51,例：

公司债券评级,以数据集“panel84extract.dta”为例，估计决定公司债券评级的排序数据模型。

被解释变量为rating83c（1983年公司债券评级，取值2-5，其中5为最优评级）解释变量为ia83（1983年income-to-asset比率），dia（ia83减去ia82）。

OrderedProbit回归,usepanel84extract.dta,clearoprobitrating83cia83dia,nolog,cut1,cut2,cut3为切点。

准R2仅0.04，但两个变量较显著。

2019-06-19,陈强计量及Stata应用（c）2014,52,预测,预测每个公司的评级概率，并列出第1个观测值的预测结果：

predictp2p3p4p5listp2p3p4p5in1/1,2019-06-19,陈强计量及Stata应用（c）2014,53,OrderedLogit回归,ologitrating83cia83dia,nolog,2019-06-19,陈强计量及Stata应用（c）2014,54,预测,predictr2r3r4r5listr2r3r4r5in1/1,虽然orderedprobit与orderedlogit的系数与切点估计有所不同，但预测概率很接近。

2019-06-19,陈强计量及Stata应用（c）2014,55,2019-06-19,陈强计量及Stata应用（c）2014,56,计数数据,有些被解释变量只能取非负整数，即0,1,2,，称为“计数数据”（countdata）。

比如，专利个数、奥运金牌个数、子女人数、看病次数、战争次数。

对于计数数据，常使用“泊松回归”（Poissonregression）或“负二项回归”（negativebinomialregression）。

泊松回归,对于个体i，记被解释变量为Yi，假设Yi=yi的概率由参数为的泊松分布决定：

为“泊松到达率”（Poissonarrivalrate），表示事件发生的平均次数，由解释变量xi所决定。

泊松分布的期望与方差都等于泊松到达率。

2019-06-19,陈强计量及Stata应用（c）2014,57,MLE估计,假设Yi的“条件期望函数”（conditionalmeanfunction）为,假定样本iid，则样本的似然函数为,2019-06-19,陈强计量及Stata应用（c）2014,58,2019-06-19,陈强计量及Stata应用（c）2014,59,QMLE估计,如果似然函数正确，则MLE为一致估计量。

事实上，即使似然函数不正确，只要条件期望函数正确，则准最大似然估计（QMLE）依然一致。

如果似然函数不正确，则常规的标准误不一致。

应使用基于QMLE的稳健标准误，对于似然函数是否正确比较稳健。

此模型本来就允许异方差，故也是异方差稳健的。

系数的经济含义,泊松回归的系数并不表示边际效应。

由于，故。

可将解释为“半弹性”（semi-elasticity），即当解释变量增加微小量时，事件的平均发生次数将增加多少百分点。

由于泊松到达率，也可计算,，,称为“发生率比”（IncidenceRateRatio，简记IRR），表示当增加+1时，事件的平均发生次数将是原来的多少倍。

2019-06-19,陈强计量及Stata应用（c）2014,60,2019-06-19,陈强计量及Stata应用（c）2014,61,泊松回归的Stata命令,poissonyx1x2x3,rirr选择项“r”表示使用稳健标准误选择项“irr”表示显示发生率比,2019-06-19,陈强计量及Stata应用（c）2014,62,泊松回归的缺点,泊松回归的局限是泊松分布的期望与方差一定相等，称为“均等分散”（equidispersion）；此特征常与实际数据不符。

如果被解释变量的方差明显大于期望，即存在“过度分散”（overdispersion），应使用负二项回归。

负二项分布,假设某事件在一次实验中成功的概率为。

记Y为在第J次成功前失败的总次数，则离散随机变量Y的分布律为：

由于第y+J次一定为成功，故只要在前面的y+J-1次中找出成功的J-1次的组合次数即可。

J=1，称为“几何分布”（geometricdistribution）,2019-06-19,陈强计量及Stata应用（c）2014,63,负二项回归,负二项回归的条件期望仍为，而条件方差为,（NB1模型），则退化为泊松回归。

其中，。

如果,其中，。

如果,（NB2模型），则退化为泊松回归。

2019-06-19,陈强计量及Stata应用（c）2014,64,2019-06-19,陈强计量及Stata应

展开阅读全文

第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx

第五讲多值、排序与计数模型高级计量经济学及Stata应用课件.pptx