离散选择模型举例122.docx

资源描述

离散选择模型举例122.docx

《离散选择模型举例122.docx》由会员分享，可在线阅读，更多相关《离散选择模型举例122.docx（17页珍藏版）》请在冰点文库上搜索。

离散选择模型举例122.docx

离散选择模型举例122

一．二元离散选择模型

1．二元响应模型（Binaryresponsemodel）我们往往关心响应概率

y1xyxG01x1...kxkGz，

其中x表示各种影响因素（各种解释变量，包括虚拟变量）。

根据不同的函数形式可以分为下面三类模型：

线性概率模型（Linearprobabilitymodel，LPM）、对数单位模型（logit）、概率单位模型（probit）：

三种模型估计的系数大约有以下的关系：

2．偏效应

（1）如果解释变量是一个连续型变量，那么他对p（x）=p（y=1|x）的偏效应可

以通过求下面的偏导数得出来：

pxg0xj,gzdGz，偏效应的符

xjdz

号和该解释变量对应的系数的符号一致；两个解释变量偏效应之比等于它们各自的估计系数之比。

（2）如果解释变量是一个离散性变量，则xk从ck变化到ck+1时对概率的

影响大小为：

wald检验、似然

上面的其他解释变量的取值往往取其平均值。

3．估计方法与约束检验极大似然估计；三种常见的大样本检验：

拉格朗日乘数检验、比检验。

4．Stata程序语法（以Probit为例）

probitdepvar[indepvars][weight][ifexp][inrange][,level（#）nocoefnoconstantrobustcluster（varname）score（newvar）asisoffset（varname）maximize_options]predict[type]newvarname[ifexp][inrange][,statisticrulesasifnooffset]wherestatisticis

ppredictedprobabilityofapositiveoutcome;thedefault

xblinearprediction

stdpstandarderroroftheprediction

．具体的例子

1．数据：

美国1988年的CPS数据2．模型：

估计成为工会成员的可能性，模型形式如下：

参加工会的概率=F（潜在经验potexp、经验的平方项potexp2、受教育年限grade、婚否married、工会化程度high）；

解释变量：

Potexp=年龄-受教育年限-5；grade=完成的受教育年限；

married：

1表示婚，0未婚；high：

1表示高度工会化的行业，否则为0。

3．估计的结果3.1probitunionpotexppotexp2grademarriedhigh

union

Coef.

Std.Err.

P>z

[95%Conf.

Interval]

potexp

.0835091

.0156087

5.35

0.000

.0529166

.1141016

potexp2

-.0015308

.0003179

-4.82

0.000

-.0021538

-.0009078

grade

-.042078

.0189089

-2.23

0.026

-.0791388

-.0050171

married

.0622516

.1125836

0.55

0.580

-.1584083

.2829115

high

.5612953

.099662

5.63

0.000

.3659613

.7566292

cons

-1.468412

.2958112

-4.96

0.000

-2.048192

-.8886332

3.2

dprobitunionpotexppotexp2grademarriedhigh

给出了g

0x?

，如果要求偏效应还需要对其乘以估计的系数

beta；

union

dF/dx

Std.Err.

P>z

x-bar[

95%C.I.]

potexp

.0226964

.0041529

5.35

0.000

18.884

.014557.030836

potexp2

-.000416

.000085

-4.82

0.000

519.882-

.000583-.00025

grade

-.0114361

.0051379

-2.23

0.026

13.014-

.021506-.001366

married*

.0167881

.0301137

0.55

0.580

.641-.042234.07581

high*

.1470987

.0247005

5.63

0.000

.568.098687.195511

obs.P

.216

pred.P

.1904762

（atx-bar）

（*）dF/dxisfordiscretechangeofdummyvariablefrom0to1，对离散变量。

此外，如果想针对某些解释变量的特定取值进行计算，可以用下面的语句：

matrixmyx=（8，64，10，1，1）

dprobit，at（myx）

union

dF/dx

Std.Err.

P>z

[95%

C.I.]

potexp

.0261573

.0044308

5.35

0.000

.017473

.034841

potexp2

-.0004795

.0000978

-4.82

0.000

-.000671

-.000288

grade

-.0131799

.0065759

-2.23

0.026

-.026068

-.000291

married*

.0190706

.0345837

0.55

0.580

-.048712

.086853

high*

.1389514

.0266033

5.63

0.000

.08681

.191093

obs.P.216

pred.P.1904762（atx-bar）

pred.P.2433575（atx）

3.3logit

（1）logisticunionpotexppotexp2grademarriedhigh,coef（给出回归系数）

等价于logitunionpotexppotexp2grademarriedhigh

union

Coef.

Std.Err.

P>z

[95%Conf.

Interval]

potexp

.1474021

.028097

5.25

0.000

.0923329

.2024712

potexp2

-.0026869

.0005654

-4.75

0.000

-.0037951

-.0015787

grade

-.0703209

.032142

-2.19

0.029

-.1333181

-.0073236

married

.115463

.196779

0.59

0.557

-.2702167

.5011427

high

.9801411

.180049

5.44

0.000

.6272515

1.333031

cons

-2.581436

.5186859

-4.98

0.000

-3.598041

-1.56483

2）给出发生比率（oddsratio）

logisticunionpotexppotexp2grademarriedhigh

等价于logitunionpotexppotexp2grademarriedhigh,or

union

Odds

Ratio

Std.Err.

P>z

[95%Conf.

Interval]

potexp

1.15882

.0325594

5.25

0.000

1.09673

1.224425

potexp2

.9973167

.0005639

-4.75

0.000

.9962121

.9984225

grade

.9320947

.0299594

-2.19

0.029

.8751866

.9927031

married

1.122393

.2208633

0.59

0.557

.7632141

1.650606

high

2.664832

.4798005

5.44

0.000

1.872457

3.79252

如果存在异方差，可采用稳健估计，在上面命令后面加上robust

其他命令：

1．有序模型

ologit，oprobit

2．多重选择模型

mlogit,rrr给出发生比率；多重probit模型设计复杂计算，目前尚无对应的命令。

3．工具变量

如果在probit模型中有内生变量，就要采用工具变量方法予以克服，ivprob命令给出了结果。

4．面板数据的离散选择模型

xtlogit,xtprobit，xttobit

sas相关过程：

logistic，logit,probit;多重logit模型：

proccatmod三．托宾模型（Tobit）和赫克曼修正模型（Heckit）

一.tobit模型（censoredmodel截取回归模型）

实际上tobit模型是probit模型的推广，（tobit意即Tobin的probit）；在严格为正值的时候大致连续，但是有相当部分取值为0。

模型：

y*0xu,u|x0,2,ymax0,y*

隐变量y*满足经典的线性假定，服从具有线性条件均值的正态同方差分布。

由于y*正态分布，所以y在严格正值上连续分布

2．估计和检验

极大似然估计，检验同上面的三种检验

3．偏效应

我们估计出的系数

y|x，是隐变量（效用）的偏效应，而我们关xj

心的是对y（工作时间）的偏效应

yxpy0xyy0,xp（y0|x）?

c,ifz0,1

0,x

uxx

称为逆米尔斯比率

millsratio）可能导致估计结果的非一致性。

从上面推导可以得出：

yxxxx

因此，当y服从一个tobit模型时，难以直接得出偏效应

（1）如果xj是一个连续变量，可以通过微分求出偏效应：

过代入,的估计值，而且必须带入解释变量的有意义的值，一般用均值。

yxpy0xxjxj

py0xx

偏效应py0x

xjj

xyxjx

Tobit模型估计的结果并不能直接给出偏效应，但是估计系数的符号和偏效应的符号是一致的，而且统计显著性也一致。

如果要求具体的偏效应大小，需要将估计的参数值和解释变量的相应取值代入进行计算而得。

Stata程序语法

tobitdepvar[indepvar][weight][ifexp][inrange],l1（#）u1（#）[level（#）offset（varname）maximize_options]

predict[type]newvarname[ifexp][inrange][,statisticsnooffset]

l1表示左截断，那些小于l1的y值被截断；那些大于u1的y值被右截断。

Tobit命令默认为他们分别为因变量的最小和最大值。

其中statistics:

xb拟合值

pr（a,b）Pr（a

e（a,b）E（yj|a

ystar（a,b）y*j,y*jmax（a,min（yj,b）），其中y*ja如果xjbuja;y*jb,

如果xjbujb;否则y*jxjbuj。

stdpstandarderroroftheprediction

stdfstandarderroroftheforecast

其他相关命令

cnreg，intreg

举例：

wooldridge（p524）已婚妇女的年度劳动供给

数据：

753个已婚妇女的工作小时数据，其中有428个妇女当年在家庭以外工作挣工资，另外325个妇女的工作小时为0。

对于那些工作的妇女，工作小时范围介于12小时到4950小时。

因此，年工作小时数适合于Tobit模型。

解释变量：

kidslt6（年龄小于6岁的幼年子女数），kidsge6（介于6到18岁的子女数），nwifeinc（家庭的非工资收入），exper（实际工作经验），expersq（工作经验的平方项），educ（受教育年限）。

估计结果

hours

Coef.

Std.t

Err.t

P>t

[95%Conf.

Interval]

nwifeinc

-8.81555

4.470889

-1.97

0.049

-17.59257

-0.0385257

educ

80.70853

21.64041

3.73

38.22519

123.1919

exper

131.931

17.33008

7.61

97.90948

165.9525

expersq

-1.8707

0.53915

-3.47

0.001

-2.929127

-0.8122632

age

-54.5721

7.440187

-7.33

-69.17827

-39.96588

kidslt6

-896.038

112.1955

-7.99

-1116.294

-675.7811

kidsge6

-16.03

38.74414

-0.41

0.679

-92.0905

60.03055

_cons

968.154

447.6282

2.16

0.031

89.39315

1846.915

_se|1124.91441.77934

（Ancillaryparameter）

Obs.summary:

325left-censoredobservationsathours<=0

427uncensoredobservations

1right-censoredobservationathours>=4950Obs.summary:

325left-censoredobservationsathours<=0

427uncensoredobservations

1right-censoredobservationathours>=4950

其他回归模型

1．泊松回归模型poisson（又称为计数回归，countregression）主要针对的因变量是计数变量，可以取非负整数值0，1，2，⋯,例如某人在某年被捕的次数、一个企业在某年申请的专利个数、妇女生育子女人数等等。

对这些变量采用普通的线性模型往往不能给出很好的拟合。

模型：

YX1,X2,...Xkexp01X1...kXkexp（X）0，取对数后是线性的；以X为条件，Y=h的概率是：

pYhXexpexpXexpXh/h!

h0,1.2，利用极大似然估计估

计出参数值，然后带入上式就可以求出每一个条件概率值，无论泊松分布假定成立与否，仍然可以得到参数的一致和渐进正态的估计量。

Stata中的语句是：

Poisson；

2．截取正态回归模型（censoredNormalregressionmode）l

模型：

yi0xiui,ui|xi,ci0,2,imin（yi,ci），不观测yi，

只有在yi小于ci时才观测到它，上式还包括了ui独立于ci的假定

右端截取或从上截取的一个例子是顶端编码（topcoding）。

当一个变量超过顶端编码时，我们只知道他达到了某个临界值，对高于这个临界值的回答，我们只知道他和临界值至少一样大。

例如调查家庭财富时，我们可以观测到那些财富不足50万美元的受访者的实际财富，但不能观测到那些财富高于50万美元的受访者的实际财富。

此时，截取值ci对所有个体i都一样。

Stata程序：

cnreg

3．持续期模型（durationmodel）持续期间是一个度量某事件发生之前持续时间的度量。

例如一个下岗工人再度失业前的失业时间；一个从监狱释放的罪犯下次被捕前持续的天数。

Stata程序streg。

4．断尾回归（truncatedregression）与截取模型类似，有一点不同：

断尾模型中，不能观测到总体某一段的所有信息包括解释变量和被解释变量；截取模型只是观测不到被解释变量。

Stata程序：

trunreg

附录：

sas过程

（1）截取模型包括tobit模型：

proclifereg；

（2）持续期间模型：

cox比例风险模型；procphreg

5．开关模型（switchmodel）上面分析的选择模型有这样的特点：

有关的观测之要么观测得到，要么观测不到。

这里兼具可观测两种的情形，在这种条件下的选择模型称为开关模型（switchmodel）。

表示两种体制

仍然利用极大似然估计方法估计（分两种情况：

一种d已知；另一种d未知。

）二．赫克曼两步修正模型理性的经济人往往从效用极大化出发而做出有意识的决策，比如选择不同的教育水平、接受培训、参加工作、移民、进入不同所有制的企业等等。

由于研究所用的样本中只包括这些已经做出了决策的个体而不包括那些没有作出这些选择的个体，因此样本就不是随机的，基于这样的样本作出的任何结论只能代表这部分作出相应决策的个体行为，而不是整个总体的行为，这就是样本的选择性误差（Sampleselectionbias）（Heckman,1979）。

模型在总体回归方程中加入行为选择方程（selectionequation）：

yxu,ux0

，其中u0,,v0,1,corru,v,0直接采

s1zv0

用回归方程估计是有偏的；而heckman模型提供了一致和渐进有效的估计。

如果观测到y，则s=1，否则s=0；样本选择校正步骤：

（1）利用所有的观测值，估计一个si对zi的probit模型，并得到估计值?

，并计算逆米尔斯比率?

izi?

。

从lamda的显著性可以判断样本选

择性偏误的严重程度。

（2）利用选择样本，即si=1的观测，作如下的回归

Yi对xi，?

i，则得到的参数估计?

i是一致的，并近似服从正态分布。

注意：

x应该是z的一个严格子集。

Stata程序：

heckman

语法：

（1）基本语法

heckmandepvar[varlist],select（varlist_s）[twostep]

或heckmandepvar[varlist],select（depvar_s=varlist_s）[twostep]

predict[type]newvarname[ifexp][inrange][,statisticsnooffset]，其中statistics是：

xb拟合值（默认项）

ycondE（yj|yjobserved）

yexpectedE（yj*）,观测不到的yj取零。

nshazardormillsnonselectionhazard（又称为米尔斯比率）

pselpyjobservedp（zv0）

xbsel选择方程的线性估计

stdpsel选择方程线性估计值的标准差

pr（a,b）paxjbub

e（a,b）E（yj|a

ystar（a,b）E（yj*）,yj*=max{a,min（yj,b）}

stdpstandarderroroftheprediction

a=.means负无穷；b=.正无穷

（2）两步一致估计

heckmandepvar[varlist][ifexp][inrange],twostepselect（[depvar_s=]varlist_s[,noconstant]）[nshazard（newvarname）mills（newvarname）noconstantfirstlevel（#）[rhosigma|rhotrunc|rholimited|rhoforce]]

select确定哪些进入选择方程的变量，two采用heckman（1979）两步有效估计方法。

robust给出文件的标准差；nshazard或mills给出逆米尔斯指标；first给出选择方程的probit估计结果。

rhosigma|rhotrunc|rholimited|rhoforce]给出哪些相关系数落在[-1，1]之外的情形的处理，默认选项为rhosigma。

举例：

已婚妇女的劳动力市场参与

对已婚妇女的数据进行样本的选择性纠正。

工资方程的因变量log（wage），

解释变量为educ，exper，expersq。

为了检验和纠正（因为观测不到哪些为工作妇女的工资而导致了）样本选择性偏误，就需要估计一个劳动力市场参与的probit模型。

选择方程除了上述的受教育水平、工作经验外，还包括：

其他家庭收入、年龄、幼年子女个数、年龄较大的子女个数（暗含的假定是这些变量不影响工资而影响选择是否进入劳动力市场）。

纠正办法是利用Heckman（1979）的两步修正模型。

首先利用一个概率单位模型（Probitmodel），估算出个体选择进入劳动力市场的概率，利用估算结果计算逆Mills比率得到变量；然后将其代入到工资方程中，来纠正样本的选择性偏差，矫正后会降低人力资本的收益率（尤其是女性的）（Harmon，1998）。

估计的结果：

（1）两步估计（还可以处理哪些相关系数落在[-1，1]之外情形）heckmanlwageeducexperexp

展开阅读全文