STATA与面板数据回归中文好资料下载.pdf

上传人:wj 文档编号:5969906 上传时间:2023-05-05 格式:PDF 页数:33 大小:409.30KB
下载 相关 举报
STATA与面板数据回归中文好资料下载.pdf_第1页
第1页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第2页
第2页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第3页
第3页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第4页
第4页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第5页
第5页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第6页
第6页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第7页
第7页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第8页
第8页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第9页
第9页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第10页
第10页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第11页
第11页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第12页
第12页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第13页
第13页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第14页
第14页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第15页
第15页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第16页
第16页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第17页
第17页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第18页
第18页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第19页
第19页 / 共33页
STATA与面板数据回归中文好资料下载.pdf_第20页
第20页 / 共33页
亲,该文档总共33页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

STATA与面板数据回归中文好资料下载.pdf

《STATA与面板数据回归中文好资料下载.pdf》由会员分享,可在线阅读,更多相关《STATA与面板数据回归中文好资料下载.pdf(33页珍藏版)》请在冰点文库上搜索。

STATA与面板数据回归中文好资料下载.pdf

2如中国南部地区啤酒的消费量比较大,而北方很多地区只有在夏天才会饮用较多的啤酒,冬天他们一般是只喝白酒的。

28.2.静态面板数据模型38.2静态面板数据模型我们一般所说的静态面板数据模型,是指解释变量中不包含被解释变量的滞后项(通常为一阶滞后项)的情形。

但严格地讲,随机干扰项服从某种序列相关(如AR

(1),AR

(2),MA

(1)等)的模型也不是静态模型。

动态模型和静态模型在处理方法上往往有较大的差异。

本节中我们重点介绍两种最为常用的静态模型固定效应模型和随机效应模型。

考虑如下模型:

yit=x0it+uit(8.1)uit=ai+it(8.2)其中,i=1,2,N,t=1,2,T;

xit为K1列向量,K为解释变量的个数,为K1系数列向量。

对于特定的个体i而言,ai表示那些不随时间改变的影响因素,而这些因素在多数情况下都是无法直接观测或难以量化的,如个人的消费习惯、国家的社会制度等,我们一般称其为“个体效应”(individualeffects)。

对“个体效应”的处理主要有两种方式:

一种是视其为不随时间改变的固定性因素,相应的模型称为“固定效应”模型;

另一种是视其为随机因素,相应的模型称为“随机效应”模型。

这两种模型的差异主要反映在对“个体效应”的处理上。

固定效应模型中的个体差异反映在每个个体都有一个特定的截距项上;

随机效应模型则假设所有的个体具有相同的截距项,个体的差异主要反应在随机干扰项的设定上,因此该模型通常也称为“误差成分模型”。

基于此,一种常见的观点认为,当我们的样本来自一个较小的母体时,我们应该使用固定效应模型,而当样本来自一个很大的母体时,应当采用随机效应模型。

比如在研究中国地区经济增长的过程中,我们以全国28个省区为研究对象,可以认为这28个省区几乎代表了整个母体。

同时也可以假设在样本区间内,各省区的经济结构、人口素质等不可观测的特质性因素是固定不变的,因此采用固定效应模型是比较合适的。

而当我们研究西安市居民的消费行为时,即使样本数为10000人,相对于西安市600万人口的母体而言仍然是个很小的样本。

此时,可以认为不同的居民在个人能力、消费习惯等方面的差异是随机的,此时采用随机效应模型较为合适。

遗憾的是,很多情况下,我们并不能明确地区分我们的样本来自一个较大母体还是较小的母体。

因此有些学者认为,区分固定效应模型和随机效应模型应当看使用二者的假设条件是否满足。

由于随机效应模型把个体效应设定为干扰项的一部分,所以就要求解释变量与个体效应不相关,而固定效应模型并不需要这个假设条件。

所以如果我们的检验结果表明该假设满足,那么就应该采用随机效应模型,因为它更为有效,反之,就需要采用固定效应模型。

另外,有些学者认为具体采用哪一种模型主要决定于我们的分析目的。

如果主要目的在于8.2.静态面板数据模型4估计模型的参数,而模型中个体的数目又不是很大的情况下,采用固定效应模型是个不错的选择,因为它非常容易估计。

但当我们需要对模型的误差成分进行分析时(通常分解为长期效果和短期效果),就只能采用随机效应模型。

在这种情况下,即使模型中的部分解释变量与个体效应相关,我们仍然可以通过工具变量法对模型进行估计。

简言之,两种模型有各自的优缺点和适用范围,在实证分析的过程中,我们一方面要根据分析的目的选择合适的模型,同时也要以8.2.3节中介绍的假设检验方法为基础进行模型筛选。

8.2.1固定效应模型模型的基本设定和假设条件若视ai为固定效应,模型(8.1)可以采用向量的形式表示为:

yi=ai1T+xi+i(8.3)其中,yi=(yi1,yi2,yiT)0,xi=(xi1,xi2,xiT)0,i=(i1,i2,iT)0,1T是一个所有元素都为1的T1列向量。

我们有如下两个基本假设:

3假设1:

Ei|xi,ai=0(8.4)假设2:

Vari|xi,ai=2IT(8.5)假设1表明干扰项与解释变量x的当期观察值、前期观察值以及未来的观察值均不相关,也就是说我们的模型中所有的解释变量都是严格外生的。

假设2就是一般的同方差假设,在此假设下模型(8.1)的OLS估计是BLUE的。

当此假设无法满足时,我们就需要处理异方差或序列相关以便得到稳健性估计量。

组内估计量上面我们已经提到,在假设1和假设2同时成立的情况下,模型(8.1)的OLS估计是BLUE的。

但在实际操作的过程中,如果N比较大,那么我们的模型中将包含(N+K)个解释变量,4计算的工作量往往很大,对于N相当大的情况(如N=10000),一般的计算机都无法胜3一般应用中,我们也常采用如下两个相对较弱的假设。

假设10:

Ei|xi=0和假设20:

Vari|xi=2IT。

4此时,我们可以将模型(8.1)视为一个包含N个虚拟变量,X中不包含常数项的普通OLS模型。

当然,我们也可以在X中包含常数项,但此时只需加入N-1个虚拟变量,参见脚注6。

8.2.静态面板数据模型5任。

所以我们有必要先进行一些变换以消除固定效应,进而对简化的模型进行估计,本小节和下一小节介绍的这两种方法都是基于此目的进行的。

我们首先将所有观察值进行堆叠,于是模型(8.1)可用矩阵形式表示为:

y=Da+X+(8.6)其中,y=(y01,y02,y0N)0,=(1,2,N)0,均为NT1向量,D=IN1T,a=(a1,a2,aN)0。

考虑到D矩阵的构造形式,它事实上对应着N个虚拟变量。

因此,模型(8.6)等价于给混合OLS模型y=X+加入N个虚拟变量。

在正式估计模型之前,我们先定义一些有用的矩阵运算,它们将在后面的分析中反复使用。

定义DD0=INJT,其中,JT=1T10T为TT维矩阵,每个元素均为1。

同时,我们定义P=D(D0D)1D0=INJT,JT=(1/T)JT是TT维矩阵,每个元素均为1/T;

Q=INTD(D0D)1D0=INTP。

矩阵P和Q都具有如下性质:

(1)对称、幂等性:

P0=P,且P2=P;

(2)正交性:

PQ=0;

(3)和为单位矩阵:

P+Q=INT.我们可以从上述三个性质中的任意两个推导出第三个。

易于证明,QD=0,因此,我们可以通过在等式(8.6)两边同时左乘Q以消除固定效应:

Qy=QX+Q(8.7)变换后的模型的OLS估计量为:

5WG=(X0QX)1X0Qy(8.8)方差估计量为:

Var(WG)=2(X0QX)1(8.9)显然,2的一致估计量为:

2=1NTNK(QyQXWG)0(QyQXWG)(8.10)5事实上,模型(8.7)并不满足OLS的经典假设,因为E(Q)(Q)0=2Q6=2I,但其GLS估计量与(8.8)式相同。

具体推导过程留给读者。

8.2.静态面板数据模型6个体效应的估计值为:

ai=yixiWG(8.11)该估计量通常称为“组内估计量”,因为上述变换实质上是从每个观察值中减去其组内平均值,以去除组内不随时间变化的个体效应。

变换后的模型(8.8)的特定元素为:

(yityi)=(x0itxi)+(iti)(8.12)其中,yi=(1/T)PTt=1yit,xi和i的定义方式与此相同。

所以,要得到WG,我们只需要从原始数据中间去其组内平均,然后对变换后的模型执行OLS估计即可。

需要注意的是,在模型(8.6)中,Da项实际上对应着N个虚拟变量,所以为了避免共线性问题,解释变量X中不应再包含常数项。

6一阶差分估计量除了上述通过“组内去心”的办法消除固定效应外,我们还可以通过一阶差分的方式去除固定效应。

对(8.1)式取一阶差分,得到4yi2=4xi2+4i2.4yiT=4xiT+4iT(8.13)采用矩阵形式可表示为Byi=Bxi+Bi(8.14)其中,B=1100001100.00011(T1)T(8.15)对所有观察值进行堆叠,得到(INB)y=(INB)X+(INB)(8.16)设QB=INB,则相应的OLS的估计量为:

OLS=(X0QBX)1X0QBy(8.17)6当然,我们也可以在X中加入常数项,但此时要同时加入约束条件:

PNi=1ai=0。

这样我们估计出的个体效应ai就应当解释为个体i的相对截距项,而不是前面得到的绝对截距项。

STATA8.0就采取了在X中包含常数项的处理方式。

8.2.静态面板数据模型7根据假设1可知,EX=0,所以OLS是的无偏估计量,在N较大的情况下,OLS也是一致的。

由假设2可知,满足同方差假设,且不存在序列相关。

但变换后的干扰项B却并不满足同方差的假设,Var(QB)=2QBQ0B(8.18)但此时模型(8.16)的GLS估计量是BLUE的,GLS=XQB(QBQ0B)1QBX1XQB(QBQ0B)1QBy.(8.19)易于证明QB(QBQ0B)1QB=Q。

7因此,GLSWG也就是说,我们采用一阶差分去除“固定效应”后,再用GLS估计差分后的模型以消除由于差分而导致的干扰项的序列相关问题得到的GLS估计量与我们前面介绍的组内估计是等价的。

由于GLS满足经典OLS的基本假设,所以WG是BLUE的。

8.2.2随机效应模型模型的基本设定和GLS估计当N很大时,采用固定效应模型往往会使参数的个数迅速增加,自由度的损失往往较大。

另一方面,固定效应模型的基本目的是在控制个体效应的前提下估计模型的参数,而我们采用面板数据模型的另一个重要的目的在于分离出方差中的长期成分和短期成分。

此时,随机效应模型可能更为适用。

模型的基本设定同(8.1):

yit=xit+uit(8.20)uit=ai+it(8.21)随机效应模型可以视为固定效应模型的一个扩展,这需要我们在上一节中假设1和假设2的基础上再增加如下假设:

7利用矩阵直乘的性质:

(AF)(CD)=(AC)(FD),我们可以得到QB(QBQ0B)1QB=INB0(BB0)1B。

进一步,我们可以证明B0(BB0)1B=ITJT:

由于矩阵H=T1/210T(BB0)1/2B满足HH0=IT,所以H0H=IT,即10T1T/T+B0(BB0)1B=IT因此,QB(QBQ0B)1QB=IN(ITJT)=INTP=Q.8.2.静态面板数据模型8假设3:

aiIID(0,2a)(8.22)假设4:

Cov(ai,xit)=0(8.23)假设5:

ui|xiIID(0,2IT+2a1T10T)(8.24)其中,假设1将个体效应设定为服从均值为0,方差为2a的随机数,而我们在固定效应模型中没有对Eai作任何限制;

假设2非常显然,因为此时我们将ai视为随机干扰项的一部分,所以它不能与解释变量相关;

假设3表明ai与it相互独立。

基于以上设定,我们可以写出模型的方差-协方差矩阵:

?

=Euu0=IN(2IT+2a1T10T)=IN666(8.25)其中,666=2IT+2a1T10T,具体形式为:

666=2a+22a2a2a2a+22a.2a2a2a+2.(8.26)那么,的GLS估计量为:

GLS=X0?

1X1X0?

1y(8.27)方差估计量为:

Var(GLS)=X0?

1X1(8.28)这里,我们也可以像第四章那样将?

矩阵进行分解并转换原始数据,继而用OLS估计转换后的数据。

我们需要求得?

1/2=In6661/2,显然,我们只需要求出6661/2即可,6661/2=1?

IT1T10T?

其中,=1p2+T2a8.2.静态面板数据模型9于是我们可以对原始数据作如下转换:

6661/2yi=1yi1yiyi2yi.yiTyi(8.29)按照同样的方法我们可以对xi进行转换。

对转换后的数据执行OLS回归即可得到与(8.27)式相同的结果。

我们注意到,如果(8.29)式中的=1,则上述变换就是我们前面讲到的“去心变换”,得到的就是固定效应模型对应的组内估计量。

事实上,我们可以证明GLS可以表示为组内估计量和组间估计量的加权平均,详细过程请参考Greene(2002,pp.295-296)。

FGLS估计我们上面介绍的GLS估计是在假设方差成分已知的前提下进行了,但多数情况下我们并不知道2和2a,因此需要先估计这两个未知参数,继而用它们去代替(8.51)式中的真实值并采用GLS估计即可。

基本思路是:

先估计固定效应模型,得到2的估计值2,继而估计混合OLS模型,利用其残差和第一步得到的2即可估计出2u。

由于组内估计量是无偏且一致的,所以我们可以利用固定效应模型的残差来估计2,因为在估计固定效应模型的过程中我们已经去除了个体效应。

设eit=(yityi)(xitxi)0WG为固定效应模型的残差,则2=Pni=1PTt=1e2itnTnK(8.30)接着我们看如何估计2a。

模型(8.20)的OLS估计仍然是一致的,多数情况下也是无偏的。

设eit为模型(8.20)的OLS残差,则2u=Pni=1PTt=1e2itnTK1=2+2a(8.31)由此,我们可以得到:

2a=2u2采用该估计量的一个问题是它有时可能是负值,此时我们可以略去(8.30)式和(8.31)式中队自由度的调整。

这样就可以保证2u一定是大于2的,因为前者是后者的受限模型的估计量。

这种处理方法的依据在于我们只需要2和2a的一致估计即可,至于是否无偏并不影响大样本性质。

上述估计方法虽然简单易行,但是当随机效应模型中包含不随时间改变的变量,如性别、种族等,我们就无法通过估计固定效应模型来估计了。

不过此时,我们可以沿袭上面的思8.2.静态面板数据模型10路,利用组间估计和混合OLS估计的残差来估计2和2a。

采用OLS估计模型yi=x0i+i(8.32)可以得到一致估计量m=2a+(2/T),结合m和2u我们可以得到:

2=TT1(2um)2a=TT1m1T12u那么以上介绍的各种FGLS估计量哪个更为有效呢?

我们知道,对于随机效应模型而言,针对方差成分的真实值进行GLS估计将得到BLUE估计量。

而以上介绍的FGLS估计量在N或T或二者都成立的情况下,都是渐进有效的。

Maddala和Mount(1973)采用蒙特卡罗模拟方法对各种FGLS估计量的比较表明,在小样本下各种估计方法难分仲伯,所以建议采用简单易行的方法进行估计。

Taylor(1980)比较了小样本下随机效应的FGLS估计和固定效应的LSDV估计,结果表明:

(1)相对于LSDV,FGLS更具有效性,且具有较小的自由度;

(2)FGLS的方差不会大于Cramer-Rao下限的17%。

(3)选择相对有效的方差成分估计量并不必然能够提高FGLS估计量的有效性。

序列相关性易于证明:

Cov(uit,ujs)=2a+2fori=j,t=s2afori=j,t6=s(8.33)和=Corr(uit,ujs)=1fori=j,t=s2a/(2a+2)fori=j,t6=s(8.34)不同截面间干扰项的协方差和相关系数都为0。

从(8.34)式可以看出,由于随机效应的引入使得组内不同时期的观察值之间存在固定不变的自相关关系,相关系数为=2a/(2a+2)。

这很容易理解,因为尽管个体效应是随机的,但在组内并不随时间改变,组内不同期间固定的相关性也就很显然了。

显然,在某些情况下这个假设并不合理。

如在研究投资或消费时,我们往往会假设组内不同期间的相关性是随时间逐渐减弱的。

关于序列相关更为一般性的设定将在8.3.2小节中讲述。

8.2.静态面板数据模型118.2.3假设检验检验固定效应在本章的(8.2.1)小节中,我们已经提到,固定效应模型的设定是建立在如下假设基础之上的,即,我们认为个体间存在显著差异,但是对于特定的个体而言,组内不存在时间序列上的差异。

但是,如果个体间(组间)的差异不明显,那么采用OLS对混合数据(PooledOLS)进行估计即可。

检验的基本思路为,在个体效应不显著的原假设下,应当有如下关系成立:

H0:

1=2=n我们可以采用F统计量来检验上述假设是否成立,F=(R2uR2r)/(n1)(1R2u)/(nTnK)F(n1,nTnK)(8.35)其中,u表示不受约束的模型,即我们的固定效应模型;

r表示受约束的模型,即混合数据模型,仅有一个公共的常数项。

同理,我们可以构造相应的F统计量来检验时间效应的显著性,以及个体效应和时间效应的联合显著性。

检验随机效应Breusch和Pagan(1980)则基于OLS估计的残差构造LM统计量,针对如下假设来检验随机效应,H0:

2a=0v.s.H1:

2a6=0相应的检验统计量为:

LM=nT2(T1)Pni=1hPTt=1eiti2Pni=1PTt=1e2it12(8.36)在原假设下,LM统计量服从一个自由度为1的卡方分布。

如果拒绝原假设则表明存在随机效应。

如果采用矩阵的形式,该LM统计量可以表示为:

LM=nT2(T1)?

e0DD0ee0e1?

2(8.37)需要说明的是,该检验假设模型的设定是正确的,即ai与解释变量不相关,而这一假设是否正确还需要作进一步的检验,这是我们下面要分析的内容。

8.2.静态面板数据模型12固定效应还是随机效应?

Hausman检验在前面的分析中,我们从不同角度比较了固定效应模型和随机效应模型的差别,但是在实际分析中应该使用哪个模型呢?

某些学者指出,试图区分固定效应和随机效应本身就是错误的,二者似乎不具可比性。

Mundlak(1978)指出,一般情况下,我们都应当把个体效应视为随机的。

如果从单纯的实际操作角度来考虑,固定效应模型往往会耗费很大的自由度,尤其是对于截面数目很大的面板数据,随机效应模型似乎更合适。

但另一方面,固定效应模型有一个独特的优势,我们无须做个体效应与其它解释变数不相关的假设,而在随机效应模型中,这个假设是必须的,在模型的设定中如果遗漏了重要的变量,就会导致参数估计的非一致性。

因此,我们可以通过检验固定效应ai与其它解释变量是否相关作为进行固定效应和随机效应模型筛选的依据。

Hausman检验就是这样一个检验统计量。

其基本思想是,在ai与其他解释变量不相关的原假设下,我们采用OLS估计固定效应模型和采用GLS估计随机效应模型得到的参数估计都是无偏且一致的,只是前者不具有效性。

若原假设不成立,则固定效应模型的参数估计仍然是一致的,但随机效应模型却不是。

因此,在原假设下,二者的参数估计应该不会有显著的差异,我们可以基于二者参数估计的差异构造统计检验量。

假设b和分别为固定效应模型的OLS估计和随机效应模型的GLS估计,则Varb=Varb+VarCovbCovb0(8.38)基于上述Hausman检验的思想,有效估计量与它和非有效估计量之差的协方差应当为零,即Cov(b),=Covb,Var=0(8.39)由此我们可以得到:

Covb,=Var(8.40)将(8.40)式的结果代入(8.38)式得到:

Varb=VarbVar=999(8.41)Hausman检验基于如下Wald统计量:

W=b09991b2(K1)(8.42)其中,999采用固定效应和随机效应模型的协方差矩阵进行计算.如果拒绝了原假设,就表明个体效应ai和解释变量xit是相关的,此时我们有两种处理办法:

一是采用固定效应模型,某些情况下这是一种无奈的选择;

8二是采用工具变量法来处理内生问题。

8因为有时我们通过B-P检验发现存在随机效应,但Hausman检验又表明使用随机效应模型的前提假设得不到满足,而我们又往往很难找到合适的工具变量,所以只能采用固定效应模型。

8.2.静态面板数据模型13序列相关检验考虑固定效应模型yit=ai+xit+it(8.43)其一阶差分的形式为:

4yit=4xit+4it(8.44)若我们设定it=it1+uit,则4it=4it1+4uit。

那么序列相关的原假设为:

=0v.s.6=0设4it=eit在原假设H0下,我们易于证明有如下关系成立:

Corr(eit,eit1)=0.5(8.45)由于在存在序列相关的情况下,(8.44)式的OLS估计量仍然是其真实值的一致估计量,设用eit对eit1进行OLS回归的系数估计值为,那么上述序列相关检验就转化为检验是否显著异于-0.5,这采用一般的t检验即可完成。

9至于随机效应模型设定下的序列相关检验就要相对复杂一些,有兴趣的读者可以参考Baltagi(2001)。

10异方差检验seexttest2andxttest38.2.4STATA实现基本设定PanelData具有如下数据存储格式:

companyyearinvestmvalue11951755.94833.011952891.24924.9119531304.46241.7119541486.75593.621951588.22289.521952645.52159.421953641.02031.321954459.32115.59对于这部分内容的详细介绍,请参考Wooldridge(2002,pp.282),STATA中的xtserial可以完成该检验。

10不过STATA中的xtt

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2