面板数据模型.总结文档格式.doc
《面板数据模型.总结文档格式.doc》由会员分享,可在线阅读,更多相关《面板数据模型.总结文档格式.doc(52页珍藏版)》请在冰点文库上搜索。
12692
FJ(福建)
5197
5315
5523
6094
6665
6505
6922
7279
8423
9236
HB(河北)
3897
4104
4362
4457
5120
5167
5469
5678
5955
6747
HLJ(黑龙江)
3290
3597
3891
4159
4494
4251
4747
4998
5383
6144
JL(吉林)
3478
3736
4078
4282
4999
4241
4571
4878
5272
6292
JS(江苏)
4919
5077
5318
5489
6091
6054
6624
6793
7317
8244
JX(江西)
3234
3532
3613
3914
4545
4209
4788
5088
5534
6329
LN(辽宁)
3918
4047
4360
4654
5402
4650
4968
5363
5797
6597
NMG(内蒙古)
3128
3476
3877
4171
4850
4384
4780
5063
5503
6039
SD(山东)
4169
4547
5012
5160
5636
5413
5850
6477
6976
7668
SH(上海)
6866
8126
8652
9336
10412
8773
10770
11432
12883
13184
SX(山西)
3314
3507
3794
4131
4157
6336
TJ(天津)
5499
5917
6146
6904
7221
7146
7735
8173
8852
9375
ZJ(浙江)
6237
6601
6951
7968
8792
7860
8530
9187
10486
11822
二、面板数据模型及其作用
1.经典面板数据模型
建立在古典假定基础上的线性面板数据模型.
2.非经典面板数据模型
(1)非平稳时间序列问题的面板数据模型(面板数据协整模型)
(2)非线性面板数据模型(如面板数据logit模型,面板数据计数模型模型)
(3)其他模型(如面板数据分位数回归模型)
3.面板数据模型作用
(1)描述个体行为差异。
(2)PanelData能够提供更多信息、更多变化性、更少共线性、更多自由度和更高效率。
反观时间序列经常受多重共线性的困扰。
(3)PanelData能够更好地研究动态调节,横截面分布看上去相对稳定但却隐藏了许多变化,PanelData由于包含较长时间,能够弄清诸如经济政策变化对经济状况的影响等问题。
(4)PanelData能更好地识别和度量纯时间序列和纯横截面数据所不能发现的影响因素。
(5)相对于纯横截面和纯时间序列数据而言,PanelData能够构造和检验更复杂的行为模型。
(6)通常,PanelData可以收集到更准确的微观单位(个人、企业、家庭)的情况。
由此得到的总体数据可以消去测量误差的影响。
尽管PanelData研究的理论和应用发展很快,但目前仍然存在一些问题需要解决。
例如,变量设计和收集数据困难;
存在测量误差;
存在选择性困难;
时间序列较短;
等等。
4.目前有关PanelData的学术专著主要有:
1.Analysisofpaneldata/ChengHsiao.1986.
2.Econometricanalysisofpaneldata/BadiH.Baltagi.1995.
3.TheEconometricsofpaneldata:
ahandbookofthetheorywithapplications/Matyas&
Sevestre.1996.
应用程序软件:
stata、EViews。
三、经典面板数据模型的参数估计
不变系数模型:
yit=α+βxit+uit
变截距模型:
yit=αi+βxit+uit(时间变截距模型?
双变模型?
)
变系数模型:
yit=αi+βixit+uit(时间变截距模型?
(一)不变系数模型(混合估计模型)
如果从时间上看,不同个体之间不存在显著性差异;
从截面上看,不同截面之间也不存在显著性差异,即各回归系数不随个体或截面的变化而变化,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数,建立不变系数模型(混合估计模型)。
yit=a+bxit+uit,i=1,2,…,N;
t=1,2,…,T
a和b不随i,t变化。
称模型为混合估计模型。
数据形式变为:
年份
Y
X
安
徽
省
1998
4770
3777
1999
5179
3990
2000
5257
4204
2001
5641
4495
2002
6093
4784
…
……
浙
江
7860
6237
8530
6601
9187
6951
10486
7968
11822
8792
例以表1中15个地区1996和2002年数据建立关于消费的混合估计模型,得结果如下:
输出结果1
DependentVariable:
Y?
Method:
PooledLeastSquares
Includedobservations:
5
Numberofcross-sectionsused:
15
Totalpanel(balanced)observations:
75
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
73.81960
84.48351
0.873775
0.3851
X?
0.761465
0.011710
65.02895
0.0000
R-squared
0.983030
Meandependentvar
5291.773
AdjustedR-squared
0.982798
S.D.dependentvar
1745.640
S.E.ofregression
228.9535
Sumsquaredresid
3826637.
F-statistic
4228.764
Durbin-Watsonstat
0.864366
Prob(F-statistic)
0.000000
15个省级地区的人均支出平均约占收入的76%,自发消费为73.82。
(二)变截距模型(variableinterceptmodel)
即自变量对因变量的效应(斜率)随个体或时间的变化而变化,而截距项却在不同的个体或时间上有所不同,此时可以建立变截距模型。
按照样本数据性质的不同,具体分为固定效应模型和随机效应模型。
1.固定效应模型(fixedeffectsregressionmodel)
在面板数据散点图中,如果对于不同的截面或不同的时间序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型。
3种类型:
1.个体固定效应模型
2.时刻固定效应模型
3.时刻个体固定效应模型
下面只以个体固定效应模型为例进行介绍。
个体固定效应模型就是对于不同的个体有不同截距的模型。
如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型。
其中,Zi是不随时间变化的潜在变量,不可观察,但与x相联系。
上式可以变化为:
由于与每一个个体中一个确实存在(但不可观测)的变量有关,所以称为个体固定效应模型。
等价于每一个个体有一个方程:
y1t=α1+bx1t+u1t,i=1(对于第1个个体,或时间序列),
y2t=α2+bx2t+u2t,i=2(对于第2个个体,或时间序列),
yNt=αN+bxNt+uNt,i=N(对于第N个个体,或时间序列),t=1,2,…,T
其中
eit,i=1,2,…,N;
t=1,2,…,T,表示随机误差项。
yit,xit,i=1,2,…,N;
t=1,2,…,T分别表示被解释变量和解释变量。
引入虚拟变量
Wi=
写为:
yit=b1xit+α1W1+α2W2+…+αNWN+uit,
(t=1,2,…,T)
如果满足如下4个假定条件,上述面板数据模型可以用OLS方法估计:
(1)E(uit|xi1,xi2,…,xiT,ai)=0。
以xi1,xi2,…,xiT,ai为条件的uit的期望等于零。
(2)xit,和uit不相关。
(3)不同解释变量之间不存在完全共线性。
(4)Cov(uit,uis|xit,xis,ai)=0,t¹
s。
在固定效应模型中随机误差项uit在时间上是非自相关的。
数据结构:
DAH
DZJ
1
对模型进行OLS估计,全部参数估计量都是无偏的和一致的。
模型的自由度是NT–N–K(k是解释变量个数)
例:
表1的固定效应模型EViews估计结果:
输出结果2
Date:
02/14/06Time:
17:
18
Sample:
19982002
0.704120
0.019598
35.92806
FixedEffects
AH--C
456.2010
BJ--C
1091.289
FJ--C
356.0866
HB--C
301.8503
HLJ--C
291.9486
JL--C
558.2303
JS--C
445.4530
JX--C
113.4984
LN--C
621.1425
NMG--C
271.5059
SD--C
344.3550
SH--C
645.5164
SX--C
414.0827
TJ--C
524.0437
ZJ--C
566.4419
0.993390
Meandependentvar
0.991709
S.D.dependentvar
158.9451
Sumsquaredresid
1490550.
Durbin-Watsonstat
2.100731
=安徽+x1t=456.2+0.704x1t
=北京+x2t=1091.3+0.704x2t
=浙江+x15t=566.4+0.704x15t
北京、上海、浙江是消费函数截距(自发消费)最大的3个地区。
相对于既定的面板数据样本来说,是否有必要建立个体固定效应模型可以通过约束条件的F检验完成。
…………………………………………………………
约束条件的F检验
在同一样本数据下,记无约束样本回归方程为
记无约束样本回归方程的残差平方和为RSS无
记有约束样本回归方程为
有约束样本回归方程残差平方和为RSS约,
可以证明RSS约RSS无。
这意味着,通常情况下,对模型施加约束条件会降低模型的解释能力。
但是,如果约束条件为真,则受约束回归模型与无约束回归模型具有相同的解释能力,RSS约与RSS无的差异变小。
于是我们可以构造如下统计量:
其中,df约、df无分别为受约束回归模型与无约束回归模型的残差自由度(即样本容量减去待估计参数个数)。
根据数理统计学知识,当约束条件为真时,
可以利用这个统计量检验约束条件是否成立。
不变系数模型和变截距模型哪一个是受约束模型?
……………………………………………………………………………………………………………
原假设H0:
不同个体的模型截距项相同(建立混合估计模型)。
备择假设H1:
不同个体的模型截距项不同(建立个体固定效应模型)。
F统计量定义为:
F=
=
其中RSS混,RSS固分别表示约束模型(混合估计模型)和非约束模型(个体固定效应模型)的残差平方和。
非约束模型比约束模型多了N-1个被估参数。
在原假设H0下,F服从自由度为(N-1,NT-N-k)的F分布。
接上例,已知RSS混=3866659,RSS固=1490550,k=1
F==6.718
F0.05(14,59)=1.899
因为F=6.718>
F0.05(14,59)=1.899,所以,拒绝原假设。
结论是应该建立个体固定效应模型。
注:
如果确知对于不同的时间截面,模型的截距显著不同,但是对于不同的时间序列(个体)截距是相同的,那么应该建立时刻固定效应模型;
如果确知对于不同的截面、不同的时间序列(个体)模型的截距都显著地不相同,那么应该建立时刻个体效应模型,时刻个体固定效应模型就是对于不同的时间截面(时刻点)、不同个体的时间序列都有不同截距的模型。
2.随机效应模型(randomeffectsmodel)
在固定效应模型中采用虚拟变量的原因是解释变量的信息不够完整(无法观测)。
也可以通过对误差项的分解来描述这种信息的缺失。
yit=a+bxit+uit
其中误差项在时间上和截面上都是相关的,用3个分量表示如下:
uit=ui+vt+wit
其中ui~N(0,su2)表示截面随机误差分量;
vt~N(0,sv2)表示时间随机误差分量;
wit~N(0,sw2)表示混和随机误差分量。
同时还假定ui,vt,wit之间互不相关,各自分别不存在截面自相关、时间自相关和混和自相关。
上述模型称为随机效应模型。
为了容易理解,假定模型中只存在个体随机误差项ui,不存在时间随机误差分量(vt),即
yit=a+bxit+(ui+wit)=a+bxit+uit
=(a+ui)+bxit+wit=ai+bxit+wit
(a为均值截距,ui为个体截距与均值截距的差异)
这种随机效应模型又称为误差分量模型(errorcomponentmodel)。
截面随机误差项ui是属于第i个体的随机波动分量,与时间变化无关。
随机误差项ui,wit与X无关,且满足如下条件:
E(ui)=E(wit)=0,E(wit2)=sw2,E(ui2)=su2,
E(wituj)=0(包括所有的i,t,j),E(witwjs)=0(i¹
j,t¹
s),E(uiuj)=0,i¹
j
如果不考虑其他因素,uj也可以用OLS进行估计。
方法如下:
e
ui的估计
但由于
cov(uit,uis)=E(uituis)=E〔(ui+wit)·
(ui+wis)〕=var(ui)0,
即存在误差项的系列相关,所以随机效应模型一般采用广义最小二乘法(GLS)估计参数,如果随机误差分量服从已知分布(如正态分布),模型的参数还可以用极大似然法估计。
仍以表1为例,随机效应模型估计结果如下:
=+安徽+x1t=(261.565-28.01)+0.734x1t
=+北京+x2t=(261.565+439.65)+0.734x2t
=+浙江+x15t=(261.565+15.21)+0.734x15t
(注意:
随机效应模型中应该含有公共截距项)
检验个体随机效应的原假设与检验统计量是
H0:
var(ui)=su2=0。
(混合估计模型,即不存在个体效应ui)
H1:
var(ui)su2¹
0。
(个体随机效应模型,即存在效应ui)
LM=
其中RSS随表示由个体随机效应模型计算的残差平方和。
RSS混表示由混合估计模型计算的残差平方和。
统计量LM服从1个自由度的c2分布。
以例1为例,用个体随机效应模型和混合模型计算的统计量的值是
LM==847.21
F0.05
(1)=3.84
因为F=847.21>
F0.05
(1)=3.84,所以拒绝原假设,结论是应该建立个体随机效应模型。
3.随机效应的检验:
Wu-HausmanTest
随机效应模型和固定效应模型都是变截距的模型,究竟哪一个更好些?
不好一概而论,因为各有优缺点。
至于在实际应用中具体采用哪一种,需要通过检验。
最常用的是Wu-Hausman检验。
WU-Hausman检验原理:
如果cov(αi,xi)=0,随机效应模型(GLS)产生斜率系数的一致有效估计量,而固定效应模型(OLS)产生一致但无效估计量,所以应该采用随机效应模型;
如果cov(αi,xi)≠0,随机效应模型斜率系数的估计量非一致,而固定效应模型产生一致有效估计量,所以应该采用固定效应模型。
cov(αi,xi)=0(采用随机效应模型);
cov(αi,xi)0(采用固定效应模型)
Wald统计量:
在H0下,WH~
在为一个标量时,Wald统计量退化为:
本例中,
显著性水平0.05下,自由度为1的卡方临界值=7.88,
所以,不拒绝H0;
应用随机效应模型。
(EV5.1以上版本给出了hausmantest程序)
(三)变系数模型
当认为对于不同个体(或时间),解释变量的回归系数存在显著性差异时,还可以建立回归系数(包括截距系数和斜率系数)不同的面板数据模型。
如果各个体(或时间)的误差项不相关,可以直接将某一个个体(或时间)作为一个独立的样本,利用OLS分别估计N个(或T个)方