面板数据模型入门讲解.docx
《面板数据模型入门讲解.docx》由会员分享,可在线阅读,更多相关《面板数据模型入门讲解.docx(23页珍藏版)》请在冰点文库上搜索。
面板数据模型入门讲解
面板数据模型入门讲解
第十四章面板数据模型
在第五章,当我们分析城镇居民的消费特征时,我们使用的是城镇居民的时间序列数拯:
而当分析农村居民的消费特征时,我们使用农村居民的时间序列数据。
如果我们想要分析全体中国居民的消费特征呢?
我们有两种选择:
一是使用中国居民的时间序列数据进行分析,二是把城镇居民和农村居民的样本合并,实际上就是两个时间序列的样本合并为一个样本。
多个观测对象的时间序列数据所组成的样本数据,被称为面板数据(PanelData)。
通常也被称为综列数据,意即综合了多个时间序列的数据。
当然,面板数据也可以看成多个横截面数据的综合。
在面板数据中,每一个观测对象,我们称之为一个个体(Individual例如城镇居民是一个观测个体,农村居民是另一个观测个体。
如果而板数据中各观测个体的观测区间是相同的,我们称其为平衡的而板数据,反之,则为非平衡的面板数据。
基于而板数据所建立的计量经济学模型则被称为面板数据模型。
例如,表5.3.1中城镇居民和农村居民的样本数据具有相同的采样区间,所以,它是一个平衡的面板数据。
§14.1面板数据模型
一、两个例子
1.居民消费行为的面板数据分析
让我们重新回到居民消费的例子。
在表5.1.1中,如果我们将城镇居民和农村居民的时间序列数据作为一个样本,以分析中国居民的消费特征。
那么,此时模型(5.1.1)的凯恩斯消费函数就可以表述为:
ci,=A)+P\Yi,+£”(14.1.1)
(14.1.2)
苴中:
C“和匕分别表示第,个观测个体在第/期的消费和收入。
#1、2分别表示城镇居民和农村居民两个观测个体,「1980、…、2008表示不同年度。
"”为经典误差项。
在(14.1.2)中,丛随观测个体的变化,而不随时间变化,它反映个体之间不随时间变化的差异性,被称为个体效应。
人反映不随个体变化的时间上的差异性,被称为时间效应。
在本例中,城镇居民和农村居民的消费差异一部分来自收入差异和随机扰动,还有一部分差
面板数据模型入门讲解
异是由城镇居民和农村居民的身份或地域差异决泄的,它不随时间变化,这种差异性就由“
和“2来反映。
同时,对同一种居民,在收入不变的情况下,消费支出还可能随时间的变化而变化,这种变化的来源任于除随机扰动以外经济环境的一些系统性变化,如经济体制的变迁,这种变化是所有居民共同而对的,所导致的居民消费在时间上的差异性就由时间效应
实际上,模型(14.1.1)还隐含了一个假左,既假泄城乡居民的边际消费倾向相同并且不随时间变化。
尽管这一假圮不一定成立,但作为熟悉而板数据模型基础知识的例子,我们还是暂且保留这一假迫。
2.农村居民收入分析
为了考察中国农民收入与农村要素投入结构之间的关系,同样地,我们既可以采用全国的时间序列总量数据进行分析,也可以采用各省币自治区的横截面数据进行分析。
但是,如果能够综合各省市自治区的时间序列数据,从而基于而板数据进行分析,一个显而易见的好处就是,我们将会有更多更具体的信息,估计和检验统讣量都会有更大的自由度,从而获得更可靠的分析结论。
简单而言,由于农村剩余劳动力的存在,影响农村居民收入的要素配置因素可以分为以下几个方而:
资本拥有量、投资主体结构、劳动的配宜状态等。
所以,基于省际而板数据,有研究者建立了如下的面板数据模型:
(14.1.3)
In(P/CJ=仇+Qln(CSq)+p2RLTlt+0、RC1“+筍
i=\,2、…N,t=\XT
其中:
为地区i在第f期的农村人均纯收入,各年份的现值均按本地区农村消费者价格指数折算为1995年不变价。
RLT*为地区i在第f期乡村劳动力中非农产业从业人数与农林牧渔等传统产业从业人数之比。
RC/ii为地区i在第f期农村集体投资与个人投资的比率。
C5CIt为估算的地区j在第f期农村人均资本存虽:
。
M和人分别为个体效应和时间效应。
“反映除劳动力分配比例、投资比例、资本存量的影响以外,各省人均纯收入受本省内在因素
(如地理位宜,经济发展基础等)所导致的不随时间变化的差异性。
而时间效应反映除解释变量的影响以外,所有省份农村人均纯收入面对共同的经济环境的变化而形成的时间上的差
面板数据模型入门讲解
异性。
显然,面板模型与我们以前所学的模型之间的区别,就在于存在个体效应和时间效应。
简而言之,剔除了解释变量的影响以后,由个体内部不变的因素所导致的个体之间的差异性,就是个体效应:
由所有个体所而对的共同因素所导致的时间上的变化,就是时间效应一
二、面板数据的特征及优势
基于前面两个例子,我们发现,面板数据既可以看作多个个体时间序列数据的合并,也
可以看作多个时点横截面数拯的合并。
所以,面板数据的基本特征就是其数据结构的二维性
(图14.1.1)0或者说,而板数据是一个数据平面,这也正是英被以“面板”命名的原因。
图14.1.1变量X的面板数拯结构
那么,有读者会说,我们可以基于全国的总量数据(城镇居民和农村居民数据加总)来分析中国居民的消费行为,为什么要使用而板数据呢?
实际上,使用面板数据会为我们的计量经济学分析带来很多的好处。
(1)扩大信息量,增加估计和检验统计量的自由度。
显然,与时间序列数据和横截而数据不同,而板数据是二维数据。
它既包含观测同一个体随时间的变化,也包含同一时间不同个体之间的差异。
这显著扩大了样本的信息量和样本容量,有助于提髙参数估计的精度和检验结论的可靠性。
对模型(14.1.1)而言,如果我们基于居民的时间序列数据进行分析,样本容量为29。
而基于城镇和农村的而板数据,样本容量则为58,如果基于省市区的而板数据,样本容量将更大,模型估计量和检验统讣量的自由度显著增加。
更重要的是,基于总量数据进行分析,无法反映两种居民之间的差异性,其数据信息对于两种居民都有显著的偏差。
(2)有助于提供动态分析的可靠性。
面板数据模型入门讲解
基于单个个体的时间序列数据进行动态分析,一方面会受到采样区间的限制,另一方而其研究结论也缺乏普适性。
而基于面板数据,则可以在较短的采样区间内反映多个个体共同的动态变化特征,从而弱化样本区间的制约得到更为可靠的分析结论。
当我们在模型(14.1.1)中引入预期因素时,英回归模型被表述为:
C”=0o+01匕+02G.—i+。
(14.1.4)
如果使用总星数拯,我们只能根据不同年度消费额的变化信息来估讣消费的动态性质,而使用而板数据,我们有两种居民消费的变化信息可供利用。
<3)有助于反映经济结构、经济制度的渐进性变化。
对于所考察的经济体系而言,经济结构和经济制度的变化通常是渐进性的,我们很难找到一个戢化的指标来反映这种渐进性变化。
幸运的是,使用而板数据时,时间效应是被解释变量中不随个体变化而只随时间变化的部分,它反映了所有个体所而对的共同因素的影响。
所以,时间效应是对经济结构和经济制度渐变效应的一个很好的度量指标。
(4)面板数据有助于反映经济体的结构性特征。
与总量数据相比,面板数据提供了更具微观层次的信息。
对很多经济问题的分析而言,某些变量涉及不同观测个体之间的相互关系,例如资本和劳动在区域和产业之间的流动,技术的溢岀,通胀的相互影响等。
使用而板数据使得这些结构性变化信息的分析成为可能。
三、面板数据模型的混合估计
既然而板数据有诸多优势,那么,而板数据模型的分析与时间序列或横截面数据模型有什么不同呢?
在(14.1.1)和(14.1.3)中,如果假泄个体效应和时间效应为0,那么,这些模型与我们前面所熟悉的单方程模型没有任何本质上的差异。
所以,我们可以直接基于OLS对其进行估计。
也就是说,我们没有考虑而板数据的结构特殊性,而直接把各时间序列或各横截而数据混合起来进行估计,这种估讣方法我们称之为面板混合OLS估计.
对于模型(14.1.3),如果假左个体效应和时间效应为0,则模型可以表述为:
In(PIC)=In(CSC)+/32RLT+p.RCI+u(14.1.5)
其中:
PIC=(PICn…pg•-PIC,…PICN}…PIC加,P/C“为地区i在第f期的农村人均纯收入。
也就是说,我们将各个地区的数据堆积起来,看成是对同
面板数据模型入门讲解
一个对象的观测数据。
英他变量的向量表述也是类似的。
如果"为经典误差项,这一模型与第五章所讲的多元线性回归模型没有任何本质区别,其OLS估il鱼是线性无偏最优估计量。
基于中国28个省市自治区(不包括重庆、海南、西藏)1995〜2005年的面板数据,其面板混合OLS估计的结果为:
In(PlCit)=7.8158+0.35911In(C5CW)+0.2523妣7;RC1„(14.1.6)
t统计值202.273017.25205.7464-3.1736
p值0.00000.00000.00000.0017
/?
2=0.8409斤$=08393。
但是,对面板数据而言,把个体效应和时间效应假定为0—般是不符合经济现实的,尤其是个体效应。
我们很难想象各地区农村居民的消费特征不存在差异性。
当我们考虑个体效应与时间效应时,我们会发现,而板数据在为我们带来更多信息和便利的同时,也带来了一些新的问题。
§14.2固定效应与随机效应
而板数据模型的一般形式可以表述为:
丫打=0u+X出HPkXKil+%(14.2.1)
£u=M+人+uit。
i=\2、…,Nt=l,2,--,7'o
英中:
"”为经典误差项。
E(“J=0,)=0,E(h“”)=0,
我们已经知道,与时间序列数据或横截而数据的单方程模型相比,而板数据模型唯一的不同之处就是存在个体效应和时间效应人。
根据血和&与模型解释变量是否相关,而板数据的个体效应和时间效应又分为两种情形:
固定效应和随机效应。
如果个体效应内与模型中的解释变量是相关的,我们就称这种个体效应是固定效应(FixedEffect)。
反之,如果个体效应“与模型中的解释变疑不相关,我们称之为随机效应(RandomEffect)«
同样地,如果时间效应人与模型中的解释变量是相关的,我们就称这种时间效应是固泄效应。
反之,则为随机效应。
面板数据模型入门讲解
例如:
在模型(14.1.1)中,如果个体效应丛与收入人相关,时间效应人与收入人不相关,那么,该模型的个体效应是固怎效应,时间效应是随机效应。
如何理解固定效应和随机效应的含义呢?
当个体效应与解释变量相关时,因为解释变量反映观测个体的个性化特征,所以,此时的个体效应反映了观测个体的个性化特征。
或者说,此时个体效应的差异与观测个体的特征有内在的联系,所以,我们可以称这种效应是“固泄”的。
相反,如果个体效应与解释变量不相关,则说明个体效应的差异与观测个体的特征没有显著的内在联系,在某种程度上,这种个体差异有可能是"随机”产生的。
同样,时间效应的固立效应是指时间效应在时间上的差异是与特定观测时间的经济背景有内在联系,而其随机效应则是指时间效应在时间上的差异是“随机“产生的。
§14.3静态面板数据模型的估计
对于而板数据模型(1421),我们首先考虑解释变量中不含被解释变量滞后项的情形,这样的模型我们称之为静态面板数据模型。
当个体效应"和时间效应&是固定效应和随机效应时,模型所面对的计量经济学问题是不同的,英估计方法也不同。
一、静态面板数据模型的固定效应估计
如果个体效应“和时间效应&满足固左效应假定,显然此时模型的随机误差项為与解释变量相关,它违背了髙斯一马尔可夫立理对“解释变量与误差项不相关”的假圧,根据我们在模型设左和联立方程中所学的知识,此时模型中参数的OLS估计量是有偏的。
显然,固左效应面板数据模型的本质问题是解释变量的内生性问题,其后果是OLS估汁量不再是无偏的估计量。
既然OLS估计量是有偏的,我们就需要新的无偏估计量。
对于固泄效应的静态而板数据模型,其线性最优无偏的估计方法是最小二乘虚拟变虽法(LSDV方法)。
1.LSDV估计方法
为了表述简便,我们以后不考虑时间效应,而只考虑个体效应。
我们基于如下的一元静态面板数据模型来说明LSDV估计的基本思路:
(14.3.1)
面板数据模型入门讲解
為=“+叫。
心1,2,…,Nr=l,2,--,To
(1)为每一个个体设定一个虚拟变量0,d=l,2,…,N。
其中:
0=1表示第i个观测个体,0=0表示不是第F个观测个体。
(2)在模型中引入虚拟变量,通过虚拟变量使个体效应显性化(参数化),则模型(14.3.1)可表述为:
Yit=几+MD+…+“n5+AX„+uit(14.3.2)
为了解决虚拟变量的完全多重多重共线性,我们可以直接估计模型:
匕=“;9+…+".;几+0】X“+叫(14.3.3)
或人=卩。
七血D严…七山。
n七0\X°严叫(14.3.4)
此时,模型的误差项是经典误差项"“,所以,我们可以直接对(14.3.3)或(14.3.4)进行OLS估计。
读者应该可以理解,(14.33)和(14.3.4)是等价的,尽管个体效应的估计值不相等。
实际上,鉴于个体效应只是反映个体之间的差异性,苴数值本身的大小是没有经济意义的,我们所关心的只是数值的差异。
最后,让我们总结一下LSDV估计的基本思想:
通过虚拟变疑把误差项中与解释变量相关的个体效应和时间效应参数化,把个体效应和时间效应从渓差项中分离岀来,使误差项与解释变量不相关,以便进行OLS估计。
这正是其被称为最小二乘虚拟变虽法的原因。
回到中国农民纯收入的例子。
基于中国的省际而板数据,对模型(14.1.3)进行LSDV估计,为简便起见,我们在此仅考虑个体效应,其具体估汁结果为:
In(PIC„)=7.9488+0.4178lln(C5C„)+0.0681+0.0009RC1it(14.3.5)
t统计值310.558235.08072.11780.6352
p值0.00000.00000.03510.5258
显然。
LSDV估计结果(14.3.5)不同于混合OLS估计结果(14.1.6),尤英是RC仏系数的估计结果由显著的负值变为不显著的正值。
估il•结果的显著不同本在我们的意料之中,因为混合OLS估计的实际上是受约束模型,即“=人=0约束下模型。
面板数据模型入门讲解
细心的读者可能已经注意到,在(14.3.5)的估计结果中,我们没有报告模型的判定系数原因在于,对于考虑了个体效应或时间效应的面板数据模型而言,不能反映解释变量对被解释变量变化的解释能力。
因为,此时的模型包含了个体效应和时间效应对被解释变量变化的解释,幷判立系数也包含了个体效应和时间效应的贡献,而不只是解释变虽的贡献。
2.LSDV估计方法的宜观含义
根据我们在第五章中对多元回归方程估计思想的解释,对模型(14.3.3)我们还有一种等价的估计方法。
这种等价方法的步骤是:
<1)分别估计方程:
Y„+-•+2jVDjV+乞(14.3.6)
…+〃久+・(1437)
得到残差鳥和佥。
(2)估计方程:
色=0血+叫(1438)
此时,(14.3.8)对A的估计与(14.3.3)的LSDV估计是等价的。
我们注意到,在步骤
(1)中,对每一个个体i而言,只有D,=1,苴他虚拟变量都等于0,既Dy=0°以,=1为例,回归方程(14.3.6)可以写成:
人“+鼻
八11
该方程的残差就是被解释变量的离差。
所以,気=匕-〒乞人,它是在第1个个体内部T/-1
求变量Y的离差。
同样的,佥是在第1个个体内部求变量X的离差。
由此,我们发现,(14.3.8)实际上是变量Y的个体内离差对变量X的个体内离差进行回归。
所以,LSDV估计方法的直观含义是,将被解释变量和解释变量在个体内取离差,以被解释变量的个体内离差对解释变量的个体内离差进行回归,并进行OLS估计。
在分析农民纯收入的例子,如果我们将所有变疑In(P/CJ、ln(CSCJ、RLT“、RC1.
面板数据模型入门讲解
的样本数拯都转换为省内离差的形式,那么,我们对模型直接进行OLS估计,其斜率系数的估计结果与(14.3.5)的结果是相同的。
二、静态面板数据模型的随机效应估计
如果个体效应从和时间效应&满足随机效应假定,显然此时模型的随机误差项吊与解释变量不相关,此时模型中参数的OLS估计量仍是无偏的。
但是,由于个体效应M的存在,冋一观测个体的误差项都包含不随挤时间变化的丛,从而导致同一时间序列样本数据存在自相关。
同样地,由于时间效应人的存在,同一横截面的误差项都包含不随个体变化的人,从而导致同一横截面样本数据存在自相关。
我们知道,此时尽管OLS估计量是无偏的,但却不是最优的,OLS估计量有较大的方差。
显然,随机效应面板数拯模型的本质问题是误差项的自相关问题,英后果是OLS估计量有较大的方差。
既然随即效应问题的本质是自相关,在自相关一章中,我们已经知道,修正自相关的影响需要采用GLS估计。
所以,对于随机效应的静态而板数据模型,其线性无偏最优的估计方法是广义最小二乘估计法(GLS)。
再次回到中国农民纯收入的例子。
基于中国的省际而板数据,在仅考虑个体效应的情况下,我们对模型(14.1.3)进行GLS估计,其具体估计结果为:
1n(P1CU)=7.9436+0.4160lln(CSC,,)+0.0750RLT,,+0.0007RCIit(14.3.9)
t统计值202.129735.31932.42890.4921
p值0.00000.00000.01570.6230
就本例而言,(14.3.9)和(14.3.5)的估计结果比较接近,但还是有些许差异。
既然固左效应模型应该使用LSDV估讣,而随机效应模型应该采取GLS估计,那么,当我们而对一个而板数据模型时,到底是用LSDV方法呢?
还是选用GLS方法呢?
一方而,我们可以基于固定效应和随机效应的含义,结合回归模型所要研究的经济问题,从问题的经济背景来进行判龙。
另一方而,我们可以根据样本数据,通过具体的检验统计量来进行检验。
三、豪斯曼检验
要想固定效应和随机效应作出判定,我们首先要明确两种估计量在不同情形下的性质。
如果模型中的个体效应或时间效应是固左效应,那么,LSDV估计疑是无偏的估i|•量,
面板数据模型入门讲解
而GLS估计量则是有偏的。
反之,如果模型中是随机效应,那么,LSDV估计量和GLS估il涅都是无偏的,但LSDV估计量有较大的方差。
鉴于两种估计量的上述特征,我们发现,如果是随机效应模型,LSDV估i|•量和GLS估讣量的估讣结果就比较接近,反之,如果是固定效应模型,两种估il慢的结果就有较大的差异。
豪斯曼检验正是基于这种思想来检验随机效应和固泄效应的。
豪斯曼检验的待检验假设为:
原假设(Ho):
随机效应
备选假设(H,\):
固泄效应
北检验统讣量为:
H={pF-pR)\SF-SREY\pF-pR)(14.3.10)
其中:
为回归系数的LSDV估计向量,直尺为回归系数GLS估计向量,为LSDV估汁系数的协方差矩阵估计量,4为GLS估计系数的协方差矩阵估计量。
在原假设(随机效应)为真时,豪斯曼检验统计量服从力2分布。
即:
H〜才(K)(14.3.11)
自由度K为模型中解释变量(不包括截距项)的个数。
还是回到中国农民纯收入的例子。
在仅考虑个体效应的情况下,我们对模型(14.1.3)进行豪斯曼检验,检验结果为:
H=4.1777卩值=0.2429。
显然,根据检验结果,我们无法拒绝随机效应的原假设。
所以,从豪斯曼检验结果来看,中国农村居民收入模型中的个体效应很可能是随机效应。
§14.4动态面板数据模型简介
如果而板数据模型的解释变量中包含被解释变量的滞后项,我们则称英为动态面板模型。
仅包含被解释变量一阶滞后时,动态而板模型的一般表述形式为:
丫“=0o+X]“FPKX心+P^ij-\+£ii0(14.4.1)
随着滞后被解释变量作为解释变量出现在模型中,由于个体效应的存在,模型解释变量无法
面板数据模型入门讲解
满足严格外生性的条件,从而导致LSDV估讣和GLS估计都是有偏的。
在§14」的消费函数例子中,考虑了预期因素的模型(14.1.4)就是一个典型的动态而板数据模型。
首先,我们暂不考虑外生的解释变量和截距项,鉴于动态而板数据模型特有的估计问题仅与个体效应有关,为了使表述简化淸晰,在后而的分析中,我们将仅考虑个体效应,而不再考虑时间效应。
即模型(14.4.1)的误差项被设左为:
儿=0心+6(1442)
%=M+%
其中:
U,为经典误差项。
£(//,)=0,£:
(//,«,)=03
一、动态面板数据模型的内生性问题
在动态而板数拯模型中,无论个体效应是固左效应还是随机效应,固左效应的LSDV和随机效应的GLS估计都是有偏的并且非一致的几其原因在于,动态面板数据模型存在固有的内生性问题。
1.GLS估计的有偏和非一致性
对于GLS估计,模型(14.4.2)的内生性问题是显而易见的。
因为解释变M与误差项习都包含个体效应“,。
即使进行差分变换,4乙心=Yit_{-YLi_2与0匂=//,一心,都包含共同因素uKt_},我们也还是无法消除解释变量的内生性问题。
理解这一问题,需要注意叫一是Kz的构成部分。
2.LSDV估计的有偏和非一致性
对于LSDV估计,模型(1442)可以表示为:
Y“="4人+…+"4几+必1+uit(14.4.3)
它等价于模型:
厂=处.匚+£,(1444)
其中,符号表示变量的样本数据相对于对本观测个体时间序列均值的离差。
即:
1T1T
Kg=乙—1一不工匕“匂=匂一〒工匂。
1ChengHsiao.AnalysisofPanelData,北京大学出版社,2005,pp70-85・
面板数据模型入门讲解
显然,乙.匚和£「是相关的,二者都包含误差£亠,6.一在乙打中的权重是(1一“),在£,中的权重是1/T。
所以,LSDV估计方法也无法消除动态面板模型的内生性问题。
由于动态面板模型固有的内生性问题,一般而言,我们通常有三种方法估计动态而板数据模型:
GMM方法、偏误直接修正方法、变换的似然方法。
目前应用最多的估计方法则是GMM方法。
二、动态面板模型的广义矩估计方法(GMM)
对于一阶自回归的动态而板数据模型(14.4.2):
+匂(14.4.2)
务=/<+%
其中:
心为经典误差项。
£(ZA)=O,£(//.«,)=0o我们已经知道,动态面板模型的儿-和%是相关的,而且LS估计(无论是LSDV还是GLS)都是有偏并且非一致的。
如果要想得到。
的一致估计量,我们需要为儿-寻找适当的工具变量。
根据工具变量的选择的两个条件,我们要找的工具变量必须与色不相关,而与儿一相关。
基于给左的样本信息,我们所能够找到的与儿一高度相关的变量只有儿一的滞后项。
但是,由于个体效应的存在,儿一的滞后项即儿、):
2、…、儿一2也与巧相关,它们不能作为工具变量使用。
为了能够找到适当的工具变量,我们对模型(14.42)取一阶差分:
少”