中级计量经济学 第四章 模型设定错误.docx
《中级计量经济学 第四章 模型设定错误.docx》由会员分享,可在线阅读,更多相关《中级计量经济学 第四章 模型设定错误.docx(26页珍藏版)》请在冰点文库上搜索。
中级计量经济学第四章模型设定错误
中级计量经济学第四章模型设定错误
第四章
模型设定错误
主要内容
模型设定错误有广义和狭义两种情况
狭义的错误指模型设定出现丢失重要解释变量、包括不必要的解释变量、解释变量测度存在误差等情况;
广义的错误还包括多重共线、残差项出现异方差或序列相关等情况。
当出现模型设定错误时,利用OLS方法得到的参数估计不再具有最小方差和无偏性质。
主要内容
多重共线
模型变量设定错误
遗漏必要的解释变量
包括不必要的解释变量
解释变量含有测度误差
误差项不符合古典假定
回归方程函数形式错误
检验和解决办法
多重共线
根据古典假定,矩阵X'X应该是满秩的,即X'X可逆。
若数据违反上述假定,那么出现解释变量间的完全多重共线。
在实际工作中,由于数据原因造成的解释变量完全多重共线并不常见,并且多数是由于模型设定错误。
经常遇到的情况是解释变量之间的不完全多重共线。
令rj为不同时为零的常数,上述两种情况可以表示为:
完全的多重共线
不完全的多重共线(vi为一随机误差项)
不同性质的多重共线
右表中,X1与X2为完全的多重共线,即:
X2=5X1
X1与X3则为不完全多重共线,即:
X2=5X1+v
Corr(X1,X2)=0.999
152
150
30
119
120
24
94
90
18
75
75
15
52
50
10
X3
X2
X1
多重共线
多重共线是由于解释变量之间存在较高的相关性。
经济变量之间总会存在较高的相关性,差别仅仅是在相关的程度上,因而在应用工作中常常难以避免多重共线问题。
当解释变量高度相关时,估计模型参数遇到困难。
从数学角度解释,这就是说,当两个变量存在共同的运动模式时,采用统计手段分离两者各自对因变量的影响将是非常困难的。
多重共线的来源
数据收集方法不当
抽样集中在一个非常类似的子群体;
例1:
对同一地点贫困人口的调查,多数指标相近。
例2:
对同一地点农户农业生产的调查,很多投入与土地成比例(技术、市场和制度环境相近)。
总体存在经济指标相关,抽样时未采取对策;
例:
高收入户通常家庭资产也多,但可能通过适当的抽样方法(分层/配额抽样)取得变异大的样本。
模型设定
在模型中包括同一变量的不同变型(X变异小时更严重)
例:
Y=?
?
0+?
?
1X+?
?
2X2+e
多重共线的来源
变量有共同的时间趋势
多数时间序列数据呈现增长趋势
例:
人口、GDP、进出口、城市化率、粮食单产…
以价值计量的经济指标都会受通货膨胀的影响
例:
GDP、税收、商品价格、居民收入、居民消费支出
模型包括过多的解释变量
模型中解释变量个数大于或等于观察值个数
多重共线
不同类型的数据出现多重共线的原因不同,程度也不同:
对于时间序列数据,变量之间经常存在共同的运动趋势(收入增长与财富积累),或由于共同受第三个变量的影响而出现相类似的变动(通货膨胀)。
截面数据可能出现接近等比例的变化(农业生产中劳动投入和物质投入与面积大小成正比)。
一般而言,使用时间序列数据建立模型时更可能遇到多重共线问题。
多重共线的性质
对于多重共线可以从性质上做如下划分:
总体现象:
变量通过内在的机制共同运动,此时不管用什么样的抽样方法,得到的样本总会表现出较强的多重共线问题。
例:
收入和财富之间的关系。
样本现象:
即使总体不存在变量之间的共同运动趋势,抽取的样本仍可能出现多重共线,即样本含有的信息不够丰富,未能充分反映总体的变异情况,导致无法分离每个X单独对Y产生的影响。
模型设定问题:
例如多项式模型中的解释变量为同一变量的高阶形式。
当该变量变异较小时,会出现较强的多重共线。
多重共线的影响
在出现完全多重共线时,无法得到模型参数的估计结果,估计参数的方差变为无穷大。
例:
对于方程Y=?
?
0+?
?
1X1+?
?
2X2+u,若有X1=kX2+C,写成离差形式有x1=kx2,代入计算公式后得到:
多重共线的影响
出现不完全多重共线时,OLS估计量仍是无偏的。
需要注意的是,无偏性是重复抽样时估计量具有的特性,这一特性并不适用于任何特定样本。
出现不完全多重共线时,OLS估计量仍具有最小方差,即仍是有效估计。
然而这并不是说利用任何一个特定样本资料都可以得到具有最小方差的参数估计。
多重共线导致方差增大,影响大小与多重共线的严重程度成正相关。
我们不再能可靠地估计“每个解释变量”对因变量单独产生的影响。
为什么多重共线成为问题
完全多重共线极为少见
如果出现,通常是由于错误设定模型所致。
不完全多重共线区分仅在程度上,而不是存在与否。
此时所有古典假定仍有效
仍可以得到参数估计结果
OLS方法仍满足BLUE性质
R2仍非常高
但估计参数方差增大(即变得不可靠)
估计参数极为敏感(难以分离每个变量的作用)
参数可能出现错误的符号或不合理的大小
多重共线的症状
考虑方程Y=?
?
0+?
?
1X1+?
?
2X2+u。
根据前面介绍的计算公式有:
由公式可以看出,当存在严重的多重共线时:
估计参数的方差增大,统计检验的显著性失真,即t检验趋于接受虚假设;
参数估计变得不稳定,一个变量的微小变化可能引起估计量发生显著改变。
多重共线的识别方法
利用简单相关系数判断:
在估计方程前先计算所有解释变量的相关矩阵是快速判断是否存在多重共线问题的一种技术。
当相关系数矩阵中的某些值超过一定标准时(例如大于0.9,或大于复回归系数R2),多重共线可能构成问题。
需要注意的是,可能存在所有变量之间的相关系数值均很小、但多个变量之间存在完全多重共线的情况。
多重共线的识别方法
例:
假定的完全多重共线数据
三个变量之间的实际关系为X1=X2+X3/2
由样本数据计算得到三个单相关系数为:
r12=0.543
r13=0.576
r23=-0.374。
X1
10
15
18
22
25
X2
12
6
14
10
20
X3
-4
18
8
24
10
多重共线的识别方法
做辅助回归方程:
以每个X作为因变量、其余所有X作为自变量做回归。
如果某个方程得到很高的R2值,那么这个X与其它X之间存在较强的多重共线。
利用计量经济学软件提供的统计指标判断:
多重共线的典型症状是估计方程有较大的R2值(即接受至少有一个解释变量具有显著作用的虚假设),但单个估计参数无法通过统计检验标准(即拒绝每个解释变量单独的作用)。
估计量具有较大敏感性也是一个症状(增减变量或改变变量表达形式会引起估计量显著改变。
)
多重共线的识别方法
利用特征值(eigenvalue)和条件指数(Conditionindex)
如SAS等一些统计软件提供这两种指标。
利用特征值可以计算得出条件指数CI:
CI=(最大特征值/最小特征值)0.5
利用该指标判断多重共线严重程度的经验准则是,如果CI大于20或30,那么就存在严重的多重共线问题。
如何处理多重共线问题
如果估计系数均统计上显著,那么完全可以不考虑模型是否存在严重的多重共线。
如果回归方程的R2高于任何辅助回归方程的R2,那么也可以不做任何处理。
如何模型主要用于推断未来的变化,并且预期X之间的相关关系会继续存在,那么也不必采取处理措施。
如果某种因素会导致这种相关关系发生变化,那么就需要考虑模型用做分析或预测时的有效性。
如何处理多重共线问题
若多重共线是总体现象,那么需要考虑对模型的理论设定做修改:
例:
若有X1=cX2,则方程Y=?
?
0+?
?
1X1+?
?
2X2+u可以改写为:
若多重共线是样本现象,那么需要扩大样本或改变抽样方法,以提高样本的信息含量。
若多重共线是由于模型设定造成的,那么需要考虑选择更适当的函数形式。
对多重共线的技术性处理方法
增加观察值,特别是取得解释变量之间关系变异大的样本资料:
对于时间序列数据,我们基本上没有任何手段来扩大样本;
可以考虑将时间序列数据与截面数据结合使用;
对于截面数据,我们可以扩大样本容量;
在实践中,开展调查活动的成本较大,因而应重视事先搞好抽样方案设计,以保证样本的信息含量。
采用特殊估计技术,如岭回归(Ridgeregression)和主成分分析法(Principalcomponents):
这类技术性处理方法缺乏经济学基础,没有得到公认。
对变量作数学变换(差分/比值/倒数):
这种方法依赖研究者的判断,需要不断积累经验。
对多重共线的技术性处理方法
利用有关某些参数值的信息,采用有约束的估计方法:
这种信息来自于其他研究或主观判断,需要有扎实的经验基础,以避免随意性。
删除某个导致多重共线的变量:
只有在我们相信被删除变量的真实系数等于零时,这种处理才具有合理性,否则所得到估计结果是有偏的,据此所做的分析不再可靠。
保留结果,做出解释和说明:
如果模型主要用于预测,那么可以使用存在多重共线的模型,此时模型能很好地反映因变量的变动趋势。
案例分析:
收入、财富与消费
练习2中消费与收入和财产的关系
去掉任何一个解释变量后,对数据的拟合程度仍很好,估计系数高度显著,但却是有偏的;
可以利用经验判断或其他信息,假定某个变量的系数或两个变量系数之间的比率,作为约束条件加到估计中;
增加含有新信息的观察值,例如后两个观察值所反映的信息不同于前面的观察值,分别为高收入低财产和低收入高财产情况。
案例分析:
收入、财富与消费
利用前10组数据估计方程得到:
查F统计表得知,当显著性水平选择为1%时,与自由度为(2,7)对应的F临界值为9.55,据此应拒绝虚假设。
然而两个解释变量的t统计值均未达到较高的显著性水平,即虚假设无法被拒绝。
两种统计检验出现相互矛盾的结果。
案例分析:
收入、财富与消费
去掉任一解释变量后估计得到:
根据其它研究信息估计:
假定,原方程可以改写为
估计得到
案例分析:
收入、财富与消费
假定,原方程可以改写为:
估计得到:
增加两个新的观察值(分别为高收入低财富和低收入高财富)后重新估计得到:
这一情况亦表明,对于小样本,数据调整或观察值增减会显著影响到模型估计结果。
遗漏必要的解释变量
设表示成离差形式的二元回归模型为:
y=?
?
1x1+?
?
2x2+u
假定模型设定时遗漏了解释变量x2,回归方程变为:
对此模型采用OLS估计,得到的系数估计值为:
遗漏必要的解释变量
将真实关系式代入后得到:
估计参数的期望值为
遗漏必要的解释变量
当两个解释变量相关时,等号右边第二项不等于零。
因而当遗漏x2时有:
用OLS方法得到的估计是模型真实参数的有偏估计量;
此外,该项在样本容量无限增大时也不会趋近于零,即对的估计也不具有一致性特性;
的偏差方向取决于的符号和的符号。
上述结论同样适用于多元回归模型。
遗漏必要的解释变量
遗漏必要的解释变量时,估计参数的方差也是有偏的,从而造成统计检验失真。
模型仅包括两个解释变量时,的方差计算公式为:
若总体方差已知,那么遗漏必要的解释变量造成低估参数方差。
在应用工作中,总体方差需要由样本估计,即:
由于丢失必要的解释变量一方面增大分子,另一方面也增大分母,因而难以确定参数方差的偏差方向。
遗漏必要的解释变量
遗漏必要的解释变量可能出现以下症状:
某些估计参数的值与理论预期相矛盾(异常的符号,不合理的数值大小);
模型误差项表现异常(出现序列相关或异方差)。
如果由于无法获得数据等原因导致上述错误,在做分析时应该利用前面介绍的知识,指出重要参数的偏差方向,并讨论其含义。
例:
练习2中消费与收入和财产的关系
两个估计参数的可能取值范围分别为:
0?
?
?
?
1?
?
0.509和0?
?
?
?
2?
?
0.050。
遗漏必要的解释变量
在应用工作中,除由于理论和数据原因而导致遗漏必要解释变量的错误外,更经常出现的两种情况是采用错误的数学函数形式和解释变量出现定义变化。
模型数学形式错误主要是用线性方程表示非线性关系,而用非线性方程表示线性关系一般不会造成问题。
假设正确的函数形式为一个K阶可导函数,可以用X的K阶多项式近似。
若将X的高次项看作独立的解释变量,那么上式为多元线性回归方程。
用一元线性方程进行估计相当于遗漏必要的解释变量。
遗漏必要的解释变量
计量经济模型研究中经常遇到在样本范围内解释变量出现质量/定义变化的情况。
例如:
改革以来农作物生产中的劳动投入效率得到提高;
农村居民自给性消费计算价格多次改变;
畜牧业产量/耕地面积统计存在系统性偏差。
这种情况可以一般性地表示为解释变量含有误差,即
遗漏必要的解释变量
考虑一元回归模型,假定正确的形式为:
实际估计模型时,由于缺少对Z的观测结果,采用的函数形式变为:
上述情况相当于丢失了一个重要的解释变量,当Z与X相关时,X的参数估计值将是有偏和不一致的。
案例分析:
收入、财富与消费
仍利用前面的消费与收入和财富的关系例子。
假定正确的模型是(由12个观察值估计的结果):
而利用前10组观察值估计模型时假定只包括了当期收入变量,得到的结果为:
由收入变量的系数可以看出,丢失重要解释变量造成估计参数的偏差。
由于X1与X2为正相关,X2的系数为正值,因而遗漏X2后使X1的系数被高估。
若利用此模型做预测,将会导致高估当期收入的影响作用。
包含不必要的解释变量
设表示成离差形式的真实模型为.
在估计该模型时增加了一个不必要的解释变量x2,模型变成为。
应用OLS方法估计该模型得到:
包含不必要的解释变量
代入真实关系后有:
包含不必要的解释变量
即包含不必要的解释变量时,参数估计值仍然是无偏和一致的。
包含不必要的解释变量
理论上估计参数的方差为:
利用样本数据得到的经验结果为:
只有当两个解释变量完全无关时才会有r=0,即得到关于方差的无偏估计。
由上述分析可知,将不必要的解释变量引入模型,参数估计值仍是无偏的,但估计参数的方差一般要增大,即估计参数的有效性降低。
误差项设定错误
如果模型的误差项出现设定错误,那么也将引起估计偏差。
设正确的回归模型为:
式中误差项与F(.)是相乘关系,且假定有:
此时有和
若将误差项错误地设为相加形式,即
这时有:
误差项设定错误
于是有:
此时误差项不满足均值为零和同方差假定,并且也不服从正态分布,从而使估计参数出现偏差。
实际工作中,误差的真实分布形式常常是未知的,习惯上将回归方程表示成参数线性形式,假定对应于这一形式的误差项为正态分布。
除非采用特殊估计技术,一般不需要对误差分布形式专门做分析。
在完成研究报告时应正确说明所采取的误差分布形式。
模型设定检验方法
模型设定产生错误的主要原因有:
缺乏估计正确模型所需的数据资料。
理论认识不完善,无法确定必要的解释变量。
对于第一种原因,可以考虑选择适当的替代变量。
理想的情况是,替代变量与原变量有尽可能高的相关性,与模型中其它变量有尽可能低的相关性。
这种处理可能降低估计参数的有效性,但保证得到无偏估计。
模型设定检验方法
对于第二种原因,可以采取下列统计检验手段来判断回归模型设定是否正确:
第一种情况:
一个备选方程是其它所有备选方程的一般情况,例如:
需求与价格及收入方程:
需求与价格方程(需求曲线):
需求与收入方程(恩格尔曲线):
第一个方程是另两个方程的组合。
对于这种情况,可以估计方程1,然后根据得到的t统计值和F统计值,检验哪个模型与数据更一致。
模型设定检验方法
第二种情况:
两个备选模型有不同的解释变量(代表相互冲突的两种理论模型)
假定相互冲突的两种理论模型分别为:
可以构造出一个一般形式的方程如:
对第一种理论正确性的检验为:
对第二种理论正确性的检验为:
模型设定检验方法
对涉及多个系数的虚假设做联合检验可以采用F检验,有关方法前面已经做了介绍。
另一种方法是采用似然值比值检验。
利用估计模型时得到的对数似然值可计算得到统计量,该统计量服从自由度为q的分布,据此可以确定是否应拒绝虚假设。
模型设定方法论
传统研究采取由特殊到一般的方法,即开始采用简单形式,以后逐渐增加变量,直到取得满意的拟合。
现代研究采取从一般到简单的方法,其特点是:
重视模型设定方法论,强调模型同经济理论和统计学原理的逻辑一致性。
开始时选用尽可能充分描述经济行为的一般模型形式,然后在不损害行为描述准确性的前提下对模型进行简化。
这一思路基于如下认识:
计量经济学的出发点是所谓的“数据生成过程”,该过程是客观的,可以用一般形式的样本数据联合概率分布规律来表示。
模型设定方法论
简化模型的标准有:
令人满意的模型首先必须得到数据支持;
令人满意的模型必须与经济理论相一致,若存在若干相互矛盾的理论,一个模型至少应当与一种理论相一致;
令人满意的模型必须有明确的因果关系;
令人满意的模型必须有稳定的参数,这是将模型用于经济预测和政策分析的前提;
令人满意的模型必须与数据生成过程相一致,即由模型计算出的内生变量估计值与实际值的偏差为随机误差;
令人满意的模型应该具有尽可能大的包容性,即可以解释用同类数据估计的其它形式模型的结果。
解释变量与误差项相关
解释变量与残差项出现相关有三种情况:
一个或若干个解释变量含有测定误差(抽样调查中样本选择误差、报告误差、计算误差、统计定义变化、政治因素造成的非随机误差):
一个或若干个解释变量部分由因变量所决定,即存在双向因果关系(联立模型);
模型中含有一个或多个因变量的滞后项作为解释变量(自回归)。
在出现上述情况时,OLS估计值失去某些良好特性。
解释变量与误差项相关
以标准化后的一元回归模型为例:
利用上述OLS推导方法可以得出回归方程参数β的计算公式如:
当X与误差项相关时有
若X为随机变量,则会出现上述情况。
此时即使样本容量增大,估计参数仍然是有偏的,因而OLS估计量不再具有一致性。
参数的方差估计也是有偏的。
因变量存在测度误差
假定真实方程为,实际得到的Y的观测值则为,假定。
若忽略因变量的测定误差,实际估计
那么将得到:
由于假定X与测定误差v相互独立,故用OLS方法估计该方程仍可以得到β的无偏和一致性估计。
在时,方程常数项β0的估计值不同于真实参数值。
因变量测度误差vi的影响反映在回归方程的估计方差s2中。
解释变量X含有测度误差
假定真实回归模型如,X的观测值与真实值关系为。
实际回归:
在此情况下,即使假定X的测度误差服从正态分布,E(vi)=0,不存在序列相关,Cov(xi,vi)=0,采用OLS方法估计仍存在与相关的问题,有
此时用OLS方法得到的参数估计是有偏的和不一致的。
偏差的程度取决于测定误差方差的大小。
X和Y都含有测度误差
假定,,,
简化的回归方程为;ui与vi相互独立,并且均独立于X;误差项不存在序列相关。
实际估计方程为,斜率的估计值为:
X和Y都含有测度误差
对于随机变量有
由于u、v和x均为随机变量,因而难以确定估计参数的偏差方向。
依据一致性标准评价有:
即忽略测定误差时可能出现低估真实参数的情况。
对于社会科学研究来说,有相当多的变量是非试验性的,因而不可能重现。
因而就样本资料而言,OLS估计结果的无偏性无法得到保证,在应用工作中更为重视的是一致性标准。
变量存在测度误差时的估计方法
在实际工作中,通常的做法是忽略变量测定误差。
这种处理方式假定,变量测度误差非常小,并且是随机的,从而不会严重影响估计结果的可靠性。
如果认为上述假定不成立,那么就应该采用更适合的估计技术。
工具变量法(Instrumentalvariables)就是这样一种技术,从原则上说,它可以解决变量含有测度误差时的模型估计问题。
工具变量法
用Z表示工具变量,该变量需要具有以下性质:
随着样本容量的增大,Z与误差项u和v的相关程度趋近于零;
随着样本容量的增大,Z与X的相关程度不会趋近于零(理想的情况是X与Z有尽可能高的相关程度)。
工具变量法依赖大样本时估计参数具有的渐近无偏性质。
对于小样本情况,该方法无法保证得到参数的无偏估计。
若存在若干可以选择的工具变量,应该选择与X相关程度最高的Z。
工具变量法
以解释变量X含有测度误差的情况为例:
估计的方程为
方程左右两边乘以Z得到
对所有的观察值求和,得到
根据古典假定,最后一项随样本容量增大而趋近于零。
据此得到工具变量法斜率系数估计量:
根据假定条件有
工具变量法
需要注意的是,OLS为工具变量法的一个特例,即Z=X这一情况。
根据古典假定,X不含有误差,与自身的相关系数等于1,因而符合工具变量的性质要求。
工具变量可以有多个,在选择工具变量时需要利用常识和经济学理论来判断是否有理由假定Cov(z,u)=0;
我们可以用统计方法检验Cov(z,x)≠0。
工具变量法的问题:
估计结果对选择的工具变量较为敏感
小样本时不能满足一致性要求
IV估计量的性质
使用IV方法时,古典的同方差假定对应于:
E(u2|z)=s2=Var(u);
如同OLS方法一样,我们可以得到估计参数的标准差:
最小二乘法和工具变量法比较
IV法得到的参数标准差与OLS法产生的差别大小取决于X对Z做回归时得到的R2。
由于R2<1,因而IV法的标准差大于OLS法。
另一方面,IV法的估计结果具有一致性,而当Cov(x,u)≠0时,OLS法估计结果不具有一致性。
Z与X的相关系数越大,IV法标准差与OLS法标准差之间的差别越小。
工具变量较差时产生的影响
考虑当假定Cov(z,u)=0不成立的情况
此时得到的IV估计量不具有一致性
OLS方法和IV方法的渐近偏差分别为
当Corr(z,u)/Corr(z,x)<Corr(x,u)时,IV方法更可取。
在多元回归中使用工具变量法
IV方法可以用于多元回归情况
将我们准备估计的模型称作结构模型
现在面临的问题是可能有一个或多个变量是内生的,即含有误差。
此时我们需要为每个内生变量找到一个工具变量。
考虑以下形式的结构模型
y1=b0+b1y2+b2z1+u1
式中y2为内生变量,z1为外生变量。
用z2表示工具变量,满足Cov(z2,u1)=0
y2=p0+p1z1+p2z2+v2,要求p2≠0
此即简化形式模型。
两阶段最小二乘法
(Two-stageleastsquares)
两阶段最小二乘法是工具变量法的一种特殊应用。
考虑前述结构模型,并令
y2=p0+p1z1+p2z2+p3z3+v2
假定z2和z3均为合理的工具变量
这两个变量未出现在结构模型之中
这两个变量与结构模型的误差项u1不相关
最佳工具变量
我们可以任选z2或z3作为工具变量
然而最佳工具变量是所有外生变量的一个线性组合,即:
y2*=p0+p1z1+p2z2+p3z3
我们可以建立y2对z1,z2和z3的回归方程,然后得到?
?
2,此即2SLS方法的第一阶段。
下一步是在结构模型中用?
?
2替代y2,从而得到与工具变量法相同的系数估计。
但此时的参数标准差不同。
上述做法可以扩展到涉