面板数据题目.docx
《面板数据题目.docx》由会员分享,可在线阅读,更多相关《面板数据题目.docx(21页珍藏版)》请在冰点文库上搜索。
面板数据题目
面板数据题目
阳桦
YangHua
复旦大学中国经济研究中心
1.FD和FE方法是处理面板数据的常用方法,因为他们在某些情况下能很好的降低遗漏变量带来的参数估计误差。
那么应用FD和FE方法需要一些什么条件。
(1)必须是对面板数据进行处理的时候能用这两种方法。
(2)遗漏变量是不能随时间而发生变化的
(3)要考察的解释变量必须有一定的variance
2.什么是异方差异方差的出现会对OLS估计量的无偏性、一致性和方差会产生什么样的影响。
请分别介绍一种检验和消除异方差的方法。
(1)异方差是指回归方程中的干扰项的方差不再是常数。
(2)异方差性不会导致估计产生偏误或不一致性。
但是估计量的方差在存在异方差的情况下是有偏的。
因此在出现异方差的情况下普通最OLS下的t统计量就不服从t分布,F统计量也不服从F分布,我们也就没有办法用这两个统计量进行假设检验。
(3)WHITE检验可以用来进行异方差检验。
在同方差情况下,方差与解释变量是没有相关性的,White方法就是针对这一情形提出的一种检验方法。
它将所有原方程的解释变量、解释变量的平方以及所有解释变量的交叉乘积对残差进行OLS回归,检验他们之间是否存在显著相关性。
(4)GLS(广义最小二乘法)是一种常见的消除异方差的方法。
它的主要思想是为解释变量加上一个权重,从而使得加上权重后的回归方程方差是相同的。
因此在GLS方法下我们可以得到估计量的无偏和一致估计,并可以对其进行OLS下的t检验和F检验。
4.当一个回归方程因缺乏数据而排除了一个关键变量时,就会导致遗漏变量偏误。
当该遗漏变量数据无法获得时,我们通常应该如何消除或减少偏误,并简单阐述这些方法为何能得到无偏估计。
解决遗漏变量偏误的方法主要有:
(1)固定效应或一阶差分法。
使用该方法的条件是遗漏变量必须是不随时间而发生变化。
(2)代理变量。
为未观测到的变量找一个代理变量。
代理变量必须是与该未观测到的变量相关的。
例如对回归方程:
如果
是遗漏变量,我们找到另外一个变量
。
与
存在如下的相关性:
。
将此方程代入原来的回归方程可以得到:
。
因此如果能满足
与
和
不相关,且
与
也不相关的话,我们就可以通过OLS回归得到无偏估计。
不过
的估计我们是无法得到。
郭陈孜0
1、请说明处理面板数据时,固定效应和随机效应回归方法的异同。
2、请结合”DoInstitutionsCauseGrowth”这篇文章谈一谈工具变量的使用。
徐鸣0
1哪些情况下要加log如何解读这些情况下的参数估计量
2如何解决面板数据中出现的时间序列问题
朱萸
0
1.评估下列5方程系统的参数可识别性:
其中z为外生变量,y为内生变量,u为残差项。
2.简述Hausman检验的主要内容及其应用。
刘敦
管理学院数量经济学专业05级硕士研究生
1.请问在多元线性回归模型中,主要有哪些假设当某些假设不满足,会产生什么问题,如何解决或减轻这些问题当其中一些假设同时成立时,会有什么结论
答:
在多元线性回归模型中,有以下假设:
1.回归方程对参数而言是线性的,即:
当该条件不满足时,说明回归方程设定存在偏误。
此时可依据经济理论或实际研究背景,对回归变量进行一定改变,如对变量取对数,增加平方项,增加交互项等。
2.样本是通过随机抽样获得的。
当该条件不满足时,如果非随机抽样的原因是外生的,即外生样本选择(exogenoussampleselection),这样对回归结果并没有影响。
如果原因是内生的,则需要用到样本选择纠正(sampleselectioncorrection)的一些方法予以解决。
3.误差项条件均值为0。
当该条件不满足时,说明被解释变量存在内生性。
内生性的问题主要可能是由于方程设定偏误,遗漏重要变量,测量误差,解释变量与被解释变量的联立性引起的。
要减轻内生性问题,应尽量采用明显的外生变量,或者采用一些工具变量的方法。
4.解释变量间不存在完全共线性。
只要样本量比解释变量个数大很多,即
,且不要在解释变量中同时出现如Year,Month的变量,基本上不会存在完全共线性的问题。
但是如果解释变量高度相关的话,还是可能对统计推倒的显著性产生一定影响。
因此可以考虑对高度相关的解释变量进行一定的取舍。
当以上4个假设满足时,OLS估计量将具有无偏性和一致性:
5.误差项同方差:
当该条件不满足时,并不影响估计量的无偏性和一致性,但是影响估计量的有效性。
当存在异方差的时候,可以采用Heteroskedasticity-Robust的方法进行统计推断,或者用WLS进行估计。
当以上5个假设满足时,OLS估计量将是最优线性无偏估计量(BLUE)。
6.误差项服从正态分布:
当该条件不满足时,t统计量,F统计量,LM统计量将不在服从标准的t分布,F分布,
分布。
但是在大样本的条件下,它们将渐进服从标准分布。
所以说在大样本条件下,这个问题不是很严重。
当以上6个假设满足时,OLS估计量不仅在线性估计中而且在任何估计中都是最优无偏估计量。
2.当被解释变量为0-1变量时,请问有哪些基本模型可用
答:
首先,我们可以把取0-1值的被解释变量看作普通的被解释变量,用OLS进行回归,即线性概率模型(LPM):
这样回归得到的参数还有统计推断都与被解释变量为普通变量时得到的结果是一样的。
但是,LPM有一些缺点:
1.被解释变量的预测值可能小于0,或者大于1;2.参数是线性的,说明不管
的大小,它对
的边际贡献都是一样的。
3。
存在明显的异方差问题,这是因为:
。
因此,我们考虑运用Logit或者Probit模型来做一些改进。
现在我们利用模型
,其中
,
可以是逻辑函数或者是标准正态分布的累计密度函数。
然后通过极大似然估计,便可得到所有参数的估计量。
Logit或Probit模型相对LPM来说有一下优点:
1.被解释变量的预测值一定是大于0,小于1的。
2.各个解释变量对被解释变量的边际贡献,都随着解释变量的变化而变化。
3.Logit或Probit模型都是对异方差稳健的。
截面与面板数据课程
王亦琳0劳动经济学经济系
题目一:
(1)出现内生性的情况有哪些请举例说明。
(2)写出内生性问题的一般克服方法,并简述这些方法分各自的优缺点。
答案:
(1)出现内生性的情况主要有四类:
A.函数形式写错了。
比如,漏了加平方项,或者应该用水平值却误取了对数。
B.遗漏了与解释变量相关的变量。
比如,估计收入与教育的关系,遗漏了能力这一变量,能力影响教育,因此会造成对教育的回报高估。
C.度量的误差。
比如,调查收入时,被调查者告知的收入与真实收入的误差进入u,但其实与解释变量相关。
D.联立性偏误。
即X,Y互成因果。
比如,考察警察数量与犯罪率的关系。
犯罪率高的地方往往警察多,并不是警察越多,犯罪率越高。
(2)A.找代理变量PV。
但是,很多时候要找到合适的代理变量并非易事。
而且u中一般包含不止一种遗漏变量,无法一一为之找到适合的替代变量,更是个问题。
B.固定效应法FE。
但是,只有在被遗漏的变量是不随时间变化的变量时才能用FE。
C.工具变量法IV。
但IV的问题是,选取的IV变量与误差项不相关这一条件是否真正满足无法严格检验。
当一个遗漏变量可以找到多于一个的IV时,假设其中一个IV是外生的前提下,可以检验其他IV是否是外生的。
此外,统计上好的IV并非完全等同于经济学意义的好IV。
如果选取的IV对于被工具的变量的影响确实有经济学意义,这样就更好了。
题目二:
(1)Tobit模型适用于哪些情况下的问题,请举例。
(2)简述Tobit模型的局限性,并举例说明。
答案:
(1)Tobit模型适用于涉及时间问题的情况,比如劳动时间,以及耐用品或高档用品的消费问题。
其他情况下不适用。
(2)Tobit模型有一个潜在的局限性,就是以Y>0为条件的期望值与Y>0的概率有密切联系。
也就是说,Xj对P(y>0︱x)的影响,就像对E(y︱y>0,x)的影响一样,这就排除了某些情况的可能性。
比如,在考虑人寿保险政策的价值与年龄之间的关系时。
对于是否参加人寿保险的决策,年龄越大的人越倾向于参加人寿保险,所以y>0的概率随年龄的增加而提高。
但是在参加了人寿保险的人群中,随着年龄增加,这项政策的价值越小。
Tobit模型不许出现这种相反的情况。
而只有在相同的情况下,Tobit模型才适用。
比如决策是否加入劳动力市场和决策加入劳动力市场后供应多少劳动力这个决策过程是一致的,Tobit模型就适用。
面板数据题目
朱萸
0
评估下列5方程系统的参数可识别性:
其中z为外生变量,y为内生变量,u为残差项。
答:
因为识别的过程可以看作为每个方程中的内生变量寻找工具变量。
因此,每个方程的可识别的条件是该方程中出现的内生变量的个数减1要小于或等于出现在其他方程中的系数不为零外生变量的个数。
由上诉规则可看出,该五方程系统可被识别。
简述Hausman检验的主要内容及其应用。
答:
Hausman检验是用于检验模型是否有误设。
其基本思想是检验不同设定下得出的系数是否有显著的差别。
过程如下:
建立零假设,即某种模型设定无误。
在此假设下估计出系数的值
及相应的方差协方差矩阵
。
然后,假设模型存在误设,在考虑了误设的情况下估计出系数
及其方差协方差矩阵。
在零假设下,两个估计量均为一致估计量。
但
是最优的。
于是可以得到Hausman检验值
渐进服从卡方分布,自由度为
的行数。
然后选取显著水平,若超过,则认为原假设有误,不超过则接受零假设。
Hausman检验可以应用于检验内生性是否存在,或者说内生性是否影响了系数的估计。
在这个检验中,实际是看OLS估计量和IV估计量是否有显著差别。
Hausman检验常用于检验固定效应和随机效应。
即检查随机效应设定下得出的系数和固定效应下得出的系数是否有显著区别。
考试题目
某人手中有第五次全国人口普查的原始数据,并利用该数据考察教育程度对于个人工资水平的影响。
考虑到用OLS方法估计在存在内生性问题时无法保证参数的无偏性和一致性,他在大样本下采用2SLS方法估计教育对于收入水平的偏效应。
他在出生于1965-1974年出生的人群中随机抽取3%(假如为600,000)作为样本。
在控制了性别哑变量,年龄,年龄平方,出生地哑变量(城市/农村)解释变量后,教育程度仍有可能与一些诸如能力的不可观测因素相关,于是其选取人们在一年中出生的不同季度作为教育程度的IV,理由是一方面,国家9年义务教育法以及相关地方法规的实施使得同年9月份前出生的孩子要比9月份后出生晚一年达到法定入学年纪;另一方面,直觉上,出生于不同时间似乎与人们的收入水平无直接关系。
1.被解释变量log(wage)为Y1
潜在的内生变量教育程度educ为Y2,控制变量为性别哑变量,年龄,年龄平方,婚姻状况哑变量(已婚为1),家庭成员收入水平(父母,配偶的收入水平),出生地哑变量(城市/农村),educ的工具变量分别为出生时间哑变量(Da,Db,Dc,分别代表在一年的一,二,三季度出生,在一年中的第四季度出生为参照组),出生地哑变量(D1,D2…D30,分别代表三十个省,直辖市,北京市为参照组)与出生时间哑变量的交互项,这是为了控制各地的相关法规与管理力度差异。
试写出2SLS估计方法下的方程。
2.若上题的IV法参数估计值具有一致性,误差项需要满足那些假设条件。
这些条件能够保证IV法估计的参数有效吗
3.假设仅有一个潜在内生变量做解释变量x,n个IVZ=(z1z2z3…zn),证明在IV法估计参数的一致性。
4.参考以下信息:
a)若部分回归结果如下:
log(wage)
OLS
IV
(1)
IV
(2)
IV(3)
93
0
coefficient
standerror
coefficient
standerror
coefficient
standerror
coefficient
standerror
educ
ageagesq
×
×
IVnumber
3
90
90
此外,在first-stage中,工具变量的系数非常小,但统计显著。
b)有实证资料表明:
上半年出生者与下半年出生者在IQ上在一定显著性水平上存在差异(前者较后者高);上半年出生者较下半年出生者有更高概率患肾病;出生的季度性的地区分布在不同年度间有差异。
问题:
可以看到在增加了工具变量数目后,教育程度的IV估计参数与OLS很相近,这是否意味着两种方法效果接近,educ没有显著的内生性
比较两种方法下的参数估计的标准误,有什么发现比较IV
(2)和IV(3),前者在first-stageregression中,没有加入原回归方程的其他控制变量,二者的结果有何差异
从第二段资料中,可以获得哪些有关IV估计方法一致性的信息
如果这些资料反映了现实情况,那个其选用了大样本进行IV估计是否可以保证其一致性
某人手中有1995,2000年5000家工业企业的面板数据,希望考察外国直接投资对于国内企业绩效的影响。
根据相关理论,外国直接投资在东道国企业的影响主要包括横向的竞争效应,带来同类企业生产效率的提升(行业内的溢出效应);通过产业链分工对相关行业的前向与后向影响、技术,专业知识溢出效应、国内人力资本积累增加国内企业利润(行业内的溢出效应)。
于是,构造回归模型,自变量为log(realprofit),解释变量包括,企业层面的控制变量,企业规模(雇员总数),企业投入(技术工人真实工资,各期期初的资本存量,原材料成本);行业层面虚拟变量,时间哑变量,所关心的变量是企业的外资比重,企业所在行业的外资比重,二者的交互项。
问题:
1.试分别写出FE,RE下的回归方程。
二者在哪些条件下优于OLS估计。
2.如何解释企业外资比重与企业所在行业外资比重的交互项系数
3.考虑到企业的利润增长能力很可能与企业规模有关,从而有异方差可能。
写出WLS下回归方程。
4.考虑到外商投入资本的规模或增长率与企业利润增长率可能同时决定,是否可能找到相应的工具变量假如可以掌握样本企业的外资主要成分,即具体来源,是否可以考虑从外商直接投资的母国或者跨国公司特性寻找工具变量
殷华祥0
1.工具变量解决回归中的什么问题需要满足什么条件
Suggestedanswer:
(*)
在回归式(*)中,如果解释变量与误差项相关,即
则如果能找到合适的工具变量可以解决这样的问题。
工具变量
满足这两个假定:
(1)
与
不相关,即
(2)
与
相关,即
则称
是x的工具变量。
2.在研究教育对工资的影响所采用的工具变量
由于能力无法度量,并且能力和教育有关,所以要选取工具变量估计教育回报,比较下面的几个工具变量:
父母的教育
作为工具变量
兄弟姐妹的数目
是否出生在第一季度
Suggestedanswer:
父母的教育作为edu的工具变量,与子女的能力不相关,与子女的教育有相关。
因此是比较好的工具变量。
兄弟姐妹的数目作为edu的工具变量,与能力不相关,与其教育相关。
因此是比较好的工具变量。
是否出生在第一季度作为edu的工具变量,由于义务教务法的原因导致年初出生的学生入学较晚,因此受的教育较少,同时与能力不相关。
因此也是可行的工具变量。
不过父母的教育与兄弟姐妹的数目在一定程度上还是会影响子女的能力,有一定的相关性。
是否出生在第一季度这个二值变量与教育的相关性不高,也影响了其做为工具变量的效果。
1在回归模型中,如果遗漏解释变量时,一般会导致参数的有偏估计。
但是在何种情况下,却依然会得到参数的无偏估计
2工具变量应该具备何种性质
余央央
0汪海燕
一、简单比较代理变量和工具变量异同。
参考答案:
代理变量和工具变量都是解决遗漏变量问题的可行方法。
假设方程为y=a+bx+u,如果遗漏的变量z与x不相关,则b的估计偏大,因为该方程将全部y的变化归功于x一方的贡献,高估了x的作用;如果z与x相关时,可用代理变量或工具变量等方法处理。
(1)代理变量法。
替代变量必须和x高度相关,才具有对他的替代功能。
(2)工具变量法。
如果一个变量
满足如下三个条件(其中
为误差项,
为内生性变量):
1)
,也就是说该变量和误差项无关,它对被解释变量
没有直接影响。
2)
,也就是说变量
必须和
相关。
我们就称
为一个可行的工具变量(IV)。
3)从逻辑上看,
通过影响
达到影响y的目的,如果这个逻辑不成立,
就不是好的IV。
(3)代理变量不是一个好的工具变量,因为代理变量不满足
。
二、用受教育时间、工作时间和工作时间的平方来估计个人工资的方法会出现什么问题
wage=a0+a1edu+a2exp+u.
参考答案:
(1)理论有问题。
该方程的理论基础是人力资本理论,即教育、经验、健康等方面的投资决定了一个人人力资本(综合能力)的大小。
该方程(如果不考虑健康的影响)的致命缺陷是只考虑了教育、经验的数量(时间),没有考虑他们的质量,但是恰恰是质量决定了工资。
(2)还是理论缺陷。
该方程忽略了教育和经验之间的相互关系和相互作用。
对于人力资本的提高,教育和经验有着相同和不同的作用,是以两者具有明显的替代和互补关系,这种关系并非简单的线性关系,因为两者在不同条件下的替代率非恒常不变。
(3)用方程wage=a0+a1edu+a2exp+a3exp2+u.代替原方程也许可以缓解第二个问题,但是无法解决第一个问题。
(4)用ability(IQ)作为遗漏变量的代理变量加入原方程,首先ability不是与教育和经验平行的解释变量,从逻辑上说不通;其次教育和经验的时间本身就隐含了ability的作用,在用它就会出现重复计量;最后用IQ来代表ability可信度有争议。
至于最好的解决上述问题的办法,学生正在思考当中:
)
厉家鼎0
1、简述一般线性模型的经典假设,并证明对于这种模型最小二乘估计量是线性无偏估计量。
答案要点:
a、参数的线性性:
y=β0+β1x+u;
b、随机抽样:
从总体模型中随机抽取样本;
c、零条件均值:
E(u│x)=0;
d、自变量的样本有变异:
在样本中,自变量xi(i=1、2、…、n)不为相同的常数。
证明:
根据假设,有
^β1=Σ(xi--x)yi/Σ(xi--x)2
=Σ(xi--x)(β0+β1xi+ui)/s2
=β1+Σ(xi--x)ui/s2
=β1+(1/s2)Σdiui
则E(^β1)=β1+E[(1/s2)]Σdiui
=β1+(1/s2)ΣE(diui)
=β1+(1/s2)ΣdiE(ui)
=β1+(1/s2)Σdi·0
=β1
又^β0=-y-^β1-x=β0+(β1-^β1)-x+-u
则E(^β0)=β0+E(β1-^β1)-x+E(-u)
=β0+E(β1-^β1)-x
=β0+[β1-E(^β1)]-x
=β0
得证。
2、请简述固定效应和一阶差分的区别。
答案要点:
固定效应和这里的一阶差分都是相对于面板数据而言。
面板数据最大的优点之一在于可以消除残差项中的与解释变量相关而造成的估计量有偏的问题。
我们既可以通过固定效应模型,也可以通过一阶差分来消除残差项中的。
但是在某些情况下,这两种方法存在着效率上的区别。
将设ui,t符合同方差假设:
a、当ui,t无序列相关时,FE比FD更有效;
b、如果ui,t遵循随机游走过程ui,t=ui,t-1+vi,t,vi,t:
n(0,σ2),Δui,t是无序列相关的,此时FD相对更有效;
c、如果严格外生性假定不满足,则FD相对FE比较好;
d、当T很大时,或者N不足够大时,FD更有效;
e、可以同时使用两种方法,比较两种统计量估计的结果,并分析差异存在的原因。
侯振新0
一、
使用对数函数形式有哪些优点
1、使用自然对数使得对系数的解释颇具吸引力
2、由于斜率系数不随测度单位的变化而变化,所以可以忽略以对数形式出现的变量的测度单位
3、当y>0时,使用log(y)作为因变量的模型,通常比使用y的水平值作为因变量的模型更接近CLM假定
4、严格为正的变量,其条件分布常常具有异方差性或偏态性,取对数后,即使不能消除这两方面的问题,也可以使之有所缓和
5、取对数通常会缩小变量的取值范围,在某些情况下还相当可观,这就使得估计值对因变量或自变量的异常(或极端)观测不是那么敏感
二、利用中的数据,我们得到预测大学GPA的如下方程:
=+sat-hsize+
n=4137,
=,
=,
=
有一名学生,sat=1200,hsper=30,hsize=5。
定义一个新的自变量组:
sat0=sat–1200,hsperc0=hsperc–30,hsize0=hsize–5,hsizeq0=
-25.
将colpga对这些新变量进行回归时得到
=+sat-hsize+
n=4137,
=,
=,
=
问题1:
该学生GPA的预测值是多少
问题2:
该学生大学预期GPA的一个95%的置信区间是多少
问题3:
该学生未来的大学GPA的一个95%的置信区间是多少
答案1:
答案2:
,或约为~
答案3:
-
~+
约为~
截面数据和面板数据分析题目
0唐正东
1.你能分别举出三个时间序列数据、截面数据、混合数据、虚拟变量数据的实际例子吗
答:
(1)时间序列数据如:
每年的国民生产总值、各年商品的零售总额、各年的年均人口增长数、年出口额、年进口额等等;
(2)截面数据如:
复旦大学2002年各位教师年收入、2002年各省总产值、2002年5月上海市各区罪案发生率等等;
(3)混合数据如:
1990年~2000年各省的人均收入、消费支出、教育投入等等;
(4)虚拟变量数据如:
婚否,身高是否大于170厘米,受教育年数是否达到10年等等。
2.判断下列说法是否正确,并简要说明为什么。
(1)当异方差出现时,最小二乘估计是有偏的和不具有最小方差特性;
答:
不正确。
这个时候估计式是无偏的,但是不具有最小方差性。
(2)当异方差出现时,常用的t和F检验失效;
答:
正确。
由于方差不是常数而是变数,这时一般意义上t比值的分布是未知的,但肯定不再遵从t-分布,使得t检验失效;同理,在异方差条件下,F比值也不再是遵从F-分布,F检验也失效。
(3)异方差情况下,通常的OLS估计一定高估了估计量的标准差;
答:
一般是低估了其标准差。
(4)如果OLS回归的残差表现出系统性,则说明数据中有异方差性;
答:
是,但同时也要考虑自相关性的存在。
(5)如果回归模型中遗漏一个重要变量,则OLS残差必定表现出明显的趋势;
答:
是。
尤其是在经济、金融数据中,这种异方差性的现象更为突出。
(6)如果模型遗漏一个非恒定方差的回归元,则残差将会呈异方差。
答:
一般来说是的,但是有时候不见得会表现出来或者说不一定能够观察