09多重共线性Word格式.docx

上传人:b****3 文档编号:7980335 上传时间:2023-05-09 格式:DOCX 页数:20 大小:211.13KB
下载 相关 举报
09多重共线性Word格式.docx_第1页
第1页 / 共20页
09多重共线性Word格式.docx_第2页
第2页 / 共20页
09多重共线性Word格式.docx_第3页
第3页 / 共20页
09多重共线性Word格式.docx_第4页
第4页 / 共20页
09多重共线性Word格式.docx_第5页
第5页 / 共20页
09多重共线性Word格式.docx_第6页
第6页 / 共20页
09多重共线性Word格式.docx_第7页
第7页 / 共20页
09多重共线性Word格式.docx_第8页
第8页 / 共20页
09多重共线性Word格式.docx_第9页
第9页 / 共20页
09多重共线性Word格式.docx_第10页
第10页 / 共20页
09多重共线性Word格式.docx_第11页
第11页 / 共20页
09多重共线性Word格式.docx_第12页
第12页 / 共20页
09多重共线性Word格式.docx_第13页
第13页 / 共20页
09多重共线性Word格式.docx_第14页
第14页 / 共20页
09多重共线性Word格式.docx_第15页
第15页 / 共20页
09多重共线性Word格式.docx_第16页
第16页 / 共20页
09多重共线性Word格式.docx_第17页
第17页 / 共20页
09多重共线性Word格式.docx_第18页
第18页 / 共20页
09多重共线性Word格式.docx_第19页
第19页 / 共20页
09多重共线性Word格式.docx_第20页
第20页 / 共20页
亲,该文档总共20页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

09多重共线性Word格式.docx

《09多重共线性Word格式.docx》由会员分享,可在线阅读,更多相关《09多重共线性Word格式.docx(20页珍藏版)》请在冰点文库上搜索。

09多重共线性Word格式.docx

(4)增加或减少解释变量个数时,回归参数估计值变化很大,说明模型有可能存在多重共线性。

(5)此外还有其他一些检验方法,如主成分分析法等,很复杂。

5.多重共线性的克服方法

5.1直接合并解释变量

当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量直接合并,从而降低或消除多重共线性。

如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工业总产值,从而使模型中的解释变量个数减少到两个以消除多重共线性。

甚至还可以与农业总产值合并,变为工农业总产值。

解释变量变成了一个,自然消除了多重共线性。

5.2利用已知信息合并解释变量

通过经济理论及对实际问题的深刻理解,对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。

比如有二元回归模型

yt=0+1xt1+2xt2+ut(7.20)

x1与x2间存在多重共线性。

如果依据经济理论或对实际问题的深入调查研究,能给出回归系数1与2的某种关系,例如

2=1(7.21)

其中为常数。

把上式代入模型(7.20),得

yt=0+1xt1+1xt2+ut=0+1(xt1+xt2)+ut(7.22)

xt=xt1+xt2

yt=0+1xt+ut(7.23)

模型(7.23)是一元线性回归模型,所以不再有多重共线性问题。

用普通最小二乘法估计模型(7.23),得到

,然后再利用(7.21)式求出

下面以道格拉斯(Douglass)生产函数为例,做进一步说明。

Yt=KLtCteut(7.24)

其中Yt表示产出量,Lt表示劳动力投入量,Ct表示资本投入量。

两侧取自然对数后,

LnYt=LnKt+LnLt+LnCt+ut(7.25)

因为劳动力(Lt)与资本(Ct)常常是高度相关的,所以LnLt与LnCt也高度相关,致使无法求出,的精确估计值。

假如已知所研究的对象属于规模报酬不变型,即得到一个条件

+=1

利用这一关系把模型(7.25)变为

LnYt=LnKt+LnLt+(1-)LnCt+ut

整理后,

Ln(

)=LnKt+Ln(

)+ut(7.26)

变成了Ln(Yt/Ct)对Ln(Lt/Ct)的一元线性回归模型,自然消除了多重共线性。

估计出后,再利用关系式+=1,估计。

5.3增加样本容量或重新抽取样本

这种方法主要适用于那些由测量误差而引起的多重共线性。

当重新抽取样本时,克服了测量误差,自然也消除了多重共线性。

另外,增加样本容量也可以减弱多重共线性的程度。

5.4合并截面数据与时间序列数据

这种方法属于约束最小二乘法(RLS)。

其基本思想是,先由截面数据求出一个或多个回归系数的估计值,再把它们代入原模型中,通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量,然后建立新因变量对那些保留解释变量的回归模型,并利用时间序列样本估计回归系数。

下面通过一个例子具体介绍合并数据法。

设有某种商品的销售量Yt模型如下,

LnYt=0+1LnPt+2LnIt+ut(7.29)

其中Yt表示销售量,Pt表示平均价格,It表示消费者收入,下标t表示时间。

在时间序列数据中,价格Pt与收入It一般高度相关,所以当用普通最小二乘法估计模型(7.29)的回归系数时,会遇到多重共线性问题。

首先利用截面数据估计收入弹性系数2。

因为在截面数据中,平均价格是一个常量,所以不存在对1的估计问题。

把用截面数据得到的收入弹性系数估计值

代入原模型(7.29)。

LnYt=0+1LnPt+

LnIt+ut

移项整理

LnYt-

LnIt=0+1LnPt+ut

变换后的因变量(LnYt-

LnIt)用Zt表示,则

Zt=0+1LnPt+ut(7.30)

这时已排除收入变量的影响。

模型已变换为一元线性回归模型。

利用时间序列数据对模型(7.30)作普通最小二乘(OLS)估计,求出

这样便求到相对于模型(7.29)的估计式,

=

+

LnPt+

LnIt

其中

是用截面数据估计的,

是由时间序列数据估计的。

由于把估计过程分作两步,从而避免了多重共线性问题。

显然这种估计方法默认了一种假设,即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的

相同。

当这种假设不成立时,这种估计方法会带来估计误差。

5.5逐步回归法

(1)用被解释变量对每一个所考虑的解释变量做简单回归。

并给解释变量的重要性按可决系数大小排序。

(2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按解释变量重要性大小为顺序逐个引入其余的解释变量。

这个过程会出现3种情形。

①若新变量的引入改进了R2,且回归参数的t检验在统计上也是显著的,则该变量在模型中予以保留。

②若新变量的引入未能改进R2,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量是多余的,应该舍弃。

③若新变量的引入未能改进R2,且显著地影响了其他回归参数估计值的符号与数值,同时本身的回归参数也通不过t检验,这说明出现了严重的多重共线性。

舍弃该变量。

案例1:

关于中国电信业务总量的计量经济模型(file:

coline2)

经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均GDP、全国居民人均消费水平。

用1991-1999年数据建立中国电信业务总量计量经济模型如下,

Lny=24.94+2.16x1–3.03x2+33.7x3+1.29x4-2.03x5

(0.7)(1.6)(-0.8)(1.0)(1.5)(-1.2)

R2=0.9944,F=106.3,DW=3.4,T=9,(1991-1999),t0.05(3)=3.18,

R2=0.99,而每个回归参数的t检验在统计上都不显著,这说明模型中存在严重的多重共线性。

下面用Klein判别法进行分析。

首先给出解释变量间的简单相关系数矩阵。

因为其中有一个简单相关系数大于R2=0.9944,所以根据Klein判别法,模型中存在严重的多重共线性。

Ln(y)

X1

X2

X3

X4

X5

1.0000

x1

0.9833

x2

0.9938

0.9895

x3

0.9875

0.9700

0.9882

x4

0.9820

0.9628

0.9872

0.9678

x5

0.9815

0.9703

0.9888

0.9654

0.9986

用逐步回归法筛选解释变量。

(1)用每个解释变量分别对被解释变量做简单回归,以可决系数为标准确定解释变量的重要程度,为解释变量排序。

Lny=-0.39+2.06x1

(-2.1)(14.3)R2=0.9668,F=204,T=9

Lny=-33.26+2.91x2

(-22.2)(23.6)R2=0.9875,F=555,T=9

Lny=-18.46+70.75x3

(-14.9)(16.6)R2=0.9752,F=275.5,T=9

Lny=-0.49+0.56x4

(-2.5)(13.8)R2=0.9644,F=189.7,T=9

Lny=-0.42+1.16x5

(-2.2)(13.5)R2=0.9633,F=183.5,T=9

之所以取半对数模型,是因为y与x1,x3,x4,x5分别呈指数关系。

解释变量的重要程度依次为x2,x3,x1,x4,x5。

(2)以Lny=-33.26-291x2为基础,依次引入x3,x1,x4,x5。

首先把x3引入模型,

Lny=-29.9+2.24x2+16.76x3

(-6.9)(2.7)(0.8)R2=0.988,F=265.5,T=9

因为x3的引入使各回归系数的t值下降,同时x3的系数也未通过t检验,所以应剔除x3。

接着把x1引入模型,

Lny=-33.37+2.92x2–0.007x1

(-3.2)(3.2)(-0.01)R2=0.9875,F=237.9,T=9

同理剔除x1引入x4

Lny=-31.94+2.79x2+0.022x4

(-3.4)(3.3)(0.14)R2=0.9876,F=238.7,T=9

同理剔除x4引入x5

Lny=-34.97+3.06x2-0.062x5

(-3.4)(3.4)(-0.17)R2=0.9876,F=238.7,T=9

同理剔除x5,最后确定的模型是

Lny=-33.26+2.91x2

或者用解释变量之间相关系数值最小的x1和x4同做解释变量与Lny回归,得

Lny=-0.48+1.08x1+0.28x4

(-3.4)(2.7)(2.5)R2=0.98,F=184,T=9

用EViews求相关系数矩阵

(1)点击Quick键并依次选择GroupStatistics,Correlations,将出现一个要求填写序列名的对话框(SeriesList),填好序列名后按OK。

(2)在Workfile窗口中用鼠标选中序列名,点击Show键,OK键,从而打开数据组(Group)窗口。

在数据组窗口点击View键选择Correlations。

表1变量y,x1,x2,x3,x4,x5的数据

电信业务总量

y

邮政业务总量

中国人口数

市镇人口比重

人均GDP

人均消费水平

1991

1.5163

0.5275

11.5823

0.2637

1.879

0.896

1992

2.2657

0.6367

11.7171

0.2763

2.287

1.070

1993

3.8245

0.8026

11.8517

0.2814

2.939

1.331

1994

5.9230

0.9589

11.9850

0.2862

3.923

1.746

1995

8.7551

1.1334

12.1121

0.2904

4.854

2.236

1996

12.0875

1.3329

12.2389

0.2937

5.576

2.641

1997

12.6895

1.4434

12.3626

0.2992

6.053

2.834

1998

22.6494

1.6628

12.4810

0.3040

6.307

2.972

1999

31.3238

1.9844

12.5909

0.3089

6.534

3.143

资料来源:

《中国统计年鉴》2000

案例2:

(file:

B1E4)1998年农村居民食品支出(处理多重共线性)

1998年31省市自治区农村居民人均年食品支出(food,元)、人均年总支出(EX,元)和人均年可支配收入(IN,元)

见散点图2,food与IN是正相关的(0.89),但估计结果回归系数确是负的。

显然与事实不符、与经济理论不符。

原因是EX和IN之间的多重共线性(高度相关)所致。

从下表可以看出都r(EX,IN)=0.9537大于可决系数0.9482。

按克莱茵判别准则模型存在严重的多重共线性。

图1图2

另外,如果用food只对IN回归,回归系数是正的。

与上述二元回归结果中的IN的回归系数相比,符号都是反的。

这也说明上述二元回归结果中存在多重共线性。

Foodt=285.5945+0.2571Int

(4.7)(10.5)R2=0.79,F=110,T=31

处理方法是用food只对EX回归。

效果很好。

obs

FOOD

EX

IN

1

1215.08

2873.2

3952.32

2

911.39

1976.7

3395.7

3

616.9

1298.54

2405.32

4

592.19

1056.45

1858.6

5

867.38

1577.12

1981.48

6

898.87

1702.68

2579.79

7

799.69

1471.46

2383.6

8

805.33

1464.64

2253.1

9

1775.04

4206.89

5406.87

10

1117.01

2336.78

3376.78

11

1361.8

2890.65

3814.56

12

732.14

1333.05

1863.06

13

1101.64

2025.09

2946.37

14

899.37

1538.24

2048

15

804.64

1595.09

2452.83

16

700.78

1240.3

1864.05

17

918.95

1699.43

2172.24

18

1107.23

1889.17

2064.85

19

1370.7

2683.18

3527.14

20

808.82

1414.76

1971.9

21

767.42

1246.12

2018.31

22

831.08

1343.35

1720.46

23

871.83

1440.77

1789.17

24

757.55

1094.39

1334.46

25

801.99

1312.31

1387.25

26

497.41

710.26

1231.5

27

590.9

1181.38

1405.59

28

556.85

939.55

1393.05

29

694.62

1117.79

1424.79

30

706.56

1327.63

1721.17

31

713.34

1450.29

1600.14

资料来源:

《中国统计年鉴》1989。

案例3:

nonli14)中国私人轿车拥有量决定因素分析(多重共线性特征)

1985-2002年中国私人轿车拥有量以年增长率23%,年均增长55万辆的速度飞速增长。

考虑到目前农村家庭购买私人轿车的现象还很少,在建立中国私人轿车拥有量模型时,主要考虑如下因素:

(1)城镇居民家庭人均可支配收入;

(2)城镇总人口;

(3)轿车产量;

(4)公路交通完善程度;

(5)轿车价格。

“城镇居民家庭人均可支配收入”、“城镇总人口数”和“轿车产量”可以直接从统计年鉴上获得。

“公路交通完善程度”用全国公路里程度量,也可以从统计年鉴上获得。

由于国产轿车价格与进口轿车价格差距较大,而且轿车种类很多,做分种类的轿车销售价格与销售量统计非常困难,所以因素“轿车价格”暂且略去不用。

定义变量名如下:

Y:

中国私人轿车拥有量(万辆)

X1:

城镇居民家庭人均可支配收入(元),

X2:

全国城镇人口(亿人)

X3:

全国汽车产量(万辆)

X4;

全国公路长度(万公里)

看相关系数阵,Y与X1,X2,X3,X4的相关系数都在0.9以上,但输出结果中,解释变量X1,X2,X3的回归系数却通不过显著性检验。

这预示着解释变量之间一定存在多重共线性。

看散点图,把Y与X3,X4处理成线性关系,把Y与X1,X2处理成幂函数(抛物线)关系,得结果如下,

每个变量都具有很高的显著性。

拟合优度也提高了,没有异方差也没有自相关。

Y

1985

28.49

739.1

2.51

43.72

92.24

1986

34.71

899.6

2.64

36.98

96.28

1987

42.29

1002.2

2.77

47.18

98.22

1988

60.42

1181.4

2.87

64.47

99.96

1989

73.12

1375.7

2.95

58.35

101.43

1990

81.62

1510.2

3.02

51.4

102.83

96.04

1700.6

3.05

71.42

104.11

118.2

2026.6

3.24

106.67

105.67

155.77

2577.4

3.34

129.85

108.35

205.42

3496.2

3.43

136.69

111.78

249.96

4283

3.52

145.27

115.7

289.67

4838.9

3.73

147.52

118.58

358.36

5160.3

3.94

158.25

122.64

423.65

5425.1

4.16

163

127.85

533.88

5854

4.37

183.2

135.17

2000

625.33

6280

4.59

207

140.27

2001

770.78

6859.6

4.81

234.17

169.8

2002

968.98

7702.8

5.02

325.1

176.52

数据来源:

《中国统计年鉴》,中国统计出版社,1986-2003。

1.5.4平稳的随机解释变量

假定条件⑵规定解释变量是非随机的且与随机误差项相互独立,即

E(X'

u)=0.

这个假定条件保证了OLS估计量的无偏性。

然而经济时间序列变量有时很难满足这个条件。

比如在建立模型过程中如果也用被解释变量的滞后变量做解释变量,那么假定条件E(X'

u)=0就很难成立。

又如对于消费模型,若认为消费变量是随机的,就很难认为收入变量是非随机的。

此外对解释变量的观测常常带有测量误差,有时一个方程也许是属于变量间带有随机反馈的联立方程组中的一个,这些因素都会影响解释变量的非随机性。

当模型中的解释变量是随机的,但具有平稳性且与误差项相互独立时,虽然计算公式变得更为复杂,但OLS估计量的优良特性基本上都存在。

有如下模型

Y=X+u

其中X是随机的。

X的方差协方差矩阵是一个纯量矩阵。

若如下条件成立,

T-1X'

X=Q,(1.96)

u=0.(1.97)

其中Q是一个非退化矩阵(假定条件⑷),则的最小二乘估计量具有一致性。

=

(X'

X)-1X'

Y

=

X)-1X'

(X+u)

=+

u

(T-1X'

X)-1

(T-1X'

u)

=+Q-10=(1.98)

同时可证明Var(

)的估计量也具有一致性(略)。

1.5.5变量的测量误差

当变量存在测量误差,特别是当解释变量存在测量误差时,会把这种误差叠加到被解释变量上,从而导致回归系数的OLS估计量失去一致性。

.

因为

是渐近偏倚的,所以也是不一致的。

1.5.6丢失变量偏倚

当模型中丢失与解释变量有关且对被解释变量又解释作用的变量时会对模型参数的估计造成偏倚。

E(

1.5.7模型中被解释

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2