岭回归解决多重共线性Word格式.doc
《岭回归解决多重共线性Word格式.doc》由会员分享,可在线阅读,更多相关《岭回归解决多重共线性Word格式.doc(9页珍藏版)》请在冰点文库上搜索。
1.直观的判断方法
(1)在自变量的相关系数矩阵中,有某些自变量的相关系数值比较大。
(2)回归系数的符号与专业知识或一般经验相反
(3)对重要的自变量的回归系数进行t检验,其结果不显著,但是F检验确得到了显著的通过
(4)如果增加一个变量或删除一个变量,回归系数的估计值发生了很大的变化
(5)重要变量的回归系数置信区间明显过大
2.方差扩大因子法()
定义=其中是以为因变量时对其他自变量的复测定系数。
一般认为如果最大的超过10,常常表示存在多重共线性。
事实上=>
10这说明<
0.1即>
0.9。
3.特征根判定法
根据矩阵行列式的性质,矩阵行列式的值等于其特征根的连乘积。
因此,当行列式||≈0时,至少有一个特征根为零,反过来,可以证明矩阵至少有一个特征根近似为零时,X的列向量必存在多重共线性,同样也可证明有多少个特征根近似为零矩阵,就有多少个多重共线性。
根据条件数,其中为最大的特征根,为其他的特征根,通常认为0<
<
10,没有多重共线性,>
10存在着多重共线性。
(五)多重共线性的处理方法
1.增加样本容量
当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中,由于受到各种条件的限制增加样本容量有时又是不现实的。
2.剔除法
对于一些不重要的解释变量进行剔除,主要有向前法和后退法,逐步回归法。
理论上这三种方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下,结论的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面,这时如果贸然的删除就不符合现实的经济意义。
3.主成分法
当自变量间有较强的线性相关性时,利用个变量的主成分,所具有的性质,如果他们是互不相关的,可由前个主成来建立回归模型。
由原始变量的观测数据计算前个主成分的得分值,将其作为主成分的观测值,建立与主成分的回归模型即得回归方程。
这时元降为元,这样既简化了回归方程的结构,且消除了变量间相关性带来的影响
4.(偏最小二乘法)
H.Wold在1975年提出的偏最小二乘法近年来引起广泛的关注,在解决多重共线性方面,它与主成分回归法,岭回归法一样都能很好的达到目的,但偏最小二乘又与前者又有较大的区别,偏最小二乘法集中了最小二乘法、主成分分析法和典型相关分析的的优点克服了两种方法的缺点。
偏最小二乘法吸取了主成分回归提取主成分的思想,但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关,因而主成分与因变量在算法上关系不密切,从而导致最后主成分在实际应用中无法更好的进一步拟合因变量,偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便运算的自变量的线性组合。
5.岭回归法.
岭回归分析是1962年由Heer首先提出的,1970年后他与肯纳德合作,进一步发展了该方法,在多元线性回归模型的矩阵形式,参数的普通最小二乘估计为=,岭回归当自变量存在多重共线性||≈0时,给矩阵加上一个正常系数矩阵,那么=,当时就是普通最小二乘估计。
三、实际的应用
我们对于重庆市1987至2010年的统计数据做一个回归预测模型,选取工业总产值为因变量,固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。
设模型为(3.1)
(一)普通的最小二乘法
对模型进行最小二乘估计得到如下的结果:
表3.1:
模型总结
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
ChangeStatistics
RSquareChange
FChange
df1
df2
Sig.FChange
1
.998a
.996
.995
161.9431718
1198.108
4
19
.000
表3.2:
方差分析表
SumofSquares
df
MeanSquare
F
Sig.
Regression
1.257E8
3.142E7
1.198E3
.000a
Residual
498286.227
26225.591
Total
1.262E8
23
表3.3:
系数矩阵表
B
Std.Error
Beta
t
Sig
Tolerance
VIF
-193.968
311.594
-.623
.541
.622
.393
.487
1.582
.130
.002
455.510
.025
.016
.188
1.570
.133
.015
68.694
1.202
.743
.349
1.617
.122
.004
224.271
-.030
.117
-.023
-.261
.797
.027
37.372
调整的可决系数为0.995,F=1198,在置信水平为95%,自由度4,方程通过了显著性的检验,从这里我们可以看出从整体上来说方程得到了很好的拟合,但是各个系数的检验却并没有通过,而且能源消费的系数为负,这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。
根据方差扩大因子=455.510,=68.694,=224.271,=37.372.均大于10说明存在多重共线性。
此外我们还可以根据共线性的诊断,来判断多重共线性的存在。
为此,利用SPSS软件进行相关处理可以得到下表:
表3.4:
多重共线性诊断表
Dimension
Eigenvalue
ConditionIndex
VarianceProportions
(Constant)
4.412
1.000
.00
2
.568
2.788
.01
3
.017
16.264
.13
.05
.22
.003
39.288
.25
.80
.07
.39
5
.001
71.989
.61
1.00
.20
.88
从特征值我们可以看到有两个接近于零,条件数我们可以看到最大条件数为71.989,说明存在着共线性,以上的分析说明因变量间存在着多重共线性。
(二)运用岭回归解决多重共线性
用SPSS软件的岭回归功能的语法实现岭回归,做出的结果如下:
表3.5:
岭参数K值表
KRSQX1X2X3X4
.00000.99605.486610.187544.349141-.022974
.05000.99450.298761.231025.351029.109212
.10000.99286.279395.234139.315824.148780
.15000.99135.268288.234093.295846.168122
.20000.98984.260456.232912.282446.178951
.25000.98824.254302.231210.272489.185418
.30000.98652.249140.229240.264570.189368
.35000.98466.244625.227127.257967.191744
.40000.98265.240562.224938.252270.193079
.45000.98050.236833.222713.247230.193695
.50000.97822.233363.220477.242684.193798
.55000.97581.230101.218244.238524.193528
.60000.97327.227009.216026.234672.192980
.65000.97062.224062.213829.231075.192222
.70000.96786.221240.211658.227690.191305
.75000.96501.218527.209517.224485.190265
.80000.96206.215912.207406.221437.189132
.85000.95903.213385.205328.218526.187927
.90000.95591.210938.203284.215736.186667
.95000.95273.208564.201273.213056.185366
1.0000.94948.206258.199296.210473.184034
图3.1岭迹图
从岭迹图上看,最小二乘的稳定性很差,当稍微增大时,系数有较大的变化。
对各个变量分别来看,当=0,、和对于变量有显著性正的影响,对于变量有负的影响,从岭回归的角度来看,变量和随着的增大其系数值迅速减小最终趋于稳定,随着的增加变化不大,对于讲,当逐渐增大时,由负的影响变为正的影响。
由于和的岭参数都迅速减少,两者之和比较稳定。
从岭回归的角度看,和只要保留一个就可以了。
和的岭回归系数相对稳定。
通过分析,决定剔除,对剩下的三个变量进行岭回归。
把岭参数步长改为0.02,范围缩小到0.2,在SPSS中用命令生成得到如下结果:
表3.6:
步长为0.02时的岭参数值表
KRSQX1X2X3
.00000.99604.436166.179183.385799
.02000.99584.351867.262568.380494
.04000.99560.342222.282832.363342
.06000.99531.336854.291961.353101
.08000.99497.332900.296644.345962
.10000.99457.329612.299105.340458
.12000.99410.326701.300300.335921
.14000.99357.324028.300709.332010
.16000.99297.321521.300600.328527
.18000.99231.319135.300137.325355
.20000.99159.316844.299420.322417
由上表可以看到,剔除了后岭回归系数变化幅度减小,从岭迹图看岭参数在0.12到0.20之间时,岭参数已基本稳定,当=0.16时,0.99297仍然很大,因而可以选取=0.16岭参数。
然后给定,重新作岭回归,计算结果如下:
表3.7:
k=0.16时的岭回归
MultR.9964780
RSquare.9929685
AdjRSqu.9919137
SE210.6252025:
表3.8:
dfSSMSFvalueSinF
Regress3.00012529541741765139941.44.000000
Residual20.000887259.5244362.976
表3.9:
方程中的变量
BSE(B)BetaB/SE(B)
X1.4110191.0098800.321520841.6010169
X2.0399873.0017557.300600422.7755604
X31.1311326.0405681.328527227.8823490
Constant-451.706605569.6480613.0000000-6.4855589
得到对对的标准化岭回归方程为:
(3.2)
(41.601)(22.776)(27.882)
0.993=941.44
普通最小二乘法得到的回归方程为
(3.3)
(1.582)(1.570)(1.617)(-0.261)
标准化岭回归得到的统计量都比OLS估计显著,因此岭回归得到预期的效果。
(三)主成分分析法
同样利用SPSS软件中的Analyze下拉菜单进行主成分分析。
可以得到如下结果:
表3.10:
总的解释方差表
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
%ofVariance
Cumulative%
3.927
98.166
.060
1.491
99.657
.012
.306
99.964
.036
100.000
由上表可以知道,四个主成分的特征值的最大值为3.927,最小值为0.001;
前两个因子的累积贡献率已经达到99.657%,故只需要保留前两个主成分。
利用SPSS的主成分分析进入变量计算。
对前两主成分作普通最小二乘法:
第一主成分(3.4)
第二主成分(3.5)
用对、做普通最小二乘法,得如下回归方程为
(3.6)
因此,可以得出主成分回归方程为
(3.7)
回归方程的的修正的可决系数为0.996。
由上面的分析我们看到岭回归和主成分的所得到的结果比较接近,各个系数解释也更加的合理,符合现实意义。
五、结论
主成分法和岭回归所估计的参数,都已经不是无偏的估计,主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性,其降维的优势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间.岭回归估计是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法,采用它可以通过允许小的误差而换取高于无偏估计量的精度,因此它接近真实值的可能性较大。
灵活运用岭回归法,可以对分析各变量之间的作用和关系带来独特而有效的帮助。
作为统计方法,每种方法都有其适用范围,我们应该比较其效果而选用而不是断然否定一种方法。
参考文献
[1]何晓群.应用回归分析[M].中国人民统计大学出版社:
2007,(13).
[2]钱晓莉.基于特征值的多重共线性处理方法[J].统计与决策:
2004,(10).
[3]白雪梅,赵松山.更深入地认识多重共线性[J].东北财经大学学报:
2005,(02).
[4]赵松山,白雪梅.关于多重共线性检验方法的研究[J].中国煤炭经济学院学报:
2001,(04).[5]高辉.多重共线性的诊断方法[J].统计与信息论坛:
2003,(01).
[6]达摩达尔.N.古扎拉蒂.计量经济学[M].中国人民大学出版社:
2004,(6).
[7]薛薇.SPSS统计分析方法及应用[M].电子工业出版社:
2009,
(1).
[8]秦红兵.多元回归分析中多重共线性的探讨与实证[J].科技信息:
2007,(31).
[9]柳丽,魏庆钲.回归分析中多重共线性的诊断与处理[J].中国卫生统计:
1994,(11).
[10]JohnS.Y.Chiu.ASimulationStudyofEffectsofMulticollinearityandAutocorrelationon
EstimatesofParameters[J].TheJournalofFinancialandQuantitativeAnalysis:
1996,(6).
[11]MarkZ.Fabrycy.MulticollinearitycausedbySpecificationErrors[J].AppliedStatistics:
1975,(4).
[12]Nityanandasarkar.Meansquareerrormatrixcomparisionofsomeestmatorsinlinearregressionswithmuillinearity[J].StatisticsandProbabilityletters:
1996,(10).
9