线性回归分析的基本步骤Word格式文档下载.docx
《线性回归分析的基本步骤Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《线性回归分析的基本步骤Word格式文档下载.docx(18页珍藏版)》请在冰点文库上搜索。
200
136
144
145
220
137
152
157
162
240
155
165
175
189
260
150
178
185
191
作出其散点图如下:
2总体回归方程(线):
由于假定EU0,因此因变量的均值与自变量
总处于一条直线上,这条直线EY|XX就称为总体回归线(方程)总体回归方程的求法:
以例1的数据为例1)对第一个Xi,求出E(Y|Xi)
每周收入(X)
每周消费支出
(Y)
E(Y|Xi)
77
89
101
149
161
173
由于EYi|XioiXi,因此任意带入两个Xi和其对应的E(Y|Xi)值,即可求出°
和i,并进而得到总体回归方程。
如将X2100,EY2|X277和X7200,EY7|X7137代入
以上求出0和1反映了E(Y|Xi)和Xi之间的真实关系,即所求的总体回归方程为:
EYi|Xi170.6Xi,其图形为:
③样本回归模型:
总体通常难以得到,因此只能通过抽样得到样本数据。
如在例1中,通过抽样考察,我们得到了20个家庭的样本数据:
每周消费支出(
丫)
那么描述样本数据中因变量Y和自变量X之间非确定依赖关系的模型丫X?
e就称为样本回归模型。
④样本回归方程(线):
通过样本数据估计出?
,得到样本观测值的拟合值与解释变量之间的关系方程Y?
X?
称为样本回归方程。
如下图所示:
⑤四者之间的关系:
i:
总体回归模型建立在总体数据之上,它描述的是因变量丫和自变量X
之间的真实的非确定型依赖关系;
样本回归模型建立在抽样数据基础之
上,它描述的是因变量丫和自变量X之间的近似于真实的非确定型依赖关系。
这种近似表现在两个方面:
一是结构参数?
是其真实值的一种近似估计;
二是残差e是随机误差项U的一个近似估计;
ii:
总体回归方程是根据总体数据得到的,它描述的是因变量的条件均值
E(Y|X)与自变量X之间的线性关系;
样本回归方程是根据抽样数据得到的,它描述的是因变量Y样本预测值的拟合值Y?
与自变量X之间的线性关系。
iii:
回归分析的目的是试图通过样本数据得到真实结构参数的估计值,
并要求估计结果?
足够接近真实值。
由于抽样数据有多种可能,每一次抽样所得到的估计值?
都不会相同,即的估计量?
是一个随机变量。
因此必须选择合适的参数估计方法,使其具有良好的统计性质。
2、随机误差项U存在的原因:
1非重要解释变量的省略
2人的随机行为
3数学模型形式欠妥
4归并误差(如一国GDP的计算)
5测量误差等
3、多元回归模型的基本假定
1随机误差项的期望值为零E(Ui)0
2随机误差项具有同方差性Var(ui)2i1,2,L,n
3随机误差项彼此之间不相关Cov(ui,uj)0ij;
i,j1,2,L,n
4解释就变量x1,x2,-;
Xk为确定型变量,与随机误差项彼此不相关。
Cov(Xij,uj)0i1,2,L,kj1,2,L,n
5解释就变量X1,X2,-;
xk之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵X为满秩矩阵:
rank(X)=k+1<
n
6随机误差项服从正态分布,即:
片〜N(0,2),i=1,2,…;
步骤二、参数估计
1、最小二乘估计的基本原理:
残差平方和最小化。
2、参数估计量:
?
Xiyi
■12
1一元回归:
Xi
0Y?
iX
2多元回归:
?
XX1xty
3、最小二乘估计量的性质(Gauss-Markov定理):
在满足基本假设的情况下,最小二乘估计量?
是的最优线性无偏估计量(BLUE估计量)
步骤三、模型检验
1、经济计量检验(后三章内容)
2、统计检验
①拟合优度检验
拟合优度检验的作用:
检验回归方程对样本点的拟合程度
ii:
拟合优度的检验方法:
计算(调整的)样本可决系数R2/R2
r2趣1婪,R21ESS/nk1
TSSTSS'
TSS/n1
注意掌握离差平方和、回归平方和、残差平方和之间的关系以及它们
的自由度。
计算方法:
通过方差分析表计算
方差来源
符号
计算公式
自由度(d.f.)
均方值(MSS)
离差平方和
TSS
—2
Yi丫
i
n-1
YiY2/n-1
回归平方和
RSS
2
丫?
丫
k
Y?
Y/k
残差平方和
ESS
Yi丫?
2
n-k-1
Yi丫?
/n-k-1
例2:
下表列出了三变量(二元)模型的回归结果:
平方和(SS)
自由度
均方值
离差平方和TSS
66042
14
回归平方和RSS
65965
残差平方和ESS
1)样本容量为多少?
解:
由于TSS的自由度为n-1,由上表知n-1=14,因此样本容量n=15
2)求ESS
由于TSS=ESS+RSS,故ESS=TSS-RSS=773)ESS和RSS的自由度各为多少?
对三变量模型而言,k=2,故ESS的自由度为n-k-1=12
RSS的自由度为k=2
4)求R2和R2
②回归方程的显著性检验(F检验)
目的:
检验模型中的因变量与自变量之间是否存在显著的线性关系步骤:
仁提出假设:
:
0:
至少有一.0k,j01,2,…,k
2、构造统计量:
Fes^/T:
芒心k1)
3、给定显著性水平,确定拒绝域FFk,nk1
4、计算统计量值,并判断是否拒绝原假设
例3:
就例2中的数据,给定显著性水平
1%,对回归方程进行显著性
RSS/k65965/25140.13,
ESS/nk177/12
又F0.012,126.93,而F5140.13F0.012,126.93
故拒绝原假设,即在1%的显著性水平下可以认为回归方程存在显著
的线性关系。
附:
R2与F检验的关系:
3解释变量的显著性检验(t检验)目的:
检验模型中的自变量是否对因变量存在显著影响。
知识点:
1中位于第i+1行
多元回归:
s?
J——「g门1,其中Ci1i1为xx
Vnk1
和i+1列的元素;
222
一元回归:
S?
、ei——Xi2,S?
」ei2
0Ynn2Xi1Yn2xi
变量显著性检验的基本步骤:
1、提出假设:
Ho:
i0Hi:
i0
2、构造统计量:
t-~t(nk1)
S?
3、给定显著性水平,确定拒绝域|tt/2(nk1)
4、计算统计量值,并判断是否拒绝原假设
例4:
根据19个样本数据得到某一回归方程如下:
58.90.2X10.1X2
se(0.0092)(0.084)
试在5%的显著性水平下对变量X1和X2的显著性进行检验。
由于t/2(nk1)t°
.°
25(16)2.12,故t检验的拒绝域为|t2.12。
对自变量X1而言,其t统计量值为t—10221.742.12,落入
0.0092
1
拒绝域,故拒绝10的原假设,即在5%的显著性水平下,可以认为自变
量X1对因变量有显著影响;
对自变量X2而言,其t统计量值为t子1.192.12,未落入拒
0.084
绝域,故不能拒绝20的原假设,即在5%的显著性水平下,可以认为
自变量X2对因变量Y的影响并不显著。
4回归系数的置信区间
给定某一置信水平1,构造某一回归参数i的一个置信区间,使
i落在该区间内的概率为1
基本步骤:
1、构造统计量t」L〜t(nk1)
2、给定置信水平1,查表求出水平的双侧分位数t/2(nk1)
3、求出i的置信度为1的置信区间?
t/2S?
?
it/2S?
ii
例5:
根据例4的数据,求出1的置信度为95%的置信区间。
由于to.025(16)2.12,故1的置信度为95%的置信区间为:
0.22.120.0092,0.22.120.00920.18,0.22
3、经济意义检验
检验回归参数的符号及数值是否与经济理论的预期相符。
例6:
根据26个样本数据建立了以下回归方程用于解释美国居民的个人
消费支出:
10.960.93X12.09X2
t(3.33)(249.06)(3.09)
R20.9996
其中:
Y为个人消费支出(亿元);
X1为居民可支配收入(亿元);
X2为利率(%)
1)先验估计?
1和?
2的符号;
由于居民可支配收入越高,其个人消费水平也会越高,因此预期自变
量X1回归系数的符号为正;
而利率越高,居民储蓄意愿越强,消费意愿相应越低,因此个从消费支出与利率应该存在负相关关系,即?
应为负。
2)解释两个自变量回归系数的经济含义;
0.93表示,居民可支配收入每增加1亿元,其个人消费支出相应
会增加0.93亿元,即居民的边际消费倾向MPC=0.93;
22.09表示,利率提高1个百分点,个人消费支出将减少2.09亿元。
-10.96
截距项表示居民可支配收入和利率为零时的个人消费支出为亿元,它没有明确的经济含义。
3)检验i是否显著不为1;
(5%)
1)提出假设:
H0:
41H1:
11
2)构造统计量:
t」1~t(nk1)
3)给定显著性水平5%,查表得t/2(nk1)to.o25(23)2.07,故拒绝
域为|t|2.07
4)计算统计量值:
由于t(?
JLS?
?
°
9)0.003734
1t(?
)249.06
则t-1——10.0718.752.07,落入拒绝域。
故拒绝11的原假设。
0.003734
即在5%的显著性水平下,可认为边际消费倾向MPC显著不为1。
4)检验2显否显著不为零;
(5%)解:
H0:
20H1:
20
t—~t(nk1)
3)给定显著性水平5%,查表得t/2(nk1)t°
.025(23)2.07,故拒绝
由于t(?
2)3.092.07,落入拒绝域,故拒绝原假设。
即在5%的显著性水平下,可以认为2显著异于零。
5)计算巨2值;
6)计算每个回归系数的标准差;
'
10.96
3.29
t(?
0)
3.33
)i
Si
0.93
0.00373
it(?
)
249.06
2.09
0.6764
2)
3.09
7)给出2置信水平为95%的置信区间;
由于?
22.09,S?
0.6764,to.025(23)2.07,故2置信水平为95%的置信
区间为2.092.070.6764,2.092.070.6764-3.49,-0.69
8)
对回归方程进行显著性检验;
提出假设:
H。
i20比:
i或20
确定拒绝域:
FF(k.nk1)F°
.05(2,23)3.42
故拒绝原假设,即在5%的显著性水平下认为回归方程的线性关系显
著成立。
步骤四:
经济预测
点预测:
X。
可以看着是Y的条件均值ey°
|X°
和个别值丫。
的预测值,分别称为均值预测和个值预测;
性质:
是e丫。
|x。
和丫。
的一个无偏估计量。
区间预测:
均值ey°
|x°
的区间预测
预测步骤:
1)确定统计量:
t丫0E丫。
k1)
其中Sy
XoXXXo
2)给定置信水平1,确定E
丫o|Xo的预测区间为:
1)SYo
丫0t/2(nk1)Syo,丫Ot/2(nk
个值丫0的区间预测
eo
°
确定统计量:
tS
丫0Yo~t(nk1)
Seo
其中Seo
1XoXXXo
2)给定置信水平1,
确定Yo的预测区间为:
作业:
为解释某地对酒的消费,根据20年的样本数据得到了如下回归方程:
0.0140.354X,0.018X20.657X30.059X4
丫:
每一成年人每年对酒的消费量(升);
X!
:
酒类的平均价格(元);
X2:
个人可支配收入(元)
X3:
酒类经营许可证数量(张)X4:
酒类广告投入(万元)
已知R20.689,XX1对角线上的元素分别为Ci,i0.0576,C2228.9014,
C3,30.01,C4,428.3042,C5,50.4624,回归方程的残差平方和ESS0.0375
1)先验地,你认为各自变量回归系数的符号为什么?
2)请完成以下方差分析表:
离差平方和TSS「
0.0375
3)计算R2值
4)对4个自变量进行显著性检验,并分析其经济含义;
5)给出2置信水平为95%的区间估计;
6)对方程进行显著性检验;