线性回归分析的基本步骤Word格式文档下载.docx

资源描述

线性回归分析的基本步骤Word格式文档下载.docx

《线性回归分析的基本步骤Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《线性回归分析的基本步骤Word格式文档下载.docx（18页珍藏版）》请在冰点文库上搜索。

线性回归分析的基本步骤Word格式文档下载.docx

200

136

144

145

220

137

152

157

162

240

155

165

175

189

260

150

178

185

191

作出其散点图如下:

2总体回归方程（线）：

由于假定EU0，因此因变量的均值与自变量

总处于一条直线上，这条直线EY|XX就称为总体回归线（方程）总体回归方程的求法：

以例1的数据为例1）对第一个Xi，求出E（Y|Xi）

每周收入（X）

每周消费支出

（Y）

E（Y|Xi）

101

149

161

173

由于EYi|XioiXi，因此任意带入两个Xi和其对应的E（Y|Xi）值，即可求出°

和i，并进而得到总体回归方程。

如将X2100,EY2|X277和X7200,EY7|X7137代入

以上求出0和1反映了E（Y|Xi）和Xi之间的真实关系，即所求的总体回归方程为：

EYi|Xi170.6Xi，其图形为：

③样本回归模型：

总体通常难以得到，因此只能通过抽样得到样本数据。

如在例1中，通过抽样考察，我们得到了20个家庭的样本数据:

每周消费支出（

丫）

那么描述样本数据中因变量Y和自变量X之间非确定依赖关系的模型丫X?

e就称为样本回归模型。

④样本回归方程（线）：

通过样本数据估计出？

，得到样本观测值的拟合值与解释变量之间的关系方程Y?

称为样本回归方程。

如下图所示：

⑤四者之间的关系：

i：

总体回归模型建立在总体数据之上，它描述的是因变量丫和自变量X

之间的真实的非确定型依赖关系；

样本回归模型建立在抽样数据基础之

上，它描述的是因变量丫和自变量X之间的近似于真实的非确定型依赖关系。

这种近似表现在两个方面：

一是结构参数?

是其真实值的一种近似估计；

二是残差e是随机误差项U的一个近似估计；

ii:

总体回归方程是根据总体数据得到的，它描述的是因变量的条件均值

E（Y|X）与自变量X之间的线性关系；

样本回归方程是根据抽样数据得到的，它描述的是因变量Y样本预测值的拟合值Y?

与自变量X之间的线性关系。

iii：

回归分析的目的是试图通过样本数据得到真实结构参数的估计值，

并要求估计结果?

足够接近真实值。

由于抽样数据有多种可能，每一次抽样所得到的估计值?

都不会相同，即的估计量?

是一个随机变量。

因此必须选择合适的参数估计方法，使其具有良好的统计性质。

2、随机误差项U存在的原因：

1非重要解释变量的省略

2人的随机行为

3数学模型形式欠妥

4归并误差（如一国GDP的计算）

5测量误差等

3、多元回归模型的基本假定

1随机误差项的期望值为零E（Ui）0

2随机误差项具有同方差性Var（ui）2i1,2,L,n

3随机误差项彼此之间不相关Cov（ui,uj）0ij;

i,j1,2,L,n

4解释就变量x1,x2,-;

Xk为确定型变量，与随机误差项彼此不相关。

Cov（Xij,uj）0i1,2,L,kj1,2,L,n

5解释就变量X1,X2,-；

xk之间不存在精确的（完全的）线性关系，即解释变量的样本观测值矩阵X为满秩矩阵：

rank（X）=k+1<

6随机误差项服从正态分布，即：

片〜N（0,2），i=1,2,…;

步骤二、参数估计

1、最小二乘估计的基本原理：

残差平方和最小化。

2、参数估计量：

Xiyi

■12

1一元回归：

0Y?

2多元回归：

？

XX1xty

3、最小二乘估计量的性质（Gauss-Markov定理）：

在满足基本假设的情况下，最小二乘估计量？

是的最优线性无偏估计量（BLUE估计量）

步骤三、模型检验

1、经济计量检验（后三章内容）

2、统计检验

①拟合优度检验

拟合优度检验的作用：

检验回归方程对样本点的拟合程度

ii：

拟合优度的检验方法：

计算（调整的）样本可决系数R2/R2

r2趣1婪,R21ESS/nk1

TSSTSS'

TSS/n1

注意掌握离差平方和、回归平方和、残差平方和之间的关系以及它们

的自由度。

计算方法：

通过方差分析表计算

方差来源

符号

计算公式

自由度（d.f.）

均方值（MSS）

离差平方和

TSS

—2

Yi丫

n-1

YiY2/n-1

回归平方和

RSS

丫？

丫

Y/k

残差平方和

ESS

Yi丫?

n-k-1

Yi丫？

/n-k-1

例2:

下表列出了三变量（二元）模型的回归结果:

平方和（SS）

自由度

均方值

离差平方和TSS

66042

回归平方和RSS

65965

残差平方和ESS

1）样本容量为多少？

解：

由于TSS的自由度为n-1，由上表知n-1=14,因此样本容量n=15

2）求ESS

由于TSS=ESS+RSS,故ESS=TSS-RSS=773）ESS和RSS的自由度各为多少？

对三变量模型而言，k=2，故ESS的自由度为n-k-1=12

RSS的自由度为k=2

4）求R2和R2

②回归方程的显著性检验（F检验）

目的：

检验模型中的因变量与自变量之间是否存在显著的线性关系步骤：

仁提出假设：

：

0：

至少有一.0k,j01,2，…,k

2、构造统计量：

Fes^/T：

芒心k1）

3、给定显著性水平，确定拒绝域FFk,nk1

4、计算统计量值，并判断是否拒绝原假设

例3:

就例2中的数据，给定显著性水平

1%，对回归方程进行显著性

RSS/k65965/25140.13，

ESS/nk177/12

又F0.012,126.93，而F5140.13F0.012,126.93

故拒绝原假设，即在1%的显著性水平下可以认为回归方程存在显著

的线性关系。

附：

R2与F检验的关系:

3解释变量的显著性检验（t检验）目的：

检验模型中的自变量是否对因变量存在显著影响。

知识点:

1中位于第i+1行

多元回归：

J——「g门1，其中Ci1i1为xx

Vnk1

和i+1列的元素;

222

一元回归：

、ei——Xi2,S?

」ei2

0Ynn2Xi1Yn2xi

变量显著性检验的基本步骤：

1、提出假设：

Ho:

i0Hi：

2、构造统计量：

t-~t（nk1）

3、给定显著性水平，确定拒绝域|tt/2（nk1）

4、计算统计量值，并判断是否拒绝原假设

例4:

根据19个样本数据得到某一回归方程如下：

58.90.2X10.1X2

se（0.0092）（0.084）

试在5%的显著性水平下对变量X1和X2的显著性进行检验。

由于t/2（nk1）t°

.°

25（16）2.12，故t检验的拒绝域为|t2.12。

对自变量X1而言，其t统计量值为t—10221.742.12，落入

0.0092

拒绝域，故拒绝10的原假设，即在5%的显著性水平下，可以认为自变

量X1对因变量有显著影响；

对自变量X2而言，其t统计量值为t子1.192.12，未落入拒

0.084

绝域，故不能拒绝20的原假设，即在5%的显著性水平下，可以认为

自变量X2对因变量Y的影响并不显著。

4回归系数的置信区间

给定某一置信水平1，构造某一回归参数i的一个置信区间，使

i落在该区间内的概率为1

基本步骤:

1、构造统计量t」L〜t（nk1）

2、给定置信水平1，查表求出水平的双侧分位数t/2（nk1）

3、求出i的置信度为1的置信区间?

t/2S?

it/2S?

例5:

根据例4的数据，求出1的置信度为95%的置信区间。

由于to.025（16）2.12，故1的置信度为95%的置信区间为：

0.22.120.0092,0.22.120.00920.18,0.22

3、经济意义检验

检验回归参数的符号及数值是否与经济理论的预期相符。

例6:

根据26个样本数据建立了以下回归方程用于解释美国居民的个人

消费支出：

10.960.93X12.09X2

t（3.33）（249.06）（3.09）

R20.9996

其中：

Y为个人消费支出（亿元）；

X1为居民可支配收入（亿元）；

X2为利率（%）

1）先验估计？

1和?

2的符号；

由于居民可支配收入越高，其个人消费水平也会越高，因此预期自变

量X1回归系数的符号为正；

而利率越高，居民储蓄意愿越强，消费意愿相应越低，因此个从消费支出与利率应该存在负相关关系，即？

应为负。

2）解释两个自变量回归系数的经济含义；

0.93表示，居民可支配收入每增加1亿元，其个人消费支出相应

会增加0.93亿元，即居民的边际消费倾向MPC=0.93；

22.09表示，利率提高1个百分点，个人消费支出将减少2.09亿元。

-10.96

截距项表示居民可支配收入和利率为零时的个人消费支出为亿元，它没有明确的经济含义。

3）检验i是否显著不为1；

（5%）

1）提出假设：

H0:

41H1:

2）构造统计量：

t」1~t（nk1）

3）给定显著性水平5%，查表得t/2（nk1）to.o25（23）2.07，故拒绝

域为|t|2.07

4）计算统计量值：

由于t（?

JLS?

9）0.003734

1t（?

）249.06

则t-1——10.0718.752.07，落入拒绝域。

故拒绝11的原假设。

0.003734

即在5%的显著性水平下，可认为边际消费倾向MPC显著不为1。

4）检验2显否显著不为零；

（5%）解：

H0:

20H1:

t—~t（nk1）

3）给定显著性水平5%，查表得t/2（nk1）t°

.025（23）2.07，故拒绝

由于t（?

2）3.092.07，落入拒绝域，故拒绝原假设。

即在5%的显著性水平下，可以认为2显著异于零。

5）计算巨2值；

6）计算每个回归系数的标准差;

10.96

3.29

t（?

0）

3.33

）i

0.93

0.00373

it（?

）

249.06

2.09

0.6764

2）

3.09

7）给出2置信水平为95%的置信区间；

由于?

22.09,S?

0.6764,to.025（23）2.07，故2置信水平为95%的置信

区间为2.092.070.6764,2.092.070.6764-3.49,-0.69

8）

对回归方程进行显著性检验；

提出假设：

H。

i20比：

i或20

确定拒绝域:

FF（k.nk1）F°

.05（2,23）3.42

故拒绝原假设，即在5%的显著性水平下认为回归方程的线性关系显

著成立。

步骤四：

经济预测

点预测：

X。

可以看着是Y的条件均值ey°

|X°

和个别值丫。

的预测值，分别称为均值预测和个值预测；

性质：

是e丫。

|x。

和丫。

的一个无偏估计量。

区间预测：

均值ey°

|x°

的区间预测

预测步骤：

1）确定统计量：

t丫0E丫。

k1）

其中Sy

XoXXXo

2）给定置信水平1，确定E

丫o|Xo的预测区间为:

1）SYo

丫0t/2（nk1）Syo,丫Ot/2（nk

个值丫0的区间预测

确定统计量：

丫0Yo~t（nk1）

Seo

其中Seo

1XoXXXo

2）给定置信水平1，

确定Yo的预测区间为:

作业：

为解释某地对酒的消费，根据20年的样本数据得到了如下回归方程：

0.0140.354X,0.018X20.657X30.059X4

丫：

每一成年人每年对酒的消费量（升）；

酒类的平均价格（元）；

X2:

个人可支配收入（元）

X3:

酒类经营许可证数量（张）X4:

酒类广告投入（万元）

已知R20.689，XX1对角线上的元素分别为Ci,i0.0576,C2228.9014，

C3,30.01，C4,428.3042，C5,50.4624，回归方程的残差平方和ESS0.0375

1）先验地，你认为各自变量回归系数的符号为什么?

2）请完成以下方差分析表：

离差平方和TSS「

0.0375

3）计算R2值

4）对4个自变量进行显著性检验，并分析其经济含义;

5）给出2置信水平为95%的区间估计；

6）对方程进行显著性检验；

展开阅读全文