应用回归分析论文.doc

上传人:wj 文档编号:675381 上传时间:2023-04-29 格式:DOC 页数:29 大小:1.18MB
下载 相关 举报
应用回归分析论文.doc_第1页
第1页 / 共29页
应用回归分析论文.doc_第2页
第2页 / 共29页
应用回归分析论文.doc_第3页
第3页 / 共29页
应用回归分析论文.doc_第4页
第4页 / 共29页
应用回归分析论文.doc_第5页
第5页 / 共29页
应用回归分析论文.doc_第6页
第6页 / 共29页
应用回归分析论文.doc_第7页
第7页 / 共29页
应用回归分析论文.doc_第8页
第8页 / 共29页
应用回归分析论文.doc_第9页
第9页 / 共29页
应用回归分析论文.doc_第10页
第10页 / 共29页
应用回归分析论文.doc_第11页
第11页 / 共29页
应用回归分析论文.doc_第12页
第12页 / 共29页
应用回归分析论文.doc_第13页
第13页 / 共29页
应用回归分析论文.doc_第14页
第14页 / 共29页
应用回归分析论文.doc_第15页
第15页 / 共29页
应用回归分析论文.doc_第16页
第16页 / 共29页
应用回归分析论文.doc_第17页
第17页 / 共29页
应用回归分析论文.doc_第18页
第18页 / 共29页
应用回归分析论文.doc_第19页
第19页 / 共29页
应用回归分析论文.doc_第20页
第20页 / 共29页
亲,该文档总共29页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

应用回归分析论文.doc

《应用回归分析论文.doc》由会员分享,可在线阅读,更多相关《应用回归分析论文.doc(29页珍藏版)》请在冰点文库上搜索。

应用回归分析论文.doc

楚雄师范学院

2012年《应用回归分析》期末论文

题目影响成品钢材需求量的回归分析

        姓名韩金伟

         系(院)数学系09级01班

         专业数学与应用数学

学号 20091021135

2012年6月23日

题目:

影响成品钢材需求量的回归分析

摘要:

随着社会经济的不断发展,科学技术的不断进步,统计方法越来越成为人们必不可收的工具盒手段。

应用回归分析是其中的一个重要分支,本着国家经济水平的不断提高,我们采用回归分析的方法对我国成品钢材的需求量进行分析应用。

为了使分析的模型具有社会实际意义,我们引用了1980——1998年的成品钢材、原油、生铁、原煤、发电量、铁路货运量、固定资产投资额、居民消费、政府消费9个不同的量来进行回归分析。

通过建立回归模型充分说明成品钢材需求量与其他8个变量的关系,以及我国社会经济的实际发展情况和意义。

关键字:

线性回归回归分析社会经济回归模型成品钢材投资多元回归国家经济社会发展

目录

第1章题目叙述 1

第2章问题假设 1

第3章问题分析 2

第4章数据的预处理 3

4.1曲线统计图 3

4.2散点统计图 4

4.3样本的相关系数 4

第5章回归模型的建立 5

第6章回归模型的检验 6

6.1F检验 6

6.2T检验及模型的T检验分析 7

6.2.1T检验 7

6.2.2T检验分析 7

6.3偏相关性 10

第7章违背模型基本假设的情况 11

7.1异方差性的检验 11

7.1.1残差图检验 11

7.1.2怀特(White)检验 12

7.2自相关性的检验 12

7.3多元加权最小二乘估计 12

7.3.1权函数自变量的选取 13

7.3.2WeightEstimate估计幂指数m 13

7.3.3加权最小二乘估计拟合 14

第8章自变量选择与逐步回归 15

8.1前进逐步回归 15

8.2后退逐步回归 17

第9章多重共线性的情形及处理 18

9.1多重共线性的诊断 18

9.2多重共线性的消除 20

第10章回归模型总结 24

参考文献 25

25

第1章题目叙述

理论上认为影响成品钢材的需求量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。

为此,收集了我国成品钢材的需求量,选择与其相关的八个因素:

原油产量、生铁产量、原煤产量、发电量、铁路货运量、固定资产投资额、居民消费、政府消费作为影响变量,1980——1998年的有关数据如下表。

本题旨在通过建立这些经济变量的线性模型来说明影响成品钢材需求量的原因。

数据来源:

易丹辉.《数据分析与EViews应用》.中国人民大学出版社.2008(教材第85页)

原始数据(中国统计年鉴):

年份

成品钢材(万吨)

原油(万吨)

生铁(万吨)

原煤(亿吨)

发电量(亿千瓦时)

铁路货运量(万吨)

固定资产投资额(亿元)

居民消费(亿元)

1980

2716.2

10595

3802.4

6.2

3006.2

111279

910.9

2317.1

1981

2670.1

10122

3416.6

6.2

3092.7

107673

961

2604.1

1982

2902

10212

3551

6.66

3277

113495

1230.4

2867.9

1983

3072

10607

3738

7.15

3514

118784

1430.1

3182.5

1984

3372

11461.3

4001

7.89

3770

124074

1832.9

3674.5

1985

3693

12489.5

4384

8.72

4107

130709

2543.2

4589

1986

4058

13068.8

5064

8.94

4495

135635

3120.6

5175

1987

4356

13414

5503

9.28

4973

140653

3791.7

5961.2

1988

4689

13704.6

5704

9.8

5452

144948

4753.8

7633.1

1989

4859

13764.1

5820

10.54

5848

151489

4410.4

8523.5

1990

5153

13830.6

6238

10.8

6212

150681

4517

9113.2

1991

5638

14009.2

6765

10.87

6775

152893

5594.5

10315.9

1992

6697

14209.7

7589

11.16

7539

157627

8080.1

12459.8

1993

7716

14523.7

8739

11.51

8395

162663

13072.3

15682.4

1994

8482

14608.2

9741

12.4

9281

163093

17042.1

20809.8

1995

8979.8

15004.94

10529.27

13.61

10070.3

165885

20019.3

26944.5

1996

9338.02

15733.39

10722.5

13.97

10813.1

168803

22974

32152.3

1997

9978.93

16074.14

11511.41

13.73

11355.53

169734

22913.5

34854.6

第2章问题假设

为了问题的简洁明了,现对题目中的变量给出以下假设:

中国成品钢材的需求量为(万吨)、原油产量(万吨)、生铁产量(万吨)、原煤产量(亿吨)、发电量(亿千瓦时)、铁路货运量(万吨)、固定资产投资额(亿元)、居民消费(亿元)、政府消费(亿元)作为影响变量,而且本题收集的数据均为定量变量,其符号和经济意义如下表:

变量

符号

代表意义

中国成品钢材的需求量为(万吨)

成品钢材需求总量

原油产量(万吨)

原油工业发展水平

生铁产量(万吨)

生铁工业发展水平

原煤产量(亿吨)

原煤工业发展水平

发电量(亿千瓦时)

发电技术水平

铁路货运量(万吨)

运输产业水平

固定资产投资额(亿元)

固定资产支出水平

居民消费(亿元)

居民支出水平

政府消费(亿元)

政府支出水平

第3章问题分析

在上述问题中,中国成品钢材的需求量(万吨)的影响因素不只是原油产量(万吨),还有生铁产量(万吨)、原煤产量(亿吨)、发电量(亿千瓦时)、铁路货运量(万吨)、固定资产投资额(亿元)、居民消费(亿元)、政府消费(亿元)等,这样因变量就与多个自变量有关。

因此,我们就可以采用多元线性回归进行问题的分析。

多元线性回归模型的基本形式:

设随机变量与一般变量的理论线性回归模型为:

其中,是个未知参数,称为回归常数,称为回归系数。

称为被解释变量(因变量),而是个可以精确测量并可控制的一般变量,称为解释变量(自变量)。

是随机误差,与一元线性回归一样,对随机误差项我们常假定

为理论回归方程。

第4章数据的预处理

4.1曲线统计图

分析:

从曲线统计图上我们可以大致的来看,变量和因变量在1980年到1986年的增长速度都相对平稳没有明显的增势;从1986年到1993年,个变量开始缓慢增长;从1993年到1998年,增长的幅度开始加大了。

的曲线近似为一条水平的直线,这两个变量分别表示原油和原煤的量,可能受到资源和政策的限制,因而增长的速度非常缓慢。

从图中可以明显看到随着年限的增加,我国的各种产业和支出水平都随之逐渐增长。

4.2散点统计图

分析:

从散点统计图上我们可以细致的来看,变量(铁路运货量)的变化最为明显,还可以清楚的看到1981年,1991年,1998年,因为一些特殊事件而导致的铁路运输量降低。

与在1980年到1986年的增长速度都相对平稳没有明显的增势,从1986年到1993年,个变量开始缓慢增长;从1993年到1998年,增长的幅度开始加大了。

但是(原油)与(原煤)的产量却始终保持相对平稳的增长趋势,而却增长速度非常的缓慢,这可能是受到了资源的限制和国家政策的影响。

从散点图中可以很明显的看到各年的真是数据,还可以看出随着年限的增加,我国的各种产业和支出水平都随之逐渐增长。

4.3样本的相关系数

分析:

从样本的相关系数表来看,各变量的相关系数都在0.9以上,说明自变量与因变量有高度的线性相关性,适合做与8个自变量的多元线性回归。

(说明:

本表格是由EViews软件计算得出,但由于不能导出,所以通过保存成图片后经WPS截图工具截得。

第5章回归模型的建立

将原始数据导入到spss19.0(简体中文版)的数据框中,然后用spss19.0软件回归线性分析得到下列表:

模型汇总

模型

R

R方

调整R方

标准估计的误差

1

1.000a

.999

.998

113.19930

a.预测变量:

(常量),x8,x5,x1,x3,x6,x2,x7,x4。

分析:

从模型汇总表中可以看出,复相关系数,决定系数,由决定系数看回归方程高度显著。

Anovab

模型

平方和

df

均方

F

Sig.

1

回归

1.291E8

8

16139672.560

1259.526

.000a

残差

128140.806

10

12814.081

总计

1.292E8

18

a.预测变量:

(常量),x8,x5,x1,x3,x6,x2,x7,x4。

b.因变量:

y

分析:

从方差分析表,,P值=0.000,表明回归方程高度显著,说明整体上对有高度显著的线性影响。

系数a

模型

非标准化系数

标准系数

t

Sig.

B

标准误差

试用版

1

(常量)

-381.485

912.146

-.418

.685

x1

.122

.107

.088

1.134

.283

x2

.125

.187

.135

.668

.519

x3

-149.154

121.354

-.141

-1.229

.247

x4

.653

.277

.723

2.359

.040

x5

.003

.023

.024

.131

.898

x6

.081

.042

.260

1.932

.082

x7

-.120

.047

-.522

-2.570

.028

x8

.394

.239

.434

1.646

.131

a.因变量:

y

分析:

从系数表中可以得到对8个自变量的线性回归方程为

从回归方程中可以看到,对成品钢材需求量起正影响,对成品钢材需求量起负影响。

从实际社会生活来看,原煤生产水平和居民的消费水平提高,都会促进成品钢材的需求量,应该和成品钢材的需求量成正相关,这与定性分析的结果不一致。

为此,我们对它进行更深层次的分析。

第6章回归模型的检验

6.1F检验

Anovab

模型

平方和

df

均方

F

Sig.

1

回归

1.291E8

8

16139672.560

1259.526

.000a

残差

128140.806

10

12814.081

总计

1.292E8

18

a.预测变量:

(常量),x8,x5,x1,x3,x6,x2,x7,x4。

b.因变量:

y

分析:

从表中输出结果可以看出,Sig即显著性P值,由,P值=0.000,可知此回归方程高度显著,即做出8个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000。

6.2T检验及模型的T检验分析

6.2.1T检验

系数a

模型

非标准化系数

标准系数

t

Sig.

B的95.0%置信区间

B

标准误差

试用版

下限

上限

1

(常量)

-381.485

912.146

-.418

.685

-2413.874

1650.904

x1

.122

.107

.088

1.134

.283

-.118

.361

x2

.125

.187

.135

.668

.519

-.292

.542

x3

-149.154

121.354

-.141

-1.229

.247

-419.547

121.239

x4

.653

.277

.723

2.359

.040

.036

1.270

x5

.003

.023

.024

.131

.898

-.049

.055

x6

.081

.042

.260

1.932

.082

-.012

.175

x7

-.120

.047

-.522

-2.570

.028

-.224

-.016

x8

.394

.239

.434

1.646

.131

-.139

.927

a.因变量:

y

分析:

通过看上面的T检验表可以发现,在显著性水平时,只有的Sig(收尾概率)小于0.05,通过了显著性检验。

回归方程B的95.0%置信区间上下限给定如表中所示。

6.2.2T检验分析

为了尽可能的保留合理变量,我们就针对逐个变量给以T检验分析,逐步剔除不合理的变量,使回归模型更完善。

因此我们首先剔除Sig最大的变量,再做回归分析的T检验如下:

系数a

模型

非标准化系数

标准系数

B

标准误差

试用版

t

Sig.

1

(常量)

-274.526

387.581

-.708

.493

x1

.133

.066

.096

2.014

.069

x2

.121

.176

.130

.686

.507

x3

-137.534

79.000

-.130

-1.741

.110

x4

.678

.197

.750

3.443

.005

x6

.082

.040

.263

2.082

.061

x7

-.124

.037

-.537

-3.348

.007

x8

.388

.224

.427

1.731

.111

a.因变量:

y

分析:

剔除后,在显著性水平时,有的Sig(收尾概率)小于0.05,通过了显著性检验。

此时我们发现,剔除了后,通过T检验的变量增多了,这是一个很好的结果。

因此我们再剔除Sig最大的变量,再用其他通过了T检验的变量做回归分析的T检验如下:

系数a

模型

非标准化系数

标准系数

B

标准误差

试用版

t

Sig.

1

(常量)

-279.142

378.881

-.737

.475

x1

.154

.057

.112

2.714

.019

x3

-151.034

74.804

-.143

-2.019

.066

x4

.772

.137

.855

5.625

.000

x6

.100

.030

.318

3.320

.006

x7

-.135

.032

-.585

-4.143

.001

x8

.403

.218

.444

1.849

.089

a.因变量:

y

分析:

剔除后,在显著性水平时,有的Sig(收尾概率)小于0.05,通过了显著性检验。

此时我们发现,剔除了后,通过T检验的变量又增多了一个。

因此我们再剔除Sig最大的变量,再做回归分析的T检验如下:

系数a

模型

非标准化系数

标准系数

B

标准误差

试用版

t

Sig.

1

(常量)

-108.818

400.265

-.272

.790

x1

.150

.062

.108

2.423

.031

x3

-248.800

57.640

-.235

-4.316

.001

x4

.978

.088

1.082

11.120

.000

x6

.127

.028

.405

4.462

.001

x7

-.084

.019

-.365

-4.391

.001

a.因变量:

y

分析:

剔除后,在显著性水平时,剩余变量的Sig(收尾概率)都小于0.05,全部通过了显著性T检验。

模型汇总

模型

R

R方

调整R方

标准估计的误差

1

.999a

.999

.998

115.02599

a.预测变量:

(常量),x7,x1,x3,x6,x4。

分析:

以做回归分析的输出表来看,决定系数,由决定系数看回归模型仍然具有高度的显著性。

Anovab

模型

平方和

df

均方

F

Sig.

1

回归

1.291E8

5

2.581E7

1951.080

.000a

残差

172002.733

13

13230.979

总计

1.292E8

18

a.预测变量:

(常量),x7,x1,x3,x6,x4。

b.因变量:

y

分析:

由,P值=0.000,回归模型通过了F检验,表明8个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000。

说明整体上对有高度显著的线性影响。

表中第二列是我们的回归方程参数估计值,由此可以得到对5个自变量的线性回归方程为:

从回归方程中可以看到,对成品钢材需求量起正影响,对成品钢材需求量起负影响。

此时回归方程虽然通过了F,T检验,但是增加了不合理变量所占回归方程的比重,这也是不合社会实际的

6.3偏相关性

系数a

模型

非标准化系数

标准系数

t

Sig.

相关性

B

标准误差

试用版

零阶

部分

1

(常量)

-381.485

912.146

-.418

.685

x1

.122

.107

.088

1.134

.283

.916

.338

.011

x2

.125

.187

.135

.668

.519

.998

.207

.007

x3

-149.154

121.354

-.141

-1.229

.247

.938

-.362

-.012

x4

.653

.277

.723

2.359

.040

.997

.598

.023

x5

.003

.023

.024

.131

.898

.902

.041

.001

x6

.081

.042

.260

1.932

.082

.979

.521

.019

x7

-.120

.047

-.522

-2.570

.028

.972

-.631

-.026

x8

.394

.239

.434

1.646

.131

.982

.462

.016

a.因变量:

y

分析:

从表中可以看出,8个偏相关系数分别为0.338,0.207,-0.362,0.598,0.041,0.521,-0.631,0.462进一步可计算出偏决定系数。

表中相关系数栏的“零阶”为y与的简单相关系数。

因为简单相关系数只是两变量的局部相关性质,而非整体的性质。

所以在多元线性回归中分析中我门看重的是偏相关系数,从数值上看的偏相关系数较大因此他们对因变量y的影响较大些。

第7章违背模型基本假设的情况

7.1异方差性的检验

7.1.1残差图检验

我们分别以回归标准化残差和因变量y来绘制残差图分析模型是否存在异方差。

分析:

从残差的散点图上我们可以看出,回归的标准化残差随因变量y的表变化并没有明显的规律性分布,残差图上的点都是随机散布的,无任何规律,因此我们可以初步判定回归模型不存在异方差。

7.1.2怀特(White)检验

我们用Eviews软件做怀特检验,是把作为因变量,原先的自变量和自变量的平方项作为新自变量建立线性回归模型,通过这个模型的拟合情况来检验是否有异方差性,检验的零假设是残差不存在异方差性。

怀特检验的统计量是,是样本观测量,是辅助回归的拟合优度。

本题的怀特检验如下:

HeteroskedasticityTest:

White

F-statistic

1.958884

    Prob.F(8,10)

0.1579

Obs*R-squared

11.59867

    Prob.Chi-Square(8)

0.1700

ScaledexplainedSS

1.445422

    Prob.Chi-Square(8)

0.9936

分析:

上表中Obs*R-squared即为,检验结果中由于收尾概率远大于显著性水平0.1,0.05或0.01,接收原假设,残差不存在异方差。

7.2自相关性的检验

对于自相关性我们用DW检验来判断,已知回归估计式的残差来定义DW统计量,假设有,通过化简后DW值与的关系式为,在SPSS19.0中运行结果如下表:

模型汇总b

模型

R

R方

调整R方

标准估计的误差

Durbin-Watson

1

1.000a

.999

.998

113.19930

2.245

a.预测变量:

(常量),x8,x5,x1,x3,x6,x2,x7,x4。

b.因变量:

y

分析:

从表中的数据我们可以看到,=2.245,因而可以近似的计算出,通过查表可以判断出误差项的自相关性成轻微的负自相关。

由于自相关性不是很明显,所以在这里就不做处理了。

7.3多元加权最小二乘估计

7.3.1权函数自变量的选取

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2