统计学回归分析大作业.docx
《统计学回归分析大作业.docx》由会员分享,可在线阅读,更多相关《统计学回归分析大作业.docx(20页珍藏版)》请在冰点文库上搜索。
统计学回归分析大作业
建筑业总产值影响因素的分析
一、问题的提出
通过研究1995-2012年我国建筑行业总产值与建筑行业的动力装备率、劳动力人数、技术装备率以及国有企业总产值在行业总产值中所占比重的关系,来建立建筑行业总产值与其影响因素直接的归回模型,并分析其原因。
本文全部数据来源于《中国统计年鉴》。
表1.11995-2012年建筑行业总产值及其影响因素
年份
建筑行业总产值(亿元)
动力装备率(千瓦/人)
劳动力人数(万人)
技术装备率(元/人)
国有企业所占比重
1995
5793.75
4.70
1497.87
4264.00
0.63
1996
8282.25
4.60
2121.87
4154.00
0.50
1997
9126.48
4.10
2101.51
4729.00
0.50
1998
10061.99
4.30
2029.99
5127.00
0.45
1999
11152.86
4.50
2020.13
5756.00
0.44
2000
12497.60
4.60
1994.30
6304.00
0.40
2001
15361.56
4.86
2110.66
7136.00
0.35
2002
18527.18
4.91
2245.19
9675.00
0.30
2003
23083.87
4.85
2414.27
9957.00
0.26
2004
27745.38
5.80
2557.86
9297.00
0.26
2005
34552.10
5.10
2699.92
9273.48
0.24
2006
41557.16
4.92
2878.16
9109.14
0.22
2007
51043.71
4.97
3133.71
9208.36
0.21
2008
62036.81
5.50
3314.95
9915.00
0.20
2009
76807.74
5.20
3672.56
10088.00
0.20
2010
96031.13
4.66
4160.44
9547.04
0.19
2011
116463.32
5.66
3852.47
12025.29
0.18
2012
137217.86
5.69
4267.24
13374.17
0.17
为了研究影响建筑行业总产值的因素,把建筑行业总产值(亿元)作为被解释变量Y,将动力装备率(千瓦/人)、技术装备率(元/人)、劳动力人数(万人)、国有企业所占比重作为解释变量,分别设为
,假定其多元线性回归模型表示为:
二、相关性问题
图2.1各变量之间的散点图
散点图如图2.1所示。
简单相关系数如表2.1所示。
表2.1简单相关系数
可以看出,建筑业总产值与劳动力人数相关度很高,与技术装备率和国有企业所占比重相关度也叫较高,而动力装备率相关度一般。
但是由于所有的p值检验都小于0.05,所以变量还是可以用于建模的。
三、建立回归模型
利用强行进入发,建立初步模型。
输出结果如下:
1.拟合优度检验
可以看出,复相关系数R为0.990,样本决定系数为0.981,调整后相关系数为0.975,说明方程拟合良好。
2.回归方程显著性检验
由表可知,F为167.393,P值为0,.000,说明回归方程高度显著,各解释变量整体上对被解释变量有高度显著的线形影响。
3.回归系数检验
由表可知,动力装备率,即
P值大于0.05,未通过检验。
其他变量均通过检验。
4.残差分析——正态性检验
如图所示,残差与正态分布直接存在较小差距,基本符合正态分布。
5.残差分析——异方差分析
有图表可知,被解释变量与残差相关系数为0.055,P值0.829,可以说没有异方差现象。
6.自相关检验
D.W值为1.435.。
查表得,dl=0.574,du=1.631,所以不确定。
有图示可以认为,残差之间不存在自相关性。
7.共线性诊断
只有技术装备率的VIF大于10.存在轻微共线性。
所以,需要修改模型。
四、修改模型
1.模型存在的问题
1.动力装备率X1未经过回归检验;
2.有轻微的共线性;
2.修改
删除X1,再利用强行进入法建立模型。
得到结果如下:
DescriptiveStatistics
Mean
Std.Deviation
N
建筑行业总产值
42074.59722
40200.244255
18
劳动力人数(万人)
2726.283333
827.8771536
18
技术装备率(元/人)
8274.41556
2691.388053
18
国有企业所占比重
.3166666667
.137********
18
Correlations
建筑行业总产值
劳动力人数(万人)
技术装备率(元/人)
PearsonCorrelation
建筑行业总产值
1.000
.961
.826
劳动力人数(万人)
.961
1.000
.830
技术装备率(元/人)
.826
.830
1.000
国有企业所占比重
-.747
-.842
-.928
Sig.(1-tailed)
建筑行业总产值
.
.000
.000
劳动力人数(万人)
.000
.
.000
技术装备率(元/人)
.000
.000
.
国有企业所占比重
.000
.000
.000
N
建筑行业总产值
18
18
18
劳动力人数(万人)
18
18
18
技术装备率(元/人)
18
18
18
国有企业所占比重
18
18
18
Correlations
国有企业所占比重
PearsonCorrelation
建筑行业总产值
-.747
劳动力人数(万人)
-.842
技术装备率(元/人)
-.928
国有企业所占比重
1.000
Sig.(1-tailed)
建筑行业总产值
.000
劳动力人数(万人)
.000
技术装备率(元/人)
.000
国有企业所占比重
.
N
建筑行业总产值
18
劳动力人数(万人)
18
技术装备率(元/人)
18
国有企业所占比重
18
VariablesEntered/Removedb
Model
VariablesEntered
VariablesRemoved
Method
1
国有企业所占比重,劳动力人数(万人),技术装备率(元/人)
.
Enter
a.Allrequestedvariablesentered.
b.DependentVariable:
建筑行业总产值
ModelSummaryb
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
Durbin-Watson
1
.990a
.980
.976
6231.513036
1.590
a.Predictors:
(Constant),国有企业所占比重,劳动力人数(万人),技术装备率(元/人)
b.DependentVariable:
建筑行业总产值
ANOVAb
Model
SumofSquares
df
MeanSquare
F
Sig.
1
Regression
2.693E10
3
8.976E9
231.163
.000a
Residual
5.436E8
14
38831754.722
Total
2.747E10
17
a.Predictors:
(Constant),国有企业所占比重,劳动力人数(万人),技术装备率(元/人)
b.DependentVariable:
建筑行业总产值
Coefficientsa
Model
UnstandardizedCoefficients
B
Std.Error
1
(Constant)
-228727.624
23531.485
劳动力人数(万人)
50.480
3.486
技术装备率(元/人)
8.666
1.552
国有企业所占比重
194120.926
31268.974
Coefficientsa
Model
StandardizedCoefficients
t
Sig.
Correlations
Beta
Zero-order
Partial
1
(Constant)
-9.720
.000
劳动力人数(万人)
1.040
14.479
.000
.961
.968
技术装备率(元/人)
.580
5.585
.000
.826
.831
国有企业所占比重
.666
6.208
.000
-.747
.856
Coefficientsa
Model
Correlations
CollinearityStatistics
Part
Tolerance
VIF
1
(Constant)
劳动力人数(万人)
.544
.274
3.647
技术装备率(元/人)
.210
.131
7.635
国有企业所占比重
.233
.123
8.138
a.DependentVariable:
建筑行业总产值
CoefficientCorrelationsa
Model
国有企业所占比重
劳动力人数(万人)
技术装备率(元/人)
1
Correlations
国有企业所占比重
1.000
.343
.761
劳动力人数(万人)
.343
1.000
-.245
技术装备率(元/人)
.761
-.245
1.000
Covariances
国有企业所占比重
9.777E8
37445.783
36909.143
劳动力人数(万人)
37445.783
12.156
-1.324
技术装备率(元/人)
36909.143
-1.324
2.408
a.DependentVariable:
建筑行业总产值
CollinearityDiagnosticsa
Model
Dimension
Eigenvalue
ConditionIndex
1
1
3.694
1.000
2
.289
3.576
3
.015
15.941
4
.003
36.835
CollinearityDiagnosticsa
Model
Dimension
VarianceProportions
(Constant)
劳动力人数(万人)
技术装备率(元/人)
国有企业所占比重
1
1
.00
.00
.00
.00
2
.00
.01
.01
.04
3
.01
.88
.32
.00
4
.99
.11
.67
.96
a.DependentVariable:
建筑行业总产值
ResidualsStatisticsa
Minimum
Maximum
Mean
PredictedValue
4224.78906
135586.56250
42074.59722
Std.PredictedValue
-.951
2.350
.000
StandardErrorofPredictedValue
2049.747
4660.526
2824.607
AdjustedPredictedValue
3194.88916
133515.82813
42288.54061
Residual
-8164.224609
11562.820313
.000000
Std.Residual
-1.310
1.856
.000
Stud.Residual
-1.537
2.123
-.016
DeletedResidual
-11240.480469
15130.299805
-213.943388
Stud.DeletedResidual
-1.625
2.484
.001
Mahal.Distance
.895
8.564
2.833
Cook'sDistance
.000
.348
.071
CenteredLeverageValue
.053
.504
.167
ResidualsStatisticsa
Std.Deviation
N
PredictedValue
39800.509369
18
Std.PredictedValue
1.000
18
StandardErrorofPredictedValue
830.159
18
AdjustedPredictedValue
39527.973748
18
Residual
5655.005935
18
Std.Residual
.907
18
Stud.Residual
1.022
18
DeletedResidual
7225.228735
18
Stud.DeletedResidual
1.085
18
Mahal.Distance
2.405
18
Cook'sDistance
.094
18
CenteredLeverageValue
.141
18
a.DependentVariable:
建筑行业总产值
1.拟合优度分析
有表可知,调整样本决定系数为0.976,拟合良好。
2.回归方程显著性检测
F=231.163。
P=0.000,故明显显著。
3.回归系数显著性检验
三个变量t值均大于1.734,P值均为0.000,故通过检验。
4.残差分析——正态性检验
有图可以看到,基本符合正态性假设。
5.残差分析——异方差分析
由残差图和残差相关系数得知,不存在显著的异方差。
6.自相关性分析。
D.W.指数为1.590.查表得,du=1.27,故不存在自相关。
7.共线性诊断
各项VIF值均小于10,不存在明显的共线性。
8.异常值检验
可知,SDR都小于3,库克距离都小于0.5。
没有异常值。
综上所述,回归模型为:
五、回归模型经济意义分析
由模型分析结果可以发现,建筑业总产值收到如下因素的影响:
1.劳动力数量
我国的建筑业是十分以来劳动力的,这从回归模型中可以看到。
建筑业的发展,离不开大量劳动人口的投入。
2.技术装备率
回归模型清楚地告诉我们,技术装备对建筑业的发展起到了重要的作用。
3.国有企业所占比重
国有企业由于资金雄厚,规模大,在建筑行业重要的领域是可以起到带动作用的。