全国城镇居民消费水平的逐步回归分析电子版本Word文档下载推荐.docx
《全国城镇居民消费水平的逐步回归分析电子版本Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《全国城镇居民消费水平的逐步回归分析电子版本Word文档下载推荐.docx(22页珍藏版)》请在冰点文库上搜索。
19912
1674.7
1405
1023.2
969
2149.7
1851.7
581.3
2010年
17104
1444.3
1332.1
908
871.8
1983.7
1627.6
499.2
2009年
15127
1284.2
1228.9
786.9
856.4
1682.6
1472.8
474.2
2008年
14061
1165.9
1145.4
691.8
786.2
1417.1
1358.3
418.3
2007年
12480
1042
982.3
601.8
699.1
1357.4
1329.2
357.7
2006年
10739
901.8
904.2
498.5
620.5
1147.1
1203
309.5
2005年
9832
800.5
808.7
446.5
600.9
996.7
1097.5
277.8
2004年
8880
686.8
733.5
407.4
528.2
843.6
1032.8
240.2
2003年
8104
637.7
699.4
410.3
476
721.1
934.4
215.1
2002年
7745
590.9
624.4
388.7
430.1
626
902.3
195.8
2001年
7324
533.7
548
438.9
343.3
457
690
284.1
2000年
6999
500.5
565.3
374.5
318.1
427
669.6
171.8
1999年
6351
482.4
454
395.5
245.6
310.6
567.1
228.8
1998年
5909
480.9
408.4
356.8
205.2
257.2
499.4
197
1997年
5645
520.9
358.6
316.9
179.7
232.9
448.4
185.7
1996年
5382
528
300.9
298.2
143.3
199.1
375
170.5
1995年
4769
479.2
283.8
263.4
110.1
183.2
331
114.9
2.2线性回归模型的建立与分析
为了研究全国城镇居民消费水平与各种影响因素的关系,必须要建立他们之间的数学模型。
数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。
而实际生活中,影响城镇居民消费水平的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立数学模型往往是很难的。
为了便于研究,我们先假定一些前提条件,然后在这些条件下得到简化后的近似模型。
我们假定的前提条件是:
城镇居民家庭人均食品消费支出,衣着消费支出,居住消费支出,家庭设备及用品消费支出,医疗保健消费支出,交通和通信消费支出等因素对全国城镇居民消费水平的影响显著,并且成正的线性关系。
由此假设,我们可以建立全国城镇居民消费水平与各种影响因素的线性回归模型,模型如下:
(2-1)
其中,
是因变量,
是自变量,
是各个自变量的系数。
各变量符号的定义见表2-2。
表2-2线性回归模型中各变量的含义
全国城镇居民消费水平
城镇居民家庭人均食品消费支出
城镇居民家庭人均衣着消费支出
城镇居民家庭人均居住消费支出
城镇居民家庭人均家庭设备及用品消费支出
城镇居民家庭人均医疗保健消费支出
城镇居民家庭人均交通和通信消费支出
城镇居民家庭人均文教娱乐服务消费支出
城镇居民家庭人均其他消费支出
将数据录入统计软件EXCEL,建立统计数据库,首先建立全国城镇居民消费水平与各影响因素的散点图,如图2-1至图2-8所示。
图2-1城镇居民消费水平与城镇居民人均食品消费支出的散点图
图2-2城镇居民消费水平与城镇居民人均衣着消费支出的散点图
图2-3城镇居民消费水平与城镇居民人均居住消费支出的散点图
图2-4城镇居民消费水平与城镇居民人均家庭设备及用品消费支出的散点图
图2-5城镇居民消费水平与城镇居民人均医保消费支出的散点图
图2-6城镇居民消费水平与城镇居民人均交通与通信消费支出的散点图
图2-7城镇居民消费水平与城镇居民人均文娱消费支出的散点图
图2-8城镇居民消费水平与城镇居民人均其他消费支出的散点图
从以上的图中不难发现,城镇居民消费水平与城镇居民人均食品消费支出,人均居住消费支出,人均医疗保健消费支出,以及人均交通和通信消费支出等基本具有线性关系。
而城镇居民消费水平与人均衣着消费支出,人均家庭设备及用品消费支出,人均家庭其他消费支出的关系出现了波动,而且从图中也可以看出,这三者对城镇居民消费水平的贡献比较小,它们的变化不足以引起城镇居民消费水平的变化。
除了EXCEL自带的插入图表的功能,同样也可以使用SPSS软件制作散点图,其操作步骤是:
(1)选择菜单GRAPHS/SCATTER/DOT。
图2-9SPSS绘制散点图步骤一
(2)选择SIMPLESCATTER,单击DEFINE。
图2-10SPSS绘制散点图步骤二
(3)Y轴为因变量,选择“城镇居民消费水平”,X轴为自变量,依次选择为“城镇居民家庭人均食品消费支出”,“衣着消费支出”,“居住消费支出”,“家庭设备及用品消费支出”,“医疗保健消费支出”,“交通和通信消费支出”等。
每选择一次点击一次OK,SPSS自动绘制相应的散点图。
图2-11SPSS绘制散点图步骤三
(4)SPSS绘制的散点图仅做一例,如下图所示,相比于EXCEL自带的图表功能,SPSS的图表功能更加简单快捷。
图2-12SPSS绘制散点图步骤四
经过对所有散点图的分析,我们发现人均衣着消费支出,人均家庭设备及用品消费支出,人均家庭其他消费支出与城镇居民消费水平的线性关系不显著,其原因主要有:
衣服和家庭设备用品都属于耐用品,居民购买的频率不大;
而且它们的价格范围很大,对城镇居民消费水平的反映缺乏真实性。
其他消费支出都在千元以下,对城镇居民消费水平的影响不显著。
综上,人均衣着消费支出,人均家庭设备及用品消费支出和人均家庭其他消费支出这三者都与我们之前的显著性假设相悖,为使得到的模型有显著的线性关系,我们首先从回归模型中排除了这三者。
然后我们用逐步回归的方法对剩下的五个因素进行筛选:
将城镇居民人均食品消费支出,人均居住消费支出,人均医疗保健消费支出,人均交通和通信消费支出,以及人均文教娱乐服务消费支出纳入自变量,使用逐步回归法,选择的判据是变量进入回归方程的F的概率不大于0.05,剔除的判据是变量进入回归方程的F的概率不小于0.10。
输出结果如表2-3和表2-4所示:
表2-3引入或剔除的变量
Model
VariablesEntered
VariablesRemoved
Method
1
城镇居民人均食品消费支出
.
Stepwise(Criteria:
Probability-of-F-to-enter<
=.050,Probability-of-F-to-remove>
=.100).
2
城镇居民人均文娱消费支出
aDependentVariable:
城镇居民消费水平
表2-4拟合过程小结
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
.996(a)
.992
409.57439
.998(b)
.995
322.54440
aPredictors:
(Constant),城镇居民人均食品消费支出
bPredictors:
(Constant),城镇居民人均食品消费支出,城镇居民人均文娱消费支出
由上面的两个表可以看出:
①.选择的过程是,最先引入了变量
,建立了模型1;
接着引入变量
,没有变量被剔除,建立了模型2(含有
、
);
最终的模型中含有变量
。
②.各模型的拟合情况,模型1的复相关系数R=0.996,可决系数
=0.992,调整可决系数为0.992;
模型2的复相关系数R=0.998,可决系数
=0.995,调整可决系数为0.995。
可见模型2的拟合度较高,变量
的作用显著。
表2-5方差分析
SumofSquares
df
MeanSquare
F
Sig.
Regression
353904221.137
2109.697
.000(a)
Residual
2851770.021
17
167751.178
Total
356755991.158
18
355091432.917
177545716.459
1706.598
.000(b)
1664558.241
16
104034.890
cDependentVariable:
表2-5的方差分析结果表明,当回归方程为模型1、2时,其显著性概率值P(Sig)均小于0.001,即拒绝总体回归系数均为0的原假设。
因此,最终的回归方程应当包含城镇居民人均食品消费支出,城镇居民人均文娱消费支出这2个自变量,且方程拟和效果很好。
表2-6逐步回归过程中排除出模型的变量
Model
BetaIn
t
Sig.
PartialCorrelation
CollinearityStatistics
Tolerance
1
城镇居民人均居住消费支出
.271(a)
3.318
.004
.638
.044
城镇居民人均医保消费支出
.166(a)
2.285
.036
.496
.072
城镇居民人均交通消费支出
.274(a)
2.421
.028
.518
.029
.217(a)
3.378
.645
.071
2
.131(b)
.715
.486
.181
.009
城镇居民人均医保消费支出
-.323(b)
-1.838
.086
-.429
.008
.051(b)
.333
.744
.013
aPredictorsintheModel:
bPredictorsintheModel:
表2-6显示了方程外各模型变量的有关统计量,即标准化偏回归系数Beta、回归系数显著性检验的t值、P(Sig)值、偏相关系数PartialCorrelation、共线性统计的容差CollinearitystatisticTolerance。
可见,模型2以外的各变量偏回归系数经检验,P值均较大,考虑到简化方程的需要,排除了这些变量。
表2-7回归计算过程中的方程系数表
Coefficients(a)
UnstandardizedCoefficients
StandardizedCoefficients
B
Std.Error
Beta
(Constant)
-795.539
232.624
-3.420
.003
城镇居民人均食品消费支出
3.568
.078
.996
45.931
.000
-474.725
206.347
-2.301
.035
2.819
.230
.787
12.243
城镇居民人均文娱消费支出
1.956
.579
.217
消费水平
表2-7显示各模型的偏回归系数B、标准差Std.Error、常数Constant、标准化偏回归系数Beta、回归系数显著性检验的t值和P(Sig)值。
按照模型2建立的多元线性回归方程为:
Y=-474.725+2.819X1+1.956X7(2-2)
方程中的常数项
,偏回归系数
,经t检验
α1,α7的P值分别为0.035、0.000、0.004,按α=0.10水平,均有显著性意义。
3.讨论
3.1离群点的筛选
计算残差统计量如下表所示:
表3-1残差统计量
Minimum
Maximum
Mean
Std.Deviation
N
PredictedValue
2887.2300
18666.2090
8978.7895
4441.54273
19
Std.PredictedValue
-1.371
2.181
.000
1.000
StandardErrorofPredictedValue
89.132
192.773
126.057
23.789
AdjustedPredictedValue
2880.1426
18420.7031
8976.6009
4414.88661
-534.99329
609.81207
.00000
304.09778
Std.Residual
-1.659
1.891
.943
Stud.Residual
-1.826
1.985
.002
1.033
DeletedResidual
-648.66656
687.29626
2.18857
367.29319
Stud.DeletedResidual
-1.988
2.214
.020
1.087
Mahal.Distance
.427
5.482
1.895
1.130
Cook'
sDistance
.001
.541
.073
.127
CenteredLeverageValue
.024
.305
.105
.063
表3-1显示残差统计的结果,标准化残差的绝对值最大为1.891,小于设定值3。
如超过3,则显示具体观察单位Casenumber的标准化残差,以帮助发现离群点。
使用SPSS绘制出城镇居民人均消费水平的预测值与其标准化残差的散点图如下所示:
图3-1城镇居民人均消费水平的预测值与其标准化残差的散点图
从图3-1的城镇居民人均消费水平的预测值与其标准化残差的散点图中,可以看出所有观测量随机地落在垂直围绕±
2的范围内,预测值与标准化残差值之间没有明显的关系。
所以回归方程满足了线性与方差齐性的假设,且拟和效果较好。
3.2对回归模型的检验
由上面的计算,得到的最优的多元线性回归模型为:
Y=-474.725+2.819X1+1.956X7(3-1)
对2006年的全国城镇居民消费水平做预测,置信度取为95%。
2006年的X1城镇居民人均食品消费支出为3111.90(元),X7城镇居民人均文娱消费支出为1203.00(元),Y全国城镇居民消费水平为10618.00(元),将自变量带入回归方程:
Y=-474.725+2.819×
3111.90+1.956×
1203.00=10650.789(元)(3-2)
预测区间为
,
其中
σ(x0)=t0.975(19-2-1)
=t0.975(16)×
104034.890=2.120×
=683.8(3-3)
代入数值,得到置信度为95%的预测区间为(9966.989,11334.589)。
查得2006年全国城镇居民消费水平为10618元,包括在最优模型预测的区间中,可见回归模型的预测还是比较准确的。
4.总结
本文查阅了中国统计年鉴,从中搜集了与全国城镇居民消费水平关系密切并且直观上有线性关系的因素,包括了食品消费支出,衣着消费支出,居住消费支出,家庭设备及用品消费支出,医疗保健消费支出,交通和通信消费支出等,分析它们与全国城镇居民消费水平之间的联系。
首先分析了建立了全国城镇居民消费水平与各因素的线性回归模型,再利用逐步回归法进行回归分析,经综合比较,选取了拟合性最好的最“优”回归模型。
以SPSS13.0为分析工具,给出了实验结果,并使用2006年的全国城镇居民消费水平验证了结论的正确性。
从最终的线性回归模型中我们可以看到,全国城镇居民消费水平可以用城镇居民人均食品消费支出,城镇居民人均文娱消费支出很好地解释。
其原因主要有两个方面:
首先,城镇居民人均食品消费支出属于居民每日必须的支出,消费量很大,对符合了前文的显著性假设;
然后,随着城镇居民生活水平的提高,居民的人均文娱消费支出上升范围较大,很大程度上影响了城镇居民的消费水平。
由于调研时间有限,该回归模型必然存在很多的不足:
拟合曲线和实际值还是有一定的偏差;
自变量个数也不够多;
一些其他的能显著影响全国城镇居民消费水平的因素没有考虑到,还需要不断查阅资料加以改进。
该模型在一定程度上体现了与选取的各个因素之间的线性关系,并能对因变量做出近似的预测。
综合来看,数据模型基本达到了预期的目的。
参考文献
[1]孙海燕,周梦,李卫国,冯伟,应用数理统计,北京航空航天大学,2013.9
[2]国家统计信息网,201