统计分析综合实验答题.docx
《统计分析综合实验答题.docx》由会员分享,可在线阅读,更多相关《统计分析综合实验答题.docx(18页珍藏版)》请在冰点文库上搜索。
统计分析综合实验答题
商学院财务管理专业
统计分析综合实验考题
一.样本数据特征分析:
要求收集国家统计局2011年与2000年全国人口普查相关数据,进行二者的比较,然后写出有说明解释的数据统计分析报告,文字通顺,对统计结果的说明分析重点突出,几条要求如下:
1.报告必须包含所收集的原始数据表,至少包括总人口,流动人口,城乡、性别、年龄、民族构成,教育程度,家庭户人口八大指标;
2.报告中必须有针对某些指标的条形图,饼图,直方图以及累计频率条形图,(茎叶图可选作)
3.采用适当方式分别检验二次调查得到的人口年龄比例以及教育程度这两个指标是否有显著不同,写明检验过程及结论。
二.一元线性回归分析:
回归模型:
自由建立,如将某地人均食品消费支出与人均收入作为因变量与解释变量,或某地家用汽车消费量与人均收入作为因变量与解释变量等均可。
统计分析报告必须写明:
实际问题的背景,所采用的模型与数据来源,至少有20个原始的样本数据,回归方差分析表以及回归系数及显著性检验表(5%),回归系数的95%置信区间,散点图,分析结论,应用价值等均不可缺少。
特别提醒:
按时交打印稿并且附此试题!
商学院财务管理专业
统计分析综合实验答题
一、样本数据特征分析
2000年全国人口普查与2011年全国人口普查相关数据分析报告
2000年与2011年全国人口普查各项指标原始数据单位(人)
年份
2000年
2011年
总人口数
1242612226
1339724852
家庭户人口数
1178271219
1244608395
流动人口
居住地与户口登记地所在的乡镇街道不一致且离开户口登记地半年以上的人口数
261386075
城乡构成
农村居民人口数
783841243
674149546
城镇居民人口数
458770983
665575306
性别构成
男性人口数
640275969
686852572
女性人口数
602336257
652872280
年龄构成
0-14周岁人口数
284527594
222459737
15-59周岁人口数
828106762
939616410
60周岁及以上人口数
129977870
177648705
民族构成
汉族人口数
1137386112
1225932641
少数民族人口数
105226114
113792211
教育程度
大学(大专及以上)文化程度人口数
119636790
高中(含中专)文化程度人口数
138283459
187985979
初中文化程度人口数
422386607
519656445
小学文化程度人口数
441613351
358764003
文盲(15岁及以上不识字)人口数
(一)总人口
2011年第六次全国人口普查数据显示,总人口数为1339724852,比2000年的第五次人口普查的1242612226人次,总人口数增加97112626人,增长7.82%,平均年增长率为0.78%。
(二)家庭户人口
2000年人口普查家庭户人口数共有1178271219人,有家庭户340491197,平均每个家庭3.46人。
2011年增长到1244608395人,平均每个家庭户的人口为3.10人,比2000年减少0.36人。
(三)流动人口
2011年人口普查数据中,居住地与户口登记地所在的乡镇街道不一致且离开户口登记地半年以上的人口为261386075人,同2000年第五次全国人口普查相比,居住地与户口登记地所在的乡镇街道不一致且离开户口登记地半年以上的人口增加116995327人,增长81.03%。
(四)城乡构成
2000年农村居民人口数为783841243人,占63.08%;城镇居民则有458770983人,占36.92%。
2011年人口普查显示居住在城镇的人口为665575306人,占49.68%;居住在乡村的人口为674149546人,占50.32%。
通过下面的条形图可以清楚的看到2000年—2011年十年间,农村居民减少而城镇居民增加,通过进一步计算可以得知城镇人口比重上升12.76个百分点。
城乡人口复式条形图城乡人口堆积面积图
(五)性别构成
2000年第五次人口普查男性人口为640275969人占51.53%;女性人口为602336257人,占48.47%。
2011年第六次人口普查显示男性人口为686852572人,占51.27%;女性人口为652872280人,占48.73%。
通过下面的饼图可以放大百分比上些微的变化(两个年份左边较小的部分均为女性人口数),总人口性别比(以女性为100,男性对女性的比例)由2000年第五次全国人口普查的106.31下降为105.20。
男女人口数饼图
(六)年龄构成
根据上面给出的原始数据表,两次普查的年龄构成大致如下。
2000年人口普查:
0-14岁人口为284527594人,占22.90%;15-59岁人口为828106762人,占66.64%;60岁及以上人口为129977870人,占10.46%。
20011年人口普查:
0-14岁人口为222459737人,占16.60%;15-59岁人口为939616410人,占70.14%;60岁及以上人口为177648705人,占13.26%。
为了进一步分析各年龄段,根据联合国卫生组织的新划分标准将年龄进一步细分,用直方图进行分析。
原始数据整理如下:
两次人口普查年龄数据单位(人)
年龄段
2000年
2011年
少儿(0~14岁)
284527594
221322621
青年(15~44岁)
632911142
668233610
中年(45~59岁)
195195620
265660198
年轻老年人(60~74岁)
102058457
132752961
老年人(75~89岁)
长寿老人(90岁及以上)
971227
首先利用SPSS软件将六个年龄段分别负值,1为少年,2为青年,3为中年4为年轻老年人,5为老年人,6为长寿老人。
然后将描述统计量以400万为一单位分为个体数据,通过直方图显示其分布频数。
第五次人口普查年龄构成直方图第六次人口普查年龄构成直方图
通过直方图的分布可以得出,两次统计结果显示了相似的正态分布。
青年人口数量占有绝对较高的比例。
具体看到各个年龄段的人口变化(为了方便陈述,以数值代指各年龄段),年龄段1有较明显的人口数量减少,年龄段2、3、4、5在其原有基础上缓慢增长,年龄段3取代年龄段1变为人口数第二的年龄段。
由于年龄段6人口数始终较少,在处理数据过程中其特征无法被放大,2000年年龄段6的频数为0.242,2011年增长到0.496,其增长比例是最为显著的,说明随着社会经济的发展高龄老年人数量逐渐增多。
(七)民族构成
2000年普查,汉族人口为1137386112人,占91.53%;少数民族人口为105226114人,占8.47%。
2011年普查,汉族人口为1225932641人,占91.51%;各少数民族人口为113792211人,占8.49%。
(八)教育程度
2000年人口普查时,具有大学(大专及以上)文化程度的人口为人;具有高中(含中专)文化程度的人口为138283459人;具有初中文化程度的人口为422386607人;具有小学文化程度的人口为441613351人,文盲人口(15岁及以上不识字的人)为85069667人。
2011年,具有大学(大专及以上)文化程度的人口为119636790人;具有高中(含中专)文化程度的人口为187985979人;具有初中文化程度的人口为519656445人;具有小学文化程度的人口为358764003人,文盲人口(15岁及以上不识字的人)为54656573人。
以累计频率条形图对教育程度进行进一步分析,类似于年龄构成的数据处理方法,以500万为单位对各个文化段的人口数进行调整,得出具体的个体值,再利用SPSS软件分别作出两次普查教育程度的累计频率条形图。
第五次普查教育程度数据累计频率条形图
从上图可以看到大学(大专及以上)文化程度的人口占比特别低。
累计高中以上文化程度为20%不到,累计初中以上文化程度为50%左右,累计小学以上文化程度为90%左右。
通过简单的相减可以得出结论,占比最大的文化段应该在小学文化程度。
另外注意到小学文化程度过后的文盲,占比约有10%。
第六次普查教育程度数据累计频率条形图
看到第六次普查的数据,首先,大学(大专文化及以上)程度人口有显著增长,接近翻倍。
其他文化程度(除文盲)也都有所增长,其中累计高中以上文化程度频率约为25%,累计初中以上文化程度频率约65%,累计小学以上文化程度频率约95%。
同样可以直观的了解到,占比最大的文化段由小学文化程度移至初中文化程度。
最后看到文盲所占比重,相比较十年前,削减了近二分之一。
总的来说,对比两次普查,可以很肯定的说十年间我国教育事业取得了较为显著的成绩,国民受教育水平大大提升。
(九)对两次普查人口年龄比例这一指标是否有显著不同的检验。
单从两次普查三个年龄段的数据来看,表1和表2给出了各自的的均值、标准差、均值标准误差以及两次数据的相关系数,可以看出前后两次统计并没有发生显著的变化。
表3配对样本t检验结果,包括配对变量差值的均值、标准差、均值标准误差以及差值的95%置信度下的区间估计,给出了t统计量和p值。
结果显示p=0.588>0.05,所以,第五次人口普查和第六次人口普查在上述三个年龄段得到的人口数据没有显著不同。
表1:
两次人口普查三个年龄段(0—14岁,15—59岁,60岁及以上)的描述统计量
PairedSamplesStatistics
Mean
N
Std.Deviation
Std.ErrorMean
Pair1
第五次人口普查
4.14E8
3
3.667E8
2.117E8
第六次人口普查
4.47E8
3
4.276E8
2.469E8
表2:
两次人口普查三个年龄段(0—14岁,15—59岁,60岁及以上)数据的相关系数
PairedSamplesCorrelations
N
Correlation
Sig.
Pair1
第五次人口普查&第六次人口普查
3
.987
.102
表3:
配对样本T检验结果
PairedSamplesTest
PairedDifferences
t
df
Sig.(2-tailed)
Mean
Std.Deviation
Std.ErrorMean
95%ConfidenceIntervaloftheDifference
Lower
Upper
Pair1
第五次人口普查-第六次人口普查
-3.237E7
8.779E7
5.069E7
-2.505E8
1.857E8
-.639
2
.588
(十)对两次普查人口教育程度这一指标是否有显著不同的检验。
这一指标下人口数分为五个:
大学(大专及以上)文化程度人口数;高中(含中专)文化程度人口数;初中文化程度人口数;小学文化程度人口数;文盲(15岁及以上不识字)人口数。
单从两次普查五个分段的教育程度数据来看,表4和表5给出了各自的的均值、标准差、均值标准误差以及两次数据的相关系数,可以看出前后两次统计并没有发生显著的变化。
表6配对样本t检验结果,包括配对变量差值的均值、标准差、均值标准误差以及差值的95%置信度下的区间估计,给出了t统计量和p值。
结果显示p=0.451>0.05,所以,第五次人口普查和第六次人口普查在教育程度得到的人口数据没有显著不同。
表4:
两次人口普查教育程度的描述统计量
PairedSamplesStatistics
Mean
N
Std.Deviation
Std.ErrorMean
Pair1
第五次人口普查
2.62E8
4
2.007E8
1.003E8
第六次人口普查
2.97E8
4
1.796E8
8.978E7
表5:
两次人口普查教育程度数据的相关系数
PairedSamplesCorrelations
N
Correlation
Sig.
Pair1
第五次人口普查&第六次人口普查
4
.915
.085
表6:
配对样本T检验结果
PairedSamplesTest
PairedDifferences
t
df
Sig.(2-tailed)
Mean
Std.Deviation
Std.ErrorMean
95%ConfidenceIntervaloftheDifference
Lower
Upper
Pair1
第五次人口普查-第六次人口普查
-3.493E7
8.089E7
4.045E7
-1.637E8
9.379E7
-.864
3
.451
二、一元线性回归分析
——江苏省南通市1993年—2006年农村人均收入与人均食品支出之间的关系
(一)实际问题背景
影响居民消费的因素很多,包括社会的、历史的、经济的、预期收入等多方面因素,但最主要的是经济方面的因素。
在市场经济条件下,收入是决定居民消费的最主要原因。
而食品支出作为消费中最为基础的生存型消费,具有较高的研究价值。
另一方面,消费、投资、净出口是拉动经济增长的“三驾马车”,近年来,国民经济持续快速发展,但居民消费对经济增长贡献却在逐步走低,居民消费的增长低于经济的增长,而其中农村居民的消费又更弱于经济的快速发展。
提升农村居民的消费水平,对于增加居民消费对经济增长的贡献份额,提高经济运行质量具有重要的现实意义。
本次分析以江苏省南通市农村居民十五年的人均收入和人均食品支出为样本,进行线性回归分析,研究两个变量之间的关系。
进而了解该地区农村经济和消费情况,提出合理建议。
(二)数据来源
从江苏省统计局网站上取得1993年—2006年各年江苏省南通市农村的人均收入和人均食品支出的数据,以及中国统计局网站上得到的各年居民消费价格指数(CPI)。
为了剔除价格因素对人均消费和人均收入的影响,需要对原始数据进行调整。
具体步骤如下:
1.以1999年为基期,计算各年CPI值。
[上年调整后的CPI*当年CPI/100=当年调整后的CPI]
2.根据调整后的CPI,对各年的人均消费和人均收入数据进行调整。
[调整后的人均消费=人均消费/调整后的CPI*100];[调整后的人均GDP=人均GDP/调整后的CPI*100]
原始数据如下表:
1993年—2006年江苏省南通市农村人均收入和人均食品支出原始数据单位:
(元)
年份
人均收入
食品支出
CPI
CPI(1999)=100
1993
1167
483
114.7
63.19186384
1994
1820
820
124.1
78.42110303
1995
2547
1040
117.1
91.83111164
1996
3168
1274
108.3
99.45309391
1997
3388
1165
102.8
102.2377805
1998
3504
1108
99.2
101.4198783
1999
3585
1011
98.6
100
2000
3710
989
100.4
100.4
2001
3926
986
100.7
101.1028
2002
4133
1050
99.2
100.2939776
2003
4393
1173
101.2
101.4975053
2004
4929
1381
103.9
105.455908
2005
5501
1559
101.8
107.3541144
2006
6106
1659
101.5
108.9644261
调整后的数据如下表:
1993年—2006年江苏省南通市农村人均收入和人均食品支出可比数据单位:
(元、%)
年份
人均收入
食品支出
占总支出的比重
1993
1846.75673
764.338905
45.4
1994
2320.80388
1045.63691
46.8
1995
2773.56982
1132.51379
47
1996
3185.42126
1281.0059
44.9
1997
3313.84346
1139.50048
42.9
1998
3454.944
1092.488
41.7
1999
3585
1011
39.7
2000
3695.21912
985.059761
34.1
2001
3883.17633
975.244998
35.5
2002
4120.88552
1046.92228
36.1
2003
4328.1852
1155.69343
39.4
2004
4673.99133
1309.55204
41.3
2005
5124.16318
1452.20331
40.4
2006
5603.66371
1522.51525
38.5
(三)数据分析
对这两个变量,考虑人均收入对人均食品支出的影响,建立的模型如下:
yi=α+βxi
其中,yi是人均食品支出,xi是人均收入
1.人均食品支出与人均收入的散点图
通过SPSS工具作出人均消费与人均收入的散点图从图上可以直观地看出这两个变量之间存在线性相关关系。
2.人均消费与人均收入相关系数表
Correlations
人均收入
人均食品支出
人均收入
PearsonCorrelation
1
.768**
Sig.(2-tailed)
.001
N
14
14
人均食品支出
PearsonCorrelation
.768**
1
Sig.(2-tailed)
.001
N
14
14
**.Correlationissignificantatthe0.01level(2-tailed).
从表中可得到两变量之间的皮尔逊相关系数为0.768,双尾检验概率p值尾0.001<0.05,故变量之间显著相关。
根据住人均食品支出与人均收入之间的散点图与相关分析显示,人均食品支出与人均收入之间存在显著的正相关关系。
在此前提下进一步进行回归分析,建立一元线性回归方程。
3.线性回归分析
(1)回归模型拟和优度评价
ModelSummaryb
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
1
.768a
.590
.556
133.439461
a.Predictors:
(Constant),人均收入
b.DependentVariable:
人均食品支出
上表给出了回归模型的拟和优度(RSquare)、调整的拟和优度(AdjustedRSquare)、估计标准差(Std.ErroroftheEstimate)。
从结果来看,回归的可决系数和调整的可决系数分别为0.768和0.590,即人均消费的60%左右的变动可以被该模型所解释。
(2)回归模型的方差分析表
ANOVAb
Model
SumofSquares
df
MeanSquare
F
Sig.
1
Regression
307633.785
1
307633.785
17.277
.001a
Residual
213673.075
12
17806.090
Total
521306.860
13
a.Predictors:
(Constant),人均收入
b.DependentVariable:
人均食品支出
可以看到,F统计量为17.277,对应的p值为0.001,所以,拒绝模型整体不显著的原假设,即该模型的整体是显著的。
(3)回归系数估计及其显著性检验
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1
(Constant)
584.836
137.474
4.254
.001
人均收入
.149
.036
.768
4.157
.001
a.DependentVariable:
人均食品支出
从表中可以看到无论是常数项还是解释变量,其t统计量对应的p值都小于显著性水平0.05,因此,在5%的显著性水平下都通过了t检验。
变量的回归系数为0.149,即人均收入每增加1元,人均食品支出就增加0.149元。
y=584.836+0.149x。
(5)为了判断随机扰动项是否服从正态分布,观察下图所示的标准化残差的P-P图,可以发现,各观测的散点基本上都分布在对角线上,据此可以初步判断残差服从正态分布。
(四)分析结论及应用价值
通过上面的回归分析,并结合原始数据,可以得出这样的结论:
首先,一直以来,江苏省南通市农村居民的人均食品支出与人均收入是存在正向内在联系的。
其次,此次的数据分析可以验证经济理论:
收入是影响收入的决定性因素;随着收入的增加,收入中用来购买食物的支出则会下降。
最后,在已知两者存在正相关关系的前提下,一方面对于江苏省而言,要重视苏北地区农村发展,统筹城乡和区域,大力发展经济、增加国民生产总值,也就是经常说的“把蛋糕做大”。
从而增加农村居民可支配收入,提高其消费水平,促进农村消费结构的转变,使农村居民的生存型消费保持由量到质的转变,增加其他消费(如发展型消费、享受型消费)在总支出中所占的比重,进而提高广大农民的生活水平。
另一方面,要重视消费对经济的反作用,调动起农民群体的消费能量,充分发挥合理适度消费对生产的导向作用,对产业的带动作用,对劳动者的激励作用,使得“消费”与“出口”“投资”这三辆拉动经济增长的马车并驾齐驱。