人口预测模型(优秀论文)(1)文档格式.doc
《人口预测模型(优秀论文)(1)文档格式.doc》由会员分享,可在线阅读,更多相关《人口预测模型(优秀论文)(1)文档格式.doc(25页珍藏版)》请在冰点文库上搜索。
人口增长预测是随着社会经济发展而提出来的。
在过去的几千年里,由于人类社会生产力水平低,生产发展缓慢,人口变动和增长也不明显,生产自给自足或进行简单的以货易货,因而对未来人口发展变化的研究并不重要,根本不用进行人口增长预测。
而当今社会,经济发展迅速,生产力达到空前水平,这时的生产不仅为了满足个人需求,还要面向社会的需求,所以必须了解供求关系的未来趋势。
而人口增长预测是对未来进行预测的各环节中的一个重要方面。
准确地预测未来人口的发展趋势,制定合理的人口规划和人口布局方案具有重大的理论意义和实用意义。
2.问题
人口增长预测有短期、中期、长期预测之分,而各个国家和地区要根据实际情况进行短期、中期、长期的人口预测。
例如,中国人口预期寿命约为70岁左右,因此,长期人口预测最好预测到70年以后,中期40—50年,短期可以是5年、10年或20年。
根据2007年初发布的《国家人口发展战略研究报告》(附录一)及《中国人口年鉴》收集的数据(附录二),再结合中国的国情特点,如老龄化进程加速,人口性别比升高,乡村人口城镇化等因素,建立合理的关于中国人口增长的数学模型,并利用此模型对中国人口增长的中短期和长期趋势做出预测,同时指出此模型的合理性和局限性。
二、问题的基本假设及符号说明
问题假设
1.假设本问题所使用的数据均真实有效,具有统计分析价值。
2.假设本问题所研究的是一个封闭系统,也就是说不考虑我国与其它国家的人口迁移问题。
3.不考虑战争瘟疫等突发事件的影响
4.在对人口进行分段处理时,假设同一年龄段的人死亡率相同,同一年龄段的育龄妇女生育率相同。
5.假设各年龄段的育龄妇女生育率呈正态分布
6.人类的生育观念不发生太大改变,如没有集体不愿生小孩的想法。
7.中国各地各民族的人口政策相同。
符号说明
--------------------第t时间区间内第i个年龄段人口总数
--------------------第t时间区间内第i个年龄段人口总数占总人口的比例
--------------------第t时间区间内第i个年龄段中第k年龄值人口总数占总人口的比例
--------------------第t时间区间内各年龄段人口总数的向量
--------------------第t时间区间各年龄段人口总数向量转移矩阵
-------------------第t时间区间内第i个年龄段人的生育率
-------------------第t时间区间内第i个年龄段人的死亡率
-----------------第t时间区间内第i个年龄段中第k年龄值的死亡率
-------------------第t时间区间内第i个年龄段人的存活率
---------------------第t时间区间男性人数与女性人数的比值
---------------------第t时间区间内第i个年龄段育龄妇女的生育率
m---------------------------每个年龄段上年龄值的数目
三问题分析
本问题是一个关于人口预测的问题,与以往不同,本问题需要根据中国特殊的国情去研究,我们根据对问题的分析并结合实际情况认为对人口产生主要影响的因素有以下四个:
生育率、死亡率、年龄结构、男女比例。
在这里需要说明的是对于人口产生影响的一些因素,如经济发展状况,生态环境情况、已婚夫妇对生育所持的态度、医疗技术的发展等,我们认为它们对人口的增长是通过作用于以上四个指标而间接发挥作用的。
而对于诸如战争爆发、疾病流行等突发因素,由于其不可预测性,我们不考虑
1.生育率
生育率代表育龄妇女生育人口的能力,从一定意义上讲生育率的高低控制着人口增长率高低,通常来说生育率越高人口增长率越高,所以说生育率是人口增长的源头。
生育率的影响因素很多,首先是年龄因素,不同年龄段的育龄妇女的生育率不同,通常20岁至30岁的育龄妇女的生育率最强;
此外是地域因素,受政策因素、观念认识、周边环境等影响乡村育龄妇女的生育率高于城市育龄妇女的生育率;
还有其它因素的影响,比如大规模疾病会降低育龄妇女的生育率。
2.死亡率
死亡率表示一定时期内一个人口群体中死亡的人数占该人口群体的比值,和生育率一样死亡率的高低同样控制着人口增长率高低,如果说生育率是人口增长的源头,则死亡率是人口增长的汇点。
同样影响死亡率的因素很多,首先不同年龄段的死亡率不同,通常老年人和刚出生的婴儿的死亡率较高;
从长远来看,随着医疗水平的提高,整个人口群体的死亡率将会成下降趋势;
此外一些突发事件,如战争、疾病等,将会使使那一段的人口死亡率大幅度提高。
3.年龄结构
年龄结构反映了总体人口在各年龄段分布情况,年龄结构蕴涵的信息量很大,从其中我们可以实现对很多问题的分析,比如从年龄结构我们可以分析出社会的老年化程度,此外从年龄结构我们可以判断出不同时间段人口出生的情况,比如年龄结构不仅反映了总体人口在各年龄段分布情况,而且考虑到不同年龄段人口生育率、死亡率不同等情况,我们可以在年龄结构中有效反映这些差异
4.男女比例
男女比例反映了总体人口中男性与女性人数的比较关系,男女比例值能反映出体人口中男性与女性人数是否协调,男女比例主要受男女出生比和男女死亡率的影响,男女出生比正常范围在103-107,也就是说出生100个女儿的同时会有103—107个男儿出生,但是在现实社会中,女性死亡率低于男性,所以男性与女性人数大致相等,社会维持在一个稳定状态。
但目前我国男女出生比超过110,这不仅将导致男女比例失调,还会对人口的预测产生影响,所以在人口预测时必须将男女比例问题考虑进去。
考虑到人口预测分为中短期预测和长期预测,两类预测因为涉及的时间长短不同,所以考虑的因素不同,采用的方法不同。
对于中短期预测,我们假设生育率、死亡率、年龄结构、男女比例均维持在同一稳定水平,这样我们采用方法有很多,。
对于长期预测,我们需要考虑生育率、死亡率、年龄结构、男女比例等因素随时间变化,此外城乡人口迁移对城乡人口结构产生影响,尽管以上因素短期内积累效应较小,但在长期中必须考虑。
在预测方法上我们选用了基于以往人口数据的一次线性回归,灰色、时间序列预测,逻辑斯蒂模型和基于年龄结构并生育率、死亡率随时间Leslie人口模型出生率
年龄结构
按影响增长因素建立模型型
男女比例
Leslie人口模型
死亡率
中国人口预测模型
按人口统计量建立模型
一次线型回归
逻辑斯蒂
灰色预测
熵权法组合模型
中短期
长期
BP神经网络模型
四数学模型
4.1.熵权组合模型
有关于人口增长预测的模型很多,比如灰色GM(1,1),移动平均数法,指数平滑法,一元线型回归,马尔萨斯人口模型,宋健人口模型等等,但是每种预测方法的精度往往也不同。
组合模型和单个模型比起来,具有较高的预测精度,组合预测的关键就在于确定各个预测方法的权重。
本文将从一个新的角度进行研究,即从信息论的观点出发,根据各个体预测方法误差指标的信息熵,确定组合预测模型的权重,进行人口组合预测模型。
本文选用了一元线性回归法,逻辑斯蒂模型法,灰色GM(1,1)模型法对中国人口增长进行预测。
而1978至2005年的数据见本文表一。
.4..1.1灰色预测模型
1.模型建立
灰色系统是指部分信息已知,部分信息未知的系统。
灰色系统的理论实质是将无规律的原始数据进行累加生成数列,再重新建模。
由于生成的模型得到的数据通过累加生成的逆运算――累减生成得到还原模型,再有还原模型作为预测模型。
预测模型,是拟合参数模型,通过原始数据累加生成,得到规律性较强的序列,用函数曲线去拟合得到预测值。
灰色预测模型建立过程如下:
1)设原始数据序列有n个观察值,,通过累加生成新序列,利用新生成的序列去拟和函数曲线。
2)利用拟合出来的函数,求出新生序列的预测值序列
3)利用累减还原:
得到灰色预测值序列:
(共n+m个,m个为未来的预测值)。
将序列分为和,其中反映的确定性增长趋势,反映的平稳周期变化趋势。
利用灰色GM(1,1)模型对序列的确定增长趋势进行预测
2模型求解
根据2006全国统计年鉴数据整理得到全国历年年度人口统计表如表1.
表1:
全国历年年底的人口统计
1978年
1980年
1985年
1989年
1990年
1991年
1992年
总人口
/万人
96259
98705
105851
112704
114333
115823
117171
1993年
1994年
1995年
1996年
1997年
1998年
1999年
11857
119850
121121
122389
123626
124761
125743
2000年
2001年
2002年
2003年
2004
2005年
126743
127627
128453
129227
129988
130756
根据上述数据,建立含有20个观察值原始数据序列:
利用Matlab软件对原是数列进行一次累加,得到新数列为,如表2:
表2:
新数列误差和误差率
拟核值
108504
109773
111056
112354
113668
114997
116343
误差
-9799.1
-3921.8
1647.8
1978.3
2154.6
2173.6
2175.0
误差/﹪
-9.93
-3.70
1.46
1.73
1.86
1.84
117702
119079
120471
121879
123304
124746
2147.7
2042.5
1918.2
1746.6
1456.6
1039.9
538.3
1.79
1.69
1.57
1.41
1.17
0.83
0.42
126204
127680
129173
130683
132211
133757
-53.3
-720.1
-1456.4
-2223.4
-3001.3
-3010.4
-0.04
-0.56
-1.13
-1.71
-2.30
-2.42
1、利用表2,拟合函数,如下:
2、精度检验值
c=0.3067(很好)
P=0.9474(好)
3、得到未来20年的预测值:
表3:
全国历年年底的人口统计未来20年预测值
2006年
2007年
2008年
2009年
2010年
2011年
135321.2
136903.4
138504.1
140123.5
141761.9
143419.4
145096.2
2012年
2013年
2014年
2015年
2016年
2017年
2018年
146792.7
150245.5
152002.2
153779.4
155577.4
157369.5
159236.8
2019年
2020年
2021年
2022年
2023
161098.7
162982.2
164887.8
166815.7
168766.2
4.1.2一元线性回归法
根据表一中的数据,本文建立一元线性回归模型进行预测;
为人口数单位:
万人为年份。
利用Matlab软件,用麦夸特法进行回归拟合,得到拟核值及回归方程,如下:
表八一元线性回归模型拟合值
104546.9
106119.3
107691.6
109264
110836.4
112408.8
113981.2
拟合值
115553.5
117125.9
118698.3
120270.7
121843.1
123415.5
124987.8
126560.2
128132.6
129705
131277.4
132849.7
134422.1
由此,建立如下的一元线性回归方程
相关系数:
R=0.9359
4.1.3逻辑斯蒂模型(Logisticgrowthmodel)
考虑自然资源和环境对人口的影响,并以记自然资源和环境条件所能允许的最大人口数。
把人口增长的速率除以当时的人口数称为人口的净增长率。
如果人口的净增长率随着的增加而减小,且当时,净增长率趋于零。
因此人口方程可写成
其中为常数,此模型就叫逻辑斯蒂模型。
我们把1978年至2005年全国历年年底总人口的数值组成一个观察矩阵,其中的每一个数值称之为观察值。
本文利用spss软件,得出与观察值一一映射的拟核值,残差值和cook距离,见下表:
表九用spss软件得到各观察值所对应的拟核值,残差值和标准残差
97077.7
101458.9
105412.6
108940.84
112057.91
114787.4
117159.2
残差
-818.74
-2753.91
438.35
3763.15
2275.08
1035.51
11.73
标准残差
-0.7505
-2.0548
0.3051
2.5699
1.5537
0.7098
0.0080
119206.2
120962.7
122462.4
123737.3
124817.2
125729.2
126497.3
-689.28
-1112.76
-1341.41
-1348.34
-1191.28
-968.25
-711.37
-0.4707
-0.7540
-0.9009
-0.8985
-0.7899
-0.6410
-0.4720
127142.9
127684.4
128138.0
128517.4
128834.5
129099.2
-399.93
-57.47
314.93
709.50
1153.45
1656.76
-0.2670
-0.0387
0.2147
0.4906
0.8101
0.941
从新数据得到F=372.3471p-值=0.001
本文建立逻辑斯蒂模型:
相关系数R=0.9888
4.1.4.组合模型建立
1、熵权法的概念及基本步骤
熵权法是一种决定指标的方法,我们知道,综合指标取决于单个指标数的确定,一般情况下的权重是根据经验来确定的,但是这种确定权重的方法缺少科学根据,也不能保证确立的综合指标能反映原始指标的大部分信息,且权重的确立因人而异,所以其应用受到了限制,而熵权法就能够避免这些问题,使权重的确立具有科学的根据,具有说服力。
熵权法的步骤确立如下:
①计算第j项指标下第i个方案的指标比重
②计算指标j的熵值()
③计算第j项指标的差异系数
④定义权重
则就为熵权法确定的权重。
2、误差指标的选举
为了能全面的各个预测方法以及组合预测的预测效果,必须制定一套切实可行的误差指标。
按照预测效果的评价惯例,本文选取如下指标作为参考:
(1)、平方和误差
(2)、平均绝对值误差
(3)、均方误差
(4)、平均绝对值百分比误差
(5)、均方百分比误差
3、组合模型权重的确定
设以选定m种个体预测方法,n个误差指标,m种个体预测方法对应n个误差指标构成了评价指标值矩阵;
第个指标下第种个体方法的指标比重值为
第个指标的熵值为:
记
第个指标的权重为:
记矩阵R中每列最优值为,对该矩阵所有元素做标准化处理,可得:
这样,各个体预测方法的熵权评价值,可以表示为:
将上式进行归一化处理,即可以得到各个个体的权重。
4.1.6熵权组合模型求解
本文利用Matlab软件对上述的模型、指标进行综合的运算处理,得到熵权系的基本数据资料,见下表:
加权系数为:
4.2Leslie人口模型
4.2.1模型建立
在这里我们将人口按年龄大小等分为n个年龄组,记i=1,2,…,n
同时将时间离散为时段,长度与年龄组区间相等,记k=1,2,…
定义为第t时间区间内第i个年龄段人口总数,为第t时间区间内第i个年龄段人的生育率。
则有下面关系:
定义第i年龄组在1时段内的死亡率为,则存活率为=1-
则有下面关系
定义为第t时间区间内各年龄段人口总数的向量
定义为第t时间区间各年龄段人口总数向量转移矩阵
由以上定义有
进而有以下关系
需要说明的是为减小误差每次计算A(t)完后用
公式校正
4.2.2数据分析及处理
我们分别对m=1和m=5进行说明m表示每个年龄段上年龄值的数目
4.2.2.1对于m=1的情况,
1、各年龄分层人口占总人口的比率
对于m=1的情况,各年龄分层人口占总人口的比率就是各年龄值占总人口的比率,
为消除各年数据随机性我们我们采用对各年数据取平均值的方法得到数据。
2、各年龄分层人口的死亡率
与上面分析相同我们采用对各年数据取平均值的方法得到数据。
3、各年龄分层上育龄妇女的生育率
通过观察我们发现2003年生育率很低,我们猜想这是由于那一年有非典的原因,因此在剔除这一年的数据后对各年数据取平均值的方法得到数据。
我们假设各年龄分层上育龄妇女的生育率呈正态分布进行数据拟合。
图2m=1时育龄妇女的生育率正态分布图
4.2.2.2对于m=5的情况
为了实现年龄结构分析,同时也为了对生育率和死亡率这些与年龄段有明显联系的指标分析
我们决定对人口统计数据进行年龄分层处理。
具体实现办法为以5年为年龄分段长度对附件中数据进行分层,例如0-4岁为第1年龄段,15-19岁为第4年龄段,90岁以上老人由于所占比例较小,不对统计产生显著影响,故与最后一组一起研究。
需要说明的是与m=1情况的处理方法一样,我们先对各年数据取平均值的方法得到分析数据。
1.各年龄分层人口占总人口的比率
附表的数据给出了不同年龄值男性和女性人数占总人数的比率,对于某一年龄段人口占总人口的比率为该年龄段中各年龄值男性或女性人数占总人数的比率之和,公式如下
式中j=1,2其中1表示男性,2表示女性
附表中给出的数据是分别给出男性比率和女性比率,这里由于我们要把男女作为一个整体,所以我们对各年龄分层男性比率和各年龄分层女性比率相加得到各年龄分层人口占总人口的比率,公式如下
式中表示第t时间区间内第i个年龄段人口总数占总人口的比例
表示第t时间区间内第i个年龄段中男性比率
表示第t时间区间内第i个年龄段中女性比率
2.各年龄分层人口的死亡率
各年龄分层男性死亡率或女性死亡率为各年龄分层中不同年龄值男性死亡率或女性、系数加权得到,公式如下:
与上面一样我们对各年龄分层男性死亡率和各年龄分层女性死亡率系数加权得到第t时间区间内第i个年龄段人的死亡率
式中表示第t时间区间内第i个年龄段人的死亡率
表示第t时间区间内第i个年龄段男性的死亡率
表示第t时间区间内第i个年龄段女性的死亡率
在这里需要说明的是第0岁较高,出现奇异,分析原因我们认为这是婴儿的出生造成的,
我们对第1个年龄段人的死亡率进行校正,
说明:
为便于表示令第0岁为第1年龄值
表10城镇乡各年龄段人口的死亡率
城
1.6488
0.26803
0.21926
0.32918
0.36874
0.43237
镇
2.3776
0.33735
0.31755
0.49186
0.68
4.1292
乡
4.0589
0.49789
0.46164
0.88289
1.2982
1.4728
0.61871
0.93316
1.4475
2.493
3.5018
5.2388
0.86522
1.2753
1.85
2.8108
4.4551