中等收入定位与人口度量模型330版本.docx

资源描述

中等收入定位与人口度量模型330版本.docx

《中等收入定位与人口度量模型330版本.docx》由会员分享，可在线阅读，更多相关《中等收入定位与人口度量模型330版本.docx（23页珍藏版）》请在冰点文库上搜索。

中等收入定位与人口度量模型330版本.docx

中等收入定位与人口度量模型330版本

参赛密码

（由组委会填写）

全

第十届华为杯全国研究生数学建模竞赛

学校

参赛队号

队员

参赛密码

（由组委会填写）

第十届华为杯全国研究生数学建模竞赛

题目中等收入定位与人口度量模型

摘要：

本文主要研究了洛伦兹曲线拟合与中等收入人群界定问题。

提出了一种新的洛伦兹曲线拟合方案，并改进了原有的“收入空间法”和“人口空间法”界定中等收入人群。

根据地区A、B前后两年的数据拟合得到洛伦兹曲线，分析了A、B两地的中等收入人口变化。

最后提出了一个综合性的模型，用数学模糊评价的方法，界定中等收入的人群。

第一问，拟合洛伦兹曲线的问题，构造了新模型先证明了此模型满足洛伦兹曲线的四个条件。

与其他11个模型比较了MSE、MAE、MSE三个标准，说明新模型是有效的。

新模型是已有一个模型的泛化，通过它导出收入人口密度函数保留了原有模型的性质。

第二问，我们提出了改进的“收入空间法”和“人口空间法”界定中等收入人群的问题。

针对原有“收入空间法”收入上下界随意性的问题，我们分别计算高、低收入两部分人群的各自的收入平均值，以这两个平均值作为我们“收入空间法”的上下界。

又提出根据计划指数P计算中等收入人群上下界的“人口空间法”。

从直观上我们的模型符合事实规律，满足在两级分化情况下中等收入人群变少的客观规律。

第三问，对A、B两地两年的数据做分析，可以得出结论，A、B两地年份二的整体收入比年份一都有增加，中等收入人群的上下界也都相应增加。

A地的中等收入人口两年没有明显变化。

用收入空间法界定，B地中等收入人口在年份二比年份一要多2.5%。

而用人口空间法界定，B地中等收入人口在年份二比年份一要少6%

第四问，我们提出了一个综合性强，适用围广的模型。

用模糊评价法，综合已有的数据和方法，建立已有方法的模糊分布，再对每种方法加权后做模糊合成，给出更为有说服力的中等收入人群界定。

最后，我们给出一个例子，综合了“收入空间法”、“人口空间法”、“五分层次法”以及用模拟数据构造的“恩格尔系数”界定法这四种方法，给出一个综合信息更全，说服力更高的中等收入界定值。

关键词：

洛伦兹曲线拟合中等收入人群模糊评价法

1问题重述

在任何一个社会中，最理想的收入分配状态是中等收入者占多数的“橄榄型”社会结构。

中等收入者犹如杠杆的中间部分，能起到平衡、缓冲的作用，他们处于富裕群体和贫困群体之间。

中等收入者能够拉动需，促进经济增长，是稳定的消费群体。

而且，拥有这样结构的社会，能够增强抵御各种风险的能力。

我国处于经济转型期，收入分配格局处于重要的调整期，“橄榄型”收入分配格局正处于形成阶段。

因此，监控收入分配格局的变化是经济社会发展的重要课题。

因此，我们建立模型，定位并度量中等收入人群。

1.构造洛伦兹曲线的新模型

，使得能很好的拟合上述分组数据、反映经济规律。

并满足下式。

，

并对比现在已有的10种模型，与本文提出的模型进行比较。

通过比较均方误差、平均绝对误差、最大绝对误差，说明你们的模型的合理性。

2．提出改进的“收入空间法”和“人口空间法”。

其中收入空间法要克服传统收入空间法选定中等收入空间时的任意性；而人口空间法要适应不同工资分布时，中等收入人口不可变的问题。

所提出的原理与模型应适应经济学的客观规律，并满足以下直观认识。

（1）分布函数f（x）的中间部分越高，则中等收入人口越多

（2）如果两级分化严重，则中等收入人口变少。

3.利用我们提出的建模方法对A,B两个地区前后两个不同年份的收入分配分组数据研究以下两个问题：

（1）对各地区、各年份的中等收入的数量（或围）、中等收入人口的数量或围进行定量描述，说明中等收入人口的变化趋势；

（2）比较两个地区的中等收入人口、收入等变化情况。

4.提出中等收入人口的定义、原理及经济学意义，并提出与之相应的中等收入人口的测算方法、模型或指数，说明其经济学意义。

2问题一求解：

洛伦兹曲线拟合模型

2.1洛伦兹曲线

洛伦兹曲线是美国统计学家洛伦兹提出的用来描述社会收入分配状况的一种曲线[1]，它由累积的一定人口数占总数人口中的百分比与这部分人口所获得的收入占总收入中的百分比状况来表示（如图1）。

图1：

洛伦兹曲线

直观地，

线描述的是当所有人的收入都一样的情况，即此时分配完全平等。

洛伦兹曲线越往下凸得严重就意味着收入越不平等。

由洛伦兹曲线定义基尼系数为

线与

之间面积的

倍，如下：

（1）

从以上直觉和基尼系数的定义，可以看到基尼系数在某种程度上度量了社会的贫富差距。

2.2拟合模型构造

通常情况下，能得到的关于社会成员收入的数据的一条记录是在某一收入区间的人口数量，称之为分组数据（GroupData）。

经济学界采用所谓的洛伦兹曲线模型

拟合分组数据，其中

是一组参数，然后做进一步的分析。

为了叙述方便，下面将省略

进行说明。

有关洛伦兹曲线模型的最近的文献见参考文献[2]。

为了符合经济学原理，用来拟合的模型必须满足如下四个条件：

（2）

我们构造了新的模型来拟合洛伦兹曲线。

模型如下

（3）

下面证明模型满足

（2）式中的四个条件。

1.显然函数L（p）满足在p=0,p=1时值为0。

2.对于一阶导数：

在（3）式参数的约束条件下，满足

。

3.对于二阶导数：

分析易得，二阶导数和式的两部分在参数约束条件下，满足

综合1,2,3可得，提出的模型满足洛伦兹曲线拟合模型的定理要求。

在

时，

此模型正是参考文献[3]所提出的的模型。

我们构造的模型可以看作是对此模型的一个泛化。

2.3模型拟合结果比较

用构造出的模型拟合表1给出的数据。

拟合结果如下。

图2：

构造的新模型拟合结果。

从图2中可以看到，模型的拟合效果很好，所有的数据点几乎都在拟合曲线上。

为了进一步说明构造出的模型的拟合有效性，我们用参考文献[2]总结的11个拟合模型同样对题目表格1中的数据做拟合，然后对比。

拟合精度的好坏采用以下三种标准进行比较。

均方误差（MSE,meansquarederror）：

　　平均绝对误差（MAE,meanabsoluteerror）：

最大绝对误差（MAS,maximumabsoluteerror）

对比结果如下表。

Model

MSE（10-3）

MAE

MAS

Kakwani,1973

0.2617

0.0123

0.0409

Rasche,1980

0.6870

0.0213

0.0563

Gupta,1984

0.2660

0.0131

0.0395

Ortega,1991

0.0094

0.0027

0.0055

Chotipanich,1993

0.2378

0.0141

0.0359

Schader,1994

0.0021

0.0012

0.0030

Sarabia,1999

0.0034

0.0016

0.0035

WangandSmyth,2007

0.2342

0.0140

0.0218

Wang,2007

0.1046

0.0092

0.0176

Rodhe,2009

0.5001

0.0200

0.0329

Wang,2011

0.0034

0.0016

0.0037

OurModel

0.0089

0.0021

0.0094

表1：

问题1分组数据的洛伦兹曲线拟合模型对比。

第一列的模型的形式都可以在参考文献[1,2]中找到，篇幅所限，没有一一给出它们的函数形式。

Rodhe,2009是参考文献[4]给出的模型，也是我们构造的模型的一种特殊形式。

从表中分析可知，在参与比较的模型当中，Schader的拟合效果最好。

我们的模型虽然不是最好的，但三个指标与最好的相差无几。

可以得出结论，构造出的洛伦兹曲线拟合模型是有效的。

更加直观地，所有模型的拟合结果曲线如下图所示。

图3：

11个已有模型与新模型的拟合曲线。

3问题二求解

收入空间法改进

针对原有收入空间法的不足，我们定义了新的收入空间，根据新的收入空间定义了中等收入人群。

2.4原有收入空间法及其问题

经济理论界考虑取收入落在中位收入

的一个围的人口为中等收入人口，可以视这种方法为“收入空间法”。

例如图2（A），取其中收入属于

中的人口为中等收入人口，这时中等收入人口比例

显然等于

，见图2（B）。

这种方法中x1与x2的取法具有任意性，由于经济进步，通货膨胀等因素的影响，收入的区间是变化的，更多的情形是所有人口的收入都提高了，即全社会的收入区间右移，可见

与

的任意性使纵向比较各年的中等收入人口时出现困难。

2.5我们提出的改进模型

针对x1，x2的任意性，我们提出一种方法来确定x1，x2的确定值：

我们令X1=UL，X2=UH，其中UL是收入低于m的那50%的人的平均收入，而UH是收入高于m的那50%的人的平均收入。

我们分析此模型在洛伦兹曲线上的一些性质：

曲线上找到P1，P2点，他们的横坐标满足XP1=F（X1），XP2=F（X2），则在区间[XP1，XP2]之间的人为中等收入。

另外一个直观意义就是，P1是在洛伦兹曲线上，切线斜率等OM斜率的那个点，P2是切线斜率等于MA斜率的那个点。

证明如下：

OM的斜率k1等于UL/U，MA的斜率k2等于UH/U，其中U是整体的平均工资。

由

，

可以求导

所以L’（P1）=X1/U=UL/U=K1。

P2同理可证。

2.6定性的分析此模型性质：

2.7分析问题三中A、B两地区，两个年份的数据：

可以得出如下数据：

A地年一

3382.8

9179.9

0.2563

0.8860

A地年二

4715.8

13065

0.2519

0.8854

B地年一

10903

22974

0.2587

0.8770

B地年二

14429

30028

0.2538

0.8967

其中p1=F（x1），p2=F（x2）

进一步分析有：

平均收入u

中位数m

极化指数P

基尼系数G

中等收入人口比例

A地年一

6281.3

5254.75

0.1432

0.3417

0.6297

A地年二

8890.2

7461.83

0.1460

0.3470

0.6335

B地年一

16938.5

14422.27

0.0998

0.2714

0.6183

B地年二

22228.5

19814.62

0.1059

0.2565

0.6429

其中极化指数P是一个度量两级分化程度的指数，两极分化与收入不平等是不同的概念，文献（参考：

Foster,J.E.andM.C.Wolfson,Polarizationandthedeclineofthemiddleclass:

CanadaandtheU.S.，JournalofEconomicInequality，8：

247-273，2009）对这两个概念进行了准确阐述。

一般来说，基尼系数G和极化指数P都会对中等收入人群有影响。

基尼系数G越大，说明收入越不平等，中等收入的人应该越少。

而极化指数P越大，则说明极化指数越高，两级分化越严重，中等收入人变少。

对这个模型，A地区前后两年的极化指数与基尼系数保持稳定不变，则中等收入人口比例也相应的保持不变。

B地区第二年的极化指数上升，而基尼系数下降，最终中等收入人口比例上升，说明了此模型对基尼系数的敏感程度高于极化指数的敏感程度。

人口空间法改进

针对原有人口空间法的不足，我们定义了新的人口空间，根据新的人口空间定义了中等收入人群。

2.8原有人口空间法及其问题

“人口空间法”，即选择

邻近的一个围为中等收入人口，例如取围

20%到

80%，当然，按定义，中等收入人口比例已经取定为60%。

再用此60%的人口所拥有的收入占总收入的比例来描述中等收入人口的状态，此时中等收入人口的收入围

当然容易算得。

例如当围取为20%到80%时，中等收入人口的状态即定义为

注意到平均收入为

即图3中

左侧区域的面积，而

是图中淡蓝色区域的面积。

这种方法似乎有道理，例如经济发展、收入增加导致所有人口的收入都右移时，总是取中间的60%进行纵向比较似乎总是可行的。

但是这种方法不能体现出中等收入人口数量随着基尼系数G和极化指数P的变化。

2.9我们提出改进模型

根据文献（参考：

Foster,J.E.andM.C.Wolfson,Polarizationandthedeclineofthemiddleclass:

CanadaandtheU.S.，JournalofEconomicInequality，8：

247-273，2009）提出的极化指数P=（GB-GW）U/m

我们提出模型，中等收入人口比例为S=GW/GB。

然后确定[0.5-S/2,0.5+S/2]围的人属于中等收入。

其中GW是蓝色折现与y=x的线交成的三角形面积的一半，而GB是蓝色阴影部分的面积的一半。

并且有GW+GB=G，G就是基尼系数。

由S=GW/GB的定性分析，直观不难看出，S与G的大小无关，只与GW,GB的大小有关，在G不变的情况，P增大，S也随之变小。

后面的实验中，也体现了S对P的变化符合客观经济规律，即当P增大时，极化程度变大，中等收入人数变少。

2.10针对数据分析

分析问题三中A、B两地区，两个年份的数据：

可以得出如下数据：

A地年一

3359.2

8190

0.2595

0.7405

A地年二

4618.3

11639

0.2610

0.7390

B地年一

11203

19772

0.2384

0.7616

B地年二

14135

28596

0.2689

0.7311

其中p1=F（x1），p2=F（x2）

进一步分析有：

平均收入u

中位数m

极化指数P

基尼系数G

中等收入人口比例

A地年一

6281.3

5254.75

0.1432

0.3417

0.481

A地年二

8890.2

7461.83

0.1460

0.3470

0.478

B地年一

16938.5

14422.27

0.0998

0.2714

0.5232

B地年二

22228.5

19814.62

0.1059

0.2565

0.4622

对这个模型，A地区前后两年的极化指数与基尼系数保持稳定不变，则中等收入人口比例也相应的保持不变。

B地区第二年的极化指数上升，而基尼系数下降，最终中等收入人口比例下降，说明了此模型对基尼系数的敏感程度低于极化指数的敏感程度。

而且由前文分析，这个方法对基尼系数应该非常不敏感，所以中等收入的人口比例完全随P的变化而变化，变化幅度比方案一的幅度要大很多。

4问题三求解

5问题模及求解：

模糊评价法

构建新的模型，使用模糊评价法，对中等收入人口做界定。

a）中收入定义

“中等收入者”是对“中产阶级”的一个评价指标。

而且是一个最重要指标。

我们的研究目的是通过度量“中等收入者”这个集合，来测算社会的稳定程度与发展程度。

结合我们的研究目的，仔细考虑“中等收入者”这个概念，应该不仅仅与收入有关，还要可能与消费指数、地区发展程度、地区生活水平甚至教育程度等相关（参考：

国家发改委宏观经济研究院课题组，扩大我国中等收入者的比重，经济研究参考，2005年第5期（总第1869期）：

2-8页，2005年）

在顾纪瑞所做的综述中（参考：

顾纪瑞，中国中等收入群体的界定和消费特征，消费经济，第21卷第4期，17-26页，2005年），用来定义中等收入群体的标准主要有三种：

（1）以预测的2020年人均年收入作为现阶段中等收入标准的基础；

（2）中等收入者的起点略高于人均GDP，接近职工年平均工资水平，上限则定在起点的4倍；

（3）中等收入主要不看消费水平和财产的多少，而看持续的收人能力。

而另一些学者提出，中等收入阶层的收入标准以当地恩格尔系数为40%的居民户人年均可支配收入的平均值为起点，上限至人均年可支配收入17万。

（参考：

肖玉明，如何扩大中等收入者比重，行政学院学报，2003年第4期（总第10期），16-21页，2003年）虽然随着地区的发展以及物价的上升，上限可能会订在高于17万，但是运用恩格尔系数确定下限这种思想是很有意义的。

还有一些学者提出了五分层次法、三分层次法等判断中等收入（参考：

庄健、永光，基尼系数和中等收入群体比重的关联性分析，数量经济技术经济研究，2007年第4期，145-152页，2007年）

再综合我们刚刚提出的两个方法（人口空间法、工资空间法），我们给出一个模糊决策分析方法，综合考虑已有的信息，再计算出中等收入的围。

b）评价方案

虽然统计上我们可以通过某种方法给出中等收入的确切围，但是实际情况，中等收入仍然是一个模糊的概念。

如果按照月入3000为全国中等收入的最低标准，那么我们有理由认为，如果在物价最高的城市，月入3000的人并不能算作中等收入。

或者说是有概率不是中等收入。

由此，我们做一个假设模型在洛伦兹曲线上，收入越接近中位数m的人有越大的概率属于“中等收入人群”，而从m向两边扩散，越接近p1，p2的人属于“中等收入人群”的概率越小（p1、p2是前文的方法算出的中等收入人群围的两个端点）。

继续考虑中等收入人群判定问题。

即便用概率来描述，仍然不能充分表现出中等收入这个概念。

因为我们界定中等收入围，现有很多“可信赖”方法，但是每一个方法都不能充分反映“中等收入”这个概念。

如，按照GDP测算法，假如月收入3000-8000元的人属于中等收入人群，而恩格尔系数法计算出收入达到2500-14166的人以列为中等收入。

在当地的情况，或许根本没有多少人达到了1.4万月薪，而收入2500的人也能过上舒适宽松的生活。

从直观上我们觉得或许2500-8000这个围更合理。

那么我们应该选择哪个评价标准？

为了能综合考虑已有信息，更准确的界定中等收入围，我们提出了模糊数学的评价方法来解决这个问题。

首先解释几个概念：

隶属函数与模糊分布：

模糊数学的基本思想是隶属度的思想。

前文提到，在我们的模型中假定每个人口值P（洛伦茨曲线坐标轴上的点p=F（x））有一定概率属于中等收入。

一般的，认为p=0.5时，概率为1，p=0，1时，概率为0。

直观上的理解就是收入处于中位数的人一定是中等收入，收入最低和最高的人一定不是中等收入。

如果把每个点连起来，可以用一个函数来表示，那么这个函数就是关于中等收入人群的隶属函数。

我们的模糊集定义在实数域R上，则模糊集的隶属函数称为模糊分布。

常用的模糊分布见表1

可以根据实际问题来选择哪种分布符合客观规律。

如这个问题是非性很强，则可以考虑矩阵型，如反映的问题符合正态分布，可以考虑正态型。

如果是均匀的上升，可以使用梯形型。

我们为了便于计算，使用了梯形型的分布。

模糊关系向量：

假如我们拥有4个独立的评价方法f1，f2，f3，f4（如我们第二问提出的“人口空间法”、收入空间法，和基尼系数法，GDP标准法）。

对每种方法f，我们都要确定一个模糊关系向量（l（p）,m（p）,h（p））其中l（p）代表在f方法下，点p属于低收入人群的概率。

类似的，m（p）和h（p）分别代表点p属于中等收入人群的概率、和属于高收入人群的概率。

一般的l（p）+m（p）+h（p）=1。

模糊关系矩阵：

4种方法的模糊关系向量组成的矩阵R4*3就是模糊关系矩阵

评判因素权向量:

A=（a1,a2,a3,a4）它取决于人们进行模糊综合评判时的着眼点，即根据评判时每种方法的重要性分配权重，也可以理解为人们对每种方法的信赖程度。

评价的合成算子：

将A与R合成得到B=（b1，b2，…，bm）。

常用的合成算子有至少7种，分别对应不同情况下的问题（参考：

丽娟、俏，模糊综合评判中合成算子的选取，科协论坛，2012年第9期（下），103-104页，2012年），也有各自的性质。

如最简单的Zadeh算子，评判的问题应满足：

因素集中的各因素相互独立，各因素状态间不能相互补偿；因素集中单因素的满意度在综合评价中的作用不能超过其权重比例；评价结果受权重影响。

我们采用的

算子，

运算规则为：

可见直接决定bj大小的是R阵中的每一个元素rij与权重ai，每个因素对评判结果都有一定的贡献，只是轻重不同而已。

因此，这是一种“加权平均型”。

该合成算子适应的评判问题应满足：

因素集中的各因素之间允许以优补劣，相互补偿；当因素集中各因素的权重分布比较平衡时，该评价模型的可信度较高。

c）建模过程及算法

●计算每个界定中等收入算法fi得出的人口区间xi1，xi2

●对每个算法fi，建立适合的模糊分布

●根据分布可以确定对每个点p的模糊关系矩阵R

●根据经验或专家给出的评判因素权向量A，与关系矩阵R，通过合成算子，得到模糊综合评价结果B（p）=（b1（p）,b2（p）,b3（p）），分布代表点P再综合模型中属于低、中、高收入人群的概率。

●根据每个点p下B（p）的特性，界定中等收入的两个端点

特别的，容易证明在我们的

算子下，b1+b2+b3=1，但是如果选用其他算子，不一定为1。

d）对本问题的示例

6思考与改进

第四问我们提出的模糊数学模型，其中有一个隐藏步骤——我们需要把每种评价方法都建立在同一个坐标系下。

在这道题中，我们可以很顺利的都建立在横坐标是F（x）这个坐标系下，但是有些实际问题不能建立在同一个坐标系下。

一般情况下，收入越高则恩格尔系数越低（在极低收入的部分属于饥饿半饥饿人群，恩格尔系数法认为不会成为中等收入的端点（参考：

曾小彬、明，中国中等收入者的收入区间界定及占比趋势研究，商学院学报，2013年第1期（总第126期），4-11页，2013年））。

但是如果区域不同，不同地区的恩格尔系数可能是不一样的，这样导致了某个收入高、但是恩格尔系数高的点A，比某个收入低、恩格尔系数低的点B横坐标的值大，这种情况不能反映出恩格尔系数降低则越大概率属于中等收入这个事实。

遇到这类实际情况，我们需要分类处理，而不是简单的按坐标轴上的点来处理。

7问题总结

[1]Wang,Z.X.,Y-KNg,andR.Smyth,2011.AgeneralmethodforcreatingLorenzcurves.TheReviewofIncomeandWealth57,561-582.

[2]Wang,Z.X.andR.Smyth,2013.AhybridmethodforcreatingLorenzcurveswithanapplicationtomeasuringworldincomeinequality.

[3]Rohde,N.2009.Analternativefunctionalformforestima

展开阅读全文