描述性分析与不平等的度量方法.docx
《描述性分析与不平等的度量方法.docx》由会员分享,可在线阅读,更多相关《描述性分析与不平等的度量方法.docx(39页珍藏版)》请在冰点文库上搜索。
描述性分析与不平等的度量方法
经济计量方法与Stata应用讲义1
1.描述性分析与不平等的度量方法
孙志军
北京师范大学经济与工商管理学院
本章使用数据文件为
1.教育与工资1.dta
2.2005年广东省人口抽样数据.dta
3.农村家庭收入数据(甘肃2004).dta
4.CHNS数据2004、2006年成人调查问卷有关数据。
经济学的经验分析(EmpiricalAnalysis)方法通常分为描述性分析和回归分析。
描述性分析常用的方式是考察变量的分布特征,计算集中趋势(如平均值、中位数)和离散趋势(如方差、变异系数)等。
它通常有两个作用,一个是在统计推断或因果分析之前,发现、界定或详细讨论要研究的问题;另一个是验证假说。
回归分析即是计量经济学中核心内容,可以说,回归分析和经济理论的结合就构成了计量经济学。
它有两个基本特征,第一,回归模型(或称为经验模型)的建立要依赖经济理论,考虑一个简单回归模型:
y=a+bx+u,如果是单纯的回归分析,则我们只要搜集到自变量x和因变量y的一个样本数据,就可以估计出参数a和b来。
在计量经济学中,则首先要对x和y之间的关系的逻辑关系给出经济理论的解释,或者通过理论推导出上述回归模型来,而不是单纯的x和y之间的数据关系,这也就是我们在许多计量经济学文献中看到的,将回归模型称为结构模型(StructureModel)的原因。
第二,上述特征决定了计量经济学中的回归分析的作用是进行因果推断,即考察x和y之间的因果关系,这也正是经济理论的要求。
回归分析在本书或其他计量经济学教材中是主要内容,本章只通过几个例子说明描述性分析的特征和用处。
1.1主要概念与简单描述性分析
1.1.1变量与数据
所谓变量(variable)是指其值会变动、变化的量,与此相对的概念是常量或常数(constant)。
变量的测量值或观察值则称为变量值,一个或多个变量及其测量值就构成了数据。
了解变量和数据是从事计量经济分析要做的初步工作。
1.变量的类型
变量包括定性变量和定量变量两类,在处理资料之前,首先要分清变量类型。
观察下表中列出的变量及其取值,看看有什么区别?
表1.1变量的层次
变量
变量的可能取值
性别
男;女
风险厌恶程度
非常厌恶、一般、不厌恶
子女数目
1个;2个;3个
收入
100元;150元;200元;…
定性变量又包括类别变量和有序变量两类。
表1.1中“性别”这一变量,取值只有两类:
男或女。
像这样的变量就被称为类别变量。
它的取值只有类别属性之分,而无大小、程度之分。
根据变量值,只能知道研究对象是相同或是不同。
如性别、婚姻、民族、专业、职业等等。
从数学运算特性来看,类别变量只具有等于或不等于的性质。
表1.1中“风险厌恶程度”变量的取值有程度或大小之分,或者有等级、次序差别。
像这样的变量就称为有序变量。
当然,这类变量也有类别属性,因而它的层次要高于类别变量。
其数学运算性质除具有等于或不等于外,还有大于或小于之分。
常见的有序变量还有教育程度(文盲、小学、初中、高中、大学)、社会经济地位(上等、中等、下等)、积极性(很积极、一般、不积极)等等。
表1.1中“子女数目”和“收入”这两个变量的值是有度量单位的数值,这些数值有大小之分,可以进行加减乘除,在进行加减乘除的数学运算后也具有实际的意义,比如200元除以100元等于2,表示前者是后者的2倍。
像这样的变量称为定量变量、数值变量等。
大多数数值变量都是连续性变量。
在经验分析中,对于定性变量可以根据其类别或等级赋予数值,比如性别变量,可以赋予男性=1,女性=0;态度变量:
非常厌恶=0,一般=1,不厌恶=2。
对这些变量赋予的数值,并没有实际的含义,只是代表某种类别或等级。
之所以这样做,是为了在分析中更为方便的缘故。
这也是定性变量和定类变量在操作层面的主要区别。
在回归分析中,定性变量则已一个虚拟(dummy)变量系列表示(详见后面的“基本线性模型”内容)。
2.数据的层次、类型与结构
经济研究所用的数据包括了三个维度:
层次、类型和结构。
(1)数据层次
数据的层次分为两类:
微观数据和宏观数据(microandmacrodata)。
微观数据是指个体层面的数据,如本章下面所用的个体抽样调查数据就是微观层面的数据。
宏观数据是指由个体数据汇总而出的数据,比如按照省份汇总每个人的教育水平、收入,就得到一个省级层面的宏观数据,像第一章的各省经济、投资等数据也是一个宏观层面的数据。
由于微观数据在经济研究中的应用越来越广泛,计量经济学也出现一个以微观计量经济分析命名的分支学科。
(2)数据类型
数据类型包括调查数据(surveydata)、社会实验数据(datafromSocialExperiments)和自然实验数据(DatafromNaturalExperiments)。
调查数据是指从总体中随机抽取一个样本进行调查而获得的数据,比如农村家庭收入调查数据。
大量的研究使用的即是这类数据。
社会实验数据是指采用实验室实验的设计思路,对经济或社会行为进行实验而获得的数据。
比如,要研究小额信贷对农村家庭收入的影响,可以随机抽取一个农村家庭样本,随机的给予一些家庭小额信贷,另一部分不给予,最后观察其收入,就构成了一个社会实验数据。
自然实验数据是指在调查数据中根据某个变量可以将数据构造成类似社会随机实验的数据。
这类数据在进行政策分析时特别有用。
比如要考察我国的农村税费改革对农村家庭收入的影响,由于一部分地区先进行改革,而另一部分地区后进行改革,这样就类似于进行了一场实验,通过搜集改革前和改革后的数据,就构成了自然实验数据,从而评估税费改革的效果。
(3)数据结构
不同层次、不同类型的数据在结构上可以区分为以下四类:
●横截面数据(Cross-sectionaldataset):
就是在给定时点对个人、家庭、企业、城市、省、国家或其他单位采集的样本所构成的数据。
像第一章经济和投资数据就是2006年这个时点上的一个中国各省的横截面数据。
●时间序列数据(Timeseriesdataset):
由一个或几个变量不同时间的观测值所构成的数据。
如1980-2010年某省的经济和投资数据就构成了一个时间序列数据。
●混合横截面数据(Pooledcrosssectionaldataset):
由不同时点上对总体进行抽样获得的横截面数据构成的数据。
如在2005年和2010年分别对家庭抽样调查所获得的数据。
●面板或纵列数据(PaneldataorLongitudinaldata):
由不同时点上对同一单位观测所获得的数据。
如1980-2010年中国各省的经济和投资数据。
计量经济分析包括了上述不同层次、类型和结构的数据,除去基本的分析方法相近外,对不同数据还分别有不同的分析方法,以后的部分将对此做详细介绍。
3.描述性统计分析的基本内容
描述性统计分析主要分为对变量的集中趋势和离散趋势的分析。
根据变量的类型,描述性统计分析主要可以分为一下几类:
(1)单变量描述统计
是指对单一个变量的集中趋势和离散趋势的分析。
根据变量的两种类型,对单变量描述统计分析的方法有所不同,又分为单定性变量的和单定量变量的描述统计分析。
(2)定性-定性变量描述统计
在对经济现象的研究中,我们更感兴趣的探究两个或两个以上变量之间的关系。
定性-定性变量的描述统计分析即是,当两个或两个以上的变量均为定性变量时,应用描述统计分析方法考察变量之间的关系。
比如,我们想考察“风险态度是否存在性别差异”这个命题,就可以比较男性和女性在风险态度的频次分布上是否存在差异来进行,这就是定性-定性变量的描述统计分析。
(3)定性—定量变量描述统计
当一个变量为定类变量,一个为定量变量时,考察两者之间的关系就称为定性-定量变量描述统计分析。
比如我们关心收入上是否存在性别差异,就可以比较男性和女性的收入的平均水平来进行。
4.本节所用数据
本章所用数据是一个微观个体抽样调查数据,数据总观测数为894个(个体),变量包括个体的性别、教育、工作单位以及年工资。
详细内容见数据文件“教育与工资1.dta”。
这些变量的详细定义如下:
表1.2本节所用数据变量定义
变量名
含义
值
gender
性别
男性=1;女性=0
schyear
受教育年数(单位:
年)
0-16年
schlevel
受教育程度
初中及以下=1;高中=2;大学=3
exp
工作年数(单位:
年)
0-49年
organise
工作单位性质
国有部门=0;集体企业=1;私营企业=2;其他=3
wage
年工资(单位:
元)
840-80000元
根据这个数据集,下面我们依次来讨论描述性统计分析的一些主要内容。
1.1.2单变量描述统计分析
在进行更深入的研究之前,往往首先要对各个变量的分布特征有一个大概的了解,这就是单变量描述统计分析主要完成的事情。
此外,在经济学研究中,对于经济不平等或发展差异(如收入不平等、经济水平差距)的分析是一个重要领域,在统计学中这属于变量离散趋势的分析,本节也对此做了初步介绍。
我们主要选取以下衡量集中趋势和离散趋势的指标进行说明。
对于这些指标的计算原理,这里并不进行描述,你可以查阅相关的统计方面的书籍及其他资料,这里只是给出Stata的操作命令。
表2.3给出了这些指标(或统计量)与STATA基本命令。
表1.3描述统计分析指标(或统计量)与STATA基本命令
统计量名称
含义
STATA常用基本命令*
频次
衡量类别或有序变量的集中趋势。
tabulate(tab)
平均值与分位数
衡量定量变量的集中趋势
summarize(su);centile
方差与标准差
衡量定量变量的离散趋势
summarize(su)
不平等指标
衡量定量变量的离散趋势。
常用的有:
分组比例、变异系数(CV)、基尼系数(Gini)、广义熵指数(GE)与泰尔系数(TheilIndex)
inequal7
注:
*括号内为缩写。
STATA中常用的这些基本命令在下面的内容中也会用到。
下面我们根据本章的数据“c2.1教育与工资1.dta”中的一些指标分别看看是如何操作的。
基本描述性统计分析
任务1频次分析
任务描述:
总样本中不同性别、教育程度、工作单位的频次分布状况
(1)性别分布
tabgender
在上述结果中,第1列显示的是变量的取值,第二列是频次,第三列是频率或百分比,第四列是累积频率或累积百分比。
结果显示,在总样本894个体中,男性占了56.26%。
(2)教育程度分布
tabschlevel
结果显示,在总样本中,初中及以下教育水平的个体占了21.25%,高中的占了40.49%,大学的占了38.26%。
(3)工作单位分布
taborganise
结果显示,样本中工作单位在国有部门(=0)、集体企业(=1)、私营企业(=2)和其他部门(=3)分别占了25.39%、61.19%、7.16%和6.26%,还可以看出,样本个体以来自国有部门和集体企业的为主,累积比例为86.58%。
任务2平均值与方差
任务描述:
计算样本个体的平均工资与标准差,以及分别计算男性和女性的工资。
(1)全部样本
suwage
(2)男性样本
suwageifgender==1
(3)女性样本
suwageifgender==0
上述结果列出了各类个体的观测数(Obs)、平均值(Mean)、标准差(Std.Dev.)、最小值(Min)和最大值(Max)等概要统计量。
可以看出,个体平均工资为9135.6元,其中男性9941.3元,女性8167.7元,从标准差来看,男性样本的工资的离散程度(或差异)大于女性。
任务3分位数
计算男性样本10%、20%、…90%分位数。
centilewageifgender==1,centile(10(10)90)
结果中第三列表示分位数,第四列表示相应的分位数的值。
最后两列位95%的置信区间。
关于不平等的分析方法与命令参加本部分1.2节以后的内容。
1.1.3定性-定性变量描述统计分析
上面的单变量描述统计只是告诉了我们某个指标的单一的集中或离散趋势,在研究中,我们更感兴趣的是比较不同组别的某些变量的差异或分布特征,把组别称为基准分类变量,如果要描述的变量是定性变量,就是定性-定性变量描述性分析;如果是定量变量,则就是定性-定量变量的描述性分析。
这一节先来介绍前者的分析方法。
不同性别的个体受教育程度的频次分布
这里的性别是基准分类变量,受教育程度是关注的变量。
要描述不同性别受教育程度的频次分布,可使用tabulate命令。
其基本命令项为:
tabulatevarname1varname2[if][in][weight][,options]
varname1、varname2为两个定性变量。
通过添加选项,可以获得想要的结果。
比如,要想获得男性和女性各自不同教育程度上的频次分布,可以添加row选项,要进行卡方检验,则可以添加chi2选项等等,详细可参见help文件。
任务1:
考察不同性别个体受教育程度的分布差异,并做卡方检验。
tabulategenderschlevel,rowchi2
从上述结果可以看出,在女性样本中,有45%的为高中教育,35%为大学教育;在男性样本中,有37%的为高中教育,41%为大学教育。
卡方检验显示两类个体的教育程度上在10%的显著性水平上差异显著。
还可以进行多维的频次分布分析,如下:
任务2考察不同性别、不同教育程度在工作单位性质上的频次分布
bygender,sort:
tabulateschlevelorganise,row
从上述结果可以看出不教育程度的男性和女性在就业单位性质上的分布,比如,就受过高中教育的女性而言,有49%在就业单位是集体企业,32%的是国有部门;同样教育程度的男性样本中,有61%的在集体企业,24%的在国有部门。
1.1.4定性-定量变量描述统计分析
定性-定量变量描述统计分析是指分组变量为定性变量、要描述的变量为定量变量,如不同性别的平均工资、不同教育程度的平均工资等等。
可以使用tabstat命令,其基本命令项是:
tabstatvarlist[if][in][weight][,options]
varlist为要描述的定量变量,options有两个常用选项,一个是by()选项,界定分组变量;另一个是statistics(),可以加上想要报告的统计量,如在括号内加上mean,表示报告的结果是平均值,其他的如max为最大值,sd为标准差,p50为中位数,等等,可参见help文件。
任务1考察不同性别的工资
tabstatwage,by(gender)statistics(meansdp50maxmin)
上述结果列出了男性和女性的平均工资、标准差、中位数、最大值、最小值。
可以看出男性的平均工资要高于比女性,以标准差衡量的男性内部的工资差异要大于女性。
任务2不同教育程度的平均工资差异
tabstatwage,by(schlevel)statistics(meansd)
结果显示,随着受教育程度的提高,平均工资也提高,而且工资差异(标准差)也越来越大。
1.2不平等的度量
Stata命令为inequal7
表1.4不平等的测量方法
指标
计算方法与特征
极差率
最大值与最小值之比,无法衡量两者之间的观测单位的差异
分位数差异
考察不同分布点上的差异
相对平均离差
对于位于平均水平同侧的较低水平的到较高水平的转移没有敏感性
Mcloone指数
主要分析中位数以下的差异状况,是中位数以下样本均值与样本中位数的比值。
Verstegen指数
主要考察中位数以上的差异状况,是中位数以上样本均值与样本中位数的比值。
变异系数
标准差除以均值;对任意x水平发生的x转移都有很强的敏感性;不受通货膨胀因素的影响。
对数标准差
对较低水平的x的发生的转移赋予更大的重要性,突出了x较低水平上的差异。
Gini系数
对x差距的最直接衡量,考虑到了每两个i在x之间的差距;不受通货膨胀因素的影响。
GE指数与Theil系数
GE指数中根据参数的取值从小到大,从对低水平差异较敏感变化为对高水平差异较敏感;
GE(a=0)和Theil系数(a=1)可以将差异分解为组内与组间
Atkinson指数
与GE指数存在一一对应的单调转换关系。
以上这些方法对理解不平等程度有着不同的内在意义。
在这些方法中,Gini系数是一个常用的方法,它不仅可以衡量不平等的程度,而且还可以进行按收入来源的分解,以及随时间变化的分解,这样可以分析总Gini系数主要由哪部分构成,以及总Gini系数的变动影响因素是什么。
当然,Gini系数的一个不足是它对特别富裕的阶层的观察值比较敏感,如果样本中生均教育支出最高的阶层数据误差较大,那么Gini的估计值就不是很可靠(万广华,2006)。
再如Mcloone指数可以帮助我们分析低支出水平的群体与中等群体之间的差距的变化,如果Mcloone指数越小,意味着低水平组与中位数的差距越大,也就是说越不不平等。
Verstegen指数则可以考察中位数以上水平与中位数水平之间的差距,如果Verstegen指数越接近于1,则意味着高水平组与中位数的差距越小,也就是说越不平等。
通过这两个指标,我们可以来考察政策对低支出组和高支出组的影响如何,不平等的变化主要是由哪两个组群的变化引起的,从而考察政策是否起到了相应的作用。
例如,如果Mcloone指数越小,说明政策对低水平组并没有起到相应的作用,也就是“在最不需要补助的地方,却得到的补助最多”。
在用STATA计算上述不平等指标时需注意的一个问题是需要用人口数进行加权(aw=)。
以Gini系数为例,假设有两个县,县A人均收入为100元,人口数为100人;县B的为1000元,人口数为1000人。
如果计算Gini系数时不加权,这时县作为一个人来看待,计算出的Gini系数是0.409;如果以人口数加权,则是0.081。
显然,这是两个差异较大的Gini系数。
当然,进行加权主要是针对数据是分组数据,如果是个体的数据(此时每个人即为一组)。
此外,加权和不加权都有其现实含义,还要根据研究问题来确定。
评价一个不平等指标在刻画不平等时是否足够好(或者能否提供足够的信息)的一个一般方法是,不平等指标有四个准则:
匿名准则、人口准则、相对收入准则、达尔顿准则。
另外,不平等指标的一个基本的性质是,如果给所有人的收入都增加同样的数量,则不平等程度会降低,反之,则会提高。
(?
)
1.Gini的计算
在Gini系数的计算中,首先需要将个体(或人群组)按照收入从低到高进行排序,比较原始的计算方法如下:
该公式的实际运算较为繁琐,一般手工计算难以完成。
许多人提出了计算公式的其他形式,一种形式参见本章1.3节1.3.4、1、(3)。
这里介绍另外一种直观简便的计算基尼系数的方法。
作为参考。
假定样本人口可以分成n组,
、
和
分别代表第i(i=1,2,…n)组的人均收入份额、平均人均收入和人口频数。
那么,对全部样本按人均收入(
)由小到大排序后,基尼系数(G)可以用下式计算:
其中,
为从1到i的累计收入比重;
为洛伦茨曲线右下方面积的近似值;
,
。
2.GE指数的计算方法
GE指数(GeneralizedEntropyfamilyofindices)的计算公式是:
其中,n为样本数,ni为当样本分为i组时,该组人口数占总人口数的比重,如果每个个体即为一组,则ni=1;a为常数,代表厌恶不平等的程度,a值越小,它所代表的厌恶程度越高。
GE
(1)又称为泰尔指数(Theilindex);GE(0)又可称为平均对数离差。
当a=2时,GE指数就等价于变异系数的平方的二分之一。
显然,选择用变异系数来度量不平等,意味着对收入不平等持更加接纳的态度。
1.3不平等的分解
1.3.1不均等(Gini系数)的要素分解
总收入由各分项收入构成,将总收入的Gini系数分解到各分项收入,得到各分项收入对总不平等的贡献。
1.Gini系数要素分解
方法的原理可参见1.3.4部分。
提出者为Fei,RanisandKuo(1978)、Pyatt,ChenandFei(1980)。
Stata命令为descogini,注意:
该命令无法进行加权。
分解公式为:
根据yi从低到高进行排序,
称为拟基尼系数(Pseudo-Gini),或者称为分项收入k的集中率指数(concentrationratio),是按照总收入yi对个体进行排序,计算出的k项收入的Gini系数。
即:
的一个用处是,当
>G(y),且样本人均收入不变,k项收入来源在总收入中的比重的增加将导致基尼系数的扩大,即导致更大的收入不均等,反之亦然。
所以通过计算和比较
>G(y),可以判断收入来源对基尼系数的贡献趋势。
根据上述公式,分项收入对总不平等的贡献率就是:
,或者
上述公式等价于Fei(1978)的公式,即:
corr()表示相关系数,i为按照总收入y对个体从低到高进行排序所对应的顺序,ik为按照第k项收入yk对个体从低到高进行的排序。
特别注意的是,这里G(yk)为第k项收入的Gini系数(而不再是拟Gini系数)!
由上也可以看出,拟Gini系数或k项收入的集中率等价于
。
在STATA的用于Gini系数要素来源分解的命令descogini的结果中,给出的即是Fei(1978)公式的结果。
下面给出一个实例。
应用“农村家庭收入数据(甘肃2004).dta”数据文件。
总收入由农业生产收入、非农生产收入、工资性收入、财产性收入和转移性收入构成,对总收入不平等进行Gini系数分解,过程如下:
*use":
\农村家庭收入数据(甘肃2004).dta"
*对总收入Gini系数按收入来源进行分解
descoginipincpagrincpprincpwageptsetptraninc
*得到结果:
----------------------------------------------------------------------
SourceSkGkRkShare%Change
----------------------------------------------------------------------
pagrinc0.47910.48970.67270.3527-0.1264
pprinc0.21650.93980.84690.38510.1686
pwage0.22960.66570.55470.1894-0.0402
ptset0.00050.99100.52090.00060.0001
ptraninc0.07420.83210.52280.0722-0.0021
Totalincome0.4475
----------------------------------------------------------------------
总收入(Totalincome)Gini系数为0.4475。
Sk为分项收入占总收入的比例,Gk为分项收入的Gini系数,Rk为公式中相关系数的比值部分,Share为分项收入对总Gini系数的贡献率(