企业抽样调查知识与实例分析.pptx
《企业抽样调查知识与实例分析.pptx》由会员分享,可在线阅读,更多相关《企业抽样调查知识与实例分析.pptx(84页珍藏版)》请在冰点文库上搜索。
来自来自中国最大的资料库下载中国最大的资料库下载企业抽样调查1主要内容u抽样调查基本知识u服务业抽样调查概况u企业抽样调查实例2来自来自中国最大的资料库下载中国最大的资料库下载抽样调查基本知识3主要内容v抽样调查的基本概念抽样调查的基本概念v抽样调查的基本理论抽样调查的基本理论v基本抽样方法基本抽样方法v抽样方法的选择抽样方法的选择v对抽样调查的基本认识对抽样调查的基本认识4一、抽样调查的基本概念一、抽样调查的基本概念v抽样调查抽样调查v概率抽样与非概率抽样概率抽样与非概率抽样v总体与样本总体与样本v目标总体与抽样总体目标总体与抽样总体v抽样框抽样框v调查单位与抽样单位调查单位与抽样单位v误差误差v误差限与置信度误差限与置信度v抽样效率与设计效果抽样效率与设计效果5抽样调查抽样调查v统计调查分为全面调查与非全面调查两类。
抽样调统计调查分为全面调查与非全面调查两类。
抽样调查是非全面调查中的一种重要方法,它是从所研究查是非全面调查中的一种重要方法,它是从所研究对象的全体(总体)中抽取一部分(样本)进行调对象的全体(总体)中抽取一部分(样本)进行调查,获取数据,并以此对总体目标量作出推断(估查,获取数据,并以此对总体目标量作出推断(估计)。
这是广义的抽样调查概念。
计)。
这是广义的抽样调查概念。
v根据样本抽取方法的不同,抽样可分为概率抽样和根据样本抽取方法的不同,抽样可分为概率抽样和非概率抽样。
非概率抽样。
6概率抽样概率抽样v概率抽样(概率抽样(probabilitysamplingprobabilitysampling)也称随机抽)也称随机抽样。
概率抽样是严格地按照给定的概率来抽取样本样。
概率抽样是严格地按照给定的概率来抽取样本的。
的。
特点:
特点:
v按一定的概率以随机原则抽取样本。
随机不等与随按一定的概率以随机原则抽取样本。
随机不等与随便。
随机有严格的科学定义,可用概率来描述,而便。
随机有严格的科学定义,可用概率来描述,而随便带有人为或主观因素,它不是一个科学的概随便带有人为或主观因素,它不是一个科学的概念。
念。
7概率抽样概率抽样(续续)每个单位被抽中的概率是已知的,或可计算每个单位被抽中的概率是已知的,或可计算出来。
出来。
当用样本对总体目标量估计时,要考虑到该当用样本对总体目标量估计时,要考虑到该样本抽中的概率,也就是说,估计量不仅与样本抽中的概率,也就是说,估计量不仅与样本观测值有关样本观测值有关,也与被抽中的概率有关。
也与被抽中的概率有关。
n通常所提到的抽样调查实际上指的就是概率通常所提到的抽样调查实际上指的就是概率抽样。
抽样。
n国际交流:
企业抽样调查包括本行业所有规国际交流:
企业抽样调查包括本行业所有规模的企业。
模的企业。
8非概率抽样非概率抽样v非概率抽样(非概率抽样(non-probabilitysamplingnon-probabilitysampling)是相)是相对于概率抽样而言,并无严格的定义,不是按随机对于概率抽样而言,并无严格的定义,不是按随机原则来抽选的。
这种抽样效果的好坏在很大程度上原则来抽选的。
这种抽样效果的好坏在很大程度上依赖于抽样者的主观判断能力和经验,而且不能计依赖于抽样者的主观判断能力和经验,而且不能计算抽样误差,不能从概率意义上控制误差并以此来算抽样误差,不能从概率意义上控制误差并以此来保证推断的准确性。
此外,即使经验可能已表明某保证推断的准确性。
此外,即使经验可能已表明某种非概率方法过去曾有较好效果,但这并不能保证种非概率方法过去曾有较好效果,但这并不能保证该方法一直如此。
不过尽管有其理论上的弱点,各该方法一直如此。
不过尽管有其理论上的弱点,各种形式的非概率抽样仍在实践中广泛采用,主要原种形式的非概率抽样仍在实践中广泛采用,主要原因是节省费用和方便。
因是节省费用和方便。
9非概率抽样非概率抽样(续(续1)v通常我国的典型调查和重点调查通常我国的典型调查和重点调查,西方国家称为的西方国家称为的有目的抽样或判断抽样等都属于非概率抽样。
有目的抽样或判断抽样等都属于非概率抽样。
v如果调查的目的是用样本数据推断总体的目标量,如果调查的目的是用样本数据推断总体的目标量,并以一定的把握程度保证总体目标量落在目的范并以一定的把握程度保证总体目标量落在目的范围,这时非概率抽样是不合适的。
围,这时非概率抽样是不合适的。
10总体和样本总体和样本v总体(总体(populationpopulation):
总体就是全部被研究的单):
总体就是全部被研究的单位位,也称研究总体。
按研究的总体不同,总体单也称研究总体。
按研究的总体不同,总体单位可以是人、户或企业。
在服务业抽样调查中,位可以是人、户或企业。
在服务业抽样调查中,总体就是这些行业的企业和个体户。
总体就是这些行业的企业和个体户。
v样本样本(sample)(sample):
是总体的一部分,从总体中按一:
是总体的一部分,从总体中按一定程序抽得的那部分个体或抽样单位。
样本量定程序抽得的那部分个体或抽样单位。
样本量nn对总体总单位数对总体总单位数NN的比称为抽样比的比称为抽样比(sampling(samplingfraction)fraction):
11Nnf目标总体与抽样总体目标总体与抽样总体v目标总体(目标总体(targetpopulationtargetpopulation):
是真正作为研究对):
是真正作为研究对象的全体。
如要研究山西省居民服务业的情况,目标总象的全体。
如要研究山西省居民服务业的情况,目标总体就是所有从事居民服务业的企业和个体户。
体就是所有从事居民服务业的企业和个体户。
v抽样总体(抽样总体(samplingpopulationsamplingpopulation):
是用作抽样的总):
是用作抽样的总体,也就是抽样框。
体,也就是抽样框。
v二者应一致,实际难做到。
如目标总体是二者应一致,实际难做到。
如目标总体是20062006年所有年所有从事居民服务业的企业和个体户,但很难做到对在调查从事居民服务业的企业和个体户,但很难做到对在调查时(时(20072007年年11月)已消亡的单位的调查,尽管在调查月)已消亡的单位的调查,尽管在调查时消亡,但可能在时消亡,但可能在20062006年全年营业。
年全年营业。
v先定义目标总体,再根据条件进行修订得到抽样总体。
先定义目标总体,再根据条件进行修订得到抽样总体。
12总体参数与样本统计量总体参数与样本统计量v无论对总体还是样本,统计中通常使用平均数和标无论对总体还是样本,统计中通常使用平均数和标准差等这样一些数量关系进行描述,它们被用于描准差等这样一些数量关系进行描述,它们被用于描述总体特征时,称为总体参数,用于描述样本特征述总体特征时,称为总体参数,用于描述样本特征时,称为样本统计量。
如:
居民服务业抽取时,称为样本统计量。
如:
居民服务业抽取800800家家企业,调查结果计算出企业平均营业收入企业,调查结果计算出企业平均营业收入400400万元万元(样本统计量),总体平均营业收入(总体参数)(样本统计量),总体平均营业收入(总体参数)未知。
未知。
v抽样目的是样本(样本统计量)推断总体(总体参抽样目的是样本(样本统计量)推断总体(总体参数)。
如用数)。
如用800800家的平均营业收入作为总体平均营家的平均营业收入作为总体平均营业收入的估计值。
业收入的估计值。
13抽样框抽样框v抽样框抽样框(samplingframe)(samplingframe):
抽样框是指包含:
抽样框是指包含所有抽样单位的名单或名册。
由于抽样方法所有抽样单位的名单或名册。
由于抽样方法不同不同,可有目录框和区域框可有目录框和区域框,分级抽样框。
分级抽样框。
v名单中的每个单位都有可识别的基本信息;名单中的每个单位都有可识别的基本信息;v名单的范围应是完整的,不重不漏。
现实中使用的名单的范围应是完整的,不重不漏。
现实中使用的抽样框并不十分完备,一方面,要改进和完善,如抽样框并不十分完备,一方面,要改进和完善,如更新和维护;另一方面调查的设计者要认真分析抽更新和维护;另一方面调查的设计者要认真分析抽样框的状况,以评价框的不完整对调查结果产生的样框的状况,以评价框的不完整对调查结果产生的影响,并尽可能采取一些补救的办法。
影响,并尽可能采取一些补救的办法。
14调查单位与抽样单位调查单位与抽样单位v调查单位(调查单位(surveyunitsurveyunit):
抽样调查要通):
抽样调查要通过对样本单位的观察或调查来取得有关数据过对样本单位的观察或调查来取得有关数据或记录有关特征,这些单位称为调查单位。
或记录有关特征,这些单位称为调查单位。
如企业和个体户。
如企业和个体户。
v抽样单位抽样单位(samplingunit)(samplingunit):
抽样单位是指:
抽样单位是指将总体划分成不重叠的有限多个部分的每个将总体划分成不重叠的有限多个部分的每个部分。
区域、企业和个体户。
部分。
区域、企业和个体户。
15误差误差v抽样误差(抽样误差(samplingerrorsamplingerror):
是由于用样):
是由于用样本估计总体而产生的误差,也叫代表性误本估计总体而产生的误差,也叫代表性误差。
差。
v非抽样误差(非抽样误差(nonsamplingerrornonsamplingerror):
是):
是指除抽样误差以外的,由于各种原因而引起指除抽样误差以外的,由于各种原因而引起的误差,在各种方式的调查中都存在。
的误差,在各种方式的调查中都存在。
16抽样框误差v遗漏单位与新增单位;遗漏单位与新增单位;v重复;重复;v辅助信息是否准确。
辅助信息是否准确。
17无回答误差v单位无回答;单位无回答;v项目无回答;项目无回答;v部分无回答。
部分无回答。
18设计误差v问卷设计引起的误差;问卷设计引起的误差;v抽样设计抽样设计(选用的方法、分层合理性选用的方法、分层合理性)及抽及抽选过程选过程(随机随机)引起的误差。
引起的误差。
19调查员引起的误差v调查员的责任心和态度;调查员的责任心和态度;v调查员水平。
调查员水平。
20被调查者引起的误差v无意识回答误差;无意识回答误差;v有意识回答误差。
有意识回答误差。
21处理误差v编码;编码;v编辑录入;编辑录入;v加权;加权;v做表。
做表。
22点估计和区间估计点估计和区间估计v点估计:
抽样调查用样本统计量直接作为总体参数点估计:
抽样调查用样本统计量直接作为总体参数的估计值,称点估计。
如用样本计算得到的企业平的估计值,称点估计。
如用样本计算得到的企业平均营业收入作为总体企业的平均营业收入的估计均营业收入作为总体企业的平均营业收入的估计值,就是点估计。
值,就是点估计。
v区间估计:
是对总体参数可能落入的一个数值范围区间估计:
是对总体参数可能落入的一个数值范围作出的估计,估计值的取值范围称“置信区间”,作出的估计,估计值的取值范围称“置信区间”,与置信区间估计相联系的概率称“置信度”,表示与置信区间估计相联系的概率称“置信度”,表示置信区间估计包含了总体参数的可靠程度有多大。
置信区间估计包含了总体参数的可靠程度有多大。
23抽样效率与设计效果抽样效率与设计效果v抽样效率(抽样效率(samplingefficiencysamplingefficiency):
是指):
是指两个抽样方案的抽样方差之比;当某个估计两个抽样方案的抽样方差之比;当某个估计量的方差比另一估计量的方差小时,则称方量的方差比另一估计量的方差小时,则称方差小的估计量效率比较高。
差小的估计量效率比较高。
v设计效果设计效果(designeffect,(designeffect,,简写为,简写为Deff)Deff):
就是把一个设计方案的方差与简单:
就是把一个设计方案的方差与简单随机抽样的方差进行比较。
随机抽样的方差进行比较。
DeffDeff小于小于11时,时,表示设计方案的效率高于简单随机抽样,反表示设计方案的效率高于简单随机抽样,反之,效率低于简单随机抽样。
之,效率低于简单随机抽样。
24三种性质的分布三种性质的分布v总体分布(总体分布(populationdistributionpopulationdistribution):
是指研):
是指研究对象这一总体的各个单位标志值的分布状况。
究对象这一总体的各个单位标志值的分布状况。
v样本分布(样本分布(sampledistributionsampledistribution):
样本单位标):
样本单位标志值的的分布,就称为样本分布。
随着样本的增志值的的分布,就称为样本分布。
随着样本的增多,样本分布逐渐接近总体分布。
多,样本分布逐渐接近总体分布。
v抽样分布:
是指样本估计量的分布。
如采用同样的抽样分布:
是指样本估计量的分布。
如采用同样的抽样方法和同等的样本量,在居民服务业企业中抽抽样方法和同等的样本量,在居民服务业企业中抽取多套样本,每套样本都能计算出一个估计量,所取多套样本,每套样本都能计算出一个估计量,所有可能的估计量形成的分布就是抽样分布。
有可能的估计量形成的分布就是抽样分布。
25永久随机数永久随机数v随机数就是按随机方法而生成的数码。
即随机数就是按随机方法而生成的数码。
即00,11,2929这十个数字出现的机会是等概率这十个数字出现的机会是等概率的,但排列的顺序是随机的。
永久随机数的,但排列的顺序是随机的。
永久随机数(PermanentRandomNumbersPermanentRandomNumbers)则是指长久使)则是指长久使用、不改变的随机数。
比如一个企业一旦被赋予了用、不改变的随机数。
比如一个企业一旦被赋予了一个随机数,则在以后的调查中都使用这个随机一个随机数,则在以后的调查中都使用这个随机数,它类似企业法人代码,具有唯一和终身性。
数,它类似企业法人代码,具有唯一和终身性。
v对于样本轮换和不同调查中共享样本非常有用。
对于样本轮换和不同调查中共享样本非常有用。
v首先对每个单位赋予一个随机数,然后按随机数大首先对每个单位赋予一个随机数,然后按随机数大小顺序排队,抽取所需要的样本量。
小顺序排队,抽取所需要的样本量。
26概率概率v概率是指用来测定样本被抽中可能性大小的一个非负的数值。
27权数权数v在概率抽样中,每个样本单位都代表调查总体中的一些未被抽中单位,通常,将一个样本单位所代表的总体单位的数量即样本单位抽中概率的倒数称为这个样本单位的设计权数或基础权数。
28权数权数(续(续11)100个企业中抽10个企业,每个企业被抽中的概率就是10/100=1/10,权数就是100/10=10,即一个样本企业代表了总体中的10个企业。
分层抽样中,要在层内计算权数。
如企业分成大、中、小3层。
29分层抽样基础权数计算方法企业按规模分层总体中企业单位数样本企业个数抽中概率基础权数大型200200200/200=11中型3000300300/3000=1/1010小型7000350350/7000=1/2020合计10200850850/10200=1/121230权数权数(续(续22)v最终权数与基础权数之间的关系最终权数等于基础权数:
如果一项抽样调查不存在无回答或涵盖不全等情况,基础权数等于最终权数,可以直接用于估计。
最终权数在基础权数基础上进行调整:
存在无回答情况(无回答多与少);范围涵盖不全;企业分开;企业重复。
31权数权数(续(续33)n不同的抽样方法,权数是不一样的,即推算方法是不一样的。
目录抽样:
基础权数=N/n,最终权数在基础权数基础上进行调整(无回答、范围涵盖不全)。
二阶段目录抽样:
基础权数等于两个阶段权数之积。
最终权数在基础权数基础上进行调整(无回答、范围涵盖不全),在两个阶段分别调整。
如服务业个体抽样,第一阶段抽居村委会,基础权数等于层内居村委会个数样本居村委会个数;32权数权数(续(续44)第二阶段抽部分个体户,基础权数等于样本居村委会中个体户总数抽取的个体户数。
为了避免权数调整,调查中可规定:
PSU和个体户不允许无回答;合并和分开的PSU,维持原状;对样本PSUs维护个体户数。
fgtybn37.xls33权数权数(续(续55)v整群抽样:
与目录抽样方法类似,只不过是将一个群当作一个样本单位对待。
基础权数=N/n,最终权数在基础权数基础上进行调整(无回答、范围涵盖不全)。
为了避免权数调整,调查中可规定:
PSU和个体户不允许无回答;合并和分开的PSU,维持原状;对样本PSUs维护个体户数。
34总量估计方法v各种抽样方法都有自己的总量估计计算方法,一些复杂抽样的总量估计计算公式比较复杂,但利用权数,各种抽样方法总量估计计算公式可统一、简单地表述为样本权数与指标值乘积的关系。
v为回答单位的最终权数,是样本单位的指标值。
35iiywY*iwiy二、抽样调查的基本理论二、抽样调查的基本理论v两个极限定理两个极限定理v估计量的优良性估计量的优良性v不用怀疑v要遵守抽样原则36两个极限定理两个极限定理v大数定理:
随机事件的规律总是在对大量随机现象的观察中才能显现出来,随着观察次数的增大,随机影响将相互抵消,而使规律性有稳定的性质。
v中心极限定理:
由于正态分布在数理统计中具有特别重要的地位,因此关于寻找在什么条件下将趋于正态分布,这类定理统称为中心极限定理。
37估计量的优良性估计量的优良性v无偏性:
,的平均值(期望值),满足这个关系的称为是无偏的。
v相合性:
当时,以为极限,满足这个性质的估计量称为是相合的。
v有效性(方差小):
方差小的估计量比方差大的估计量有效。
v可用性:
若趋于零的速度比均方误差的平方根趋于零的速度更快,则称是可用的。
38EnnB三、基本抽样方法三、基本抽样方法v简单随机抽样(简单随机抽样(simplerandomsamplingsimplerandomsampling)v等距(系统)抽样等距(系统)抽样(systematicsampling)(systematicsampling)v分层抽样分层抽样(stratifiedsampling)(stratifiedsampling)v二阶与多阶抽样二阶与多阶抽样(twostageormultistage(twostageormultistagesamplingsamplingv整群抽样(整群抽样(clustersamplingclustersampling))v不等概率抽样(不等概率抽样(samplingwithunequalsamplingwithunequalprobabilitiesprobabilities)v二重抽样(二重抽样(doublesamplingdoublesampling)或双相抽样)或双相抽样(two(twophasesampling)phasesampling)39简单随机抽样简单随机抽样v方法方法:
1到到N编号,抽取编号,抽取n个,个,每一个样本都有同每一个样本都有同样的机会被抽中。
样的机会被抽中。
v条件:
必须有包含全部单位的抽样框。
条件:
必须有包含全部单位的抽样框。
v优点:
简单方便,不需要辅助信息。
优点:
简单方便,不需要辅助信息。
v缺点:
若样本分散,不好组织或调查成本高;缺点:
若样本分散,不好组织或调查成本高;N大时抽样框不容易编制。
大时抽样框不容易编制。
v企业调查中,通常有某些用于分层的辅助信息,很企业调查中,通常有某些用于分层的辅助信息,很少直接采用简单随机抽样,通常只是用于其他方法少直接采用简单随机抽样,通常只是用于其他方法的某些过程,如分层抽样中层内样本的抽取。
的某些过程,如分层抽样中层内样本的抽取。
40等距(系统)抽样等距(系统)抽样v方法方法:
先将总体单位按某种顺序排队,随机确定一先将总体单位按某种顺序排队,随机确定一个起点抽取第一个样本单位,然后每隔个起点抽取第一个样本单位,然后每隔(=N/n)个单位个单位抽取其余单位。
如果抽样间距不抽取其余单位。
如果抽样间距不是整数,可四舍五入。
是整数,可四舍五入。
v条件:
总体单位的一个确定的排列。
条件:
总体单位的一个确定的排列。
v优点:
实施简单。
优点:
实施简单。
v缺点:
缺点:
精度估计比较困难精度估计比较困难。
通常采用简单随机抽。
通常采用简单随机抽样的方差公式替代。
如企业调查中按某规模大小样的方差公式替代。
如企业调查中按某规模大小排队,有利于提高精度,在某种程度上获得比例排队,有利于提高精度,在某种程度上获得比例分层的效益,但此时采用简单随机抽样的方差公分层的效益,但此时采用简单随机抽样的方差公式可能偏于保守,高估了抽样误差。
式可能偏于保守,高估了抽样误差。
41k分层抽样分层抽样v方法方法:
将总体分成若干独立层,各层内的样本量是将总体分成若干独立层,各层内的样本量是独立抽取的,通常采用简单随机或等距抽样,不同独立抽取的,通常采用简单随机或等距抽样,不同层的样本量可以不同,抽选样本的方法可以不同。
层的样本量可以不同,抽选样本的方法可以不同。
v条件:
条件:
总体中每个单位都能够分入其中一个层,需总体中每个单位都能够分入其中一个层,需要有相应的辅助信息要有相应的辅助信息分层依据。
分层依据。
v优点:
组织实施方便,样本散布均匀,精度较高。
优点:
组织实施方便,样本散布均匀,精度较高。
一是将单位差异较小的单位放在同一层,减少层内一是将单位差异较小的单位放在同一层,减少层内方差;二是在总样本量不变的情况下,控制各层中方差;二是在总样本量不变的情况下,控制各层中的样本量,方差大层多分配样本,减少抽样误差。
的样本量,方差大层多分配样本,减少抽样误差。
企业调查中,分布呈现偏态,分层效果非常明显。
企业调查中,分布呈现偏态,分层效果非常明显。
42二阶与多阶抽样二阶与多阶抽样v方法方法:
先将先将总体划分为若干个群,随机抽取一部分,总体划分为若干个群,随机抽取一部分,然后在每个抽中的群中随机抽取要调查的单位。
这是然后在每个抽中的群中随机抽取要调查的单位。
这是二阶抽样,可以在群内进一步分群,每个群内进行二二阶抽样,可以在群内进一步分群,每个群内进行二阶段抽样,形成三阶或多阶抽样。
阶段抽样,形成三阶或多阶抽样。
v前提条件:
没有企业名录;调查组织机构出于组织管前提条件:
没有企业名录;调查组织机构出于组织管理和成本方面的考虑,如相对于样本量小但很分散,理和成本方面的考虑,如相对于样本量小但很分散,愿意选择数量大但相对集中的样本。
愿意选择数量大但相对集中的样本。
v优点:
样本相对集中,不需要包含所有单位的抽样优点:
样本相对集中,不需要包含所有单位的抽样框。
框。
v缺点:
抽样时较为麻烦,而且从样本对总体的估计比缺点:
抽样时较为麻烦,而且从样本对总体的估计比较复杂。
效率低。
较复杂。
效率低。
43整群抽样整群抽样v是二阶段抽样的一种特殊情况,方法是二阶段抽样的一种特殊情况,方法:
先将先将总体划总体划分为若干个群,随机抽取一部分,然后在每个抽中分为若干个群,随机抽取一部分,然后在每个抽中的群中抽取所有的单位。
的群中抽取所有的单位。
v条件:
必须有全部群单位的名录。
条件:
必须有全部群单位的名录。
v优点:
不要求有每个二级单位的抽样框;优点:
不要求有每个二级单位的抽样框;便于实施便于实施。
v缺点:
精度较差,效率不高。
缺点:
精度较差,效率不高。
44不等概率抽样不等概率抽样v方法:
抽选的概率与群的大小成比例方法:
抽选的概率与群的大小成比例。
大单位被抽。
大单位被抽到的概率大,小单位抽到的概率小。
到的概率大,小单位抽到的概率小。
PPSPPS,目录抽,目录抽样中,按每个单位规模(营业收入、从业人数)占样中,按每个单位规模(营业收入、从业人数)占总体规模的比重成比例的概率抽取样本。
总体规模的比重成比例的概率抽取样本。
v条件:
必须有全部群单位规模的辅助信息,且规模条件:
必须有全部群单位规模的辅助信息,且规模指标与估计指标相关程度高。
指标与估计指标相关程度高。
v优点:
群优点:
群单位大小不相等时,单位大小不相等时,精度较高,数据处理精度较高,数据处理也不复杂。
也不复杂。
45二重抽样二重抽样v方