第七章整群抽样.pptx
《第七章整群抽样.pptx》由会员分享,可在线阅读,更多相关《第七章整群抽样.pptx(41页珍藏版)》请在冰点文库上搜索。
第七章整群抽样7.1概述一、整群抽样(整群抽样(clustersampling)的定义:
由若干个基本单元所组成的集合称为群。
将总体划分为若干群,然后以群为抽样单元,从总体中随机抽取一部分群,对抽中的群中的所有基本单元进行调查的一种抽样技术。
严格来讲也称为单阶整群抽样单阶整群抽样。
二、特点特点:
1.可以简化抽样框的编制。
2.实施调查便利,节省费用。
3.但通常比简单随机抽样的抽样误差大。
三、分群的原则:
分群的原则:
群内单元差异大,群间差异小。
这样,被抽到的群代表性好,整群抽样的效率就高。
7.2群规模相等情形,对群进行简单随机抽样时的估计量及其方差一、符号:
总体群数:
N每群含有的单元数:
M总体第i群第j个单元的指标值:
Yij总体中单元总数:
M0=NM样本群数:
n样本第i群第j个单元的观测值:
yijniiniMjiijwniibniMjijniiMjijiNiiNiMjiijwNiibNiMjijNiiMjijisnyyMnsyynMsnMyynyyyyiSNYYMNSYYNMSNMYYNYYYYi121122122111112112212211111)()1(1:
1:
1)()1(1:
1:
样本的群内方差)(样本的群间方差样本均值样本群和的均值群的群和样本第总体的群内方差)(总体的群间方差总体均值总体群和的均值群的群和总体第样本总体二、估计量:
1.群规模相等时,对群的抽样采取简单随机抽样,将群和Yi作为群的指标值)()()(的无偏估计。
且是的无偏估计是,并且又)的无偏估计。
(是)()()()(的无偏估计。
,且是的估计为:
,样本:
,则总体看作yVMMyVyVYyMyMYYYyMyyMYYyVyynnfsnfyvYYNnfSnfyVYnyyYYyyYYniiyNiiyniinN21221221111/,/111111112121212221111111111bNiiNiiNiiSnMfYYNMnMfYYNnfYYNnMfyVMMyVyV)()()()()()()的无偏估计。
(是)()()()()(yVsnMfyynMnMfyynnMfyvMMyvyvbniinii21212221111111)。
()(且)()()()()()()()(。
且的估计为)。
()(且)()()(其中)()(。
且的估计为YVYvEyynnfNyvNMyNMvYvYYNnfNYYNnfNMyNMVYVYYEyNMYYyVyvEsnMfyynnfyvYYNMSSnMfYYNnfyVYyEyYYniiNiiNiibniiNiibbNii)(111)(111111)()(:
)2()(111111111)(:
)1(1222122122212122212)。
()(且,)()()()()()(的无偏估计。
是即。
或只能取总体小单元的指标值的估计pVpvEppnnfyynnfpvPPNnfYYNnfpVPpPpEYyEnpnManManMypyNPNMANMANMYPYYPniiniiNiiNiiniiniiniiniMjijNiiNiiNiiNiMjijij)(111111111111)()(10:
)3(121212121111111111例:
在一次对某寄宿中学在校生零花钱的调查中,以宿舍作为群进行整群抽样。
每个宿舍有6个学生。
用简单随机抽样在全部315间宿舍中抽取8间宿舍。
样本数据如下:
试估计该学校平均每个学生每周的零花钱,并给出置信度为95%的置信区间。
宿舍1宿舍2宿舍3宿舍4宿舍5宿舍6宿舍7宿舍8学生158911239911011112096学生28383891059910011580学生37479949813211611763学生482111109107879999130学生5661017912999107106105学生68769809012410512086解:
宿舍1宿舍2宿舍3宿舍4宿舍5宿舍6宿舍7宿舍8学生158911239911011112096学生28383891059910011580学生37479949813211611763学生482111109107879999130学生5661017912999107106105学生6876980901241051208675.0089.0095.67104.67108.50106.33112.8393.33125.60233.60299.07177.87287.5042.2772.57527.87iy2is68.10666.89%953423.48558.1816648.928117.981315,8975.0975.021221,即)(),(的置信区间为:
的置信度为)()()()(ysyysyYyvyssnMfyvyynMsynyYNnbniibnii三、整群抽样的设计效应:
1.群内、群间差异的定量刻划:
的无偏估计。
是的无偏估计,是并且)()(方差)()(群间方差)()()()(群内方差样本总体22221122112212212211221122111111bbwwniMjijNiMjijniibNiibniMjiijwNiMjiijwSsSsnMyysNMYYSnyyMsNYYMSMnyysMNYYS1)1
(1)
(1)1(11)1
(1)1
(1)1(22222222222222212112112112NMsNsMNSSSsnMsnsMnsNMSNSMNSSNSMNSNMYYMYYYYYYYYbwbwbwbwNiiNiMjiijNiMjiiijNiMjij)(的无偏估计为:
的无偏估计。
不是)(同理:
)()()()()()(:
总体离差平方和的分解2.群内相关系数:
是表达总体中群内小单元间相关程度的一个指标。
定义:
2111211121211)(21)()1)(1()
(2)
(2)()()(SMNMYyYyNMYyNMMYyYyNMYyMNYyYyYyEYyYyENiMkjikijNiMjijNiMkjikijNiMjijNiMkjikijijikijc)(2222211211212112211111)1()(2:
)(212)()1(SMNMSNMSNMSNMSNMYyYyYyYySNMYYYYYYYYYYSNMbcbNiMkjikijNiMkjikijNiMkjjkijMjiNiMjijNiib)()()()(得)()()()(而222222222222222222221(11(111)1()1(11111wbwbcwbwbwwbbcsMssssMsMNMsMNsNSSSSSNMNMSSMSSSMNMNMSMNSN)得:
代入式()(的无偏估计为:
而)()()(大时,当1110110111111)(111)(211)(21)(21)(2221221211212,的取值范围为)()()()()()得:
代入式()()(而)()(由于MMMSNMSMNMSNMYYSMNMYyYySMNMYyYyYyYySNMYYccccNiicNiMkjikijNiMkjikijcNiMkjikijNii3.整群抽样的设计效应:
ccNiiNiiNiiMSNNMnMfyVMSNMYYYYNnMfYYNnfyV)()()()得:
代入式()()(而)()(整群抽样时,111111111)
(1)(111)(1112221212212.,1,011111111222单随机抽样的差一些则整群抽样的精度比简时)()()()()()()(个次级单元,则抽样抽取若在总体中按简单随机整群抽样设计效应DeffMYVyVDeffMSNNMnMfyVSnMfYVnMccsrscsrs四、样本容量的确定:
1.根据方差公式确定。
DeffnMnnYVyVSMnfYVMSnMfyVcsrssrsc111111.2222)(则),假定抽样比忽略()(令)()()(整群抽样时,NnnnMVSnVSnMfyVVyVbb0020211,则)(,确定样本量。
)(若精度要求为7.4群规模不相等的一般情形一、符号:
一、符号:
总体群数:
总体群数:
N总体第总体第i群含有的单元数:
群含有的单元数:
Mi总体第总体第i群第群第j个单元的指标值:
个单元的指标值:
Yij样本群数:
样本群数:
n样本第样本第i群含有的单元数:
群含有的单元数:
mi样本第样本第i群第群第j个单元的观测值:
个单元的观测值:
yij总体中单元总数:
总体中单元总数:
NiiMM10nyymyyiyyiMYYMYYiYYiniiiiimjijiNiMjijiiiMjijiiii110111样本均值群均值样本第群的群和样本第总体均值群均值总体第群的群和总体第样本总体二、按简单随机抽样抽群时,总体总和、均值的估计量二、按简单随机抽样抽群时,总体总和、均值的估计量及方差:
及方差:
设群的样本量为设群的样本量为n,则对,则对Y的估计有两种方法。
的估计有两种方法。
(1)方法)方法1:
加权估计:
加权估计nNyyYY,样本:
,则总体看作11NiiyYYNnfSnfyV1221111)()(的无偏估计。
,且是YnyyYnii1)的无偏估计。
(是)()(yVyynnfsnfyvniiy1221111YNY又)()(yVNYV2yNYNY)()(yvNYv2的无偏估计。
且是YnyNnii,1NiiYYNnfN122111)(niiyynnfN122111)()值(其中总体群大小的均的无偏估计。
且是NMMYnyMMniii01,1NiiYYNMnf122111)()的无偏估计。
(是)()()(YVyvMMyvYv21MyMyNMYY00)()()(yVMMyVYV21niiyynMnf122111)
(2)比估计:
)比估计:
niiniiRimyYM11,为辅助变量:
以可用比估计NiiNiiMYY1111122NMYYMnfYVNiiiR)()(111222NYYMMnfNiii)(11122nmYyMnfYvniiRiR)()(1211221122nmYmyYyMnfniiRniiiRniiRYMY0)()()()(RRRRYvMYvYVMYV2020121111111,122112212212221221111nmpmapaMnfnmpaMnfpvNPPMMnfNPMAMnfpVmapMMAPniiniiiniiniiiNiiiNiiiniiniiiNiiNii)()()()()(为辅助变量:
以可用比估计估计总体比例时例:
从某新村中抽了由例:
从某新村中抽了由38户组成的一个简单随机户组成的一个简单随机样本,调查每户参加体育活动的人数,设第样本,调查每户参加体育活动的人数,设第i户有户有Mi个人,其中参加体育活动的有个人,其中参加体育活动的有ai人。
经计算:
人。
经计算:
试估计该新村参加体育活动的人所占的比例及试估计该新村参加体育活动的人所占的比例及其标准差。
(不计算其标准差。
(不计算f)126583053613438138123813812381iiiiiiiiiiiamaamm解:
22.01343011niiniimap用比估计估计总体比例04.00016.012111221122)(,即)(其中)(pspvnmmnmpmapamnfpvniiniiniiinii*利用比估计来估计总体均值,精度要求为利用比估计来估计总体均值,精度要求为V时时,样本样本量的确定:
量的确定:
NMMNMYYSVSMnfYVNiiNiiiddR11222211,)(其中)(比估计时,令NnnnVMSnd00201,例:
调查预估计某城市的人均收入,该城市共例:
调查预估计某城市的人均收入,该城市共415个街区,从中随机抽取了个街区,从中随机抽取了25个进行试点调查,个进行试点调查,调查每个街区的居民数调查每个街区的居民数Mi和总收入和总收入Yi(单位:
(单位:
美圆),数据如下:
美圆),数据如下:
为了使估计量的最大绝对误差为为了使估计量的最大绝对误差为500美圆美圆(置信度为(置信度为95%),应抽多大的样本?
),应抽多大的样本?
0820390000013290008403000104715125122512512512251iiiiiiiiiiiyyymmm解:
04.6256344792601218801112211212211niiniiRniiiRniiniiRidniiniiRmmnmYmyYynmYysmyY)(1621,2670020nnnnVmsnd三三.按与群规模按与群规模Mi成比例的成比例的PPS抽样抽取群:
抽样抽取群:
ninmjijimmmyyyyi111群规模群和样本:
群。
的概率抽取第每次按iNiMMZii,2,1,0的无偏估计量。
是且统计量:
的估计采用则总体总和YYyMynMynMmynMzynYhurwitzHensenYHHniiniiniiiniiiHH1101010101NiiiNiiiiNiiiiHHYYMnMYMMYMMnYZYZnYV12012001211)()()()(niiniHHiiHHyynnMYzynnYv122012111)()()()()(niiHHNiiiHHHHyynnMYvYYMnMYVyMY12012001,)()()()()(且是无偏估计量。
yMyMMYYHHHH000)()()()(HHHHHHHHYvMYvYVMYV112020例例.某市建筑行业集团共有某市建筑行业集团共有4848个单位,有载货汽车个单位,有载货汽车186186辆。
按每个单位的车辆拥有量成比例的概率进行放回的辆。
按每个单位的车辆拥有量成比例的概率进行放回的PPPPSS抽样,共抽抽样,共抽1010次。
对抽中单位的所有车辆调查季度运量次。
对抽中单位的所有车辆调查季度运量(单位:
吨)。
样本数据如下:
(单位:
吨)。
样本数据如下:
试估计全集团的季度运量及标准差。
试估计全集团的季度运量及标准差。
样本单位编号i车辆数mi单位运量总和yi平均每车运量平均每车运量1234567891058546953731423021336136501156815216230941365074431672383912846266727302892253625662730248123892797iy解:
全集团季度总运量解:
全集团季度总运量YY的估计为:
的估计为:
)(5.97361)(4.4953924.2663186)(4.2663111220011吨)()()(吨因此吨niiHHHHniiniiiyynnMYsyMYynmyny