1、抽样方法案例附件二:国家卫生服务总调查样本地区和样本个体的抽取方法一、概 述. 国家卫生服务总调查抽查的原则是既要兼顾调查设计的科学性即样本地区和样本个体对全国和不同类型地区有足够的代表性,又不致于过多增加样本量而加大调查的工作量,即经济有效的原则。. 抽样的方法是多阶段分层整群随机抽样法。第一阶段分层是以县(市或市区)为样本地区;第二阶段分层是以乡镇(街道)为样本地区;第三阶段分层以村为样本地区;最后是住户为样本个体。二、第一阶段分层整群抽样. 第一阶段抽样着重解决两个基本问题:一是由于全国各县、市差异极大,如何确定第一阶段分层的基准;二是抽样比例,多大的县、市样本量能经济有效地代表全国和不
2、同类型的地区。.第一阶段分层基准的确定第一阶段分层的指标是通过专家咨询法和逐步回归法筛选的个与卫生有关的社会经济、文化教育、人口结构和健康指标。个指标的主成份分析结果如表。表主要社会经济和人口动力学指标的主成份因子模型变 量 单位 主成份 主成份 主成份第一产业就业率 0.82* -0.49 0.1714岁人口比例 0.80* -0.10 -0.49文 盲 率 0.69* 0.32 0.22粗出生率 0.69* 0.35 -0.10粗死亡率 0.67* 0.51 0.33婴儿死亡率 0.67* 0.60* -0.02人均工农业产值(元) -0.65* 0.53* 0.12第二产业就业率 -0.
3、84* 0.45 -0.10初中人口比例 -0.92* 0.02 -0.0465+人口比例 -0.10 -0.19 0.93*从主成份分析中可以看出主成份与绝大多数变量有十分显著的关联,意义十分明确,而且代表10个变量整体信息的51.22。其值的大小可以综合反映一个地区社会经济、文化教育、人口及其健康的发展。因此,确定主成份为分层的基准称它为分层因子。. 第一阶段的聚类分层在计算各县、市分层因子的得分后,用K-Means聚类分析方法将总体分为组间具有异质性和组内具有同质性的五类地区即五层。聚类分层的结果第一层有201个县(市或市区),占整个县(市或市区)的8.2;第二层有650个县(市或市区)
4、,占26.5;第三层有698个县(市或市区),占28.5;第四层有691个县(市或市区),占28.2;第五层有212,占8.6。1表显示了各层因子得分和选择的社会经济等变量的均值,可见各层呈明显的梯度。可以认为,第一层所在的市县,是社会经济、文化教育和卫生事业发展以及人群健康状况好的地区,第二层是比较好的地区,第三层是一般性地区,第四层是比较差,第五层是差的地区。表2主要社会经济和人口动力学指标的主成份因子模型市县 因子得分 社会经济和人口动力学指标层别 数 均数 距离 GNP AEPILLIT CDR IMR1 201 -2.4354 3210.28 3330 15.7 19.7 5.1 1
5、7.52 650 -0.6638 2164.66 835 64.6 23.7 5.7 26.23 698 0.0692 1655.00 450 83.5 32.4 6.3 31.44 691 0.5776 1264.57 341 88.1 43.6 7.4 49.15 212 1.7457 539.61 319 90.0 66.8 11.7 121.4. 第一阶段分层等概率多种样本容量的抽样用经济有效的样本代表总体是抽样调查的精髓。样本量的确定基于以往的经验和其他国家抽样调查样本的设计,首先给定一个样本量大小的范围,确定抽取样本量为120,90,60,45,30五个大小不等的样本。为了保证各层
6、每一个县(市或市区)都有同等被抽取为样本的概率,必须考虑不同大小样本量的样本在各层的分配,即按比例的分层抽样。见表。表不同大小样本量样本在各层的分配层 数 全 国 不同大小样本量样本的分配:合计 () 120 90 60 45 30第一层 201 (8.2) 10 8 5 4 2第二层 650(26.5) 32 23 16 11 8第三层 698(28.5) 34 26 17 13 9第四层 691(28.2) 34 25 17 13 8第五层 212 (8.6) 10 8 5 4 3按系统随机抽样方法,每个不同大小样本量的样本抽取6次。同一样本量的6次抽样,通过计算每次抽样样本各变量的统计量
7、,分别与总体各变量参数进行比较,从中筛选出与总体参数最为接近的那个样本,作为该样本量的最佳抽取样本。. 第一阶段最佳样本量样本的选择与评价 不同样本量样本各变量均值与总体均数的比较:如果将不同样本量样本各变量的均值与总体各变量的均数绝对误差,绝对误差与总体均数之比为相对误差,同一样本各变量的相对误差具有可加性,其均数称为该样本各变量的平均相对误差。平均相对误差可作为判断不同大小样本量样本对总体代表性的一个尺度。同时,用“-平均相对误差”作为精确度。表显示了不同样本量样本各变量的均数,与总体各变量比较的相对误差、平均相对误差和精确度。从不同样本量样本来看,平均相对误差随着样本量的减少而增大。如样
8、本量从120减少到60,平均相对误差由1.4 增加到2.7,增加了62,而样本量从60 减少到30,平均相对误差从2.7增加到5.6,增加了一倍以上。样本量为120,90,60的样本精确度均大95,也就是说样本量大于60就可对总体有较好的代表性。 不同样本量样本各变量的分布与总体分布的比较:样本变量的分布与总体分布是否吻合也是衡量样本对总体代表性的一个尺度。表列出了不同样本量各变量分布与总体分布卡方检验的结果。从不同样本各变量分布与总体分布的结果,平均卡方值小于 9.49这一差异有显著性水平的样本量为120,90和60。鉴于上述分析,故可认为,样本量大于60的样本,2各变量的分布大多与总体分布
9、相拟合,对总体有较好的代表性。见表。 不同样本量样本分散度的评价:样本分散度指样本中各层的变量统计量对总体各层的代表性。在第一层中,样本量为120和90的样本,平均每个指标的精确度均大于95;样本量为60的样本,精确度为89.4。从第二层到第四层,样本量为120和90的各个样本,平均每个指标的精确度都大于95;第五层样本量为 120,90和 60的各样本,精确都分别为94.1,92.5和93.9,与上述四层相比,精确度略差一些。也就是说,要对总体各层有较好的代表性,样本量至少为90。详见表。. 考虑到经济有效的原则和对全国、不同类型的地区和上述每个指标的代表性,国家卫生服务总调查的县(市或市区
10、)样本容量取。具体抽出的县、市或市区见附件。三、第二阶段整群随机抽样. 在上述抽取的个“样本县(市或市区)”中,以乡镇(街道)为第二阶段整群系统随机抽样单位。全国每个乡镇(街道)被抽取为“样本乡镇(街道)”的概率是1160。第二阶段整群系统随机抽样全国共抽取450个乡镇(街道)。平均每个“样本县(市或市区)”抽个乡镇(街道)。第二阶段分层整群抽样具体由各样本县(市或市区)按下述方法抽取。. 第二阶段整群随机抽样的基准由于一个县(市或市区)内社会经济、文化教育和卫生状况的差异远小于全国各县、市之间的差异,因而确定县(市或市区)的抽样基准相对容易。根据我国各县(市或市区)的基本特征、实际的可操作性
11、和以往抽样调查常用的指标,确定采用人口数(或人均收入)作为分层基准。.第二阶段整群随机抽样的的方法 将样本县(市或市区)所有的乡镇(街道)按人口数的多少(或人均收入的大小)由多到少依次排序;由多到少依次计算人口数(或人均收入)的累计数; 计算抽样间隔,用累计的人口总数(或人均收入累计总数)除于抽取的样本数(累计总数); 用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这个数为开始数)随机确定第一个样本乡镇(街道),然后加上抽样距离确定第二个样本乡镇(街道),依次类推确定第三至五个样本乡镇(街道)。.第二阶段整群随机抽样实例某个样本县共有18个乡、镇,要从该样本县抽取乡镇
12、作为样本。根据抽样方案的要求,第一步人口数的多少由大到小排序,并计算累计数(该县人口累计数即人口总数为210100),见表;第二步计算抽样间隔,用人口总数除于抽样的样本数,2486005=49720,该县乡镇整群抽样的抽样间隔为49720;第三步确定第一个随机数,取一张人民币,其编号的为FP59243854,取后位数是43854,所取的后为数不能大于抽样间隔数,如大于再取一张人民币该后位随机数接近第编号即平湖镇后面的累计数,因此确定第号平湖镇为第一个样本;第四步用第一个样本的累计数加抽样间隔,即43000+49720=92720,该数接近第编号即新龙乡的累计数,确定第号新龙乡为第二个样本。第五
13、步用第二个样本的累计数加抽样间隔,即100900+49720=142920,该数接近第编号新原乡的累计数,确定第号新原乡为第三个样本;同样的方法确定第号和第号即桐连乡和四顶乡。这样,五个样本乡镇就确定了。3表.第二阶段整群随机抽样的实例编号乡镇 人口数 累计 编号乡镇 人口数 累计 编号乡镇人口数 累计城关镇 22000 22000平原乡 16400 134900 新店镇 10000205500平湖镇 21000 43000*新原乡 15000 149900*定安乡 9500215000玉阳镇 20000 63000古农乡 14000 163900 五岖乡 8900223900五一乡 1950
14、0 82500王店乡 11000 174900 五庙乡 8500232400*新龙乡 18400 100900*双莲乡 10500 185400 双山乡 8200240600湖泊乡 17600 118500桐连乡 10100 195500*四顶乡 8000248600四、第三阶段随机抽样.第三阶段随机抽样的基准和样本容量 在同一个乡镇(街道)内,各村(居委会)的经济发展和卫生状况基本上变异不大。因此,第三阶段不用分层,直接采用随机整群抽样的方法从“样本乡镇(街道)”中抽取样本村(居委会)。但是,抽样时应按各村人均收入或人口数作为标识进行排序。第三阶段随机抽样由调查指导员负责。” 每个“样本乡镇
15、(街道)整群随机抽取个村(居委会),全国共抽取900个村(居委会),全国每村(居委会)被抽为样本的概率为1:1120。.第三阶段整群随机抽样的的方法 将样本乡镇(街道)所有的村(居委会)按人均收入的多少(或人口数的大小)由多到少依次排序;由多到少依次计算人均收入(或人口数)的累计数;计算抽样间隔,用累计总数除于抽取的样本数(累计总数); 用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这个数为开始数)随机确定第一个样本村(居委会),然后加上抽样距离确定第二个样本村。.第三阶段随机整群抽样的实例第一步将所有的村按人均收入的多少由大到小排序,并计算累计数;第二步计算抽样间隔
16、:7337/2 = 3669;第三步确定第一个随机数,取一张人民币,其编号的后4位数是2273,这个随机数接近第编号的累计数,因此确定第号村为第一个样本;第五步用第二位的累计数加抽样间隔(2805+3669=6474),接近第编号的累计数,确定第号为第二个样本。表7.第三阶段随机整群抽样实例编号 村 人均收入 累计数 编号 村人均收入累计数镇西店村 724 724 长生庙村 589 4606唐家铺村 721 1445 王甸子村 574 5180 镇东村 689 2134 民生村 571 5751* 镇北村 671 2805 * 清平村 544 6295李家店村 610 3415 老平埠村 53
17、4 6829 湖泊村 602 4017 高坝村 508 7337*为随机抽取的样本数。五、样本个体的抽样.最终的抽样单位是住户。在每个“样本村(居委会)”中按20的比例随机抽取住户,平均每个村抽60户,全国共抽取54000户。全国平均每户被抽取为样本的概率为4序号户主姓名家庭住址门牌号码家庭人口数累计人口数抽中住户张三村组东1李四村组东2王五村组东3*赵六村组东4陈七村组东5。赵末村组北6120054000/28000万,约五千户中抽一户。如果按每户四个人计算,人口抽样比为1:5000 左右。. 抽户方法是各样本乡镇(街道)的调查指导员上述抽样比例在样本村(居委会)随机抽取,具体方法:按人口普
18、查的编码顺序,按门牌号、楼号、单元号、门号从小到大排列;对同一门牌号,同一个大院和楼号的,按门号从小到大排列,对同一门牌号内没有门号的按从左到右、从外到里、从下到上的原则编码。一经编码不许变动;编好住户码列入住户清单表式中:根据抽样比例计算应抽的户数(一般平均每个样本村户),然后系统随机抽取。方法同上:第一步将所有住户的人口累计数、本村的平均人口数(1200/300=4)和本村应抽取的住户数(300*20%=60);第二步计算抽样距离(1200/60=20);第三步确定第一个随机数(如取一张人民币,其编号的后两位数是 12,这个随机数接近第编号的累计数,因此确定第号住户为第一个样本;第五步用第
19、号的累计数加抽样距离(13 + 20 =33),看33最接近第几编号住户,并确定这家住户为第二个样本,同理用第二个样本住户对应的累计数加抽样距离确定第三个样本。同样确定以后各样本住户。 抽样时可多抽取六户,作为备用。抽取方法是在上述抽取完毕以后,按上述步骤再从未抽取的住户中抽取户。表8.国家卫生服务总调查样本容量和抽样概率_单位名称 全国总数 抽样样本数 抽样概率县市区 2450 90 1:27乡镇街道 70000 450 1:160村居委会 1000000 900 1:1120户 280000000 54000 1:5000人 1200000000 216000 1:5000全国每一户家庭被
20、抽群为样本的概率模型:902567*450*ST*2ST/280*60280=1:5000- - - - - 在样本村每户 被抽取的概率 一个乡被抽取为样本的概率 一个村被抽取为样本的概率5 样本乡镇(街道)数一个县(市或市区)被抽取为样本的概率 (ST:乡镇(街道)户数的大小)6表.不同大小样本社会经济和人口动力学指标的均数以及与总体均数的相对误差全国 不同大小样本的均数指 标 均数 120 90 60 45 30指标均数:0-14岁人口比例 33.6 33.3 33.6 33.5 33.0 31.9岁人口比例 4.9 4.9 4.9 4.9 5.0 5.215-49岁妇女比例 26.2 2
21、6.6 26.9 26.7 25.8 27.6人均工农业总产值 (元) 806 795 767 702 756 813第一产业就业率 74.4 74.5 75.5 76.4 76.2 75.4第二产业就业率 15.4 15.5 15.2 15.0 16.1 14.0文盲和半文盲率 32.1 33.4 33.4 33.0 33.2 34.6初中学历人口比例 18.2 18.3 18.5 18.2 19.5 18.5粗出生率 每千人口 22.5 22.7 23.3 22.5 21.3 21.4粗死亡率 每千人口 6.3 6.3 6.3 6.3 6.0 6.2婴儿死亡率 每千出生 32.4 30.5
22、 30.2 30.2 26.2 26.9(二)相对误差 0-14岁人口比例 0.9 0.0 0.3 1.8 5.165+岁人口比例 0.0 0.0 0.0 2.0 6.115-49岁妇女人口 1.5 2.7 1.9 1.5 5.3人均工农业总产值 (元) 1.4 4.8 13.0 6.2 0.9第一产业就业率 0.1 1.5 2.7 2.4 1.3第二产业就业率 0.6 1.3 2.6 4.6 9.1文盲和半文盲率 4.1 4.1 2.8 3.4 7.8初中学历人口比例 0.6 1.9 0.1 7.1 2.1粗出生率 每千人口 0.9 3.6 0.0 5.3 4.9粗死亡率 每千人口 0.0
23、0.0 0.0 4.8 1.6婴儿死亡率 每千出生 5.9 6.8 6.8 19.0 17.0相对误差合计 () 16.1 26.5 30.0 58.2 61.2平均相对误差 () 1.46 2.41 2.73 5.29 5.56精确度 () 98.54 97.59 97.27 94.71 94.447表.不同大小样本量样本社会经济和人口动力学指标的频数分布与总体分布的拟合度检验不同大小样本的卡方值:指 标 120 90 60 45 30平均人口数/县(市)人口大小 0.47 1.20 2.83 5.07 14.82*0-14岁人口数/0-14岁人口比例 4.74 4.36 7.19 4.56
24、 26.12*65+岁人口数/65+岁人口比例 9.10 8.83 21.7*13.21* 20.90*15-49岁妇女数/15-49岁妇女比例3.79 3.88 5.01 10.96* 32.47*样本数/人均工农业总产值 2.92 6.27 6.69 12.56* 28.39*第一产业人数/第一产业就业率 2.81 7.19 9.32 8.20 25.40*第二产业人数/第二产业就业率 3.21 6.06 4.26 24.24*30.38*文盲半文盲人数/文盲半文盲率 4.37 4.87 8.44 7.28 32.62*初中以上人数/初中以上人口比例 3.13 4.23 3.74 6.23
25、 18.42*出生人数/粗出生率 2.89 3.49 4.21 4.94 29.33*死亡人数/粗死亡人数 1.91 2.03 5.77 15.16* 19.96*婴儿死亡人数/婴儿死亡率 6.77 11.6* 14.8*45.45* 51.02*卡方值平均数 3.61 5.02 7.26 12.30* 25.39*与总体分布无显著性差异的指标数 13 12 11 7 1* X95(4)=9.49 *X99(4)=13.28表 不同大小样本社会经济和人口动力学指标的均数以及与各层均数的相对误差(1)_变 量 各层均数 120 90 60第一层0-14岁人口比 24.58 25.24 25.42
26、 25.7765岁及以上人口比 4.60 4.46 4.43 4.50人均工农业产值(元) 3330 3378 3505 2463第一产业就业率 18.72 20.15 21.48 25.83第二产业就业率 55.91 54.21 54.55 51.88文盲半文盲率 13.69 14.96 14.95 16.98初中以上人口比 32.15 32.50 32.69 31.74粗出生率 16.71 16.30 16.14 14.78粗死亡率 5.11 5.16 5.26 5.25婴儿死亡率 17.45 19.50 20.63 17.25精确度 96.8 95.6 89.40-14岁人口比 32.3
27、6 32.96 33.72 32.2465岁及以上人口比 4.77 4.55 4.47 4.91人均工农业产值(元) 835 780 777 764第一产业就业率 64.62 66.10 66.28 65.56第二产业就业率 21.24 20.33 19.88 20.67文盲半文盲率 23.69 22.72 22.42 22.35初中以上人口比 21.65 22.38 22.34 22.80粗出生率 19.90 20.09 19.47 18.45粗死亡率 5.71 5.64 5.53 5.92婴儿死亡率 26.20 25.34 25.72 23.82精确度 96.9 96.2 95.89表不同
28、大小样本社会经济和人口动力学指标的均数以及与各层均数的相对误差(2)变 量 不同样 本容量各层均数 120 90 60第三层0-14岁人口比 35.48 34.54 34.60 34.6565岁及以上人口比 4.86 5.11 5.11 5.03人均工农业产值(元) 450 429 410 437第一产业就业率 83.50 84.95 86.20 85.21第二产业就业率 8.18 7.75 6.83 7.25文盲半文盲率 32.41 32.59 32.03 30.57初中以上人口比 16.55 16.68 16.70 16.40粗出生率 21.73 20.90 21.22 21.84粗死亡率 6.28 6.23 6.10 6.28婴儿死亡率 3
copyright@ 2008-2023 冰点文库 网站版权所有
经营许可证编号:鄂ICP备19020893号-2