第七章 抽样调查.pptx
《第七章 抽样调查.pptx》由会员分享,可在线阅读,更多相关《第七章 抽样调查.pptx(44页珍藏版)》请在冰点文库上搜索。
本章主要内容,抽样调查的一般问题,抽样误差,抽样估计的方法,抽样组织设计,第七章抽样调查,第一节抽样调查概述,一、抽样调查的概念:
是一种非全面调查,就是按随机原则从全部研究对象中抽取部分单位进行观察,并根据这一部分单位的实际数据推断总体的数量特征,作出具有一定可靠程度的估计和判断。
它是由部分推断整体的一种认识方法。
建立在随机取样的基础上。
运用概率估计的方法。
其误差可以事先计算并加以控制。
二、特点,三、有关的基本概念,
(一)总体和样本,总体:
又称全及总体。
指所要认识的研究对象全体。
总体单位总数用“N”表示。
样本:
又称子样。
是从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体。
样本单位总数用“n”表示。
(二)全及指标和样本指标,全及指标:
反映总体数量特征的指标数值。
全及指标,研究总体中的数量标志,总体平均数,总体方差,研究总体中的品质标志,成数方差,(只有两种表现),总体成数,样本指标:
根据样本数据计算的综合指标。
研究数量标志,样本平均数,样本标准差,研究品质标志,样本成数,成数标准差,样本指标,什么是成数?
将总体所包含的总体单位按某一标志划分为两大部分,具有某种特征的单位数占全部单位数的比重,就是成数。
成数也是这个总体的平均数。
产品质量,合格品,不合格品,数量(件),合计,N1,N0,N,平均数,x,1,0,f,(成数),(三)样本容量和样本个数,样本容量:
一个样本包含的单位数。
用“n”表示。
一般要求n30,样本个数:
从一个全及总体中可能抽取的样本数目。
(四)重复抽样和不重复抽样,重复抽样:
又称置回抽样。
不重复抽样:
又称不置回抽样。
例如:
从A、B、C、D四个单位中,抽出两个单位构成一个样本,重复抽样,A,A,AC,AD,B,A,BB,BC,BD,AB,C,A,CB,CC,CD,D,A,DB,DC,DD,不重复抽样,12个样本,16个样本,第三节抽样误差,一、抽样误差的含义,由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。
抽样误差不包括下面两类误差:
一类是调查误差,即在调查过程中由于观察、测量、登记、计算上的差错而引起的误差;另一类是系统性误差,即由于违反抽样调查的随机原则,有意抽选较好单位或较坏单位进行调查,这样造成样本的代表性不足所引起的误差。
二、影响抽样误差大小的因素,1、总体各单位标志值的差异程度,2、样本的单位数,3、抽样方法,4、抽样调查的组织形式,三、抽样平均误差,抽样平均误差是抽样平均数或抽样成数的标准差,反映了抽样指标与总体指标的平均误差程度。
假设总体包含1、2、3、4、5,五个数字。
则:
总体平均数为,x,=,1+2+3+4+5,5,=,3,现在,采用重复抽样从中抽出两个,组成一个样本。
可能组成的样本数目:
25个。
如:
.,1+3,2,=2,1+4,2,=2.5,2+4,2,=3,3+5,2,=4,抽样平均误差的计算理论公式,抽样平均数的平均误差,抽样成数平均误差,(以上两个公式实际上就是第四章讲的标准差。
但反映的是样本指标与总体指标的平均离差程度),实际上,利用上述两个公式是计算不出抽样平均误差的。
想一想,为什么?
多数样本指标与总体指标都有误差,误差有大、有小,有正、有负,抽样平均误差就是将所有的误差综合起来,再求其平均数,所以抽样平均误差是反映抽样误差一般水平的指标。
抽样平均数平均误差的实际计算方法,采用重复抽样:
此公式说明,抽样平均误差与总体标准差成正比,与样本容量成反比。
(当总体标准差未知时,可用样本标准差代替),(教材P279例题),通过例题可说明以下几点:
样本平均数的平均数等于总体平均数。
抽样平均数的标准差仅为总体标准差的,可通过调整样本单位数来控制抽样平均误差。
例题:
假定抽样单位数增加2倍、0.5倍时,抽样平均误差怎样变化?
解:
抽样单位数增加2倍,即为原来的3倍,则:
抽样单位数增加0.5倍,即为原来的1.5倍,则:
即:
当样本单位数增加2倍时,抽样平均误差为原来的0.577倍。
即:
当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165倍。
采用不重复抽样:
公式表明:
抽样平均误差不仅与总体变异程度、样本容量有关,而且与总体单位数的多少有关。
与重复抽样相比,不重复抽样平均误差是在重复抽样平均误差的基础上,再乘以,而总是小于1,所以不重复抽样的平均误差也总是小于重复抽样的平均误差。
例题一:
例题二:
某厂生产一种新型灯泡共2000只,随机抽出400只作耐用时间试验,测试结果平均使用寿命为4800小时,样本标准差为300小时,求抽样推断的平均误差?
随机抽选某校学生100人,调查他们的体重。
得到他们的平均体重为58公斤,标准差为10公斤。
问抽样推断的平均误差是多少?
例题一解:
即:
当根据样本学生的平均体重估计全部学生的平均体重时,抽样平均误差为1公斤。
例题二解:
计算结果表明:
根据部分产品推断全部产品的平均使用寿命时,采用不重复抽样比重复抽样的平均误差要小。
已知:
则:
已知:
则:
n=100,=10,x=58,N=2000,n=400,=300,x=4800,习题:
有5个工人的日产量分别为(单位:
件):
6,8,10,12,14,用重复抽样的方法,从中随机抽取2个工人的日产量,用以代表这5个工人的总体水平。
则抽样平均误差为多少?
若改用不重复抽样方法,则抽样平均误差为多少?
解:
根据题意可得:
不重复抽样条件下抽样平均误差,重复抽样条件下,抽样成数平均误差的实际计算方法,采用重复抽样:
采用不重复抽样:
例题三:
某校随机抽选400名学生,发现戴眼镜的学生有80人。
根据样本资料推断全部学生中戴眼镜的学生所占比重时,抽样误差为多大?
例题四:
一批食品罐头共60000桶,随机抽查300桶,发现有6桶不合格,求合格品率的抽样平均误差?
例题三解:
已知:
则:
样本成数,即:
根据样本资料推断全部学生中戴眼镜的学生所占的比重时,推断的平均误差为2%。
例题四解:
已知:
则:
样本合格率,计算结果表明:
不重复抽样的平均误差小于重复抽样,但是“N”的数值越大,则两种方法计算的抽样平均误差就越接近。
抽样极限误差是指样本和总体指标之间误差的可能范围。
由于总体指标是一个确定的数,而样本指标则是围绕总体指标上下波动的,它与总体指标之间既有正离差,也有负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围,我们将这种以绝对值形式表示的抽样误差可能范围称为抽样极限误差。
四、抽样极限误差,含义:
抽样极限误差指在进行抽样估计时,根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的最大误差范围。
计算方法:
设x与p分别表示样本平均数与样本成数的抽样极限误差,则有:
xXx,pPp上述不等式也可表示成:
抽样平均数极限误差:
抽样成数极限误差:
xxXxxppPpp,五、抽样误差的可信度(概率度),含义,抽样误差的概率度是测量抽样估计可靠程度的一个参数。
用符号“t”表示。
公式表示:
(t是极限误差与抽样平均误差的比值),(极限误差是t倍的抽样平均误差),上式可变形为:
参看P284-286例题,第四节抽样组织设计,一、简单纯随机抽样,1、含义:
按随机原则直接从总体N个单位中抽取n个单位作为样本。
2、样本单位数的计算方法:
通过抽样极限误差公式计算必要的样本单位数。
重复抽样:
不重复抽样:
抽样平均数,抽样成数,二、类型抽样,三、等距抽样,四、整群抽样,先对总体各单位按主要标志加以分组,然后再从各组中按随机的原则抽选一定单位构成样本。
先按某一标志对总体各单位进行排队,然后依一定顺序和间隔来抽取样本单位的一种组织形式。
将总体各单位划分成许多群,然后从其中随机抽取部分群,对中选群的所有单位进行全面调查的抽样组织形式。
第五节抽样单位数目的确定,样本单位数的计算方法:
通过抽样极限误差公式计算必要的样本单位数。
重复抽样:
不重复抽样:
抽样平均数,抽样成数,第五节抽样单位数目的确定,教材P302-306,第六节全集总体指标的推断,一、总体的点估计,点估计的特点:
P307,总体参数优良估计的标准,无偏性,一致性,有效性,二、总体的区间估计,区间估计三要素,估计值,抽样误差范围,抽样估计的置信度,区间估计的方法步骤:
P307,教材P271,什么是抽样估计的置信度?
抽样估计的置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度(教材P284),符号表示:
P(x-X)(),x,(教材P286例题),理论已经证明,在大样本的情况下,抽样平均数的分布接近于正态分布,分布特点是:
抽样平均数以总体平均数为中心,两边完全对称分布,即抽样平均数的正误差与负误差的可能性是完全相等的。
且抽样平均数愈接近总体平均数,出现的可能性愈大,概率愈大;反之,抽样平均数愈离开总体平均数,出现的可能性愈小,概率愈小,趋于0。
(见下图),正态概率分布图,X,x+1,x-1,68.27%,x+2,x-2,95.45%,由此可知,误差范围愈大,抽样估计的置信度愈高,但抽样估计的精确度愈低;反之,误差范围愈小,则抽样估计的置信度愈低,但抽样估计的精确度愈高。
因为扩大或缩小以后的平均误差,就是极限误差:
=t,所以,抽样平均误差的系数就是概率度t。
数理统计已经证明,抽样误差的概率就是概率度的函数,二者对应的函数关系已编成“正态分布概率表”。
(一)根据给定的概率F(t),推算抽样极限误差的可能范围,分析步骤:
1、抽取样本,计算样本指标。
2、根据给定的F(t)查表求得概率度t。
3、根据概率度和抽样平均误差计算极限误差。
4、计算被估计值的上、下限,对总体参数作出区间估计。
三、总体参数区间估计的方法,某农场进行小麦产量抽样调查,小麦播种总面积为1万亩,采用不重复简单随机抽样,从中抽选了100亩作为样本进行实割实测,测得样本平均亩产400斤,方差144斤。
(1)以95.45%的可靠性推断该农场小麦平均亩产可能在多少斤之间?
例题一:
t=2,样本指标,有时需要计算,例题一解题过程:
已知:
问题一解:
1、计算抽样平均误差,2、计算抽样极限误差,3、计算总体平均数的置信区间,上限:
下限:
即:
以95.45%的可靠性估计该农场小麦平均亩产量在397.62斤至402.38斤之间.,不重复抽样,xxXxx,
(2)若概率保证程度不变,要求抽样允许误差不超过1斤,问至少应抽多少亩作为样本?
问题二解:
已知:
则样本单位数:
即:
当,至少应抽544.6亩作为样本。
例题二:
某纱厂某时期内生产了10万个单位的纱,按不重复随机抽样方式抽取2000个单位检验,检验结果合格率为95%,废品率为5%,试以95%的把握程度,估计全部纱合格品率的区间范围及合格品数量的区间范围?
已知:
区间下限:
区间上限:
例题三:
为调查农民生活状况,在某地区5000户农民中,按不重复简单随机抽样法,抽取400户进行调查,得知这400户中拥有彩色电视机的农户为87户。
要求计算:
1.以显著性水平0.0的条件下估计该地区全部农户中拥有彩色电视机的农户在多大比例之间?
2.若要求抽样允许误差不超过0.02,其它条件不变,问应抽多少户作为样本?
例题三的问题一解:
已知:
N=5000,=400,1、计算样本成数:
2、计算抽样平均误差:
3、计算抽样极限误差:
4、计算总体P的置信区间:
下限:
上限:
即:
以95%的把握程度估计该地区农户中拥有彩电的农户在17.87%至25.63%之间。
例题三的问题二解:
当,其他条件不变时:
(二)根据给定的抽样误差范围,求概率保证程度,分析步骤:
1、抽取样本,计算抽样指标。
2、根据给定的极限误差范围估计总体参数的上限和下限。
3、计算概率度。
4、查表求出概率F(t),并对总体参数作出区间估计。
练习1:
从一批袋装食品中按简单随机不重复抽样方式抽取50包检查,结果如下:
要求:
(1)以9545%的概率(t=2)估计该批食品平均每包重量的范围;
(2)若质量标准规定每包重量不低于100克,以同样的概率估计该批食品的合格率范围。
练习2:
某厂进行产品包装质量的抽样调查,从中重复随机抽样25包进行检测,其平均质量为150.8克,标准差为8克,试求这批产品包装质量在147.66克153.94克之间的概率。
95%,