抽样调查-2简单随机抽样.pptx

资源描述

抽样调查-2简单随机抽样.pptx

《抽样调查-2简单随机抽样.pptx》由会员分享，可在线阅读，更多相关《抽样调查-2简单随机抽样.pptx（80页珍藏版）》请在冰点文库上搜索。

抽样调查-2简单随机抽样.pptx

Chap2简单随机抽样,2.2简单估计法（SE）,2.1定义与符号,抽样调查,2.5样本量的确定,2.6其它相关问题,2.3比率估计量,2.4回归估计量,2023/6/19,1,2.1定义与符号,一、定义与符号,

（一）定义,上述抽样就称为不放回简单随机抽样,定义2.1：

设有限总体共有N个单元，一次整批抽取n个单元使得每个单元被抽中的概率都相等，任何n个不同单元的组合（样本）都有相同的概率被抽中，这种抽样方法称为简单随机抽样法，所抽到的样本为简单随机样本。

2023/6/19,2,定义2.2：

（在具体实施过程中，）从总体中逐个等概率抽取单元（每次抽取到尚未入样的任何一个单元的概率都相等），直到抽满n个为止。

如果每次抽中一个单元，然后放回总体，重新抽取。

这样一个单元有可能被重复抽中，故又称重复抽样。

2023/6/19,3,定义2.3按照从总体的N个单元中抽取n个单元的所有可能不同的组合构造所有可能的CNn个样本，从CNn个样本随机抽取一个样本，使每个样本被抽中的概率都等于1/CNn.,上述三中定义其实是完全等价的，而定义2.2在实际中容易实施。

2023/6/19,4,例2.1设总体有5个单元（1，2，3，4，5），按有放回简单随机抽样的方式抽取容量为2的样本，则所有可能样本为,个，如表2.1。

表2.1放回简单随机抽样所有可能样本,2023/6/19,5,例2.2上述总体按不放回简单随机抽样方式抽取容量为2的样本，则所有可能样本为,个，如表2.2。

表2.2不放回简单随机抽样所有可能样本,2023/6/19,6,

（二）样本分布与符号,从总体,抽样单元。

假设顺序被抽中的样本单元的号码为,（入样号码），则样本为,，称,为抽样比（Samplingfraction）。

中逐个不放回抽取n个,作为随机变量样本有什么分布呢？

2023/6/19,7,1y1,yn同分布但不相互独立，其共同分布列为,2（yi,yj）的联合分布列均同（y1,y2）,2023/6/19,8,表2.3符号,2023/6/19,9,二、抽样方法,

（一）抽签法,制作N个外形相同的签，将它们充分混合，然后一次抽取n个签，或一次抽取一个但不放回，抽取n次得到n个签。

则这n个签上所对应号码表示入样的单元号。

例如：

某中学为了解学生身体素质的基本状况，从全校N1200人中抽取一个简单样本n100人进行检查。

2023/6/19,10,1随机数表,

（二）随机数法,如上例，N1200，则在表中随机连续取四列，顺序往下，选出前面100个不同（不放回抽样）的00011200之间的数字。

如果不够100个，可随机再取四列，同样操作，直至抽取100个止。

2023/6/19,11,Simplerandomsampling,2023/6/19,12,Tableofrandomnumbers,2023/6/19,13,2随机数骰子,随机数骰子是由均匀材质制成的正20面体，每个面上刻有一个09的数字，且每个数字只出现在两个面上。

要产生一个m位数的随机数（如m4，N1200），则将m（m=4）个颜色不同的骰子盒中，并规定每个颜色代表的位数，盖上盖子，充分摇动盒子后，打开读出各色骰子的数字，即可得一个随机数。

重复上述过程，直至产生了n个满足条件的随机数。

2023/6/19,14,3利用统计软件直接抽取法,大部分统计软件都有产生随机数的功能，快捷方便。

不过产生的是伪随机数，有一定循环周期的。

简单介绍一下利用EXCEL产生随机数的方法.,2023/6/19,15,2023/6/19,16,2023/6/19,17,2023/6/19,18,2.2简单估计法（SE）,一、总体均值的估计,

（一）简单估计定义,.（2.6）,

（二）简单估计量的性质,引理2.1从大小为N的总体中抽取一个样本容量为n的简单随机样本，则总体中每个特定的单元入样的概率为n/N，两个特定单元入样的概率为n（n1）/N（N-1）。

2023/6/19,19,引理2.2从大小为N的总体中抽取一个样本容量为n的简单随机样本。

若令：

则：

2023/6/19,20,

（二）简单估计量的性质,定理2.1上述简单估计是无偏的，即,定理2.2上述简单估计的方差（均方误差）为：

.（2.12/2.18）,2023/6/19,21,证明（P35证法1对称证法）：

为0,注意样本分布,2023/6/19,22,推论2.7,的无偏估计为,.（2.25）,证明：

只须说明样本方差是总体方差的无偏估计即可。

注意,2023/6/19,23,例2.3从某个N100的总体重抽取一个容量n=10的简单随机样本，要估计总体平均水平，并给出置信度为95的置信区间估计。

如表2.4,序号,表2.4简单随机样本指标,2023/6/19,24,2023/6/19,25,（三）有放回简单随机抽样的简单估计量,由于,故有放回抽样的精度低于不放回抽样的精度。

2023/6/19,26,说明：

1抽样调查中的估计量与传统数理统计中估计量的区别（见表2.5）,表2.5抽样理论与传统数理统计关于样本均值性质异同比较,2023/6/19,27,2总体方差一般也是未知的，故计算估计量方差（估计）值时总是用样本方差直接去估计它，因为该估计无偏，故这样做相对是合理的。

3对于无限总体的简单随机抽样（或有限总体有放回简单抽样）估计中由于N一般很大，即从有限总体抽样得到简单随机样本均值得方差是从无限总体抽样得的独立样本均值的方差的1f倍，要小些，这意味着对同等样本量，不放回简单随机抽样的精度高于有放回的。

由于样本点不会重复，样本量相同时所包含的有效样本点更多，因此信息更多，效果当然好些。

1f又被称为有限总体校正系数。

2023/6/19,28,4样本容量n越大，估计量方差越小。

当样本容量一定时，总体方差越大，估计量方差越大。

由于总体方差是固定的，因此在简单随机抽样的条件下，要提高估计量精度就只有增加样本容量了。

但增加样本容量也会带来计算量骤增和成本增加，所以是矛盾的一对，需要找到合适的平衡点。

2023/6/19,29,二、总体总量的估计,

（一）简单估计量,.（2.7）,

（二）估计量性质,推论2.12.42.8,.（2.13）,.（2.19）,.（2.26）,2023/6/19,30,例2.4（续例2.3）估计总体总量，并给出置信度为95条件下的估计相对误差。

三、总体比例的估计,将总体分为两类，一类具有该特征的单元A个，另一类不具有该特征的单元NA个。

调查的目的是估计,或A,若令,则,2023/6/19,31,

（一）估计量的定义,

（二）估计量性质,推论2.22.52.9对于简单随机抽样，p是P无偏估计。

p的方差为,方差的无偏估计,（2.27）,（2.20）,2023/6/19,32,例2.5某超市开张一段时间后，为改进销售服务环境，欲调查附近几个小区居民到该超市购物的满意度。

该超市与附近一个小区的居委会取得联系，在总体中按简单随机抽样抽取了一个大小为n=200人的样本。

调查发现对购物表示满意或基本满意的居民有130人，估计对该超市购物环境持肯定态度的居民的比例，并在置信度95%条件下，给出估计的绝对误差和置信区间，假设抽样比可以忽略。

2023/6/19,33,

（2）样本协方差是总体协方差的无偏估计.,（2.22，2.23）,（2.29）,考虑二维总体,2023/6/19,34,证明：

仍采用对称法（P40证法1）

（1）,注意样本分布,注意为0,2023/6/19,35,

（1）证法2：

（构造性）,展开,2023/6/19,36,

（2）,注意,由

（1）,2023/6/19,37,一、概念与作用

（一）概念比率（Ratio）与比例（Proportion）区别

（二）作用,2.3比率估计量及其性质,一种场合是待估的总体参数R是两个变量比值。

如人口密度，恩格尔系数等。

分子分母均为r.v.,分子为r.v.,2023/6/19,38,另一种应用场合，虽然待估的参数是某个研究变量的均值或总体总量，它本来可以通过样本均值加以估计，但是为了提高估计的效率，它通过引进一个辅助变量xi，来计算比率，即,再通过这一比率乘以总体已知的辅助变量均值或总量来达到估计的目的。

2023/6/19,39,二、应用条件,

（1）辅助变量（auxiliaryvariable）资料易得或已知

（2）辅助变量与目标变量之间存在高度相关性且相关性稳定。

（3）样本量一般要求比较大,三、简单随机抽样下的比率估计,2023/6/19,40,

（一）定义比率估计量（ratioestimator）又称比估计。

（2.30）,（2.31）,2023/6/19,41,

（二）比率估计的性质,引理2.3,定理2.6,推论2.11,2023/6/19,42,引理2.4,证：

当n充分大时,2023/6/19,43,定理2.7,推论2.12,2023/6/19,44,因而方差估计有两种思路,（2.39）,（2.40）,2023/6/19,45,例2.6,表4.1假设的总体数据,2023/6/19,46,解：

2023/6/19,47,2023/6/19,48,解,2023/6/19,49,例2.7（P51例2.4）,在二十世纪90年代初的一项工资研究中，人们发现IT行业中，从业者的现薪与起薪之间相关系数高达0.88，已知某IT企业474名员工的评鉴起薪为17016.00元/年，现根据对100个按简单随机抽样方式选出的员工现薪的调查结果，估计该企业员工的现薪平均水平。

数据如下：

，,，,2023/6/19,50,解：

简单估计,95的置信区间,比率估计,95的置信区间,2023/6/19,51,例2.8某县在对船舶月完成的货运量进行调查，对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘，载重吨位154626吨。

从2860艘船舶中抽取一个n10的简单随机样本。

调查得到样本船舶月完成的货运量及其载重吨位如表4.2（单位：

吨）要估计该县船舶月完成货运量,表4.2样本船舶货运量及载重吨位数据,2023/6/19,52,解,2023/6/19,53,2023/6/19,54,（三）消除比率估计偏倚的方法,2023/6/19,55,哈特利-罗斯（Hartley-Ross，1954）提出的估计量,（2.51）,于是可以令,2023/6/19,56,事实上：

2023/6/19,57,例2.9,2023/6/19,58,四、比率估计的效率,1/2,2023/6/19,59,2.4回归估计量及其性质,比率估计成为最优线性估计的条件：

（1）样本点（yi,xi）形成过原点的直线

（2）yi对直线的偏差与xi成比例,2023/6/19,60,一、回归估计的定义,二、是已知常数时（记为0）,定理2.8,2023/6/19,61,Q：

“0取何值时，回归估计量的精度最高，即最小？

”,定理2.9：

三、由样本回归系数计算得到,（2.56Y对X回归系数）,定理2.10这时的均值估计量是渐近无偏估计,注意b并不是B的无偏估计,2023/6/19,62,定理2.11,它的一个近似估计为：

2023/6/19,63,例2.10续例2.8,2023/6/19,64,四、精度比较,1回归估计总优于简单估计，除非=0,2比率估计优于简单估计的条件,3回归估计优于比率估计的条件是,五、多变量回归估计（略）,2023/6/19,65,2.5样本量的确定,一、总体均值情形,1给定标准误差上限,，求满足条件,的最小n,2023/6/19,66,2给定绝对误差上限,及信度,，求满足条件,的最小n,有放回,，不放回,3给定相对误差上限,及信度,，求满足条件,的最小n,有放回,不放回,2023/6/19,67,给定相对标准误差上限，求满足条件,的最小n.,放回,不放回,例2.6在例2.3中，如果要求以95%的把握保证相对误差不超过10%，样本量应该取多少？

2023/6/19,68,2023/6/19,69,二、总体总量情形作业考虑各种情行的公式,例欲估计一个农村的每月平均副业收入，已知该村共有1000户农户，月副业收入的标准差不超过300元。

（1）现要求置信度为95%，估计每户月副业收入的误差不超过50元，应抽取多少户作为样本？

（2）若每户调查费用为15元，调查管理费用为800元，该项调查预计费用是多少？

2023/6/19,70,例如果上例目的是要估计全村1000户一月的副业总收入，允许总量的误差为40000，置信度为95%，应抽取多少样本？

三、总体参数P的情形,四、总体参数的预先估计,2023/6/19,71,

（1）根据以往的经验数据,例如对同类问题获得过一个样本量n0为的简单随机样本，并且已知在一定置信度下（比如95%），该调查对总体均值（或总量）估计的相对误差上限为r0，则在相同的置信度下，如果希望本次调查的相对误差上限为r，则在抽样比可以忽略的情况下，可以近似地计算出本次调查所需的样本量：

作业证明上述结论,2023/6/19,72,

（2）在正式调查前进行试点调查，根据试点调查的结果作出估计,或者采用两步抽样,（3）没有同类调查经验，又不能进行预调查，则只能通过有经验的专家作一些定性分析，对总体变异系数C（比较稳定）作出估计。

（4）注意：

针对总体参数为时情形,当估计P0.5，则选取较小的P，如若估计P为0.6，0.8则选取P为0.6若对P一无所知则取P=0.5。

2023/6/19,73,例2.7某销售公司希望了解全部3000家客户对公司的满意度，决定用电话调查一个简单随机样本。

这时销售公司希望以95的把握保证客户满意度比例P在样本比例p10，p+10范围内，但对总体比例P无法给出一个大致范围。

这时调查多少个客户，才能保证满足要求？

2023/6/19,74,2.6其它相关问题,一、逆抽样,比例P是稀有事件的比例，一般P0.2,事先给定一个正整数m，,然后逐个随机抽取样本，,n个单元。

直到抽到m个所考虑特征的单元为止，设共取了,2023/6/19,75,事实上,2023/6/19,76,这样给定了相对标准误差后，就可以确定m,2023/6/19,77,二、设计效应（Designeffect）（L.Kish）,2023/6/19,78,通常的值因为总体方差未知而事先无法得知，此时需注意在经费允许的前提下，样本量取值应坚持保守原则，尽量大一点，以便留有余地。

例如后续的分层抽样的deff1，而取为1.实际上，我们在调查时无法保证在每个被抽中的样本点上都能如愿地获得有效信息。

例如不是每个人都愿意接受访问，也不是每个人都能按要求提供真是答案，尤其当问题涉及隐私或其它敏感内容时，所以必须考虑有效回答率。

如估计有效回答率为r，则需再调整样本量为n/r.,2023/6/19,79,宏村,2023/6/19,80,

展开阅读全文