抽样调查-第2章简单随机抽样.pptx

资源描述

抽样调查-第2章简单随机抽样.pptx

《抽样调查-第2章简单随机抽样.pptx》由会员分享，可在线阅读，更多相关《抽样调查-第2章简单随机抽样.pptx（95页珍藏版）》请在冰点文库上搜索。

抽样调查-第2章简单随机抽样.pptx

2.1定义与符号,一、定义,简单随机抽样：

从含有N个单元的总体中随机抽取n个单元组成样本。

1.若抽样是放回的,则所有可能的样本有,个，每个样本被抽中的概率为，这种抽样方法称为放回简单随机抽样。

2.若抽样是不放回的,则所有可能的样本有,法称为不放回简单随机抽样。

1.简单随机抽样是等概抽样,即每个总体单元都有相同的入样概率;2.随机抽取是有严格要求的,不是随便抽取，必须按照某一随机原则进行。

注意,【例2.1】设总体有5个单元（1,2,3,4,5），按,放回简单随机抽样的方式抽2个单元，则所有可,（放回简单随机抽样所有可能的样本）,【例2.2】设总体有5个单元（1,2,3,4,5），按,不放回简单随机抽样的方式抽2个单元，则所有可,（不放回简单随机抽样所有可能的样本）,在实际工作中，更多地采用不放回简单随机抽样，所以以下讨论的简单随机抽样一般都指不放回简单随机抽样.,二、符号,大写字母表示总体单元的标志值：

如,小写字母表示样本单元的标志值：

如,调查的总体目标量主要有：

比例P；两个总体总量的比率R。

对估计精度进行计算时，要涉及到总体方差和,样本方差等。

下面分别列出：

总体方差,样本方差,还有一些其他符号,分别说明如下:

总体,，,样本,将左边式子中的大写字母改为小写字母。

到的总体指标的估计。

如,估计量的方差用V表示，如,标准差用S表示，如,2.2简单估计量及其性质,无论调查对象是何种总体参数，其实所有估计量通常都是样本均值的某种线性组合，因此在抽样中不管讨论何种估计的基本性质，都只围绕样本均值进行。

而对样本均值这个核心估计量的研究则分为两个方面：

一方面是求样本均值对所有可能样本的数学期望（检验估计量是否无偏）。

另一方面是求样本均值对所有可能样本的方差（检验估计量误差的大小）。

为了讨论简单估计的性质，首先我们来看两个引理：

引理一从大小为N的总体中抽取一个样本量为n的简单随机样本，则总体中每个特定单元的入样概率为：

两个特定单元都入样的概率为：

引理一的证明：

在N个单元中取n个单元为样本，共有个样本。

在个样本中，包含某个特定单元的样本数为：

每个样本被抽中的概率为：

。

同时包含两个特定单元的样本数为每个样本被抽中的概率为:

引理二从总体规模为N的总体中抽取一个样本量为n的简单随机样本。

若对总体中的每个单元，引进随机变量如下：

由二项分布可知：

所以，不难推出：

下面我们用两种与数理统计中不同的方法来证明这一性质。

思考：

为什么不能用数理统计中常用的方法？

有了这些准备，我们很容易证明,根据前面提到的关于的定义，有下式,证明：

对于一个大小为N的总体，样本量为n的,其他几个估计量的无偏性可容易推出：

1、对于总体总量,2、对于总体比例,有限总体校正系数。

证明方法一,即,证明方法二:

由定义,而,因此有,即,证明:

将改写成:

由前面性质1证明用过的对称论证法有:

由性质2有:

下面我们从关系式,可以推出其他几个估计量的方差,总体总量的估计量方差是总体均值方差的直接推导，下面我们来推导总体比例估计量的方差。

设N个样本单元中有N1个具有某一特性,即有N1个单元取值为1,有N-N1个单元取值为0.,同理对样本方差有,因此,同样下面我们从关系式,可以推出,从式可以看出，影响估计量方差的因素有：

分析见教材P38,39,N通常很大，当f0.05时，可将1-f近似取为1，这时影响估计量方差的主要因素是样本量n和总体方差。

的大小是我们无法改变的，因此，要提高估计量的精度就只有加大样本量。

注意,【例2.3】我们从某个N=100的总体中抽出一个大小为n=10的简单随机样本，要估计总体平均水平并给出置信度95%的置信区间。

解：

依题意，N=100,n=10,f=,样本均值为：

样本方差为：

因此，总体平均值的估计为：

的方差为：

的方标准差为：

s,的置信度95%的置信区间为：

即2.4295，7.5705.,V（,注意:

不放回时的方差为放回时的约1-f倍，而,1-f1,因此不放回抽样的估计精度比放回抽样的,估计精度高。

【例2.4】我们从某个N=100的总体中抽出一个大小为n=10的简单随机样本，要估计总体总量并给出在置信度95%的条件下，估计量的相对误差。

解依题意，N=100，由例2.3可知：

因此，对总体总量的估计为：

=1005=500。

0,其标准差为：

因此，在置信度95%的条件下（对应的,t=1.96）,的相对误差为：

【例2.5】,解：

已知n=200,a=130,1-f1,某超市开张一段时间之后，为改进销售服务环境，欲调查附近几个小区居民到该超市购物的满意度。

该超市与附近几个小区居委会取得联系，在整体中按简单随机机样，抽取了一个大小为n=200人的样本。

调查发现对该超市购物环境表示满意或基本满意的居民有130位，要估计对该超市购物环境持肯定态度居民的比例，并在置信度95%条件下，给出估计的绝对误差和置信区间。

假定这时的抽样比可以忽略。

在置信度95%的条件下，估计的绝对误差为：

的95%置信区间为：

0.65,2.3比率估计量及其性质,用样本均值作为总体均值的简单估计量，具有无偏等很多优良性质，且完全不依赖其它总体信息。

但是，若我们有与调查变量相关的其它信息（通常称为辅助变量信息）可以利用，则估计的精度可以大大提高。

这就是我们下面要讲的比率估计和回归估计。

一、估计的概念,设主要变量为：

Y辅助变量为：

X两变量的比率为：

总体均值的比估计：

其中,二、比率估计的特点及注意事项,1、使用比估计首先要知道辅助变量的总体均值（或总体总量），调查时，既要观测主要变量的值还要观测辅助变量的值；2、辅助变量必须与主要变量高度相关且整体上应相当稳定；3、比估计虽然不是无偏的，但其精度要高于简单估计量很多。

下面我们看一个简单估计与比估计对比的例题,【例】,对以下假设的总体（N=6），用简单随机抽,样抽取n=2的样本，比较简单随机抽样比率估计及简单估计的性质。

解：

对这个总体，我们列出所有可能的,个样本，以比较简单估计与比率估计的性质。

由此，可以算出：

总结1、从计算表格中可以看出，均值的比估计很稳定，而均值的简单估计则波动剧烈。

2、虽然比率估计是有偏估计，但偏倚不大，而估计量方差要比简单估计的方差小得多。

3、比估计是一种很好的估计量，是提高估计精度的最有效的途径。

4、思考：

比估计为什么能大幅度地提高估计精度？

对于简单随机抽样,n较大时,比率估计具有以下性质：

关于比率估计我们要说明（或证明）以下几个问题：

1、均值的比率估计不是无偏的；2、偏倚是怎么产生的；3、均值比率估计的均方误差；4、均方误差的估计。

第一个问题可从上面的例题给予说明：

第二个问题我们可以从下面的表达式说明：

这里是常量，是随机变量。

估计量不是随机变量的线性函数。

因此，估计量的偏倚是由R的有偏性造成的.,第三个问题，我们来证明R估计的偏倚,因此,因而偏倚主要来自于等式右边的第二项,由,因此，偏倚的主要项为：

同样我们可以推出：

对上述方差分别给出样本估计式如下：

【例2.2】某县在对船舶调查月完成的货运量进行调查时，对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘，载重吨位154626吨。

从2860艘船舶中抽取一个n=10的简单随机样本，调查得到样本船舶调查月完成的货运量及其载重吨位如表（单位：

吨），要推算该县船舶调查月完成的货运量。

因此,对该县船舶在调查月完成货运量的比率估计为:

方差的估计为:

=2.10617,标准差的估计为:

如果用简单估计对货运量进行估计,则,由此,得到比率估计量设计效应为:

对于本问题,比率估计量比简单估计量的效率高!

【例2.3】在一项工资研究中，人们发现IT行业中，从业者的现薪与起薪之间相关系数高达0.88，已知某IT企业474名员工的平均起薪为17016.00元/年，现根据对100个按简单随机抽样方式选出的员工现薪的调查结果，估计该企业员工的现薪平均水平。

已知：

【解】1、在简单估计条件下，,的95%的近似置信区间为：

此处教材有误（P51）,2、在比率估计条件下，,的95%的近似置信区间为：

下面我们从理论上来比较简单估计与比率估计的误差,比率估计量精度高于简单估计量的充要条件是：

也就是说，,比率估计比简单估计更为精确。

尤其是当时，只要相关系数，比率估计就要优于简单估计。

比率估计的其他问题看教材P53,2.4回归估计量及其性质,一、回归估计的定义,的回归估计量（regressionestimatior）的定义为：

如果=0，则回归估计量就是简单估计量；,归系数,稳定在某个数值上，取最近一次调查,性质2对于简单随机抽样回归估计量，作为,的方差分别为：

协方差。

的样本估计量为：

我们对上式两端关于求导数，得：

三、为样本回归系数的情形,如果需要通过样本来确定，很自然地，,我们会想到用总体回归系数的最小二乘估计，,也就是样本回归系数：

这时简单随机抽样回归估计量,是有偏的。

但当样本量,n充分大时，估计量的偏倚趋于零。

因此，类似,比率估计量，回归估计量也是渐近无偏的。

且有,的一个近似估计为：

【例4.5】（续P72的例4.2）利用回归估计量推算该县船舶调查月完成的货运量.,解:

根据例4.2中的计算结果可得样本回归系数:

从而,因此，该县船舶调查月完成的货运量的回归估计为：

为了估计，先计算回归残差方差：

所以,对于同一个题，我们来比较三种估计量的误差差异,与例4.2的结果比较，对于本问题回归估计优于比率估计，而比率估计又优于简单估计；回归估计优于比率估计的原因是回归直线可以不通过原点。

比较上述估计量的优劣，一般是通过比较它们的均方误差或方差大小来进行。

关于简单估计、比率估计、回归估计的估计量方差比较,简单估计量：

比率估计量：

回归估计量：

由此可以看出（在不考虑偏倚的情况下）有以下结论：

2.比率估计量优于简单估计量的条件是:

3.回归估计量优于比率估计量的条件是:

在不考虑偏倚时，回归估计总是优于比率估计,1.回归估计量总是优于简单估计量，除非即一般而言有,如果不忽略偏倚，全面考虑比率估计和回归估计的均方误差MSE，那情况会怎么样呢？

下面我们通过教材P61.表213的实际例题来分析比较。

（略,看教材）,2.4简单随机抽样的实施,一、样本量的确定原理我们知道n的大小会影响抽样误差，因为如果n越接近N，则抽样误差就会越接近于零，这一点也清楚地体现在下面的式子里。

三个因素决定n,在上式中，N是已知的，S是无法知道的，所以要考考虑影响n的重点应该是抽样误差。

习惯上，不以作为调查精度指标，而是用置信度和绝对误差限度替代抽样误差,根据双侧分位点的定义有,下面我们分别观察等式右端各部分对n的影响。

置信度对样本量n的影响,绝对误差限度d对样本量n的影响,这里,总体方差对样本量n的影响,这里,下面我们把置信度设为：

绝对误差设为：

总体方差设为：

来观察总体规模N对样本量n的影响,总体规模N对样本量n的影响,二、样本量的确定步骤,第一步：

确定委托单位认可的估计精度水平，包括绝对误差d和置信水平；第二步：

按照保守原则（宁大勿小），实施对总体方差的预估；第三步：

根据上述给定的估计精度和总体方差的预估值并考虑总体N的大小，以简单抽样及回答率100%为前提条件，按下面的式子计算初始样本量n,第四步：

确定抽样方法，并根据不同抽样方法的抽样效应deff对样本容量进行调整：

简单随机抽样的分层随机抽样的整群随机抽样的系统随机抽样的,第五步：

判定有效回答率，并根据有效回答率r对样本容量进行再调整:

第六步：

为了获得分组数据，要考虑适当增加样本量；第七步：

要考虑调查费用，适当调整样本量。

三、抽选方法,首先将总体的N个单元从一到N编号，每个单元对应一个号，如果抽到某个号，则对应的那个单元入样。

要选出n个单元入样，通常有两种做法：

抽签法和随机数法。

1、抽签法当总体不大时，可以用均匀同质的材料制作N个签，将它们充分混合，然后一次抽取n个签；或一次抽取一个签，但不放回，接着抽下一个签直到第n个签为止。

则这n个签上所示号码表示入样的单元号。

2、随机数法,

（一）随机数表随机数表是由数字0，1，2，9组成的表，每个数字都有同样的机会被抽中，用随机数表抽取简单随机样本，可用下面两种方法：

方法一根据总体大小N的位数确定在随机表中随机抽取几列。

如N=678，要抽取n=5的样本，则在随机数表中随机抽取3列，依次往下，选出头5个001678之间互不相同的数。

方法二若N的第一个数字小于5，且n较大，则方法一可能花费较多的时间。

如N=327，按方法一则328999的数都没有用，这时采用下面的方法可能更好：

在随机数表中随机抽取3列，依次往下，如果得到的随机数在401800之间，则这个数减去400，由此000，大于800以及余数大于327的数被扔掉。

（二）计算机产生的伪随机数利用软件中的随机函数可产生所需要的随机数，这种方法产生随机数称为伪随机数，虽然方便，但并不能保证其随机性，因为这些伪随机数有循环周期，当然，我们希望产生的伪随机数循环周期越长越好。

在可能的条件下，建议还是利用随机数表来产生随机数。

本章作业,

（1）熟悉本章有关估计量性质的证明；

（2）思考书后P72.习题2.2，习题2.3；（3）在作业本上完成P72.习题2.4;2.5;2.9;2.10,（第二章结束）,

展开阅读全文