抽样设计复习整理(核心).doc
《抽样设计复习整理(核心).doc》由会员分享,可在线阅读,更多相关《抽样设计复习整理(核心).doc(8页珍藏版)》请在冰点文库上搜索。
基础知识点
1、概率抽样和非概率抽样
1)非概率抽样:
主要依据研究者的主观意愿、判断或是否方便等因素抽取样本;误差大,难以估计,代表性小,适合探索性研究。
主要有:
偶遇抽样、判断抽样、定额抽样、雪球抽样
2)概率抽样:
依据概率论的基本原理,按照随机原则进行抽样;主要有:
简单随机抽样、系统抽样、分层抽样、整群抽样、多段抽样
补充:
(概率与非概率本质是随机与非随机)
抽样方法
非随机抽样
随机抽样
作用
研究总体的局部现象
以部分推断总体
抽样原则
非随机抽出样本,主观性强
随机抽出样本,客观性强
误差判断
不能计算和判断抽样误差
能计算和判断抽样误差
应用
可随时随地采用
只能定期采用
优缺点
不够科学规范,但省钱、省事、灵活方便
科学规范,但费时、费钱、不够灵活方便
2、样本容量
设抽样总体由N个抽样单元组成,N是一个已知正整数,表示总体规模;欲在其中抽取n个抽样单元构成一个样本(即n个抽样单元组成的集合)。
n是一个事先人为确认的不大于N、不小于1的正整数,称为样本容量,简称样本量或样本数,表示样本规模。
3、估计方法
(a)简单估计
定义:
从含有N个单元的总体中抽取n个单元组成样本,如果抽样是不放回的,则所有可能的样本有个,若每个样本被抽中的概率相同,都为,这种抽样方法就是简单随机抽样。
实际应用中分为放回和不放回的简单随机抽样。
(b)比率估计
利用辅助变量之间的比值关系,进行主要变量的总体特征的估计,一般仅限于用来估计主要变量的总体均值和总体总值。
(c)回归估计
借助主要变量与辅助变量之间的线性相关关系,提高对主要变量的总体均值和总体总值的估计精度。
a)对于简单随机抽样,简单估计、差值估计是无偏的,比率估计、回归估计是渐近无偏的。
小样本条件下回归估计偏差大于比率估计和简单估计。
b)比估计在相关系数大于CX/2CY时,优于简单估计。
c)当样本量较小时,不能忽略比率估计及回归估计的偏倚。
d)当辅助变量为调查指标的最近的普查值,可以考虑使用差值估计,尽管差值估计的方差可能比回归估计要大,但由于它是无偏估计,因此,总的均方误差可能比回归估计的小。
4、辅助变量选择的原则
辅助变量是相对于调查变量而言的,在多目标抽样调查中如果需要,一个调查变量还可以作为另一个调查变量的辅助变量。
辅助变量可以是表示抽样单元规模大小的量。
选择辅助变量的原则:
最佳效果原则
选择的辅助变量与抽样和估计方法的要求相适应,以便能达到最高抽样精度
1)用于不等概抽样、比率估计的辅助变量要与研究变量之间具有比例关系
2)用于分层、回归估计的辅助变量要与研究的变量之间具有较高的线性相关关系;
5、怎样减少比率估计、回归估计的偏移
提高样本数n;提高抽样比f(趋近于1);提高辅助变量均值;减小辅助变量标准差
6、不等概系统抽样的特点
入样概率与单元大小成比例的系统抽样。
优点:
简便、易于控制、有潜在分层功能
弱点:
有时估计量是有偏的、抽样误差计算上比较复杂
简答题
1、随机抽样与非随机抽样的区别
抽样方法
非随机抽样
随机抽样
作用
研究总体的局部现象
以部分推断总体
抽样原则
非随机抽出样本,主观性强
随机抽出样本,客观性强
误差判断
不能计算和判断抽样误差
能计算和判断抽样误差
应用
可随时随地采用
只能定期采用
优缺点
不够科学规范,但省钱、省事、灵活方便
科学规范,但费时、费钱、不够灵活方便
2、判断抽样的含义、适用范围、优缺点
含义:
又称立意抽样法,它是指由市场调查的专家依据自己的判断来选取样本的一种方法。
适用范围:
总体的构成单位差异较大而样本数又很小的情况
优点:
因为是按照调查人员的需要来选定样本,所以较好地满足了特殊的调查需要。
缺点:
如果调查人员在选取样本时主观判断出现偏差,则判断抽样极易发生较大的抽样误差。
3、随机抽样的程序
第一、确定抽样调查的目的、任务和要求;
第二、确定调查对象的范围和抽样单位;
第三、确定抽取样本方法;
第四、对主要抽样指针的精度提出要求;确定必要的样本数;
第五、确定总体目标量的估算方法;
第六、制订实施总体方案的办法和步骤
4、系统抽样定义、实施步骤
定义:
设总体中的N个单元按某种顺序(通常是依照有关标志排队,即按某个在比估计和回归估计中提到的辅助变量的顺序排列,但也可以是依照无关标志排队,即按不完全满足辅助变量定义的某个已知变量排列,这种排列近似于随机排列),编号为1,2,…..,N。
抽样程序首先抽取一个或一组起始单元的编号,然后按某种确定的规则选取其他单元的编号,直到满n个为止,则这种抽样成为系统随机抽样,简称随机抽样。
l总体中的N个单元按一定顺序排列,
l抽取一个起始单元,
l按某种规则选取其它单元直到满n个为止
实施步骤:
(1)直线等距抽样:
首先计算抽样间距k=N/n
将N个单元按某种顺序依次编号为1,2,....,N
从1~k个单元编号中随机抽出一个单元编号,假设为r
没个k个单元编号抽出一个单元编号,直到抽出n个单元
这样最终抽出的样本是由以下编号的单元组成的:
r=(j-1)k (j=1,2,….,n)
(2)圆形等距抽样:
编号不是直线排列而是环状(圆形)排列,随机起点的选择范围由1到k扩展到1到N
5、直线抽样和环形抽样的区别
1、编号的排列方式:
直线抽样的编号为直线排列,环形抽样的编号为环状排列。
2、随即起点的选择范围:
直线抽样随即起点的选择范围为1~k,环形抽样随即起点的选择范围为1~N。
6、分层抽样的估计方法的选择(比估计、回归估计等)
1、由于分别估计要求各层的样本量都比较大,所以当某些层的样本量不够大时,建议采用联合估计。
2、当回归系数需要由样本进行估计时,回归估计量是有偏的,尤其当样本量较小的时候,偏倚可能会更大,此时,采取比估计尤其是联合比估计也许更保险。
3、如果各层的样本量都比较大,同时每层的比估计或回归估计也比较有效,而且各层的Rh之间差异较大,则此时分别估计由于联合估计,估计量的方差更小。
4、如果各层的样本量不大,而且各层的Rh之间差异较小,则采用联合估计较为适宜。
5、如果各层的Rh之间差别不是太大,而且并不是每层的样本量都相当大,则联合估计可能更保险一些。
7、整群抽样群的划分原则
群的划分大致可分为两类:
根据行政或地域形成的群体、调查人员人为确定的
分群的原则可用方差分析原理说明:
群内差异尽可能大,群间差异尽可能小
综合设计题
确定抽样方法介绍
在设计一个抽样调查时,我们通常需要做的工作是:
定义总体及抽样单元、确定或构置抽样框、选择抽样技术、确定样本量的大小、制定实施细节并实施。
这里我们着重介绍一下定量研究的抽样方法和样本量这两个技术环节。
最基本的定量研究的抽样方法分为两类,一类为非概率抽样,一类为概率抽样。
一、非概率抽样
非概率抽样是不能计算抽样误差的,因为它是靠调研者个人的判断来进行的抽样。
它包括偶遇抽样或者方便抽样、判断抽样、配额抽样、雪球抽样等。
偶遇抽样(方便抽样)常见的未经许可的街头随访或拦截式访问、邮寄式调查、杂志内问卷调查等都属于偶遇抽样的方式。
偶遇抽样是所有抽样技术中花费最小的(包括经费和时间)。
抽样单元是可以接近的、容易测量的、并且是合作的。
但尽管有许多优点,这种形式的抽样还是有严重的局限性。
许多可能的选择偏差都会存在,如被调查者的自我选择、抽样的主观性偏差等。
这种抽样不能代表总体和推断总体。
因此,当我们在进行街头访问或邮寄调查时,一定要谨慎对待调查结果。
判断抽样判断抽样是基于调研者对总体的了解和经验,从总体中抽选"有代表性的""典型的"单位作为样本,例如从全体企业中抽选若干先进的、居中的、落后的企业作为样本,来考察全体企业的经营状况。
如果判断准,这种方法有可能取得具有较好代表性的样本,但这种方法受主观因素影响较大。
配额抽样配额抽样是根据总体的结构特征来给调查员分派定额,以取得一个与总体结构特征大体相似的样本,例如根据人口的性别、年龄构成来给调查员规定不同性别、年龄的调查人数。
配额保证了在这些特征上样本的组成与总体的组成是一致的。
一旦配额分配好了,选择样本元素的自由度就很大了。
唯一的要求就是所选的元素要适合所控制的特性。
这种抽样方法的目的是使样本对总体具有更好的代表性,但仍不一定能保证样本就是有代表性的。
如果与问题相关联的某个特征未被考虑进配额,配额样本可能就不具有代表性,但在实施中包括太多的控制特征是十分困难的。
另外,用这种方法进行选择时,往往存在调查员的选择偏好,因而也难以避免主观因素的影响。
如果在严格控制调查员和调查过程的条件下,可使配额抽样获得与某些概率抽样非常接近的结果。
在进行配额抽样时,要特别注意配额与调查结果之间的密切联系。
雪球抽样雪球抽样是先选择一组调查对象,通常是随机地选取的。
访问这些调查对象之后,再请他们提供另外一些属于所研究的目标总体的调查对象,根据所提供的线索,选择此后的调查对象。
这一过程会继续下去,形成一种滚雪球的效果。
此抽样的主要目的是估计在总体中十分稀有的人物特征。
由于后来被推荐的人可能类似于推荐他们的那些人,因此这种方式的调查也是非概率的。
二、概率抽样
概率抽样包括简单随机抽样,分层抽样,等距抽样,整群抽样等,每个样本的中选概率是已知的,因此可以计算抽样误差。
通常的实地调查中,是把这几种抽样方法相互结合。
简单随机抽样
总体中的每一个元素都有一个相等的被抽中概率。
简单随机抽样可以通过抽签法和随机数字表方法来实现。
先确定或搜集一个抽样框,将抽样框中的每个元素都编上号。
然后把所有抽签抽中的号码的元素或随机数字对应的号码的元素做为样本进行调查。
等距抽样(系统抽样)
按照某种顺序给总体中所有单元编号,然后随机地抽取一个编号作为样本的第一个单元,样本的其它单元则按照某种确定的规则抽取(如等距原则),这种抽样方法称为系统抽样。
其中最常用最简单的系统抽样叫等距抽样。
分层抽样
分层抽样的特点是先将总体按照某种特征或指标分成几个排斥的又是穷尽的子总体,或层,然后在每个层内按照随机的方法抽取元素。
其原则是子总体内元素间差异可能小,而不同子总体间差异大。
整群抽样
整群抽样首先将总体划成许多相互排斥的子总体或群,然后以群为初级抽样单元,按某种概率抽样技术,如简单随机抽样,从中抽取若干个群,对抽中的群内的所有单元都进行调查。
多级抽样
也叫多阶段抽样。
它是在第一阶段从所有群中抽取若干群,在每个抽中的群中,再抽取若干单元进行调查。
它与分层抽样的区别在于第一层是抽取部分,与整群抽样的区别在于第二阶段是抽取部分。
这在实际实施中是最为常见的一种抽样方式。
同时它的抽样精度比整群抽样高,操作性更强。
1、
编号
文化支出
总支出
编号
文化支出
总支出
故平均文化支出的95%的置信区间为
代入数据得(146.329±1.96*1.892)即为[142.621,150.037]
2、
编号
原重量
现重量
解:
故有
所以总体均值的回归估计量为:
其方差估计为:
<
3、根据调查数据可知:
h
W
P
(1)根据各层层权及抽样比的结果,可得
估计量的标准差为1.99%,比例为9.24%
(2),,
按比例分配,样本量,得:
,
按内曼分配,
各层的量:
4、抽样设计(计算时用此表)
总计
5、整群抽样
样本乡
村庄数
合计
(1)无偏估计。
,,
(2)以群规模为辅助变量的比率估计
,
(3)以种植面积为辅助变量的比率估计
8