第5章 抽样与抽样估计.docx
《第5章 抽样与抽样估计.docx》由会员分享,可在线阅读,更多相关《第5章 抽样与抽样估计.docx(11页珍藏版)》请在冰点文库上搜索。
第5章抽样与抽样估计
第5章抽样与抽样估计
本章的主要目的:
⏹掌握抽样与抽样估计的基本含义;
⏹掌握估计总体均值、比例与方差的方法。
⏹掌握如何确定样本容量方法。
5.1抽样调查中的基本概念
统计研究的目的是分析说明某一现象总体的数量特征。
通过抽样得到一个样本,根据抽样分布的原理、利用样本资料对总体特征进行科学的估计与推断就是抽样估计。
1.总体与样本
总体是根据研究目的确定的所要研究的同类事物的全体,是所要说明其数量特征的研究对象。
构成总体的个别事物就是总体单位。
总体单位的总数就是总体容量N。
在抽样估计中,用来反映总体数量特征的指标称之为总体指标,也叫总体参数。
从总体中抽取的部分总体单位所构成的整体就是一个总体的一个样本。
样本所包含的总体单位个数称之为样本容量n。
大样本与小样本。
n≥30与n<30。
抽取样本的目的就是要用样本特征去估计总体特征。
如何由于代表性误差的存在,关键在于如何科学地从总体中抽取样本、如何估计和控制代表性误差、怎样利用样本的特征去估计和推断总体的特征?
样本指标就是样本统计量,即估计量,是根据样本资料计算的、用以估计和推断相应总体指标的综合指标,它是随样本不同而不同的随机变量,抽取不同的样本就得到不同的估计量。
2.概率抽样与非概率抽样
随机抽样能有效避免主观选样带来的倾向性误差(系统偏差),使得样本资料能够用于估计和推断总体的数量特征,而且使这种估计和推断得以建立在概率论和数理统计的科学理论之上,可以计算和控制抽样误差,能够说明估计结果的可靠程度。
3.抽样框
目标总体,也就是理论上的抽样范围,常与实际抽样范围不一致。
抽样单位可以是各总体单位,也可以是总体单位的集合。
实际抽样的总体范围和抽样单位确定后我们才可以进行抽样。
抽样框是包括全部抽样单位的名单框架,它会直接影响到抽样调查的随机性和调查的效果。
抽样框有三种主要形式:
⏹名单抽样框。
列出全部总体单位的名单一览表。
⏹区域抽样框。
按地理位置将总体范围划分为若干区域,以小区域为抽样单位。
⏹时间表抽样框。
将全部总体单位按时间顺序进行排列,把总体的时间过程分为若干个小的时间单位,以此时间单位为抽样单位。
一个理想的抽样框应该与目标总体一致,即应包括全部总体单位,既不重复也不遗漏。
相关辅助变量信息的应用。
思考:
电话号码与城市居民!
4.抽样误差
登记性误差是在调查和汇总过程中由于观察、测量、登记、计算等方面的差错或被调查者提供虚假资料而千万的误差。
任何调查都可能产生。
代表性误差是指用样本指标推断总体指标时,由于样本结构与总体结构不一致、样本不能完全代表总体而生产的误差,有系统误差与随机误差两种。
系统误差是指由于非随机因素引起的样本代表性不足而产生的误差,偏差。
随机误差指遵循随机抽样原则,由于随机因素引起的代表性误差。
登记性误差和系统误差都可以尽量避免,而随机误差则是不可避免的。
⏹实际抽样误差。
样本估计值与总体参数的离差有一定的分布规律,所谓抽样误差可以控制和计算并不是指某次具体抽样的实际误差,而是指从所有可能样本来考察的抽样平均误差和抽样极限误差。
⏹抽样平均误差。
即样本估计量的标准差,也就是所有可能样本的估计值与总体参数的平均差异程度,反映了所有可能样本的实际抽样误差的一般水平。
抽样方差。
⏹抽样极限误差。
指一定概率下抽样误差的可能范围,允许误差。
抽样极限误差是抽样误差的可能范围而不是完全肯定范围,这个可能范围大小与估计这大小的概率紧密相关,这个概率就是置信度。
在其他条件不变的情况下,抽样极限误差越大,相应的置信度也越大。
抽样误差率与抽样估计精度。
仔细看书!
5.抽样分布
样本统计量是一种随机变量,它有若干可能取值(即可能样本指标数值),每个可能取值都有一定的可能性(概率),从而形成概率分布,即抽样分布(样本统计量的概率分布)。
精确分布和渐近分布。
当总体的分布类型已知,如果对任一自然数n都能导出统计量的分布的明显表达式,即精确方法,对小样本的统计推断问题特别有用。
当n≥30,人们可以借用中心极限定理用极限分布当作抽样分布的近似,即大样本方法,渐近分布。
正态分布最常用。
5.2估计总体均值:
大样本
这一节的主要目标是已知一个样本数据多于30个,讨论总体均值μ的估计值。
表5-1人体体温的均值真的是98.6℉吗?
98.6
98.6
98.0
98.0
99.0
98.4
98.4
98.4
98.4
98.6
98.6
98.8
98.6
97.0
97.0
98.8
97.6
97.7
98.8
98.0
98.0
98.3
98.5
97.3
98.7
97.4
98.9
98.6
99.5
97.5
97.3
97.6
98.2
99.6
98.7
99.4
98.2
98.0
98.6
98.6
97.2
98.4
98.6
98.2
98.0
97.8
98.0
98.4
98.6
98.6
97.8
99.0
96.5
97.6
98.0
96.9
97.6
97.1
97.9
98.4
97.3
98.0
97.5
97.6
98.2
98.5
98.8
98.7
97.8
98.0
97.1
97.4
99.4
98.4
98.6
98.4
98.5
98.6
98.3
98.7
98.8
99.1
98.6
97.9
98.9
98.0
98.7
98.5
98.9
98.4
98.6
97.1
97.9
98.8
98.7
97.6
98.2
99.2
97.8
98.0
98.4
97.8
98.4
97.4
98.0
97.0
通过我们在第三章所学的知识,我们从直方图上可以看出数据的分布大致呈正态分布;均值;标准差s=0.62℉;样本容量n=106;没有离群数。
我们一般认为人体体温是98.6℉,但上表似乎说明这个均值实际是98.20℉。
我们知道样本各有不同,所以可能人体体温的均值真的是98.6℉,而样本的均值x¯=98.20℉只是偶然的样本波动结果;另一方面,也可能样本均值98.20℉是正确的,我们通常所相信的98.6℉是错误的。
我们重申:
不仔细收集的数据绝对是毫无价值的,即使样本很大。
本节的样本是容量大于30个的简单随机样本。
估计值是指用来近似总体参数的特定数值或数值的范围。
点估计值是指用来近似总体参数的一个数值(点)。
样本均值x¯是总体均值μ的最优点估计值。
原因在于:
对于很多总体来说,样本均值的分布比其他样本统计量的分布有更好的一致性;对于所有的总体,样本均值是总体均值的一个无偏估计量,这意味着样本均值分布的中心趋近于总体均值的中心。
由于没有给出任何点估计值有多好的信息,点估计值是有严重缺陷的,统计学家们发现了另外一种估计值,它揭示了这个估计值好到什么程度的信息,这个估计值称作置信区间或区间估计,是由一些数值范围(区间)构成的,而不是仅仅由一个点所构成。
一个置信区间与一个置信度相联系。
置信度(1-α)告诉我们,有百分之多少(α)的时间,置信区间真的包含了总体参数。
当置信度为0.95时,α=0.05。
置信度最普遍的选择有90%,95%和99%。
这里有一个基于上表给出的106个体温样本值的置信区间的例子:
总体均值μ的0.95置信度下的置信区间为98.08℉<μ<98.32℉。
如何解释?
正确解释:
我们有95%的把握相信从98.08℉到98.32℉这个区间实际包含了μ的真实值。
这意味着如果我们要选择很多不同的容量为106的样本构建置信区间,则其中95%的区间将会实际包含总体均值μ的值。
用来估计μ的过程!
P96。
错误解释:
μ的真实值有95%的可能性将位于98.08℉到98.32℉间。
人体平均体温是一个固定的常数值,不是一个随机变量,μ要么落在这个范围内,要么不落在这个范围内,不涉及概率问题!
95%的置信水平告诉我们,最终我们正在使用的过程所产生的置信区间范围将有95%的时间包含μ。
临界值。
构建一个置信区间的必要条件是,我们找到了一个能够用来区分可能发生的样本统计量和不太可能发生的样本统计量的标准z值。
⏹由中心极限定理我们知道,样本均值趋于正态分布。
⏹样本均值落在图中两端区域之一的可能性相当小(用α表示这个概率)。
⏹将每个区域面积用α/2表示,我们看出,样本均值将落在这两个尾部区域中任何一个区域的概率是α。
⏹根据互补法则,样本均值落在中间区域中的概率是1-α。
⏹将右尾的区域分割出来的z值一般用zα/2表示,它指的就是一个临界值,因为它位于把可能发生的样本均值和不太可能发生的样本均值分开的边界线上。
课堂练习一:
分别计算对应于90%、95%和99%置信度的临界值zα/2。
误差限。
当用一个简单随机样本的数据估计一个总体均值时μ,误差限(就是抽样极限误差)是指观测的样本均值x¯与总体均值μ的真实值的最大可能(概率是1-α)差异,用E表示,也是估计值的最大误差。
E2=(zα/2σ)2/n
也就是说,样本均值的误差(和总体均值μ的差异)将不超过E的概率是1-α,样本均值的误差超过E的概率是α。
实际计算中我们并不知道总体。
如果n>30,我们可用样本标准差s来替代;n≤30,则总体必须服从正态分布,且我们必须知道σ的值。
总体均值μ的置信区间(基于大样本:
n>30):
x¯-E<μ<x¯+E
课堂练习二:
对于人体体温,请使用95%的置信度计算下面两个问题:
误差限和μ的置信区间。
由一个置信区间计算点估计值和E。
已知一个置信区间,要以计算μ的点估计值和E:
x¯=[(置信区间的上界)+(置信区间的下界)]/2
E=[(置信区间的上界)﹣(置信区间的下界)]/2
我们要注意的是计算置信区间的基础是中心极限定理。
实例一:
书例5-4;例5-5。
实例二:
柯达AA电池的寿命(单位:
分钟)的95%置信区间是430<μ<470。
假设这个结果是根据一个容量为100的样本得出的。
①样本均值的值是多少?
②样本标准差是多少?
③构建99%的置信区间;④如果置信区间432<μ<468是从相同的样本数据得出的,置信度是多少?
5.3估计总体均值:
小样本
实际生活中经常要求我们处理一个小样本。
本节的假设是样本是一个容量不大于30的简单随机样本,且其总体服从于一个正态分布。
样本均值x¯是总体均值μ的最好的点估计值。
本节我信讨论置信区间估计时要考虑两种情况:
⏹情形一:
σ是已知的。
在很大程度上讲不太现实。
因为我们是不知道总体均值而要估计这个值,我们也不知道总体标准差σ。
若我们知道σ,则我们可像第二讲一样加以计算置信区间。
⏹情形二:
σ是未知的。
这种情况下,我们不用正态分布,而用W.戈塞特(1876--1937)提出的学生t分布。
学生t分布:
如果总体的分布基本上是正态的(大致钟形),则对于所有的容量为n的样本,分布t=(x¯-μ)/(s/n½)基本上就是一个t分布。
就是t分布,可用来计算以tα/2表示的临界值。
学生t分布有以下重要性质:
⏹不同样本容量的t分布也有不同。
看图5-2。
⏹t分布和标准正态分布有相同的大致钟形形状,但对于小样本,它显示出更大的方差(分布更宽)。
⏹t分布的均值为t=0。
⏹t分布的标准差随着样本容量的变化而变化,但它是大于1的。
⏹随着样本容量n的增大,t分布趋近于标准正态分布。
n>30后两者之间的差异很小了。
总结一下,使用t分布的条件是:
样本是小样本(n≤30);σ是未知的;样本所来自的总体基本上是正态的。
一个数据集的自由度是指在一定的条件限制到所有的数据值以后,样本数值能够发生变化的数量。
一般地让自由度=n-1。
课堂练习三:
一个容量为n=15的样本是一个正态分布的总体中选出的简单随机样本。
计算对应于95%置信度的临界值tα/2。
基于未知的σ和来自正态分布总体的小简单随机样本(n≤30),E=tα/2(s/n½),x¯-E<μ<x¯+E。
课堂练习四:
因为在大雪过后,心脏病死亡人数呈上升趋势,因此一项研究就被设计用来比较铲雪的心脏需求和使用电动扫雪机的心脏需求。
10名测试对象使用两种方法来清扫积雪的路面,在使用这两种方法扫雪时,他们的最大心率被记录下来。
下面的结果是在实验中铲雪部分的心率结果,基本上满足钟形分布。
在人工铲雪时的最大心率:
n=10,x¯=175,s=15。
对于那些铲雪的人,计算其总体均值的95%的置信区间估计。
总结一下:
如何选择恰当的分布。
5.4估计总体均值μ所需的样本容量
当我们打算收集一个简单随机数据样本以用于估计一个总体均值μ时,必须要收集多少个样本数据?
也就是样本容量是多少?
确定一个简单随机样本的容量是一个非常重要的问题,因为没有必要的扩大样本会浪费时间和资金,而样本太小又可能导致没有价值的结果。
在很多情况下我们可以计算估计某个参数,如总体均值所需要的最小样本容量。
估计总体均值μ所需要的样本容量:
n=[zα/2σ/E]2
可见,样本容量不依赖于总体容量N;样本容量依赖于想要达到的置信度、误差项和标准差的取值。
样本容量必须是整数,要足够大。
实例三:
假设我们想要估计大学本科生的身高。
如果我们想要有95%的把握相信样本均值位于总体均值附近2个身高单位范围内。
必须要随机选择多少名学生进行身高测试。
设σ=15。
如果σ未知怎么办?
我们可使用范围经验法则来估计标准差或一些以前所做过的其他研究。
课堂练习五:
你计划要估计一个大学的教科书的平均销售价格。
如果你想要有99%的把握相信,样本均值落在真实的总体均值附近3元的范围内,你必须抽取多少本教科书?
5.5估计总体比例
估计比例。
这里有三个重要假设:
样本是一个简单随机样本;二项分布的条件成立;np≥5和nq≥5成立,所以正态分布可以用来估算样本比例的分布。
样本比例是总体比例p的最好的点估计值。
我们也需要一个能告诉我们该估计有多么准确的估计量,这就是置信区间。
P-E<p<P+E,E=zα/2[PQ/n]½
实例四:
人们会在投票选举中撒谎吗?
在一项对1002人的调查中,701人他们在最近的总统选举中投了票。
选举的记录表明,有61%的合格选民实际投了票。
使用这个调查结果,①计算那些说他们投了票的人的点估计值;②计算那些说他们投了票的人的比例的95%置信区间;③确定调查结果和61%的实际选举人投票结果是否一致?
正确解释:
我们有95%的把握相信从0.671到0.728的区间实际包含了p的真实值。
错误解释:
p的真实值将落在0.671和0.728之间的可能性是95%。
确定样本容量。
⏹当估计值已知时,有n=[zα/2/E]2PQ。
⏹当估计值未知时,有n=[zα/2/E]20.25。
课堂练习六:
E经济时代有一个社会学家想要确定当前美国家庭中使用电子邮件的百分比。
要想有90%的把握相信样本百分比的误差没有超过个百分点,必须要调查多少户家庭。
实际上这个公式广泛地被尼尔森、盖洛普等专业公司所使用。
要注意的是样本容量与总体容量无关!
从一个已知置信区间计算点估计值和E。
P=[(置信区间的上界)+(置信区间的下界)]/2
E=[(置信区间的上界)﹣(置信区间的下界)]/2
5.6估计总体方差
这里的样本是一个总体服从正态分布(不论样本容量多大)的简单随机样本。
在推导出方差和标准差的估计值时,我们要使用卡方分布。
在一个方差为σ2正态分布总体中,我们随机选择了一些容量为n的独立样本,并算出每个样本的样本方差s2。
样本统计量χ2=(n-1)s2/σ2服从的分布称为卡方分布。
自由度=n-1。
⏹与正态分布和t分布不同,卡方分布不是对称的。
不过自由度增加时变得更加对称。
⏹卡方的值可是0或正数,但他们不能是负数。
⏹对于每个自由度的取值,卡方分布是不同的。
当自由度的数值增加时,卡方分布趋近于正态分布。
临界值计算。
由于不对称,我们须分别计算置信区间的上界和下界。
课堂练习七:
计算χ2的临界值,以确定包含有每个尾部的面积为0.025的临界区域。
设相应有样本容量为10,这样自由度的数值就是9。
看图和查表。
σ2的估计量。
样本方差s2是总体方差σ2的最好的点估计。
样本标准差s一般用来作为σ的一个点估计值。
总体方差σ2的置信区间。
(n-1)s2/χ2R<σ2<(n-1)s2/χ2L
实例五:
构建整个总体的人体体温标准差的95%的置信区间估计。
确定样本容量。
计算估计σ2所需的样本容量比较复杂,一般我们用下表来提供样本容量。
σ2的样本容量
σ的样本容量
要有95%的置信度
s2位于
σ2的值的范围内,样本容量n至少是
要有95%的置信度
s位于
σ的值的范围内,样本容量n至少是
1%
77207
1%
19204
5%
3148
5%
767
10%
805
10%
191
20%
210
20%
47
30%
97
30%
20
40%
56
40%
11
50%
37
50%
7
要有99%的置信度
s2位于
σ2的值的范围内,样本容量n至少是
要有99%的置信度
s位于
σ的值的范围内,样本容量n至少是
1%
133448
1%
33218
5%
5457
5%
1335
10%
1401
10%
335
20%
368
20%
84
30%
171
30%
37
40%
100
40%
21
50%
67
50%
13
课堂练习八:
在95%的置信度下,你想要估计10%以内的σ。
你的样本应该有多大?
假设总体是正态分布的。
n=191。