统计学之抽样与抽样估计概述3.pptx

资源描述

统计学之抽样与抽样估计概述3.pptx

《统计学之抽样与抽样估计概述3.pptx》由会员分享，可在线阅读，更多相关《统计学之抽样与抽样估计概述3.pptx（57页珍藏版）》请在冰点文库上搜索。

统计学之抽样与抽样估计概述3.pptx

第九章抽样与抽样估计,第1节抽样与抽样分布一、有关抽样的基本概念,总体（Population）研究对象的全体称为总体样本（子样）（Sample）从总体中抽取一部分个体进行试验或观察，这种从总体中抽取个体的行为称为抽样。

而从总体中抽样所得的一部分个体叫样本总体参数（Populationparameter）描述总体分布特征的数值样本统计量（Samplestatistic）,抽样方法,重置抽样（重复抽样）（Samplingwithreplacement）要从总体N个单位中随机抽取一个容量为n的样本，每次从总体中抽取一个单位，把顺序号登记下来之后，重新放回参加下一次抽选，连续反复抽取n次组成所要求容量的样本。

不重置抽样（不重复抽样）（Samplingwithoutreplacement）要从总体N个单位中随机抽取一个容量为n的样本，每次从总体中抽取一个单位，被抽中的单位不再放回参加下一次抽选，连续进行次便组成样本。

不重复抽样所得样本对总体的代表性较大，抽样误差较小，所以实践中通常采用不重复抽样。

抽样的组织方式,简单随机抽样：

从总体中抽取样本最常用的方法。

从容量为N的总体中进行抽样，如果容量为n的每个可能样本被抽到的可能性相等，则称容量为n的样本为简单随机样本。

分层抽样：

也称分类抽样或类型抽样，它是按某个主要标志对总体各单位进行分类，然后从各层中按随机原则分别抽取一定数目的单位构成样本。

整群抽样：

也称丛聚抽样或集团抽样。

它是将总体分为若干部分（每一部分称为一个群），然后按随机原则从中一群一群地抽选，对抽中群内的所有单位进行全面调查。

系统抽样也称机械抽样。

它是先将总体单位按一定顺序排队，计算出抽样间隔（或抽样距离），然后按固定的顺序和间隔抽取样本单位。

总体分布（populationdistribution）,样本分布（sampledistribution）,一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时，样本分布逐渐接近总体的分布,二、抽样分布（Samplingdistribution）1、抽样分布的意义,对统计量的所有可能取值及其对应概率的描述，就是统计量的抽样分布，即抽样分布。

抽样分布反映样本统计量的分布特征，根据抽样分布的规律，可揭示样本统计量与总体参数之间的关系，计算抽样误差，并说明抽样推断的可靠程度。

抽样误差：

误差,登记性误差,代表性误差,系统性误差,随机性误差,登记性误差是指在调查和汇总过程中由于观察、测量、登记、计算等方法的差错或被调查者提供虚假资料而造成的误差。

任何一种统计调查都可能产生登记性误差。

代表性误差是指用样本指标推断总体指标时，由于样本结构与总体结构不一致、样本不能完全代表总体而产生的误差。

系统性误差是指由于非随机因素引起的样本代表性不足而产生的误差，表现为样本估计量的值系统偏低或偏高。

随机性误差又称偶然性误差，是指遵循随机原则抽样，由于随机因素（偶然性因素）引起的误差。

抽样估计中的所谓抽样误差，就是指的这种随机误差。

抽样误差,登记性误差：

存在于一切调查中代表性误差：

仅产生于抽样调查，不可避免。

代表性误差抽样误差在实际一次调查中是调查不出来的，但其平均值是可以推算的,系统性误差：

不随样本量增减而变化,随机误差（抽样误差）：

随样本量增大而减小,抽样平均误差和抽样极限误差,抽样平均误差：

所有可能的样本指标与总体指标间的平均差异程度。

抽样极限误差,样本指标与总体指标之间允许的误差范围叫抽样极限误差。

也称抽样允许误差。

它是样本指标可允许变动的上限或下限与总体指标之差的绝对值。

即：

落在总体均值某一区间内的样本,大数定律及中心极限定理,重复抽样：

（1）总体是正态分布，样本必然是正态分布

（2）样本平均数的平均数等于总体平均数（3）样本平均数的方差等于总体方差除以样本容量n（4）n越大，样本平均数越趋近于正态分布,例：

样本均值的抽样分布,【例】设一个总体，含有4个元素（个体），即总体单位数N=4。

4个个体分别为X1=1、X2=2、X3=3、X4=4。

总体的均值、方差及分布如下,均值和方差,现从总体中抽取n2的简单随机样本，在重复抽样条件下，共有4*4=16个样本。

所有样本的结果为,计算出各样本的均值，如下表。

并给出样本均值的抽样分布,样本均值的分布与总体分布的比较,=2.52=1.25,总体分布,大数定律及中心极限定理,不重复抽样：

（1）总体是正态分布，样本必然是正态分布

（2）样本平均数的平均数等于总体平均数（3）样本平均数的方差等于总体方差除以样本容量n（4）n越大，样本平均数越趋近于正态分布,抽样平均误差

（1）均值重复抽样：

不重复抽样：

抽样平均误差

（1）比例重复抽样：

不重复抽样：

影响抽样误差大小的因素是：

总体被研究标志的变异程度。

在其他条件不变的情况下，总体标志的变异程度愈小，则抽样误差也愈小；总体标志的变异程度愈大，则抽样误差也愈大。

抽样单位数的多少。

在其他条件不变的情况下，抽样单位数愈多，抽样误差愈小；抽样单位数愈少，抽样误差愈大。

抽样的方法。

在其他条件不变的情况下，重复抽样的抽样误差大于不重复抽样。

抽样的组织形式。

抽样误差的大小与样本单位数的平方根成反比：

如果抽样误差要减少二分之一，则样本单位数必须增大到4倍。

例、从某校1000名学生中简单随机抽取50名学生，称得平均体重为50千克，若已知总体标准差为10千克，计算重复抽样及不重复抽样下抽样平均误差。

解：

重复抽样条件下，不重复抽样条件下，在样本量相同的情况下，不重复抽样的平均误差要小于重复抽样的平均误差。

第3节总体平均数和总体比例的估计,抽样估计必须包括三要素：

1）估计值2）估计值的误差范围3）概率保证程度（置信度）,一、点估计（Pointestimate）点估计也称定值估计，常用点估计方法有矩估计，极大似然估计。

样本均值是总体均值的点估计量，样本方差s2是总体方差2的点估计量，样本比例p是总体比例P的点估计量。

优良估计量的标准：

无偏性有效性一致性,区间估计就是根据样本求出总体未知参数的估计区间，并使其可靠程度达到预定要求。

（1）总体方差2已知时由于，所以对于给定的置信度1-，有即可见，极限误差的计算公式为则总体均值的置信区间为,例：

从某大学学生中随机抽取100名调查体重情况。

经称量和计算，得到平均体重为58千克。

根据过去的资料知道大学生体重的标准差是10千克。

在95%的置信水平下，求该大学学生平均体重的置信区间。

解：

已知=58，=10，z/2=1.96，n=100=10/10=1（千克）=1.961=1.96（千克）置信下限为58-1.96=57.04，置信上限为58+1.96=59.96故所求置信区间为（57.04，59.96）千克。

（2）总体方差2未知时,由于t（n-1），对于给定的置信度1-，有置信下限置信上限在大样本下，总体均值的置信区间为,例：

某保险公司投保人年龄设某保险公司投保人年龄呈正态分布，现从中抽取10人，其年龄分别为：

32，50，40，24，33，44，45，48，44，47岁。

试以95%的置信水平估计该保险公司投保人的平均年龄。

解：

当置信度为95%时，=2.26222.6544=6.00（岁）因为40.7-6.00=34.740.7+6.00=46.7所以该保险公司投保人的平均年龄的置信区间为（34.7，46.7）岁。

总体比例的区间估计,在大样本条件下，若np5，n（1-p）5，则样本比例趋近于正态分布。

对于给定置信度，有总体比例的置信区间为小样本条件下，不作介绍。

例：

总体比例的区间估计,【例】某城市想要估计下岗职工中女性所占的比例，随机抽取了100个下岗职工，其中65人为女性职工。

试以95%的置信水平估计该城市下岗职工中女性比例的置信区间,解：

已知n=100，p65%,1-=95%，z/2=1.96,该城市下岗职工中女性比例的置信区间为55.65%74.35%,例：

某厂对一批产品进行质量检验，随机重复抽取样品100只，样本合格品率为95，试计算把握程度为90的合格品率置信区间。

解：

已知n=100，p=95%，1-=90%，查表得z/2=1.96=0.0218p=z/2=1.960.0218=0.0359或3.59%95%-3.59%=91.41%，95%+3.59%=98.59%故该批产品合格率的置信区间为（91.41%,98.59%）,第5节样本容量的确定,在重复抽样下，所以，必要抽样单位数在不重复抽样下，必要抽样单位数,例：

某市进行职工家庭生活费抽样调查，已知职工家庭平均每人每月生活费收入的标准差为110元，允许误差范围10元，概率把握程度95%，试确定应抽选的户数。

解：

【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元，假定想要估计年薪95%的置信区间，希望边际误差为400元，应抽取多大的样本容量？

解：

影响必要抽样数目的因素,

（1）允许误差范围。

当其它条件不变时，允许误差愈小，必要的抽样单位数就需要愈多；反之，允许误差愈大，抽样单位数就可以愈少。

（2）总体方差2。

其他条件不变的情况下，总体方差2愈大，总体单位的差异程度愈大，则样本单位数应愈多；反之，样本单位数可愈少。

（3）抽样估计的可靠程度1-。

当其他条件不变时，抽样估计的可靠程度愈高，z/2数值愈大，抽样数目就必须愈多；反之，抽样估计的可靠程度愈低，抽样数目就可以愈少。

（4）抽样方法。

相同条件下，由于采用重复抽样比不重复抽样的误差大，所以，前者应比后者多抽一些样本单位。

除上述因素之外，抽样组织方式也是影响抽样单位数的一个原因。

本章小结,总体分布、样本分布、抽样分布单总体参数推断时样本统计量的分布参数估计的一般问题一个总体参数的区间估计样本容量的确定,期末考试大纲,第九章抽样与抽样估计抽样调查中的基本概念；总体均值与成数的简单估计；必要样本量的计算不作考试要求。

知识重点：

抽样方法重置抽样不重置抽样注意：

不重复抽样所得样本对总体的代表性较大，抽样误差较小，所以实践中通常采用不重复抽样。

抽样的组织方式,简单随机抽样：

分层抽样：

整群抽样：

系统抽样也称机械抽样。

误差：

误差,登记性误差,代表性误差,系统性误差,随机性误差,抽样平均误差

（1）均值重复抽样：

不重复抽样：

抽样平均误差

（2）比例重复抽样：

不重复抽样：

影响抽样误差大小的因素是：

总体被研究标志的变异程度。

抽样单位数的多少。

抽样的方法。

抽样的组织形式。

（1）总体方差2已知时总体均值的置信区间为,区间估计,其中极限误差为,

（2）总体方差2未知时,总体均值的置信区间为其中极限误差为,总体比例的区间估计,总体比例的置信区间为,第5节样本容量的确定,在重复抽样下，所以，必要抽样单位数在不重复抽样下，必要抽样单位数,影响必要抽样数目的因素,

（1）允许误差范围。

当其它条件不变时，允许误差愈小，必要的抽样单位数就需要愈多；反之，允许误差愈大，抽样单位数就可以愈少。

（2）总体方差2。

其他条件不变的情况下，总体方差2愈大，总体单位的差异程度愈大，则样本单位数应愈多；反之，样本单位数可愈少。

（3）抽样估计的可靠程度1-。

当其他条件不变时，抽样估计的可靠程度愈高，z/2数值愈大，抽样数目就必须愈多；反之，抽样估计的可靠程度愈低，抽样数目就可以愈少。

（4）抽样方法。

相同条件下，由于采用重复抽样比不重复抽样的误差大，所以，前者应比后者多抽一些样本单位。

除上述因素之外，抽样组织方式也是影响抽样单位数的一个原因。

练习：

某电子元件厂生产A型号的电子管，现从10000件产品中，抽取100件进行检验，结果是60件合格。

计算合格品率的抽样平均误差。

练习：

对一批电子元件进行耐用性能的检查，随机重置抽样方法选取100件作耐用测试，所得结果的分组资料如下：

要求：

在95.45%的可靠程度下对该批电子元件的平均耐用时数作出估计。

概率保证程度为95.45%，t值为2。

估计区间的下限：

1055.510.38=1045.12小时估计区间的上限：

1055.510.38=1065.88小时所以，这批电子元件的平均耐用时数在1045.12小时至1065.88小时之间，可靠程度为95.45%。

以上例的资料，设电子元件的耐用时间在1000小时及以上为合格品，以95.45%的概率估计该批电子元件的合格率。

区间估计：

估计的下限：

91%5.72%=85.28%估计的上限：

91%5.72%=96.72%所以，这批电子元件的合格品率在85.28%至96.72%之间，可靠程度为95.45%。

近2年期末试题（计算题）,1、某企业采用简单随机重复抽样，在1000件产品中抽查200件，其中不合格品10件，要求：

（1）求抽样平均误差；（5分）

（2）以95.45%的置信度对该批产品不合格率进行区间估计。

（5分）,2、某企业有1500个工人，用简单随机重复抽样的方法抽出50个工人作为样本，调查其产量水平，资料如下，根据以前经验，标准差为35，要求：

（1）计算样本平均数和抽样平均误差。

（5分）

（2）94.45%的可靠性估计该厂工人的月平均产量的区间。

（5分）,

展开阅读全文