第五章抽样与参数估计.pptx

资源描述

第五章抽样与参数估计.pptx

《第五章抽样与参数估计.pptx》由会员分享，可在线阅读，更多相关《第五章抽样与参数估计.pptx（99页珍藏版）》请在冰点文库上搜索。

第五章抽样与参数估计.pptx

STAT第五章抽样与参数估计5.1理论基础与中心极限定理5.2常用的抽样方法5.3抽样分布5.4参数估计的方法STAT参数估计的理论基础STAT大数定律贝努利大数定律皮尔逊皮尔逊蒲丰德摩根实验者罗曼诺夫斯基18-1918-19世纪几个有名的“抛硬币”试验世纪几个有名的“抛硬币”试验404820480.5069204810610.51811200060190.501624000120120.500580640396990.4923AnnnxSTAT大数定律贝努利大数定律设是n次独立试验中事件A发生的次数，即事件A发生的频率；p表示事件在每次试验中发生的概率，则对于任意正数有An1limpnnPAnSTAT切比雪夫大数定律设设是相互独立的随机变是相互独立的随机变量序列，并且和均存在，量序列，并且和均存在，同时存在常数同时存在常数C，使，使C，则对任意的，则对任意的0，有，有,21nXXXiEXiDX,2,1iiDX,2,1i1）（11lim11niininXEnXnPiSTAT大数定律的意义样本均值趋近于总体均值但是如何确定样本均值和总体均值之差，这需要引入“中心极限定理”。

STAT中心极限定理STAT中心极限定理（centrallimittheorem）当样本容量足够大时（n30），样本均值的抽样分布逐渐趋于正态分布中心极限定理：

中心极限定理：

设从均值为，方差为2的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为、方差为2/n的正态分布一个任意分布的总体xnxxSTAT棣莫弗-拉普拉斯定理正态分布是二项分布的极限分布如果np=5，并且n（1-p）=5，则二项随机变量之和服从近似的正态分布，其均值和标准差为np）1（pnpSTAT中心极限定理（centrallimittheorem）x的分布趋的分布趋于正态分布于正态分布的过程的过程STAT5.2常用的抽样方法一、简单随机抽样一、简单随机抽样二、分层抽样二、分层抽样三、系统抽样三、系统抽样四、整群抽样四、整群抽样STAT抽样方法简单随机抽样分层抽样整群抽样系统抽样多阶段抽样概率抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样非概率抽样抽样方式STAT非概率抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样STAT非概率抽样的缺点经典案例1936年美国文学文摘对总统大选结果的预测调查。

文学文摘在大选前按照电话号码簿以及汽车牌照登记簿上的地址，寄出了1000万张模拟选票，共回收了230万张，结果显示57%的人投票给兰登，43%的人投给罗斯福。

后来罗斯福却以62.5%的选票当选，连任总统。

STAT“自愿者抽样”不具代表性杜蕾斯公司全球性调查报告称：

世界范围内每人平均拥有10.5个性伴侣，中国人的平均性伴侣为19.3个。

人们对其调查方法和结果产生了强烈的质疑。

原来杜蕾斯公司采用的抽样方法是“自愿者抽样”。

目前比较流行的一种调查方法，结果虽然有时很有震撼力，但它只能代表那些积极分子。

STAT概率抽样（probabilitysampling）1.根据一个已知的概率来抽取样本单位，也称随机抽样2.特点抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的，或是可以计算出来的STAT简单随机抽样（simplerandomsampling）1.从总体N个单位中随机地抽取n个单位作为样本，使得每一个容量为样本都有相同的机会（概率）被抽中2.抽取元素的具体方法有重复抽样和不重复抽样3.特点简单、直观，在抽样框完整时，可直接从中抽取样本4.局限性当N很大时，不易构造抽样框抽出的单位很分散，给实施调查增加了困难STAT分层抽样（stratifiedsampling）1.将总体单位按某种特征或某种规则划分为不同的层或类型，然后从不同的层中独立、随机地抽取样本2.分层标准：

层级差异尽可能大，层内差异尽可能小3.等比例分层抽样4.不等比例分层抽样根据每层的变异程度选取样本量STAT分层抽样优点保证样本的结构与总体的结构比较相近，从而提高估计的精度组织实施调查方便既可以对总体参数进行估计，也可以对各层的目标量进行估计STAT系统抽样（systematicsampling）1.将总体中的所有单位（抽样单位）按一定顺序排列，在规定的范围内随机地抽取一个单位作为初始单位，然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位，以后依次取r+k，r+2k等单位2.优点：

操作简便，可提高估计的精度STAT整群抽样（clustersampling）1.将总体中若干个单位合并为组（群）,抽样时直接抽取群，然后对中选群中的所有单位全部实施调查2.特点抽样时只需群的抽样框，可简化工作量调查的地点相对集中，节省调查费用，方便调查的实施缺点是估计的精度较差STAT5.2抽样分布STAT抽样分布（samplingdistribution）1.样本统计量的概率分布在重复选取容量为n的样本时，由该统计量的所有可能取值形成的相对频数分布2.随机变量是样本统计量样本均值,样本比例，样本方差等3.结果来自容量相同的所有可能样本4.提供了样本统计量长远而稳定的信息，是进行推断的理论基础，也是抽样推断科学性的重要依据STAT抽样分布的形成过程（samplingdistribution）总体计算样本统计计算样本统计量量如：

样本均如：

样本均值、比例、方值、比例、方差差样本STAT样本均值的抽样分布STAT样本均值的抽样分布1.在重复选取容量为n的样本时，由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值的理论基础STAT样本均值的抽样分布（例题分析）【例】【例】设一个总体，含有4个元素（个体），即总体单位数N=4。

4个个体分别为x1=1，x2=2，x3=3，x4=4。

总体的均值、方差及分布如下总体分布总体分布14230.1.2.3均值和方差均值和方差5.21NxNii25.1）（122NxNiiSTAT样本均值的抽样分布（例题分析）现从总体中抽取现从总体中抽取n2的简单随机样本，在重复的简单随机样本，在重复抽样条件下，共有抽样条件下，共有42=16个样本。

所有样本的结果个样本。

所有样本的结果为为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第二个观察值第一个第一个观察值观察值所有可能的所有可能的n=2的样本（共的样本（共16个）个）STAT样本均值的抽样分布（例题分析）计算出各样本的均值，如下表。

并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察观察值值16个样本的均值（个样本的均值（x）x样本均值的抽样分布样本均值的抽样分布1.000.10.20.3P（x）1.53.04.03.52.02.5STAT样本均值的抽样分布（数学期望与方差）比较及结论：

比较及结论：

1.样本均值的均值（数学期望）等于总体均值2.样本均值的方差等于总体方差的1/n为样本数目MnMxnixix222122625.016）5.20.4（）5.20.1（）（5.2160.45.10.11MxniixSTAT样本均值的分布与总体分布的比较（例题分析）=2.52=1.25总体分布总体分布14230.1.2.3抽样分布抽样分布P（x）1.00.1.2.31.53.04.03.52.02.5x5.2x625.02xSTAT样本均值的抽样分布（数学期望与方差）1.样本均值的数学期望2.样本均值的方差）（xEnx22STAT应用例5.1BTL商店的经理担心供货商给他的电视质量低于平均水平。

他的研究表明电视机置换时间的均值为8.2年，标准差为1.1年。

然后他随机抽取50台过去售出的电视机，发现这些电视机平均置换时间为7.8年。

计算这50个随机抽取的电视机的平均置换时间为7.8年或更短的概率。

STAT问题的关键在于得到样本均值的分布样本均值的均值样本均值的标准差2.8501.1nSTAT7.88.2STAT5713.2155563.04.0501.12.88.7/nxz9949.0）（zF0051.0）9949.01）5713.2z

（1）8.7（PxPSTAT例5.2娱乐报道杂志发起了一项旨在增加订阅的有奖活动。

在过去，收到有奖活动参与材料的人中有26%最终参与了竞赛，订阅了杂志。

当有奖活动的参与材料发放给500个随机挑选的住户时，估计新增订阅结果的数量在125150（包括125和150）的概率。

STAT与总体分布有关总体为正态分布，抽样分布也为正态，与样本容量无关与样本量有关总体不是正态分布，样本量越大（n=30），抽样分布越接近正态分布的分布形式xSTAT抽样分布与总体分布的关系总体分布总体分布正态分布正态分布非正态分布非正态分布大样本小样本正态分布正态分布正态分布正态分布非正态分布非正态分布STAT样本均值的抽样分布=50=10X总体分布总体分布n=4抽样分布抽样分布xn=16当总体服从正态分布N（,2）时，来自该总体的所有容量为n的样本的均值x也服从正态分布，x的数学期望为，方差为2/n。

即xN（,2/n）5x50x5.2xSTAT抽样分布的作用总体分布与抽样分布的关系假设不知道总体的分布，如何估计总体的参数？

通过抽样分布估计总体参数参数估计STAT5.4参数估计5.4.1参数估计的一般问题5.4.2一个总体参数的区间估计5.4.3两个总体参数的区间估计5.4.4样本容量的确定STAT学习目标1.估量估的念计与计值概2.点估估的计与区间计区别3.价估量良性的准评计优标4.一体的估方法个总参数区间计5.体的估方法两个总参数区间计6.本容量的确定方法样STAT统计推断的过程样本总体样本统计量样本统计量如：

样本均值、比率、方差总体均值、比率、方差等总体均值、比率、方差等STAT5.1参数估计的一般问题一、估量估计与计值二、点估估计与区间计三、价估量的准评计标STAT1.估计量：

用于估计总体参数的随机变量如样本均值，样本比率、样本方差等例如:

样本均值就是总体均值的一个估计量2.参数用表示，估计量用表示3.估计值：

估计参数时计算出来的统计量的具体值如果样本均值x=80，则80就是的估计值估计量与估计值（estimator&estimatedvalue）STAT参数估计的方法估计方法估计方法点估计点估计区间估计区间估计STAT点估计（pointestimate）1.用样本的估计量直接作为总体参数的估计值例如：

用样本均值直接作为总体均值的估计例如：

用两个样本均值之差直接作为总体均值之差的估计2.没有给出估计值接近总体参数程度的信息3.点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等STAT区间估计（intervalestimate）1.在点估计的基础上，给出总体参数估计的一个区间范围，该区间由样本统计量加减抽样误差而得到的2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如，某班级平均分数在7585之间，置信水平是95%样本统计量样本统计量（点估计点估计）置信区间置信区间置信下限置信下限置信上限置信上限STAT区间估计的图示x95%的样本的样本-1.96x+1.96x99%的样本的样本-2.58x+2.58x90%的样本的样本-1.65x+1.65xxxzx2STAT1.将构造置信区间的步骤重复很多次，置信区间包含总体参数真值的次数所占的比率称为置信水平2.表示为（1-为是总体参数未在区间内的比率3.常用的置信水平值有99%,95%,90%相的应为0.01，0.05，0.10置信水平STAT1.由样本统计量所构造的总体参数的估计区间称为置信区间2.统计学家在某种程度上确信这个区间会包含真正的总体参数，所以给它取名为置信区间3.用一个具体的样本所构造的区间是一个特定的区间，我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个，但它也可能是少数几个不包含参数真值的区间中的一个置信区间（confidenceinterval）STAT置信区间与置信水平样本均值的抽样分布样本均值的抽样分布（1-）%区间包含了区间包含了%的区间未包含的区间未包含1aaaa/2aa/2xxxSTAT影响区间宽度的因素1.总体数据的离散程度，用来测度2.样本容量，3.置信水平（1-），影响z的大小nxSTAT评价估计量的标准STAT无偏性（unbiasedness）无偏性：

估计量抽样分布的数学期望等于被估计的总体参数P（）BA无偏无偏有偏有偏STAT有效性（efficiency）有效性：

有效性：

对同一总体参数的两个无偏点估计量，有更小标准差的估计量更有效AB的抽样分布的抽样分布的抽样分布的抽样分布P（）12STAT一致性（consistency）一致性：

随着样本容量的增大，估计量的值越来越接近被估计的总体参数AB较小的样本容量较小的样本容量较大的样本容量较大的样本容量P（）STAT5.2一个总体参数的区间估计一、体均的估总值区间计二、体比率的估总区间计三、体方差的估总区间计STAT一个总体参数的区间估计体总参数符表示号本量样统计均值比率方差2xp2sSTAT总体均值的区间估计（大样本）STAT总体均值的区间估计（大样本）1.假定条件总体服从正态分布,且方差（）已知或未知如果不是正态分布，可由正态分布来近似（n30）2.使用正态分布统计量z3.3.总体均值总体均值在在1-置信水平下的置信区间为置信水平下的置信区间为）1,0（Nnxz）（22未知或nszxnzxSTAT总体均值的区间估计（例题分析）【例】一家食品生产企业以生产袋装食品为主，为对产量质【例】一家食品生产企业以生产袋装食品为主，为对产量质量进行监测，企业质检部门经常要进行抽检，以分析每袋重量进行监测，企业质检部门经常要进行抽检，以分析每袋重量是否符合要求。

现从某天生产的一批食品中随机抽取了量是否符合要求。

现从某天生产的一批食品中随机抽取了2525袋，测得每袋重量如下表所示。

已知产品重量的分布服从正袋，测得每袋重量如下表所示。

已知产品重量的分布服从正态分布，且总体标准差为态分布，且总体标准差为10g10g。

试估计该批产品平均重量的。

试估计该批产品平均重量的置信区间，置信水平为置信区间，置信水平为95%95%25袋食品的重量112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3STAT总体均值的区间估计（例题分析例题分析）解：

解：

已知N（，102），n=25,1-=95%，z/2=1.96。

根据样本数据计算得：

总体均值在1-置信水平下的置信区间为该食品平均重量的置信区间为该食品平均重量的置信区间为101.44g109.28g28.109,44.10192.336.105251096.136.1052nzx36.105xSTAT总体均值的区间估计（例题分析）【例】一家保险公司收集到由【例】一家保险公司收集到由3636投保个人组成的随投保个人组成的随机样本，得到每个投保人的年龄机样本，得到每个投保人的年龄（周岁周岁）数据如下数据如下表。

试建立投保人年龄表。

试建立投保人年龄90%90%的置信区间的置信区间36投保人年的据个龄数233539273644364246433133425345544724342839364440394938344850343945484532STAT总体均值的区间估计（例题分析）解：

解：

已知n=36,1-=90%，z/2=1.645。

根据样本数据计算得：

总体均值在1-置信水平下的置信区间为投保人平均年龄的置信区间为37.37岁41.63岁63.41,37.3713.25.393677.7645.15.392nszx5.39x77.7sSTAT总体均值的区间估计（小样本）STAT总体均值的区间估计（小样本）1.假定条件总体服从正态分布,且方差（）未知小样本（n30）2.使用t分布统计量3.总体均值在1-置信水平下的置信区间为）1（ntnsxtnstx2STATt分布t分布是类似正态分布的一种对称分布，它通常要比正态分布平坦和分散。

一个特定的分布依赖于称之为自由度的参数。

随着自由度的增大，分布也逐渐趋于正态分布xt分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t（df=13）t（df=5）zSTAT总体均值的区间估计（例题分析）【例】【例】已知某种灯泡的寿命服从正态分布，现从一批灯泡中随机抽取16只，测得其使用寿命（小时）如下。

建立该批灯泡平均使用寿命95%的置信区间16灯泡使用命的据寿数1510152014801500145014801510152014801490153015101460146014701470STAT总体均值的区间估计（例题分析）解：

解：

已知N（，2），n=16,1-=95%，t/2=2.131根据样本数据计算得：

，总体均值在1-置信水平下的置信区间为该种灯泡平均使用寿命的置信区间为1476.8小时1503.2小时2.1503,8.14762.1314901677.24131.214902nstx1490x77.24sSTAT总体比率的区间估计STAT总体比率的区间估计1.假定条件总体服从二项分布可以由正态分布来近似2.使用正态分布统计量z3.总体比率在1-置信水平下的置信区间为）1,0（）1（Nnpppz）（）-1（）1（22未知时或nppzpnzpSTAT总体比率的区间估计（例题分析）【例】【例】某城市想要估计下岗职工中女性所占的比率，随机地抽取了100名下岗职工，其中65人为女性职工。

试以95%的置信水平估计该城市下岗职工中女性比率的置信区间解：

解：

已知n=100，p65%,1-=95%，z/2=1.96该城市下岗职工中女性比率的置信区间为55.65%74.35%35.74%,65.55%35.9%65100%）651%（6596.1%65）1（2nppzpSTAT总体方差的区间估计STAT总体方差的区间估计1.估计一个总体的方差或标准差2.假设总体服从正态分布3.总体方差2的点估计量为s2,且4.总体方差在1-置信水平下的置信区间为11222nsn111122122222nsnnsnSTAT总体方差的区间估计（图示）2221-21-22总体方差1-的置信区间自由度为自由度为n-1的的22分分布布STAT总体方差的区间估计（例题分析）【例】【例】一家食品生产企业以生产袋装食品为主，现从某天生产的一批食品中随机抽取了25袋，测得每袋重量如下表所示。

已知产品重量的分布服从正态分布。

以95%的置信水平建立该种食品重量方差的置信区间25袋食品的重量112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3STAT总体方差的区间估计（例题分析）解解:

已知n25，1-95%,根据样本数据计算得s2=93.212置信度为95%的置信区间为该企业生产的食品总体重量标准差的的置信区间为7.54g13.43g401.12）24（）1（2975.0212n364.39）24（）1（2025.022n39.18083.56401.1221.93125364.3921.9312522STAT5.3两个总体参数的区间估计一、体均之差的估两个总值区间计二、体比率之差的估两个总区间计三、两个总体方差比的区间估计STAT两个总体参数的区间估计体总参数符表示号本量样统计均值之差比率之差方差比2121222121xx21pp2221ssSTAT5.4样本容量的确定一、估体均本容量的确定计总值时样二、估体比率本容量的确定计总时样三、估体均之差本容量的确定计总值时样四、估体比率之差本容量的确定计总时样STAT1.估计总体均值时样本容量n为2.样本容量n与总体方差2、允许误差E、可靠性系数Z或t之间的关系为与总体方差成正比与允许误差成反比与可靠性系数成正比估计总体均值时样本容量的确定其中：

2222）（EznnzE2STAT估计总体均值时样本容量的确定（例题分析）【例】拥有工商管理学士学位的大学毕业生年【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为薪的标准差大约为20002000元，假定想要估计年元，假定想要估计年薪薪95%95%的置信区间，希望允许误差为的置信区间，希望允许误差为400400元，应抽取多大的样本容量？

元，应抽取多大的样本容量？

STAT估计总体均值时样本容量的确定（例题分析）解解:

已知=2000，E=400,1-=95%，z/2=1.96应抽取的样本容量为即应抽取97人作为样本9704.964002000）96.1（）（2222222EznSTAT1.根据比率区间估计公式可得样本容量n为估计总体比率时样本容量的确定2.E的取值一般小于0.13.未知时，可取最大值0.5其中：

222）1（）（EznnzE）1（2STAT估计总体比率时样本容量的确定（例题分析）【例】根据以往【例】根据以往的生产统计，某的生产统计，某种产品的合格率种产品的合格率约为约为90%90%，现，现要求允许误差为要求允许误差为5%5%，在求，在求95%95%的置信区间时，的置信区间时，应抽取多少个产应抽取多少个产品作为样本？

品作为样本？

解解:

已知=90%，=0.05，z/2=1.96，E=5%应抽取的样本容量为应抽取139个产品作为样本1393.13805.0）9.01（9.0）96.1（）1（）（22222EznSTAT1.设n1和n2为来自两个总体的样本，并假定n1=n22.根据均值之差的区间估计公式可得两个样本的容量n为估计两个总体均值之差时样本容量的确定其中：

222212221）（）（EznnnnzE212STAT估计两个总体均值之差时样本容量的确定（例题分析）【例】【例】一所中学的教务处想要估计试验班和普通班考试成绩平均分数差值的置信区间。

要求置信水平为95%，预先估计两个班考试分数的方差分别为：

试验班12=90，普通班22=120。

如果要求估计的误差范围（允许误差）不超过5分，在两个班应分别抽取多少名学生进行调查？

STAT估计两个总体均值之差时样本容量的确定（例题分析）解解:

已知12=90，22=120，E=5,1-=95%，z/2=1.96即应抽取33人作为样本33269.325）12090（96.1）（）（22222212221EznnSTAT1.设n1和n2为来自两个总体的样本，并假定n1=n22.根据比率之差的区间估计公式可得两个样本的容量n为估计两个总体比率之差时样本容量的确定其中：

nzE）1（）1（22112222112221）1（）1（）（EznnSTAT估计两个总体比率之差时样本容量的确定（例题分析）【例】一家瓶装饮料制造商想要估计顾客对一种新型饮料认知的广告效果。

他在广告前和广告后

展开阅读全文