抽样误差与假设检验培训课件.pptx

资源描述

抽样误差与假设检验培训课件.pptx

《抽样误差与假设检验培训课件.pptx》由会员分享，可在线阅读，更多相关《抽样误差与假设检验培训课件.pptx（49页珍藏版）》请在冰点文库上搜索。

抽样误差与假设检验培训课件.pptx

第四章抽样误差与假设检验第四章抽样误差与假设检验Samplingerror&Hypothesistest本章结构本章结构均数的抽样误差与标准误均数的抽样误差与标准误t分布分布总体均数的估计总体均数的估计假设检验的意义和步骤假设检验的意义和步骤均数的抽样误差与标准误均数的抽样误差与标准误Standarderror统计推断统计推断（statisticalinference）总体总体样本样本sampling统计量统计量参数参数inference参数估计参数估计假设检验假设检验一、均数的抽样误差和标准误一、均数的抽样误差和标准误抽样研究，一定存在着抽样误差。

抽样研究，一定存在着抽样误差。

因此，估计抽样误差的大小，就成为统因此，估计抽样误差的大小，就成为统计推断必须要解决的问题。

计推断必须要解决的问题。

抽样误差的概念？

抽样误差的大小？

抽样误差的概念抽样误差的概念l定义：

由抽样引起的样本统计量与总体参数定义：

由抽样引起的样本统计量与总体参数间、以及样本统计量与样本统计量之间的差间、以及样本统计量与样本统计量之间的差别。

别。

l原因：

个体变异随机抽样原因：

个体变异随机抽样l表现：

表现：

样本统计量与总体参数间的差别样本统计量与总体参数间的差别不同样本统计量间的差别不同样本统计量间的差别假设一个已知总体，从该总体中重复抽取样本假设一个已知总体，从该总体中重复抽取样本量相等（为量相等（为m）的样本）的样本n次，对每个样本计算次，对每个样本计算样本统计量样本统计量（均数、方差等均数、方差等），观察，观察n个样本统个样本统计量的分布规律计量的分布规律抽样分布规律。

抽样分布规律。

考察：

l不同的分布不同的分布-正态分布、偏态分布正态分布、偏态分布l不同的样本含量不同的样本含量抽样试验抽样试验由中心极限定理及大数定理得出：

由中心极限定理及大数定理得出：

若原变量若原变量X服从正态分布，随机抽取服从正态分布，随机抽取样本含量为样本含量为n的样本均数也服从正态分布的样本均数也服从正态分布。

即使从偏态总体中随机抽样，当即使从偏态总体中随机抽样，当n足足够大（够大（n50），样本均数也近似服从正态分），样本均数也近似服从正态分布。

布。

这个定理不仅具有理论价值，而且具这个定理不仅具有理论价值，而且具有很高的实用价值。

因为在实际工作当中，许有很高的实用价值。

因为在实际工作当中，许多医学测量结果并不知道它的确切分布，有了多医学测量结果并不知道它的确切分布，有了这个性质，就可以利用正态分布的原理对其特这个性质，就可以利用正态分布的原理对其特征进行统计推断。

征进行统计推断。

样本均数的分布：

X从正态分布总体从正态分布总体NN（5.00,0.5025.00,0.502）中，）中，每次随机抽取样本含量每次随机抽取样本含量nn55，并计算其均数，并计算其均数与标准差；重复抽取与标准差；重复抽取10001000次，获得次，获得10001000份样份样本；计算本；计算10001000份样本的均数与标准差，并对份样本的均数与标准差，并对10001000份样本的均数作直方图。

份样本的均数作直方图。

按上述方法再做样本含量按上述方法再做样本含量nn1010、样本、样本含量含量nn3030的抽样实验；比较计算结果。

的抽样实验；比较计算结果。

抽样试验（抽样试验（nn=5=5）抽样试验（抽样试验（nn=10=10）抽样试验（抽样试验（nn=30=30）33个抽样实验结果图示个抽样实验结果图示样本均数的抽样分布特点样本均数的抽样分布特点各样本均数未必等于总体均数；各样本均数未必等于总体均数；样本均数之间存在差异；样本均数之间存在差异；样本均数的分布很有规律，围绕着总体均数，样本均数的分布很有规律，围绕着总体均数，中间多、两边少，左右基本对称，也服从正态中间多、两边少，左右基本对称，也服从正态分布；分布；样本均数的变异较原变量的变异大大缩小。

样本均数的变异较原变量的变异大大缩小。

随着样本含量的增加，样本均数的变异范围逐随着样本含量的增加，样本均数的变异范围逐渐缩小。

渐缩小。

标准误的概念标准误的概念（standarderror）样本均数的标准差称为均数的标准误。

样本均数的标准差称为均数的标准误。

均数的标准误表示样本均数的变异度。

当总体标准差未知时，用样本方差代替，当总体标准差未知时，用样本方差代替，抽样误差的大小用标准误来衡量！

标准误的概念标准误的概念抽样的样本量越大，标准误就越小；抽样的样本量越大，标准误就越小；原来总体变异度小，标准误就越小。

原来总体变异度小，标准误就越小。

标准误反映了样本均数间的离散程度，也反映了样本标准误反映了样本均数间的离散程度，也反映了样本均数与总体均数之间的差异。

当标准误大时，用样本均数均数与总体均数之间的差异。

当标准误大时，用样本均数对总体均数的估计的可靠程度就小；反之亦然。

对总体均数的估计的可靠程度就小；反之亦然。

例，例，2000年某研究者随机调查某地年某研究者随机调查某地健康成年男子健康成年男子27人，测其血红蛋白量均人，测其血红蛋白量均数为数为125g/L，标准差为，标准差为15g/L。

试估。

试估计该样本均数的抽样误差。

计该样本均数的抽样误差。

272.89标准差与标准误标准差与标准误意义：

标准差用于描述个体值之间的变异，即观察值间的离散度，意义：

标准差用于描述个体值之间的变异，即观察值间的离散度，标准差小，表明观察值围绕均数的波动小；标准误描述统计量的标准差小，表明观察值围绕均数的波动小；标准误描述统计量的抽样误差，即样本统计量与总体参数的接近程度。

标准误小，表明抽样误差，即样本统计量与总体参数的接近程度。

标准误小，表明抽样误差小，则统计量稳定，与参数接近。

抽样误差小，则统计量稳定，与参数接近。

用途：

标准差表示观察值间波动的大小，用于医学参考值范围；标用途：

标准差表示观察值间波动的大小，用于医学参考值范围；标准误表示抽样误差的大小，用于参数估计。

准误表示抽样误差的大小，用于参数估计。

关系：

随着样本含量增加，都减小。

关系：

随着样本含量增加，都减小。

联系：

都是表示变异度的指标，当样本量一定时，两者成正比。

联系：

都是表示变异度的指标，当样本量一定时，两者成正比。

标准误用途标准误用途衡量样本均数的可靠性：

标准误越小，表明样本衡量样本均数的可靠性：

标准误越小，表明样本均数越可靠；均数越可靠；参数估计：

估计总体均数的置信区间（区域）；参数估计：

估计总体均数的置信区间（区域）；假设检验：

用于总体均数的假设检验（比较）。

假设检验：

用于总体均数的假设检验（比较）。

t-分布分布t-distributiont分布的概念分布的概念用样本方差代替总体方差，此时不再服从正态分布。

而服从t分布。

记为：

tt分布曲线分布曲线0.00.10.10.20.20.30.30.40.4-4-3-2-101234t自由度为1的t分布自由度为9的t分布标准正态分布tt分布有如下性质：

分布有如下性质：

单峰分布，曲线在单峰分布，曲线在tt00处最高，并以处最高，并以tt00为为中心左右对称中心左右对称与正态分布相比，曲线与正态分布相比，曲线最高处较矮，两尾部翘得最高处较矮，两尾部翘得高（见绿线）高（见绿线）随自由度增大，曲线随自由度增大，曲线逐渐接近正态分布；分布逐渐接近正态分布；分布的极限为标准正态分布。

的极限为标准正态分布。

tt分布曲线下面积（附表分布曲线下面积（附表22）双侧双侧tt0.05/20.05/2，992.2622.262单侧单侧tt0.0250.025，99单侧单侧tt0.050.05，991.8331.833双侧双侧tt0.01/20.01/2，993.2503.250单侧单侧tt0.0050.005，99单侧单侧tt0.010.01，992.8212.821双侧双侧tt0.05/20.05/2，1.961.96单侧单侧tt0.0250.025，单侧单侧tt0.050.05，1.641.64总体均数的估计总体均数的估计Parameterestimation总体均数估计方法总体均数估计方法总体均数的估计：

总体均数的估计：

点值估计（点值估计（pointestimation）：

例，）：

例，120名成年男子血清铁含量的均数是名成年男子血清铁含量的均数是18.57。

那么，该。

那么，该总体范围（这个地区）的成年男子血清铁含量的均总体范围（这个地区）的成年男子血清铁含量的均数就是数就是18.57。

这种方法虽简单，但未考虑抽样误。

这种方法虽简单，但未考虑抽样误差，一般不用。

差，一般不用。

区间估计区间估计（intervalestimation）也称置信区间。

利用样本信息给出一个区间，并也称置信区间。

利用样本信息给出一个区间，并同时给出按预先给定的概率估计该区间包含总体同时给出按预先给定的概率估计该区间包含总体均数的可能范围。

均数的可能范围。

可信度：

给定的概率称为可信度。

用可信度：

给定的概率称为可信度。

用表示。

通常取表示。

通常取99%、95%。

1t分布方法分布方法应用条件：

总体方差未知，样本量小应用条件：

总体方差未知，样本量小例例4.2某医师测的某医师测的40名老年性慢性支气管炎病人尿中名老年性慢性支气管炎病人尿中17-酮类酮类固醇排出量均数为固醇排出量均数为15.19umol/d，标准差为，标准差为5.03umol/d，试估，试估计该种病人尿计该种病人尿17-酮类固醇排出量总体均数的酮类固醇排出量总体均数的95%可信区间。

可信区间。

分析条件：

总体方差未知，样本量小分析条件：

总体方差未知，样本量小（13.5816.80）正态分布近似法正态分布近似法应用条件：

当总体标准差已知时；或总体标准差未知，而应用条件：

当总体标准差已知时；或总体标准差未知，而样本量较大时样本量较大时（n50）0-11-1.961.96-2.582.5868.27%95.00%99.00%例例4.3某市随机抽查某市随机抽查12岁男孩岁男孩100人，得身高均数人，得身高均数139.6cm，标准差标准差6.85cm。

计算该地。

计算该地12岁男孩身高均数的岁男孩身高均数的95%的可信区间的可信区间。

分析条件：

总体方差未知，但样本量大，用正态分布法分析条件：

总体方差未知，但样本量大，用正态分布法0.1413.13810085.696.16.13910085.696.16.139，9595可信区间：

从总体中作随机抽样，作可信区间：

从总体中作随机抽样，作100100次抽样，每个样本可算得一个可信区间，得次抽样，每个样本可算得一个可信区间，得100100个可信区间，平均有个可信区间，平均有9595个可信区间包括个可信区间包括（估计正确估计正确），只有，只有55个可信区间不包括个可信区间不包括（估计错误估计错误）。

可信区间的涵义可信区间的涵义假设检验假设检验Hypothesistestn假设检验是统计推断的另一个重要内容。

n假设检验是对所估计的总体首先提出一个假设，然后通过样本数据去推断是否拒绝这一假设，如果拒绝，认为该样本很可能不是来自这个总体；否则，认为该样本很可能来自这个总体。

让我们先看一个例子让我们先看一个例子.例例4.4根据大量调查，已知健康成年男根据大量调查，已知健康成年男子的脉搏均数为子的脉搏均数为72次次/分。

某医生在某分。

某医生在某山区随机调查山区随机调查30名健康男子，求得脉名健康男子，求得脉搏均数为搏均数为74.2次次/分，标准差为分，标准差为6.5次次/分。

能否认为该山区的成年男子的脉搏分。

能否认为该山区的成年男子的脉搏均数高于一般成年男子的脉搏均数？

均数高于一般成年男子的脉搏均数？

对差别的可能原因分析对差别的可能原因分析山区男子脉搏的总体均数与一般成年男子的脉搏均山区男子脉搏的总体均数与一般成年男子的脉搏均数相等，差异是由抽样误差引起的提示山区男数相等，差异是由抽样误差引起的提示山区男子是一般男子总体的一部分（研究总体）。

子是一般男子总体的一部分（研究总体）。

山区男子脉搏的总体均数与一般成年男子的脉搏均山区男子脉搏的总体均数与一般成年男子的脉搏均数不相等，差异可能是由地域等因素引起的提数不相等，差异可能是由地域等因素引起的提示山区男子与一般男子是两个不同的总体。

示山区男子与一般男子是两个不同的总体。

假设检验假设检验通过对假设作出取舍抉择来达到解决问题的目的通过对假设作出取舍抉择来达到解决问题的目的A.山区男子脉搏的总体均数与一般成年男子的脉搏均数山区男子脉搏的总体均数与一般成年男子的脉搏均数相等相等无差异假设、零假设无差异假设、零假设H0（nullhypothesis）B.山区男子脉搏的总体均数与一般成年男子的脉搏均数山区男子脉搏的总体均数与一般成年男子的脉搏均数不相等不相等对立假设、备择假设对立假设、备择假设H1（alternativehypothesis）证明证明A还是证明还是证明B？

在在H0成立的条件下，均数之间的差异是由抽样成立的条件下，均数之间的差异是由抽样误差引起的，有规律可循；误差引起的，有规律可循；在在H1成立的条件下，均数间的不同包含种种未成立的条件下，均数间的不同包含种种未知情形，无规律可循。

知情形，无规律可循。

故从故从H0成立的角度出发，寻求其成立的概率。

成立的角度出发，寻求其成立的概率。

变量值（脉搏）变量值（脉搏）X服从正态分布，且为小样本服从正态分布，且为小样本，假定，假定H0成立，样本均数服从成立，样本均数服从t-分布，则分布，则在在H0成立的前提下，当前成立的前提下，当前t值出现的概率有多值出现的概率有多大？

大？

854.1305.6722.74/0nsxt如何给出这个量的界限？

如何给出这个量的界限？

小概率事件在一次试验小概率事件在一次试验中基本上不会发生！

中基本上不会发生！

从附表从附表2中查出在显著性水平中查出在显著性水平=0.05（双侧），自由度为（双侧），自由度为所对应的所对应的t界值，即为拒绝域界值，即为拒绝域与接受域的界限。

如果计算出与接受域的界限。

如果计算出的的t统计量大于相应的统计量大于相应的t界值界值，则落在拒绝域中，该统计量，则落在拒绝域中，该统计量出现的概率小于出现的概率小于5%，为小概，为小概率事件。

率事件。

常取常取的选择要根据实际情况而定的选择要根据实际情况而定通常取通常取0.05检验水准的概念检验水准的概念在假设检验中，称预先规定的小概率值为检在假设检验中，称预先规定的小概率值为检验水准，也称为显著性水准，用表示。

验水准，也称为显著性水准，用表示。

.05.0,01.0,1.0这里所依据的逻辑是：

这里所依据的逻辑是：

如果如果H0是成立的，那么衡量差异大是成立的，那么衡量差异大小的某个统计量落入区域拒绝域是个小概率小的某个统计量落入区域拒绝域是个小概率事件。

如果该统计量的实测值落入拒绝域，也事件。

如果该统计量的实测值落入拒绝域，也就是说，就是说，H0成立下的小概率事件发生了，成立下的小概率事件发生了，那么就认为那么就认为H0不可信而否定它。

否则我们就不可信而否定它。

否则我们就不能否定不能否定H0（只好接受它）（只好接受它）.1.1.建立检验假设，确定检验水准；建立检验假设，确定检验水准；HH00：

零假设、无效假设。

是与研究假设有关的、被推断特：

零假设、无效假设。

是与研究假设有关的、被推断特征某种确定的关系；征某种确定的关系；HH11：

备择假设、对立假设。

是被推断总体特征的另一种：

备择假设、对立假设。

是被推断总体特征的另一种关系或状况，与关系或状况，与H0H0既有联系又互相对立。

既有联系又互相对立。

检验水准，将小概率事件具体化，即规定概率不超过检验水准，将小概率事件具体化，即规定概率不超过就是小概率。

就是小概率。

2.2.根据试验设计、资料类型、统计方法的条件选择根据试验设计、资料类型、统计方法的条件选择检验方法，计算相应的统计量；检验方法，计算相应的统计量；3.3.确定确定PP值，下结论。

值，下结论。

假设检验的基本步骤：

P值的概念值的概念指从指从H0规定的总体中随机抽样抽得等于或大规定的总体中随机抽样抽得等于或大于（或等于或小于）现有样本统计量的概率。

于（或等于或小于）现有样本统计量的概率。

本章总结本章总结conclusion

展开阅读全文