统计学 第四章推断统计概述.docx
《统计学 第四章推断统计概述.docx》由会员分享,可在线阅读,更多相关《统计学 第四章推断统计概述.docx(22页珍藏版)》请在冰点文库上搜索。
统计学第四章推断统计概述
第四章推断统计概述
第一部分概率论基本知识
*一、概率的定义;二、概率的性质;三、概率的加法定理和乘法定理
*四、概率分布类型
四、概率分布类型
*概率分布(probabilitydistribution)是指对随机变量取不同值时的概率的描述,一般用概率分布函数进行描述。
*依不同的标准,对概率分布可作不同的分类。
1、离散型分布与连续型分布
*依随机变量的类型,可将概率分布分为离散型概率分布与连续型概率分布。
*教育统计学中最常用的离散型分布是二项分布,最常用的连续型分布是正态分布。
2、经验分布与理论分布
*依分布函数的来源,可将概率分布分为经验分布与理论分布。
*经验分布(empiricaldistribution)是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。
*理论分布(theoreticaldistribution)是按某种数学模型计算出的概率分布。
3、基本随机变量分布与抽样分布
*依所描述的数据的样本特性,可将概率分布分为基本随机变量分布与抽样分布(samplingdistribution)。
*基本随机变量分布是随机变量各种不同取值情况的概率分布,
*抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。
第二部分几种常见的概率分布
*一、二项分布
*二项分布(binomialdistribution)是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里创始的,因此又称为贝努里分布。
*2.二项分布函数
*二项分布是一种离散型随机变量的概率分布。
*用n次方的二项展开式来表达在n次二项试验中成功事件出现的不同次数(X=0,1…,n)的概率分布,叫做二项分布函数。
*二项展开式的通式(即二项分布函数):
*
*
*
*
*
*成功概率p;样本容量n
*在成功概率为p的总体中随机抽样,抽取样本容量为n的样本中,有X次为成功的概率:
*(X=0,1…,n)
*称X服从参数为n,p的二项分布,记为:
*X~B(n,p)其中,0
*二项分布的性质
*二项分布有如下性质:
*①当p=q时,图形是对称的。
*②当p≠q时,直方图呈偏态。
p>q与p<q时的偏斜方向相反。
*3.二项分布的平均数和标准差
*如果二项分布满足p>q且nq≥5(或者p<q且np≥5时,二项分布接近于正态分布。
可用下面的方法计算二项分布的平均数和标准差。
*
二项分布的平均数为
*二项分布的标准差为
*4.二项分布的应用
*二项分布函数除了用来求成功事件恰好出现X次的概率之外,在教育中主要用来判断试验结果的机遇性与真实性的界限。
*一个学生凭猜测做10个是非题,平均可以猜对5题。
什么情况下可以说他是真会而不是猜测呢?
*解:
猜对与猜错的概率:
p=q=1/2。
*猜对8的概率为0.044
*猜对9题的概率为0.010
*猜对10题的概率为0.001
*猜对8题以上的概率为:
0.044+0.010+0.001=0.055
*一个教师对8个学生的作业成绩进行猜测,如果教师猜对的可能性为1/3,问:
*⑴平均能猜对几个学生的成绩?
*⑵假如规定猜对95%,才算这个教师有一定的评判能力,那么这个教师至少要猜对几个学生?
*
*
(1)
(2)
这个教师至少要猜对5个学生,才有一定的评判能力
正态分布
*正态分布(normaldistribution)也称为常态分布,是连续型随机变量概率分布的一种,是在数理统计的理论与实际应用中占有最重要地位的一种理论分布。
*正态分布由棣·莫弗于1733年发现的。
拉普拉斯、高斯对正态分布的研究也做出了贡献,故有时称正态分布为高斯分布。
.1.正态分布曲线函数
正态分布曲线函数又称概率密度函数(即方程),其一般公式为
公式所描述的正态曲线,由σ和μ两个参数决定。
*
X~N(,2),
将N改为频率,正态曲线形态不变。
正态曲线的特征
关于x=μ对称。
在x=μ处取得该概率密度函数的最大值,在处有拐点,表现为钟形曲线。
决定曲线在横轴上的位置,增大,曲线沿横轴向右移;反之,减小,曲线沿横轴向左移。
决定曲线的形状,当恒定时,越大,数据越分散,曲线越“矮胖”’;越小,数据越集中,曲线越‘瘦高’。
曲线下面积为1。
正态曲线下的面积规律
*正态曲线关于均数对称;对称的区域内面积相等;
*对任意正态曲线,按标准差为单位,对应的面积相等;
正态曲线下面积的含义
-1.64~+1.64内面积为90%;
-1.96~+1.96内面积为95%;
-2.58~+2.58内面积为99%。
*1.曲线下面积是全体数据落入某区间的概率;
*2.曲线下面积是落入某区间的数据占全体数据的比例
标准正态分布曲线
将标准分数代入正态曲线函数,则公式变换为标准正态分布函数:
*以Z为横坐标,以Y为纵坐标,可绘制标准正态分布曲线。
*标准正态分布曲线的纵线高度Y为概率密度,曲线下的面积为概率。
3.标准正态分布曲线的特点
*⑴曲线在Z=0处达到最高点
*⑵曲线以Z=0处为中心,双侧对称
*⑶曲线从最高点向左右缓慢下降,向两侧无限延伸,但永不与基线相交。
*⑷标准正态分布曲线的平均数为0,标准差为1。
*从Z=-3至Z=+3之间几乎分布着全部数据(99.73%)。
*⑸曲线的拐点为正负一个标准差处。
4.正态曲线的面积与纵线
*1)累积正态分布函数
*正态曲线与基线之间某一区间的面积,相当于能在该区间找到个体的概率。
曲线下的面积,即累积概率是用积分表示的。
*累积正态分布函数是:
2)标准正态曲线下面积的求法
*利用积分公式可求出正态曲线下任何区间的面积,但需要计算,非常麻烦。
*统计学家已编制好了标准正态分布表,使用非常方便。
*2)已知曲线下面积求Z值
*①求Z=0以上或以下某一面积相对应的Z值
*②求与正态曲线上端或下端某一面积相对应的Z值
*③求与正态曲线下中央部位某一面积相对应的Z值
3)正态曲线的纵线
*正态曲线的纵线高度Y是横轴上某一Z值的频率密度(即概率)
*
(1)已知Z值求纵线高度
*
(2)已知面积求纵线高度
三、正态分布的应用
1.以标准分数表示考试成绩
*比较学生的考试成绩时,使用原始分数不合理
*⑴原始分制度没有提示考生成绩在考生团体成绩中的位置。
*⑵由于各科命题难度不同,导致各科原始分之间不能直接比较,造成分数解释上的困难。
*⑶各科原始分相加不合理。
2.确定等级评定的人数
*例:
若有100人某种能力呈正态分布,欲将其分成五个等距的等级,问各等级应有多少人?
*解:
6σ÷5=1.2σ。
*每个等级应占1.2个标准差的距离。
3、确定录取分数线
*例:
某项职业录取考试,准备在参加的1600考生中录取200人,考试分数分布接近正态分布,平均分数为74,标准差为11,问录取分数线是多少?
*解:
将200/1600=0.125作为正态分布上端的面积。
*P=0.5-0.125=0.375,则Z=1.15
*
录取分数线为
4.确定正态分布下特定分数段内的人数或某面积下(或人数)的分数段
*例1:
某地区某年高考物理科考生4.7万,平均分为57.08,标准差为18.04。
试问:
*①成绩在90分以上有多少人?
*②成绩在80分到90分之间有多少人?
*③成绩在60分以下有多少人?
解:
先算出90分、80分、60分的标准分数。
例2:
某次测验分数为正态分布,其平均分为72分,标准差为6分,问:
①95%的学生分数落在平均数上下多少分中间?
②99%的学生分数落在平均数上下多少分中间
解:
将95%和99%看作是正态曲线中央部分的面积。
则,
第三部分抽样分布的基本原理
一、抽样的基本概念
*1.总体与抽样2.抽样的基本方法
1)简单随机抽样2)等距抽样3)分层随机抽样
二、抽样分布
区分三种不同性质的分布:
*总体分布:
总体内个体数值的频数分布
*样本分布:
样本内个体数值的频数分布
*抽样分布:
某一种统计量的概率分布
1.抽样分布的概念
2.平均数抽样分布的几个定理(中心极限定理)
⑴从总体中随机抽出容量为n的一切可能样本的平均数之平均数等于总体的平均数。
⑵容量为n的平均数在抽样分布上的标准差(即平均数的标准误),等于总体标准差除以n的平方根。
⑶从正态总体中,随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布;虽然总体不呈正态分布,如果样本容量较大,也接近于正态分布
二、标准误
*某种统计量在抽样分布上的标准差,称为标准误。
如:
平均数抽样分布的标准差称为平均数的标准误;标准差抽样分布的标准差称为标准差的标准误。
*标准误用来衡量抽样误差。
*标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。
*因此,标准误是统计推断可靠性的指标
平均数标准误的计算
1.总体正态,总体标准差σ已知(不管样本容量大小),
或总体非正态,总体标准差σ已知,大样本
平均数的标准误为:
平均数标准误的计算
2.总体正态,总体标准差σ未知(不管样本容量大小),或总体非正态,总体标准差σ未知,大样本。
当总体标准差σ未知,需要用样本标准差来估计。
总体标准差的无偏估计量:
平均数标准误为:
,因为σ未知,用S代替:
因此,平均数标准误的估计值为
三.平均数离差统计量的分布
由样本的平均数对总体平均数进行估计,首先要了解平均数离差统计量的分布,才能根据一定的概率,由样本的平均数对总体的平均数做出估计
1.总体正态,σ已知(不管样本容量大小),或总体非正态,σ已知,大样本
平均数离差的抽样分布呈正态分布
2.总体正态,σ未知(不管样本容量大小),或总体非正态,σ未知,大样本
平均数离差的抽样分布呈t分布
t分布的特点
⑴形状与正态分布曲线相似
⑵t分布曲线随自由度不同而有一簇曲线
⑶自由度的计算:
自由度是指能够独立变化的数据个数或总体参数估计中变量值能够独立变化的个数。
⑷查t分布表时,需根据自由度及相应的显著性水平,并要注意是单侧数据还是双侧。
有关自由度的其他说明
*统计学中:
在统计模型中,自由度指样本中可以自由变动的变量的个数,当有约束条件时,自由度减少。
*自由度计算公式:
自由度=样本个数-样本数据受约束条件的个数,即df=n-k(df自由度,n样本个数,k约束条件个数)
t分布表的查法
*自由度df,t值和概率(面积或显著性水平)
*3.总体σ未知,大样本时的近似处理
*样本容量增大后,平均数的抽样分布接近于正态分布,可用正态分布近似处理。
*(注意:
此时的分布仍然是t分布)
第四部分参数估计的基本原理
*根据样本统计量对相应总体参数所作的估计叫作总体参数估计。
*总体参数估计分为点估计和区间估计。
*由样本的标准差估计总体的标准差即为点估计;而由样本的平均数估计总体平均数的取值范围则为区间估计
2.区间估计
*以样本统计量的抽样分布(概率分布)为理论依据,按一定概率的要求,由样本统计量的值估计总体参数值的所在范围,称为总体参数的区间估计。
*对总体参数值进行区间估计,就是要在一定可靠度上求出总体参数的置信区间的上下限
计算要求:
*⑴要知道与所要估计的参数相对应的样本统计量的值,以及样本统计量的理论分布;
*⑵要求出该种统计量的标准误;
*⑶要确定在多大的可靠度(或置信度)上对总体参数作估计,再通过某种理论概率分布表,找出与某种可靠度相对应的该分布横轴上记分的临界值,才能计算出总体参数的置信区间的上下限。
置信区间(confidenceinterval)
*置信度或可靠度,即置信概率,是作出某种推断时正确的可能性(概率),即1-α。
*显著性水平:
α
*置信区间,也称置信间距,是指在某一置信度时,总体参数所在的区域距离或区域长度。
置信区间是带有置信概率的取值区间。
显著性水平(significancelevel
*对总体平均数进行区间估计时,置信概率表示做出正确推断的可能性,但这种估计还是会有犯错误的可能。
*显著性水平就是指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表示。
3.平均数区间估计的基本原理
*通过样本的平均数估计总体的平均数
*首先假定该样本是随机取自一个正态分布的总体(或非正态总体中的n>30的样本),而计算出来的实际平均数是无数容量为n的样本平均数中的一个。
*根据样本平均数的分布理论,可以对总体平均数进行估计,并以概率说明其正确的可能性
总体平均数的区间估计
1.总体平均数区间估计的基本步骤
①根据样本的数据,计算样本的平均数和标准差;
②计算平均数抽样分布的标准误;
③确定置信概率或显著性水平;
④根据样本平均数的抽样分布确定查何种统计表;
⑤计算置信区间;
⑥解释总体平均数的置信区间。
2.平均数区间估计的计算
①总体正态,σ已知(不管样本容量大小),或总体非正态,σ已知,大样本
2.平均数区间估计的计算
平均数离差的的抽样分布呈正态,平均数的置信区间为:
α=0.05时,总体平均数区间估计为
*
α=0.01时,总体平均数区间估计为
例题:
某小学10岁全体女童身高历年来标准差为6.25厘米,现从该校随机抽27名10岁女童,测得平均身高为134.2厘米,试估计该校10岁全体女童平均身高的95%和99%置信区间。
*解:
10岁女童的身高假定是从正态总体中抽出的随机样本,并已知总体标准差为σ=6.25。
无论样本容量大小,一切样本平均数的标准分数呈正态分布。
于是可用正态分布来估计该校10岁女童身高总体平均数95%和99%的置信区间。
其标准误为
当P=0.95时,Z=±1.96
因此,该校10岁女童平均身高95%的置信区间为:
当P=0.99时,Z=±2.58
因此,该校10岁女童平均身高99%的置信区间为:
②总体正态,σ未知(不管样本容量大小),或总体非正态,σ未知,大样本
平均数离差的抽样分布为t分布,平均数的置信区间为:
例题2:
从某小学三年级随机抽取12名学生,其阅读能力得分为28,32,36,22,34,30,33,25,31,33,29,26。
试估计该校三年级学生阅读能力总体平均数95%和99%的置信区间。
*解:
12名学生阅读能力的得分假定是从正态总体中抽出的随机样本,而总体标准差σ未知,样本的容量较小(n=12<30),在此条件下,样本平均数与总体平均数离差统计量服从呈t分布。
*于是需用t分布来估计该校三年级学生阅读能力总体平均数95%和99%的置信区间。
由原始数据计算出样本统计量为
σX=3.926
当P=0.95时,
因此,该校三年级学生阅读能力得分95%的置信区间为:
当P=0.99时,
因此,该校三年级学生阅读能力得分99%的置信区间为:
③总体正态,σ未知,大样本
*平均数的抽样分布接近于正态分布,用正态分布代替t分布近似处理:
例题3:
从某年高考中随机抽取102份作文试卷,算得平均分数为26,标准差为1.5,试估计全部考生作文成绩95%和99%的置信区间。
*解:
学生高考分数假定是从正态总体中抽出的随机样本,而总体的标准差σ未知,样本平均数与总体平均数离差统计量呈t分布。
但是由于样本容量较大(n=102>30),t分布接近于正态分布,因此可用正态分布近似处理。
样本标准差:
当P=0.95时,Z=±1.96
因此,该年全部考生作文成绩95%的置信区间为:
当P=0.99时,Z=±2.58
因此,该年全部考生作文成绩99%的置信区间为:
④总体非正态,小样本
*不能进行参数估计,即不能根据样本分布对总体平均数进行估计。
第五部分假设检验的基本原理
利用样本信息,根据一定概率,对总体参数或分布的某一假设作出拒绝或保留的决断,称为假设检验。
1.假设
*假设检验一般有两个互相对立的假设。
*H0:
零假设,或称原假设、虚无假设(nullhypothesis)、解消假设;是要检验的对象之间没有差异的假设。
*H1:
备择假设(alternativehypothesis),或称研究假设、对立假设;是与零假设相对立的假设,即存在差异的假设。
假设检验
*进行假设检验时,一般是从零假设出发,以样本与总体无差异的条件计算统计量的值,并分析计算结果在抽样分布上的概率,根据相应的概率判断应接受零假设、拒绝研究假设还是拒绝零假设、接受研究假设。
2.小概率事件
*样本统计量的值在其抽样分布上出现的概率小于或等于事先规定的水平,这时就认为小概率事件发生了。
把出现概率很小的随机事件称为小概率事件。
当概率足够小时,可以作为从实际可能性上把零假设加以否定的理由。
因为根据这个原理认为:
在随机抽样的条件下,一次实验竟然抽到与总体参数值有这么大差异的样本,可能性是极小的,实际中是罕见的,几乎是不可能的。
3.显著性水平
*统计学中把拒绝零假设的概率称为显著性水平,用α表示。
*显著性水平也是进行统计推断时,可能犯错误的概率。
*常用的显著性水平有两个:
α=0.05和α=0.01。
(或其他α=0.10、α=0.001等。
)
在抽样分布曲线上,显著性水平既可以放在曲线的一端(单侧检验),也可以分在曲线的两端(双侧检验)。
α
α
正态抽样分布上α=0.05的三种不同位置
双侧检验和单侧检验
*在确定检验形式时,凡是检验是否与假设的总体一致的假设检验,α被分散在概率分布曲线的两端,因此称为双侧检验。
*双侧检验的假设形式为:
H0:
μ=μ0,H1:
μ≠μ0
(样本平均数和总体平均数是否有显著差异)
*凡是检验大于或小于某一特定条件的假设检验,α是在概率分布曲线的一端,因此称为单侧检验。
*单侧检验的假设形式为:
H0:
μ≥μ0,H1:
μ<μ0(样本平均数是否显著低于总体平均数)
或者
H0:
μ≤μ0,H1:
μ>μ0(样本平均数是否显著高于总体平均数)
4.假设检验中的两类错误及其控制
*对于总体参数的假设检验,有可能犯两种类型的错误,即α错误和β错误。
假设检验中的两类错误
当H0为真
当H0为假
拒绝H0
α错误
正确
接受H0
正确
β错误
*为了将两种错误同时控制在相对最小的程度,研究者往往通过选择适当的显著性水平而对α错误进行控制,如α=0.05或α=0.01。
*对β错误,则一方面使样本容量增大,另一方面采用合理的检验形式(即单侧检验或双侧检验)来使β误差得到控制。
5.假设检验的基本步骤
一个完整的假设检验过程,一般经过四个主要步骤:
⑴提出假设
⑵选择检验统计量并计算统计量的值
⑶确定显著性水平
⑷做出统计结论