完整版样本及抽样分布doc.docx
《完整版样本及抽样分布doc.docx》由会员分享,可在线阅读,更多相关《完整版样本及抽样分布doc.docx(47页珍藏版)》请在冰点文库上搜索。
完整版样本及抽样分布doc
第六章样本及抽样分布
【基本要求】1、理解总体、个体和样本的概念;
2、理解样本均值、样本方差和样本矩的概念并会计算;
3、理解统计量的概念,掌握几种常用统计量的分布及其结论;
4、理解分位数的概念,会计算几种重要分布的分位数。
【本章重点】样本均值、样本方差和样本矩的计算;抽样分布——2分布,t分布,
F分布;分位数的理解和计算。
【本章难点】对样本、统计量及分位数概念的理解;样本矩的计算。
【学时分配】4学时
【授课内容】
§6.0前言
前面五章我们研究了概率论的基本内容,从中得知:
概率论是研究随机现象统计规律性的一
门数学分支。
它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计规律性;
而我们下面将要研究的数理统计,也是研究大量随机现象的统计规律性,并且是应用十分广泛的
一门数学分支。
所不同的是数理统计是以概率论为理论基础,利用观测随机现象所得到的数据来
选择、构造数学模型(即研究随机现象)。
其研究方法是归纳法(部分到整体)。
对研究对象的客
观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提供理论依据和建议。
数理
统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点研究参数估计和假设检验。
§6.1随机样本
1
一、总体与样本
1.总体、个体
在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个元素
称为个体。
例如:
在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡就是
个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总体,而每
个男大学生就是个体。
但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或几
项数量指标X(可以是向量)和该数量指标X在总体的分布情况。
在上述例子中X是表示灯泡的寿
命或男大学生的身高和体重。
在试验中,抽取了若干个个体就观察到了X的这样或那样的数值,
因而这个数量指标X是一个随机变量(或向量),而X的分布就完全描写了总体中我们所关心的
那个数量指标的分布状况。
由于我们关心的正是这个数量指标,因此我们以后就把总体和数量指
标X可能取值的全体组成的集合等同起来。
定义1:
把研究对象的全体(通常为数量指标X可能取值的全体组成的集合)称为总体;总体中
的每个元素称为个体。
我们对总体的研究,就是对相应的随机变量X的分布的研究,所谓总体的分布也就是数量指
标X的分布,因此,X的分布函数和数字特征分别称为总体的分布函数和数字特征。
今后将不区分总体与相应的随机变量,笼统称为总体X。
根据总体中所包括个体的总数,将总体分为:
有限总体和无限总体。
例1:
考察一块试验田中小麦穗的重量:
X=所有小麦穗重量的全体(无限总体);个体——每个麦穗重x
2
对应的分布:
F(x)P{
x}
重量x的麦穗数
1
(t
)2
dt~N(,2)0x
e2
2
x
总麦穗数
2
例2:
考察一位射手的射击情况:
X=此射手反复地无限次射下去所有射击结果全体;每次射击结果都是一个个体(对应于靶上的一点)
1射中
个体数量化x
1未中
1在总体中的比例p为命中率
0在总体中的比例1p为非命中率
总体X由无数个0,1构成,其分布为两点分布B(1,p)P{X1}p,P{X0}1p
2.样本与样本空间
为了对总体的分布进行各种研究,就必需对总体进行抽样观察。
抽样——从总体中按照一定的规则抽出一部分个体的行动。
一般地,我们都是从总体中抽取一部分个体进行观察,然后根据观察所得数据来推断总体的
性质。
按照一定规则从总体X中抽取的一组个体(X1,X2,,Xn)称为总体的一个样本,显然,样
本为一随机向量。
为了能更多更好的得到总体的信息,需要进行多次重复、独立的抽样观察(一般进行n次),
若对抽样要求①代表性:
每个个体被抽到的机会一样,保证了X1,X2,,Xn的分布相同,与总体
一样。
②独立性:
X1,X2,,Xn相互独立。
那么,符合“代表性”和“独立性”要求的样本
(X1,X2,,Xn)称为简单随机样本。
易知,对有限总体而言,有放回的随机样本为简单随机样本,
无放回的抽样不能保证X1,X2,,Xn的独立性;但对无限总体而言,无放回随机抽样也得到简单
随机样本,我们本书则主要研究简单随机样本。
3
对每一次观察都得到一组数据(x1,x2,,xn),由于抽样是随机的,所以观察值(x1,x2,,xn)
也是随机的。
为此,给出如下定义:
定义2:
设总体X的分布函数为F(x),若X1,X2,,Xn是具有同一分布函数F(x)的相互独立的随
机变量,则称(X1,X2,,Xn)为从总体X中得到的容量为n的简单随机样本,简称样本。
把它
们的观察值(x1,x2,,xn)称为样本值。
定义3:
把样本(X1,X2,,Xn)的所有可能取值构成的集合称为样本空间,显然一个样本值
(x1,x2,,xn)是样本空间的一个点。
注:
样本具有双重性,在理论上是随机变量,在具体问题中是数据。
二、样本的分布:
设总体X的分布函数为F(x),(X1,X2,,Xn)是X的一个样本,则其联合分布函数为:
n
F*(x1,x2,,xn)=
F(xi)。
i1
例3:
设总体X
~B(1,p),
(X1,X2,Xn)为其一个简单随机样本,则样本空间
{(x1,x2,,xn)xi
0,1;i
1,2,,n},因为P{Xx}px(1p)1x,x0,1
所以样本的联合分布列为:
P{X1x1,X2x2,L,Xn
xn}P{X1
x1}P{X2
x2}LP{Xn
xn}
px1(1p)1
x1.px2(1p)1x2
pxn(1
p)1xn
x
0,1
i1,2,,n
i
4
§6.2抽样分布
0、引言
有了总体和样本的概念,能否直接利用样本来对总体进行推断呢?
一般来说是不能的,需要
根据研究对象的不同,构造出样本的各种不同函数,然后利用这些函数对总体的性质进行统计推
断,为此,我们首先介绍数理统计的另一重要概念——统计量。
一、统计量(随机变量)
定义1:
设(X1,X2,L,Xn)是来自总体X的一个样本,g(X1,X2,L,Xn)是样本的函数,若g中
不含任何未知参数,则称g(X1,X2,,Xn)是一个统计量。
设(x1,x2,L,xn)是对应于样本(X1,X2,L,Xn)的样本值,则称g(x1,x2,L,xn)是g(X1,X2,L,Xn)的观察值。
下面列出几个常用的统计量。
1、样本均值与样本方差(随机变量)
定义2设(X1,X
2,,Xn)是来自总体
X的一个样本,称
1
n
X
Xi为样本均值。
ni
1
S2
1
n
X)2[
1
n
2
2XXiX2)
1
n
2
2nX2
nX2)
(Xi
(Xi
(Xi
n1i1
n1i1
n1i1
1
n
2
nX2
n
(
Xi
)]为样本方差。
1
i
1
SS21
n
(XiX)2为样本标准差。
n1i1
样本均值与样本方差分别刻划了样本的位置特征及样本的分散性特征。
2.样本矩(r.v)
5
设总体
X的分布函数为F(x),则称mkE(Xk)(假设它存在)为总体X的k阶原点矩;称
kE[(X
E(X))k]为总体X的k阶中心矩。
把总体的各阶中心矩和原点矩统称为总体矩。
特别
地:
m1=E(X);
2
D(x)是总体X的期望和方差。
定义3:
设(X1,X2,
Xn)是来自总体X的一个样本,则称
n
Ak
1
Xik
,k=1,2,3;为样本的k阶原点矩(随机变量)
ni
1
n
Bk
1
(Xi
X)k,k=1,2,3;为样本值的k阶中心矩(随机变量)。
ni
1
特别地,A1
X,但B2与S2却不同,由S2
与B2的计算式可知:
B2
n1S2,
n
当n
时,B2=S2,所以常利用B2来计算S(标准差)。
设(x1,x2,
xn)为样本(X1,X2,
Xn)的观测值,则样本矩对应观测值分别为:
1
n
xi
;
x
ni1
s2=1
n
s21
n
1i
(xix)2;s
(xix)2;
n
1
n
1i1
1
ak
n
nn
xik;bk1(xix)k;k=1,2,3;
i1ni1
在不至于混淆的情况下,这些值也分别称为样本均值、样本方差、样本标准差、样本k阶
原点矩、样本k阶中心矩。
p
mk
(
n
)
k
1,2,
【注】:
Ak
L,这就是下一章要介绍的矩估计的理论根据。
统计量是我们对总体的分布函数或数字特征进行统计推断的最重要的基本概念,所以寻求统
计量的分布成为数理统计的基本问题之一。
我们把统计量的分布称为抽样分布。
然而要求出一个
6
统计量的精确分布是十分困难的。
而在实际问题中,大多总体都服从正态分布:
而对于正态分布,
我们可以求出一些重要统计量的精确分布,这就是:
二、几种常用的抽样分布:
(正态分布中的几种统计量的分布)
把2分布,t分布,F分布,统称为“统计三大分布”。
1、正态分布
由正态分布的性质,可得如下结论:
1)定理:
设X1,X2,
Xn相互独立,Xi~N(i,
i2),i
1,2,
n,
是关于Xi的任一确定的
n
n
n
线性函数(
aiXi),则也服从正态分布,且
~N(
aii,
ai2
i2)。
i1
i
1
i1
2)结论:
若(X1,X2,,Xn)是来自总体X~N(,2)的一个样本,X为样本均值,则
2
①X~N(,),由上述结论可知:
X的期望与X的期望相同,而X的方差却比X的方差n
小的多,即X的取值将更向集中。
②X与S2相互独立。
2、
2
分布
1)定义:
设(X1,X2,
Xn)是来自总体X~N(0,1)
的一个样本,则称统计量:
2
n
Xi2
所服从的分布是自由度为n的2
2
2(n)。
分布,记作:
~
i
1
1
n
1x
x
0
2
(n)
的概率密度函数为:
2
(x,n)
n
x2
e2
2
2
(
n
,
2)
x
0
0
其中:
n
n
1
x
1
x
2
e
dx,
()
2
2
0
7
显然,2(x,n)0,且2(x,n)dx1,即符合密度函数性质。
n
Xi2~(n,1)
事实上,X2
i1
22
2)2分布的性质
I、2分布的可加性:
设12~
2(n1),22~
2(n2),且
12与
22相互独立,则:
12+22~
2(n1
n2)
II、若2~
2(n),则E
(2)
n,D(
2)2n,
事实上,因为Xi
~N(0,1)
,则:
E(Xi2
)
D(Xi
)
1,
D(Xi2)
E(Xi4)
[E(Xi2)]2
1
x2
x4e2dx
1
31
2
,i
1,2,,n
2
n
n
n
n
所以:
E(
2)
E(
Xi2)
E(Xi2)
n;
D(
2)
D(
Xi2)
D(Xi2)
2n
i
1
i1
i
1
i
1
3)结论:
设(X1,X2,
Xn)为来自总体X~N(
2)的一个样本,
2为已知常数,则:
I)统计量
2
1
n
2
2
=0时也成立)
(Xi
)
~
(n)
(当
2
i1
Xi
n
事实上,令Yi
,则Yi
~N(0,1),所以2
Yi
2~
2(n)
i
1
II)样本均值X与样本方差S2相互独立,且统计量
(n1)S
2
1
n
2
2
(XiX)
~
(n1)
。
2
2
i
1
证明请参阅有关数理统计的课本。
8
3、t-分布
1)定义:
设X~N(0,1),Y~2(n),且X与Y相互独立,则称统计量:
TX所服从的分布是自由度为n的t分布,记为T~t(n),t分布又称为学生氏(Student)分
Y
n
布。
n
1
)
x
2
2
(2
t分布的概率密度函数为:
t(x,n)
(1)
n1
x。
(2n)
n
n
2)t分布的特点(性质)。
I、t(x;n)关于x=0对称;
II、t(x;n)在x=0达最大值;
III、t(x;n)的x轴为水平渐近线;
1
x2
IV、
2
;即
n
时,t分布
N(0,1)
,一般地,当
n
>30时,t分布与
N(0,1)
limt(x,n)
e
x
2
非常接近。
V、当n较小时,t分布与N(0,1)有较大的差异,且对t0R有
P|T|t0P|X|t0,其中X~N(0,1)。
即t分布的尾部比N(0,1)的尾部具有更大的概率。
VI、若T~t(n),则n1时,E(T)0;n
n
2时,D(T)
n2
3)结论:
I)设(X1,X2,
Xn)是来自总体X~N(,
2)的一个样本,则统计量:
(X
)
,
T
n~t(n1)
s
9
2
X
~N(0,1),又
(n
1)S
2
2
(n
2
相互独立,则
事实上,由X~N(,
)
2
~
1),且X与S
n
n
Xn与(n1)S2相互独立,由t分布的定义,所以
2
X
n
(X
)n~t(n1)
T
(n
1)S2
S
2
n
1
II)设(
X1,X2,
Xm)是来自总体X~N(1,
12)的一个样本,(Y1,Y2,
Yn)是来自总体
Y~N(2,
2
)的一个样本,且X与Y相互独立,当
2
2
2
时,则统计量
2
12
(XY)
(12)
mn(mn2)
T
~t(mn2)
(m1)Sm2
(n1)Sn2
mn
其中,X
1m
Xi,Sm2
1
m
(XiX)2
mi1
m
1i1
Y
1n
Yi,Sn2
1
ni1
n1
2
n
(YiY)2
i1
2
事实上,X~N(1,
),Y~N(
2,
n
),且X与Y相互独立,所以:
m
2
2
(X
Y)
(12)~N(0,1);
X
Y~N(
12,
),即:
m
n
1
1
m
n
又
(m1)Sm2
2
(m
1),
(n1)Sn2
~
2
(n
1),且它们相互独立,由
2
分布的可加性,则
2
~
2
(m1)Sm2
(n1)Sn2
~
2
(mn2)
。
由t分布的定义:
2
2
(XY)
(
1
2)
1
1
(XY)(
12)
mn(mn2)~t(mn2)
m
n
(m1)Sm2(