第七章讲义非参数统计.docx
《第七章讲义非参数统计.docx》由会员分享,可在线阅读,更多相关《第七章讲义非参数统计.docx(16页珍藏版)》请在冰点文库上搜索。
第七章讲义非参数统计
第七章非参数统计
非参数统计(亦称非参数检验),是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。
主要特点
(1)不要求总体分布已知或对总体分布作任何限制性假定;
(2)不以估计总体参数为目的;
(3)能用于定性变量(即定名测定和序列测定的变量);
(4)方法直观,易于理解,运算比较简单。
(5)缺点是检验的功效不如参数检验方法。
本章主要内容
介绍χ2检验、成对比较检验、曼—惠特尼U检验、游程检验和等级相关检验等几种常用的检验方法。
第一节χ2检验
一、什么是χ2检验
χ2检验是运用χ2分布作为理论工具,在非参数统计中可用于对总体的分布或随机变量的独立性进行的检验。
(一)χ2分布
χ2分布是由正态分布推导出来的一种连续型随机变量的概率分布。
1.χ2分布的数学形式
设随机变量x1,x2,…,xk相互独立且都服从正态分布N(μ,σ2)。
将它们标准化转变为标准正态变量Z1,Z2,…,Zk,k个独立标准正态变量的平方和被定义为χ2分布的随机变量χ2。
χ2~χ2(k),k是自由度,表示定义式独立变量的个数。
当k=1时,
2.χ2分布的性质
(1)χ2分布的值恒为正值,且(χ2,k)dχ2=1;
(2)χ2分布的数学期望是自由度k,方差为2k;
(3)χ2分布取决于自由度k,随着自由度增大而趋于对称。
一般当k≥30时,χ2分布可用正态分布近似计算。
(χ2)
k=5
k=3
k=1
k=15
χ2(k)
0
(二)χ2检验的原理
在实践中,经常要对一些观察值的实际频数与某种理论频数进行比较,以判断实际结果与理论是否一致。
设有k个观察值,f0为它们的实际频数,fe为理论频数。
构造一个统计量
数理统计证明,在大量试验中,若f0与fe相一致时,χ2服从χ2分布。
(f0-fe)比较小时,χ2值也较小;(f0-fe)比较大时,χ2也较大。
当χ2值大到按χ2分布超过设定的临界值时,即为小概率事件,就可以认为实际结果与理论假设不一致。
(χ2)
k=4
例1(P.258)
α=0.05
χ2
0
χ20.05(4)
=9.488
二、拟合优度检验
这是利用随机样本资料对总体是否服从某种理论分布的检验。
检验步骤
(1)
对总体分布建立假设
H0:
总体服从某种理论分布
H1:
总体不服从该理论分布
(3)
(2)
抽样并对样本以“原假设H0
资料编成频数为真”导出一组
分布(f0)期望频数(fe)
(4)
确定自由度,并根据
计算检验统计量给定的α查χ2表,
χ2=∑(f0-fe)2/fe得到临界值
(6)
比较χ2值与临界值
作出检验判断
注意事项
(1)各组理论频数fe不得小于5,如不足5,可合并组;
(2)为使组数不致太少,总频数n>50;
(3)根据具体情况确定自由度。
三、独立性检验
是利用样本资料对总体的两个变量的数据是否彼此关联的检验,如果不关联,即为独立。
检验步骤
(1)
(1)
对总体的两个变量建立假设
H0:
两变量独立
H1:
两变量关联
(2)
(3)
将样本资料编成计算理论频数
r×c列联表,并列
出实际频数Oij
(5)
(4)
计算检验统计量确定自由度并根据
给定的α查χ2表
得到临界值
(6)
比较χ2值与临界值
作出检验判断
要点说明
(1)列联表形式(r×c)
x
y
列(c)
合计
1
2
3
…
c
y的边缘频数
行(r)
1
2
3
.
.
.
r
O11
O21
O31
.
.
.
Or1
O12
O22
O32
.
.
.
Or2
O13
O23
O33
.
.
.
Or3
…
…
…
.
.
.
…
O1c
O2c
O3c
.
.
.
Orc
O1
O2
O3
.
.
.
Or
X的边缘频数
合计
n.1
n.2
n.3
…
n.c
n
(2)理论频数Eij的计算
先求理论频率(作为概率的近似)。
概率论中关于概率独立的基本规则:
如果两事件独立,则它们的联合概率等于它们各自概率的乘积,P(A·B)=P(A)·P(B)。
因此,某一行某一列的联合概率:
(3)自由度(df)的确定
df=(r-1)(c-1)
r1
r2
r3
例:
r·c=3×4
总行数
√
√
√
○
RT1
√
√
√
○
RT2
○
○
○
○
RT3
CT1
CT2
CT3
CT4
n
总列数
Df=(3-1)(4-1)=6
(4)r·c=2×2的列联表资料,χ2值简算公式
x
y
1
2
合计
1
2
a
c
b
d
a+b
c+d
合计
a+c
b+d
n
第二节成对比较检验
一、符号检验
这是略去两组样本数据之差的数值,只用其差的正、负符号进行判断的检验方法,亦称正负号检验。
1、检验内容:
检验的两组数据是否有显著差异或两总体的
位置特征(均值、中位数)是否相同。
2、适用条件:
关联样本资料;定性变量。
3、方法思想:
设有关联样本的两组成对的数据xi与yi,比较各对的大小。
若xi>yi,记作“+”;若xi<yi,记作“-”;
若xi=yi,删去,并相应减少n对数据。
若两组数据没有显著差异,它们之差的“+”、“-”号的个数应大致相等。
出现“+”(或“-”)的概率为0.5。
如果一次抽样的随机样本的配对数据中,“+”号出现过多或过少,在一定显著性水平α条件下属于小概率事件,就说明两组数据的平均水平或相对次数分布并不相同。
可见,配对符号检验是二项检验的一种应用。
由于P=0.5的二项分布呈对称型,所以,只要n>25,即可按正态分布近似处理。
4.检验步骤:
(2)
(1)
抽样。
将样本资料建立假设:
H0:
P=0.5
配对比较,计算(+)、H1:
P≠0.05(双侧)
(-)号个数H1:
P(+)>P(-)或P(+)<P(-)(单侧)
(3)
(4)
计算检验统计量设定显著性水平α,
n≤25时;“+”个数查表确定临界值或否
n>25时:
定域
(5)
比较并作出判断
例1:
随机抽取13个单位,放映一部描述吸烟有害健康的影片,
并调查得到观看电影前后各单位职工认为吸烟有害的人
数的百分比。
检验该电影宣传是否有效果(α=0.05)。
单位编号
1
2
3
4
5
6
7
8
9
10
11
12
13
(1)放映前(%)
(2)放映后(%)
(3)差异
(2)-
(1)
63
68
+
41
49
+
54
53
-
71
75
+
39
49
+
44
41
-
67
75
+
56
58
+
46
52
+
37
49
+
61
55
-
68
69
+
51
57
+
解:
H0:
P=0.5H1:
P≠0.5
P(13)=0.000
P(12)=0.002
P(11)=0.010
P(10)=0.035
P(13)+P(12)+P(11)=0.000+0.002+0.010=0.012<0.025
P(13)+P(12)+P(11)+P(10)=0.012+0.035=0.047>0.025
可见,拒绝域(双侧)应为0,1,2,11,12,13。
12
13
11
10
9
8
7
6
5
4
3
1
2
0
+
拒绝域
拒绝域
现检验统计量(+)=10(即10个正号),0.035>0.025
所以,原假设H0:
P=0.5在5%显著性水平上不能被拒绝。
也即不能认为职工在观看影片前后的认识有显著差异。
例2:
随机抽取60名消费者对甲、乙两种品牌的饮料评
分,甲、乙得分之差为“+”号者35个,“-”号15
个,“0”号10个。
以显著性水平α=0.05检验两种饮
料是否同等受欢迎。
解:
H0:
P=0.5,H1:
P≠0.5
∵n>25,∴按正态分布近似处理
该成数抽样分布的均值和标准差分别为
2.82>1.96,所以,拒绝原假设。
认为两种饮料并不受到同等欢迎。
且乙种优于甲种。
二、威尔科克森带符号检验(亦称威尔科克森秩和检验)
这种检验方法不仅考虑了两组数据差异的正、负号,而且还利用了其差异大小的信息。
因此,是一种更为有效的检验方法。
1、应用条件和检验内容与符号检验相同。
2、方法思想:
若关联样本的两组数据没有显著差异,则不仅其差异的正、负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)后,它们的正号(+)的秩和(记为T+)与负号(-)的秩和(记为T-)也应该大致相等。
其中之较小者也应趋近于总秩和的平均数()。
若正秩和(T+)与负秩和(T-)相差太大,其中较小者偏离总秩和的平均()较远,以致超过给定显著性水平α所确定的临界点,就可以认为这两组数据存在显著差异,即总体的分布不相同。
(6)
(2)
(1)
3.检验步骤
将样本数据配对并计算按差之绝对数大小排序
各对正负差值(等级),并按原正负号计
算正秩和(T+)与负秩和(T-)
(3)
(4)
建立假设:
H0:
T+=T-计算检验统计量
H1:
T+≠T-(双侧)当n≤25时,取T+、T-中之小者
H:
T+>T-或T+<T-(单侧)当n<25时,
(5)
设定α,并查表确定
临界值Tα(或Zα/2)
比较统计量与临界值
作出判断,对于n≤25,T≤Tα,
拒绝H0;T>Tα接受H0
第三节曼—惠特尼U检验
曼—惠特尼U检验适用于从两个总体中分别独立抽取两个样本的检验,方法思想与威尔科克森秩和检验相同。
检验步骤:
(3)
(4)
(2)
(1)
从总体A、B中分别独分别计算两个样本,
立抽取样本nA和nB,的秩和TA和TB
将(nA+nB)个观察值
从小到大编序
建立假设:
计算检验统计量
H0:
两总体A和B相①nA、nB<10时,取UA、UB中小者
对次数分布相同UA=nAnB+nA(nA+1)/2-TA
H1:
两总体相对次数UB=nAnB+nB(nB+1)/2-TB
分布不同②nA、nB>10时
(6)
(5)
设定显著性水平α,查比较统计量与临界值,
U表或Z表得到临界值作出判断,对于nA、nB<10
U≤Uα,拒绝H0,
U>Uα,接受H0
第四节游程检验
一、什么是游程检验
游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。
设某样本n=12人的标志表现为男、女,有以下三种排列。
(i)男,男,女,女,女,男,女,女,男,男,男,男
(ii)男,男,男,男,男,男,男,女,女,女,女,女
(iii)男,女,男,女,男,女,男,女,男,女,男,男
连续出现男或女的区段称为游程。
每个游程包含的个数为游程长度。
以r表示序列中游程的个数:
(i)r=5,(ii)r=2,(iii)r=11
可以看出,(i)是随机性序列;(ii)(iii)是非随机性序列,所以,可以用游程的个数来检验样本的随机性,或总体的分布特征。
二、游程检验方法
1.检验总体分布是否相同。
将从两个总体中独立抽取的两个样本的观察值混合后,观察游程个数,进行比较。
2.检验样本的随机性
将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数(或平均数),分为大于中位数的小于中位数的两个部分。
用上下交错形成的游程个数来检验样本是否是随机的。
3.检验规则(小样本。
n<20)
应用表La和Lb,(α=0.05,r为临界值)
(1)单侧检验:
否定Ho
观察到的游程个数ro≤临界值(La表)
或ro≥临界值(Lb表)
反之,接受Ho。
(2)双侧检验:
观察到的游程个数ro
r(La)<ro<r(Lb)接受Ho
下限上限
反之,拒绝Ho
4.大样本(n1或n2大于20),游程个数r近似正态分布,检验统计量
其中:
第五节等级相关检验
一、等级相关检验的基本原理
将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。
等级相关系数的计算公式
其中di为两变量每一对样本的等级之差,n为样本容量。
等级相关系数与相关系数一样,取值-1到+1之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。
二、等级相关系数的应用