第10章非参数检验.docx
《第10章非参数检验.docx》由会员分享,可在线阅读,更多相关《第10章非参数检验.docx(11页珍藏版)》请在冰点文库上搜索。
![第10章非参数检验.docx](https://file1.bingdoc.com/fileroot1/2023-7/23/844009cc-dd45-40a0-8e82-2c9ff1a096ce/844009cc-dd45-40a0-8e82-2c9ff1a096ce1.gif)
第10章非参数检验
第10章非参数检验
平时我们使用的统计推断方法大多为参数统计方法,它们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。
比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。
本节要讨论的统计方法着眼点不是总体参数,而是总体分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。
由于这一类方法不涉及总体参数,因而称为非参数统计方法。
SPSS的NonparametricTests菜单中一共提供了8种非参数分析方法,它们可以被分为两大类:
1、分布类型检验方法:
亦称拟合优度检验方法。
即检验样本所在总体是否服从已知的理论分布。
具体包括:
Chi-squaretest:
用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。
BinomialTest:
用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一分为二。
RunsTest:
用于检验样本序列随机性。
观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。
一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。
One-SampleKolmogorov-SmirnovTest:
采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。
2、分布位置检验方法:
用于检验样本所在总体的分布位置/形状是否相同。
具体包括:
Two-Independent-SamplesTests:
即成组设计的两独立样本的秩和检验。
TestsforSeveralIndependentSamples:
成组设计的多个独立样本的秩和检验,此处不提供两两比较方法。
Two-Related-SamplesTests:
配对设计的两样本秩和检验。
TestsforSeveralRelatedSamples:
配伍设计的多样本秩和检验,此处同样不提供两两比较。
一、 分布位置检验方法
1、TwoIndependentSamplesTest与KIndependentSamplesTest
用于检验两独立样本/多独立样本所在总体是否相同。
Two-lndependent-SamplesTest对话框:
(1) TestVariable框,指定检验变量。
(2) GroupingVariable框,指定分组变量。
DefineGroups对话框,Groupl和Groupl后的栏中,可指定分组变量的值。
(3) TestType框,确定用来进行检验的方法。
Mann-WhitneyU:
默认值,相当于两样本秩和检验。
Kolmogorov-SmimovZ:
K-S检验的一种。
Mosesextremereactions:
如果施加的处理使得某些个体出现正向效应,而另一些个体出现负向效应,就应当采用该检验方法。
Wald-Wolfowitzruns:
游程检验的一种,检验总体分布是否相同。
(4) Options对话框,选择输出结果形式及缺失值处理方式。
多个独立样本检验中不同之处:
DefineRange对话框,定义分组变量值范围。
Minimum:
分组变量范围的下限。
Maximum:
上限。
TestType框,确定用来进行检验的方法。
Kruskal-WallisH:
默认值,单向方差分析,检验多个样本在中位数上是否有差异;Median:
中位数检验,检验多个样本是否来自具有相同中位数的总体。
2、TwoRelatedSamplesTest与KRelatedSamplesTest
TwoRelatedSamplesTest是考察配对样本的总体分布是否相同,或者说差值总体是否以0为中心分布;KRelatedSamplesTest则用于检验多个配伍样本所在总体的分布是否相同。
Two-Related-SamplesTests对话框:
(1)TestPair(s)List框,指定检验变量对。
可有多对。
(2)TestType框,确定检验的方法。
Wilcoxon:
默认值,配对设计差值的秩和检验,利用次序大小。
Sign:
符号检验,利用正负号。
McNemar:
配对卡方检验,适用于两分类资料,特别适合自身对照设计。
MarginalHomogeneity:
适用于资料为有序分类情况。
(3)Options对话框中,选择输出结果形式及缺失值处理方式,
KRelatedSamplesTest用于多组间的非参数检验,不同之处在于:
A、比较方法不同:
☆ Friedman:
系统默认值,即最常用的随机区组设计资料的秩和检验,也被称为M检验。
☆ Kendall'sW:
该指标也被称为Kendall和谐系数,它表示的是K个指标间相互关联的程度(一致性程度),取值在0~1之间。
☆ Cochrarl'sQ:
是两相关样本McNemar检验在多样本情形下的推广,只适用于二分类变量。
B、Statistics对话框:
Descriplive,描述统计量。
Quartiles,四分位数。
二、分布类型检验方法
原理:
计算实际分布与理论分布间的差异,根据某种统计量求出P值。
1、Chi-squaretest
与行×列表卡方检验区别:
Chi-squaretest是检验分类数据样本所在总体分布(各类别所占比例)是否与已知总体分布相同,是一个单样本检验。
行×列表卡方检验是比较两个分类资料样本所在的总体分布是否相同,在spss中要用crosstable菜单来完成。
具体做法:
先按照已知总体的构成比分布计算出样本中各类别的期望频数,然后求出观测频数与期望频数的差值,最后计算出卡方统计量,利用卡方分布求出P值,得出检验结论。
例5.1某地一周内各日死亡数的分布如表所示,请检验一周内各日的死亡危险性是否相同?
周日 一 二 三 四 五 六 日
死亡数11 19 17 15 15 16 19
数据文件为death.sav:
day周日,death 死亡数。
Chi-SquareTest对话框:
(1)TestVariableList框,指定检验变量,可为多个变量。
(2)ExpectedRange栏,确定检验值的范围。
● Getfromdata选项,即最小值和最大值所确定的范围,系统默认该项。
● Usespecifiedrange选项,只检验数据中一个子集的值,在Lower和Upper参数框中键入检验范围的下限和上限。
(3)ExpectedValues栏,指定期望值。
● Allcategoriesequal选项,系统默认的检验值是所有组对应的期望值都相同,这意味着你要检验的总体是否服从均匀分布。
● Values选项,选定所要检验的与总体是否服从某个给定的分布,并在其右边的框中键人相应各组所对应的由给定分布所计算而得的期望值。
“Add”按钮,增加刚键入的期望值,必须大于0。
“Remove”按钮,移走错误值。
“Change”按钮,替换错误值。
(4)Options对话框。
A、Statistics栏,选择输出统计量。
Descriptive:
输出变量的均值、标准差、最大值、最小值、非缺失个体的数量。
Quartiles复选项,输出结果将包括四分位数的内容。
显示第25、50与75百分位数。
B、在MissingValues栏中选择对缺失值的处理方式。
具体操作如下:
Data→WeightCase→WeightCaseby:
→FrequencyVariable:
death→OK;
Analyze→NonparameticTest→Chi-Square→Testvariablelist:
day→OK。
卡方值X2=2.875,自由度(DF)=6,P=0.824,可认为一周内各日的死亡性是相同的。
2、Binomial Test(二项分布检验)
调用Binomial过程可对样本资料进行二项分布分析,检验二项分类变量是否来自概率为P的二项分布。
例5-2 某地某一时期内出生40名婴儿,其中女性12名(Sex=0),男性28名(sex=1)。
问该地出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同?
数据文件为sex.sav。
BinomialTest对话框:
(1) TestVariable框,指定检验变量。
(2) DefineDichotomy栏,定义二分值。
● Getfromdata选项,适用于指定的变量只有两个有效值,无缺失值。
● Cutpoint选项,如果指定的变量超过两个值,选择该项,并在参数框中键入一个试算点的值。
(3)Test参数框,指定检验概率值。
默认的检验概率值是0.5,这意味着要检验的二项是服从均匀分布的。
(3) Options对话框,选择输出结果形式及缺失值处理方式。
具体操作如下:
BinomialTestTest→TestVariableList→sex→TestProportion→0.50→OK。
二项分布检验表明,女婴12名,男婴28名,观察概率为0.7(即男婴占70%,检验概率为0.5,二项分布检验的结果是双侧概率为0.018,可认为男女比例的差异有高度显著性,即与通常的0.5的性比例相比,该地男婴比女婴明显多。
3、Runs Test(游程检验)
一个游程是指某序列中同类元素的一个持续的最大主集,或者说一个游程是指依时间或其他顺序排列的有序数列中,具有相同的事件或符号的连续部分。
游程检验用于检验样本或任何序列的随机性。
例5-3 某村发生一种地方病,其住户沿一条河排列,调查时对发病的住户标记为1,非发病住户为0,共26户,如下表所示。
0 1 1 0 0 0 1 0 0 1 0 O 0 0 1 1 O 0 1 0 0 0 0 1 0 l
数据文件为run.sav:
住户变量为epi。
RunsTest对话框:
(1)TestVariable框,指定检验变量。
(2)CutPoint栏,确定划分二分类的试算点。
中位数、众数、均数及用户指定临界割点。
(3)Options对话框,选择输出结果形式及缺失值处理方式。
具体操作如下:
RunsTest→TestVariable→epi→1→OK
从检验结果可见,本例游程个数为14,小于1有17个案例;而大于或等于1有9个案例。
Z=0.325,双尾检验概率P=0.746。
所以认为此地方病的病户沿河分布的情况无聚集性,而是呈随机分布。
4、单样本K-S检验
又称单样本柯尔莫哥洛夫-斯米诺夫检验(one-sampleKolmogorov-Smirmovtes)。
它是频数优度拟合检验,用于检验变量是否服从某一指定分布。
调用此过程可对单样本进行Kolmogorov-SmimovZ检验,它将一个变量的实际频数分布与正态分布(Normal)、均匀分布(Uniform)、泊松分布(Poisson)进行比较。
例5-4normtest.sav
One-SampleK-STest对话框:
(1)TestVariable框,指定检验变量。
(2)TestDistribution框,确定分布检验。
分别有:
正态分布(Normal)、均匀分布(Uniform)、泊松分布(Poisson)和指数分布(Exponential)。
默认为Normal。
(3)Options对话框,选择输出结果形式及缺失值处理方式。
10.1卡方检验
功能:
检验数据是否来自于一个指定的总体。
方法:
AnalyzeNonparametricTestsChiSquare
适用范围:
特别适合于频数资料的分析,也只接受和处理频数资料
Chi-Square是对单个样本作检验的推断方法,用于推断目前掌握的样本是否来自某特定分布总体,属拟合优度检验
〔1〕。
要求提供假定总体的理论频数;默认总体为均匀分布时无需提供理论频数
〔2〕。
Chi-Square过程通过分析实际频数与理论频数吻合的程序来完成检验,因此特别适合于频数资料的分析,也只接受和处理频数资料,如病人经治疗后治愈、好转、有效和无效的人数总的说来是否相同(实为治愈、好转、有效和无效的概率或机会是否相同),成绩优、良、中、差的学生人数总的说来是否相同,赞同某种观点的人数总的说来是否达到80%,等等。
要求样本足够大,按观察值从小到大的顺序提供理论频数。
理论频数通过主对话框中Expected Values的Values选项提供,All categories equal是默认项,即均匀分布。
若只想推断样本中某一范围内的频数是否来自某种特定分布总体,可通过主对话框中Expected Range的Use speciffied range选项提供范围的上、下限。
上述理论频数需根据假定总体分布计算或问题的实际背景确定。
例data10-01.savdata10-01a.savdata10-02.sav
10.2二项分布检验
功能:
检验数据是否来自于一个参数为p的二项分布的总体。
方法:
AnalyzeNonparametricTestsBinomial
Binomial过程对二值变量的单个样本作检验,推断总体中两类个体的比例是否分别为p和(1-p),p值通过Test Proportion选项提供,默认值是p=0.5
可借助于主对话框中Define Dichotomy的Cut point选项提供截断点,将连续变量转化成二值变量作分析;若提供的变量已经是二值变量,则不需提供截断点。
小样本时输出精确概率,大样本时输出正态近似法的结果。
显然,在大样本时,也可用Chi-Square过程完成。
例data10-03.sav
10.3游程检验
功能:
借助样本序列的顺序推断总体序列的顺序是否是随机的,属随机性检验。
方法:
AnalyzeNonparametricTestsRuns…
1,2,3,4,5,6,7,…;10,9,8,7,6,5,4,…;
Runs过程将变量转化成二值变量后再作检验,转化时所用截断点可以是Median、Mode、Mean或指定的数值,需通过Cut Point对话框指明截断点。
结果中只输出正态近似法的P值,因此要求样本足够大,样本不大时应利用结果提供的信息查表作结论,不可直接用结果中的P值作结论。
Runs检验的基本思想也用于分析两个独立样本数据,推断两个总体的分布是否相同,称Wald-Wolfowitz runs检验
例data10-04.sav
10.4一个样本的柯尔莫哥洛夫-斯米诺夫检验
功能:
检验数据是否来自于一个指定的总体。
方法:
AnalyzeNonparametricTests1-SampleK-S…
(正态\均匀\泊松\指数分布),即
检验统计量:
或
检验统计量:
或
检验统计量:
拒绝域:
结果中的Z是渐近统计量,大样本时α=0.05和α=0.01的界值分别是1.36和1.63,小样本时应读取结果中经验分布函数与理论分布函数的最大差值查界值表作结论,不可直接利用结果中的P值作结论。
此方法的基本思想还可用于推断两个独立样本是否来自相同的总体
大样本时的渐近公式:
适用范围:
是对单个样本作分析,属拟合优度检验.此过程直接处理原始数据,一般认为其功效比Chi-Square检验高,且在样本不大时也可用.
例data10-05a.sav
10.5两个独立样本的检验
功能:
两个样本相互独立,判断它们是否来自于相同的总体(即是否具有相同的分布)。
方法:
AnalyzeNonparametricTests2Independentsamples
把样本
混合起来,并且按照从小到大的顺序排列起来,令
为
的秩,
称作Wilcoxon统计量,以
表示Mann-Whitney统计量,则
,
,Z值是对上述
进行标准化之后的值,大样本时趋近于正态分布。
例data10-06.sav
10.6多个独立样本的检验
功能:
多个样本相互独立,判断它们是否来自于相同的总体(即是否具有相同的分布)。
方法:
AnalyzeNonparametricTestsKIndependentsamples
例data10-07.sav
10.7两个相关样本的检验
功能:
两个样本有配对关系,判断它们是否来自于相同的总体(即是否具有相同的分布)。
方法:
AnalyzeNonparametricTests2Relatedsamples
例data10-08.sav
10.8多个相关样本的检验
功能:
多个样本有配对关系,判断它们是否来自于相同的总体(即是否具有相同的分布)。
方法:
AnalyzeNonparametricTestsKRelatedsamples
例data10-09.sav