完全随机设计KruskalWallis秩与检验.docx

资源描述

完全随机设计KruskalWallis秩与检验.docx

《完全随机设计KruskalWallis秩与检验.docx》由会员分享，可在线阅读，更多相关《完全随机设计KruskalWallis秩与检验.docx（9页珍藏版）》请在冰点文库上搜索。

完全随机设计KruskalWallis秩与检验.docx

完全随机设计KruskalWallis秩与检验

资料范本

本资料为word版本，可以直接编辑和打印，感谢您的下载

完全随机设计Kruskal-Wallis秩与检验

地点：

__________________

时间：

__________________

说明：

本资料适用于约定双方经过谈判，协商而共同承认，共同遵守的责任与义务，仅供参考，文档可直接下载或修改，不需要的部分可直接删除，使用时请详细阅读内容

完全随机设计Kruskal-Wallis秩和检验

完全随机设计的Kruskal-Wallis秩和检验

方差分析过程关注三个或更多总体的均值是否相等的问题，数据是被假设成具有正态分布和相等的方差，此时F检验才能奏效。

但有时采集的数据常常不能完全满足这些条件。

象两两样本比较时，我们不妨尝试将数据转换成秩统计量，因为秩统计量的分布与总体分布无关，可以摆脱总体分布的束缚。

在比较两个以上的总体时，广泛使用非参数的Kruskal-Wallis秩和检验，它是对两个以上的秩样本进行比较，本质上它是两样本时的Wilcoxon秩和检验方法在多于两个样本时的推广。

Kruskal-Wallis秩和检验，首先要求从总体中抽取的样本必须是对立的，然后将所有样本的值混合在一起看成是单一样本，再把这个单一的混合样本中值从小到大排序，序列值替换成秩值，最小的值给予秩值1，有结值时平分秩值。

将数据样本转换成秩样本后，再对这个秩样本进行方差分析，但此时我们构造的统计量KW不是组间平均平方和除以组内平均平方和，而是组间平方和除以全体样本秩方差。

这个KW统计量是我们判定各组之间是否存在差异的有力依据。

设有组样本，是第组样本中的观察数，是所有样本中的观察总数，是第组样本中的秩和，是第组样本中的第个观察值的秩值。

需要检验的原假设为各组之间不存在差异，或者说各组的样本来自的总体具有相同的中心或均值或中位数。

在原假设为真时，各组样本的秩平均应该与全体样本的秩平均比较接近。

所以组间平方和为

恰好是刻划这种接近程度的一个统计量，除以全体样本秩方差，可以消除量纲的影响。

样本方差的自由度为。

所以全体样本的秩方差为

因此，Kruskal-Wallis秩和统计量KW

如果样本中存在结值，需要调整公式（29.3）中的KW统计量，校正系数C为

其中第j个结值的个数。

调整后的KWc统计量为

如果每组样本中的观察数目至少有5个，那么样本统计量KWc非常接近自由度为的卡方分布。

因此，我们将用卡方分布来决定KWc统计量的检验。

例29.1某制造商雇用了来自三个本地大学的雇员作为管理人员。

最近，公司的人事部门已经收集信息并考核了年度工作成绩。

从三个大学来的雇员中随机地抽取了三个独立样本，见表29.1中的第2、4、6列所示。

制造商想知道是否来自这三个不同的大学的雇员在管理岗位上的表现有所不同。

表29.1来自三个不同大学雇员得分及统一秩值

为了计算KW统计量，我们首先必须将来自三个大学的20名雇员统一按考核成绩编排秩指，见表29.1中的第3、5、7列所示。

本例中，7，6，7，20，95，27，88，3，三个总体的考核成绩分布是相同的。

我们用（29.3）式计算KW统计量为

用（29.4）式计算校正系数C，从表29.1中我们可以发现，相等成绩值和相等的个数分别为60分3个，70分3个，80分2个，90分2个。

所以

调整后的KWc为

查表可知道，自由度为卡方分布，在显著水平下，分布的上尾临界值为5.99，由于8.98>5.99，所以拒绝原假设。

因此秩和最低的B组至少与秩和最高的A组是不同的。

freq频数过程

Freq频数过程可以生成单向和n向的频率表和交叉表。

对于双向表（二维表），该过程计算检验统计量和关联度。

对于n向表，该过程进行分层分析，计算每一层和交叉层的统计量。

这些频数也能够输出到SAS数据集里。

freq过程说明

procfreq过程一般由下列语句控制：

该过程procfreq语句是必须的。

其余语句是供选择的。

另外该过程只能使用一个output语句。

procfreq语句的选项

order=freq/data/internal/formatted——规定变量水平的排列次序。

freq表示按频数下降的次序，data表示按输入数据集中出现的次序，internal表示按非格式化值的次序（缺省值），formatted按格式化值的次序。

formachar（1,2,7）=’三个字符’——规定用来构造列联表的轮廓线和分隔线的字符。

缺省值为formachar（1,2,7）=’|－+’，第一个字符用来表示垂直线，第二个字符用来表示水平线，第三个字符用来表示水平与垂直的交叉线。

page——要求freq每页只输出一张表。

否则按每页行数允许的空间输出几张表。

noprint——禁止freq过程产生所有输出。

by语句

一个by语句能够用来得到由by变量定义的分组观察分别进行分析。

过程要求输入的数据集已按by变量排序。

tables语句

可以包括多个tables语句。

如果没有tables语句，对数据集中的每个变量都生成一个单向频数表。

如果tables语句没有选项，则计算tables语句中规定变量每个水平的频数、累计频数、占总频数的百分比及累计百分比。

Tables语句中的交叉表的表达式，请参见第二章第二节proctabulate过程中的table语句的用法。

Tables语句中的主要选项如下：

all——要求计算所有选项的检验和度量，包括chisq、measures和cmh。

chisq——要求对每层是否齐性或独立性进行卡方检验，包括pearson卡方、似然比卡方和Mantel-Haenszel卡方。

并计算依赖于卡方统计量的关联度，包括phi系数、列联系数和CramerV。

对于2×2联列表还自动计算Fisher的精确检验。

cmh——要求Cochran-Mantel-Haenszel卡方统计量，用于2维以上表时，检验行变量和列变量是否有线性相关。

exact——要求对大于2×2表计算Fisher的精确检验。

Fisher的精确检验是假设行与列的边缘频数固定，并且零假设为真时，各种可能的表的超几何概率之和。

measures——要求计算若干个有关相关的统计量几它们的渐近标准误差。

alpha=p——设定100（1－p）%置信区间。

缺省值为alpha=0.05。

scores=rank/table/ridit/modridit——定义行/列得分的类型以便用于cmh统计量和pearson相关中。

在非参数检验中，一般常用scores=rank，用于指定非参数分析的秩得分。

cellchi2——要求输出每个单元对总卡方统计量的贡献。

cumcol——要求在单元中输出累计列百分数。

expected——在独立性（或齐性）假设下，要求输出单元频数的期望值。

deviation——要求输出单元频数和期望值的偏差。

missprint——要求所有频数表输出缺失值的频数。

missing——要求把缺失值当作非缺失值看待，在计算百分数及其他统计量时包括它们。

out=输出数据集——建立一个包括变量值和频数的输出数据集。

sparse——要求输出在制表要求中变量水平的所有可能组合的信息。

list——以表格形式打印二维表。

nocum/norow/nocol/nofreq/noprint——分别不输出累计频率数、行百分率、列百分率、单元频数、频数表。

weight语句

通常每个观察对频数计数的贡献都是1。

然而当使用weight语句时，每个观察对频数计数的贡献为这个观察对应的权数变量的值。

output语句

该语句用于创建一个包含由procfreq过程计算的统计量的SAS数据集。

由output语句创建的数据集可以包括在tables语句中要求的任意统计量。

当有多个tables语句时，output语句创建的数据集的内容相应于最后要求的那个表。

实例分析

例29.1的SAS程序如下：

程序说明：

建立输入数据集colleges，数据的输入和完全随机化方差分析的数据输入完全相同，先输入本组数据的总数，然后输入组中每个数据。

分组变量为group，共有三组取值为1、2和3。

输入变量为x，存放每组中的数据。

过程步调用npar1way过程，后面用选择项wilcoxon，当样本数大于2个时，自动进行多样本的Kruskal-Wallis秩和检验。

class语句后给出分组变量名group，var语句后给出要分析的变量x。

主要结果见表29.2所示。

表29.2用npar1way过程进行多样本比较的Kruskal-Wallis秩和检验输出结果

NPAR1WAYPROCEDURE

WilcoxonScores（RankSums）forVariableX

ClassifiedbyVariableGROUP

SumofExpectedStdDevMean

GROUPNScoresUnderH0UnderH0Score

1795.073.500000012.571898513.5714286

2627.063.000000012.07868944.5000000

3788.073.500000012.571898512.5714286

AverageScoresWereUsedforTies

Kruskal-WallisTest（Chi-SquareApproximation）

CHISQ=8.9839DF=2Prob>CHISQ=0.0112

结果说明：

组1、组2和组3的秩和（SumofScores）分别为95.0、27.0和88.0。

原假设（组1、组2和组3的总体分布相同）为真时，期望秩值（Expected）分别为（95+27+88）×7/（7+6+7）=73.50、（95+27+88）×6/（7+6+7）=63.00和（95+27+88）×7/（7+6+7）=73.50，各组的标准差（StdDev）分别为12.5718985、12.0786894、12.5718985。

每组平均得分（MeanScore）分别为95/7=13.5714286、27/6=4.50和88/7=12.5714286。

按公式（29.5）调整后多样本的Kruskal-Wallis秩和检验统计量为8.9839，用自由度为DF=3－1=2的卡方分布近似，得到大于近似卡方检验统计量8.9839的概率为p=0.0112<0.05，拒绝原假设。

结论为各组的总体分布的差异是有统计学意义的。

根据平均秩和的结果，组1的最高，组2的最低，因此至少组1和组2的差异是显著的。

例29.1的SAS程序我们还可以采用freq过程，在tables语句中选项用scores=rank和cmh，查看第二项统计量既为Kruskal-Wallis检验，程序如下：

程序CHAP4_04_2.SAS

程序说明：

freq过程选项formachar='|----|+--'，用来构造表格的轮廓线和分隔线的字符，由于不同操作系统中，符号编码可能有所不同，所以缺省值可能不符合你的要求，需要你重新定义一下。

Tablesgroup*x语句，把组变量group中3个不同大学，与成绩变量x中14个分组成绩（最小值为15，最大值为95，间隔为5，共14组），构成了一个单层3行14列二维交叉频率表，选项scores=rank指定为非参数秩得分的情况，选项cmh计算Cochran-Mantel-Haenszel卡方统计量。

主要结果见表29.3所示。

表29.3用freq过程对每层秩得分进行Kruskal-Wallis秩和检验的输出结果

TABLEOFGROUPBYX

GROUPX

Frequency|

Percent|

RowPct|

ColPct|15|20|25|30|35|40|50|Total

---------+--------+--------+--------+--------+--------+--------+--------+

1|0|0|1|0|0|0|0|7

|0.00|0.00|5.00|0.00|0.00|0.00|0.00|35.00

|0.00|0.00|14.29|0.00|0.00|0.00|0.00|

|0.00|0.00|100.00|0.00|0.00|0.00|0.00|

---------+--------+--------+--------+--------+--------+--------+--------+

2|1|1|0|1|1|1|0|6

|5.00|5.00|0.00|5.00|5.00|5.00|0.00|30.00

|16.67|16.67|0.00|16.67|16.67|16.67|0.00|

|100.00|100.00|0.00|100.00|100.00|100.00|0.00|

---------+--------+--------+--------+--------+--------+--------+--------+

3|0|0|0|0|0|0|1|7

|0.00|0.00|0.00|0.00|0.00|0.00|5.00|35.00

|0.00|0.00|0.00|0.00|0.00|0.00|14.29|

|0.00|0.00|0.00|0.00|0.00|0.00|100.00|

---------+--------+--------+--------+--------+--------+--------+--------+

Total111111120

5.005.005.005.005.005.005.00100.00

（Continued）

|60|70|75|80|85|90|95|Total

---------+--------+--------+--------+--------+--------+--------+--------+

1|1|1|0|1|1|1|1|7

|5.00|5.00|0.00|5.00|5.00|5.00|5.00|35.00

|14.29|14.29|0.00|14.29|14.29|14.29|14.29|

|33.33|33.33|0.00|50.00|100.00|50.00|100.00|

---------+--------+--------+--------+--------+--------+--------+--------+

2|1|0|0|0|0|0|0|6

|5.00|0.00|0.00|0.00|0.00|0.00|0.00|30.00

|16.67|0.00|0.00|0.00|0.00|0.00|0.00|

|33.33|0.00|0.00|0.00|0.00|0.00|0.00|

---------+--------+--------+--------+--------+--------+--------+--------+

3|1|2|1|1|0|1|0|7

|5.00|10.00|5.00|5.00|0.00|5.00|0.00|35.00

|14.29|28.57|14.29|14.29|0.00|14.29|0.00|

|33.33|66.67|100.00|50.00|0.00|50.00|0.00|

---------+--------+--------+--------+--------+--------+--------+--------+

Total331212120

15.0015.005.0010.005.0010.005.00100.00

SUMMARYSTATISTICSFORGROUPBYX

Cochran-Mantel-HaenszelStatistics（BasedonRankScores）

StatisticAlternativeHypothesisDFValueProb

1NonzeroCorrelation10.1010.751

2RowMeanScoresDiffer28.9840.011

3GeneralAssociation2623.2220.620

TotalSampleSize=20

结果说明：

输出一张单层的3行×14列的频数表，行列交叉单元中的第一个值为单元频数（Frequency），即两个变量group和x的组合值出现的频数，第二个值为单元百分数（Percent）,即出现的频数在总频数中的百分比，第三个值为行百分数（RowPct）,即出现的频数在所在行总频数中的百分比，第四个值为列百分数（ColPct）,即出现的频数在所在列总频数中的百分比。

cmh统计量假定各层是独立的，并且每层的周边总和是固定的。

原假设为任一层中的行变量与列变量不相关。

本例中只有一层。

当原假设为真时，cmh统计量渐近卡方分布。

第一项cmh统计量为相关统计量，由Mantel和Haenszel提出，首先要求行变量或列变量是有序的。

原假设为每一层的行变量与列变量不线性相关，自由度始终为1，卡方值为0.101，p=0.751>0.05，因此不能拒绝group和x不线性相关。

第二项cmh统计量为ANOVA统计量，首先要求列变量x是有序的。

原假设为每一层的3个行的x平均得分是相等的，本例只有一层，且得分指定scores=rank选项，即用秩得分方法，因此就是Kruskal-Wallis秩和检验统计量，自由度为行数减1，即3－1=2，渐近自由度为2的卡方分布，KW=8.984，p=0.011<0.05，拒绝3个行的x平均得分是相等的。

第三项cmh统计量为一般相关统计量，不要求行变量或列变量是有序的。

原假设为每一层的行变量与列变量不相关，自由度为（3－1）×（14－1）=26，修正的pearson卡方统计量为23.222，p=0.620>0.05，不能拒绝不相关。

展开阅读全文