4T检验与非参数检验Word文件下载.docx

资源描述

4T检验与非参数检验Word文件下载.docx

《4T检验与非参数检验Word文件下载.docx》由会员分享，可在线阅读，更多相关《4T检验与非参数检验Word文件下载.docx（26页珍藏版）》请在冰点文库上搜索。

4T检验与非参数检验Word文件下载.docx

象所有连续随机变量一样，正态随机变量任意一个确定值的概率为0，非0概率只有在确定区间内才能得到。

二项分布与正态分布存在渐近关系。

二项分布的参数是n和p。

则概率P（a<

b）可以被正态分布N（np，npq）曲线下从（a-1/2）到（b+1/2）的面积所近似。

这一规则隐含有：

当a=b时，二项概率P（X=a）可以用正态曲线下的从（a-1/2）到（b+1/2）间的面积近似。

唯一例外的是P（X=0）及P（X=n）分别被正态曲线下1/2左边的面积及n-1/2右边的面积所近似。

二项分布对正态分布的近似有一个很重要的统计定理的特例，称为中心极限定理。

4.1.6极限定理

4.1.7样本平均数的分布

4.1.8t分布

4.1.9

分布

图4-4不同自由度的χ2分布曲线

4.1.10F分布

4.2统计检验的基本原理与方法

•4.2.1假设检验的基本概念

1．问题的提出

2．假设检验的步骤

一个完整的假设检验过程，通常包括以下四个步骤：

1）提出原假设（NullHypothesis）和备择假设（AlternativeHypothesis）；

2）确定适当的检验统计量并计算检验统计量的值；

3）规定显著性水平α；

4）做出统计决策。

4．p值的进一步说明

5．实际显著性

性和常识进行综合考虑，作出最后的判断。

6．关于实际显著性和统计显著性的重要一点

7.参数方法与非参数方法

4.2.2样本平均数的检验——u检验与t检验

SAS程序Ttest4_1.sas

查看t检验输出结果和方法：

t检验时SAS系统输出是按照①②③顺序，进行结论分析应按照③②①倒序查看。

先看③，判断数据是否来自同一方差总体，如果Pr>

F的值大于0.05，说明来自同一方差总体，可以使用t检验方法进行分析，否则应采用非参数检验。

然后看②中的Equal一行，判断两组均值是否相等，如果不等且Pr>

F值小于0.05，说明两组均值有显著差异，否则无差异。

然后查看①中Mean列，根据专业知识及两组均值的大小，判断是大的好还是小的好。

例4.2将20个样本随机分为两组，分别用两种培养基进行培养试验，测得有效成份如下，问两组的平均值有无差别。

treat1：

a培养基（11）10，20，40，40，40，80，80，160，160，160，320

treat2：

b培养基（9人）10，10，10，20，20，20，20，40，40

Ho：

两组均值相等μ1=μ2，Ha：

两组均值不等μ1≠μ2，显著水平α=0.05。

由于数据面倍数关系，所以先将两组数据分别取对数，以对数作为新变量进行比较。

用变换后的数据再代入以上公式计算t值。

SAS程序Ttest4_2.sas

4.2.3双尾检验与单尾检验

4.2.4非参数检验

1．Χ2检验

2．符号检验

3．秩和检验法

4.3TTEST过程—比较t检验

•4.3.1TEST过程简介

1．TEST过程简介

TTEST过程在一些假设条件下计算t统计量，用以检验“两组观测值均值相等”这个原假设。

假设条件有以下两点：

1）两组观测方差相等。

2）在每个组内，各个观测独立，且服从相同的正态分布。

如果两组观测方差不等，则计算近似的t统计量，同时用Satterhwaire方法计算其近似自由度，又可以要求用Cochran和Cox方法近似计算t检验的概率水平。

计算F’（Folded）统计量用于检验两个方差是否相等。

TTEST过程不是为成对数据比较设计的，对成对数据，可用MEANS过程或UNIVERATE过程检验成对数据的差值是否为零，以判断成对数据均值是否相等。

4.3.2TTEST过程举例说明

例4.3为了解某乡粮田土壤肥力的变化情况，1998年和1999年连续两年对9个监测点进行取土样化验有机质含量。

y1代表1998年化验结果，该年土壤有机质平均含量为1.21%，y2代表1999年化验结果，分析两年间土壤有机质变化情况。

SAS程序Ｔtest4_3.sas

输出结果简介：

ForH0:

Variancesareequal,F'

=2.08DF=（8,8）Prob>

=0.3203

从输出的最下方可知，两组变量来自同一方差总体。

T-Tests

VariableMethodVariancesDFtValuePr>

|t|

xPooledEqual160.520.6127

xSatterthwaiteUnequal14.20.520.6136

在方差相等的前提下，两组均值相等的概率为0.6127，所以1998年和1999年间该乡土壤有机质含量没有大的变化，即土壤肥力差异不明显。

例4.4此试验的目的是看看与单纯繁殖相比，杂交能否显著提高肉鸡的生长速度。

实验数据是在8周龄测得的体重（单位：

克）。

SAS程序Ttest4_4.sas

例4.5研究皱纹盘鲍卵受精时间对受精率及孵化率的影响，其中a、b代表不同的受精时间，a：

受精时间0.5小时；

b：

受精时间1.0小时；

每组有8个试验组，则数据集有16个观测，观测值均为百分数，请分析在不同的受精时间下，对海产单壳经济水产品皱纹盘鲍卵的孵化率是否有显著差异，以确定人工繁殖时的受精时间，提高孵化率。

SAS程序Ttest4_5.sas

例4.5结果说明：

从t检验输出结果可以看出：

方差相等的假设是不合理的，方差相等假设成立的概率仅为0.0594。

双边检验F值（大方差除以小方差）为4.67，所以应该使用方差不相等的检验。

从而采用Unequel一行的t值、DF和概率。

通过t检验结果得出，受精时间为0.5h和受精时间为1.0h的两个试验组在孵化率上有显著的差异，概率水平为0.0022。

受精时间为0.5h的皱纹盘鲍卵的孵化率显著高于受精时间为1.0h的皱纹盘鲍卵的孵化率。

但对于两组变量，当方差不等，且样本数小于30时，应采用非参数检验，否则可能得出错误的结论。

建议使用后面讲到的Npar1way过程进行非参数检验。

4.4NPAR1WAY过程（非参数检验过程）

1．NPAR1WAY过程简介

NPAR1WAY过程是基于经验分布函数（EDF）和跨过单向分类的因变量的秩得分，计算出几个统计量，用以检验变量的分布在跨过不同组时有相同的位置参数。

秩得分包括Wilcoxon得分，中位数得分，Savage得分和VanderWaerden得分。

关于这些得分的说明请参考有关非参数检验的统计书。

NPAR1WAY过程语句

PROCNPAR1WAY选择项;

CLASS变量列表;

BY变量列表;

VAR变量列表;

RUN;

4.4.2NPAR1WAY过程举例说明

例4.6将例4.5用NPAR1WAY过程进行非参数检验。

SAS程序——Npar1way4_6.sas

datanpar1way4_6;

inputtime$fuhualv@@;

cards;

a73a65a72a65a64a77a71a66

b59b64b61b63b64b61b62b58

;

procnpar1way;

classtime;

varfuhualv;

title'

fuhualv'

;

run;

结果说明：

通过多种方法的比较与检验，两组数据都存在显著差异，即受精时间为0.5h和受精时间为1.0h的两个试验组在孵化率上有显著的差异。

虽然与t检验在方差不等的前提下得到的结论相同，但通过进行多种非参数检验，结论更有说服力，且显著水平也明显高于t检验的结果。

KruskalWallis卡方检验的显著水平为0.0011，VanderWaerden法的显著水平为0.0017。

均高于0.0022，说明对于这种数据，采用非参数检验，统计结果更精确。

因此根据数据特点选择合适的方法进行统计分析，有助于我们得到科学而准确的结论。

例4.7数据来源：

中国农大昌平试验站用a、b两种饲料对香猪进行饲养试验。

每组6头香猪，两组共有12个观测值。

数据是6周时每头香猪的增重结果，单位：

Kg。

分析这两种饲料对香猪的增重有无差异。

增重数据如下：

a种饲料：

6.656.357.057.908.044.45

b种饲料：

5.347.007.897.056.747.28

由于试验样本小，应采用非参数检验方法进行检验。

SAS程序Npar1way4_7.sas

其中Chi-Square是卡方χ2统计量，Kruskal-Wallis检验的Chi-Square=0.0064，Prob>

Chi-Square=0.9361，大于0.05，卡方检验不显著，即用a、b两种饲料饲喟香猪对香猪的增重效果没有差异，两种饲料的增重效果一样。

这个试验数据计算出的概率值为1.0，有些特殊，通常我们处理的数据不会这样。

如果使用TTEST过程对这组数据进行检验，也得到两种饲料对香猪的增重效果无差异的结论。

但是对于小样本的试验数据应选择非参数检验方法进行统计分析，否则得到的结论的可信度会受到质疑。

4.5综合应用

•4.5.1配对数据的统计分析

配对试验设计

进行单因素2水平试验设计时，对同一个指标观测2个数据，这2个数据来自同1个受试对象或来自非常相同（对重要的非处理因素而言）的2个受试对象，故把这2个数据看作一对。

这种设计称为配对设计。

根据每对数据所对应的具体条件，可将配对设计分为以下3种：

自身配对设计：

每对数据测量来自同一个受试对象。

同源配对设计：

每对数据测量来自同一窝（或胎）的2个受试对象。

条件相近者配对设计：

每对数据测量来自条件（指最重要的非处理因素）相近的2个受试对象。

第1部分是对差量算出的各种简单样本统计量的值。

如均数=7.59，标准差=4.38。

第2部分是有关统计检验的结果。

先看差量是否服从正态分布，零假设是差量服从正态分布，备择假设是差量不服从正态分布。

W=0.，P=0.8944，大于0.05，接受零假设。

应该用关于差量的总体均数为零的t检验的结果：

t=5.47，P=0.0004，拒绝Ho：

差量均数为零的假设。

结论为：

服这种亲朋药前后对病人体内的Baci含量有显著影响，这种药对治疗腹泻有较好的效果。

（提示：

如果差量不服从正态分布，则应该用符号秩（SgnRank）检验的结果，即参照SignMPr>

=|M|一行的结论。

）

4.5.2成组试验数据的统计分析

1.单因素双水平随机试验设计

2.检验方法的前提条件

　　对成组设计的试验数据进行检验分析之前，要先判断试验数据是否满足以下2个前提条件：

1）正态性：

各组数据应独立，且来自同一正态总体。

2）方差齐性：

2组数据的总体方差应该相等。

例4.10　某植物营养实验室进行肥料对草坪颜色质量的研究，选择两种肥料进行试验，数据是两种肥料对草坪颜色的分数。

分析两种肥料对草坪颜色质量的影响是否有差异。

由于样本量小，应采用非参数检验。

SAS程序npar1way4_10.sas

以上是NPAR1WAY过程的非参数秩和检验结果。

Kruskal-Wallis卡方检验得：

Chi-Square=4.6933，p=0.303，，两组秩和相等的概率小于0.05，即两组秩和不等，两种肥料对草平颜色质量的影响有显著的差异。

由秩和得分知：

f1肥料显著好于f2肥料，在维护草平时建议推广使用f1肥料。

由于样本量小，且数据不服从正态分布，故不能采用t检验，应采用非参数的秩和检验。

如果采用近似t检验，由输出的双尾检验结果得p=0.0621，大小0.05，两种肥料对草平颜色质量的影响无差异。

结论错误。

如果使用TTEST过程进行分析也会得到错误结论。

4.5.4SAS/ASSIST中的t检验与非参数检验

1、SAS/ASSIST中的TTEST检验

选择菜单Solutions/ASSIST，启动ASSIST模块。

展开阅读全文