第5讲多组平均水平的比较.docx

资源描述

第5讲多组平均水平的比较.docx

《第5讲多组平均水平的比较.docx》由会员分享，可在线阅读，更多相关《第5讲多组平均水平的比较.docx（24页珍藏版）》请在冰点文库上搜索。

第5讲多组平均水平的比较.docx

第5讲多组平均水平的比较

Stata软件基本操作和数据分析入门

第五讲多组平均水平的比较

赵耐青

一、复习和补充两组比较的统计检验

1.配对设计资料（又称为DependentSamples）

a）对于小样本的情况下，如果配对的差值资料服从正态分布，用配对t检验

（ttest差值变量=0）

b）大样本的情况下，可以用配对t检验

c）小样本的情况下，并且配对差值呈偏态分布，则用配对符号秩检验（signrank

差值变量=0）

2.成组设计（TwoIndependentSamples）

a）如果方差齐性并且大样本情况下，可以用成组t检验（ttest效应指标变

量,by（分组变量））

b）如果方差齐性并且两组资料分别呈正态分布，可以用成组t检验

c）如果方差不齐，或者小样本情况下偏态分布，则用秩和检验（Ranksumtest）

groupx

079

093

091

092

094

077

093

074

091

0101

083

073

088

0102

090

0100

081

091

083

0106

084

078

二、多组比较

1.完全随机分组设计（要求各组资料之间相互独立）

a）方差齐性并且独立以及每一组资料都服从正态分布（小样本时要求），则采用

完全随机设计的方差分析方法（即：

单因素方差分析，OneWayANOVA）进

行分析。

b）方差不齐或小样本情况下资料偏态，则用KruskalWallis检验（H检验）

例5.1为研究胃癌与胃粘膜细胞中DNA含量（A.U）的关系，某医师测得数据如下，试问四

组人群的胃粘膜细胞中平均DNA含量是否相同？

087

095

0101

1101

1100

1114

186

1106

1107

194

189

1104

198

1110

189

1103

189

1121

194

195

192

1109

198

1120

1104

1110

组别groupDNA含量（A.U）

浅表型胃炎19.8112.7312.2912.5312.959.5312.68.912.2714.2610.68

肠化生214.6117.5415.11713.3915.3213.7418.2413.8112.6314.5316.17

早期胃癌323.2620.820.623.517.8521.9122.1322.0419.5318.4121.4820.24

由于这四组对象的资料是相互独立的，因此属于完全随机分组类型的。

检验问题是考察四组

DNA含量的平均水平相同吗。

如果每一组资料都正态分布并且方差齐性可以用Oneway-

ANOVA进行分析，反之用KruskalWallis检验。

STATA数据输入格式

晚期胃癌423.7319.4622.3919.5325.920.4320.7120.0523.4121.3421.3825.70

19.81

112.73

112.29

112.53

112.95

19.53

112.6

18.9

112.27

114.26

110.68

214.61

217.54

215.1

217

213.39

215.32

213.74

218.24

213.81

212.63

214.53

216.17

323.26

320.8

320.6

323.5

317.85

321.91

322.13

322.04

319.53

318.41

321.48

320.24

423.73

419.46

422.39

分组正态性检验，=0.05

.sktestxifg==1

Skewness/KurtosistestsforNormality

-------joint------

Variable|Pr（Skewness）Pr（Kurtosis）adjchi2

（2）Prob>chi2

-------------+-------------------------------------------------------

x|0.4910.4851.070.5861

.sktestxifg==2

Skewness/KurtosistestsforNormality

-------joint------

Variable|Pr（Skewness）Pr（Kurtosis）adjchi2

（2）Prob>chi2

-------------+-------------------------------------------------------

x|0.4820.5410.960.6201

.sktestxifg==3

Skewness/KurtosistestsforNormality

-------joint------

Variable|Pr（Skewness）Pr（Kurtosis）adjchi2

（2）Prob>chi2

-------------+-------------------------------------------------------

x|0.5270.7500.520.7704

.sktestxifg==4

Skewness/KurtosistestsforNormality

-------joint------

Variable|Pr（Skewness）Pr（Kurtosis）adjchi2

（2）Prob>chi2

-------------+-------------------------------------------------------

x|0.2600.6161.750.4166

上述结果表明每一组资料都服从正态分布。

单因素方差分析的STATA命令：

oneway

效应指标变量分组变量,t

其中t表示计算每一组均数和标准差,b表示采用Bonferroni统计方法进行两

419.53

425.9

420.43

420.71

420.05

423.41

421.34

421.38

425.7

两比较。

本例命令为oneway

group,t

.onewayxg,tb

|Summaryofx

g|MeanStd.Dev.Freq.

------------+------------------------------------

1|11.6863641.688438811

2|15.1733331.74917312

3|20.9791671.766827912

4|22.00252.242908712

------------+------------------------------------

Total|17.5831914.608078947

AnalysisofVariance

SourceSSdfMSFProb>F

------------------------------------------------------------------------

Betweengroups824.9425493274.9808577.870.0000

Withingroups151.839445433.53114987

------------------------------------------------------------------------

Total976.7819944621.2343912

Bartlett'stestforequalvariances:

chi2（3）=1.1354Prob>chi2=0.769

方差齐性的检验为：

卡方=1.1354，自由度=3,P值=0.769，因此可以认为方差是齐性的。

H0：

1=2=3=4四组总体均数相同

H1：

1，2，3，4不全相同

=0.05，相应的统计量F=77.87以及相应的自由度为3和43，P值<0.0001，因此4组均数

的差别有统计学意义。

Comparisonofxbyg

（Bonferroni）

RowMean-|

ColMean|123

---------+---------------------------------

2|3.48697（第2组样本均数－第1组样本均数）

|0.000（H0:

1=2检验的P值）

3|9.29285.80583（第3组样本均数－第2组样本均数）

|0.0000.000（H0:

3=2检验的P值）

4|10.31616.829171.02333（第4组样本均数-第3组样本均数）

|0.0000.0001.000（H0:

3=4检验的P值）\

上述输出为两两比较的结果，在表格的每个单元中，第一行为两组均数的差值，第二行为两

组均数比较检验的P值。

根据上述结果可以知道，第2组、第3组和第4组的AU均数均大于第1组的AU均数，并

且差别有统计学意义。

说明肠化生患者和胃癌患者的DNA的AU含量平均水平均高于正常

人的AU平均水平，并且差别有统计学意义。

第3组和第4组的AU均数也大于第2组的AU平均水平，并且差别有统计学意义。

说明胃

癌患者的DNA的AU含量平均水平均高于肠化生患者的AU平均水平，并且差别有统计学

意义。

第3组和第4组两组均数的差别没有统计学意义，说明没有足够的证据可以DNA的AU含

量与癌症的早期与晚期有关系。

假如本例的资料不满足方差分析的要求，则用KruskalWallis检验，数据结构同上。

命令为：

kwallis效应指标变量,by（分组变量）

本例的命令为kwallisx,by（g）

H0：

4组的AU总体分布相同

H1：

4组的AU总体分布不全相同

=0.05

结果如下：

Test:

Equalityofpopulations（Kruskal-Wallistest）

g_Obs_RankSum

11172.00

212205.00

312411.50

412439.50

chi-squared=37.814with3d.f.

probability=0.0001

chi-squaredwithties=37.816with3d.f.

probability=0.0001

说明：

4组AU的总体分布不全相同，然后秩和检验，但应取小一些（多重比较时，会增大

第一类错误的概率）。

根据Sidak检验的建议：

（1）k1，其中k为要比较的次数，

为多组比较总的检验水平（一般为0.05），’为两两比较时的检验水平。

如本例：

4组两两比较共比2次，因此，

4C61

a1（0.95）60.0085

对于比较第1组和第2组的AU分布差别的操作命令为：

先计算中位数

sortg组别变量排序

byg:

centilex,centile（50）计算各组中位数

->g=1

--Binom.Interp.--

Variable|ObsPercentileCentile[95%Conf.Interval]

-------------+-------------------------------------------------------------

x|115012.299.72956412.7932

->g=2

--Binom.Interp.--

Variable|ObsPercentileCentile[95%Conf.Interval]

-------------+-------------------------------------------------------------

x|125014.85513.7474516.91172

->g=3

--Binom.Interp.--

Variable|ObsPercentileCentile[95%Conf.Interval]

-------------+-------------------------------------------------------------

x|125021.1419.6055222.12043

->g=4

--Binom.Interp.--

Variable|ObsPercentileCentile[95%Conf.Interval]

-------------+-------------------------------------------------------------

x|125021.3620.0904223.69596

得到这4组中位数分别为：

M1=12.29，M2=14.855，M3=21.14和M4=21.36

ranksumxifg==1|g==2,by（g）

Two-sampleWilcoxonrank-sum（Mann-Whitney）test

g|obsranksumexpected

-------------+---------------------------------

1|1172132

2|12204144

-------------+---------------------------------

combined|23276276

unadjustedvariance264.00

adjustmentforties0.00

----------

adjustedvariance264.00

Ho:

x（g==1）=x（g==2）

z=-3.693

Prob>|z|=0.0002

P值<’，因此第2组AU的平均水平要高于第1组的平均水平（M2>M1），并且差别有统计学

意义。

第1组与第3组比较

ranksumxifg==1|g==3,by（g）

Two-sampleWilcoxonrank-sum（Mann-Whitney）test

g|obsranksumexpected

-------------+---------------------------------

1|1166132

3|12210144

-------------+---------------------------------

combined|23276276

unadjustedvariance264.00

adjustmentforties0.00

----------

adjustedvariance264.00

Ho:

x（g==1）=x（g==3）

z=-4.062

Prob>|z|=0.0000

P值<’，因此第3组AU的平均水平要高于第1组的平均水平（M3>M1），并且差别有统计学

意义，其他比较类似进行。

要注意的问题：

在方差分析中，要求每一组资料服从正态分布（小样本时），并不是要求各组资料服从一

个正态分布（因为这就意味各组的总体均数相同，失去统计检验的必要性），所以不能把

各组的资料合在一起作正态性检验。

总的讲，方差分析对正态性具有稳健性，即：

偏态

分布对方差分析的结果影响不会太大，故正态性检验的取0.05也就可以了。

样本量较大时，方差分析对正态性要求大大降低（根据中心极限定理可知：

样本均数近

似服从正态分布）。

并且由于大多数情况下，样本资料只是近似服从正态分布而不是完

全服从正态分布。

由于在大样本情况下，用正态性检验就变为很敏感，对于不是完全服

从正态分布的资料往往会拒绝正态性检验的H0：

资料服从正态分布。

因为正态性检验

不能检验资料是否近似服从正态分布，而是检验是否服从正态分布。

故在大样本情况下，

考察资料的近似正态性，应用频数图进行考察。

方差齐性问题对方差分析相对比较敏感，并且并不是随着样本量增大而方差齐性对方差

分析减少影响的。

但是当各组样本量接近相同或相同时，方差齐性对方差分析呈现某种

稳健性。

即：

只有当各组样本量相同时，方差齐性对方差分析结果的影响大大降低。

这

时随着样本量增大，影响会进一步降低。

相反，如果各组样本量相差太大时，方差齐性

对方差分析结果的影响很大。

这时随着样本量增大，影响会进一步加大。

2.随机区组设计（处理组之间可能不独立）

a）残差（定义为：

ijiji..j，也就是随机区组方差分析中的误差项）eXXXX

的方差齐性且小样本时正态分布，则用随机区组的方差分析（无重复的两因

素方差分析,Two-wayANOVA）。

b）不满足方差齐性或小样本时资料偏态，则对用秩变换后再用随机区组的方

差分析也可以直接用非参数随机区组的秩和检验Fredmantest）。

例2下表是某湖水中8个观察地点不同季节取样的氯化物含量测定值，请问在不同季节该湖

水中氯化物的含量有无差别？

表2某湖水中不同季节的氯化物含量测定值（mg/L）

显然同一地点不同季节的氯化物含量有一定的相关性，故不能采用完全随机设计的方差

分析方法对4个季节的氯化物含量进行统计分析。

可以把同一地点的4个季节氯化物含量视为

一个区组，因此可以用随机区组的方差分析进行统计分析。

设第8个地点在冬季的氯化物总体均数为0，同样在冬季，第i个地点的氯化物总体均数

locationno春夏秋冬

121.2818.3317.2714.91

222.7819.8116.5514.85

320.9018.9316.3616.30

419.9021.2317.8615.73

521.4919.0915.1117.05

622.3817.9216.5714.34

721.6719.3917.1916.31

822.0619.6516.5814.33

与第8个地点在冬季的氯化物总体均数相差i，i=1，2，3，4，5，6，7。

因此在冬季的这8

个地点在冬季的氯化物总体均数可以表示为

假定在同一地区，春季的氯化物总体均数与冬季的氯化物总体均数相差1，因此春节和冬季

的氯化物总体均数可以表示为

如果1＝0说明在同一地点，冬季和春季的氯化物总体均数相同；1>0说明春季的氯化物含

量平均高于冬季氯化物含量，反之<0，说明春季氯化物含量均数低于冬季氯化物含量。

同理假定在同一地区，夏季和秋季的氯化物总体均数与冬季的氯化物总体均数分别相差2

和3，则四个季节的氯化物总体均数可以表示为

根据上述总体均数表示，可以知道：

在四个季节中的氯化物总体均数（同一地点）无变化就是

H0：

1=2=3=0（在随机区组方差分析中称为无处理效应，但不能称4组的总体均数相同，因

为在同一季节中不同地点的总体均数可能不同）。

H1：

1，2，3不全为0

Stata数据输入格式

地点编号12345678

冬季氯化物均数0+10+20+30+40+50+60+70

地点编号12345678

冬季氯化物均数0+10+20+30+40+50+60+70

春季氯化物均数0+1+10+1+20+1+30+1+40+1+50+1+60+1+70

地点编号12345678

冬季氯化物均数0+10+20+30+40+50+60+70

春季氯化物均数0+1+10+1+20+1+30+1+40+1+50+1+60+1+70

夏季氯化物均数0+2+10+2+20+2+30+2+40+2+50+2+60+2+70

春季氯化物均数0+3+10+3+20+3+30+3+40+3+50+3+60+3+70

tidx

1121.27589

1222.77649

1320.89943

1419.9043

1521.4929

1622.38085

1721.67344

1822.06133

2118.33405

2219.80538

2318.92919

2421.22814

2519.09215

2617.9237

2719.38569

2819.64971

3117.27141

其中id表示观察地点编号，t＝1，2，3，4对应表示春节、夏季、秋季和冬季。

Stata操作命令：

anovaxtid

.anovaxtid

Numberofobs=32R-squared=0.8923

RootMSE=1.01769AdjR-squared=0.8410

Source|PartialSSdfMSFProb>F

-----------+----------------------------------------------------

Model|180.2143261018.021432617.400.0000

t|177.344737359.114912257.080.0000

id|2.869589167.4099413080.400.8942

Residual|21.749618211.0356961

-----------+----------------------------------------------------

Total|201.963944316.51496593

处理效应H0：

1＝2＝3＝0的检验对应的统计量18.021

展开阅读全文

第5讲 多组平均水平的比较.docx

第5讲多组平均水平的比较.docx