第5讲 多组平均水平的比较.docx
《第5讲 多组平均水平的比较.docx》由会员分享,可在线阅读,更多相关《第5讲 多组平均水平的比较.docx(24页珍藏版)》请在冰点文库上搜索。
第5讲多组平均水平的比较
Stata软件基本操作和数据分析入门
第五讲多组平均水平的比较
赵耐青
一、复习和补充两组比较的统计检验
1.配对设计资料(又称为DependentSamples)
a)对于小样本的情况下,如果配对的差值资料服从正态分布,用配对t检验
(ttest差值变量=0)
b)大样本的情况下,可以用配对t检验
c)小样本的情况下,并且配对差值呈偏态分布,则用配对符号秩检验(signrank
差值变量=0)
2.成组设计(TwoIndependentSamples)
a)如果方差齐性并且大样本情况下,可以用成组t检验(ttest效应指标变
量,by(分组变量))
b)如果方差齐性并且两组资料分别呈正态分布,可以用成组t检验
c)如果方差不齐,或者小样本情况下偏态分布,则用秩和检验(Ranksumtest)
groupx
079
093
091
092
094
077
093
074
091
0101
083
073
088
0102
090
0100
081
091
083
0106
084
078
二、多组比较
1.完全随机分组设计(要求各组资料之间相互独立)
a)方差齐性并且独立以及每一组资料都服从正态分布(小样本时要求),则采用
完全随机设计的方差分析方法(即:
单因素方差分析,OneWayANOVA)进
行分析。
b)方差不齐或小样本情况下资料偏态,则用KruskalWallis检验(H检验)
例5.1为研究胃癌与胃粘膜细胞中DNA含量(A.U)的关系,某医师测得数据如下,试问四
组人群的胃粘膜细胞中平均DNA含量是否相同?
087
095
0101
1101
1100
1114
186
1106
1107
1107
194
189
1104
198
1110
189
1103
189
1121
194
195
192
1109
198
198
1120
1104
1110
组别groupDNA含量(A.U)
浅表型胃炎19.8112.7312.2912.5312.959.5312.68.912.2714.2610.68
肠化生214.6117.5415.11713.3915.3213.7418.2413.8112.6314.5316.17
早期胃癌323.2620.820.623.517.8521.9122.1322.0419.5318.4121.4820.24
由于这四组对象的资料是相互独立的,因此属于完全随机分组类型的。
检验问题是考察四组
DNA含量的平均水平相同吗。
如果每一组资料都正态分布并且方差齐性可以用Oneway-
ANOVA进行分析,反之用KruskalWallis检验。
STATA数据输入格式
晚期胃癌423.7319.4622.3919.5325.920.4320.7120.0523.4121.3421.3825.70
gx
19.81
112.73
112.29
112.53
112.95
19.53
112.6
18.9
112.27
114.26
110.68
214.61
217.54
215.1
217
213.39
215.32
213.74
218.24
213.81
212.63
214.53
216.17
323.26
320.8
320.6
323.5
317.85
321.91
322.13
322.04
319.53
318.41
321.48
320.24
423.73
419.46
422.39
分组正态性检验,=0.05
.sktestxifg==1
Skewness/KurtosistestsforNormality
-------joint------
Variable|Pr(Skewness)Pr(Kurtosis)adjchi2
(2)Prob>chi2
-------------+-------------------------------------------------------
x|0.4910.4851.070.5861
.sktestxifg==2
Skewness/KurtosistestsforNormality
-------joint------
Variable|Pr(Skewness)Pr(Kurtosis)adjchi2
(2)Prob>chi2
-------------+-------------------------------------------------------
x|0.4820.5410.960.6201
.sktestxifg==3
Skewness/KurtosistestsforNormality
-------joint------
Variable|Pr(Skewness)Pr(Kurtosis)adjchi2
(2)Prob>chi2
-------------+-------------------------------------------------------
x|0.5270.7500.520.7704
.sktestxifg==4
Skewness/KurtosistestsforNormality
-------joint------
Variable|Pr(Skewness)Pr(Kurtosis)adjchi2
(2)Prob>chi2
-------------+-------------------------------------------------------
x|0.2600.6161.750.4166
上述结果表明每一组资料都服从正态分布。
单因素方差分析的STATA命令:
oneway
效应指标变量分组变量,t
b
其中t表示计算每一组均数和标准差,b表示采用Bonferroni统计方法进行两
419.53
425.9
420.43
420.71
420.05
423.41
421.34
421.38
425.7
两比较。
本例命令为oneway
x
group,t
b
.onewayxg,tb
|Summaryofx
g|MeanStd.Dev.Freq.
------------+------------------------------------
1|11.6863641.688438811
2|15.1733331.74917312
3|20.9791671.766827912
4|22.00252.242908712
------------+------------------------------------
Total|17.5831914.608078947
AnalysisofVariance
SourceSSdfMSFProb>F
------------------------------------------------------------------------
Betweengroups824.9425493274.9808577.870.0000
Withingroups151.839445433.53114987
------------------------------------------------------------------------
Total976.7819944621.2343912
Bartlett'stestforequalvariances:
chi2(3)=1.1354Prob>chi2=0.769
方差齐性的检验为:
卡方=1.1354,自由度=3,P值=0.769,因此可以认为方差是齐性的。
H0:
1=2=3=4四组总体均数相同
H1:
1,2,3,4不全相同
=0.05,相应的统计量F=77.87以及相应的自由度为3和43,P值<0.0001,因此4组均数
的差别有统计学意义。
Comparisonofxbyg
(Bonferroni)
RowMean-|
ColMean|123
---------+---------------------------------
2|3.48697(第2组样本均数-第1组样本均数)
|0.000(H0:
1=2检验的P值)
|
3|9.29285.80583(第3组样本均数-第2组样本均数)
|0.0000.000(H0:
3=2检验的P值)
|
4|10.31616.829171.02333(第4组样本均数-第3组样本均数)
|0.0000.0001.000(H0:
3=4检验的P值)\
上述输出为两两比较的结果,在表格的每个单元中,第一行为两组均数的差值,第二行为两
组均数比较检验的P值。
根据上述结果可以知道,第2组、第3组和第4组的AU均数均大于第1组的AU均数,并
且差别有统计学意义。
说明肠化生患者和胃癌患者的DNA的AU含量平均水平均高于正常
人的AU平均水平,并且差别有统计学意义。
第3组和第4组的AU均数也大于第2组的AU平均水平,并且差别有统计学意义。
说明胃
癌患者的DNA的AU含量平均水平均高于肠化生患者的AU平均水平,并且差别有统计学
意义。
第3组和第4组两组均数的差别没有统计学意义,说明没有足够的证据可以DNA的AU含
量与癌症的早期与晚期有关系。
假如本例的资料不满足方差分析的要求,则用KruskalWallis检验,数据结构同上。
命令为:
kwallis效应指标变量,by(分组变量)
本例的命令为kwallisx,by(g)
H0:
4组的AU总体分布相同
H1:
4组的AU总体分布不全相同
=0.05
结果如下:
Test:
Equalityofpopulations(Kruskal-Wallistest)
g_Obs_RankSum
11172.00
212205.00
312411.50
412439.50
chi-squared=37.814with3d.f.
probability=0.0001
chi-squaredwithties=37.816with3d.f.
probability=0.0001
说明:
4组AU的总体分布不全相同,然后秩和检验,但应取小一些(多重比较时,会增大
第一类错误的概率)。
根据Sidak检验的建议:
1
(1)k1,其中k为要比较的次数,
为多组比较总的检验水平(一般为0.05),’为两两比较时的检验水平。
如本例:
4组两两比较共比2次,因此,
4C61
a1(0.95)60.0085
对于比较第1组和第2组的AU分布差别的操作命令为:
先计算中位数
sortg组别变量排序
byg:
centilex,centile(50)计算各组中位数
->g=1
--Binom.Interp.--
Variable|ObsPercentileCentile[95%Conf.Interval]
-------------+-------------------------------------------------------------
x|115012.299.72956412.7932
->g=2
--Binom.Interp.--
Variable|ObsPercentileCentile[95%Conf.Interval]
-------------+-------------------------------------------------------------
x|125014.85513.7474516.91172
->g=3
--Binom.Interp.--
Variable|ObsPercentileCentile[95%Conf.Interval]
-------------+-------------------------------------------------------------
x|125021.1419.6055222.12043
->g=4
--Binom.Interp.--
Variable|ObsPercentileCentile[95%Conf.Interval]
-------------+-------------------------------------------------------------
x|125021.3620.0904223.69596
得到这4组中位数分别为:
M1=12.29,M2=14.855,M3=21.14和M4=21.36
ranksumxifg==1|g==2,by(g)
Two-sampleWilcoxonrank-sum(Mann-Whitney)test
g|obsranksumexpected
-------------+---------------------------------
1|1172132
2|12204144
-------------+---------------------------------
combined|23276276
unadjustedvariance264.00
adjustmentforties0.00
----------
adjustedvariance264.00
Ho:
x(g==1)=x(g==2)
z=-3.693
Prob>|z|=0.0002
P值<’,因此第2组AU的平均水平要高于第1组的平均水平(M2>M1),并且差别有统计学
意义。
第1组与第3组比较
ranksumxifg==1|g==3,by(g)
Two-sampleWilcoxonrank-sum(Mann-Whitney)test
g|obsranksumexpected
-------------+---------------------------------
1|1166132
3|12210144
-------------+---------------------------------
combined|23276276
unadjustedvariance264.00
adjustmentforties0.00
----------
adjustedvariance264.00
Ho:
x(g==1)=x(g==3)
z=-4.062
Prob>|z|=0.0000
P值<’,因此第3组AU的平均水平要高于第1组的平均水平(M3>M1),并且差别有统计学
意义,其他比较类似进行。
要注意的问题:
在方差分析中,要求每一组资料服从正态分布(小样本时),并不是要求各组资料服从一
个正态分布(因为这就意味各组的总体均数相同,失去统计检验的必要性),所以不能把
各组的资料合在一起作正态性检验。
总的讲,方差分析对正态性具有稳健性,即:
偏态
分布对方差分析的结果影响不会太大,故正态性检验的取0.05也就可以了。
样本量较大时,方差分析对正态性要求大大降低(根据中心极限定理可知:
样本均数近
似服从正态分布)。
并且由于大多数情况下,样本资料只是近似服从正态分布而不是完
全服从正态分布。
由于在大样本情况下,用正态性检验就变为很敏感,对于不是完全服
从正态分布的资料往往会拒绝正态性检验的H0:
资料服从正态分布。
因为正态性检验
不能检验资料是否近似服从正态分布,而是检验是否服从正态分布。
故在大样本情况下,
考察资料的近似正态性,应用频数图进行考察。
方差齐性问题对方差分析相对比较敏感,并且并不是随着样本量增大而方差齐性对方差
分析减少影响的。
但是当各组样本量接近相同或相同时,方差齐性对方差分析呈现某种
稳健性。
即:
只有当各组样本量相同时,方差齐性对方差分析结果的影响大大降低。
这
时随着样本量增大,影响会进一步降低。
相反,如果各组样本量相差太大时,方差齐性
对方差分析结果的影响很大。
这时随着样本量增大,影响会进一步加大。
2.随机区组设计(处理组之间可能不独立)
a)残差(定义为:
ijiji..j,也就是随机区组方差分析中的误差项)eXXXX
的方差齐性且小样本时正态分布,则用随机区组的方差分析(无重复的两因
素方差分析,Two-wayANOVA)。
b)不满足方差齐性或小样本时资料偏态,则对用秩变换后再用随机区组的方
差分析也可以直接用非参数随机区组的秩和检验Fredmantest)。
例2下表是某湖水中8个观察地点不同季节取样的氯化物含量测定值,请问在不同季节该湖
水中氯化物的含量有无差别?
表2某湖水中不同季节的氯化物含量测定值(mg/L)
显然同一地点不同季节的氯化物含量有一定的相关性,故不能采用完全随机设计的方差
分析方法对4个季节的氯化物含量进行统计分析。
可以把同一地点的4个季节氯化物含量视为
一个区组,因此可以用随机区组的方差分析进行统计分析。
设第8个地点在冬季的氯化物总体均数为0,同样在冬季,第i个地点的氯化物总体均数
locationno春夏秋冬
121.2818.3317.2714.91
222.7819.8116.5514.85
320.9018.9316.3616.30
419.9021.2317.8615.73
521.4919.0915.1117.05
622.3817.9216.5714.34
721.6719.3917.1916.31
822.0619.6516.5814.33
与第8个地点在冬季的氯化物总体均数相差i,i=1,2,3,4,5,6,7。
因此在冬季的这8
个地点在冬季的氯化物总体均数可以表示为
假定在同一地区,春季的氯化物总体均数与冬季的氯化物总体均数相差1,因此春节和冬季
的氯化物总体均数可以表示为
如果1=0说明在同一地点,冬季和春季的氯化物总体均数相同;1>0说明春季的氯化物含
量平均高于冬季氯化物含量,反之<0,说明春季氯化物含量均数低于冬季氯化物含量。
同理假定在同一地区,夏季和秋季的氯化物总体均数与冬季的氯化物总体均数分别相差2
和3,则四个季节的氯化物总体均数可以表示为
根据上述总体均数表示,可以知道:
在四个季节中的氯化物总体均数(同一地点)无变化就是
H0:
1=2=3=0(在随机区组方差分析中称为无处理效应,但不能称4组的总体均数相同,因
为在同一季节中不同地点的总体均数可能不同)。
H1:
1,2,3不全为0
Stata数据输入格式
地点编号12345678
冬季氯化物均数0+10+20+30+40+50+60+70
地点编号12345678
冬季氯化物均数0+10+20+30+40+50+60+70
春季氯化物均数0+1+10+1+20+1+30+1+40+1+50+1+60+1+70
地点编号12345678
冬季氯化物均数0+10+20+30+40+50+60+70
春季氯化物均数0+1+10+1+20+1+30+1+40+1+50+1+60+1+70
夏季氯化物均数0+2+10+2+20+2+30+2+40+2+50+2+60+2+70
春季氯化物均数0+3+10+3+20+3+30+3+40+3+50+3+60+3+70
tidx
1121.27589
1222.77649
1320.89943
1419.9043
1521.4929
1622.38085
1721.67344
1822.06133
2118.33405
2219.80538
2318.92919
2421.22814
2519.09215
2617.9237
2719.38569
2819.64971
3117.27141
其中id表示观察地点编号,t=1,2,3,4对应表示春节、夏季、秋季和冬季。
Stata操作命令:
anovaxtid
.anovaxtid
Numberofobs=32R-squared=0.8923
RootMSE=1.01769AdjR-squared=0.8410
Source|PartialSSdfMSFProb>F
-----------+----------------------------------------------------
Model|180.2143261018.021432617.400.0000
|
t|177.344737359.114912257.080.0000
id|2.869589167.4099413080.400.8942
|
Residual|21.749618211.0356961
-----------+----------------------------------------------------
Total|201.963944316.51496593
处理效应H0:
1=2=3=0的检验对应的统计量18.021