计算可信区间.docx

资源描述

计算可信区间.docx

《计算可信区间.docx》由会员分享，可在线阅读，更多相关《计算可信区间.docx（6页珍藏版）》请在冰点文库上搜索。

计算可信区间.docx

计算可信区间

循证医学中经常使用可信区间的研究之阿布丰王创作

时间：

二O二一年七月二十九日

作者：

刘关键洪旗四川年夜学华西医院临床流行病学教研室成都610041

Studyofstatisticalmeasuresinevidence-basedmedicine

LIUGuan-jian,HONGQi.（DepartmentofClinicalEpidemiology,TheWestChinaHospitalofSichuanUniversity,Chengdu,610041China）

ABSTRACTS:

Inthispaper,weintroducemeaningandpurposeofconfidenceinterval（CI）inEvidence-BasedMedicine,Forexample,RRR、ARR、NNT.It'sreferanceforuseranddoerofEBMinChina.

Keywords:

Confidenceinterval;evidence-basedmedicine

在循证医学的研究或应用中,经常使用可信区间（confidenceinterval,CI）对某事件的总体进行推断.可信区间是按一定的概率去估计总体参数（均数或率）所在的范围,它是按预先给定的概率（1-a,常取95%或99%）确定未知参数值的可能范围,这个范围被称为所估计参数值的可信区间或置信区间.如95%可信区间,就是从被估计的总体中随机抽取含量为n的样本,由每一个样本计算一个可信区间,理论上其中有95%的可能性（概率）将包括被估计的参数.故任何一个样本所得95%可信区间用于估计总体参数时,被估计的参数不在该区间内的可能性（概率）仅有5%.可信区间是以上、下可信限为界的一个开区间（不包括界值在内）.可信限（confidencelimit,CL）或置信限只是可信区间的上、下界值.可信区间的用途主要有两个：

（1）估计总体参数,在临床科研工作,许多指标都是从样本资料获取,若要获得某个指标的总体值（参数）时,经常使用可信区间来估计.如率的可信区间是用于估计总体率、均数的可信区间用于估计总体均数.

（2）假设检验,可信区间也可用于假设检验,95%的可信区间与a为0.05的假设检验等价.若某研究的样本RR或OR的95%可信区间不包括1,即上下限均年夜于1或上下限均小于1时,有统计学意义（P<0.05）；若它的RR或OR值95%可信区间包括1时,没有统计学意义（P>0.05）.再如某研究两疗效差值的95%可信区间不包括0,即上下限均年夜于0或上下限均小于0时,有统计学意义（P<0.05）；两疗效差值的95%可信区间包括0时,两疗效无分歧（P>0.05）.

各种指标的可信区间计算,最常采纳正态近似法,其中标准误的计算是其关键.标准误是由于抽样所致的样本与总体间的误差,用以衡量样本指标估计总体参数的可靠性,标准误越年夜,用样本估计总体的误差也就越年夜,反之就越小.在数值资料（计量资料）中,标准误的年夜小与个体变异（s）成正比,与样本含量（n）的平方根成反比.在分类资料（计数资料）中,标准误主要受样本含量（n）和某事件发生率（p）年夜小的影响,样本含量愈年夜,抽样误差愈小；某事件发生率愈接近于0.5,其抽样误差愈小,某事件发生率离0.5愈远（即发生率愈接近于0或1）,抽样误差愈年夜.

可信区间的范围愈窄,样本估计总体的可靠性愈好；可信区间的范围愈宽,样本估计总体的可靠性愈差.

1．率的可信区间

总体率的可信区间可用于估计总体率、样本率与总体率比力,两样本率比力.计算总体率的可信区间时要考虑样本率（p）的年夜小.

（1）正态近似法当n足够年夜,如n＞100,且样本率p与1-p均不太小,且np与n（1-p）均年夜于5时,可用下式求总体率的1-a可信区间率的标准误：

SE=p（1-p）/n

率的可信区间：

p±uaSE=（p－uaSE,p+uaSE）

式中ua以a查u值表,若计算95%的可信区间,这时u0.05=1.96,a=0.05.例如：

采纳某治疗办法治疗60例某病患者,治愈24例,其治愈率为24/60=40%,该治愈率的95%的可信区间为：

SE=p（1-p）/n=0.4（1-0.4）/60=0.063

p±uaSE=（p－uaSE,p＋uaSE）

=（0.4－1.96×0.063,0.4＋1.96×0.063）

=（27.6%,52.4%）

该治愈率的95%的可信区间是27.6%～52.4%.

（2）当样本率p＜0.30或p＞0.70时,对百分数采纳平方根反正弦变换,即y=sin-1p或siny=p

当P从0~100%时,y从0~90（角度,以下略去）,若以弧度暗示则y从0~1.57（π/2）.（Bartlett.MS建议当p=100%时,p=1-1/4n,当p=0时,p=1/4n）.y的标准误,按角度计算sy=820.7/n；若按弧度计算sy=1/（4n）,总体率的1-a的可信区间按下式计算：

（y－uasy,y+uasy）

然后再按下式变换求出百分数暗示的可信区间：

PL=sin2（y－uasy）；PU=sin2（y+uasy）

例如：

某医师调查某厂工人高血压病的患病情况,检查4553人,257人有高血压患病率为5.6446%,求该厂高血压患病率的95%可信区间？

本例u0.05=1.96,按上式计算：

y=sin-10.056446=0.239878,sy=1/（4×4553）=0.00741（以弧度计）则y的95%可信区间为：

（0.239878-1.96×0.007410,0.239878+1.96×0.007410）=（0.2254,0.2544）

而率的95%可信区间为：

PL=sin2（0.2254）=0.0499；PU=sin2（0.2544）=0.0633

故该厂高血压患病率的95%可信区间为（4.99%,6.33%）.

2RR的可信区间

相对危险度的RR（relativerisk）,应先计算RR,再求RR的自然对数值ln（RR）,其ln（RR）的标准误SE（lnRR）按下式计算：

SE（lnRR）=1a+1c－1a+b－1c+d=1r1+1r2－1n1－1n2

ln（RR）的可信区间为：

ln（RR）±uaSE（lnRR）

RR的可信区间为：

exp[ln（RR）±uaSE（lnRR）]

例如：

某医师研究了阿斯匹林治疗心肌梗塞的效果,其资料见表1,试估计其RR的95%可信区间.

表1阿斯匹林治疗心肌梗死的效果

table2.theeffectofaspirintreatMI

组别有效无效合计

心梗组（MI）15（r1）110125（n1）

对比组（Control）30（r2）90120（n2）

合计（Total）45200245（N）

RR=p1p2=r1/n1r2/n2=15/12530/120=0.48

ln（RR）=ln（0.48）=-0.734

SE（lnRR）=1r1+1r2－1n1－1n2=115+130－1125－1120=0.289

ln（RR）的95%可信区间为：

ln（RR）±1.96SE（lnRR）=-0.734±1.96×0.289=（-1.301,-0.167）

RR的95%可信区间为：

exp[ln（RR）±1.96SE（lnRR）]=exp（-1.301,-0.167）=（0.272,0.846）

该例RR的95%可信区间为0.272～0.846,其上、下限均小于1,可以认为阿斯匹林治疗心肌梗死有效.

3OR的可信区间

由于队列资料的RR的1-a可信区间与OR的1-a可信区间很相近,且后者计算简便,因而临床医学可用OR的可信区间计算法来取代RR的可信区间的计算.OR的可信区间的计算,应先计算OR,再求OR的自然对数值ln（OR）,其ln（OR）的标准误SE（lnOR）按下式计算：

SE（lnOR）=1/a+1/b+1/c+1/d

ln（OR）的可信区间为：

ln（OR）±uaSE（lnOR）

OR的可信区间为：

exp[ln（OR）±uaSE（lnOR）]

例如：

前述阿斯匹林治疗心肌梗塞的效果,试估计其OR的95%可信区间.

OR=15×9030×110=0.409

ln（OR）=ln（2.44）=-0.894

SE（lnOR）=1/a+1/b+1/c+1/d=1/30+1/90+1/15+1/110=0.347

ln（OR）的95%可信区间为：

ln（OR）±1.96SE（lnOR）=-0.892±1.96×0.347=（-1.573,-0.214）

OR的95%可信区间为：

exp[ln（OR）±1.96SE（lnOR）]=exp（-1.573,-0.214）=（0.207,0.807）

该例OR的95%可信区间为0.207～0.807,而该例的RR的95%可信区间为0.272～0.846,可见OR是RR的估计值.

4RRR的可信区间

RRR可信区间的计算,由于RRR=1－RR,故RRR的可信区间可由1－RR的可信区间获得,如上例RR=0.48,其95%的可信区间为0.272～0.846,故RRR=1－0.48=0.52,其95%的可信区间为0.154～0.728.

5ARR的可信区间

ARR的标准误为：

SE=p1（1-p1）n1+p2（1-p2）n2

ARR的可信区间：

ARR±uaSE=（ARR－uaSE,ARR+uaSE）

例如：

试验组某病发生率为15/125=12%,而对比组人群的发生率为30/120=25%,其ARR=25%－12%=13%,标准误为：

SE=p1（1-p1）n1+p2（1-p2）n2=0.12（1-0.12）125+0.25（1-0.25）120=0.049

其95%的可信区间为：

ARR±uaSE=（ARR－uaSE,ARR＋uaSE）

=（0.13－1.96×0.049,0.13＋1.96×0.049）=（3.4%,22.6%）

该治愈率的95%的可信区间为3.4%～22.6%.

6NNT及可信区间

NNT可信区间的计算,由于无法计算NNT的标准误,可由ARR的95%的可信区间来计算.因为NNT=1/ARR,故NNT的95%的可信区间为：

NNT95%可信区间的下限：

1/（ARR95%可信区间的上限值）

NNT95%可信区间的上限：

1/（ARR95%可信区间的下限值）

例如上述ARR的95%可信区间为3.4%～22.6%,其NNT的95%可信区间下限为：

1/22.6%=4.4；上限为：

1/3.4%=29.4,故该NNT的95%可信区间为4.4～29.4.

7均数的可信区间

总体均数据的可信区间可用于估计总体均数、样本均数与总体均数比力、两均数比力.计算时当总体标准差未知时用t分布原理,而s已知时,按正态分布原理计算.

（1）均数的可信区间

通常,均数的95%的可信间可按下式计算：

X－±t0.05,nSE即95%CI的下限为：

X－－t0.05,nSE,上限为：

X－＋t0.05,nSE

式中n为样本含量,X－、s分别为样本均数和标准差,SE为标准误,SE=s/n,ta,n的值可用自由度（n）与检验水准（a）查t界值表获得.

当样本含量足够年夜时,如n＞100,其95%的可信间可按下式近似计算,n越年夜近似水平愈好.

X－±1.96SE即95%CI的下限为：

X－－1.96SE,上限为：

X－＋uaSE

例：

某医师测定某工厂144名健康男性工人血清高密度脂卵白（mmol/L）的均数X－=1.3207,标准差s=0.3565,试估计该厂健康男性工人血清高密度脂卵白总体均数的95%可信区间？

本例n=144,X－=1.3207,s=0.3565,n=144-1,可用年夜样本公式X－±1.96s/n计算

下限为：

X－－1.96s/n=1.3207－（1.96）（0.3565）/144=1.2625

上限为：

X－＋1.96s/n=1.3207+（1.96）（0.3565）/144=1.3789

故该例总体均数的95%可信区间为（1.2625mmol/L,1.3789mmol/L）.

（2）两个均数差值的可信区间

95%CI为：

d±t0.05,nSE

即95%CI的下限为：

d－t0.05,nSE上限为：

d＋t0.05,nSE

式中d为两均数之差,即d=|X－1－X－2|；SE为两均数差值的标准误,其计算公式为：

SE=（n1-1）s12+（n2-1）s22n1+n2-2×（1n1+1n2）

例如：

某研究的X－1=17.2,s1=6.4,n1=38,X－2=15.9,s2=5.6,n2=45,其均数的差值为：

d=|X－1－X－2|=17.2－15.9=1.3

其差值的标准误为：

SE=（38-1）′6.42+（45-1）′5.6238+45-2×（138+145）=1.317

该例自由度n=38+45-2=81"80,故以自由度为80,a=0.05,查表得t0.05,80=1.99,将其代入95%CI的计算公式,得：

d±t0.05,nSE=1.3±1.99×1.317=（-1.32,3.92）

参考文献：

1DavidL.Sackett,W.ScottRichardson,WilliamRosenberg,etal.EVIDENCE-BASEDMEDICINE-howtopracticeandteachEBM.[M]Thesecondedition.churchilllivingstonepublish

house：

Toronto,2000.

2王家良.主编.临床流行病学.第2版.上海：

上海科技出书社,2001.

3杨树勤.主编.卫生统计学.第3版.北京：

人民卫生出书社,1996.

时间：

二O二一年七月二十九日

展开阅读全文