临床试验文档格式.docx
《临床试验文档格式.docx》由会员分享,可在线阅读,更多相关《临床试验文档格式.docx(29页珍藏版)》请在冰点文库上搜索。
外科手术减少的危险度=[(53/72)-(43/79)]/(53/72)=26%,X2=5.98,P=0.02
表9-2双侧颈动脉狭窄外科与内科治疗效果比较*
(统计所有167个病人)
94
58
62
内科
73
外科手术减少的危险度=(74-62)/74=16%,X2=2.80,P=0.09
二、用于描述临床研究设计特征的术语
1、组间平行比较——每一组接受一种不同的治疗,两组同时开始进行研究,所得结果用两组比较进行分析;
2、配比比较——接受不同治疗的研究对象被进行配对以平衡潜在的混杂因子,如年龄和性别;
所得结果对研究对象配对之间的差异进行分析;
3、研究对象自身比较——在治疗前和治疗后对研究对象进行检查,所得结果用研究对象自身的变化进行分析;
4、单盲——研究对象不知道他们接受哪种治疗;
6、双盲——研究对象不知道接受哪种治疗,研究者也不知道;
7、交叉——每一个研究对象都接受干预和对照(顺序采用随机方法),其间用无治疗的空白期分隔;
8、安慰剂对照——对照组接受安慰剂(无效药片),安慰剂在外观和味道上应该与有效药片一样。
安慰(假)手术也可用于外科临床试验;
9、因子设计——这种研究可以允许按照预定结果对一种以上各自独立的变量的作用(无论是单独的还是联合的)进行研究。
例如2×
因子设计可以检验安慰剂、单独阿司匹林、单独链激酶或阿司匹林+单独链激酶在急性心脏病发病中的作用。
三、临床试验的大概研究领域
1、1、
治疗——检验药物治疗、外科手术治疗、其他医疗服务方式或其它干预措施的效果。
首选的研究设计是随机对照临床试验;
2、2、
诊断——证实某一新的诊断性实验是否有效(我们能否相信;
是否可靠,我们是否每次都能得到相同的结果)。
首选的研究设计是横断面调查。
在横断面调查中,研究对象要接受新的检验方法和金标准方法的检查;
3、3、
筛检——证实能够用于大规模人群检验并在症状发生前期检查出疾病的检查方法的价值。
首选的研究设计是横断面研究;
4、4、
预后——确定早期发现的患有某种疾病的病人可能发生什么情况。
首选的研究设计是队列研究;
5、病因——确定某种有害物质,如环境污染,是否与疾病的发生有关。
首选的研究设计是队列研究或病例对照研究,取决于这种疾病的罕见程度,但是,临床的病例报告也能提供关键的信息。
第二节临床诊断试验的评价
一、灵敏度和特异度
研究一种用于诊断的新的诊断方法,就诊断目的而言,只有相应的两类人:
有病和无病的;
和两种检测结果:
设立一个分界点,判断阳性和阴性。
在分界点以上的样本为阳性。
假定100个有病的人和100个无病的人用某种检测方法检测,可建立一个2×
2列联表(见表9-3)。
表9-3评价一个诊断试验真实性资料的归纳表
疾病状态
合计
有病
无病
试验阳性
95
2
97
试验阴性
5
98
103
100
200
a
b
a+b
c
d
c+d
a+c
b+d
a+b+c+d
临床灵敏度可用来衡量某种试验检测出有病者的能力,灵敏度是将实际有病的人正确地判定为真阳性的比例。
灵敏度=a/(a+c);
此例为95%.
临床特异度是衡量试验正确地判定无病者的能力,特异度是将实际无病的人正确地判定为真阴性的比例。
特异度=d/(b+d);
此例为98%.
检出率与灵敏度意义相同。
假阴性率是指将患者错误地判定为无病的比例(即1-灵敏度)。
假阳性率=1-特异度。
以上的计算已经规定了试验的性能,但只回答了问题的一个方面。
在临床实践中,试验结果是可以预知的(阳性或阴性),于是在预测疾病时应采取相应措施预测试验花费。
二、阳性和阴性预测值
诊断试验的目的是提供诊断信息,我们要设法得到人群中作出正确诊断的试验概率。
而灵敏度和特异度不能做到这一点,常常使用阳性预测值和阴性预测值。
阳性预测值(positivepredictivevaluePPV)是指试验结果阳性者中真病例的概率。
PPV=a/(a+b);
本例为97.9%.
阴性预测值(negativepredictivevalueNPV)是指试验结果阴性中确未患病的概率。
NPV=d/(c+d);
本例为95.1%.
PPV和NPV是在临床试验中对试验有用性的正确评价指标。
例如:
在进行肿瘤标志物(TumorMarkerTM)的检测时,其阳性预测值(PPV)与阴性预测值(NPV)就是重要指标。
PPV与NPV不仅与灵敏度和特异度有关,还与人群的患病率有关。
某—TM的灵敏度、特异度、PPV、NPV不是固定不变的,而是与临界值的选定有关(见图9-1)。
图9-1临界值与灵敏度和特异度的关系
如图9-1所示,选择临界值时,不能同时提高灵敏度和特异度。
将临界值提高,可增加特异度,但灵敏度随之降低;
反之,将临界值降低,则灵敏度提高,但特异度降低。
三、受试者工作曲线
(ReceiverOperatorCharacteristiveCurveROC曲线)
在临床试验中,试验结果不是阳性就是阴性、有病或无病。
但条件是,如何选择合适临界值(分界点)。
分界点的选择不应只从统计学角度出发,还应考虑与假阳性、假阴性结果有关的医学、伦理学、心理学和经费等问题。
例如,临床应用AFP作为胎儿是否为开放性脊柱裂畸形的诊断。
规定AFP浓度的分界点不同,对临床治疗有重要意义。
当测定孕妇血清的AFP时,对其所采用的分界点以上的阳性结果者,就需进行羊膜穿刺术作进一步检查,对测定羊水AFP的分界点以上的阳性者,就应当中止妊娠。
如果一项血清学试验,高的稀释度与疾病有关,当提高分界点的稀释度将提高特异度,降低灵敏度,反之亦然。
图9-2显示有病和无病人群的两个复合正态分布的联系。
图9-2灵敏度和特异度
不同分界点上的1-特异度(假阳性率)和灵敏度(检出率)两个参数是有密切联系的。
所得的曲线称为受试者工作曲线(ROC曲线),该曲线用于优化特异性和灵敏度(见图9-3)。
曲线A在45℃,是无意义的试验;
曲线B、C和D为临床应用逐步提高的试验;
曲线E为最好的诊断试验。
灵敏度、特异性接近100%。
(如果采用的是人群中的样本,则试验的特异度和灵敏度不可能达到100%,而只有在全人群才可能得到),如果假阴性结果和假阳性结果消耗同样的费用,那么最理想的分界点是取灵敏度和特异性之和的最大值,见图9-3中的曲线E。
图9-3ROC曲线
(一)ROC曲线的意义
从上图9-3可见,ROC曲线越向左上偏,曲线下的面积越大,其筛检试验的识别病人和非病人越高。
(见图9-3E线)。
图9-4为各种情况下的ROC曲线。
图9-4ROC曲线的含义(NCCLS,1995)
左侧的A试验,患病组的检查值与非患病组的检查值分布相同,这种检查完全没有识别能力。
这种情况下,无论将判定值放在什么位置,真阳性率(TPR)与假阳性率(FPR)的值都是相同的,ROC曲线为通过原点的对角线。
在试验B如以C点为分界点区分患病组与非患病组的话,检查结果是完全分开的,检查结果的识别能力最高。
此时如在D到C之间取判定值的话,FPR为0,在C到B之间取判定值的话,TPR总为1。
因此,试验A和试验B的ROC曲线均是极端的例子,通常的检查则类似试验C或试验D,患病组和非患病组间有一部分重合。
总的来讲,患病组与非患病组间检查值重合程度越小,检查的识别能力越高,ROC曲线越偏向左上,曲线下的面积越大,检查的识别效力也越高。
(二)如何绘制ROC曲线
以血清T4检查为例说明ROC的画法。
其原始资料见表(9-4),将资料按13nmol/L的间隔计算累积频率分布见表9-3。
表9-4120例甲状腺功能低下与正常人血清T4浓度
血清T4浓度甲状腺功能低下病人正常人
(nmol/L)人数(%)人数(%)
<
132(7.4)
13~3(11.1)
26~1(3.7)
39~8(29.6)
51~4(14.8)1(1.1)
64~4(14.8)6(6.5)
77~3(11.1)11(11.8)
90~2(7.1)19(20.4)
103~17(18.3)
116~20(21.5)
129~11(11.8)
142~4(4.3)
150>
4(4.3)
合计27(100)93(100)
(张克坚等,1998)
表9-5120例甲状腺功能低下与正常人血清T4浓度的累积频率分布表
判定值患者阳性累计正常人阳性灵敏度特异性1-特异性
(nmol/L)人数(累计人数)(TPR)(TNR)(FPR)
1313207.41000
265018.51000
39601001000
5114051.91000
6418166.798.91.1
7722781.592.57.5
90251892.680.619.4
103273710060.239.8
116275410041.958.1
129277410020.479.6
14227851008.691.4
15527891004.395.7
155>
27931000100
合计2793
(张克坚等,1998)
如以上各个值作为判别正常与异常的判定值,可得到一系列的TPR和FPR。
例如,以39nmol/L作为判定值的话,等于和低于这一浓度为检查阳性,超过这一浓度为检查阴性。
27名患者中,6名检查阳性,TPR为22.2%,正常值中,全部阴性,TPR为0%。
同样以90nmol/L作为判定值的话,27名患者中,25名为阳性(TPR=25/27=92.6%),正常者中,18名检查阳性(FRP=18/19=19.4%)。
这样利用累积频率分布表(见表9-5)计算所有判定值的TPR与FPR。
接着以TPR为纵轴,FPR为横轴,将计算结果点于图上,连接各点就可完成ROC曲线(图9-5)。
图9-5血清T4浓度检验结果ROC曲线(NCCLS,1995)
(三)多项检验项目ROC曲线之间的统计学比较
判断多项检验项目ROC曲线间AUC的差是否有显著性必须进行统计学检验。
对检查结果的ROC曲线,统计上的变化会含有一定的误差。
因此各ROC曲线的AUC亦有标准误(SE)的问题。
将两条要进行比较的ROC曲线的“AUC差”除以“差的标准误”所得的值Z,是呈正态分布的。
画出试验1和试验2的ROC曲线,可分别得到AUC1和AUC2,对其差的检验按下式进行。
得到Z值后,查正态分布表判断有无显著意义。
式中SE(AUC1-AUC2)为两个AUC的标准误。
其计算式为:
SE(AUC1-AUC2)=
式中AUC的SE为:
式中nA为样本中患者的人数,nN是非患者人数。
Q1=AUC/(2-AUC);
Q2=2AUC2/(1+AUC)。
r为相关系数。
上述AUC1与AUC2各自用SE1和SE2表示误差。
如果各个实验是在完全不同的对象进行的话,两者的误差具有相关性。
这就是两个AUC相关系数的根据。
在计算r时,首先分别计算患病组和非患病组的相关系数,然后求出两个相关系数的均值((rA+rB)/2),再求出两AUC的均值。
根据这两个值查相关系数表。
【例9-1】用两种方法对58名正常者与54名患者进行试验1和试验2,求出试验1的AUC1为0.8945,试验2的AUC2为0.9382。
两者面积之差是否具有显著性?
求出各自的SE。
SE2=0.026
在正常组中,实验1和实验2检查结果的相关系数(rn)0.39,在患者组(rA)为0.6,平均相关系数为0.50。
实验1和实验2的平均面积为0.9166。
查相关系数表,得到AUC间的相关系数为0.40。
查正态分布表,当Z值为1.41时,P为0.079。
两者之间无显著差异,说明两个实验结果基本一致。
利用面积的比较来检验实验方法的有用性,适合于比较研究对象两条不交叉的ROC曲线,而对面积几乎相等的互相交叉的ROC曲线(图9-6),判断两个检查法的优劣就会出现问题。
图9-6中实验C的曲线偏左上,实验D偏右下。
这两个检查都有明显的特征,在相同水平的FPR对两者进行比较时,在2条曲线交叉点左上侧的实验C的TPR高(但FPR也高)。
另一方面,位于右下侧的实验D的TPR变高(FPR处于低水平)。
如果目的在于尽量发现新患者,假阳性增加也没有关系的情况下,实验C是适宜的,相反,如果需要尽量减少假阳性,则实验D是好的。
在这种情况下,判断采用那种检查方法更好,主要依赖于检查的目的、疾病的性质,未被查出的病例造成预后恶化的程度、精密度检查及由于治疗所引起的合并症的可能性、病情轻重、疾病的发病率等来决定。
图9-6两条互相交叉、AUC基本相等的ROC曲线(张克坚,1998)
(四)ROC曲线的优点与局限性
运用ROC曲线图进行评价具有下列优点:
1、方法简单、直观,通过图形可观察分析方法的临床准确性,并可用肉眼作出判断。
2、可准确反映某分析方法灵敏度和特异度的关系,(因为ROC曲线是由灵敏度和特异度绘制的)。
3、与阳性预测值不同的是ROC曲线评价方法与群体发病率无关。
其局限性是:
ROC曲线图上显示的不是真正的判断值。
第三节第三节
临床试验方法
一、临床试验的基本类型:
临床试验的基本类型有:
历史性对照研究(historicalcontrolstudy);
非随机同期对照试验(nonrandomizedcontrolledtrial);
随机对照试验(randomizedcontrolledtrialRCT);
交叉设计(crossoverdesign);
序贯设计(sequentialdesign)。
本节将对临床应用最多、设计较为合理的随机对照试验(RCT)进行介绍,同时简要介绍序贯设计(sequentialdesign)。
二、二、
临床试验设计的基本原则
(一)对照对照是临床试验的重要设计原则。
人类疾病很多有自限性,没有对照就难以肯定病愈是否为服药的结果。
有些疾病如上呼吸道感染或急性胃肠炎等,病人往往在病情最严重时就医,就医后开始恢复,“疗效”与疾病的自然病程相偶合。
例如有人用X线照射脑下垂体来降低血压,25名中17名血压下降,有效率68%,该方法似乎是有效的。
但是没有对照就难以下结论。
当他们对25名对照也告诉他们给予了X线照射(实际未照)后,结果有19名血压也下降。
说明精神因素也可使血压下降。
临床试验常用的对照方式有;
1、标准疗法对照:
是以常规或现行的最好疗法作对照。
此法最为常用。
2、安慰剂对照:
安慰剂通常以淀粉、乳糖、生理盐水等成分制成,不加任何有效成分,但外形、大小、颜色、气味、味道等与实验药物极为近似。
3、相互对照:
当比较几种疗法对某病疗效差别时,不必另设对照,各试验组间可互为对照。
此外还有历史对照、空白对照、交叉对照等。
根据研究需要,可以成组选择对照,也可以用配对的方式选择。
但必须注意的是以前人的“经验”作为对照(历史对照、文献对照)潜伏着较大的危险,因为很难保证“过去”和“现在”的两组除了治疗因素外其他因素都是一致的,如病例的选择、病情早晚轻重、麻醉技术、术后护理、用药等均可能有所不同。
用其他医疗机构或其他医生的研究结果代替应设的对照组也有问题,因为二者在观察中所采用的各项标准可能不一致,病人的生活方式、医疗技术等方面都可能有所不同,故不宜比较两个医院或者两个医生的经验,也不能轻易地合并使用。
(二)随机化分组正确地将临床受试对象分配到所设各研究组是保证齐同对比的关键。
随机分组使每一个受试对象都有同等的机会被分配到治疗组和对照组。
随机化的目的是保证治疗组和对照组具有相似的临床特征和预后因素(包括已知的和未知的)即具有充分的可比性,从而减少偏倚,增加试验结果的正确性。
(三)盲法试验临床试验的偏倚可以来自试验的各个环节,既可能来自研究人员方面,也可能来自受试病人方面。
为了避免此类偏倚,一个有效的方法是使病人和/或研究人员不知道各组病人所接受的是哪种治疗,即所谓盲法原则。
根据盲法的程度,又可分为非盲、单盲、双盲、三盲等。
1、非盲性临床试验:
研究人员和病人都了解治疗的具体内容。
有些临床试验只能是非盲的,例如比较手术治疗和保守治疗对某种疾病的疗效,评定生活习惯(饮食、运动和吸烟等)的改变对发生冠心病的影响等。
2、单盲临床试验:
只有研究人员知道病人用药的具体内容,而受试者是盲的,因而可以避免来自受试者主观因素的偏差。
优点:
避免受试者主观因素产生的偏倚,观察者知道用药具体内容,有利于保证由病人使用新药的安全。
缺点:
不能克服观察人员的主观因素的影响,例:
锌治疗味觉障碍的评价,单盲实验结果有效,而交叉双盲实验却未证明。
双盲临床试验:
研究者和受试对象都不知道受试者分到哪一组及接受哪种治疗。
双盲试验中需要由第三者来组织、实施并监督整个试验的进行,包括所研究的干预措施的效益和不良反应。
可大大减少来自观察者和受试者主观因素的影响。
双盲往往有被破坏的可能,安慰剂的应用在许多情况下难以实现。
4、三盲临床试验:
资料处理者,受试者及研究人员都不知道分组情况,实验设计者知道。
减少研究者分析资料中产生的偏性。
减弱监督作用,不利于实验安全进行,因而难于实现。
对那些主要根据病人主观感受作为判断疗效根据的试验,应该采用单盲试验,例如镇痛药或安眠药等疗效试验。
而对那些主要由医生主观印象作为效果指标的,则应使用双盲试验,例如抗精神病药的疗效分析等。
三、三、
样本大小的估计
样本大小取决于四个要素:
研究对象间变异性大小,两组结果差异的大小,以及第一类错误出现的概率α和第二类错误出现的概率β。
样本大小估计的数学模型及具体计算方法见第十六章。
四、四、
随机对照临床试验(RCT)
在随机对照临床试验中,参加者是按照一种程序(类似于投掷硬币)被随机分配到干预组(如药物)或另一组(如安慰剂治疗或另一种不同的药物)。
两组都被随访一个特定的时期,并按开始时所确定的研究结果(死亡、发作、各项观察指标的变化等)进行分析。
一般而言,除了治疗措施外,两组都是相同的。
因此从理论上说,研究结果的任何差异都归因于治疗措施。
(一)随机对照临床试验主要应用范围
对某一特定的疾病,所研究的这种药物是否比安慰剂或另一药物效果好?
对某一特定的疾病,宣传是否比口头建议能更好地帮助病人对治疗方法作出明智的选择。
关于随机对照临床试验的缺点见实验设计,在实用性方面应当注意排除标准(确定哪些病人不应该进入研究的原则)的偏倚;
纳入标准的偏倚(从不能代表这种疾病的某一人群中选择研究对象);
拒绝给予某些组群的病人知情同意以便纳入该研究;
仅仅分析预先确定的“客观”的终点结果,而可能排除了干预措施质量的重要方面;
以及发表偏倚(选择性发表阳性结果的研究论文)。
但是在一些比较治疗组和对照组的临床试验并非随机试验。
随机分配在这些试验中是不可能的、不现实的或不道德的——例如,比较婴儿在家出生和在医院出生的结果。
更为常见的是,缺乏经验的研究者比较一组(如A病房的病人)和另一组(如B病房的病人)。
应用这样的设计,根本不可能在统计学水平上对两组间进行合理的比较。
(二)、随机对照临床试验的实验设计
1、随机对照临床试验工作流程:
按实验的时间顺序和运作的过程图示如下:
2、实验设计主要内容和步骤:
(1)研究目的的确立:
研究目的是研究者根据自己的研究假设(或假说),提出要回答解决的科学未知问题。
临床试验的研究目的则是科学评价治疗措施(药物或疗法)的临床疗效及其副作用。
每一项临床试验中,研究目的应非常明确避免过多,一项研究最好回答一个问题。
(2)研究对象的选择
研究对象是从目标人群中按随机原则抽取的样本,目标人群的定义是研究者按研究目的确定的。
许多随机对照试验是通过预试验后开始的,在这阶段中所有可能的研究对象都给予安慰剂或接受对照治疗,根据他们在治疗中的依从性,选择依从性好的进入随机化的研究。
这样做的目的是为了在研究开始以前发现并减少那些不愿听从治疗安排的病人,因为在随机化试验结果分析时那些起初被安排不同治疗组的不依从者的结果也要被包括各自的组内,所以如随机分组后,研究对象又私自转到其他组时破坏了随机化的原则,形成错误分类偏倚。
不同研究目的的临床试验选择的受试对象不同:
1①
药物或治疗方法的临床效果评价受试对象应是病人,也可是某种病型病情的病人;
2②
疫苗的效果评价易感的健康人;
③病因或危险因素的验证(验证病因)动物(施加病因因素);
高危人群(去除高危因素)。
无论是何种性质的研究,受试对象的确定应根据研究目的,按统一的定义标准选择。
确定定义标准时,对某些潜在(可能产生的)混杂因子加以限制,如评价乙肝疫苗效果时,可先将已感染乙肝病毒者除外;
全部用易感者作受试对象。
此外,凡是对疗效有影响的潜在混杂因子,如在入选定义中需明确限制时,均应客观记录,以便确定实验组相对照组间可比性或调整混杂偏倚时能提供客观分析依据。
(3)研究样本的确定受试对象是从参照目标人群中选取的,按入选定义再随机分为实验组和对照组,要保证两组的差别达到专业设计的要求,必须要满足一定的数量。
确