药学研究的设计与统计讲义Word格式文档下载.docx
《药学研究的设计与统计讲义Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《药学研究的设计与统计讲义Word格式文档下载.docx(82页珍藏版)》请在冰点文库上搜索。
一是计算机的广泛应用已成为人们认识世界的有力工具,但人工智能仍然处于婴儿阶段,必须在人脑的指挥下才能正确开展。
在当代的药学研究中,这两点都具有深远的影响。
在药学研究中,生物学的变异对实验数据的影响比理化实验中要大得多,更存在人的心理效应等影响。
研究者要想得到有意义的研究结果,必须充分重视科学的实验设计和对实验结果的正确分析处理。
鉴于药物这种特殊产品事关人的生命,对此更不能稍有疏忽。
在药学研究中,在对研究所得数据进行处理时,计算机正在发挥重要作用,而且必将发挥更大的作用;
但这丝毫没有减轻人们从专业上和统计意义上选择正确的统计方法和对统计结果作出正确判断的责任。
在开始药学研究以前,人们需要对将要去做的工作进行计划和设计,这同其他科学研究工作是一样的。
—旦计划和设计确定了,接着是按实验的设计采样;
如果我们所采用的采样方法对实验的目的或设计是不合适的,所采的样并没有代表想要它们代表的总体性质,那么我们的实验不可能获得成功。
采取合适的方式采样后,对样品作实验,通过测量结果获得数据后,必须对数据进行统计分析,从分析的结果得到所需要的结论,或否定我们预想的结果;
最后是把整个实验过程写成报告或论文。
一个药学实验的过程大体如此。
由此可见,药物研究中实验的设计非常重要,与其他领域一样,做出一个科学完美的设计方案是整个工作顺利完成的保证。
随着研究手段和实验设施的不断完善,具体的实验操作已不是研究工作的主要影响因素。
本书的大部分内容与数据的统计分析有关。
当只有单个因素造成数据随机变异时,统计分析找出这种变异围绕的中心和变异的幅度,大家都已知道,这是用平均值和标准偏差表示的。
统计分祈的优点在于,当像在大多数的研究中那样,一个或一组实验中会有几个因素造成实验结果的变异时,它能够根据随机数据的性质,把数据的变异中由于随机变化造成的那一部分分离出来,用这个误差方差作为—种尺度,确定哪一个因素在实验中作为一个显著性的因素影响实验结果的变异。
药效统计分析与一般生物统计及卫生统计不尽相同,它具有以下特点:
1.合理的实验设计
2.严密的实验条件
3.实验例数较少
4.实验指标及项目较多
在本课程中将重点介绍常用的药效统计学内容。
实验设计和数据的分析处理,对于初次进行药学研究者常常是研究工作的瓶颈,掌握了实验设计和数据的分析处理技巧,往往意味着整个研究工作已成功了一半。
药理学中的量变规律相当复杂,要以数学公式表达绝非易事,但一旦找到合适的数学公式,应用起来却非常简便,许多重要的数学公式又都具有形式简洁、内涵丰富、表达明确的特点,熟练地掌握它们,可为研究工作带来极大的便利。
数学的特点之一是“抽象化”,可撇开具体事物,抽取其中的量变关系加以研究,因此有些本质不同的事物,可能有相同的数学表达形式,这就为建立数学模型带来了方便。
例如以“房室模型”反映药物复杂的体内过程。
具有同一数学形式的不同事物,其计算公式的相似性常常反映了它们在本质上的接近,可启发我们在研究中的联想和探索。
数学模型有两类,一种是确定性模型,反映事物内部的确定性因果关系,另一类是随机性模型,反映或然事物的规律,例如动物实验中常常出现因个体差异而产生不同的结果,这一情况是难以预测的,但如果增加动物的例数,则可根据统计学方法,求出实验结果的均值和标准差,从而对药效作出客观的评价。
数学公式或数学模型建立以后,就具有一定的能动性,往往可以推导出一些超乎习惯认识的新线索。
例如根据受体与药物浓度关系的Clark公式,可以推导出:
能引起90%最大作用强度的药物浓度,总是为引起50%最大作用强度的药物浓度的9倍,无论是哪种激动剂都是如此。
不符合数理推导的例外情况,不可轻易放过,如果实验方法正确,它往往意味着一个新理论的诞生。
三.开设本课程的目的
近年来,在我校在生命科学领域的研究生(博士和硕士)的研究课题中,涉及药物作用或毒性的项目越来越多,特别是在医学院和药学院,与药物相关的研究生课题已占总课题的一半以上。
在进行学位论文研究的过程中,他们常常在研究方案的设计和实验结果的数据分析上遇到困难,不得不为此花费大量的精力和时间,有时甚至因设计上的失误,导致实验拿不到预期的结果,或因缺乏某些必需的数据无法完成论文,不得不重新开始,浪费大量的时间和金钱。
由于药物研究的特殊性,许多导师对于高效率的实验设计和高效率分析处理数据的技巧没有机会接触,无法指导学生顺利地解决这些困难。
因此,部分学生中(甚至在某些导师中)形成了一种错误的“共识”,认定在研究生学习期间不可能完成多篇高质量的医药学科研论文;
甚至对能在2年内发表多篇被SCI收录的高质量论文的事实提出怀疑和表示气愤!
对于这种由于无知而产生的质疑,最好的办法是让那些愿意通过发奋研究多出成果的人尽快掌握高效率的实验设计方法和高效率分析处理数据的技巧,大大提高研究工作的效率,用事实教育那些质疑者,也可因此大大增加本校在医药领域发表高质量科研论文的数量。
为此,特开设本课程,供已经或即将进入课题研究的硕士生和博士生选修,也欢迎感兴趣的教师光临指导。
电子计算机的应用,不仅可使繁杂的数学运算迅速完成,还可进行逻辑判断分析、探索数学模型和多因素的数学公式、进行抽象的模拟性实验、预测在各种参数下药效变化的规律。
它的发展潜力极大,学习和掌握有关计算机程序的应用方法,是本课程的重要内容之一。
第二章药物研究统计处理的数学基础
一.数值及其有效数字
1.数值、观测值、真值
数值一般指测量数值,即应用仪器对观测对象进行量度的读数。
我们将观测所得的数值称为观测值,而观测对象客观存在的量称为真值。
由于实际测量过程中不可避免地存在各种误差,观测值与真值间存在偏差。
2.观测值的计数法则
·
在记录观测值时,只允许保留一位可疑数字(末位数)。
在读数时都要求在仪器的最小分度值后再估读一位。
再往下读是不现实的,也是不必要的。
3.有效数字
从观测值左边第一个非零数字开始直到最右边的全部数字称为该观测值的有效数字。
它包括最后一位的可疑数字。
有效数字的位数反映了数据的精密度,表示了数值误差大小。
4.尾数取舍法则
数据计算的结果,常常含有多位小数,根据其有效数字位数不多于实测数据的原则,必需对其尾数进行取舍。
尾数取舍的方法有两种,一是“四舍五入”法,二是“四舍六入,逢五变偶”法,在药理研究中推荐使用后者。
“四舍六入,逢五变偶”法
被舍去的第一位数小于或等于4时,保留数的末位不变。
被舍去的第一位数大于或等于6时,保留数的末位加1。
被舍去的第一位数是5时,保留数末位是偶数则不变、是奇数则加1。
例如:
请将23.35456分别保留2、3、4、5、6位有效数字,分别为23、23.4、23.35、23.354和23.3546。
二.误差及其传递
1.观测误差的概念
观测误差ai是指观测值Xi与真值X之差(ai=Xi-X),简称为误差。
根据引起误差的原因不同,可分为系统误差(测定误差)、随机误差(非测定误差)、过失误差(粗心误差)三类。
系统误差是由于仪器结构不良、周围环境改变造成的,一般经过校正和相关处理可以消除。
过失误差则是由于粗枝大叶造成的,通过认真操作和计算可以消除。
随机误差则是由某些难以控制的偶然因素造成的,如仪器的正常波动及精度限制或实验方法本身的局限性等。
在等精度观测下,随机误差服从常态分布,可以作统计学处理。
在实际工作中,系统误差和过失误差都必须避免,一般说的误差仅指随机误差。
2.准确度和精密度
在统汁学的术语中,准确度是指观测值与真值的符合程度,其高低由仪器的精密度高低所决定。
对准确度不高的数据可通过“校正值”的方法加以校正,使其准确度得到提高。
精密度是指观测值之间的密切程度,对同一观测对象进行重复观测,其观测值不一定相同,其离散程度的大小用精密度来表示,它是由随机误差决定的。
以打靶的结果作例子,枪眼聚合一起表示这次射击精密度很高,在我们所熟悉的药学实验中,数据之间非常接近同样表示结果的精密度高。
一组精密的测定值之间应当非常接近,所以在值的大小上相对接近的观察值被看作是精密的,这一点反映在小的标准差上,一般可通过增加观测次数求平均值来提高观测精密度。
—个重要的概念是一组精密的测定结果可以与不精密的测定结果有一样的平均值,也就是说,平均值很接近并不一定说明结果是一样精密的。
在我们将要研究的大多数的实验中,数据的平均值和标准差是相对独立的。
当然,最好是能得到又精密又难确的数据。
如果可能的话,我们应作出努力去同时改进试验观察的准确度和精密度。
例如,在药物分析中采用先进的仪器分析方法可以大大增加分析结果的精密度。
但与精密度相比,实验结果的准确度更为重要,要尽量减少实验中产生的误差。
3.绝对误差与相对误差
绝对误差即为观测值的观测误差ai,相对误差ai是指观测值的绝对误差与观测值的比值(ai=ai/Xi)。
由于任一观测值的真值都是未知的,不可能算出绝对误差和相对误差的准确值,只能估计它们不超过多大数量,即它们的最大绝对误差和最大相对误差。
如具有4位有效数字的观测值3.128mg,只允许末位数有±
0.5个单位的误差,其最大绝对误差为0.0005mg,其最大相对误差为0.016%。
在实际工作中使用绝对误差和相对误差这些术语时,都是指其最大值而言。
4.常用计算的误差传递规律
药理学中有些数值是经过计算间接得到的,由于原始观测值存有误差,经计数后得到的结果必然存在误差,这就是“误差传递”。
A.加减运算
结果的最大绝对误差是各观测值绝对误差绝对值之和,和差的小数点位数应等于各观测值中小数点位数最少的位数。
例如3.489+4.5467,按一般数学计算,其得数为8.0357。
由于两个数据的绝对误差分别为0.0005和0.00005,根据误差传递规则,它们的和应为8.036,其绝对误差应当为0.00055。
B.乘除运算
结果的最大相对误差是各观测值相对误差绝对值之和,积商的有效数字位数应等于各观测值中有效数字位数最少的位数。
例如3.489×
4.5467,按一般数学计算,其得数为15.8634363。
由于两个数据的相对误差分别为0.0143%和0.0011%,根据误差传递规则,它们的积应为15.86,其相对误差应当为0.0154%。
C.乘方或开方运算
结果的有效数字位数与原观测值相同。
例如4.3562,其得数为18.974736,根据误差传递规则,其值应为18.97。
D.对数与反对数运算
对数运算结果可多取几位有效数字(常为4位)。
例如求82的常用对数,其得数为1.91381385….,根据误差传递规则,其结果可取4位有效数字,其值应为1.914。
反对数运算结果的有效数字位数与观测值相同;
但对数的整数部分不参与有效数字位数计算。
例如求2.476的反对数,其得数为299.22646….,根据误差传递规则,其结果应取3位有效数字,其值应为299。
E.均数及标准差的有效数字位数
标准差一般取1位有效数字,首位数为1或2时,可多取一位有效数字;
均数的小数点位数与标准差的小数点位数一致。
例如某组数据经计算其均数和标准差为13.2465±
0.235,根据误差传递规则,首先确定标准差的有效数字,由于其首位有效数字为2,它应取2位有效数字,记作0.24。
均值的小数点位数与标准差的小数点位数一致,记作13.25。
均数加减运算时,结果的标准差的平方等于各标准差的平方和。
例如某两组数据经计算其均数和标准差分别为13.25±
0.24和14.36±
0.26,欲将它们相加。
根据误差传递规则,首先求结果的标准差,将两个标准差的平方和开平方,得0.3538…,再确定标准差的有效数字,应取1位有效数字,记作0.4。
两个均值相加,得27.61,均值的小数点位数与标准差的小数点位数一致,记作27.6。
F.中间计算值有效数字位数计位法则
中间运算的结果一般比最终结果多一位有效数字,如计算最终结果需用减法,则中间计算值可多两位有效数字。
三、相关与直线相关
如果x,y两随机变量间存在着密切的数量关系,就称x与y有相关关系,简称相关。
若x与y之间大致呈现比例性关系时,称之为直线相关。
若x增加时y也相应增加,称为正相关(直线相关时为成正比),反之x增加时y相应地减小,则称负相关(直线相关时为成反比)。
1.相关系数与r2值
相关系数r是表示两个变量间直线关系的密切程度和相关方向的统计指标,其绝对值小于或等于1,r没有单位,但有正负号。
r为正时,表示y随x增加而增加(正相关);
r为负时,表示y随x增加而减少(负相关)。
r=l时称完全正相关,r=-l时称完全负相关。
|r|愈接近1说明两个变量间直线关系愈密切;
如果|r|在0.7或以上,表示高度相关;
|r|小于0.4,表示低度相关;
|r|在0.4和0.7之间,表示中度相关;
愈接近0说明直线关系愈不密切。
r2不仅是r值的平方,而且还具有确定的含意。
它表示在y值总变异Σ(y—y)2中,与回归线有关的变异所占的百分比。
r2恒在0与1之间。
如r2=0.8,则表示y值变异有80%与回归有关;
如r2=1,则表示y值变异100%来自回归,点线完全吻合。
r2不仅可以反映直线中点-线关系,也能用以反映曲线情况。
这一特点非常重要,有人称之为“确定系数”(CoefficientofDetermination),有人建议用“R2”来表示,以便与直线相关系数r相区别。
2.相关系数的显著性检验
由于抽样误差的存在,相关系数小不一定没有意义,值大也不一定就有意义,需要进行显著性测验,一般采用t测验(与0对比)。
tr=|r|/Sr
Sr=((1-r2)/(n-2))0.5(f=n-2)
如果某例计算出:
r=0.9961,组数n=6,f=4,根据自由度为4,查t值表得t0.0l=4.60。
由于r2=0.9912,说明y值总变异中99.12%与回归线有关。
由该例数据可计算出t=22.58,说明本例的相关系数有非常显著的统计学意义,表示两变量间有相关性。
但上述小样本的相关系数显著性检验一般只能推断两变量间有无相关性,不能推断相关的密切程度。
要推断相关的密切程度,样本含量必须很大,比如n>
100。
此时抽样误差很小,可认为样本相关关系近似等于总体的相关关系,这种情况下的相关系数显著性检验才能推断相关的密切程度。
四、直线回归
1.直线回归及其特点
如果两个变量x,y有相关关系,且相关系数的显著性测验有显著性,则可以根据实验数据的各(x,y)值,归纳出由一个变量x的值推算另一个量y的估计值之函数关系,找出经验公式.这就是回归分析。
若相关是直线相关,且要找的经验公式是直线方程。
则称为直线回归分析。
它是应用最广的一种,呈直线关系或能直线化的函数规律的资料都可进行直线回归分析。
把实验资料描成散点图时,各点并不恰在一直线上,要选择一条最合适的直线作为这种函数关系的代表.就要符合回归方程算出的理论ye值与各实际y值越接近,则直线越合适的原则。
于是规定:
Σ(y-ye)2为最小的直线为回归直线,也就是实验y值与理论ye值差值的平方和为最小(或各点与直线的纵距离的平方和为最小)是决定回归线的条件,这种方法称为最小二乘方或“最小二乘法”。
其直线方程称直线回归方程,简称回归方程。
由最小二乘方求出的回归线有以下特点:
(1)
必定通过(x,y)点;
(2)Σ(y-ye)等于0;
(3)Σ(y-ye)2为最小;
(4)回归方程仅适用于自变量x原观察数据的范围,不能随意外推;
(5)当y是直线化原y’值的函数时(如y=1ogy’,y=1/y’),本法只保证Σ(y-ye)2为最小,并非Σ(y’-ye’)2为最小,对于倒数函数来说,小值的误差有所放大;
(6)任何两组随机变量都可求得回归线,但并不意味着有直线关系,只有符合上述条件者才是直线关系。
2.回归方程与回归系数
直线回归方程的通式是ye=a十bx,其中ye是由X推算的估计值(理论值),故标为ye,a是回归线在y轴上的截距,b为回归系数(由x推算y的回归系数),即回归线的斜率,反映y随x变化的变化率。
3.回归与相关的关系
回归反映两变量间的依存关系,相关反映两变量间的互依关系,两者都是分析两变量间数量关系的统计方法,其实际的因果关系要靠专业知识判断,不要对实际毫无关联的事物进行回归或相关分析。
相关系数r与回归系数b的正负号一致,正值说明正比,负值说明反比,而且b或r与0的差异有否显著性的t测验是等值的,即tr=tb。
因tr易算,故可用tr代替tb进行显著性测验,而且对任一个样本的b或r都应进行显著性测验,以说明x与y间有无直线关系。
但回归与相关有以下区别:
⑴回归反映了y随x而变化的数量关系,相关反映两随机变量间有无关连性。
⑵相关仅用于随机双变量相互关系的分析,若两个变量均服从正态分布,一般先作相关分析,如需要时再作回归分析。
回归还可用于一个变量x是选定的,只有一个变量y是从正态分布总体中随机抽取的资料,如用一系列药物剂量(x)实验得到对应的一系列药效强度的资料,此时只能作回归分析。
⑶同样的b可以有不同的r,相同的r也可以有不同的b。
⑷b是回归线斜率,|b|越大,线越陡,说明y随x变化的变化率大,但不说明实验数据各点与线是否接近,这要通过Σ(y-ye)2来说明其接近程度。
r表明x与y关系的密切程度,|r|越接近l则越密切,但也不说明点与线的接近程度。
同样的b可以有不同的r,相同的r也可以有不同的b。
⑸r2能反映各点与直线的吻合程度。
且有r2=byx•bxy,bxy表示由y推算x的回归系数。
思考题:
1.药物实验研究中为什么会产生误差?
误差有哪几类?
各有何特点?
2.设已有下列实验数据:
A=2.398,B=4.67,C=5.22,D=3.857,E=4.3027,试计算:
(1)((A+B)×
lgC)2–D/E
(2)5个数据的均值和标准差
3.校正下列表达方式:
13.070±
1.085,2317.8±
353.56,3.1566×
10-3±
2.454×
10-5
4.什么叫正相关、负相关、直线相关?
相关系数和回归系数有何关系?
第三章药物实验设计中的定量问题
为了使药理研究尽可能获得确切可靠的结论,并力争做到高质量、高精度、高效率、低花费,必须重视实验设计中的定量问题。
一.药理实验设计的任务
使实验结果能够确切地回答研究所提出的问题。
有效地减弱和控制各种干扰因素,突出主要因素。
尽可能地节约人力、物力和时间。
保证实验数据的精确性、重复稳定性、可靠性和可比性。
从实验中取得尽可能多的信息,得到具有充分代表性的足够数据。
尽量安排多剂量、多品种、多因素、多指标的先进实验设计。
二.药理实验设计的统计学原则
(一)重复
“重复”包括两方面的内容,即良好的重复稳定性(或称重现性)和足够的重复数,两者含意不同又紧密联系。
有了足够的重复数才会取得较高的重现性,为了得到统计学所要求的重现性,必须选择相应的适当的重复数。
统计学中的显著性检验规定的P<
0.05及P<
0.01反映了重现性的高低;
“P”表示不能重现的概率。
在已达到良好的重现性的条件下,如果P值相同,重复数越多的实验,其价值越小。
它说明实验误差波动太大,或是两药的均数相差太小。
前者提示实验方法应予改进,后者提示两药药效的差别没有临床意义。
可见,靠增加实验例数来提高重现性是有一定限度的。
实验重复数的质量:
除了重复数的数量问题外,还应重视重复数的质量问题。
要尽量采用精密、准确的实验方法,以减少实验误差。
同时应保证每次重复都是在同等情况下进行。
即实验时间、地点、条件,动物品系、批次,药品厂商、批号,临床病情的构成比或动物病理模型的轻重分布应当相同。
质量不高的重复,不仅浪费人力和物力,有时还会导致错误的结论。
(二)随机
“随机”就是使每个实验对象在接受处理(用药、化验、分组、抽样等等)时,都有相等的机会,随机遇而定。
随机可减轻主观因素的干扰,减少或避免偏性误差,是实验设计中的重要原则之一。
随机抽样的方案有以下几种:
1.单纯随机
所有个体(病人或动物)完全按随机原则(随机数字表或抽签)抽样分配。
本法虽然做到绝对随机,但在例数不多时,往往难以保证各组中性别、年龄、病情轻重等的构成比基本一致,在药理实验中较少应用。
2.均衡随机
又称分层随机。
首先将易于控制且对实验影响较大的因素作为分层指标,人为地使各组在这些指标上达到均衡一致。
再按随机原则将各个体分配到各组。
使各组在性别、年龄、病情轻重等的构成比上基本一致。
3.均衡顺序随机
主要用于临床或动物病理模型的抽样分组。
对病情、性别、年龄等重要因素进行均衡处理,其他次要因素则仅作记录,不作分组依据。
先根据主要因素画一个分层表,然后根据病人就诊顺序依次按均衡的层次交替进行分组。
例如准备将病情及性别加以均衡的临床试验分组情况见下表(病人总数22人),最后分组结果达到在病情及性别基本均衡。
均衡顺序随机分组表
均衡层次开始组别按就诊顺序分层交替分为A,B组共计AB
病重男A1A,2B,3A,4B,5A,6B,11A,13B44
女B7B,15A,16B,17A,18B23
病轻男B8B,9A,10B,19A,20B,22A33
女A12A,14B,21A21
(三)对照
“对照”是比较的基础,没有对照就没有比较,没有鉴别。
对照组的类型很多,将在后面加以介绍。
对照应符合“齐同可比”的原则,除了要研究的因素(如用药)外,对照组的其他一切条件应与给药组完全相同,才具有可比性。
不作任何处理的“空白对照”是不可取的。
三.药理实验设计中的例数问题
实验结论的重现性与可靠性同实验例数有关。
实验质量越高、误差越小,所需例数越少。
但最少也不能少于“基本例数”。
(一)影响实验例数的各种因素
药物效果:
药效强大或两组药效差别很大,则例数可相应减少。
生物差异:
生物差异越小,所得数据的标准差越小,则例数可相应减少。
实验技术:
实验手段、仪器设备越严格、精密,实验例数可相应减少。
统计处理:
以下几点可提高实验效率,减少实验例数。
1.两组例数相等,实验效率较高
以药理实验中应用最广的两个样本(两组数据)均值比较的t检验为例,不难看出当两组例数相等时,实验效率最高。
该种t