生物医学研究的统计学方法课后答案(案例分析)Word文档下载推荐.doc
《生物医学研究的统计学方法课后答案(案例分析)Word文档下载推荐.doc》由会员分享,可在线阅读,更多相关《生物医学研究的统计学方法课后答案(案例分析)Word文档下载推荐.doc(88页珍藏版)》请在冰点文库上搜索。
某卫生员进行统计分析后说,经假设检验,该病的两性发病率(114/120=95%与6/120=5%)之间的差别有统计学意义,由此得出结论:
“该病男性易得”。
你对这个结论有何看法?
若结论是错误的,那么,错误的实质是什么?
案例辨析这个结论是错误的!
因为在这1200人中,究竟有多少男性和多少女性并不清楚,无法计算男性发病的频率和女性发病的频率。
假如其中有1194名男性和6名女性,则男性发病率为(120/1194)´
100%=10.05%,而女性全部发病(女性总例数太少,不宜用百分之百发病率来描述)。
显然,原来的结论是不成立的。
该卫生员所犯错误的实质是将发病人员中性别的频率错误地当作人群中发病的频率了,因而得出毫无根据的错误结论。
正确做法若这1200人是从一个总体中抽出来的样本,要弄清在这1200人中男、女人数各是多少,设分别为和,然后,分别计算男性和女性的发病频率,即,;
要想得出两个发病频率之间的差别是否能反映总体的情况,还应进行统计推断(即进行假设检验,此处从略)。
第2章统计描述
案例2-1本章的例2-1中,该医生同时还观察了1402名临产母亲的住院天数(教材表2-14),并得到平均住院天数为6.6天。
请对此发表评论。
教材表2-141402名临产母亲生产期间的住院天数
组段
(1)
组中值Xi
(2)
频数
(3)
频率fi
(4)
1~
2
79
5.63
3~
4
316
22.54
5~
6
559
39.87
7~
8
243
17.33
9~
10
89
6.35
11~
12
57
4.07
13~
14
23
1.64
15~
16
19
1.36
17~
18
9
0.64
19~
20
1
0.07
21~
22
0.14
23~
24
25~
26
3
0.21
合计
—
1402
1.00
由加权法的计算公式(2-2)求出平均住院天数
(天)
案例辨析首先观察资料的分布形式,由于呈正偏峰分布,选用上述结果描述住院天数的平均水平不合适。
正确做法宜选用不受定量资料分布情况限制的中位数来描述住院天数的平均水平。
本例计算结果为M=6.1(天)。
案例2-2某人编制了一张统计表(教材表2-15),你认为哪些需要改进?
教材表2-151976—1979年吉林市各型恶性肿瘤的死亡率
年龄组
疾病
0~
15~
35~
55~
75~
胃癌
无
1.13/10万
19.92/10万
150/10万
313.44/10万
食管癌
0.1/10万
2.18/10万
35.20/10万
73.56/10万
肝癌
0.34/10万
1.64/10万
25.30/10万
97.51/10万
134.33/10万
肺癌
0.41/10万
20.21/10万
125.10/10万
137.53/10万
案例辨析原表格存在的问题:
①标题不准确;
②线条过多,出现了斜线、竖线和多余的横线;
③数字区域出现了文字;
④小数位数不统一,小数点没有纵向对齐;
⑤量纲的标注位置有误。
正确做法将原统计表中存在的上述错误纠正过来,修改后的统计表见案例表2-1。
案例表2-11976—1979年吉林市各年龄组人群部分恶性肿瘤死亡情况调查结果
疾病
各年龄组死亡率(1/10万)
0.00
1.13
19.92
150.00
313.44
0.10
2.18
35.20
73.56
0.34
0.41
25.30
20.21
97.51
125.10
134.33
137.53
案例2-3某人绘制一张统计图(教材图2-11),你认为哪些需要改进?
教材图2-111952年与1972年某地肺结核、心脏病和恶性肿瘤的死亡率
案例辨析原图形存在的问题:
①缺标题;
②复式条图误用为单式条图;
③纵轴的量纲未注明;
④未正确给出图例。
正确做法将原图中存在的上述错误纠正过来,重新绘图(案例图2-1)。
案例图2-1某地三种疾病死亡率在1952与1972年间的变化
案例2-4以病死率为考察指标,对两所医院某病的治疗水平进行比较,结果见教材表2-16,由合计的病死率得出结论为乙医院治疗水平优于甲医院,请评述这个结论。
教材表2-162000年两所医院某病的病死率比较
病情严重程度
甲医院
乙医院
出院人数
病死数
病死率/%
轻
100
8.0
650
65
10.0
中
300
36
12.0
250
40
16.0
重
600
90
15.0
18.0
合计
1000
134
13.4
123
12.3
案例辨析由教材表2-16可以看出,此表编制得不够规范,更为严重的是,虽然甲医院各种病情患者的病死率均低于乙医院,但总的病死率却是甲医院高于乙医院。
这个矛盾的出现,是由于甲医院收治的重病人多,轻病人少,乙医院则是重病人少,轻病人多。
两家医院收治患者的病情不均衡,不宜直接比较基于各自病情状况的病死率——“粗病死率”。
正确做法因各医院收治的患者在病情方面不均衡,直接进行比较是不正确的,而是要进行标准化处理后再比较。
标准化(standardization)有直接标准化法和间接标准化法两种。
(1)直接标准化首先确定一个标准组,将其病情分布视作标准分布,即两家医院理论上共同的病情分布状况。
例如,某省内两家医院的对比,可以将全省、全国该类型患者入院时的病情分布作为标准组。
这里,将两家医院各种程度病情的患者数对应相加,“构造”出标准组,这是在不能获得参考文献关于全省、全国情况时的做法。
直接标准化计算过程见案例表2-2。
案例表2-2用直接标准化法对2000年两所医院某病的病死率作比较
病情严
重程度
标准组人数Ni
原病死率pi
预期病死率数Ni×
pi
甲医院
乙医院
750
60
75
550
66
88
700
105
126
2000
231
289
甲医院的标准化病死率:
乙医院的标准化病死率:
经标准化,甲医院的标准化病死率低于乙医院,正确反映了两组病死率水平的对比关系。
以甲医院的计算为例,粗病死率是以甲医院实际病情分布为权重,对甲医院病死率水平的加权平均;
标准化的则是以标准组病情分布为权重,对甲医院病死率水平的加权平均。
即
当进行对比的两组率为样本率时,下结论前需做假设检验,这里略去。
(2)间接标准化也需首先确定一个标准组(由文献获得),并给定标准组的各年龄别病死率及总的病死率。
由案例表2-3求出两家医院各自收治的患者按标准组的病死率水平将发生的总的死亡数。
标准组的选择依据同直接标准化法。
案例表2-3用间接标准化法对2000年两所医院某病的病死率作比较
标准组
病死率pi
9.0
100
650
9.0
58.5
14.0
300
250
42.0
35.0
600
100
96.0
16.0
13.5
147.0
109.5
按标准组的病死率水平,甲医院有147例死亡,而实际甲医院仅有134例死亡,甲医院实际的病死发生程度低于标准组,两者程度之比134/147=0.91称作标化死亡比(standardmortalityratio,SMR),于是
同理,。
结果,认为乙医院的病死率高于甲医院。
这是根据数值大小得出的直观判断结果。
若希望得出两医院标准化病死率之间的差别是否具有统计学意义,应进行假设检验,此处从略。
本题目是以“病死率”为例阐述了阳性率的标准化的问题,其余如死亡率、发病率、治愈率等同理。
第3章概率分布
案例3-1为估计某地居民尿汞值的参考值范围,测得某地200名正常成人的尿汞值如教材表3-6。
教材表3-6某地200名正常成人的尿汞值/
尿汞值
4~
8~
12~
16~
20~
24~
28~
32~
36~
40~
44~
48~
例数
45
30
41
15
13
5
试根据该样本资料估计该地居民尿汞值的95%正常值范围。
下面给出了多种解法,请辨析正误并讲出道理。
若有正确的,请指出来;
若没有正确的,请一定要补充上。
解法一:
计算得该样本资料的均数13.78(),标准差11.71(),于是估计该地居民尿汞值的95%正常值范围为(,)=(,36.73)。
解法二:
估计该地居民尿汞值的95%正常值范围为(,)=(2.66,24.90)。
解法三:
估计该地居民尿汞值的95%正常值范围为(,)=(,32.98)。
解法四:
估计该地居民尿汞值的95%正常值范围为(0,)=(0,32.98)()。
解法五:
估计该地居民尿汞值的95%正常值范围为(0,)=(0,36.73)()。
解法六:
估计该地居民尿汞值的95%正常值范围为(0,)=(0,24.90)()。
解法七:
估计该地居民尿汞值的95%正常值范围为(,)=(,13.78)()。
解法八:
解法九:
估计该地居民尿汞值的95%正常值范围为(,)=(2.66,13.78)
(1)。
案例辨析以上所有解法均是错误的。
本案例解法一至解法九均利用正态分布法估计正常值范围,但却忽略了对该资料的正态性判断或检验。
正确做法严格的正态性检验常用的方法有Z检验(通常称为矩法)、W检验、D检验等,需要借助统计软件完成。
在这里我们用粗略判断的方法:
作出频率分布图看是否对称,如果对称可初步判断为正态分布,否则判为非正态。
该例频率分布明显不对称(案例图3-1)。
案例图3-1表3-6资料的频率分布
由此图可粗略判断尿汞值这个指标不服从正态分布(经对数变换后频率分布仍不对称),所以不能用正态分布法估计正常值范围,而应用适合描述偏态分布的百分位数法,计算,故估计该地居民尿汞值的95%正常值范围不高于38()。
在本例中,如果该地居民尿汞值呈正态分布,则上述解法四计算公式是正确的,因为汞是对人身体有害的微量元素,越少越好,又不可能取负值,下限应该为0,只需求出单侧上限即可。
案例3-2某地区10万人口中出现了20例流行性腮腺炎病例,有人希望据此推断该地区10万人口中不少于20人患流行性腮腺炎的概率。
于是,有几位爱动脑筋的学生给出了自己的解法。
请辨析他们的解法之正误,并讲出道理。
解法二:
案例辨析上述解法均是错误的。
解法一将发生流行性腮腺炎的人数看作是服从的Poisson分布,并近似服从正态分布,来计算相应的概率。
但本例各观察单位是否患病不是互相独立的,不满足Poisson分布的应用条件,所以不能按照Poisson分布模型处理。
解法二按照二项分布计算概率,同样因为各观察单位是否患病非独立,不满足二项分布的应用条件。
解法三也是按照Poisson分布计算概率,因为模型选择的错误,所以导致结果错误,同样可分析解法四。
正确做法就本例而言,因患这种病是有传染性的,即不满足独立性条件,没有合适的统计计算方法;
若满足独立性,则以上四种计算方法均正确。
在解法一中,因,将Poisson分布用正态分布来近似,近似程度较差,故计算出来的概率与直接按Poisson分布或二项分布计算的结果有较大出入。
第4章参数估计
案例4-1某研究者测得某地120名正常成人尿铅含量(mg·
L-1)如下:
尿铅含量
29
120
试据此资料估计正常成人平均尿铅含量的置信区间及正常成人尿铅含量的参考值范围。
由表中数据得到该例的,,,某作者将这些数据代入公式(4-20),即采用计算得到正常成人平均尿铅含量100%置信区间为(,14.0684);
采用公式计算得到正常成人尿铅含量100%参考值范围为(,26.0306)。
请问这样做是否合适?
应当怎么做?
案例辨析该定量资料呈偏峰分布,不适合用正态分布法计算参考值范围。
正确做法可以用百分位数法求正常成人尿铅含量100%参考值范围的单侧上限。
例如,当=0.05时,可直接求分位数,(0,)就是所求的正常成人尿铅含量的95%正常值范围。
欲求正常成人尿铅含量总体均数的置信区间,当样本含量n较大(比如说,大于30或50)时,样本均数就较好地接近正态分布(根据数理统计上的中心极限定理)。
本例,因为较大,不必对原始数据作对数变换就可以用估计总体均数的置信区间。
案例4-2在BiPAP呼吸机治疗慢性阻塞性肺病的疗效研究中,某论文作者为了描述试验前的某些因素是否均衡,在教材表4-5中列出了试验前患者血气分析结果。
由于作者觉得自己数据的标准差较大,几乎和均数一样大,将标准差放在文中显得不雅观,于是他采用“均数±
标准误”(),而不是“均数±
标准差”()来对数据进行描述。
问在研究论文中以教材表4-5方式报告结果正确吗?
教材表4-5 试验组和对照组治疗前血气分析结果()
组别
年龄/岁
pH
pa(CO2)/kPa
pa(O2)/kPa
Sa(O2)/%
试验组
63.004.33
7.360.05
9.250.55
85.121.73
对照组
62.503.95
7.380.06
9.160.62
86.452.25
案例辨析描述数据的基本特征不能采用,因为为反映抽样误差大小的指标,只表示样本均数的可靠性,而不能反映个体的离散程度。
不仅如此,因仅为与其对应的的,有时,即使很大(甚至大于),用表示离散度时,不易被察觉出来,因此,用表达定量资料时,往往具有欺骗性。
正确做法当各组定量资料服从或近似服从正态分布时,反映个体的离散程度应该采用标准差,即描述数据的基本特征必须采用;
否则,需要采用描述数据的基本特征。
此处,为中位数、和分别为第1四分位数和第3四分位数。
案例4-3某市往年的12岁男孩平均身高为140.0cm。
现在从该市的12岁男孩中随机抽得120名作为研究对象,得到平均身高为143.1cm,标准差为6.3cm。
请估计该样本对应总体均数的95%置信区间,并确定该均数是否与往年不同。
某学生的回答如下:
“该例12岁男孩平均身高的点估计值为143.1cm,按公式(4-21)计算得到该点估计值的95%置信区间为141.9~144.2cm。
因为往年12岁男孩平均身高为140.0cm,没有落在所计算的95%置信区间以内,所以可以认为现有男孩平均身高与往年身高有差异”。
请指出学生回答中的不恰当之处。
案例辨析不恰当之处有三:
①“点估计值的95%置信区间”的说法不对;
②“以往男孩平均身高没有落在所计算的95%置信区间以内”的说法不对;
③“现有男孩平均身高与往年身高有差异”的说法不对。
正确做法①应该说“点估计值对应总体均数的95%置信区间”;
②应该说“95%置信区间没有覆盖(包括)以往男孩平均身高”;
③应该说“现有男孩平均身高与往年男孩平均身高的差异有统计学意义”。
第5章假设检验
案例5-1为了比较一种新药与常规药治疗高血压的疗效,以血压下降值为疗效指标,有人作了单组设计定量资料均数比较的检验,随机抽取25名患者服用了新药,以常规药的疗效均值为,进行检验,无效假设是,对立假设是,检验水平α=1%。
结果值很大,拒绝了无效假设。
“拒绝了无效假设”意味着什么?
下面的说法你认为对吗?
(1)你绝对否定了总体均数相等的无效假设。
(2)你得到了无效假设为真的概率是1%。
(3)你绝对证明了总体均数不等的备择假设。
(4)你能够推论备择假设为真的概率是99%。
(5)如果你决定拒绝无效假设,你知道你将犯错误的概率是1%。
(6)你得到了一个可靠的发现,假定重复这个实验许多次,你将有99%的机会得到具有统计学意义的结果。
提示:
就类似的问题,Haller和Kruss(2002)在德国的6个心理系问了30位统计学老师、44位统计学学生和39位心理学家。
结果所有的统计学学生、35位心理学家和24位统计学老师认为其中至少有一条是正确的;
10位统计学老师、13位心理学家和26位统计学学生认为第4题是正确的。
(见StatisticalScience,2005,20(3):
223-230.)
案例辨析6个选择均不正确。
(1)可能犯Ⅰ类错误。
(2)α=1%是表示在无效假设成立的条件下,犯Ⅰ类错误的概率。
(3)可能犯Ⅰ类错误。
(4)α=1%是表示在无效假设成立的条件下,犯Ⅰ类错误的概率,而不是推论备择假设为真的概率是99%。
(5)在无效假设成立的条件下,就该例拒绝无效假设犯错误的概率是。
(6)在无效假设成立的条件下,还可能犯错误,并不是完全“可靠”的发现;
1-=99%是指无效假设成立的条件下不犯错误的概率是99