武汉大学医学统计学实习册答案教材.docx

资源描述

武汉大学医学统计学实习册答案教材.docx

《武汉大学医学统计学实习册答案教材.docx》由会员分享，可在线阅读，更多相关《武汉大学医学统计学实习册答案教材.docx（23页珍藏版）》请在冰点文库上搜索。

武汉大学医学统计学实习册答案教材.docx

武汉大学医学统计学实习册答案教材

前言：

由于Soner最近事情比较多，迟迟才总结出这一这份答案，再次深表歉意，特此鞠上一躬，此答案部分来源于网络，部分来源于书本以及课件总结，特感谢Soner的师兄师姐们的热情解答，以及统计学老师们的悉心教导，还有同年级兄弟姐妹的资料提供。

^。

实习一

1总体（population）：

根据研究目的所确定的同质观察单位的全体。

2样本（sample）：

从总体中随机抽取的部分个体。

3参数（parameter）：

总体的统计指标或特征值。

4统计量（statistic）：

由样本所算出的统计指标或特征值。

5概率（probability）：

在重复试验中，事件A的频率，随着试验次数的不断增加将愈来愈接近一个常数p，这个常数p就称为事件A出现的概率，记作P（A）或P。

6频率（relative）：

在n次随机试验中，事件A发生了m次，则比值f=m/n=A发生的试验次数/试验的总次数称为A在n次试验中出现的频率。

7变异（variation）：

同质事物间的差别。

8指标（indicator）：

说明总体综合数量特征和数量关系的数字资料。

简答与思考题

1什么叫医学统计学？

医学统计学与统计学、卫生统计学、生物统计学有何联系与区别？

医学统计学：

是应用统计学原理和方法研究生物医学资料的搜索、整理、分析和推断的一门学科。

统计学：

是研究数据的收集、整理、分析与推断的科学

卫生统计学：

是把统计理论、方法应用于居民健康状况研究、医疗卫生实践、卫生事业管理和医学科研的一门应用学科。

生物统计学：

是一门探讨如何从不完整的信息中获取科学可靠的结论从而进一步进行生物学实验研究的设计、取样、分析、资料整理与推论的科学。

2医学统计资料主要来源于哪些方面？

有何要求？

医学统计资料主要有实验数据和现场调查资料、医疗卫生工作记录、报表和报告卡等。

实验数据是指在试验过程中活的数据；现场调查资料主要来源于大规模的流行病调查获取的资料；医疗卫生工作记录有门诊病历卡、住院病历卡、化验报告等；报表有卫生工作基本情况年报表、传染年（月、日）报表、疫情旬（年、月、日）报表等；报表卡有传染病发病报告卡、出生报告卡、死亡报告卡等等。

这些资料的收集过程中，必须进行治疗控制，包括它的统一性、确切性、可重复性。

这些原始数据的精度和偏差应用明确的范围。

3当今医学研究的趋势和特点如何？

医学统计方法主要有哪些？

医学统计学在本世纪二十年代以后才逐渐形成为一门学科。

解放前，我国学者即致力于把统计方法应用到医学中去，但人力有限、范围较窄。

解放后，随着医学科研工作的发展，本学科得到迅速普及与提高，通过大量实践，在不少方面积累了自己的经验，丰富了医学统计学的内容，而电子计算机的作用，更促进了多变量分析等统计方法在医学研究中的应用。

4医学统计资料的类型有哪些？

（1）计量资料：

对每个观察单位用定量的方法测定某项指标量的大小，所得资料称为计量资料。

计量资料也称定量资料、测量资料，其变量值是定量的，表现为数值大小，一般有质量衡单位。

如某一患者的身高（cm）、体重（kg）脉搏（次/分）等

（2）计数资料：

将观察单位按某种属性或类别分组，所得的观察单位称为计数资料。

计数资料也称定性资料或分类资料。

其观察值是定性的，表现为互不相容的类别或属性，如调查某地某时的男、女性人口数；治疗一批患者，其治疗效果为有效、无效的人数。

（3）等级资料：

将观察单位按测量结果的某种属性的不同程度分组，所得各组的观察单位数，称为等级资料。

等级资料又称为有序变量。

如患者的治疗结果可分为治愈、好转、有效、死亡。

5误差、系统误差、随机测量误差、抽样误差有何区别？

对误差的控制各有何要求？

如何控制？

误差：

一个量的观测值或计算值与其真值之差，即一个量在测量、计算或观察过程中由于某些错误或通常由于某些不可控制的因素的影响而造成的变化偏离标准值或规定值的数量，误差是不可避免的。

系统误差：

在收集资料过程中，由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因，可造成观察结果倾向性的偏大或偏小，这叫系统误差，要尽量查明原因，必须克服。

随机测量误差：

在收集原始资料过程中，即使仪器初始状态及标准试剂已经校正，但是，由于各种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。

譬如，实验操作技术不稳定，不同实验操作员之间的操作差异，电压不稳定及环境温度差异等因素造成测量结果的误差，对于这种误差应采取相应的措施加以控制，至少应控制在一定的允许范围内。

一般可以用技术培训、指定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施，从而达到控制的目的。

抽样误差：

即使在消除了系统误差，并把随机测量误差控制在允许范围内，样本均数（或其它统计量）与总体均数（或其它参数）之间仍可能有差异。

这种差异是有抽样引起的，故这种误差叫做抽样误差，要用统计方法进行正确分析。

实习二

平均数（average）：

也叫平均值，是一组数据典型或有代表性的值，这个值倾向于落在根据数据大小排列的数据的中心，包括算术平均值、几何平均数、中位数等。

均数（mean）：

指在一组数据中所有数据之和再除以数据的个数，是反应数据集中趋势的一个指标。

几何均数（geometric）：

是用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平

中位数（median）：

将一组观察值按升序或降序排列，位次居中的数，常用M表示

百分位数（percentile）：

是一种位置指标，以Px表示，一个百分位数Px将全部观察值分为两个部分，理论上有x%的观察值小于Px小，有（1-x%）的观察值大于Px

全距（极差）（range）：

最大与最小观察值之差。

标准差（standard）：

是描述个体值变异程度的指标，为方差的算术平方根。

变异系数（coefficientofvariation）：

用于观察指标单位不同或均数相差较大时两组资料变异程度的比较，用CV表示。

计算：

标准差/均数*100%。

简答与思考题

1试诉频数表的要素与用途？

要素：

组段、频距。

用途：

①描述资料的分布特征和分布类型。

频数分布有两个重要特征：

集中趋势和离散趋势。

大部分观察值向某一数值集中的趋势称为集中趋势，常用平均数指标来表示，各观察值之间大小参差不齐。

频数由中央位置向两侧逐渐减少，成离散趋势，是个体差异所致，可用一系列的变异指标来反映。

②便于进一步计算有关指标或进行统计分析。

当数据较多且需手工计算时，常先编制频数表，再进行统计计算

③发现特大、特小的可疑值。

如果频数表的一端或两端出现连续几个组段的频数为零后，又出现少数几个特大值或特小值，使人怀疑其是否准确，需进一步检查和核对并做相应处理。

④当样本含量比较大时，可用各组段的频率作为概率的估计值。

2描述单变量资料的统计指标分哪两大类，分别是什么指标？

分类：

①描述数据分布集中趋势的指标：

算术均数、几何均数、中位数

②描述数据分布离散程度的指标：

极差、四分位数间距、方差、标准差、变异系数。

3试诉平均数、标准差、差异系数的含义与用途、

平均数的指标的概念和作用：

概念：

平均数表示一组同质计量数据集中趋势的位置和平均水平。

作用：

是一组计量数据平均水平的代表值，可作为不同组间的比较值。

标准差：

反映数据的离散程度，反映一组数据变量值的变异程度，组间单位相同时，S越小，表示数据的变异程度越小。

变异系数：

标准差和平均数的比值，即s/a。

应用：

1）组间单位不同时变异程度的比较。

2）比较组单位相同，但均数相差悬殊的组间变异程度。

4什么对象可以作为医学正常参考值的正常人？

如何制定95%正常参考值范围？

所谓正常人不是指机体任何器官、组织的形态和机能都正常的而是符合特定水平的人

1）确定诊断指标为“定性”或“定量”

2）计量数据要确定其分布（正态或偏态）

3）计量资料考虑制定单侧诊断界值还是双侧诊断界值。

4）有足够的样本例数（一般不低于100例）

5标准正态分布曲线下面积有何分布规律？

所有的正态分布曲线，在v左右的相同倍数的标准差范围内的面积相同。

并且，在v±σ范围内的面积约为68.3%;在v±1.96σ范围内的面积约为95%；在v±2.58σ范围内面积约为99%。

6同一资料的标准差是否一定小于均数？

均数和标准差是两类不同性质的统计指标，标准差用于描述数据的变异程度，变异程度大，则该值大，变异程度小，则该值小，标准差可大于均数，也可小于均数。

实习三：

抽样误差（samplingerror）：

在同一总体中随机抽取样本含量相同的若干样本，是样本指标之间的差异以及样本指标与总体指标的差异。

标准误（standarderrorSE）：

表示样本均数间的变异程度。

可信区间（confidenceinterval）：

按一定的概率或可信度（1-α）用一个区间估计总体参数所以范围，这个范围称作可信度1-α的可信区间，又称置信区间。

假设检验（hypothesistest）：

用来判断样本与样本，样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

其基本原理是先对总体的特征作出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受作出推断。

第一类误差：

统计学上规定，拒绝了实际上成立的H0，这类“弃真”的错误称为Ⅰ型错误或第一类错误，Ⅰ型错误的概率用α表示

第二类误差：

统计学上规定，不拒绝实际上不成立的H0，这类“存伪”的错误称为Ⅱ型错误或第二类错误，Ⅱ型错误的概率用β表示。

t分布（t-distribution）：

在总体均数为u，总体标准差为σ的正态总体中随机抽取n相等的许多样本，分别算出样本均数，这些样本均数呈正态分布，而当样本含量n不太小时，即使总体不呈正态分布，样布均数的分布也接近正态。

思考题

1标准差和标准误有何区别与联系

区别：

（1）含义不用①s描述个体变量值（x）之间的变异度大小，s越大，变量值（x）越分散；反之变量值越集中，均数打代表性就越强②标准误是描述样本均数之间的变异度大小，标准误越大，样本均数与总体均数间差异越大，抽样误差越大；反之，样本均数越接近总体均数，抽样误差越小

（2）与n的关系不同：

n增大时，①s→σ（恒定）②标准误减少并趋于0（不存在抽样误差）

（3）用途不同①s：

表示x的变异度大小，计算cv，估计正常值范围，计算标准误等②x：

参数估计和假设检验

联系：

二者均为变异度指标，样本均数的标准差及为标准误，标准差与标准误成正比

2统计描述与统计推断分别应掌握哪些要点

1）研究特点不同：

描述统计学研究如何简缩数据并描述这些数据的方法，一般包括：

统计调查方法，分类原理，汇总，统计表，统计图，频数分配，时间数列，指数，相关，估计推算等。

推断统计学研究如何在随机抽样的基础上推论有关总体数量特征的方法，一般包括：

统计推断原上推论有关总体数量特征的方法，一般包括：

统计推断原理，实验设计，估计理论，抽样调查，复变数分析，序列分析，误差理论，假设检验，决策理论等。

2）研究样本不同：

描述统计学研究大样本理论，所谓大样本即包括多数个体或多数数值的样本；推断统计学肝究小样本理论，所谓小样本即包括少数个体或少数数恼的样本。

3）应用统计的性质不完全相同。

描述统计学派在应用统计——生物统计、经济统计等方面，仍残留者凯特勒的实质科学的影响；推断统计学在应用统计——物理统计、田间设计、质量管理、经济预测等方面，基本上已转变为通用的方法论科学。

3t检验、z检验的公式有哪些类型，在应用上有何异同

t检验：

当样本例数n较小时，要求样本取自正态总体。

t检验的类型：

单样本t检验，独立t检验，配对t检验

z检验：

样本例数较大，或n虽小而总体标准差已知。

相同点：

集中位置都为0，都是单峰分布，是对称分布，标准正态分布是t分布的特例（自由度是无限大时）

不同点：

t分布是一簇分布曲线，t分布的曲线的形状是随自由度的变化而变化，标准正态分布的曲线的形状不变，是固定不变的，因为它的形状参数为1。

4在统计推断过程中，如何区别单侧检验与双侧检验

如果将拒绝性概率平分于理论抽样分布的两侧，称为双侧检验。

例如选定显著性水平α=0.05，双侧检验就是将α概率所规定的拒绝区域平分为两部分而置于概率分布的两边，每边占有=0.025。

双侧检验只强调差异是否显著而不强调方向性。

如果将拒绝性概率置于理论抽样分布的一侧（左侧或右侧），称为单侧检验（右侧检验或左侧检验）。

单侧检验强调差异的方向性。

在具体的假设检验中，选择双侧检验或单侧检验可分为以下三种情况：

第一种：

H0：

μ=μ0：

μ≠μ0双侧

第二种：

H0：

μ≥μ0：

μ＜μ0单侧（左侧）

第三种：

H0：

μ≤μ0：

μ＞μ0单侧（右侧）

5总体可信区间与正常值范围有何不同

应注意：

可信区间与参考值范围的意义、计算公式和用途均不同。

1.从意义和用途来看

95％参考值范围是指同质总体内包括95％个体值的估计范围，而总体均数95％可信区间是指按95％可信度估计的总体均数的所在范围。

可信区间用于估计总体参数，总体参数只有一个。

参考值范围用于估计变量值的分布范围，变量值可能很多甚至无限。

2.从计算公式看：

若指标服从正态分布，95％参考值范围的公式是：

±1.96s。

总体均数95％可信区间的公式是：

。

前者用标准差，后者用标准误。

前者用1.96，后者用α为0.05，自由度为v的t界值。

6假设检验和总体均数区间估计有何联系

假设检验：

是对总体做出某种假定，然后根据样本信息推断总体是否成立的一类统计学方法总称。

假设检验有三个基本步骤：

①建立假设和确定检验水准；②选择检验方法和计算检验统计量；③确定P值和做出统计推断结论。

总体均数的估计：

1、点估计：

样本统计量直接作为总体指标的估计值。

它未考虑抽样误差的大小。

2、区间估计：

按预先给定的概率（1-α）确定的包含未知总体参数的可能范围。

7简述第1类错误与第2类错误的区别与联系

区别：

Ⅰ型错误（弃真）：

拒绝实际成立的H0，型错误的概率记为α。

（1－a）即置信度:

重复抽样时，样本区间包含总体参数（μ）的百分数。

当p≤α而拒绝H0时，只能犯Ⅰ型错误，不可能犯Ⅱ型错误。

Ⅱ型错误（存伪）：

不拒绝实际不成立的H0，Ⅱ型错误的概率记为β。

（1－β）即把握度（或检验效能：

两总体确有差别，被检出有差别的能力。

当p≥α而拒绝H0时，只能犯Ⅱ型错误，不可能犯Ⅰ型错误。

联系：

对同一资料，α与β反方向变化，若要同时减小α与β，唯一的办法是增加样本含量。

实习四

1方差分析的基本思想是什么

方差分析的基本思想就是按研究目的和设计类型，将总变异的离均差平方和SS和自由度v分别分解成若干部分，并求得各相应部分的变异；其中的组内变异或误差主要反映个体差异或抽样误差，其它部分的变异与之比较得出统计量F值，由F值的大小确定P值，并做出推断。

2方差分析有何特性

1）各样本是相互独立的随机样本

2）各样本来自正态分布

3）各处理组总体方差相等，及方差齐

3t检验与F检验的适用条件和应用范围有何异同

t检验适用于两个样本均数的比较，F检验适用于多个样本的比较。

t检验的应用条件：

要求各样本来自相互独立的正态总体且各总体方差齐。

方差分析的应用条件

（1）各样本是相互独立的随机样本，且来自正态分布总体。

（2）各样本的总体方差相等，即方差齐性。

4配对比较的t检验与配伍组比较的方差分析之间有何关系？

两独立样本均数比较的t检验与两独立样本均数比较F检验之间有何联系

1）两者都要求比较的资料服从正态分布；

2）而且两样本均数的比较及方差分析均要求比较组有相同的总体方差；

3）配伍组比较的方差分析是配对比较t检验的推广，成组设计多个样本均数比较的方差分析是两样本均数比较t检验的推广；

4）对于两个样本之间的比较，方差分析和t检验效果是相同的，

两独立样本均数比较应用t检验的条件之一就是方差齐性，其中要判断两总体方差是否相等，就可以用F检验。

简单的说就是检验两个样本的方差是否有显著性差异，这是选择何种T检验（等方差双样本检验，异方差双样本检验）的前提条件。

5多个样本均数比较方差分析的获得组间差异有统计意义（P<0.05），问是否已完成该资料的分析？

为什么？

没有。

拒绝H0，接受H1，表示总体均数不全相等，而要知道哪两两均数不相等和哪两辆均数不等，还需要进一步作多重比较。

实习五

1常用相对数指标有哪些？

它们在计算和意义上有何不同？

率（强度相对数，频率相对数）、构成比、相对比

应用相对数时应注意的问题：

⑴计算相对数的分母一般不宜过小。

⑵分析时不能以构成比代替率。

⑶不能用构成比的动态分析代替率的动态分析。

⑷对观察单位数不等的几个率，不能直接相加求其总率。

⑸在比较相对数时应注意可比性。

⑹对样本率（或构成比）的比较应随机抽样，并做假设检验。

2率的标准化的意义及基本思想是什么？

当比较的两组资料内部各小组率明显不同，且各小组观测例数的构成比也明显不同时，直接比较两个合计率是不合理的。

因为期内部构成比不同，往往影响合计率的大小，需要统一的内部构成进行调整后计算标准化率，使其具有可比性，这种方法称为率的标准化。

率的标准化的基本思想：

要比较两个总率时，发现两组资料的内部构成（如年龄、性别构成等）存在明显不同，而且影响到了总率的结果，这时就不宜再直接比较总率，而应考虑采用标准化法。

标准化法的基本思想，就是采用统一的标准（统一的内部构成）计算出消除内部构成不同影响后的标准化率（调整率），然后再进行比较。

3两组计数资料比较可否用z检验？

如可以，有何适用条件？

如果总体为正态而方差又已知，使用Z检验就可以了；

如果总体并非正态而总体方差也是未知的，在样本容量大于30时，可以用Z检验

如果总体非正态而样本容量又小于30，既不能用Z检验也不能用t检验，需要使用非参数检验。

4卡方检验的适用范围和各个公式的适用条件是什么？

卡方检验用于：

推断两个及两个以上总体率或构成比是否有差别，两个分类变量间有无相关关系，多个率的趋势检验，以及两个率的等效检验等。

此外，也用于频数分布的拟合优度检验。

对不同的设计类型的资料，检验的应用条件不同：

（1）完全随机设计两样本率的比较

1）当n＞40，且T≥5时，用非连续性校正值；

若所得P≈α，则改用四格表的确切概率法。

2）当n≥40，且有1≤T＜5时，用连续性校正值。

3）n＜40，或有T＜1时，不能用检验，应当用四格表的确切概率法。

（2）配对设计四格表

1）当b+c≥40，

2）当b+c<40，需作连续性校正，　　　　　

（3）行列表资料

1）不宜有1/5以上格子的理论频数小于5，或有1个格子的理论频数小于1；

2）单向有序行列表，在比较各处理组的效应有无差别时，应该用秩和检验或Ridit检验；

3）多个样本率（或构成比）比较的检验时，结论为拒绝无效假设时，只能认为各总体率（或总体构成比）之间总的说来有差别，但不能说明它们彼此之间都有差别，或某两者间有差别。

若想进一步了解哪两者的差别有统计学意义，可用分割法。

5率的标准误的意义和用途？

意义：

由于抽样的原因所造成的样本率与总体率的不一致就是率的抽样误差。

率的抽样误差的大小是用率的标准误来表示。

用途：

①表示抽样误差的大小，说明样本率的代表性、可靠性。

②对总体率的可信区间进行估计。

6以样本总体率估计的条件与z检验的适用条件有联系吗？

Z检验的步骤适用条件：

（1）已知一个总体均数；

（2）可得到一个样本均数及该样本标准误；

　　（3）样本来自正态或近似正态总体。

样本含量n足够大，np与n（1－p）均≥5，此时，样本率p也是以总体率为中心呈正态分布或近似正态分布的

实习六

1简述非参数统计方法的概念及适用范围

概念：

样本所来自的总体分布难以用某种函数式来表达，还有一些资料的总体分布的函数式是未知的，只知道总体分布是连续型的或离散型的，解决这类问题的一种不依赖总体分布的具体形式的统计方法。

由于这类方法不受总体参数的限制，故称非参数统计法，或称为不拘分布的统计分析方法，又称为无分布型式假定的统计分析方法。

它检验的是分布，而不是参数。

非参数统计不需对总体分布（总体参数）作出特殊假设。

适用范围：

（1）等级资料。

（2）偏态分布资料。

当观察资料呈偏态或极度偏态分布而又未作变量变换，或虽经变量变换仍未达到正态或近似正态分布时，宜用非参数检验。

（3）各组离散程度相差悬殊，即方差明显不齐，且不能变换达到齐性。

（4）个别数据偏离过大，或资料为单侧或双侧没有上限或下限值。

（5）分布类型不明。

（6）初步分析。

有些医学资料由于统计工作量大，可采用非参数统计方法进行初步分析，挑选其中有意义者再进一步分析（包括参数统计内容）。

（7）对于一些特殊情况，如从几个总体所获得的数据，往往难以对其原有总体分布作出估计，在这种情况下可用非参数统计方法。

2非参数统计方法有何优缺点

优点：

①非参数统计方法要求的假定条件比较少，因而它的适用范围比较广泛。

②多数非参数统计方法要求的运算比较简单，可以迅速完成计算取得结果，因而比较节约时间。

③大多数非参数统计方法在直观上比较容易理解，不需要太多的数学基础知识和统计学知识。

④大多数非参数统计方法可用来分析如象由等级构成的数据资料，而对计量水准较低的数据资料，参数统计方法却不适用。

⑤当推论多达3个以上时，非参数统计方法尤具优越性。

缺点：

①由于方法简单，用的计量水准较低，因此，如果能与参数统计方法同时使用时，就不如参数统计方法敏感。

若为追求简单而使用非参数统计方法，其检验功效就要差些。

这就是说，在给定的显著性水平下进行检验时，非参数统计方法与参数统计方法相比，第Ⅱ类错误的概率β要大些。

②对于大样本，如不采用适当的近似，计算可能变得十分复杂。

注意:

凡符合或经过变换后符合参数检验条件的资料，最好用参数检验。

当资料不具备参数检验的条件时，非参数检验是一种有效的分析方法。

3对同一资料，又出自同一研究目的，用参数检验和非参数检验所得结果不一致时，宜以何为准

两者各有使用条件，究竟取哪种结论，要根据资料是否满足该种检验方法的应用条件进行选择。

在符合参数检验的条件时，可接受参数检验的结论，而资料不符合参数检验的条件时，应以非参数检验的结论为佳。

如总体分布为极度偏态或其他非正态分布，或者两总体方差不齐时，此时宜采用秩和检验的结果

4配对比较的假设检验，符合参数检验条件，能否出现t检验结果P>0.05，而非参数检验结果P<0.05？

如果出现上述情况，此时应怎样解释检验结果

能。

采用秩和检验。

实习七

1相关与回归的区别与联系

区别：

意义：

相关反映两变量的相互关系，即在两个变量中，任何一个的变化都会引起另一个的变化，是一种双向变化的关系。

回归是反映两个变量的依存关系，一个变量的改变会引起另一个变量的变化，是一种单向的关系。

应用：

研究两个变量的相互关系用相关分析。

研究两个变量的依存关系用回归分析。

研究性质：

相关是对两个变量之间的关系进行描述，看两个变量是否有关，关系是否密切，关系的性质是什么，是正相关还是负相关。

回归是对两个变量做定量描述，研究两个变量的数量关系，已知一个变量值可以预测出另一个变量值，可以得到定量结果。

武汉大学医学统计学 实习册答案教材.docx

武汉大学医学统计学实习册答案教材.docx