《医学统计学》复习题.docx

资源描述

《医学统计学》复习题.docx

《《医学统计学》复习题.docx》由会员分享，可在线阅读，更多相关《《医学统计学》复习题.docx（10页珍藏版）》请在冰点文库上搜索。

《医学统计学》复习题.docx

《医学统计学》复习题

医学统计学复习题

一、名词解释

1．总体：

根据研究目的确定的同质的观察单位的全体，更确切的说，是同质的所有观察单位某种观察值（变量值）的集合。

总体可分为有限总体和无限总体。

总体中的所有单位都能够标识者为有限总体，反之为无限总体。

2.样本：

从总体中随机抽取部分观察单位，其测量结果的集合称为样本（sample）。

样本应具有代表性。

所谓有代表性的样本，是指用随机抽样方法获得的样本。

3．随机抽样：

随机抽样（randomsampling）是指按照随机化的原则（总体中每一个观察单位都有同等的机会被选入到样本中），从总体中抽取部分观察单位的过程。

随机抽样是样本具有代表性的保证。

4．变异：

在自然状态下，个体间测量结果的差异称为变异（variation）。

变异是生物医学研究领域普遍存在的现象。

严格的说，在自然状态下，任何两个患者或研究群体间都存在差异，其表现为各种生理测量值的参差不齐。

5.计量资料：

对每个观察单位用定量的方法测定某项指标量的大小，所得的资料称为计量资料（measurementdata）。

计量资料亦称定量资料、测量资料。

.其变量值是定量的，表现为数值大小，一般有度量衡单位。

如某一患者的身高（cm）、体重（kg）、红细胞计数（1012/L）、脉搏（次/分）、血压（KPa）等。

6.计数资料：

将观察单位按某种属性或类别分组，所得的观察单位数称为计数资料（countdata）。

计数资料亦称定性资料或分类资料。

其观察值是定性的，表现为互不相容的类别或属性。

如调查某地某时的男、女性人口数；治疗一批患者，其治疗效果为有效、无效的人数；调查一批少数民族居民的A、B、AB、O四种血型的人数等。

7．等级资料：

将观察单位按测量结果的某种属性的不同程度分组，所得各组的观察单位数，称为等级资料（ordinaldata）。

等级资料又称有序资料。

如患者的治疗结果可分为治愈、好转、有效、无效、死亡，各种结果既是分类结果，又有顺序和等级差别，但这种差别却不能准确测量。

8．概率：

概率（probability）又称几率，是度量某一随机事件A发生可能性大小的一个数值，记为P（A），P（A）越大，说明A事件发生的可能性越大。

0﹤P（A）﹤1。

9.频率：

在相同的条件下，独立重复做n次试验，事件A出现了m次，则比值m/n称为随机事件A在n次试验中出现的频率（freqency）。

当试验重复很多次时P（A）=m/n。

10.随机误差：

随机误差（randomerror）又称偶然误差，是指排除了系统误差后尚存的误差。

它受多种因素的影响，使观察值不按方向性和系统性而随机的变化。

误差变量一般服从正态分布。

随机误差可以通过统计处理来估计。

11．系统误差：

是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因，使观察值不是分散在真值的两侧，而是有方向性、系统性或周期性地偏离真值。

系统误差可以通过实验设计和完善技术措施来消除或使之减少。

12．参数：

指总体的统计指标，如总体均数、总体率等。

总体参数是固定的常数。

多数情况下，总体参数是不易知道的，但可通过随机抽样抽取有代表性的样本，用算得的样本统计量估计未知的总体参数。

13．统计量：

是指样本的统计指标，如样本均数、样本率等。

样本统计量可用来估计总体参数。

总体参数是固定的常数，统计量是在总体参数附近波动的随机变量。

14.频数表（frequencytable）用来表示一批数据各观察值或在不同取值区间的出现的频繁程度（频数）。

对于离散数据，每一个观察值即对应一个频数，如某医院某年度一日内死亡0，1，2…20个病人的天数。

对于散布区间很大的离散数据和连续型数据，数据散布区间由若干组段组成，每个组段对应一个频数。

15.算术均数（arithmeticmean）描述一组数据在数量上的平均水平。

总体均数用μ表示，样本均数用表示。

16.几何均数（geometricmean）用以描述对数正态分布或数据呈倍数变化资料的水平。

记为G。

17.中位数（median）将一组观察值由小到大排列，n为奇数时取位次居中的变量值；为偶数时，取位次居中的两个变量的平均值。

18.极差（range）亦称全距，即最大值与最小值之差，用于资料的粗略分析，其计算简便但稳定性较差。

19.百分位数（percentile）是将n个观察值从小到大依次排列，再把它们的位次依次转化为百分位。

百分位数的另一个重要用途是确定医学参考值范围。

20.四分位数间距（inter-quartilerange）是由第3四分位数和第1四分位数相减计算而得，常与中位数一起使用，描述偏态分布资料的分布特征，较极差稳定。

21.方差（variance）：

方差表示一组数据的平均离散情况，由离均差的平方和除以样本个数得到。

22.标准差（standarddeviation）是方差的正平方根，使用的量纲与原量纲相同，适用于近似正态分布的资料，大样本、小样本均可，最为常用。

23.变异系数（coefficientofvariation）用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。

用CV表示。

24.正态分布：

若指标

的频率曲线对应于数学上的正态曲线，则称该指标服从正态分布（normaldistribution）。

通常用记号

表示均数为

，标准差为

的正态分布。

25．标准正态分布:

均数为0、标准差为1的正态分布被称为标准正态分布（standardnormaldistribution），通常记为

。

26.抽样误差：

抽样研究中，由抽样引起的样本统计量与总体参数间的差别称为抽样误差（samplingerror）。

统计上用标准误（standarderror，SE）来衡量抽样误差的大小。

其产生的本质原因是由于个体间存在变异。

27.可信区间：

按预先给定的概率确定的包含未知总体参数的可能范围。

该范围称为总体参数的可信区间（confidenceinterval，CI）。

它的确切含义是：

可信区间包含总体参数的可能性是1-

，而不是总体参数落在该范围的可能性为1-

。

28.相对数（relativenumber）是两个有联系的指标之比，是分类变量常用的描述性统计指标，常用相对数有率、构成比、比等。

29.率（rate）又称频率指标，说明一定时期内某现象发生的频率或强度。

30.构成比（proportion）又称构成指标，说明某一事物内部各组成部分所占的比重或分布。

31.标准化法（standardizationmethod）是常用于内部构成不同的两个或多个率比较的一种方法。

标准化法的基本思想就是指定一个统一“标准”（标准人口构成比或标准人口数），按指定“标准”计算调整率，使之具备可比性以后再比较，以消除由于内部构成不同对总率比较带来的影响。

32.统计表：

将统计资料及其指标以表格形式列出，称为统计表（statisticaltable）。

狭义的统计表只表示统计指标。

33.统计图（statisticalgraph）：

是将统计指标以点的位置、线段的升降、直条的长短或面积的大小等几何图形直观的表示事物间的数量关系。

34.普通线图适用于连续性资料。

用线段的升降来表示一事物随另一事物变化的趋势。

35.散点图以点的密集程度和趋势表示两种事物间的相关关系。

二、简答题

1.一位研究人员欲做一项实验研究，研究设计应包括那几方面的内容？

答：

一般来讲，研究设计应包括两方面的设计：

专业设计和统计设计。

专业设计是针对专业问题进行的研究设计，如选题、形成假说、干预措施、实验对象、实验方法等；统计设计是针对统计数据收集进行的设计，如样本来源、样本量、干预措施的分配、统计设计类型测量指标的选择等。

统计设计是统计分析的基础，任何设计上的缺陷，都不可能在统计分析阶段弥补和纠正。

2.试述极差、四分位数间距、标准差及变异系数的适用范围。

答：

这三个指标均反映计量资料的离散程度。

极差与四分位数间距可用于任何分布，后者较前者稳定，但均不能综合反映各观察值的变异程度；标准差最为常用，要求资料近似服从正态分布；变异系数可用于多组资料间度量衡单位不同或均数相差悬殊时的变异程度比较。

3.简述医学中参考值范围的涵义及制定参考值范围的一般步骤。

医学中常把绝大多数正常人的某指标范围称为该指标的参考值范围，也叫正常值范围。

所谓“正常人”不是指完全健康的人，而是指排除了所研究指标的疾病和有关因素的同质人群。

制定参考值范围的一般步骤：

（1）定义“正常人”，不同的指标“正常人”的定义也不同。

（2）选定足够数量的正常人作为研究对象。

（3）用统一和准确的方法测定相应的指标。

（4）根据不同的用途选定适当的百分界限，常用95%。

（5）根据此指标的实际意义，决定用单侧范围还是双侧范围。

（6）根据此指标的分布决定计算方法，常用的计算方法：

正态分布法、百分位数法。

4.正态分布的特征：

服从正态分布的变量的频数分布由均数、标准差完全决定。

（1）是正态分布的位置参数，描述正态分布的集中趋势位置。

正态分布以为对称轴，左右完全对称。

正态分布的均数、中位数、众数相同，均等于。

（2）描述正态分布资料数据分布的离散程度，越大，数据分布越分散，越小，数据分布越集中。

也称为是正态分布的形状参数，越大，曲线越扁平，反之，越小，曲线越瘦高。

5.四格表资料卡方检验校正条件：

分析四格表资料时，应注意连续性校正的问题，当140时，用连续性校正

检验；T

1，或n

40时，用Fisher精确概率法。

6.统计表的结构与编制要求

统计表由标题、标目、线条和数字所构成。

如下表所示：

顶线

表号标题

横标目名称

纵标目名称合计

横标目

合计

数字

底线

（1）标题

位于表的上方，概括表的主要内容，一般需注明时间与地点。

（2）标目

有横、纵标目之分，分别说明横行和纵行数字的含义，应做到文字简明，层次清楚。

（3）线条

多采用三条半线，即顶线、底线、纵标目下的横隔线及合计上的半线。

忌斜线和竖线。

（4）数字

表内数据一律采用阿拉伯数字。

同一指标小数点位数要一致，位次要对齐。

表内不应有空项，无数字用“—”表示，数字若为零则填“0”，暂缺项或未记录用“…”表示。

（5）备注

不为表的必备内容，如有必要，可在表内用“*”号标记，然后在表的下方加以说明。

7．统计表的种类

统计表可分为简单表（simpletable）和复合表（combinativetable）两种类型。

简单表：

只按单一特征或标志分组。

复合表：

按两个或两个以上主要标志分组,如年龄和性别结合起来分组。

8.制图的基本要求

（1）根据资料的性质和分析目的，选择合适的图形。

（2）标题扼要说明图的主要内容，位于图的下方，必要时注明时间和地点。

（3）建立在直角坐标系上的统计图，其纵轴尺度自下而上，横轴尺度从左到右，数字一律由小到大，某些图还要求纵轴尺度从0开始（如直条图、直方图）。

纵横两轴一般应有标目，注明单位。

9.统计表和统计图在表达资料中各有何特殊意义？

统计表可以代替冗长的文字叙述，便于指标的计算、分析和对比，其制作合理与否，对统计分析质量有着重要的影响。

统计图可用点的位置、线段的升降、直条的长短和面积的大小直观地反映分析事物间的数量关系。

因统计如对数量表达较粗略，故最好附上相应的统计表。

10.统计表有哪些要素构成？

制表的注意事项有哪些？

一般说来，统计表由标题、标目、线条、数字四部分构成（有时附有备注）。

编制统计表的注意事项：

（1）标题概括表的内容，写于表的上方，通常需注明时间与地点。

（2）标目以横、纵标目分别说明主语与谓语，文字简明，层次清楚。

（3）线条不宜过多，通常采用三条半线表示，即顶线、底线、纵标目下的横隔线及合计上的半条线。

（4）表内一律采用阿拉伯数字。

同一指标小数点位数要一致，数次要对齐。

表内不留空格。

（5）备注不要列于表内，如有必要，可在表内用“*”号标记，并在表外加以说明。

11.频数表制作的基本步骤：

用来表示一批数据各观察值或在不同取值区间的出现的频繁程度（频数）。

对于离散数据，每一个观察值即对应一个频数，如某医院某年度一日内死亡0，1，2，…20个病人的天数。

如描述某学校学生性别分布情况，男、女生的人数即为各自的频数。

对于散布区间很大的离散数据和连续型数据，数据散布区间由若干组段组成，每个组段对应一个频数。

制作连续型数据频数表一般步骤如下：

（1）求数据的极差（range）。

（2-1）

（2）根据极差选定适当“组段”数（通常8—10个）。

确定组段和组距。

每个组段都有下限L和上限U，数据χ归组统一定为L≤χ

（3）写出组段，逐一划记。

频数表可用于揭示资料的分布特征和分布类型，在文献中常用于陈述资料，它便于发现某些特大或特小的可疑值，也便于进一步计算指标和统计分析处理。

12.实验设计的基本原则

（1）随机化原则

总体中的每一个观察单位都有同等的机会被选入实验组和对照组或进入样本，保证了非处理因素在各组间均衡一致而使样本具有代表性。

（2）对照原则

正确的设立对照可可控制实验过程中非实验因素的影响和偏倚，从而使处理因素的效应充分的显露出来。

3.重复的原则

保证每一个处理都有足够的重复数（样本量），避免把偶然性或巧合的现象当作必然的规律性现象，并能正确的估计实验误差。

三、综合题

1.应用相对数时应注意的问题有：

⑴计算相对数的分母一般不宜过小。

⑵分析时不能以构成比代替率。

⑶不能用构成比的动态分析代替率的动态分析。

⑷对观察单位数不等的几个率，不能直接相加求其总率。

⑸在比较相对数时应注意可比性。

⑹对样本率（或构成比）的比较应随机抽样，并做假设检验。

2.为什么不能以构成比代率？

请联系实际加以说明。

率和构成比所说明的问题不同，绝不能以构成比代率。

构成比只能说明各组成部分的比重或分布，而不能说明某现象发生的频率或强度。

例如：

以男性各年龄组高血压分布为例，50~60岁年龄组的高血压病例占52.24%，所占比重最大，60~岁组则只占到6.74%。

这是因为60~岁以上受检人数少，造成患病数低于50~60岁组，因而构成比相对较低。

但不能认为年龄在50~60岁组的高血压患病率最严重，而60岁以上反而有所减轻。

若要比较高血压的患病率，应该计算患病率指标。

3.某年抽样调查某地120名18～35岁健康男性居民血清铁含量（μmol/L），数据如下：

7.42

8.65

23.02

21.61

21.31

21.46

9.97

22.73

14.94

20.18

21.62

23.07

…..

….

…

12.65

18.48

19.83

23.12

19.22

16.72

27.90

11.74

24.66

14.18

16.52

问如何对该资料进行统计描述？

答案要点：

可绘制频率表或直方图，以直观的体现该资料的分布特征；若成对称分布，可选用算数均数表达集中水平，标准差表达变异（离散）情况；若偏态非对称，可用中位数表达集中水平，四分位数间距表达变异（离散）情况。

4.某县防疫站1972年开始在城关镇建立“预防接种卡”，使计划免疫得到加强。

为说明效果，1975年5月观察了482人的锡克试验反应，其中：

幼儿园儿童101人，阳性21人；小学生145人，阳性22人；中学生236人，阳性15人。

相比起来，1947年为：

幼儿园儿童144人，阳性37人；小学生1417人，阳性323人；中学生359人，阳性41人。

试用适当的统计表和统计图描述上述结果，并作简要分析。

展开阅读全文