医学统计学2017年考研复习笔记.doc

资源描述

医学统计学2017年考研复习笔记.doc

《医学统计学2017年考研复习笔记.doc》由会员分享，可在线阅读，更多相关《医学统计学2017年考研复习笔记.doc（24页珍藏版）》请在冰点文库上搜索。

医学统计学2017年考研复习笔记.doc

统计学的基本步骤和基本概念

1、统计学的基本步骤：

①研究设计；②收集资料；③整理资料；④分析资料；⑤对分析结果的正确解释和表达。

横断面研究

观察性研究病例对照研究

队列研究

统计设计动物实验

实验性研究临床试验

社区干预试验

统计学

统计描述：

运用统计学指标对数据特征及其分布规律进行客观描述和表达

统计分析

统计推断：

在一定的可信程度或概率保证下，根据样本信息推断总体特征

集中趋势：

平均数、几何均数、中位数

统计描述

离散程度：

方差、标准差、极差、四分位间距、变异系数

定量资料

参数估计：

均数的标准误、总体均数的置信区间

统计推断

假设检验：

t检验、t＇检验、方差分析、秩和检验

统计描述：

率、构成比、相对比

定性资料

统计推断：

X2检验、秩和检验、二项分布、Poission分布

2、总体和样本：

总体：

是根据研究目的所确定的所有同质观察单位某种观察值（变量值）的集合。

样本：

从研究总体中抽取的一部分满足代表性的个体观察值所组成的集合称为样本，样本包含的观察单位数称为样本含量或样本大小。

3、参数和统计量：

参数：

描述总体分布特征的指标，总体均数μ、总体标准差σ、总体率π

统计量：

根据样本算得的某些数值特征，样本均数、样本标准差S、样本率

4、变量和资料

变量：

是观察单位的某种特征或属性，变量的观测值就是所谓的变量值。

变量

资料：

变量值组成的集合称为资料。

取值

等级资料

分类资料

不具有分类的资料

定量资料

多项分类资料

二项分类资料

无序分类资料

有序分类资料

计量资料

离散型变量

连续型变量

取值

5、随机误差和系统误差

误差：

泛指实测值与真实值之差，一般可分为随机误差和非随机误差。

随机误差：

即抽样误差，由于随机抽样造成的实测值与真实值之差。

是不可避免的，但一般服从正态分布，可以通过统计学方法进行分析。

系统误差：

最常见的非随机误差，指实测值系统偏离真实值、具有方向性的误差。

6、概率、频率和小概率事件

频率：

若用随机事件A发生表示观察到某个可能的结果，在n次随机试验中，随机事件A发生了m次，则称A发生的比例f=m/n为频率，医学上所说的患病率、病死率等都是频率。

概率：

描述事件发生可能性大小的一个度量。

小概率事件：

当某事件发生的概率小于或等于0.05时，统计学习惯上称该事件为小概率事件。

7、同质性和个体变异

同质性：

通常指研究对象在一定范畴内的各种可能影响主要观察指标的其他因素处于相同或非常相似的情况。

个体变异：

同质个体中同一观察指标的个体观察值之间的差异称为该观察指标的个体变异。

调查研究设计

1、调查研究及其特点

调查研究：

又称观察性研究，指研究者在研究中没有施加任何干预措施，仅客观地观察和记录研究对象的现状及其相关特征的研究。

特点：

①研究过程中没有人为施加的干预措施，研究事物或现象及其相关特征（包括研究因素和非研究因素）是客观存在的；②不能将研究因素随机地分配到研究对象中，也不能用随机化分组来平衡非研究因素对调查结果的影响。

2、调查研究设计的基本内容：

①明确调查目的和指标；②确定调查对象和观察单位；③确定调查方法；④确定调查方式；⑤确定调查项目和调查表；⑥制定资料整理分析计划；⑦制定调查的组织计划。

3、调查设计的常用抽样方法及其优缺点

普查：

即调查目标总体中全部观察对象。

优：

理论上没有抽样误差，可以直接得到总体参数。

缺：

成本较高。

抽样调查：

即从总体中抽取一定数量的观察单位组成样本，对样本进行调查。

分为概率抽样和非概率抽样。

优：

节省调查成本，有助于获得较为深入、细致和准确的资料。

缺：

样本推断总体时存在抽样误差。

概率抽样：

是指总体中观察单位被抽中的概率是已知的或可以计算的。

优：

总体代表性较好，可以计算抽样误差，可以对总体进行统计推断。

缺点或前提：

目标总体和抽样框架明确。

非概率抽样：

是指总计中每个观察单位被抽中的概率是已知或不能计算的。

抽样方法

定义

优点

缺点

概

率

抽

样

单纯随机抽样

按等概率原则直接从含有N个观察单位的总体中抽取n个观察单位组成样本

均数（或率）及标准误的计算简单

当总体观察单位较多时，要对观察单位一一编号，比较麻烦

系统抽样

先将总体的观察单位按某一顺序号分成n个部分，再从第一部分随机抽取第k号观察单位，依次用相等间距，从每一部分各抽取一个观察单位组成样本

①易于理解，简单易行；②容易得到一个按比例分配的样本；③样本的观察单位在总体中分布均匀，其抽样误差一般小于单纯随机误差。

①当总体中观察单位按顺序有周期趋势或单调增（或减）趋势时，将产生明显的偏性；②实际中按单纯随机抽样方法估计误差会一般偏大。

分层抽样

按对主要研究指标影响较大的某种特征，将总体分为若干类别，再从每一层内随机抽取一定数量的观察单位组成样本

①减少抽样误差；②便于不同的层采用不同的抽样方法，有利于调查组织工作的实施；③还可对不同层进行独立分析。

要求层内差异较小

整群抽样

将总体按照某种与主要研究指标无关的特征划分为K个“群”，每个群包含若干观察单位，再随机抽取k个“群”，由抽取的各个群的全部观察单位组成样本

便于组织，节省经费，容易控制调查质量

当样本含量一定时，其抽样误差一般大于单纯随机误差（因为样本观察单位未能广泛地散布在总体中）

非

概

率

抽

样

偶遇抽样

研究者根据现实情况，抽取偶然遇到的人或选择那些距离最近的、最容易找到的人作为调查对象

简单易行

结果对总体代表性差

立意抽样

调查者根据研究目的分析判断来选择调查对象

对研究者要求较高

定额抽样

研究者首先依据那些可能影响研究指标的各种因素对总体进行分层，并确定各层样本占总体比例，再在各层中抽取样本

样本代表性存在一定问题，选择性偏倚较大

雪球抽样

当无法了解总体情况时，可以从总体中少数成员入手，对他们进行调查，并请他们介绍所认识的其他符合条件的人，再去找那些人进行调查，如此重复，直到达到所需的样本含量

常用于缺少抽样框架、目标总体不明、采用其他方法难以找到调查对象的情形

4、调查问题安排顺序总原则：

①符合逻辑；②一般问题在前，特殊问题在后；③易答题在前，难答题在后；④如果采用封闭式和开放式相结合的问题，一般先设置封闭式问题；⑤敏感问题一般放在最后。

5、信度和效度

效度：

又称真实性或准确性，用以反映测量结果与“真实值”的接近程度。

定量观察：

通常用两者的相关系数r来描述标准效度。

定性或半定量观察：

Kappa系数描述两个测量手段或结果的一致性。

信度：

又称可靠信、重复性、稳定性或精密度，用以反映相同条件下重复测定结果的一致程度。

重复测量法：

组内相关系数ICC评价信度高低。

为组间（研究对象间）均方，为组内（误差）均方，n为重复测量次数。

一般认为ICC≥0.75，说明测量结果的可重复性较好。

实验研究设计

1、实验设计的3个基本原则和3个基本元素：

对照、随机化、重复，受试对象、处理因素、实验效应。

2、对照形式主要有：

空白对照、安慰剂对照、标准对照、实验对照、自身对照、相互对照。

3、常用的实验设计类型及其优缺点：

类型

设计

优点

缺点

完全随机设计

单因素两水平或多水平效应

设计简单，易于实施，出现缺失数据时仍可进行统计分析

小样本时，均衡性可能较差，与随机区组设计相比，一般效率较低

配对设计

受试对象按配对因素相同或相近配成对子

可增强处理组间的均衡性，效率较高

配对条件不易严格控制

随机区组设计

受试对象按性质相同或相近分为b个区组，每个区组中的k个受试对象分配到k个处理组

处理组之间的均衡性较好；更容易揭示处理之间的差别，效率较高

非处理因素（配伍条件）不易控制

交叉设计

按事先设计好的实验次序，在各个时期对受试对象先后实施各种处理

①节约样本含量；②能够控制个体差异和时间差异对处理因素的影响，故效率较高；③在临床试验中，均等地考虑了每个患者的利益。

①每个处理的持续时间不能太长；②当受试对象的状态发生根本变化时，例死亡等，后一阶段的处理将无法进行；③受试对象一旦在某一阶段退出试验，就会造成该阶段及其以后的数据缺失

析因设计

两个或多个处理因素的各水平进行组合，对所有可能的组合中安排多个实验对象进行实验

可以均衡地对各因素的不同水平进行全面组合，以最小的实验次数探讨各因素不同水平的效应，同时可获得各因素间的交互作用，通过比较还能需求最佳组合

工作量较大，析因设计的处理数等于各因素水平数的乘积，其统计分析不但计算复杂，而且给众多交互作用的解释带来困难

定量资料的统计描述

1、频数表和频数图的制作及用途：

l频数表的制作：

（1）求全距R，R=最大值-最小值；

（2）划组段：

①定组数，以8-15组为宜；②定组距：

组距=R/组数，可适当取整；③定上下限：

起点为下限，终点为上限，组段[下闭，上开），一般写下限，最后上下全。

（3）统计频数和频率制作频数表。

l频数表和频数的用途：

①揭示频数的分布特征：

集中趋势和离散趋势；②揭示频数的分布类型：

对称分布和偏态分布，集中偏小为正偏，集中偏大为负偏；③可以发现某些特大或特小的可疑值，提示检查核对。

2、频数分布特征的描述指标及其适用条件：

*对于经对数变换后呈正态分布或近似正态分布的资料，应将原始观察值取对数值后计算几何标准差。

分布特征

指标

计算公式

适用条件

集中趋势

平均数

①原始资料：

②频数表资料：

单峰对称分布资料，特别是正态分布或近似正态分布

几何均数

①原始资料：

或

②频数表资料：

①正偏态分布资料，经过对数变换呈正态分布或近似正态分布；②观察值间呈倍数关系或近似倍数关系；③变量值中不能有0和负数，可适当加上一个正数；

中位数

①原始资料：

，当n为奇数时；

，当n为偶数时

②频数表资料：

为中位数所在组段的下限；为组距；为中位数所在组段的频数；为中位数所在组段前一组的累计频数。

不对称分布的资料，两端无确切值或分布不明确的资料

离散趋势

极差

=最大值-最小值

单峰对称分布小样本资料

四分位间距

为第百分位数所在组段下限，为第百分位数所在组段的组距，为第百分位数所在组段的频数，为第百分位数所在组段前一组的累计频数

偏态分布资料、两端无确切值或分布不明确资料

方差

①原始资料：

②频数表资料：

单峰对称分布资料

标准差

变异系数

比较计量单位不同或均数相差悬殊的几组资料的离散程度

3、正态分布及其应用：

l概率密度曲线和正态分布曲线：

对于变量的频数分布满足中间多，两边少，且左右对称的资料，以观察变量（组距）为横轴，频率密度（频率密度=频率/组距）为纵轴，即可得到频率密度直方图，当观察单位逐渐增加，组段→∞，频率分布图中的直条逐渐变窄，就会逐渐形成一条高峰位于中央（均数所在处）、两侧逐渐降低且左右对称、不与横轴相交的光滑曲线，即概率密度曲线，近似于数学上的正态分布曲线。

若变量X的频率曲线逼近数学上的正态分布曲线，则称该变量服从正态分布。

l正态分布曲线的密度函数为：

（为总体均数，为总体标准差，π为圆周率，e为自然对数的底）

特点：

①正态曲线在横轴上方均数处最高；②正态分布以均数为中心，左右对称；③正态分布有两个参数，即均数与标准差，决定位置，决定“胖瘦”；③正态曲线在±1处各有一个拐点；④正态曲线下的面积分布有一定的规律：

→90%，→95%，→99%。

²若服从正态分布（，），经变换后，则就服从均数为0，标准差为1的正态分布（0，1），称为标准正态分布或分布，其密度函数为：

。

l正态分布的应用：

（1）估计总体变量值的频率分布：

可通过查附表2（分布界值表）获得。

（可用样本均数和样本标准差作为总体均数和总体标准差的估计值）

（2）制定医学参考值范围：

医学参考值范围指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标观察值的波动范围。

制定步骤及注意事项：

①确定观察对象和抽取足够的观察单位；②测定方法统一、准确；③决定是否分组制定参考值范围；④确定取双侧或单侧参考值范围；⑤选定适当的百分界限；⑥选择制定医学参考值范围的方法：

部分指标服从对数正态分布，对观察值取对数后计算其对数值的均数和标准差，按正态分布法算出医学参考值范围的对数值，然后取反对数求其真数。

百分界限（%）

正态分布法

百分位数法

双侧

单侧

双侧

单侧

只有下限

只有上限

只有下限

只有上限

P2.5～P97.5

P95

P0.5～P99.5

P99

总体均数的估计

1、均数的抽样误差与标准误：

l抽样误差：

这种由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异称为抽样误差。

l均数的标准误：

由于随机抽样所造成的样本均数与总体均数的差别，即为样本均数的抽样误差。

样本均数的标准差称为均数的标准误（SEM），用符号表示，它说明各样本均数围绕总体均数μ的离散程度，可用来描述样本均数的抽样误差大小。

在抽样研究中，总体标准差常常未知，常用样本标准差S作为的估计值，因而得到均数标准误的估计值，其计算公式为：

²根据数理统计的中心极限定理：

从均数为μ，标准差为的正态总体中进行独立随机抽样，其样本均数服从均数为μ，标准差为的正态分布；即使是从非正态总体（均数为μ，标准差为）中进行独立随机抽样，当样本含量逐渐增大（n≥50）时，其样本均数的分布逐渐逼近与均数为μ，标准差为的正态分布。

²标准差与均数的标准误的区别于联系：

标准差

均数的标准误

区别

统计符号

总体标准差用表示，样本标准差用S表示

均数的标准误用表示，其估计值用

计算公式

统计学意义

标准差越小，个体值分布相对越集中，样本均数对数据的代表性越好

标准误越小，样本均数的分布越集中，样本均数与总体均数的差别越小，抽样误差越小，由样本均数估计总体均数的可靠性越大

用途

描述个体值的变异程度

描述均数的抽样误差大小

联系

2、t分布产生、特征

lt分布的产生：

从正态总体中随机抽取的样本的均数服从总体均数为μ、总体标准差为的正态分布。

经过Z变换，正态分布N（μ，）转化为标准正态分布N（0,1），即Z分布。

由于实际研究工作中，未知常见，只能以代替，而中S会因为样本不同而不尽相同，即有变异，故不再服从标准正态分布，而服从t分布，即：

lt分布特征：

①t分布是一簇单峰分布曲线。

②t分布以t=0为中心，左右对称且均匀下降。

③其形态变化与自由度n的大小有关。

自由度n越小，则t值越分散，曲线越低平；自由度n逐渐增大时，t分布逐渐逼近标准正态分布；当n=∞时，t分布即为标准正态分布。

3、总体均数的估计：

点估计用样本统计量直接作为总体参数的估计值。

区间估计是给出被估计参数的可能范围。

²区间估计：

是指按照一定的概率（1-），估计总体参数所在的范围，这个范围称为参数的置信区间，概率（1-）称为置信度。

l总体均数置信区间的估计：

总体均数μ的双侧（1-）置信区间的计算公式为：

其余计算同下表。

l两总体均数差值的置信区间：

假设两正态总体分布服从正态分布和，当，均已知，但时，两总体均数之差（）的双侧（1-）置信区间为：

其中t值的自由度ν=（n1-1）+（n2-1）=n1+n2-2，称为两均数之差的标准误。

当n1，n2均较大时，差值的可信区间为：

l置信区间的含义：

总体均数的95%置信区间的含义是从正态总体中重复100此抽样，每次样本含量为n，每个样本均按计算95%置信区间，则在这100个置信区间中，理论上有95个置信区间包含了总体均数（估计正确），而有5个置信区间未包含总体均数（估计错误），即犯错误的概率是0.05。

l总体均数置信区间与医学参考值范围的区别：

区别

总体均数置信区间

医学参考值范围

意义

按一定的置信度（1-）估计总体均数所在范围

绝大多数“正常人”的某项解剖、生理、生物化学指标的波动范围

计算公式

①

②未知而n较大时：

（）

③已知：

（）

①正态分布

双侧，（）

单侧，（

②偏态分布

双侧，

单侧，（，

用途

估计总体均数所在的范围

判断观察对象的某项指标正常与否，为临床诊断提供参考

假设检验

1、假设检验的基本思想：

在总体参数相等这一假设成立的前提下，计算出现等于及大于（或等于及小于）现有样本统计量的可能性（P值）。

在零假设H0成立的前提下利用小概率反证法的逻辑思维方式，先计算比现有样本检验统计量以及更极端情况的可能性（P值），然后根据检验水准进行判断。

如果P值很小，小于或等于事先规定的检验水准，如0.05，结论就是拒绝零假设H0，接受H1，认为总体参数间不同；如果P值大于，不拒绝H0，尚不能认为总体参数之间不同。

2、假设检验的基本过程：

①建立检验假设，确定检验水准：

零假设H0和备择假设H1，检验水准注明单侧或双侧。

②计算检验统计量：

注明自由度n。

③确定P值，做出统计推断。

3、Ⅰ型错误和Ⅱ型错误：

当拒绝H0时，认为在零假设成立的情况下，出现现在这种样本均数以及更极端情况的概率很下（P<0.001），但是，并不是说不可能发生。

如果真实的情况是H0成立，这时结论就错了。

因此，当我们进行假设检验时，无论是拒绝零假设H0，还是不拒绝零假设H0，都有可能犯错误。

Ⅰ型错误：

统计学上将这种拒绝了实际上正确的零假设H0（弃真）的错误称为Ⅰ型错误，称为犯Ⅰ型错误的概率。

Ⅱ型错误：

统计学上将这种不拒绝实际上不成立的零假设H0（存伪）所犯的错误称为Ⅱ型错误，称为犯Ⅱ型错误的概率。

真实情况

假设检验的结论

拒绝H0不拒绝H0

H0正确

H0不正确

Ⅰ型错误（）

推断正确（）

Ⅱ型错误（）

²当样本量固定时，越小，越大，反之，越大，越小。

要同时减少和，只有通过增加样本含量来实现。

l检验效能：

如果两个总体参数间确实存在差异，即H1：

μ≠μ0成立，使用假设检验方法能够发现这种差异（即拒绝H0）的能力称为检验效能，记为（）。

一般要求检验效能应在0.8以上。

4、假设检验需要注意的问题：

（1）数据应该来自科学严密设计的实验或调查；

（2）数据应该满足假设检验方法的前提条件：

①独立性，即各观察值间相互独立；②正态性，即该样本来自服从正态分布的总体。

（3）正确理解假设检验中概率P值的含义，P值是指在H0成立的前提下，出现现有样本统计量以及更极端情况的概率。

P值越小，说明当前样本的证据越倾向于拒绝H0，当P值小于或等于事先规定的检验水准时，就拒绝H0。

P值的大小不仅与总体参数间的差别有关，而且与抽样误差大小等有关，但P值大小不能得出总体参数间差别大小的结论。

（4）结论不能绝对化：

报告假设检验结果时要给出检验水准、单双侧检验、样本量大小等。

（5）统计学意义与实际意义：

有统计学意义存在有实际意义、可能有实际意义、无实际意义；无统计学意义存在样本过小和可接受零假设。

t检验

1、t检验的应用条件：

①要求两样本均来自正态分布总体；②两样本总体方差相等。

l配对设计资料：

①配对的两个受试对象分别接受两种不同处理之后的数据，如把同年龄、同种属、同窝别的动物配成一对；②同一样品用两种方法（或仪器）检验出的结果；③同一受试对象处理前后的测定数据。

用途公式

单样本：

与比较

配对与0比较

成组：

与比较

成组：

与比较

，

，（、均大于50）

²在进行两小样本均数比较时，若两总体方差，可使用检验。

l正态性检验与方差齐性检验：

①正态性检验：

P-P图、Q-Q图和统计学检验（W检验、D检验及矩法检验）

当进行矩法检验计算偏度系数（SKEW）和峰度系数（KURT）时，双侧，只有当上述两个检验都不拒绝H0时，才有理由认为总体的分布为正态分布。

②两总体的方差齐性检验：

双侧，P>，不拒绝H0时，尚不能认为两总体方差不齐。

方差分析

方差分析的基本思想：

将总变异按设计和需要分解成两个或多个部分。

用途：

比较k个总体均数间差别有无统计学意义。

应用条件：

①各样本是相互独立的随机样本，均服从正态分布；②各样本的总体方差相等，即满足方差齐性。

l完全随机设计资料的方差分析：

又称单因素方差分析。

完全随机设计是将同质的受试对象随机地分配到各处理组，再观察其实验效应。

变异来源

总变异

组间变异

组内变异

l随机区组设计资料的方差分析：

属于无重复数据的两因素方差分析。

随机区组设计又称配伍组设计，通常是将受试对象按性质相同或相近者组成b个区组（又称配伍组），再将每个区组中的受试对象分别随机分配到k个处理组中。

变异来源

总变异

处理组

区组

误差

²多个均数两两之间比较：

SNK法（q检验）：

比较每两个样本均数所代表的总体均数是否不同。

Dunnett-t检验：

用于多个处理组与对照组的比较。

多个均数两两之间比较进行t检验会增大I型错误。

l交叉设计资料的方差分析：

按事先设计好的实验次序，在各个时期对受试对象先后实施各种处理。

变异来源

总变异

处理

阶段

个体

误差

l析因设计资料的方差分析：

析因设计是将两个或多个实验因素的各水平进行全面组合，对各组合都进行实验，从而探讨各实验因素的单独效应、主效应以及各因素间的交互效应。

统计推断时先判断有无交互效应，若存在交互效应时，单纯研究某个因素的作用是没有意义的，必须在另一个因素的不同水平下研究该因素的作用大小。

变异来源

总变异

处理

误差

l重复测量资料的方差分析：

重复测量资料是同一受试对象的同一观察指标在不同时间点上进

展开阅读全文