医学统计学复习要点.docx-资源下载

医学统计学复习要点.docx

1、医学统计学复习要点第一章绪论1、数据/资料的分类：、计量资料，又称定量资料或者数值变量；为观测每个观察单位某项治疗的大小而获得的资料。、计数资料，又称定性资料或者无序分类变量；为将观察单位按照某种属性或者类别分组计数，分组汇总各组观察单位数后而得到的资料。、等级资料，又称半定量资料或者有序分类变量。为将观察单位按某种属性的不同程度分成等级后分组计数，分类汇总各组观察单位数后而得到的资料。2、统计学常用基本概念：、统计学（statistics）是关于数据的科学与艺术，包括设计、搜集、整理、分析和表达等步骤，从数据中提炼新的有科学价值的信息。、总体（population）指的是根据研究目的而确定

2、的同质观察单位的全体。、医学统计学（medical statistics）：用统计学的原理和方法处理医学资料中的同质性和变异性的科学和艺术，通过一定数量的观察、对比、分析，揭示那些困惑费解的医学问题背后的规律性。、样本（sample）：指的是从总体中随机抽取的部分观察单位。、变量（variable）：对观察单位某项特征进行测量或者观察，这种特征称为变量。、频率（frequency）：指的是样本的实际发生率。、概率（probability）：指的是随机事件发生的可能性大小。用大写的P表示。3、统计工作的基本步骤：、统计设计：包括对资料的收集、整理和分析全过程的设想与安排；、收集资料：采取措施取得

3、准确可靠的原始数据；、整理资料：将原始数据净化、系统化和条理化；、分析资料：包括统计描述和统计推断两个方面。第二章计量资料的统计描述1. 频数表的编制方法，频数分布的类型及频数表的用途、求极差（range）：也称全距，即最大值和最小值之差，记作R；、确定组段数和组距，组段数通常取10-15组；、根据组距写出组段，每个组段的下限为L，上限为U，变量X值得归组统一定为LXU，最后一组包括下限。、分组划记并统计频数。频数分布的类型包括对称分布和偏态分布；偏态分布主要分为右偏态分布（也称正偏态分布）和左偏态分布（也称负偏态分布）。频数表的用途包括以下几个方面：1、描述频数分布的类型；2、描述频

4、数分布的特征；3、便于发现一些特大或特小的离群值；4、便于进一步做统计分析和处理。2. 集中趋势指标的适用条件、计算方法和意义。统计学用平均数（average）这一指标体系来描述一组变量值的几种位置或者平均水平。常用的平均数有算术均数、几何均数和中位数。、算数均数，简称均数（mean），可用于反映一组呈对称分布的变量值在数量上的平均水平。计算方法包括直接计算法和频数表法（公式见2-2）。、几何均数（geometric mean），可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平，在医学研究中常用于免疫学的指标。（计算公式见于2-3）、中位数（median），适用于各种分布类

5、型的资料，尤其是偏态分布资料和一端或者两端无确切数值的资料。、百分位数（percentile）是一种位置指标，是一个界值，其重要用途是确定医学参考值范围（reference range）。直接计算法（公式见于2-7、2-8）频数表法（2-9、2-10）3、离散趋势指标的适用条件、计算方法和意义。描述数据变异大小的常用统计指标有极差、四分位数间距、方差、标准差和变异系数。、极差，一组变量值的最大值与最小值之差。、四分位数间距（quartile range，QR）是把全部变量值分为四部分的分位数后，由第3四分位数和第1四分位数相减而得。它一般和中位数一起描述偏态分布资料的分布特征。QR=P75-

6、P25。、方差（variance）也称均方差（mean square deviation）离均差平方和与样本含量的比值。计算公式为2-11、标准差（standard deviation）是方差的正平方根，其单位与原变量值得单位相同。计算公式为2-13、2-14、变异系数（coefficient of variation）记作CV，多用于观察指标单位不同时，或者均数相差较大时两者变异程度的比较。计算公式为2-164. 正态分布的图形，正态分布的特征，正态曲线下面积的分布规律。正态分布的特征：、在直角坐标的横轴上方呈钟形曲线，两端与X轴永不相交，且以X=为对称轴，左右完全对称。、在X=处，f（X

7、）取最大值，远离，其值越小。、正态分布有两个参数，位置参数和形态参数，决定正态分布的曲线在坐标轴上的左右移动，越大越右移；决定曲线的弓背程度，越小峰值越高。正态分布曲线下的面积分布有一定的规律。X轴与正态曲线所夹面积恒等于1或者100%；区间的面积为68.27%；区间1.96的面积为95.00%，区间2.58的面积为99.00%。5. 医学参考值范围的意义和估计方法。医学参考值（reference value）是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数，也称正常值。由于存在个体差异，生物医学数据并非常数,而是在一定范围内波动，故采用医学参考值范围（medical

8、 reference range）作为判定正常和异常的参考标准。通常使用的医学参考值范围有90%、95%、99%、正态分布法：数据服从或者近似服从正态分布，或者通过适当的变换转换为正态分布，采用此方法之前一般要对资料进行正态性检验且要求样本含量足够大（如n100）计算公式为2-23、2-24：双侧：单侧：、百分位数法：适用于偏态分布资料医学参考值范围的制定，所要求的样本含量比正态分布要多（不低于100）。计算公式为2-25、2-26：双侧：单侧：第三章总体均数的估计与假设检验1、基本概念：抽样误差（sampling error）：指的是由于个体变异产生、随机抽样造成的样本统计量与总体参数的差

9、异。标准误（standard error，SE）：指的是样本统计量的标准差。均数的标准误（standard error of mean，SEM）：指的是样本均数的标准差。SEM反映样本均数之间的离散程度，也反映样本均数与相应总体均数间的差异。均数的标准误的计算公式为3-1、3-2统计推断（statistical inference）：通过抽样研究的方法从总体中随机抽取一个样本，用样本的信息来推断总体的特征的统计学方法，包括参数估计和假设检验。2、标准差的用途：、反映资料的离散趋势。标准差越小，说明变异程度越小，均数的代表性越好；用于计算变异系数；用于计算标准误；结合均数和正态分布规律估计参考值

10、范围。3、u分布与t分布：u分布（也称Z分布）：指的是总体均数为0，总体标准差为1的标准正态分布N(0,1)。t分布：随机变量X服从总体均数为，总体标准差为的正态分布N（，），则可以通过u变换将一般的正态分布转化为标准正态分布。但是通常获得的资料为样本的均数标准误，因此经过转换后并不是完全意义上的标准正态分布，而是服从t分布。（计算公式为3-3）t分布主要用于总体均数的区间估计和t检验。4、可信区间：从固定样本含量的已知总体总进行重复随机抽样试验，根据每个样本可算得一个可信区间，则平均有1-（如95%）的可信区间包含了总体参数，而不是总体参数落在该范围的可能性为1-。5、参考值范围和总体均数可

11、信区间的区别见课本表3-26、标准差与标准误的区别和联系：7、总体均数可信区间的计算：根据总体标准差是否已知以及样本含量n的大小而异，通常有t分布和u分布两类方法。A、单一总体均数的可信区间：a、总体标准差已未知：按t分布双侧和单侧公式见3-5、3-6、3-7b、已知或者未知，但n足够大（如60）时：按u分布双侧和单侧公式见3、8、3-9、3-10B、两总体均数之差的可信区间：前提：两总体方差相等，但均数不等计算公式见于3-12、3-13、3-148、t分布图的特征：、单峰分布，以0为中心，左右对称；、t分布的曲线形态取决于自由度v的大小，自由度越小，则t值越分散，曲线的峰部越矮而尾部翘得越高

12、；、当自由度逼近无穷的时候，样本标准误接近总体标准误，t分布逼近标准正态分布。（标准正态分布是t分布的特例）9、t检验的适用条件t检验（t test/Student t-test）当未知且样本含量较小时（如n60），理论上要求t检验的样本随机地取自正态分布的总体，两小样本均数比较式还要求两样本所对应的两总体方差相等，即方差齐性。在实际应用中，如与上述条件略有偏离，对结果影响也不大。10、假设检验A、假设检验的基本思想：利用小概率反证法的思想，从问题的对立面（H0）出发简介判断要解决的问题（H1）是否成立。即在假设H0成立的条件下计算检验统计量，然后根据获得的P值来判断。B、假设检验的基本步骤：

13、建立检验假设，确定检验水准；计算检验统计量；确定P值，做出推断结论。C、假设检验的错误型错误：拒绝了实际上成立的H0，这类“弃真”的错误；（）型错误：“接受”了实际上不成立的H0，这类“取伪”的错误。（）注意：越小，越大；反之越大，越小；若重点是减少型错误，一般取=0.05；若重点是减少型错误，一般取=0.10或者0.20甚至更高；若要同时减小型和型错误，唯一的方法就是增加样本含量n ；拒绝H0，只可能犯I型错误；接受H0，只可能犯型错误。资料或数据计量资料（已知均数和/或标准差）两样本（样本含量较小，60）单样本t检验适用于已知样本均数和已知总体均数的比较t分布（v=n-1）对方

14、差齐与否无要求正态分布t值配对样本t检验适用于配对设计的计量资料t分布（v=n-1）对方差齐与否无要求正态分布t值两样本t检验/成组t检验方差齐适用于任意两计量资料的比较t分布（v=n1+n2-2）方差齐正态分布t值方差不齐Cochran&Cox近似t检验t分布方差不齐正态分布t值（校正t值） Satterthwaite近似t检验t分布方差不齐正态分布t值（校正自由度）两样本的方差比较时，可以使用F检验，分子为较大的样本方差（自由度为n1-1）；分母为较小的样本方差（自由度为n2-1）。F值满足F分布，统计值为F值。多样本完全随机设计资料的方差分析完全随机化分组方法将试验对象分配到g个处理组中

15、去，试验后比较各组均数之间的差别F分布方差齐正态分布F值与成组t 检验意义相同随机区组设计资料的方差分析随机分配的次数要重复多次，且各个处理组实验对象数量相同，区组内均衡F分布方差齐正态分布F值与配对t检验意义相同拉丁方设计资料的方差分析可多安排一个已知的对实验结果有影响的非处理因素，增加了均衡性，减少了误差，提高了效率F分布方差齐正态分布F值两阶段交叉设计资料的方差分析两种处理在全部实验过程中交叉进行F分布方差齐正态分布F值两个阶段之间一定要经过一段洗脱阶段以消除残留效应多样本的多重比较 LSD-t检验/最小显著差异t检验，适用于一对或者几对在专业上有特殊意义的样本均数间的比较，统计量为t值

16、 Dunnett-t检验适用于g-1个实验组与一个对照组均数差别的多重比较，统计量为Dunnett-t值 SNK-q检验适用于多个样本均数两两之间的全面比较，统计量为q值多样本的方差比较 Bartlett检验，要求资料具有正态性，统计量为卡方； Levene检验，比Bartlett检验要求低，不需要资料具有正态性，统计量为F值。其他类型资料分类资料四格表资料通过两个样本的样本率来反映总体率有无差异卡方分布无方差齐性要求无正态分布要求卡方值与两样本的u检验等价：u=卡方值配对四格表资料强调配对：即针对同一样本采取不同的试验或者处理方法。卡方分布无方差齐性要求无正态分布要求卡方值行列表资料用于多个

17、样本率的比较、两个或多个构成比的比较以及双向无序分类资料的关联性检验卡方分布无方差齐性要求无正态分布要求卡方值可用来分析两个分类变量之间有无关系或者关联多样本率的多重比较适用于多样本率两两之间的多重比较（基本思想：对卡方值进行校正）卡方分布无方差齐性要求无正态分布要求卡方值H0:H1频数分布的拟合优度推断频数分布的拟合优度适用于正态分布、二项分布、poisson分布和负二项分布卡方分布无方差齐性要求无正态分布要求卡方值推断某现象的频数分布是否符合某一理论分布不满足上述统计方法的资料、等级资料秩检验配对样本的检验适用于配对样本差值的中位数和0比较；还可用于单个样本中位数和总体中位数比较无方差齐性

18、要求无正态分布要求秩和（正秩和或负秩和）T值样本量n50时可用正态分布近似法两独立样本比较适用于推断计量资料或等级资料的两个独立样本所来自的两个总体分布是否有差别方差不齐正态分布秩和（正秩和或负秩和）T值n110或n2-n110可用正态分布近似法作u检验完全随机多样本比较用于推断计量资料或者等级资料的多个独立样本所来自的多个总体分布是否有差别无方差齐性要求无正态分布要求H检验H值g=3且最小样本的例数大于5或g3，H近似服从g-1的正态分布，可用卡方分布法多变量资料的处理回归与相关双变量直线回归用于对两变量总体间线性关系的估计线性、独立、方差齐性、误差服从均数为0的正态分布回归方程（回归系数）

19、双变量直线相关用于判断两个数值变量之间有无线性关系，双变量正态分布资料正态分布相关系数r相关系数求出后应做假设检验多元线性回归用于分析一个应变量与多个自变量之间的线性关系正态分布多元回归方程回归方程求出后应做整体假设检验以及各自变量的假设检验第四章多样本均数比较的方差分析1、概念：离均差平方和（sum of squares of deviation from mean,SS）指的是各个观测值与总均数差值的平方。均方差，简称均方（mean square,MS）指的是离均差平方和与自由度之间的比值。2、方差分析的基本思想：设处理因素有g（g2）个不同的水平，实验对象随机分为g组，分别接受不同水平

20、的干预。方差分析的目的就是在H0：1=2=g 成立的条件下，通过分析各处理均数之间的差别大小，推断g 各总体均数间有无差别。3、方差分析的应用条件为：各个样本是相互独立的随机样本，均来自于正态分布总体；相互比较的各个样本的总体方差相等，即具有方差齐性。4、方差分析的变异分析：总变异的大小SS总：各个观测值与总均数差值的平方和；组间变异的大小SS组间：各组均数与总均数的离均差平方和；组内变异的大小SS组内：组内个观测值与其所在组的均数的差值的平方和。并有SS总=SS组间+SS组内由于组间与组内的离均差平方和的自由度不同，因此单纯的比较并无实际意义。MS组间=SS组间/v组间；MS组内=SS组内/

21、v组内5、完全随机设计资料的方差分析：变异来源自由度MSF总变异N-1组间g-1MS组间MS组间/MS组内组内N-g MS组内完全随机设计资料：正态分布且方差齐：单因素方差分析成组t 检验（意义相同t2 =F）非正态分布或/和方差不齐：变量转换单因素方差分析秩和检验6、随机区组设计资料的方差分析：变异来源自由度MSF总变异N-1处理间g -1MS处理MS处理/ MS误差区组间n -1MS区组MS区组/ MS误差误差(n -1)(g -1)MS误差随机区组设计资料：正态分布且方差齐：双向分类的方差分析配对t 检验（意义相同t2 =F）非正态分布或/和方差不齐：变量转换双向分类的方差分析 F

22、riedman M检验初衷：考虑环境因素对实验结果的影响。7、拉丁方设计资料的方差分析：可多安排一个已知的对实验结果有影响的非处理因素，增加了均衡性，减少了误差，提高了效率。完全随机设计只涉及一个处理因素；随机区组设计涉及一个处理因素、一个区组因素；如果实验研究涉及一个处理因素和两个控制因素，每个因素的类别数或水平数相等，此时可采用拉丁方设计。变异来源自由度MSF总变异N-1处理组g -1MS处理MS处理/ MS误差行区组g -1MS行MS行/ MS误差列区组g -1MS列MS列/ MS误差误差(g -1)(g -2)MS误差8、两阶段交叉设计资料的方差分析该设计不仅平衡了处理顺序的影响，而且

23、能把处理方法间的差别、时间先后之间的差别和实验对象之间的差别分开来分析。9、多样本均数间的多重比较方法：LSD-t检验、Dunnett-t检验、SNK-q检验三种。10、多样本方差比较：Bartlett检验、Levene检验第五章计数资料的统计描述1、基本概念：、相对数（Relative number）：是两个有关联的数据之比，用以说明事物的相对关系，便于对比分析。常用的相对数指标很多，按联系的性质和说明的问题不同，主要分为：率、构成、相对比三类。、强度相对数-频率（frequency）：是最常见的一种相对数，频率在实践中又称为比率（proportion）。它表示事物内部某个组成部分所占的相

24、对多少。、结构相对数构成比(constituent ratio)：说明某事物内部各组成部分所占的比重或分布，又称构成比。构成比可相加，和等于100%。、优势相对数 -比（ratio）：是指两个有关联的指标A和B之比，简称比。A和B可以是性质相同，也可以是性质不相同。通常以倍数或百分数（%）表示。、率的标准化法：指的是消除内部构成差别，使总体率能够直接进行比较的方法。采用统一标准调整后的率为标准化率，简称为标化率（standardized rate）。标准化的基本思想：采用统一的“标准人口构成”，以消除人口构成不同对各组总率的影响,使算得的标准化率具有可比性。6 、动态数列(dynamic

25、 series)：是按时间顺序排列的统计指标（可以为绝对数，相对数或平均数），用以观察和比较该事物在时间上的变化和发展趋势。分析动态数列常用的指标有：绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。7 、发展速度：表示报告期指标的水平相当于基线期（或前一期）指标的百分之多少或若干倍。、增长速度：表示的是净增加速度，增长速度=发展速度1（100%）。2、率的标准化的注意事项：.标准化后的标准化率，已经不再反映当时当地的实际水平，它只是表示相互比较的资料间的相对水平。.两样本标准化率是样本值，存在抽样误差。当样本含量较小时，比较两样本的标准化率，需要作假设检验。（但如果比较的两者是总体

26、的参数，则可进行直接比较，无需进行t 、F检验）第六章几种离散型变量的分布及其应用连续型分布举例：u 分布、t 分布和F分布；常用离散型分布：二项分布、Poisson分布、负二项分布。1、基本概念、二项分布（binomial distribution）：是指在只会产生两种可能结果之一的n次独立重复试验中，当每次实验的“阳性”的概率保持不变时，出现“阳性”次数X=0,1,2n的一种概率分布。、Poisson分布（Poisson distribution）：是二项分布的一种极端形式，指的是每次实验的“阳性”概率比较低的时候，出现阳性次数的相应概率满足以为参数的XP()。2、二项分布的适用条件：、

27、每次试验只会发生两种队里的额可能结果之一，即分别发生两种结果的概率之和很等于1；、每次试验产生某种结果的概率固定不变；、重复试验是相互独立的，不相互影响。3、二项分布的性质、样本率的标准差也称为率的标准误，可以用来描述样本率的抽样误差，率的标准误越小，则率的抽样误差就越小。、当=0.5时，二项分布图形是对称的，当0.5时，图形是偏态的，随着n增大，图形趋于对称。当n无穷时，只要不太靠近0或1，二项分布则近似正态分布。、利用二项分布的性质，可进行总体率的区间估计和差异推断。（当n50时可查表得到可信区间，50是可采用近似正态分布法）4、Poisson分布的适用条件：普通性：才充分小的观测单位上X

28、的取值最多为1；独立增量性：重复实验室相互独立的，不相互影响；平稳性：每次试验阳性时间发生的概率都应相同。5、Poisson分布的性质：、总体均数与总体方差相等时Poisson分布的重要特征；、当n很大，而很小时，且n=为常数时，二项分布近似Poisson分布；、当增大时，Poisson分布逐渐近似正态分布。一般而言，20时，Poisson分布资料可作为正态分布处理。、Poisson分布具备可加性。6、Poisson分布的图形特点：当越小，分布就越偏态；当越大时，Poisson分布则越渐近正态分布。当1时，随X取值的变大，P（X）值反而会变小；当1时，随X取值的变大，P（X）值先增大后变小。第

29、七章卡方检验1、分布曲线的特点：分布曲线的形状依赖于自由度的大小当自由度2时，曲线呈L形；随着自由度的增加，曲线逐渐趋于对称；当自由度无穷时，分布趋近正态分布。2、分布的基本性质：可加性；3、检验的原理：通过实际频数和理论频数满足f()，来推断实际频数与理论频数的差异大小及有无统计学意义。4、几种常见的资料类型：、普通四格表：自由度=（行数-1）（列数-1）可使用四格表专用公式；：n40且所有的T5 使用基本公式；P时，改用Fisher确切概率法；n40但有1T5 四格表校正公式或者Fisher确切概率法n40或T1 Fisher确切概率法配对四格表资料：b+c40且1T5要校正；5、Fisher确切概率法思想：四格表资料周边合计数不变的条件下，计算表内4个实际频数变动时的各种组合之概率；再按照假设检验用单侧或双侧的累计概率依据所取得检验水准做出推断。6、行列表资料使用范围

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？