1、SCI论文中统计学内容的理解与翻译,流行病与卫生统计学南方医科大学,Proportions were compared using Chi-squared test and Fishers exact test where numbers were small.译法1:在样本量小的情况下,采用卡方检验和Fisher确切概率法比较各组的率.译法2:用卡方检验比较各组的率,在样本量小的情况下则采用Fisher确切概率法.,一、医学统计学基本概念(1),1.医学统计学(medical statistics)的定义:应用概念论和数理统计的基本原理和方法,研究医学领域中数据的收集、整理和分析的一门科学。
2、2.统计学的任务:(1)进行统计设计、收集及整理资料。(2)对所收集到的资料进行统计描述和处理。(3)对统计处理结果进行分析和解释。,一、医学统计学基本概念(2),3.统计分析的工作内容:(1)统计描述(descriptive satistics):指用统计指标、统计表、统计图等方法对资料的数量特征及其分布规律进行测定和描述,以揭示大量数据所蕴藏的内在信息。(2)统计推断(inferential statistic):指如何抽样,以及如何由样本信息推断总体特征的问题。前提:a.样本的可靠性:明确划分总体的同质范围,且样本的每个个体确属预先确定的总体。b.样本的代表性:样本必须遵循随机化原则 有
3、足够的样本例数,一、医学统计学基本概念(3),4.统计学的几个基本述语:(1)参数(parameter):描述总体特征的统计指标(用希腊字母表示)。(2)统计量(Statistics):描述样本特征的统计指标。(用拉丁字母表示)。(3)总体(population):根据研究目的确定的同质观察单位的全体,更确切地说,是同质的所有观察单位某种观察值(变量值)的集合。(4)样本(sample):是总体中随机抽取部分观察单位,其实测值的集合。(5)样本含量(sample size):样本包含的观察单位数。(6)变量(variable):在确定总体之后,研究者则应对每个观察单位的某项特征进行测量和观察,
4、这特征为变量。变量的测量值即为变量值(value of variable),一、医学统计学基本概念(4),7.定量资料(quantitative data)亦称计量资料,其变量值是定量的,表现为数值大小,一般有度量衡单位。8.定性资料(qulitative data)或分类资料(categorical data):其观察值是定性的,表现为互不相容的类别或属性,有两种情况:(1)计数资料(count data)或无序分类资料(unordered categories data)包括:二项分类资料及多项分类资料。(2)等级资料(ordinal data)或有序分类(ordinal categori
5、es data)9.概率(probability):是描述随机事件发生的可能性大小的数值,常用P表示。10.随机事件(random event):可能发生也可能不发生,可能这样发生也可能那样发生的事件,亦称偶然事件。,二、计量资料的统计描述(1),1.频数表(frequency table)及直方图(histogram)的应用:(1)揭示频数分布的特征:从频数表可以频数分布的两个重要特征:集中趋势(central tendency)和离散程(dispersion)。(2)揭示频数分布的类型:对称分布及偏态分布。偏态分布又包括:正偏态(positive skew)和负偏态(negtive ske
6、w)。(3)便于发现特大或特小的可疑值。(4)便于进一步计算统计指标和进行统计分析。,二、计量资料的统计描述(2),2.集中趋势(central tendency)的描述:常用的平均数有算术均数、几何均数及中位数。(1)算术均数(arithematic mean)简称均数(mean):描述一组同质计量资料的平均水平。用表总体均数,用X表示均数。均数的应用:反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本进行比较。均数适用于描述单峰对称分布,特别是正态分布及近似正态分布。(2)几何均数(geometric mean):对原始观察值呈偏态分布,但经过对数变换后呈正态分布的资料,如血清抗
7、体滴度。应用时观察值中若有0或负值,则不能直接使用几何均数。且不能同时有正值和负值。(3)中位数(median):将一组观察值按大小排序后位次居中的观察值。可用于各种分布的资料,由于其不受极端值影响,实际工作中主要用于偏态分布、两端无确切值或分布不明确资料。,二、计量资料的统计描述(3),3.离散趋势(dispersion)的描述:(1)极差(range)亦称全距,即全部观察值中最大值与最小值之差。用于描述单峰对称分布小样本的资料的变异。(2)四分位数间距(inter-quartile range)指上下四分位数之差。常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。(3)方差(
8、variance)和标准差(standard deviation)是描述对称分布,特别是正态分布或近似正态分布资料离散趋势的常用指标。(4)变异系数(coefficient of variation,简称CV),亦称离散系数(coefficient of dispersion):为标准差与均数之比。,二、计量资料的统计描述(4),4.正态分布(normal distribution)的特征:(1)正态密度函数曲线在横轴上方均数处最高。(2)正态分布以均数为中心,左右对称。(3)正态分布有两个参数,位置参数和形态参数。(4)正态密度函数曲线的面积分布有以下规律:曲线与横轴间的面积恒等于1或100
9、%.对称轴为X=,其左右两侧面积均为50%.曲线下在区间(-,+)的面积为68.27%,(-1.64,+1.64)的面积为89.9%,(-1.96,+1.96)的面积为95.0%。(-2.58,+2.58)的面积为99.0%。,二、计量资料的统计描述(5),5.正态分布的应用:(1)估计频率分布(2)制定医学参考值范围 医学参考值(reference value)是指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。(3)质量控制(4)正态分布是许多统计方法的理论基础。,三、分类资料的统计描述,分类资料一般用率、构成比和相对比等相对数进行统计描述率(rate)某
10、现象实际发生与可能发生某现象总数比,用以说明频率或强度。构成比(proportion)某事物内部某一部分观察单位数与事物内部各部分总数之比。相对比(ratio):两个有关指标之比。应用相对数注意事项:要有足够观察单位数或观察次数分析时不能以构成比代替率应将分子和分母合计求合计率或平均率相对数的比较应注意其可比性样本率或构成比比较时应作假设检验率的标准化法:直接法和间接法,四、常用的统计推断方法(1),t检验和u检验用途:两计量资料均数比较的假设检验。应用条件:未知且n100或已知用u检验(n100时可用t检验也可用u检验,但t检验更精确)样本来自正态总体;两样本所属总体方差相等;类型:样本均数
11、与总体均数比较配对设计的差值均数与总体均数0的比较成组设计的两样本均数的比较成组设计的两样本几何均数的比较,四、常用的统计推断方法(2),二项分布(binomial distribution)定义(应用条件):贝努利试验序列(互斥、独立、等概)中某一结果(共有两种结果)出现次数的频率。用途:总体率的区间估计:正态近似法及查表法单个总体率的假设检验:直接计算概率法及正态近似法两个总体率的假设检验,四、常用的统计推断方法(3),poisson分布定义:凡具有贝努利试验序列3个特点且发生率很小,样本例数很大时变量分布可认为服从poisson分布。用途:总体率的区间估计:正态近似法及查表法单个总体率的
12、假设检验:直接计算概率法及正态近似法两个总体率的假设检验,四、常用的统计推断方法(4),x2检验(chi-square test)用途(计数资料):两个及以上总体率或构成比是否有差别(完全及配对四格表)两个分类变量间有无相关关系(相关性)多个率的趋势检验(等级分层或连续性资料等级化后分层)两个率的等率性检验(疗效比较)x2检验校正:当n40,且有1T5时Fisher确切概率法:P时当n40或T1时,四、常用的统计推断方法(5),秩和检验(rank sum test)定义:用数据的秩次代替原始进行假设检验的方法(非参数检验)。应途:配对设计的两样本比较(Wilcoxon符号秩和检验)单一样本与总
13、体中位数的比较(Wilcoxon符号秩和检验)原始数据的两样本比较(Wilcoxon两样本比较法)频数表资料或等级资料的两样本比较(Wilcoxon两样本比较法)原始数据的多个样本比较(K-W检验又称H检验)频数表资料或等级资料的多个样本比较(K-W检验又称H检验)配伍组设计(随机区组设计)的秩和检验(M检验又称Friedman检验)成组设计多个样本资料的两两比较(D值法)随机区组设计资料的两两比较(C值法),四、常用的统计推断方法(6),方差分析(analysis of variance,ANOVA)应用条件:各样本来自正态总体;各总体方差齐;样本独立性用途:完全随机设计的方差分析;随机区组
14、设计的方差分析;多个样本的两两比较 a.q检验法(Student-Newman-Keuls法):两两比较 b.最小意义差异法(least significant different,LSD法):对照组与各处理组的两两比较 c.新复极差法(Ducans new multiple range method,简称Ducan新法):对照组与各处理组的两两比较析因设计的方差分析交互设计的方差分析重复测量资料的方差分析,四、常用的统计推断方法(7),直线回归(linear regression)定义:分析某量随另一变量而变化依存关系的方法称为直线回归适用条件:线性趋势:绘制散点图独立性:应变量y取值相互独
15、立正态性:应变量y服从正态分布方差齐:应变量y的方差相同统计推断:总体回归系数的估计与假设检验:t检验和方差分析应变量条件均数的区间估计个体值的容许区间估计,四、常用的统计推断方法(8),直线相关(linear correlation)定义:用来描述具有直线关系的两个变量x,y间的相互关系。它不同于直 线回归,两变量x和y是可以互换的,不分自变量和应变量。相关系数的意义及假设检验:意义:说明具有相关关系的两变量间相互方向和密切程度。假设检验:tr检验和查表法,同一双变量资料,回归系数和相关系的假设检验是等价的,即tb=tr决定系数:即相关系数的平方,r2=SS回/SS总,它反映应变量y的总变异
16、中,可用 回归关系解释的比例。Spearman秩相关适用条件;不服从双变量正态分布;总体分布型未知;原始数据用等级表示的资料。,四、常用的统计推断方法(9),生存分析描述生存过程:乘积极限法和寿命表法比较生存过程:对数秩检验、Gehan比分检验及Breslow检验生存过程的影响因素分析:COX比例风险模型,四、常用的统计推断方法(10),多元线性回归与相关研究多个变量之间的线性依存及线性相关的统计分析方法。相关分析:研究多个变量之间线性关系的一种方法。多重线性回归(multiple regression):研究的是一个应变量与多个自变量之间产依赖关系。而多元线性回归研究的是多个应变量对多个自变
17、量的线性依存关系,当只有一个应变量时,称为多重线性回归。协方差分析(covariance analysis):是利用线性回归方法消除混杂因素的影响后所进行的方差分析。,四、常用的统计推断方法(11),Logistic回归定义:医学研究中Logistic回归主要用于筛选疾病的危险因素或预后因素和评价治疗措施的效果,通常是以疾病的死亡、治愈等结果发生的概率为因变量,以疾病和预后的影响因素为自变量建立模型。分类:非条件logistic回归:适用于成组设计且因变量为二分类的资料;条件logistic回归:适用于配对设计且因变量为二分类的资料;多分类logistic回归:适用于因变量为多分类的资料。lo
18、gistic回归的假设检验:回归方程的假设检验和回归系数的假设检验logistic回归方程回归系数的解释:对回归系数k来说,在控制其它自变量不变的情况下,xk每增加一个单位,OR值就相应增加e k倍。,四、常用的统计推断方法(12),COX比例风险回归模型(Cox proportional hazard regression model)医学研究中,观察对象生存时间的长短往往与多种因素有关系,如白血病患者化疗后的缓解期,除与治疗有关外,还可能与患者年龄、体质、病情轻重及营养状况等因素有关。医学上将这些因素统称为预后因素,统计学上将它们称作为协变量。由于生存时间资料常存在截尾值,且不满足正态分布和方差齐。统计学上采用COX比例风险回归模型来分析带有协变量的生存资料,该模型以时间顺序统计量为基础,对生存时间的分布形式无具体要求。,Thank you!,
copyright@ 2008-2023 冰点文库 网站版权所有
经营许可证编号:鄂ICP备19020893号-2