中南大学研究生医学统计学.docx
《中南大学研究生医学统计学.docx》由会员分享,可在线阅读,更多相关《中南大学研究生医学统计学.docx(14页珍藏版)》请在冰点文库上搜索。
中南大学研究生医学统计学
频数表:
频数表亦称频数分布表,是由变量值的分组和各组段的例数构成
统计描述:
指选用恰当的指标,通常称为统计量,选用合适的统计表与统计图,对资料的数量特征及其分布规律进行测定和描述。
包括搜集数据、整理数据、总结数据、分析数据以及将数据呈现出来
统计推断:
指如何在一定的可信度下由样本信息统计指标来推断总体相应指标,又称参数估计。
包括进行推测、假设检验、确定关系然后作出预测,有点估计和区间估计。
小概率事件:
统计分析中的很多结论都是基于一定可信程度下的概率推断,习惯上将P<=0.05称为小概率事件,表示一次实验或观察中该事件发生的可能很小,可以视为可能不发生。
算术均数:
简称均数可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。
几何均数:
可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。
适用条件:
呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料
中位数:
是将变量值从小到大排列,位置居于中间的那个变量值。
符号为Md,反映一批观察值在位次上的平均水平。
适用于:
1、各种分布类型的资料2、特别是偏态分布资料和开囗资料(一端或两端无确切数值的资料)。
3、资料分布不明等
百分位数:
将一组数据从大到小按顺序排列起来,并计算相应的累计百分位(频率)。
那某一百分位所对应的数据变量值就叫这一百分位的百分位数百分位数的应用:
确定医学参考值范围;中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征
参考值范围:
由于个体存在差异,医学数据,并不是常数,而是在一定范围内波动,是指包括绝大多数正常人形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。
百分位数:
数据从小到大排列;在百分尺度下,所占百分比对应的值。
记为Px。
包括直接算法和频数表法
应用:
1.确定医学参考值范围:
如95%参考值范围=P97.5-P2.5;表示有95%正常个体的测量值在此范围。
2.中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征抽样误差:
由个体变异产生的,抽样造成的样本统计量与总体参数的差异
方差也称均方差,样本观察值的离均差平方和的均值。
表示一组数据的平均离散情况。
标准差即方差的正平方根;其单位与原变量X的单位相同。
Бх,标准误:
将样本统计量的标准差称~,样本均数的标准差称均数标准误,反映了样本均属间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小
自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度
变异系数:
多用于观察指标单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童身高与成人身高变异程度的比较。
医学参考值是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。
由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准。
可信区间:
按一定的概率或可信度(1-α)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间,预先给定的概率(1-α)称为可信度或者置信度。
如果能进行重复抽样试验,平均有1-α的可信区间包含总体参数。
95%可信区间:
从总体中作随机抽样,作100次抽样,每个样本可算得一个可信区间,得100个可信区间,平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。
假设检验过去称显著性检验:
它是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。
然后在H0成立的条件下计算检验统计量,最后获得P值来判断。
检验水准α,过去称显著性水准,是预先规定的概率值,它确定了小概率事件的标准。
在实际工作中常取α=0.05。
可根据不同研究目的给予不同设置。
检验效能:
是用数量描述的事物现象之间如果确定有一个真正的差别存在,能被显著性检验所检出的概率
标准化法:
用统一的内部构成,然后计算标准化率的方法。
采用某影响因素的统一标准构成,以消除构成不同对合计率地影响,使标准化后的率具有可比性
P的含义是指从H0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率。
I型错误:
“实际无差别,但下了有差别的结论”,假阳性错误。
犯这种错误的概率是α(其值等于检验水准)
II型错误:
“实际有差别,但下了不拒绝H0的结论”,假阴性错误。
犯这种错误的概率是β(其值未知)
完全随机设计:
是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。
组间变异:
各处理组由于接受处理的水平不同,各组的样本均数(i=1,2,…,g)也大小不等,这种变异称为组间变异。
其大小可用各组均数与总均数的离均差平方和表示,记为SS组间
组内变异:
在同一处理组中,虽然每个受试对象接受的处理相同,但测量值仍各不相同,这种变异称为组内变异(误差)。
组内变异可用组内各测量值Xij与其所在组的均数的差值的平方和表示,记为SS组内,表示随机误差的影响。
随机区组设计又称为配伍组设计,是配对设计的扩展。
具体做法是:
先按影响试验结果的非
动态数列:
是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。
绝对增长量;是说明事物在一定时期增长的绝对值。
发展速度与增长速度:
均为相对比,说明事物在一定时期的速度变化。
发展速度表示报告期指标的水平相当于基期水平的百分之多少或若干倍,
平均发展速度;是各环比发展速度的几何平均数,说明某事物在一个较长时期中逐期(如逐年)平均发展的程度。
平均增长速度;是各环比增长速度的平均数,说明某事物在一个较长时期中逐期平均增长的程度。
二项分布是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验中,当每次试验的“阳性”概率π保持不变时,出现“阳性”次数X=0,1,2,…,n的一种概率分布。
记作:
X~B(n,π)。
Poisson分布:
作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。
Poisson分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生数的分布。
所谓随机变量X服从Poisson分布,是指在足够多的n次独立Bernoulli试验中,取值X的概率
非参数检验:
针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布式连续型的或是离散型的,用于解决这类问题需要一种不依赖总体分布的具体形式的统计分析方法。
由于这类方法不受总体参数的限制,故称为非参数统计,或称为不拘分布的统计分析方法,又称为无分布型式假定的统计分析方法。
适于处理总体分布不易确定或未知;分布非正态但无合适转换方法;有一端或两端有不确定数值(如<0.1,>15.0)的资料;等级资料等。
参数检验:
通常要求样本来自总体分布类型已知(正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数检验。
例如,均数的区间估计;t检验/u检验,F检验。
b的意义:
回归系数b称为斜率(slope),其统计学意义是:
X每增加(减)一个单位,Y平均改变b个单位。
残差或剩余值,即实测值Y与假定回归线上的估计值Y的纵向距离。
直线相关系数,Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。
统计图:
指利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料。
统计图只能提供概略的情况,而不和百分条图适合描述分类变量的各类别所占的构成比。
百分条图以总长度L为100%,将长度L乘以各类别的构成比(%)得到各构成的长度,由大到小或按类别的自然顺序依次排列,其它项放最后。
箱式图(boxplot):
使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。
箱式图的箱子两端分别是上、下四分位数,中间是中位数,两端连线分别是除异常值之外的最小与最大值。
箱子越长数据变异程度越大,中间横线在箱子中点表明分布对称,否则不对称。
箱式图特别适合多组数据分布的比较。
茎叶图:
将数据分离成两部分,整数为茎,尾数为叶
“球对称”假设:
满足“球对称”假设,可用第四章随机区组方差分析比较处理组间差异;若不满足“球对称”假设,亦可用随机区组方差分析,但需校正时间效应F界值的自由度。
单变量分析:
研究单个变量的数量特征,推断两个或多个总体参数的差别。
双变量分析:
研究两个变量的数量依存(或依赖)关系或互依(或相关)关系。
多变量分析:
研究多个变量的数量依存(或依赖)关系或互依(或相关)关系。
单独效应:
指其他因素的水平固定时,同一因素不同水平间的差别
主效应:
指某一因素各水平间的平均差别
交互作用:
当某因素的各个单独效应随另一因素变化而变化时,则称这两个因素间存在交互作用。
正交试验:
非全面组合,g个处理组是各因素各水平的部分组合,即析因设计的部分实施。
优点:
减少试验次数缺点:
牺牲分析各因素部分交互作用
b0为截距:
表示各自变量均为0时y的的估计值。
bi称为偏回归系数,是βi的估计值,表示当方程中其他自变量保持不变时,自变量Xi变化一个计量单位,反应变量Y的平均变化量。
b称为X=(X1,X2,,Xm)时,反应变量Y的估计值。
e是去除m个自变量对Y影响后的随机误差(残差)
偏相关系数:
扣除其他变量的影响后,变量Y与Xi的相关,称为Y与Xi的偏相关系数。
优势比OR(oddsratio)流行病学衡量危险因素作用大小的比数比例指标。
优势比估计:
可反映某一因素两个不同水平(c1,c0)的优势比
logistic回归:
是一个概率型模型,因此可以利用它预测某事件发生的概率。
例如在临床上可以根据患者的一些检查指标,判断患某种疾病的概率有多大。
量特征及其分布规律进行测定和描述。
包括搜集数据、整理数据、总结数据、分析数据以及将数据呈现出来
统计推断:
指如何在一定的可信度下由样本信息统计指标来推断总体相应指标,又称参数估计。
包括进行推测、假设检验、确定关系然后作出预测,有点估计和区间估计。
小概率事件:
统计分析中的很多结论都是基于一定可信程度下的概率推断,习惯上将P<=0.05称为小概率事件,表示一次实验或观察中该事件发生的可能很小,可以视为可能不发生。
算术均数:
简称均数可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。
几何均数:
可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。
适用条件:
呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料
中位数:
是将变量值从小到大排列,位置居于中间的那个变量值。
符号为Md,反映一批观察值在位次上的平均水平。
适用于:
1、各种分布类型的资料2、特别是偏态分布资料和开囗资料(一端或两端无确切数值的资料)。
3、资料分布不明等
百分位数:
将一组数据从大到小按顺序排列起来,并计算相应的累计百分位(频率)。
那某一百分位所对应的数据变量值就叫这一百分位的百分位数百分位数的应用:
确定医学参考值范围;中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征
参考值范围:
由于个体存在差异,医学数据,并不是常数,而是在一定范围内波动,是指包括绝大多数正常人形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。
百分位数:
数据从小到大排列;在百分尺度下,所占百分比对应的值。
记为Px。
包括直接算法和频数表法
应用:
1.确定医学参考值范围:
如95%参考值范围=P97.5-P2.5;表示有95%正常个体的测量值在此范围。
2.中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征抽样误差:
由个体变异产生的,抽样造成的样本统计量与总体参数的差异
方差也称均方差,样本观察值的离均差平方和的均值。
表示一组数据的平均离散情况。
标准差即方差的正平方根;其单位与原变量X的单位相同。
Бх,标准误:
将样本统计量的标准差称~,样本均数的标准差称均数标准误,反映了样本均属间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小
自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度
变异系数:
多用于观察指标单位不同时,如身医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准。
可信区间:
按一定的概率或可信度(1-α)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间,预先给定的概率(1-α)称为可信度或者置信度。
如果能进行重复抽样试验,平均有1-α的可信区间包含总体参数。
95%可信区间:
从总体中作随机抽样,作100次抽样,每个样本可算得一个可信区间,得100个可信区间,平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。
假设检验过去称显著性检验:
它是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。
然后在H0成立的条件下计算检验统计量,最后获得P值来判断。
检验水准α,过去称显著性水准,是预先规定的概率值,它确定了小概率事件的标准。
在实际工作中常取α=0.05。
可根据不同研究目的给予不同设置。
检验效能:
是用数量描述的事物现象之间如果确定有一个真正的差别存在,能被显著性检验所检出的概率
标准化法:
用统一的内部构成,然后计算标准化率的方法。
采用某影响因素的统一标准构成,以消除构成不同对合计率地影响,使标准化后的率具有可比性
P的含义是指从H0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率。
I型错误:
“实际无差别,但下了有差别的结论”,假阳性错误。
犯这种错误的概率是α(其值等于检验水准)
II型错误:
“实际有差别,但下了不拒绝H0的结论”,假阴性错误。
犯这种错误的概率是β(其值未知)
完全随机设计:
是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。
组间变异:
各处理组由于接受处理的水平不同,各组的样本均数(i=1,2,…,g)也大小不等,这种变异称为组间变异。
其大小可用各组均数与总均数的离均差平方和表示,记为SS组间
组内变异:
在同一处理组中,虽然每个受试对象接受的处理相同,但测量值仍各不相同,这种变异称为组内变异(误差)。
组内变异可用组内各测量值Xij与其所在组的均数的差值的平方和表示,记为SS组内,表示随机误差的影响。
随机区组设计又称为配伍组设计,是配对设计
动态数列:
是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。
绝对增长量;是说明事物在一定时期增长的绝对值。
发展速度与增长速度:
均为相对比,说明事物在一定时期的速度变化。
发展速度表示报告期指标的水平相当于基期水平的百分之多少或若干倍,
平均发展速度;是各环比发展速度的几何平均数,说明某事物在一个较长时期中逐期(如逐年)平均发展的程度。
平均增长速度;是各环比增长速度的平均数,说明某事物在一个较长时期中逐期平均增长的程度。
二项分布是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验中,当每次试验的“阳性”概率π保持不变时,出现“阳性”次数X=0,1,2,…,n的一种概率分布。
记作:
X~B(n,π)。
Poisson分布:
作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。
Poisson分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生数的分布。
所谓随机变量X服从Poisson分布,是指在足够多的n次独立Bernoulli试验中,取值X的概率
非参数检验:
针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布式连续型的或是离散型的,用于解决这类问题需要一种不依赖总体分布的具体形式的统计分析方法。
由于这类方法不受总体参数的限制,故称为非参数统计,或称为不拘分布的统计分析方法,又称为无分布型式假定的统计分析方法。
适于处理总体分布不易确定或未知;分布非正态但无合适转换方法;有一端或两端有不确定数值(如<0.1,>15.0)的资料;等级资料等。
参数检验:
通常要求样本来自总体分布类型已知(正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数检验。
例如,均数的区间估计;t检验/u检验,F检验。
b的意义:
回归系数b称为斜率(slope),其统计学意义是:
X每增加(减)一个单位,Y平均改变b个单位。
残差或剩余值,即实测值Y与假定回归线上的估计值Y的纵向距离。
直线相关系数,Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。
统计图:
指利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料。
统计图只能提供概略的情况,而不和百分条图适合描述分类变量的各类别所占的构成比。
百分条图以总长度L为100%,将长度L乘以各类别的构成比(%)得到各构成的长度,由大到小或按类别的自然顺序依次排列,其它项放最后。
箱式图(boxplot):
使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。
箱式图的箱子两端分别是上、下四分位数,中间是中位数,两端连线分别是除异常值之外的最小与最大值。
箱子越长数据变异程度越大,中间横线在箱子中点表明分布对称,否则不对称。
箱式图特别适合多组数据分布的比较。
茎叶图:
将数据分离成两部分,整数为茎,尾数为叶
“球对称”假设:
满足“球对称”假设,可用第四章随机区组方差分析比较处理组间差异;若不满足“球对称”假设,亦可用随机区组方差分析,但需校正时间效应F界值的自由度。
单变量分析:
研究单个变量的数量特征,推断两个或多个总体参数的差别。
双变量分析:
研究两个变量的数量依存(或依赖)关系或互依(或相关)关系。
多变量分析:
研究多个变量的数量依存(或依赖)关系或互依(或相关)关系。
单独效应:
指其他因素的水平固定时,同一因素不同水平间的差别
主效应:
指某一因素各水平间的平均差别
交互作用:
当某因素的各个单独效应随另一因素变化而变化时,则称这两个因素间存在交互作用。
正交试验:
非全面组合,g个处理组是各因素各水平的部分组合,即析因设计的部分实施。
优点:
减少试验次数缺点:
牺牲分析各因素部分交互作用
b0为截距:
表示各自变量均为0时y的的估计值。
bi称为偏回归系数,是βi的估计值,表示当方程中其他自变量保持不变时,自变量Xi变化一个计量单位,反应变量Y的平均变化量。
b称为X=(X1,X2,,Xm)时,反应变量Y的估计值。
e是去除m个自变量对Y影响后的随机误差(残差)
偏相关系数:
扣除其他变量的影响后,变量Y与Xi的相关,称为Y与Xi的偏相关系数。
优势比OR(oddsratio)流行病学衡量危险因素作用大小的比数比例指标。
优势比估计:
可反映某一因素两个不同水平(c1,c0)的优势比
logistic回归:
是一个概率型模型,因此可以利用它预测某事件发生的概率。
例如在临床上可以根据患者的一些检查指标,判断患某种疾病的概率有多大。
量特征及其分布规律进行测定和描述。
包括搜集数据、整理数据、总结数据、分析数据以及将数据呈现出来
统计推断:
指如何在一定的可信度下由样本信息统计指标来推断总体相应指标,又称参数估计。
包括进行推测、假设检验、确定关系然后作出预测,有点估计和区间估计。
小概率事件:
统计分析中的很多结论都是基于一定可信程度下的概率推断,习惯上将P<=0.05称为小概率事件,表示一次实验或观察中该事件发生的可能很小,可以视为可能不发生。
算术均数:
简称均数可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。
几何均数:
可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。
适用条件:
呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料
中位数:
是将变量值从小到大排列,位置居于中间的那个变量值。
符号为Md,反映一批观察值在位次上的平均水平。
适用于:
1、各种分布类型的资料2、特别是偏态分布资料和开囗资料(一端或两端无确切数值的资料)。
3、资料分布不明等
百分位数:
将一组数据从大到小按顺序排列起来,并计算相应的累计百分位(频率)。
那某一百分位所对应的数据变量值就叫这一百分位的百分位数百分位数的应用:
确定医学参考值范围;中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征
参考值范围:
由于个体存在差异,医学数据,并不是常数,而是在一定范围内波动,是指包括绝大多数正常人形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。
百分位数:
数据从小到大排列;在百分尺度下,所占百分比对应的值。
记为Px。
包括直接算法和频数表法
应用:
1.确定医学参考值范围:
如95%参考值范围=P97.5-P2.5;表示有95%正常个体的测量值在此范围。
2.中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征抽样误差:
由个体变异产生的,抽样造成的样本统计量与总体参数的差异
方差也称均方差,样本观察值的离均差平方和的均值。
表示一组数据的平均离散情况。
标准差即方差的正平方根;其单位与原变量X的单位相同。
Бх,标准误:
将样本统计量的标准差称~,样本均数的标准差称均数标准误,反映了样本均属间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小
自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度
变异系数:
多用于观察指标单位不同时,如身医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准。
可信区间:
按一定的概率或可信度(1-α)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间,预先给定的概率(1-α)称为可信度或者置信度。
如果能进行重复抽样试验,平均有1-α的可信区间包含总体参数。
95%可信区间:
从总体中作随机抽样,作100次抽样,每个样本可算得一个可信区间,得100个可信区间,平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。
假设检验过去称显著性检验:
它是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。
然后在H0成立的条件下计算检验统计量,最后获得P值来判断。
检验水准α,过去称显著性水准,是预先规定的概率值,它确定了小概率事件的标准。
在实际工作中常取α=0.05。
可根据不同研究目的给予不同设置。
检验效能:
是用数量描述的事物现象之间如果确定有一个真正的差别存在,能被显著性检验所检出的概率
标准化法:
用统一的内部构成,然后计算标准化率的方法。
采用某影响因素的统一标准构成,以消除构成不同对合计率地影响,使标准化后的率具有可比性
P的含义是指从H0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率。
I型错误:
“实际无差别,但下了有差