医学统计学复习知识点汇集.doc
《医学统计学复习知识点汇集.doc》由会员分享,可在线阅读,更多相关《医学统计学复习知识点汇集.doc(3页珍藏版)》请在冰点文库上搜索。
正态分布(normaldistribution):
随着观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线,称频数曲线,近似于数学上的正态分布。
变异系数(coefficientofvariance):
是相对数没有单位,用来比较度量单位不同或均数相差悬殊的两组或多组资料间的变异度。
抽样误差(samplingerror):
总体中各个体间存在差异,从总体中随机抽取一定量的样本,由样本计算的统计与总体参数之间的差异或各样本统计量之间的差异,称为抽样误差。
第一类错误:
拒绝了实际上成立的H0,即样本原本来自μ=μ0的总体,由于抽样的偶然性得到了较大的t值,较小的P值,按α=0.05检验水准拒绝了H0,接受了H1,这类“弃真”错误称为第一类错误。
假设检验(hypothesistest):
亦称显著性检验,其基本思想是先对总体的参数或分布做出某种假设,然后根据样本信息选用适当的方法,推断此假设应当拒绝或不拒绝。
同质(homogeneity):
指被研究指标的影响因素相同;
变异(variation):
指同质基础上的各观察单位间的差异。
变量(variable):
进行搜集资料时,都要有明确的观察单位,然后对每个观察单位的某项特征进行观测,这种被观察单位的特征称为变量。
总体:
总体是根据研究目的确定的同质研究对象中所有观察单位某种变量值的集合。
样本:
样本是从总体中随机抽取部分观察单位(有代表性),其变量值的集合。
概率:
是描述随机事件发生的可能性大小的量(数值),统计学上用符号“P”来表示。
误差:
指测定值与真实值或研究结果与实际情况之间的差别,有系统误差、随机测量误差和抽样误差。
参数(paramerter):
描述总体变量值特征的指标,一般未知,需通过样本指标估计,用希腊字母表示。
统计模型(statisticalmodel):
指以概率论为基础,采用数学统计方法建立的模型.常用的这类模型有:
标准差模型,回归模型.
可信区间(confidenceinterval):
是按一定的概率100(1-)%估计总体均数所在的范围,亦称估计区间。
常取的可信度为95%和99%。
卡方检验(chi-squaretest):
是一种用途很广的假设检测方法,适用于分类变量资料中推断两个或多个总体率(或构成比)之间有无差别,两个分类指标之间有无相关关系的检验以及检验频数分布的拟合优度。
样本例数(samplesize):
又称样本含量,样本大小,指样本中所包含的观察单位数。
四分位数间距(quartilerange):
为上四分位数QU(即P75)与下四分位数QL(即P25)之差。
其间包括一组观察值的一半,可看成是中间50%观察值的极差。
其数值越大,变异度越大,反之,变异度越小。
常用于描述偏态频数分布及分布的一端或两端无确切数值资料的离散程度。
全距(range):
亦称极差,为一组同质观察值中最大值与最小值之差。
它反映了个体差异的范围,描述定量资料的变异度大小。
频数表的用途和基本步骤:
(1)揭示资料的分布特征和分布类型;
(2)便于进一步计算指标和分析处理;(3)便于发现某些特大或特小可疑值。
基本步骤:
(1)求出极差;
(2)确定组段,一般设8~15个组段;(3)确定组距;组距=R/组段数,但一般取一方便计算的数字;(4)列出各个组段并确定每一组段频数。
统计工作的步骤:
(1)设计;
(2)搜集资料;来源:
医学领域的统计资料主要来自三个方面,统计报表,经常性工作记录,专题调查或专题实验;要求:
统计学对原始资料的要求是完整、准确、及时;贮存:
注意资料的时效性、磁盘备份等。
(3)整理资料:
检查核对准确性和完整性,设计分组,拟定整理表,归表。
(4)分析资料统计分析包括统计描述和统计推断(参数估计,假设检验)。
计量资料(数值变量):
集中趋势(均数、几何均数、中位数、众数和调和均数,是描述一组同质观察值的平均水平或中心位置的指标)离散趋势:
极差(全距)、四分位数间距、方差(总体方差和样本方差)、标准差和变异系数。
计数资料(分类变量):
相对数(率、构成比、相对比、动态数列)
总体方差:
样本方差:
标准误越小,表示抽样误差越小,样本平均数对总体平均数估计越可靠。
t分布:
总体均数可信区间估计:
(1)σ未知且n小时(n小于30或50),按分布原理计算可信区间。
(2)σ未知但n足够大时(n大于100),t分布近似正态分布,按正态分布原理估计可信区间。
(3)σ已知,按正态分原理估计可信区间。
可信区间有两个要素:
准确度(accuracy)和精密度(precision)。
准确度反映可信度的大小,即可信区间包容总体均数的概率愈接近1愈好;精密度反映可信区间的长度,区间长度愈小精密度愈高。
二者相互矛盾,常用95%可信区间。
poisson分布:
总体参数的估计:
(1)查表法:
当样本计数X≤50,查poisson分布μ的可信区间;
(2)正态近似法:
当样本计数X>50,
总体率的估计(二项分布):
(1)查表法:
当样本含量n≤50,特别是p很接近于0或1时,按二项分布原理估计总体率的可信区间,可根据样本含量n和阳性例数X乾地查表查出总体率的可信区间。
(2)近态近似法:
当样本含量n足够大,且np>5且n(1-p)>5,样本率p的抽样分布近似正态分布,总体率的可信区间
已知:
n=,p=
np=?
>5n(1-p)=?
>5
总体率的可信区间
实际准备的药物:
求出的上下限分别乘以总n。
正态分布、二项式和泊松分布的关系:
二项分布(binomialdistribution):
对只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。
Poisson分布是在π很小,样本含量n趋于无穷大时,二项分布的极限形式。
当v=∞时,t分布即为u分布,趋向正态分布。
正态分布的特征:
正态曲线在横轴上方均数处最高;以均数为中心,左右对称;正态分布有两个参数,即均数μ(位置参数)和标准差σ(形状参数),μ越大,曲线沿横轴越向右移动;σ越大,曲张越平阔;正态分布在±1σ处各有个拐点;正态曲线下的面积分布有一定的规律。
t分布的特征:
以0为中心,左右两侧对称的单峰型分布;t分布曲线的变化与自由度的大小有关,自由度v越小,则t值越分散,曲线越低平;自由度v逐渐增大时,则t分布逐渐逼近正态分布。
当v=∞时,t分布即为u分布。
标准正态分布(u分布)与t分布有何异同?
答:
相同点:
t分布和标准正态分布(u分布)都是以0为中心的正态分布。
标准正态分布是t分布的特例(自由度是无限大时)。
不同点:
t分布为抽样分布,u分布为理论分布;t分布比标准正态分布的峰值低,且尾部翘得更高;t分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;t分布有无数条曲线,而u分布只有唯一一条曲线。
直线回归方程的应用:
(1)定量描述两变量之间的依存关系;
(2)利用回归议程进行预测;(3)利用回归议程进行统计控制。
应用直线回归的注意事项:
(1)作回归分析要有实际意义;
(2)直线回归分析的资料,一般要求因变量Y是来自正态分布总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严格控制的值。
(3)进行回归分析时,应先绘制散点图,如提示有直线趋势,可作线性回归分析,否则应考虑作数据转换或进行非线性回归;(4)对离群值应检查核对,予以修正或剔除;(5)回归直线不要外延。
t检验的注意事项:
(1)要有严密的抽样设计,随机、均衡、可比。
(2)选用的检验方法必须符合其适用条件(注意:
t检验的前提是资料服从正态分布)。
(3)单侧检验和双侧检验,单侧检验的界值小于双侧检验的界值,因此更容易拒绝,犯第Ⅰ错误的可能性大。
(4)假设检验的结论不能绝对化。
不能拒绝H0,有可能是样本数量不够,拒绝H0,有可能犯第Ⅰ类错误。
(5)正确理解P值与差别有无统计学意义。
P越小,不是说明实际差别越大,而是说越有理由拒绝H0,越有理由说明两者有差异,差别有无统计学意义和有无专业上的实际意义并不完全相同。
(6)假设检验和可信区间的关系。
结论具有一致性,提供的信息不同。
区间估计给出总体均值可能取值范围,但不给出确切的概率值,假设检验可以给出H0成立与否的概率。
假设检验时应注意的事项
(1)要有严密的抽样研究设计;样本必须是从同质总体中随机抽取的,要保证组间的均衡性和资料的可比性,可能影响结果的非处理因素在对比组间应尽可能相同或相近;
(2)正确选择检验方法;根据现有的资料类型、设计类型、分析目的、样本含量等因素选用适当的检验方法,如不符合条件可做适当转换;(3)正确理解“差别无显著性”的含义,差别有统计学意义,不能理解为两者差差大,也不能理解为所分析的指标在实际应用上就有“显著效果”。
(4)检验假设的推断结论为概率结论,不能绝对化:
检验水准人为规定,是相对的,报告结论时应列出检验统计量和P值的确切范围。
(5)注意是单侧检验还是双侧检验。
假设检验的步骤:
(1)建立假设和确定检验水准:
根据实际情况确定单、双侧检验,建立假设,确定检验水准;
(2)选定检验方法和计算统计量:
根据设计的类型及研究目的选择合适的检验方法并计算出对应的统计量;(3)确定P值并做出推断结论。
若t≥tα,v,则P≤α,按检验水准,拒绝H0,接受H1,尚可认为差异显著有统计学意义;相反则差异不显著,无统计学意义。
应用相对数时的注意事项有哪些?
(1)正确区分分子、分母,且计算相对数的分母不宜过小;观察例数过小时抽样误差较大,计算的相对数往往不稳定,可靠性差。
所以当观察例数较少(如少于30例)时,一般以绝对数表示为好,如以相对数表示,应给出其可信区间。
(2)分析时不能以构成比代替率;(3)对观察单位数不等的几个率,不能直接相加求其平均率;(4)资料的对比应注意可比性;(5)对样本率(或构成比)的比较应遵循随机抽样,要做假设检验;(6)要正确选择分子和分母的数值,要能说明事物的特点和性质;(7)计算构成比也可以是划分为各组间的定量指标资料,同一事物各组成部分的构成比之和应为1或100%。
可信区间与参考值范围的区别:
意义、计算公式和用途均不同。
(1)参考值范围是指同质总体内包括百分之几十个体值的估计范围。
而可信区间是指在百分之几十的可信度估计的总体参数的所在范围。
(2)同样的百分之几十,参考值范围是样本范围,可信区间是指可信度范围,二者有着本质的不同。
(3)从意义来看,95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指按95%可信度估计的总体均数的所在范围。
(4)从计算公式看,若指标服从正态分布,95%参考值范围的公式是:
±1.96s。
总体均数95%可信区间的公式是:
。
前者用标准差,后者用标准误。
前者用1.96,后者用α为0.05,自由度为v的t界值。
(5)从用途上看,可信区间用来估计总体均数,参考值范围用来判断观察对象的某项指标是否正常。
简述检验假设与可信区间的联系与区别。
答:
(1)可信区间用于推断总体参数所在的范围,假设检验用于推断总体参数是否不同。
前者估计总体参数的大小,后者推断总体参数有无质的不同。
(2)可信区间也可回答假设检验的问题。
但可信区间不能提供确切的P值范围,只能给出在α水准上有无统计意义。
(3)可信区间还可提示差别有无实际意义。
简述标准差、标准误的区别与联系?
区别:
(1)含义不同:
标准差S表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。
标准误估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。
(2)与n的关系不同:
n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。
(3)用途不同:
标准差表示x的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。
联系:
二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。
标准差:
标准误:
简述直线相关与回归的区别与应用。
答:
区别:
(1)资料要求不同,相关要求两个变量是双变量正态分布;回归要求应变量Y服从正态分布,而自变量X是能精确测量和严格控制的变量。
(2)统计意义不同,相关反映两变量间的伴随关系这种关系是相互的,对等的;不一定有因果关系;回归则反映两变量间的依存关系,有自变量与应变量之分,一般将“因”或较易测定、变异较小者定为自变量。
这种依存关系可能是因果关系或从属关系。
(3)分析目的不同,相关分析的目的是把两变量间直线关系的密切程度及方向用一统计指标表示出来;回归分析的目的则是把自变量与应变量间的关系用函数公式定量表达出来。
联系:
(1)变量间关系的方向一致,对同一资料,其r与b的正负号一致。
(2)假设检验等价,对同一样本,tr=tb,由于tb计算较复杂,实际中常以r的假设检验代替对b的检验。
(3)相关和回归可以相互解释,相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。
(4)对于II型回归,r与b值可相互换算,。
简述相关系数和回归系数的联系与区别。
答:
区别:
(1)两种系数的意义不同:
回归系数是表明两个变量之间数量上的依存关系,回归系数越大回归直线越陡峭,表示应变量随自变量变化越快;相关系数是表明两个变量之间相关的方向和紧密程度的,相关系数越大,两个变量的关联程度越大。
(2)r与b有区别,回归系数b表示X每增(减)一个单位,Y平均改变b个单位;相关系数r说明具有直线关系,收集整理的两个变量间相关关系的密切程度与相关方向。
(3)计算公式不一样。
(4)取值范围不一样:
-∞<b<+∞,-1≤r≤1。
(5)单位不同:
b有单位,r没有单位。
联系:
(1)r与b值可相互换算,;
(2)r与b正负号一致;(3)r与b的假设检验等价;(4)回归可解释相关。
相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。
二项分布(离散型分布)的应用条件:
答:
各观察单位只能具有相对立的一种结果,属于两分类资料;已知发生某一结果的概率为π,其相对结果的概率为(1-π),实际工作中要求π是从大量观察中获得的比较稳定的数值;n个观察单位的观察结果互相独立。
举例说明泊松分布的特征及应用。
答:
特征:
(1)泊松分布是一种单参数的离散型分布,其参数为μ,表示单位时间或空间内某事件平均发生的次数,又称强度参数。
(2)泊松分布的方差与均数相等,σ2=μ。
(3)概率累计;(4)泊松分布的形状取决于μ的大小。
μ值越小,分布越偏,随着μ的增大,分布越趋于对称,当μ=20时,分布接近正态分布,当μ=50时,可以认为分布呈正态分布。
(5)泊松分布具有可加性。
应用:
泊松分布是在发生率π很小,样本含量n趋于无穷大时,二项分布的极限形式。
其应用条件与二项分布相同,即要求事件的发生是相互独立的,发生的概率相等,结果是二分类的。
主要用于研究单位时间或单位空间内某事件发生的次数,用于研究单位人群中某疾病发生数的分布时,单位人群的人数要求大一些。
即泊松分布描述小概率事件出现规律性的一种重要的离散型分布。
总结:
u分布:
制定医学参考值(μσ);t分布:
总体均数可信区间估计(v→∞正态);二项分布:
总体率可信区间估计(π=0.5或n→∞正态);Poisson分布:
总体参数估计(μ>50正态)。
简述参数检验和非参数检验的优缺点。
答:
参数检验的优点是对资料的分析利用充分,统计分析的效率高;缺点是对资料的要求高,适用范围有限。
非参数检验的优点:
(1)适用范围广,对变量的类型和分布无特殊要求,不受总体分布的限制;
(2)对数据的要求不严,对某些指标不便准确测定的资料也可应用;(3)方法简便,易于理解和掌握。
缺点是如果对符合参数检验的资料用了非参数检验,因不能充分利用资料提供的信息,会使检验效能低于非参数检验;若要使检验效能相同,往往需要更大的样本含量。
简要回答进行非参数统计检验的适用条件。
答:
(1)资料不符合参数统计法的应用条件(总体为正态分布、且方差相等)或总体分布类型未知;
(2)等级资料;(3)分布呈明显偏态又无适当的变量转换方法使之满足参数统计条件;(4)在资料满足参数检验的要求时,应首选参数法,以免降低检验效能。
简述卡方检验的基本思想和用途是什么?
答:
基本思想:
x2值反映了实际频数与理论频数的吻合程度,若检验假设H0成立,实际频数与理论频数的差值会小,则x2值也会小;反之,若检验假设H0不成立,实际频数与理论频数的差值会大,则x2值也会大。
主要用来推断两个总体率间或者构成比见有无差别;多个总体率间或构成比间有无差别;多个样本率比较的x2分割;两个分类变量之间有无关联性以及频数分布拟合优度的x2检验。
用途:
推断两个总体率间或者构成比见有无差别;多个总体率间或构成比间有无差别;多个样本率比较的x2分割;两个分类变量之间有无关联性以及频数分布拟合优度的x2检验。
行X列表卡方检验的注意事项:
答:
(1)X2检验要求理论频数不宜太小,否则将导致偏性。
一般认为行X列表资料中不宜有1/5以上的格子理论数小于5,或有一个格子理论数小于1。
处理方法:
最好的方法是增加样本例数,以增大理论频数;且精确概率法;进行合理的合并;删除理论频数太小的行和列,后两种方法将损失一定的信息并影响样本的随机性。
(2)单向有序列行X列表的统计处理:
当效应按强弱分为若干个级别,试验结果整理为单向有序行列表,在比较各处理组的效应有无差别时,宜用秩和检验或Ridit分析。
(3)当多个样本率比较的X2检验。
结论为拒绝H0,只能认为各总体率或总体构成比之间总的说来有差别,但不能说明它们彼此间都有差别,或某两者间有差别。
若要进一步解决此问题,可用卡方分割法。
简述方差分析的基本思想、应用条件、应用范围及工作步骤。
答:
基本思想就是根据试验设计的类型,将全部测量值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如组间变异SS组间可有处理因素的作用加以解释。
通过比较不同变异来源的均方,借助F分布做出统计推断,从而推论各种研究因素对试验结果有无影响。
应用条件:
(1)各样本是相互独立的随机样本,均服从正态分布;
(2)相互比较的各样本的总体方差相等,即具有方差齐性。
应用范围:
分析比较两个或多个样本均数;分析两个或多个研究因素的交互作用;回归方程线性假设检验;多元线性回归分析中偏回归系数的假设检验;两样本的方差齐性检验等。
工作步骤:
(1)建立检验假设,确定检验水准。
H0:
i组资料的总体均数相等,μ1=μ2=μiH1:
i组资料的总体均不等或不全相等,各μi不等或不全相等α=0.05
(2)计算统计量F值。
F=MS组间/MS组内(3)确定P值,并做出统计推断。
以V1和V2查F界值表,若F>F0.01(v1,v2),P<0.01,按α=0.05检验水准,拒绝H0,接受H1,可以为各总体均数不等或全相等。
当方差分析的推断结果为拒绝H0,接受H1,各总体均数不等或全相等时,需用N—K检验或最小显著差(LSD)检验进一步作多个样本均数间的两两比较。
简述统计图制作要求有哪些?
答:
根据资料的性质和分析目的决定适当的图形;标题应简明扼要地说明资料的内容、时间和地点,一般位于图的下方;3、纵横轴比例适当,应有标目并注明单位,尺度应等距或具有规律性,一般自左而右、自上而下、由小到大,纵轴尺度一般从0起点;为使图形美观并便于比较,统计图的长宽比例一般为7:
5,有时为了说明问题也可加以变动;比较、说明不同事物时,可用不同颜色或线条表示,并常附图例说明,但不宜过多。
假设检验中α和P的区别何在?
答:
α和P均为概率,其中是指拒绝了实际上成立的H0所犯错误的概率,是进行统计推断时预先设定的一个小概率事件标准,P值是由实际样本获得的,在H0成立的前提条件下,出现等于及大于(或/和等于及小于)现有样本获得的检验统计量的概率。
在假设检验中通常是将P与α对比来得到结论,若P≤α,则拒绝H0,接受H1,有统计学意义,可以认为…不同或不等,否则,若P>α,则不拒绝H0,无统计学意义。
尚不能认为…不同或不等。
假设检验中如何确定P值?
简述P值的含义。
答:
求出检验统计量后,可通过统计用表直接查出P值。
P值是指从H0所规定的总体中做随机抽样,获得等于及大于(或等于及小于)现有样本获得的检验统计量的概率。
什么是两类统计学错误?
二者有何联系?
答:
由于样本的随机性,假设检验中作出的结论可能会犯两类不同类型的错误:
I型错误和II型错误。
I型错误是拒绝了实际上成立的H0,即“弃真”;II型错误是不拒绝实际上不成立的H0,即“存伪”。
理论上犯第一类错误的概率为α,假设检验时可根据研究者的要求来确定;犯第二类错误的概率为β,它只有与特定的H1结合起来才有意义。
β值的大小很难确切地估计,但知道在样本含量不变的前提下,α越小,β越大,反之,α越大,β越小。
同时减少α和β的唯一方法是增加样本含量,因为增加了样本含量后,均数的抽样误差小,样本均数的代表性强,也就是样本均数较接近总体均数,因而可使犯第一类错误和第二类错误的概率同时减少。
(1-β)称为检验效能或把握度。
当多元回归方程无法用专业知识解释时,怎么办?
答:
在多元回归分析时,特别是当回归结果难以用专业知识解释时,提醒注意共线性诊断,找出存在共线性且不重要的那些自变量,剔除出方程,另行回归分析。
常用方差膨胀因子、容许值和特征根系统三个共线性诊断指标来确定多元共线程度。
T检验的应用条件:
当样本例数n较小时(如n<50),要求样本来自正态分布总体,作两样本均数比较时还要求两样本的总体方差相等。
U检验:
样本含量n足够大(n>50),或n虽小但总体标准差σ已知时的样本均数与总体均数的比较、成组设计两样本均数的比较。
正态性检验的意义:
判断资料是否服从正态分布,或样本是否来自正态分布总体,需进行正态性检验(testofnormality)。
正态分布有两个特征:
对称性(symmetry)和正态峰(mesokurtosis)。
正态性检验的方法:
一类是对偏度和峰度来评定,常矩法(methodofmoment),效率较高;另一类是用一个指标来综合评定,以W检验法效率较高。
g1为偏度系数(coefficientofskewness),g2为峰度系数(coefficientofkurtosis)。
两样本方差的齐性检验:
用F检验。
判别分析:
是根据一批已知类别的样品多指标观察数据,制定出一个分类标准,以指导对未知类别煌新个体归类的多元统计分析方法。
协方差分析:
是把直线回归分析与方差分析结合焉的一种统计分析方法,用来消除混杂因素对处理效应的影响,提高分析结果的真实性,属多元统计方法范畴。
思想:
将因变量Y的残差分为两部分,即为修正均数间的变异和组内残差。
应用条件:
A.各样本来自正态分布总体,且总体方差相等;B.各处理组的总体直线回归系数相等,且都不为0。
Fisher准则:
从方差分析的观点,要求投影点的类间方差与类内方差之比最大。
多元回归方程的假设检验方法:
最优子集回归法、向后剔除法、向前引用法、逐步回归法。
实验设计应严格遵守对照、随机、重复、均衡原则。
t检验:
单样本(u检验)
1)建立假设,确定检验水准。
H0:
μ=μ0H1:
μ≠μ0
α=0.05
2)计算统计量。
已知,(总体均数)μ0=,n=,=,s=
3)确定P值,做出推断结论。
按v=n-1,查t界值表,得