完整word版医学统计学研名解+问答by813工作室.docx
《完整word版医学统计学研名解+问答by813工作室.docx》由会员分享,可在线阅读,更多相关《完整word版医学统计学研名解+问答by813工作室.docx(23页珍藏版)》请在冰点文库上搜索。
完整word版医学统计学研名解+问答by813工作室
医学统计学
1、MedicalStatistics(医学统计学):
是以医学理论为指导,借助统计学的原理和方法研究医学现象中的
数据搜集、整理、分析和推断的一门综合性学科。
2、Variable(变量):
是指观察个体的某个指标或特征,统计上习惯用大写拉丁字母表示。
3、Numerical/Quantitative/Measurementdate/variable
数值变量/定量变量/计量资料/定量资料:
是以定量的方式来表示观察单位某项观察指标的大小,所得
的资料称之为~,有度量单位。
4、Unorderedcategorical/Qualitative/Enumerationdate/variable
无序分类变量/定性变量/计数资料/定性资料:
是以定性的方式来表示观察单位某项观察指标,所得的资
料称之为~,无固有度量单位。
5、Ordinalcategorical/Semi-quantitative/Rankeddate/variable
有序分类变量/半定量资料/等级资料:
是以等级的方式来表示观察单位某项观察指标,所得的资料称之
为~,为半定量的观察结果,有大小顺序。
6、Homogeneity(同质):
是指事物的性质、影响条件或背景相同或相近。
7、Variation(变异):
是指同质的个体之间的差异。
8、Population(总体):
是根据研究目的所确定的同质观察单位的全体或集合,分为有限总体和无限总体。
9、Sample(样本):
是从总体中随机抽取的一部分观察单位所组成的集合。
10、Randomvariable(随机变量):
是指取值不能事先确定的观察结果。
11、Parameter(参数):
是总体特征的统计指标,采用小写的希腊字母,为固定的常数。
12、Statistic(统计量):
是样本特征的统计指标,采用拉丁字母表示,由样本信息推算而得,是参数附近
波动的随机变量。
13、RandomSampling(随机抽样):
为了保证样本的可靠性和代表性,需要采用随机的抽样方法,使总体
中每个个体均有相同的机会被抽到。
14、Samplingerror(抽样误差):
是由于个体差异导致在抽样研究中产生的样本统计量与相应的总体参数
之间的差异以及统计量间的差异。
15、Certainevent(确定性现象):
在一定条件下,一定会发生或一定不会发生的现象。
16、Randomevent(随机现象):
在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不
能确定。
其表现结果称为随机事件。
17、Frequency(频率):
样本的实际发生率称为~,0≦f≦1。
18、Probability(概率):
随机事件发生的可能性大小,0≦P≦1。
19、Smallprobabilityevent(小概率事件):
概率小于等于0.05或0.01的事件称为小概率事件,习惯上以
0.05为标准,统计学上认为小概率事件在一次实验中是不大可能发生的。
20、Average(平均数):
是反映一组数值变量的集中趋势、中心位置或平均水平的指标体系,常用的指标
有均数、几何均数、中位数。
21、Mean(均数):
算术均数简称~,=可用于反映一组呈对称分布的变量值在数量上的平均水平,
适用于正态或近似正态分布,尤其是单峰对称分布的计量资料,且不应有离群值。
22、Geometricmean(几何均数):
G=可用于反映一组经对数变换后呈对称分布的变量值在数量上
的平均水平,适用于呈倍数关系的等比资料或呈对数正态分布的资料。
23、Median(中位数):
将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数,适用于各种
分布类型的资料,尤其是偏态分布资料、一端或两端无确切数值的资料或分布不清的资料。
24、Percentile(百分位数):
是指一种位置指标,用Px表示,一个百分位数将按大小顺序排列的变量值分
为100份,理论上有x%的变量值比它小,有(100-x)%的变量值比它大,它对应x%位次的数值。
25、Quartilerange(四分位数间距):
是由第3四分位数P75与第1四分位数P25相减而得,它一般和中位
数一起描述偏态分布资料的分布特征。
26、Standarddeviation(标准差):
方差是指样本观察值的离均差平方和的均值,方差的正平方根为标准
差,表示一组数据的平均偏离程度。
27、Coefficientofvariation(变异系数):
是指标准差与均数之比,常用百分数表示,没有单位,主要用
于观察指标单位不同或均数相差较大的几组资料间的比较。
28、Normaldistribution(正态分布):
靠近均数分布的频数最多,两边频数逐渐减少并且近似对称,这种
两头低中间高、略呈钟形、左右近似对称的连续性分布称为~。
29、ReferenceValue(参考值范围):
是绝大多数正常人的某指标范围。
所谓正常人,是指排除了影响所
研究指标的疾病和有关因素的人;所谓绝大多数,是指范围,习惯上指正常人的95%。
30、Standarderror(标准误):
是指样本统计量的标准差,反映来自同一总体的样本统计量的离散程度以
及样本统计量与总体参数的差异程度,即抽样误差的大小。
31、Standarderrorofmean(均数标准误):
是指样本均数的标准差,反映来自同一总体的样本均数的离
散程度以及样本均数与总体均数的差异程度,即抽样误差的大小。
均数标准误大小与
标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数。
32、Intervalestimation(区间估计):
按预先给定的概率(1-)所确定的包含未知总体参数的一个范围。
33、confidencebound/interval(可信区间):
从已知总体中,进行固定样本含量的重复随机抽样试验,根
据每个样本可推算得一个可信区间,则平均有1-的可信区间
包含了总体参数,而不是总体参数落在该区间的可能性为1-。
34、P-value(P值):
是指在无效假设H0成立的前提下,获得现有检验统计量值以及比该统计量值更极端
情况下的概率。
35、TypeⅠerror(一型错误ɑ):
拒绝了实际上成立的无效假设H0,也就是犯了假阳性错误,称为~。
其
发生的概率用表示。
在假设检验中作为检验水准。
一般取0.05或0.01。
36、TypeⅡerror(二型错误β):
接受了实际上不成立的无效假设H0,也就是犯了假阴性错误,称~。
其
发生的概率用表示。
由于其取值取决于H1,因此在假设检验中无法确定其大小。
37、Poweroftest(检验效能/把握度):
统计学上将1-β称为~,即当两总体确有差别,按规定的检验水准
a所能发现该差异的能力。
38、Rate(率):
是指某时期内发生某现象的观察单位数与同期可能发生某现象的观察单位总数之比,用
以说明某种现象发生的频率大小或强度。
39、Proportion(构成比):
是指事物内部某一组成部分的观察单位数与该事物各组成部分的观察单位总数
之比,用以说明某一事物内部各组成部分在总体中所占的比重或分布。
40、Relativeradio(相对比):
是指A、B两个有联系的指标之比,用于说明A为B的若干倍或百分之几,
A、B两个指标的性质可以相同也可以不同。
41、Standardizedrate(率的标准化/标化率):
即采用某影响因素的统一标准构成以消除构成不同对合计
率的影响,调整后的率为标准化率/标化率/调整率,它具有可比性。
42、Parametrictest(参数检验):
假设样本所来自的总体分布具有某个已知的函数形式,而其中有的参数
是未知的,统计分析的目的就是对这些未知参数进行估计或检验。
这类
方法称为参数统计,所用的检验称为~。
43、Nonparametrictest(非参数检验):
不依赖总体分布的具体形式,也不对参数进行估计或检验的统计
方法称为非参数统计,所用的检验方法称为~。
其目的是检验所比较的分布或分布位置是否相同。
44、Statisticaltable(统计表):
以表格的形式列出统计分析的事物及其指标,它可避免长篇文字叙述,并
具体列出数据。
45、Statisticalchart(统计图):
用点的位置、线段的升降、直条的长短或面积的大小等形式表达统计资
料,它可直观醒目地反映出事物间的数量关系。
46、Simpleeffect(单独效应):
指析因设计中其他因素的水平固定时,同一因素不同水平间的差别。
47、Maineffect(主效应):
指析因设计时不考虑其他因素的作用而单独考察某一因素各水平间的平均差别。
48、Interaction(交互作用):
指析因设计中当某因素的各个单独效应对另一因素变化而变化,则呈这两
个因素间存在~,包括协同作用与拮抗作用。
49、Analysisofregression(回归分析):
将变量间数量上的依存关系用函数形式表示出来,用一个或多个
变量来推测另一个变量的估计值及波动范围的分析方法。
50、Residualsumofsquare(残差平方和):
SS残=,它反映除了X对Y的线性影响之外的一切因
素对Y的变异的作用,也就是在总平方和中无法用X解释的部
分,表示考虑回归之后Y真正的随机误差。
51、Sumofsquareforpartialregression(偏回归平方和):
表示多元线性相关模型中含有其他m-1个自变量
的条件下该自变量对Y的回归贡献,相当于从回归方程中剔除Xj后所引起的回归平方和的减少量,它间接反映了自变量Xj对应变量Y的回归贡献大小。
52、Residual(残差):
在多元线性回归中用e表示,是去除m个自变量对Y影响后的随机误差。
53、Coefficientofregression(回归系数):
即直线的斜率,在直线回归方程中用b表示,b的统计意义为X每增减一个单位时,Y平均改变b个单位。
54、Partialregressioncoefficient(偏回归系数):
在多元线性回归中用bj表示,bj的统计意义是在其他自
变量保持不变时,Xj每增减一个单位时,Y平均改变bj个单位。
55、Standardizedpartialregressioncoefficient(标准偏回归系数):
将原始数据减去相应变量的均数后再除以
该变量的标准差后计算所得的多元回归方程即为标准化多元回归方程,相应的回归
系数即为~,它没有单位,可以用来比较各个自变量Xj对Y的影响程度,通常在有
统计学意义的前提下,b’j的绝对值越大,说明相应自变量对Y的作用越大。
56、Constantterm(常数项):
在Logistic回归中用β0表示,表示不接触任何潜在危险或保护因素的条件下,
效应指标发生或不发生事件的概率之比的自然对数。
57、Coefficientofregression(回归系数):
在Logistic回归中用Bj表示,表示某一因素改变一个单位时,
效应指标发生与不发生事件的概率之比的自然对数,即ORj的对数值。
58、Adjustedoddsradio(多变量调整后的优势比):
在Logistic回归中用ORj表示,表示某一因素改变一
个单位时,效应指标发生与不发生事件的概率之比。
当Xj赋值
为暴露及非暴露时,ORj表示暴露组与非暴露组的优势比。
59、Analysisofcorrelation(相关分析):
研究变量间相互关系的密切程度、变化趋势,并用适当的统计指
标显示出来的分析方法。
60、Coefficientofproduct-momentcorrelation(Pearson积差相关系数r):
是用来说明两变量正态分布的
数据之间存在直线相关关系以及相关的密切程度与相关方向的统计指标。
61、Coefficientofdetermination(决定系数):
相关系数的平方称为~,其数值大小反映了回归贡献的相
对程度,表示Y的总变异中可由X(X1,X2,…,Xm)解释的部分占总变异的比
例,其取值在0到1之间且无单位,r绝对值约接近1,说明相关的实际效果越好。
62、Adjustedcoefficientofdetermination(校正决定系数):
扣除多元线性回归方程多包含的自变量个数影
响后的决定系数,可用于比较两个具有不同个数自变量的回归方程。
63、Multiplecorrelationcoefficient(复相关系数):
决定系数的正平方根称为~,可用来度量应变量Y与多
个自变量间的线性相关程度以及观察值Y与估计值之间的相关程度。
64、Partialcoefficientofcorrelation(偏相关系数):
表示在一组变量中,任意两个变量在其他变量固定不变
时,它们之间相关的密切程度和方向。
65、Rankcorrelation(等级相关/秩相关):
是用双变量等级数据作直线相关分析的方法,它对原变量分布
不作要求,属于非参数统计,它适用于不服从双变量正态分布而不宜作积
差相关分析、总体分布类型未知、及原始资料是用等级表示的资料。
66、Coefficientofrankcorrelation(等级相关系数rs):
是用来说明双变量等级数据之间存在直线相关关
系以及相关的密切程度与相关方向的统计指标。
67、DummyVariable(哑变量):
是将g个多分类指标拆分为g-1个取值为0、1或-1的哑变量。
引入哑变
量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实。
如果某个因素有n种选择,则将其用哑变量引入模型时,要设置n-1个哑变量,以避免完全的多重共线性。
68、Multicollinearity(多重共线性):
多元线性回归中一些自变量之间存在较强的线性关系而使模型估计失
真或难以估计精确。
69、Survivalanalysis(生存分析):
是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统
计分析方法,不仅考虑事件是否发生,而且也考虑事件出现的时间长短。
70、Survivaltime(生存时间):
随访研究对象从起始事件到终点事件之间所经历的时间跨度,常记为随机
变量T,T≥0,其取值记为t。
71、Completedata(完全数据):
在随访研究中,若能准确知道随访研究对象的起始事件与终点事件,就
能获得确切的生存时间,这类数据称为~,用符号t表示。
72、Censoreddata(截尾数据):
在随访研究中,由于某些原因部分随访研究对象未能观察到终点事件,
以致不能获得确切的生存时间,这类数据称为~,用符号t+表示。
73、Survivalrate(生存率):
指观察对象生存时间T大于等于某个时间t的概率。
74、Mediansurvivaltime(中位生存时间):
刚好50%个体死亡且有50%个体存活的时间,即生存率为50%时在生存曲线中所对应的生存时间。
75、Riskradio(相对危险度)/Hazardradio(风险比):
RR(t)=h(t,X)/h0(t),表示在时间t、协变量向量X下,个体风险率相对于基线水平的风险之比,流行病学称之为~,它不随时间t的变化而变化。
1、正态分布的特点及其应用
性质:
①以均数为中心,两头低中间高,左右完全对称的钟型曲线;
②只有一个高峰,在X=μ,总体中位数亦为μ;
③μ为位置参数,当σ恒定时,μ越大,曲线沿横轴越向右移动;
σ为形态参数,当μ恒定时,σ越大,表示数据越分散,曲线越矮胖,反之,曲线越瘦高;
④对于任何服从正态分布N(μ,σ2)的随机变量X作的线性变换,都会变换成u
服从于均数为0,方差为1的正态分布,即标准正态分布;
⑤正态分布在μ±1σ处各有一个拐点;
⑥正态曲线下的面积分布有一定的规律:
X轴与正态曲线所夹面积恒为1;
区间μ±σ的面积为68.27%,区间μ±1.96σ的面积为95.00%,区间μ±2.58σ的面积为99.00%。
应用:
①概括估计变量值的频数分布;
②制定参考值范围;
③质量控制;
④是许多统计方法的理论基础。
2、确定参考值范围的一般原则和步骤、方法
一般原则和步骤:
①抽取足够例数的正常人样本作为观察对象;
②对选定的正常人进行准确而统一的测定,以控制系统误差;
③判断是否需要分组测定;
④决定取单侧范围值还是双侧范围值;
⑤选定适当的百分范围;
⑥选用适当的计算方法来确定或估计界值。
方法:
①正态分布法:
②百分位数法(偏态分布):
3、标准差与标准误的区别与联系
区别:
含义:
标准差反映观察值在个体中的变异大小,标准差越大,变量值越分散。
标准误是指样本统计量的标准差,反映来自同一总体的样本统计量的离散程度以及样本统计
量与总体参数的差异程度,即抽样误差的大小。
计算方法:
标准差:
总体标准差:
样本标准差:
标准误:
均数的标准误:
率的标准误:
用途:
标准差①用于对称分布,特别是正态分布资料,表示观察值分布的离散程度
②结合均数,描述正态分布的特征、估计参考值范围
③结合样本统计量,计算均数标准误
④计算变异系数
⑤反映均数的代表性
标准误①衡量样本均数的可靠性
②估计总体均数的可信区间
③用于均数的假设检验
与n的关系:
随着n增加,样本标准差稳定于总体标准差;随着n增加,样本标准误减少并趋于0。
联系:
二者均为变异度指标,样本均数的标准差即为标准误,标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数。
4、总体均数的可信区间与参考值范围的区别
概念:
可信区间是按预先给定的概率来确定的未知参数μ的可能范围。
参考值范围是绝大多数正常人的某指标范围。
所谓正常人,是指排除了影响所研究指标的疾病和有关因素的人;所谓绝大多数,是指范围,习惯上指正常人的95%。
计算公式:
可信区间①参考值范围①正态分布:
②②偏态分布:
③
用途:
可信区间用于总体均数的区间估计;
参考值范围用于表示绝大多数观察对象某项指标的分布范围。
5、假设检验的步骤
①建立假设与确定检验水准(α)(反证法思想)
H0:
μ1=μ2无效假设
H1:
μ1≠μ2备择假设
检验水准:
α=0.05(双侧或单侧)
②选定方法和计算检验统计量:
根据资料的性质(变量类型、设计类型、资料组数、样本含量等)和分析目的选择检验统计量。
所有检验统计量均在无效假设成立的前提下,可以证明其分布。
③确定P值,作出判断(利用小概率原理)
P值是指在H0成立的前提下,获得现有检验统计量值以及比该统计量值更极端情况下的概率。
P≤α(0.05),拒绝H0,接受H1,认为差别有统计学意义,可以认为......不同或不等;
P>α(0.05),接受H0,拒绝H1,认为差别无统计学意义,还不能认为......不同或不等。
④结合专业知识下结论。
6、假设检验中P值与α的区别
P值是指在H0成立的前提下,获得现有检验统计量值以及比该统计量值更极端情况下的概率。
α是事先人为确定的,表示拒绝了实际上成立的H0所犯(I型)错误的概率。
7、假设检验时应注意的问题
①要有严密的实验设计,样本具有代表性且可比;
②正确选用假设检验方法;
③正确理解“统计学意义”,
④差别的统计学意义不等于实际意义;
⑤判断结论时不能绝对化;
⑥单侧检验与双侧检验的选择;
⑦样本含量大小对假设检验方法的选择和统计学意义是有影响的,报告结果应注明样本含量、统计量值、P值,单侧检验也应注明;95%CI既能说明差别的大小,也具有检验的作用,建议使用。
8、方差分析的基本思想、基本条件
基本思想:
①首先将总变异分解为组间变异和误差(组内)变异,然后比较两者的均方,即计算F值。
②若F值大于某个临界值,表示处理组间的效应不同;若F值接近甚至小于某个临界值,表示处理组间效应相同(差异仅仅由随机原因所致)。
③对于不同设计的方差分析,其思想都一样,即均将处理间平均变异与误差平均变异比较。
④不同之处在于变异分解的项目因设计不同而异。
基本条件:
①资料无偏性,各样本是相互独立的随机样本(独立性);
②各样本来自正态分布总体(正态性);
③各样本组的总体方差相等(方差齐性)。
9、应用相对数时应注意的事项
①计算相对数时分母不能太小;
②分析时不能以构成比代替率;
③当各分组的观察单位数不等时,总率(平均率)的计算不能直接将各分组的率相加求其平均;
④对比时应注意资料的可比性:
观察对象、研究方法相同、观察时间相等、地区、周围环境、风俗习惯和经济条件一致或相近;
观察对象内部结构相同,若两组资料的年龄、性别等构成不同,可以分别进行同年龄别、同性别的小组率比较或对总率进行标准化后再作比较。
⑤进行假设检验时,要遵循随机抽样原则,以进行差别的显著性检验。
10、行R×C表χ2检验的注意事项
1.Pearson’sχ2检验对理论频数有要求,对R×C表,若T<5的个数超过所有理论频数个数的1/5或有T<1的格子出现,则易犯第一类错误。
此时应:
①增大样本含量
②根据专业知识将相邻的行或列进行合理合并,一般仅对有序分类合并
③改用双向无序资料R×C表资料的精确概率法
④似然比χ2检验
2.多个样本率比较时,若所得结论推断为拒绝H0,接受H1时,只能认为各总体率之间不全相同,但不能说明任两个总体率之间有差别。
要进一步推断哪两两总体率之间有差别时,需进一步做多个样本率的多重比较。
3.多组样本率或构成比比较时,若效应有强弱的等级(单向有序分类资料)时,如+,++,+++,只能采用非参数检验(秩和检验或Ridit分析),χ2检验只能反映其构成比有无差异,不能比较效应的平均水平。
4.行列两种属性皆有序(双向有序分类资料)时
①属性不同,可考虑单向有序行×列表分析,线性趋势检验或等级相关分析。
②属性相同,则是配对四格表的扩展,可作一致性检验(Kappa检验)。
11、非参数统计的应用范围
①偏态分布、未知分布或例数过少(难定分布);
②分布一端或两端无界:
如10以下或10以上;
③不能或未加精确测量的资料:
如等级资料;
④个别数值偏离过大;
⑤各组离散程度相差悬殊,即方差不齐;
⑥不能满足参数检验要求的资料等。
12、非参数统计的优缺点
优点:
①对资料无前提要求,适用范围广,是对有序分类资料最有效的统计方法
②对不满足参数统计的资料,非参数统计的效率高
③资料的搜集和统计分析较为简便
缺点:
①对适用参数统计的资料,应用非参数统计的效率低,即犯第Ⅱ类错误的概率比参数统计大
②对历史较短、较为复杂的参数统计设计无对应的非参数统计方法
③无概括性的数字说明总体
13、直线回归的应用
①描述两变量之间的依存关系:
通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归方程来描述;
②利用回归方程进行预测:
总体均数的的可信区间及个体Y值的预测区间;
③利用回归方程进行统计控制——预测的逆过程;
④与ANOVA结合,进行协方差分析。
14、直线相关与