卫生统计学期末复习资料重要资料Word文档下载推荐.docx
《卫生统计学期末复习资料重要资料Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《卫生统计学期末复习资料重要资料Word文档下载推荐.docx(25页珍藏版)》请在冰点文库上搜索。
将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinaldata),等级资料又称有序变量。
等级资料与计数资料不同:
属性分组有程度差别,各组按大小顺序排列。
等级资料与计量资料不同:
每个观察单位未确切定量,故亦称为半计量资料。
2、统计工作的步骤及搜集资料的来源和要求。
1.设计:
设计内容包括资料收集、整理和分析全过程总的设想和安排。
设计是整个研究中最关键的一环,是今后工作应遵循的依据。
2.收集资料:
应采取措施使能取得准确可靠的原始数据。
3.整理资料:
简化数据,使其系统化、条理化,便于进一步分析计算。
4.分析资料:
计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律。
分析资料包括统计描述和统计推断。
3、抽样研究的原因及目的,产生抽样误差的原因。
三>
一般复习的名词:
同质:
一些个体处于同一总体么就是指他们大同小异,具有同质性。
参数:
:
参数(paramater)是指总体的统计指标,如总体均数、总体率等。
总体参数是固定的常数。
多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。
统计量:
统计量(statistic)是指样本的统计指标,如样本均数、样本率等。
样本统计量可用来估计总体参数。
总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。
随机化抽样:
随机抽样(randomsampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。
随机抽样是样本具有代表性的保证。
样本含量:
四>
一般复习的问题:
1、卫生统计学的内容及学习卫生统计学的意义。
2、统计工作各个步骤的基本内容和关系。
集中趋势与离散趋势
频数分布表:
当变量值个数较多时,对各变量值出现的频率列表即为频率分布表(frequencydistributiontable)。
中位数(median,M):
将原始观察值从小到大或者从大到小排序后,位次居中的那个数。
1、对频数分布特征的描述。
频数分布分为集中趋势(centraltendency)和离散趋势(tendencyofdispersion)。
常用描述定量变量集中趋势的统计指标包括算数均数、几何均数、中位数。
算数均数适用于对称分布,特别是正态分布的资料;
几何均数适用于可经对数转换为对称分布的资料;
中位数适用于各种分布资料,常用于描述偏峰分布的资料。
常用的描述定量变量离散趋势的统计指标包括极差、四分位数间距、方差、标准差和变异系数。
极差只利用最大值和最小值的信息,易受样本含量的影响,很不稳定;
四分位数间距适用于各种分布资料;
方差和标准差适用于对称分布,特别是正态分布的资料;
变异系数常用于量纲不同时,或均数相差较大时变量间变异程度的比较。
实际应用中,常将算数均数和标准差结合对正态分布资料进行统计描述;
常将中位数和四分位数间距结合对偏峰分布资料进行统计描述。
2、平均指标:
算术均数、几何均数、中位数的意义及应用条件,算术均数的计算。
3、变异指标:
全距、标准差、变异系数的意义及应用条件,标准差和变异系数的计算。
4、正态分布的两个参数及正态曲线下面积的分布规律。
正态分布的特征:
服从正态分布的变量的频数分布由μ、σ完全决定。
(1)μ是正态分布的位置参数,描述正态分布的集中趋势位置。
正态分布以x=μ为对称轴,左右完全对称。
正态分布的均数、中位数、众数相同,均等于μ。
(2)σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。
σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
正态曲线下面积的分布规律:
如果用其标准差作为衡量单位,则以均数为中心,正负1个标准差内,即(μ-σ,μ+σ)区间内,正态分布曲线下的面积为总面积的68.27%;
正负2个标准差内,即(μ-2σ,μ+2σ)区间内,面积为95.44%;
正负3个标准差,即(μ-3σ,μ+3σ)区间内,面积为99.74%。
这是由正态分布的性质所决定的。
1、除<
4外,正态分布的其余特点。
2、u变换的形式和作用。
3、查阅标准正态曲线下面积表的方法。
均数的抽样误差及标准误
均数的抽样误差:
抽样造成的这种样本均数与样本均数之间、样本均数与总体均数之间的差异。
标准误:
用于表示均数抽样误差大小的指标,也叫样本均数的标准差,它反映了样本均数之间的离散程度。
总体均数的可信区间:
用统计量X和Sx确定一个有概率意义的区间,以该区间具有较大的可信度包含总体均数。
1、标准误的意义、计算及应用。
⏹标准误的计算公式:
⏹
在实际应用中可通过增加样本含量n来减小样本均数的标准误,从而降低抽样误差。
对于任意分布,在样本含量足够大时,其样本均数的分布近似于正态分布,且样本均数的均数等于原分布的均数,均数的标准误由公式
⏹计算。
2、标准差与标准误的区别与联系。
样本均数标准误的大小与标准差成正比,与样本含量n的平方根成反比,即在同一总体中随机抽样,样本含量n越大,抽样误差越小。
3、总体均数可信区间的意义和计算。
根据总体标准差是否已知及样本含量n的大小,总体均数置信区间的计算有t分布和Z分布(标准正态分布)两种方法。
1.t分布方法
当总体标准差未知时,正态总体N(,2)的样本均数的t变换结果服从t分布,若“砍去”t分布双侧尾部面积=0.05=5%,故有95%的t值满足不等式:
t0.05/2,<
<
t0.05/2,
t0.05/2,<
<
+t0.05/2,
:
(t0.05/2,,+t0.05/2,)
总体均数的(1-)可信区间置信区间的一般计算式为
t/2,
均数的单侧置信区间为
>
t/2,
或<
+t/2,
2正态分布近似方法
(1)当总体标准差已知时,总体均数的双侧置信区间为Z/2
(2)当未知但n足够大时(n50),t分布的极限分布是标准正态分布,可用z/2代替公式(5-9)中的t/2,,则总体均数的双侧置信区间为
Z/2
同理,与(5-8)和(5-9)式相对应,单侧置信区间则为
z或z
+z或+z
4、总体均数可信区间与正常值范围的区别。
参考值范围
总体均数的置信区间
意义
绝大多数人某项指标的数值范围
指一定的置信度估计总体均数所在的范围
计算
正态分布
双侧Z/2
单侧,(-Z/2S,∞)
或(-∞,+Z/2S)
偏峰分布
双侧,Px~P100-x
单侧,(PX,∞)或(-∞,P100-X)
未知:
双侧,t/2,v
单侧,(-t/2,v,∞)
或(-∞,+t/2,v)
已知:
双侧,Z/2
单侧,(-Z,∞)
或(-∞,+Z)
正态分布或偏峰分布
未知但n足够大:
单侧(-Z,∞)或(-∞,+Z/)
应用
判断某项指标正常与否
估计总体均数所在的范围
1、抽样误差的规律。
2、提高对总体均数可信区间估计精度的办法。
均数的假设检验
检验假设H0:
零假设(nullhypothesis),又称原假设。
检验水准α:
根据问题的背景,规定一个“小”的概率α,若P值小于α,就认为“P值较小”,若P值不小于α,就认为“P值较大”。
通常取α=0.05或0.01以保证犯假阳性错误的概率不超过0.05或0.01。
这个α称为检验水准。
假设检验中的P值:
在零假设成立的条件下,出现统计量目前值及更不利于零假设数值的概率。
可比性:
第Ⅰ类错误和第Ⅱ类错误:
假阳性错误称为第I类错误(typeIerror),指拒绝了实际上成立的H0,这类“弃真”的错误称为I型错误,其概率大小用a表示;
假阴性错误称为第II类错误(typeIIerror),指接受了实际上不成立的H0,这类“存伪”的误称为II型错误,其概率大小用b表示。
1、t值;
t分布与标准正态分布的关系。
2、假设检验的基本思想和步骤。
基本思想:
把握“小概率事件在一次抽样试验中是几乎不可能发生”的原理。
步骤:
①建立假设、选用单侧或双侧检验、确定检验水准;
②选用适当检验方法,计算统计量;
③确定P值并作出推断结论。
3、样本均数与总体均数比较的t检验。
4、两大样本均数比较的u检验。
5、配对设计三种形式的特点及t检验的H。
、H1。
配对设计三种形式的特点:
1)异体配对:
两个受试对象。
2)自身配对:
同一受试对象的两个部位分别接受两种处理。
3)统一受试对象接受某种处理之前和之后的数据,也可以视为自身配对。
6、假设检验时需注意的问题。
(重点是可比性和犯第Ⅰ类及第Ⅱ类错误的含义与概率)
I类错误:
H0为真(实际无差别),假设检验结果拒绝H0,接受H1(推论有差别)所犯的错误称为I类错误(typeIerror),I类错误的概率记作a。
II类错误:
H1为真(实际有差别),假设检验结果拒绝H1,接受H0(推论无差别)所犯的错误称为II类错误(typeIIerror),II类错误的概率记作β。
1-β称为检验效能,过去称把握度(poweroftest),即两总体确有差别,按a水准能发现该差别的能力。
自由度、假设检验。
1、配对设计的t检验。
2、两小样本均数比较的t检验。
3、t检验的应用条件。
方差分析
1、方差分析的基本思想。
2、完全随机设计的特点和方差分析法。
3、配伍组设计的特点和方差分析法。
4、多个样本均数的两两比较。
相对数
构成比:
(proportion)说明某一事物内部各组成部分所占的比重或分布。
率:
(rate)说明一定时期内某现象发生的频率或强度。
相对比:
,是A、B两个有关指标之比,说明A是B的若干倍或百分之几。
比=A/B
动态数列:
(dynamicseries)是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。
1、构成比、率、相对比、定基比、环比的计算。
定基比,即统一用某个时间的指标作基数,其它各时间的指标都与之相比;
环比,即以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。
2、下述指标的意义及计算:
死因构成,发病率,患病率,死亡率,病死率。
死因构成(proportionofdyingofaspecificcause)指全部死亡人数中,死于某死因者所占的百分比,说明各种死因的相对重要性。
死因构成比=同年某死因死亡数/同年内死亡总数*100%(频率型)
发病率(incidencerate,IR)表示在一定时期内,在可能发生某病的一定人群中新发生某病的强度。
某病发病率=时期内新发生的某病病例数/年平均人口数*1年(强度型)
患病率(prevalencerate,PR)指某时点上受检人数中现患某种疾病的频率,通常用于描述病程较长或发病时间不易明确的疾病的患病情况。
患病率=现患病人数/检查人口数
(频率型)
死亡率(mortalityrate)指某地某年平均每千人口中的死亡数,反映当地居民总的死亡水平。
死亡率=同年内死亡人数/年平均人口数*1年(强度型)
病死率(casefatalityrate,CFR)指在某一期间内(1年)患某病者因该病死亡的百分比,可说明一种疾病的严重程度,也可反映一个医疗单位医疗水平和质量。
某病病死率=同年某病死亡人数/同年患该病总数*100%(频率型)
3、动态数列的分析。
动态数列(dynamicseries)是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。
4、应用相对数时需注意的问题。
(重点是不能以比代率)
1.计算相对数的分母一般不宜过小。
2.分析时不能以构成比代替率容易产生的错误有
(1)指标的选择错误如住院病人只能计算某病的病死率,不能认为是某病的死亡率;
(2)若用构成指标下频率指标的结论将导致错误结论,如某部队医院收治胃炎的门
2.诊人数中军人的构成比最高,但不一定军人的胃炎发病率最高。
3.不能用构成比的动态分析代替率的动态分析。
4.对观察单位数不等的几个率,不能直接相加求其总率。
5.在比较相对数时应注意可比性通常应注意:
(1)观察对象,研究方法、观察时间、地区和民族等因素应相同或相近;
(2)其它影响因素在各组的内部构成是否相同。
6.对样本率(或样本构成比)的比较应随机抽样,并做假设检验。
时期动态数列、时点动态数列、标准化法。
1、动态数列的分类。
2、标准化法的意义及基本思想。
3、标准化率的直接法和间接法计算。
4、应用标准化法的注意事项。
二项分布及其应用
1、率的抽样误差概念。
在抽样研究中所获得的样本率与总体率也存在率的抽样误差。
2、率的标准误的意义及计算。
表示率抽样误差大小的统计指标成为率的标准误。
由于总体率和总体率的标准误一般未知,常用样本率p来估计总体率π,用杨频率的标准误Sp来估计总体率的标准误:
率的标准误是衡量样本率稳定性和可靠性的统计指标,它反应率的抽样误差大小,率的标准误越小,表示率的抽样误差越小,用以估计总体率的可靠性就越大。
3、总体率可信区间的意义及计算。
当n足够大,且p和1-p均不太小,p的抽样分布逼近正态分布。
总体率的可信区间可根据样本含量n和样本频率p的大小,选用查表法或正态近似法来估计其总体概率π的(1-α)置信区间。
P93例子
二项分布:
1、二项分布的概率函数与图形。
2、二项分布的特点。
3、样本率与总体率比较的u检验。
4、两个样本率比较的u检验。
Poisson分布及其应用
Poisson分布:
1、Poisson分布的概率函数及图形。
2、Poisson分布的特点。
3、总体均数可信区间的意义及计算。
4、样本均数与总体均数比较的u检验。
5、两样本均数比较的u检验。
χ2检验
理论频数:
theoreticalfrequency,在假设多个率或构成比相等的前提下,由合计率(构成比)推算出来的频数。
1、χ2检验的基本思想。
2、四格表资料χ2检验和校正χ2检验的应用条件及方法。
3、计数资料相关分析的设计特点和推断目的。
4、行×
列表资料χ2检验的注意事项。
χ2检验的应用条件及注意事项
1.分析四格表资料时,应注意连续性校正的问题,当1<
T<
5,n>
40时,用连续性校正χ2检验;
=1,或n<
=40时,用Fisher精确概率法。
2.对于R*C表资料应注意以下两点:
(1)理论频数不宜太小,一般要求:
理论频数<
5的格子数不应超过全部格子的1/5;
(2)注意考察是否有有序变量存在。
对于单向有序R*C表资料,当指标分组变量是有序的时,宜用秩和检验;
对于双向有序且属性不同的R*C表资料,若希望弄清两有序变量之间是否存在线性相关关系或存在线性变化趋势,应选用定性资料的相关分析或线性趋势检验;
对于双向有序且属性相同的R*C表资料,为考察两种方法检测的一致性,应选用Kappa检验。
行×
列表资料所包括的设计类型及χ2检验法。
秩和检验
等级资料的秩和检验(成组设计两样本比较的秩和检验(Wilcoxon两样本比较法)
1.检验步骤:
(1)假设:
H0:
两总体分布相同H1:
两总体分布不同a=0.05
(2)编秩:
将两组原始数据分别由小到大排队,再将原始数据从小到大统一编秩。
编秩时遇同组相同数据,顺次编秩,遇不同组相同数据取平均秩次。
(3)求秩和并确定检验统计量:
当两样本例数不等时,以样本例数小者为n1,其秩和为T。
相等时,可任取一组的秩和为T。
(4)确定P值和作出推断结论:
查T界值表,得出P值。
若检验统计量T值在上、下界值范围内,其P值大于表上方相应概率水平;
若T值在上、下界值上若范围外,其P值小于
表上方相应概率水平。
非参数统计:
样本所来自的总体分布难以用某种函数式来表达,还有一些资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具体形式的统计方法。
由于这类方法不受总体参数的限制,故称非参数统计法(non-parametricstatistics),或称为不拘分布(distribution-freestatistics)的统计分析方法,又称为无分布型式假定(assumptionfreestatistics)的统计分析方法。
它检验的是分布,而不是参数。
非参数统计不需对总体分布(总体参数)作出特殊假设。
1、配对比较的符号秩和检验。
2、配伍组设计的多个样本比较的秩和检验。
3、两个或多个计量样本比较的秩和检验。
4、参数统计和非参数统计的优缺点。
直线相关与回归
相关系数:
相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样本相关系数,ρ表示总体相关系数。
它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。
回归系数:
回归系数(regressioncoefficient)即直线的斜率(slope),在直线回归方程中用b表示,b的统计意义为X每增(减)一个单位时,Y平均改变b个单位。
1、使用电子计算器计算相关系数r、回归系数b、截距α。
2、散点图的作用和绘制方法。
(1)散点图可考察两变量是否有直线趋势;
(2)可发现异常点(outlier)
3、描述直线关系的密切程度和方向时,r值的变化。
相关系数r没有单位,其值为-1≤r≤1。
其绝对值愈接近1,两个变量间的直线相关愈密切;
愈接近0,相关愈不密切。
r值为正表示正相关,说明一变量随另一变量增减而增减,方向相同;
r值为负表示负相关,说明一变量增加、另一变量减少,即方向相反;
r的绝对值等于1为完全相关。
直线回归方程的一般形式及最小二乘法原理的内容。
回归参数的估计——最小二乘原则
原则:
最小二乘法(leastsumofsquares),即可保证各实测点至直线的纵向距离的平方和最小
4、应用直线相关与回归分析的注意事项。
1.根据分析目的选择变量及统计方法
直线回归用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。
两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分析。
2.进行回归分析前应绘制散点图
3.资料的要求
直线回归要求至少对于每个X相应的Y要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量;
*对于双变量正态分布资料,根据研究目的可选择由X估计Y或者由Y估计X,一般情况下两个回归方程不相同)。
4.结果解释及正确应用
反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P值。
P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。
另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。
当实际资料不能满足直线回归模型的要求而无法用最小二乘法估计回归方程时,可使用秩回归
一般复习的名词:
剩余标准差Sy.x
1、直线相关系数的假设检验。
2、等级相关的应用条件。
3、直线相关和回归分析的联系和区别。
正常值范围的估计
正常人:
第X百分位数:
1、研究设计的六个方面的内容。
2、正态性检验的推断目的和正态概率纸的特点。
3、正态分布法的应用条件和估计单侧(上、下限),双侧95%正常值范围界限值的计算。
4、百分位数法的应用条件及单、双侧界限,不同百分范围时应确定的百分位数。
正常值范围、假阳性错误、假阴性错误、概率单位。
1、医学正常值范围的