医学统计学 第三 复习总结.docx

上传人:b****7 文档编号:16469473 上传时间:2023-07-13 格式:DOCX 页数:43 大小:61.30KB
下载 相关 举报
医学统计学 第三 复习总结.docx_第1页
第1页 / 共43页
医学统计学 第三 复习总结.docx_第2页
第2页 / 共43页
医学统计学 第三 复习总结.docx_第3页
第3页 / 共43页
医学统计学 第三 复习总结.docx_第4页
第4页 / 共43页
医学统计学 第三 复习总结.docx_第5页
第5页 / 共43页
医学统计学 第三 复习总结.docx_第6页
第6页 / 共43页
医学统计学 第三 复习总结.docx_第7页
第7页 / 共43页
医学统计学 第三 复习总结.docx_第8页
第8页 / 共43页
医学统计学 第三 复习总结.docx_第9页
第9页 / 共43页
医学统计学 第三 复习总结.docx_第10页
第10页 / 共43页
医学统计学 第三 复习总结.docx_第11页
第11页 / 共43页
医学统计学 第三 复习总结.docx_第12页
第12页 / 共43页
医学统计学 第三 复习总结.docx_第13页
第13页 / 共43页
医学统计学 第三 复习总结.docx_第14页
第14页 / 共43页
医学统计学 第三 复习总结.docx_第15页
第15页 / 共43页
医学统计学 第三 复习总结.docx_第16页
第16页 / 共43页
医学统计学 第三 复习总结.docx_第17页
第17页 / 共43页
医学统计学 第三 复习总结.docx_第18页
第18页 / 共43页
医学统计学 第三 复习总结.docx_第19页
第19页 / 共43页
医学统计学 第三 复习总结.docx_第20页
第20页 / 共43页
亲,该文档总共43页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

医学统计学 第三 复习总结.docx

《医学统计学 第三 复习总结.docx》由会员分享,可在线阅读,更多相关《医学统计学 第三 复习总结.docx(43页珍藏版)》请在冰点文库上搜索。

医学统计学 第三 复习总结.docx

医学统计学第三复习总结

第一章绪论

统计的三大特征:

实用性、丰富性、公平性

总体(population):

是根据研究目的确定的、同质的全部研究对象中所有观察单位某种变量值的集合。

同质基础:

时间、空间、条件等

(1)有限总体(finitepopulation):

有限观察单位

(2)无限总体(infinitepopulation):

很多为无限总体。

样本

根据随机化原则从总体中抽取的一定数量(samplesize)的个体,称为样本(sample),用样本信息来推断总体特征。

从总体中抽取部分个体的过程称为抽样(sampling)。

同质(homogeneity)

是指影响被研究指标的非实验因素相同。

变异(variation,variablility)

同质基础上的各观察单位(亦称为个体)之间的差异为变异。

如同性别、同年龄、同民族、同地区儿童的身高有高有低,称为身高的变异。

参数(parameter)和统计量(statistic)

总体的统计指标称为参数。

如:

总体均数(µ),总体发病率,总体死亡率,等,

样本的统计指标称为统计量

如:

样本均数(x),样本发病率,样本死亡率,等,

统计学上用不同的符号表示。

误差(error)

观察值与实际值的差异,成为误差。

分为:

过失误差;系统误差;随机测量误差;随机抽样误差;

(1)过失误差(mistakenerror):

过失所致的误差(不认真,错误判断,记录等原因);

(2)系统误差(systematicerror):

仪器未校准所致的误差(统一偏高,或偏低);

这两类误差可以避免。

(3)随机测量误差(randommeasurementerror):

不同观察者或同一观察者多次观察值的不相同。

这种误差不可避免。

(4)抽样误差(samplingerror):

总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),表现为多次抽样的样本均数或率不同。

这种由抽样引起的差异称为抽样误差。

抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。

由于生物的个体变异是客观存在的,因而抽样误差是不可避免的,但抽样误差有一定的规律性。

小概率事件定理:

“小概率事件一次抽样不可能发生”

变量及变量值

变量(variable):

观察对象的特征或指标。

对变量进行取值所采用的工具或标准成为测量尺度(scale)。

测量的结果称为变量值(valueofvariable)或观察值(observedvalue,measurements)。

随机化(randomization)

使总体中的每个个体有均等的机会成为样本观察单位的过程,称为随机化。

随机抽样旨在避免人的主观性,让机遇起作用,以反映总体的客观情况。

常用:

抽签法,随机数目表法,计算器随机数法;

单纯随机抽样(simplerandomsampling):

总体全部观察单位编号,再用随机数字法或抽签法;

整群抽样clustersampling:

直接由若干个群组成的总体中随机抽取若干个群,再对被抽取的每个群的全部观察单位加以调查。

系统抽样systematicsampling:

(间隔抽样,机械抽样)

先将总体观察单位按某顺序号分成n个部分,再从第一部分抽第k号观察单位,依次用此相等间隔机械地从每一部分各抽一个观察单位组成样本。

分层抽样stratifiedsampling:

先按某种特征将总体分为若干组别、类型、区域,再从每一层内随机抽样,组成样本。

抽样误差:

分层抽样<系统抽样<单纯随机抽样<整群抽样

第二章统计资料的收集和整理

一、资料的类型

根据是否定量划分:

(1)计量资料(measurementdata)

用定量方法测量每个观察单位的某项指标,所得的数值资料为计量资料,亦称数值变量资料。

一般有度量衡单位。

常用:

平均数,标准差,t检验,方差分析,相关与回归等分析。

(2)计数资料(enumerationdata)

将观察单位按某种属性或类别分组,然后清点各组的观察单位数,为计数资料(亦称分类变量资料,无序分类资料)。

常用:

率、构成比、卡方检验等

(3)等级资料(rankeddata)

将观察单位按某种属性的不同程度分组,所得各组的观察单位数为等级资料,亦称有序分类资料。

常用:

率、构成比、秩和检验等。

三者联系:

等级资料与计数资料不同:

属性的分组有程度差别,各组大小顺序排列;

等级资料与计量资料不同:

每个观察单位未确切定量,称为半定量资料。

介于计量资料与计数资料之间。

计量资料→计数资料→等级资料

调查设计和实验设计

调查设计一般包括专业设计和统计设计。

实验设计(experimentdesign)

医学实验的基本要素包括处理因素、受试对象和实验效应三部分。

实验设计应遵循对照(空白对照,试验对照,安慰剂对照,配对对照,组间对照

)、随机、重复(即样本例数)的原则。

频数分布表(frequencydistributiontable)

用途:

(1)揭示频数的分布特征:

两个重要特征:

集中趋势(centraltendency):

数值高低不等,但中等水平的人数最多。

离散趋势(tendencyofdispersion):

数值之间参差不齐;逐渐变大(或变小)的人数渐少。

向两端分散。

第三章计量资料的统计描述

集中趋势centraltendency

平均数(average):

用于描述数值变量资料的集中趋势(平均水平)。

特点:

简明概括,便于比较。

包括:

算术平均数,几何平均数,中位数,百分位数

1、算术平均数(arithmeticmean)

一组变量值之和除以变量值个数所得的商,简称均数。

总体均数µ,样本均数x表示。

适用条件:

资料成正态分布(或近似正态,或对称分布)。

计算方法:

直接法,加权法

均数的两个重要属性:

(1)各离均差(各观察值与均数之差)的总和等于零。

(2)离均差的平方和小于各个观察值X与任何数a(a不等于均数)之差的平方和。

均数是一组观察值理想的代表值。

均数的应用:

(1)只能在合理分布的基础上,对同质事物求均数才有意义,才能反映事物的特性。

(2)均数最适用于对称分布,尤其是正态分布资料。

此时,均数位于分布的中央,能反映观察值的集中趋势。

2、几何均数geometricmeanG

将n个观察值的乘积再开n次方的方根(或各观察值对数值均值的反对数)。

适用条件:

(1)观察值为非对称分布,差距较大,用算术均数表示其平均水平会受少数特大或特小值影响;

(2)数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。

如:

抗体滴度,药物效价等;

(3)观察值不能有0;

(4)观察值不能同时有正值和负值。

几何均数的应用:

(1)常用于等比级数资料,滴度,效价,卫生事业平均发展速度,人口几何增长,对数正态分布资料;

(2)同一组资料求得的几何均数小于算术均数。

3、中位数(median,M):

位于中间位置上的数值。

把一组观察值,按大小顺序排列,位置居中的变量值(奇数个)或位置居中的两个变量值的均值(偶数个)。

是位置指标,以中位数为界,将观察值分为两半,有一半比它大,一般比它小。

适用于:

(1)资料偏态分布;

(2)两端无确定数值;(3)资料分布不清楚;

如:

潜伏期,毒物测定值等用中位数表示其集中趋势。

5、百分位数(percentile,P):

位于某个百分位置上的数值。

把一组数据从小到大排列,分成100等份,各等份含1%的观察值,处在分割界线上的数值,就是百分位数,Pr表示。

百分位数将总体或样本的全部观察值分为两部分,理论上有r%的观察值比它小,有(100-r)%的观察值比它大。

如含量为n的样本,P5即表示:

理论上有n5%个观察值比P5小,有n95%个观察值比P5大。

一般说,分布中部的百分位数相当稳定,具有较好代表性,靠近两端的百分位数,只在样本含量足够大时,才稳定,故,样本量不够大时,不应取太近两端的百分位数。

常用的百分位数:

5,25,75,95分位数。

百分位数常用于确定医学正常值范围(normalrange)。

中位数是特定的百分位数。

四者的比较:

中位数常用于描述偏态分布资料的集中趋势,它反映居中位置的变量值的大小。

不受特大,特小值的影响,只受位置居中的观察值的影响,因而不够敏感。

而均数,几何均数是由全部观察值综合计算出的,敏感性好。

但理论上,中位数等于算术均数。

百分位数常用于描述一组资料在某百分位置上的水平和分布特征。

多个百分位数结合使用,可更全面地描述总体或样本的分布特征,包括位置大小和变异度。

离散趋势tendencyofdispersion

常用指标:

全距,四分位数间距,方差,标准差,变异系数

1、全距(Range):

极大与极小值之差。

全距大,资料离散程度大,但易受极端值大小的影响。

样本量越大,抽到极端值的可能性越大,全距可能会越大。

故:

全距不宜单独使用。

2、四分位数间距(quartileintervalQ):

将一组资料分为四等份,上四分位数P75和下四分位数P25之差,叫四分位数间距。

意义:

Q越大,离散程度越大,通常用于描述偏态分布资料的离散程度。

优点:

比全距稳定;若资料一端或两端无确切数值,只能选择Q作为离散指标。

缺点:

未考虑全部观察值,不能全面反映资料离散趋势。

3、方差(variance)和标准差(standarddeviationSD)

对总体而言,为了克服极差和四分位数间距的缺点,要描述资料的离散趋势,必须考虑到各个观察值,离均差的平方和是最好的指标,

意义:

方差,标准差越大,变异程度越大。

其值越小,观察值的离散度越小,用均数反映平均水平的代表性越好。

标准差应用:

(1)反映一组观察值的离散程度:

数值单位相同:

直接比较标准差;

数值单位不同:

计算变异系数;

变异系数(coefficientofvariation,CV)也称离散系数(coefficientofdispersion)

标准差与均数之比用百分数表示。

公式:

常用于比较度量单位不同或均数相差悬殊的资料的变异。

同时考虑了均数和标准差,更客观。

比如:

身高,体重的变异比较

(2)估计变量值的频数分布:

(3)计算标准误

(4)估计医学正常值范围:

双侧:

均数±倍标准差(95%)

单侧:

均数±倍标准差(95%)

正态分布(normaldistribution)

概念:

频数分布以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多,两侧逐渐减少的对称分布。

是一种连续型分布。

又称高斯分布.

正态分布用N(µ,σ)表示,其位置与均数有关,形状与标准差有关。

标准正态分布:

为了应用方便,常将式进行变量变换,即:

u变换.所得到的新变量u的分布即为标准正态分布。

u的含义:

变量到均数间的距离相当于标准差的倍数。

u变换后,μ=0,σ=1,使原来的正态分布变换为标准正态分布(standardnormaldistribution)亦称u分布。

正态分布的特征和分布规律:

(1)曲线在x轴的上方,与x轴不相交,当x=μ时,曲线位于最高点。

f(u=0)=

(2)曲线关于直线x=μ左右对称。

(3)正态分布有两个参数:

均数,标准差;标准正态的参数分别为:

0,1。

(4)正态分布的面积分布有一定规律。

正态曲线下面积的分布规律

正态曲线下,横轴上一定区间的面积,等于该区间的频数发生的概率(即所有随机事件发生的概率)。

正态曲线下面积的分布规律的应用:

一、确定医学参考值范围

意义:

是正常人指标测定值的波动范围,可用于划分正常,或异常。

步骤:

1、抽样2、控制测量误差3、取单侧或双侧4、选定合适的百分界限5、资料正态性检验6、进行参考值估计

补充:

常用方法:

正态分布法(正态分布),对数正态分布法(对数正态分布或近似正态分布),百分位数法(偏态分布)

二、确定概率分布

三、质量控制

第四章均数的抽样误差和t分布

一、均数的抽样误差和标准误

均数的抽样误差samplingerrorofmean

由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),样本均数之间也互不相等,这种由抽样引起的差异称为均数的抽样误差。

用样本均数的标准差来估计,称标准误(standarderror)。

即总体标准差和样本例数的比值,通常以样本标准差作为总体标准差的估计值

标准误越大,均数的抽样误差越大,样本均数与总体均数间的差异越大。

S

区别

是方差的平方根。

说明一组数据在其

周围的分散情况(变异程度)。

反映

对这组数值的代表性。

是均数的标准差。

说明一组均数在“均数的均数”(≈总体均数)周围的分散情况。

反映用样本均数代表总体均数的可靠性。

表示抽样误差的大小。

标准误的应用

1、用来衡量抽样误差的大小:

标准误越小,样本均数与总体均数越接近,样本均数的可信度越高;

2、结合标准正态分布与t分布曲线下的面积规律,估计总体均数的置信区间。

3、用于假设检验。

二、t分布(t-distribution)——标准化的均数的分布

t分布曲线特征:

•t分布是一簇对称于0的单峰分布曲线。

•自由度越小(相当于标准差大),曲线的中间越低,两边越高;随自由度增大,t分布曲线逐渐逼近于标准正态分布曲线。

•当自由度无穷大时,t分布就是标准正态分布曲线。

•每一条t分布曲线,都对应于相应的自由度。

t分布曲线下的面积规律:

与标准正态曲线下的面积规律相似:

•在某一个自由度下,两侧外部总面积为5%的界限的t值称为2(υ),把两侧外部总面积为1%的界限的t值称为2(υ)。

•因此,中部占95%面积的t值范围:

2(υ)--2(υ),

中部占99%面积的t值范围:

2(υ)--2(υ)。

使用t值表注意:

•同一自由度下,P越小,t值越大;P值相同时,自由度越大,t越小;当自由度无穷大时,t值与u值相等。

这也是u分布与t分布的区别。

t分布的主要应用:

•总体均数置信区间估计;

•t检验;

三、总体均数置信区间的估计

•统计推断:

参数估计,假设检验

•参数估计:

•点估计(pointestimation):

用样本统计量作为对总体参数的估计值(μ)。

比如均数的估计。

•区间估计(intervalestimation):

根据选定的置信度估计总体均数所在的区间(a<μ

置信度(confidencelevel):

•在估计总体均数的置信区间时,如果可能估计错误的概率为α,那么估计正确的概率为1-α,即为置信度.常用:

95%,99%.

置信区间(confidenceinterval,CI)根据置信度估计得到的区间,称为置信区间。

区间两端的界限值即置信限

置信区间估计方法:

•1、总体标准差已知参照u分布

•2、总体标准差未知,样本例数(>50)足够大,也可参考u分布进行

•3、总体标准差未知,样本例数较小,按t分布原理,依据自由度,查出某个概率相应的t界值

95%置信区间的意义:

•理论上,用一次抽样所得的样本均数估计总体均数,犯错误的概率为5%.

•或进行100次抽样,可算得100个置信区间,平均有95个置信区间包括客观存在的总体均数,只有5个置信区间未包括总体均数。

置信区间与正常值范围:

95%正常值范围一般是指同质总体内包括95%个体值的估计范围,

若总体为正态分布

95%置信区间是指按照95%置信度估计的总体参数的可能范围,

常按照下式计算

前者用标准差,后者用标准误。

第五章假设检验,u,t-检验

假设检验基本思想:

•先对总体的参数或分布作出某种假设,如假设总体均数(或总体率)为一定值,两总体均数(或总体率)相等,总体服从正态分布或两总体分布相同等。

•然后,用适当方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。

其结果将有助于研究者作出决策,采取措施

假设检验步骤:

1、建立检验假设和设定检验水准

无效假设(nullhypothesis)H0:

假设差异仅由抽样误差所致,而两个总体参数相同。

是从反证法的思想提出的。

备择假设(alternativehypothesis),H1:

即差别不仅是由抽样误差所致,而且总体参数不同。

H1是和H0相联系的,对立的假设。

确定检验水准(sizeofatest)

也叫显著性水准(significancelevel):

用α表示。

即:

拒绝了实际上成立的H0的概率;一般取,或.

2、计算统计量

根据研究设计类型,资料特征,统计方法的适用条件,选择和计算统计量。

3、确定概率P值,作出统计推断结论

计算统计量后,判断在H0成立条件下,出现该统计量或更大统计量的概率。

如果P大于α,是接受H0的区间;如果大于或等于界值的范围,P小于或等于α,是拒绝H0的区间。

双侧,单侧检验:

根据专业知识,μ可能大于,也可能小于μ0,称双侧检验;若认为μ大于、等于不可能小于μ0(或相反),为单侧检验。

若不能确定单侧的情况,应采用双侧检验。

在同一t值的界限上单侧检验的概率仅相当于双侧检验概率的一半。

因此,总体均数间确有差别时,单侧检验比双侧检验更易得出差别有统计意义的结论。

对同一资料进行检验,有可能双侧检验无统计意义而单侧检验有统计意义。

但用单侧还是双侧检验,必须事先根据专业知识予以确定,不能等到计算完t值以后再主观选定

选择原则:

•双侧检验永远是正确的

•单侧检验只有在少数情况下才是合适的

•即使要做单侧检验,也必须事先确定

•单侧检验:

有某种倾向时使用;

•双侧检验:

没有任何倾向;

第一类错误与第二类错误

假阳性错误(falsepositiveerror),统计上称为第一类错误(typeIerror),用α表示。

即无效假设(H0:

u=u0)是正确的,但被拒绝,误判为有差别(弃真错误)。

统计学上定P≤为有意义,即在统计推断上允许犯假阳性错误的概率为5%。

当无效假设正确时,在100次抽样中,可以有5次推断是错误的。

同样,如果定P≤为有意义,即犯假阳性错误的概率为1%。

故统计学上有意义的界限实际上就是允许犯第一类错误的界限。

假阴性错误(falsenegativeerror),统计学上称为第二类错误(typeIIerror)。

即无效假设(H0:

u=u0)不正确,实际上应是H1:

u≠u0,但算得的统计量t没有超过的水平从而接受了无效假设,错误地得出无差别的结论(取伪错误)。

用表示。

I类错误:

虽然无效假设为真,但由于抽到了较大(检验统计量)的样本,使得P值小于检验水准而导致被拒绝。

II类错误:

虽然无效假设为假,但由于抽到了较小(检验统计量)的样本,使得P值大于检验水准而导致不被拒绝。

第一类错误减小,第二类错误的概率就增大了。

•选择统计学意义水平,应考虑两类错误对所要研究事物的影响哪一个重要。

一般来说,定为有统计学意义的水平是比较适宜的。

其他条件不变,增大样本含量可使第二类错误的概率减小。

同时正确的实验设计能够减少抽样误差,提高检验效能。

 

P值的正确理解

P值是指在无效假设的前提下,得到观察到的量(或更极端的量)的概率。

P值越小说明无效假设越不可靠。

或者说,P值越小就越有理由推翻无效假设。

至于P值是否属于“小”,一般根据事先确定的检验水准来判断的。

P值的大小与观察到的量的大小之间没有必然的联系。

实际差别与统计学意义

•统计学意义:

如果总体均数相同,抽到这样大统计量的可能性很小,可以拒绝H0。

但并不意味两总体均数差别很大。

•样本量很大时,即使均数差别不大,统计学意义却显著。

•样本小时,即使均数差别很大,统计学意义却不显著。

u检验和t检验

两者比较:

u检验条件:

总体标准差已知,资料服从正态分布情况下

(1)样本均数与总体均数比较

(2)两大样本均数的比较;

t检验条件:

用于样本量小、总体标准差未知时

(1)样本与总体均数比较

(2)配对设计资料比较(3)两样本均数比较(同时要求两样本的总体方差相同,服从正态分布)

配对资料:

配对设计:

两样本中的观察值由于存在某种联系而一一对应结成对子(matching)的情况.

常用配对方式:

•1、同一受试对象处理前后的比较:

高血压治疗前后的血压值,或每一名病人有一对数据;

•2、同一对象身体不同部位测定值比较:

如左右臂皮肤的敏感试验,测得红斑直径;

•3、同一样品两种不同方法测定结果:

两种仪器,两名化验员,两种条件等;

•4、成对设计:

动物配对后随机分到两组后的测定结果;

第六章方差分析

(一)

概念:

方差分析是检验两个或两个以上样本均数间差别无统计意义的统计检验方法。

前提条件:

各组总体均数为正态分布,方差齐。

方差分析的基本思想是:

将所有测量值间的总变异按照其变异的来源分解为多个部份,然后进行比较,评价由某种因素所引起的变异是否具有统计学意义。

方差分析主要用于:

1、均数差别的显著性检验2、分离各有关因素并估计其对总变异的作用3、分析因素间的交互作用,4、方差齐性检验。

优点:

1、不受对比组数的限制;

2、可同时分析多个因素作用;

3、可分析因素间的相互作用;

4、灵敏度高;

5、结论较准确

均方:

变异程度除与离均差平方和的大小有关外,还与其自由度有关,由于各部分自由度不等,因此各部分离均差平方和不能直接比较,须将各部分离均差平方和除以相应自由度,其比值称为均方差,简称均方(meansquare,MS)。

MS组内:

组内均方,l组内/组内

MS组间:

组间均方,l组间/组间

总变异(totalvariation):

全部测量值Xij与总均数间的差异(xij-x)2,v=N-1=nk-1

组间变异(betweengroupvariation):

各组的均数Xi与总均数间的差异n(xi-x)2,v=k-1

组内变异(withingroupvariation):

每组的每个测量值Xij与该组均数的差异(xij-xi)2,v=k(n-1)

F值:

F=MS组间/MS组内

F界值:

(1,2)F(1,2),p

公式是在H0成立的条件下进行的,即MS组间与MS组内差别应该很

小,F值应该接近于1。

均数间的相互比较

Student-Newman-Keuls(SNK-q检验)法:

适用于任意两组间进行比较

Dunnett-t检验:

适用于多个实验组与同一个对照组的比较

LSD-t检验:

称最小显著性差异t检验,适用于对多组中某一对或几对在专业上有特殊意义的均数进行比较。

三种方法是一致的,但并非等价,实际应用中应根据设计选取,不可多种方法一起使用,然后选取有利的结果。

拉丁设计:

对于两个以上的标志进行方差分析,而且各种标志的水平数相同,采用拉丁方设计。

其优点是可以从较少的实验数据,获取较多的信息。

但设计要求各因素的水平数必须相

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2