生物统计学 总结.docx
《生物统计学 总结.docx》由会员分享,可在线阅读,更多相关《生物统计学 总结.docx(31页珍藏版)》请在冰点文库上搜索。
生物统计学总结
生物统计学总结
绪论
统计工作的四大步骤:
设计、搜集、整理、分析
统计资料的三大类型:
e计量资料:
对每个观察值单位用定量方法测得每项指标量的大小所得的资料
e计数资料:
将观察单位按照某种属性类别分组,所得的观察单位数
e等级资料:
将观察单位按某种属性的不同程度分组所得的资料
同质与变异
同质:
除研究因素外,其他因素相同或相近为同质
变异:
观测值的不齐性
总体与样本:
总体:
根据研究目的所确定的同质观察单位的全体=所有研究对象
性质相同的全体观察单位某项变量值的集合
总体含量:
总体中所包含的观察单位数
有限总体:
总体观察单位数可数
无限总体:
总体观察单位数不可数
样本:
从总体中随机抽取的部分观察单位
样本含量:
样本中所包含的观察单位数
抽样:
从总体中获得样本的过程
放回式抽样
不放回式抽样
抽样误差:
因个体变异的存在,由抽样而导致的样本指标与总体指标之差
统计量:
有样本所得指标或数
参数:
由总体所得指标,关于特征的表征
频数:
完全相同的观察只出现的次数
频率:
某一观察值出现的次数与样本含量的比值
概率:
描述某事物发生可能性大小的一个度量
样本空间:
一次实验所有可能的结果的集合
基本事物:
样本空间每一个可能的结果
小概率事件:
P<=0.05或P<=0.01的事件
小概率原理:
小概率事件在一次抽样中不可能发生
计量资料的统计描述
集中趋势的指标:
平均数
定义:
描述一组同质计量资料的集中趋势,反映某一组观察值的平均水平或某一分布的平均位置的指标
作用:
作为一组资料的代表值,可用于组间的分析比较
均数的两个重要特征→代表性
1.离均差和等于0
2.离均差平方最小小于
常用平均数指标:
1.算术均数
(1)定义:
全部观察值相加之和除以观察值个数所得的商
总体均数样本均数
(2)算法:
1)直接法:
2)加权法:
3)缩减法
(3)注意事项:
1)只有在合理分组的基础上对同质数据取均数才有意义
2)均数用于近似正态分布的对称分布,尤其是正态分布
2.几何均数G(不能用算术均数时)
(1)定义:
几个观察值相乘之积,开几次方所得根
(2)计算
1)直接法
2)
(3)应用注意:
1)几何均数适用于观察值相差很大,甚至呈倍数关系(等比或几何级数资料)或用于对数正态分布资料
2)观察值不能有零,不能同时有正负,
若都为负,去符号最后加符号,
观察值比较小或有零,可加1,最后减去
3)同一资料求得的几何均数小于均数
中位数M
(1)定义:
把一组观察值按大小顺序排列,位次居中的
(2)计算:
1)直接法
2)频数表法:
(3)注意事项
1)适用场合:
偏态,开口(一端或两端无界限),分布不清的
2)特性:
只代表了居中观察值的特性,敏感性低,不受特小特大值的影响
3)对于正态分布资料,理论上,中位数=均数(数值上)
百分位数
(1)定义:
将n个观察值由小到大排列,编上秩次,将n个秩次100等分,与X%秩次相对应的数值,即X的百分位数,是一个位置指标,以Px表示(x代表百分秩次)
Px将整个数列分为两半,X%比Px小,1-X%比Px大
(2)计算:
(3)应用注意
1)百分位数常用于描述一组资料(样本或总体)在某百分位数上的水平和分布特征,多个百分位数结合使用,可全面描述观察值分布特征,包括位置的大小和变异度
2)一般分布中部的百分位数相当稳定,代表性好,
靠近两端的百分位数,只在样本含量足够大(>120个)才足够稳定,
所以当样本含量不够大时,不宜取两端百分位数
3)用百分位数确定正常值范围,习惯上95%
离散趋势的描述
1.极差R:
样本资料中最大值和最小值之差
在一定程度上能说明样本波动幅度的大小,但它只受样本中两个极端个体数值大小的影响,不能反映样本中各个观测值的变异程度,稳定性差
2.四分位数间距:
是上四分位数与下四分位数之差,用四分位数间距可反映变异程度的大小.
稳定性好,灵敏度不够
3.标准差:
1)定义:
描述一组同质计量资料离散程度大小的指标
反映了均数对一组观察值的代表性
说明了观察值围绕均数分布的离散程度,个体变异
2)计算:
3)应用:
1.表示变量分布的离散程度
2.结合均数描述正态分布特征
3.结合均数计算变异系数
4.结合样本含量计算标准误
4)注意:
(1)不同单位,相同标准差,不能比较
(2)大个体差异大,变异度大,小个体则变异度小
4.变异系数CV
1)定义:
标准差与均数之比,用百分数表示
2)计算:
3)应用:
单位不同的几组资料变异度及均数相差悬殊的几组资料的变异度的比较,不单独使用
自由度ν
泛指可以自由取值的变量的个数
正常值:
正常动植物解剖生理生化等各种数据的波动范围
1)必要性
1.区分正常和异常
2.看不同种群在不同时间地域上某一指标的差异
2)选取
1.极差中的一部分
2.单侧或双侧正常值之分,由指标实际情况及实验要求确定
3.方式之一为正常值范围的百分位数,习惯上95%
双侧:
确定P2.5或P97.5
单侧:
P5或P95,看实验需要
计量资料的统计推断
统计推断
用样本信息推断总体特征
参数估计:
由样本结果对总体参数在一定概率水平下所做出的估计
假设检验
正态分布
1)概念:
一种连续型随机变量的概率分布
密度函数:
分布函数:
2)特征:
1.在横轴上均数处最高
2.以均数为中心,左右对称
3.有两个参数
4.曲线下的面积分布有一定的规律F(x)
3)应用:
1.以曲线下的面积反映频率及概率分布
2.估计正常值范围或正常值范围的正态分布法→双侧正常值范围
3.质量控制
4.正态分布是很多种统计方法的理论基础
标准正态分布,u分布
Uα与面积的关系
对数正态分布
原观察值x呈偏态(正偏),取对数后,lgX呈正态分布→x服从对数正态分布
均数的抽样误差
1.定义:
平均数与总体均数之差
2.均数抽样误差大小的度量
标准误
1)定义:
样本均数的标准差
2)意义:
反映抽样误差的大小
是样本均数围绕总体均数分布的离散程度,衡量了样本均数的可靠程度
3)计算:
一般一次抽样估计
总体没有标准误,只针对样本
4)用途:
(1)计算可信区间(参数估计)
(2)用于统计推断(假设检验)
t分布
1.t变换与t变量
2.t分布的特征
1)单峰,一0为中心,左右对称
2)曲线中间比正态分布低,两端翘得比正态分布高
3)有无数根,中间越低,两端越翘
t分布与自由度有关,自由度越小,中间越低,两端越翘
当自由度趋向无穷时,t分布趋向标准正态分布,t→u
3.概率密度函数与分布函数
4.t介值与t介值表
tα,ν:
给定自由度为ν,两侧双尾面积之和为α时,相应t值。
5.t分布原理:
P(-tα,ν<=t<=tα,ν)=1-α
方差分析
方差分析又叫变量分析,俗称F检验
用途:
1.两个或多个均数的比较
2.分离各有关因素,并分别估计其对变异的作用
3.分析两个或多个因素的交互作用
4.方差齐性检验
适用条件(用于多个均数比较时)
1.个样本是相互独立的随机样本
2.小样本要求正态方差齐
基本思想:
把全部观察值之间的变异,总变异,按设计需要,分为两个或多个组成部分再作分析
计算
总体均数的估计
1.总估计
2.区间估计:
1)定义:
按一定的概率估计总体均数在什么范围内
可信区间:
按一定的概率估计总体均数的可能范围
2)方式:
1.t分布法:
按t分布的原理估计总体均数在什么范围内适用于总体标准差未知且n<50的情形
总体均数在可信区间的概率1-α
可信度:
1-α
置信水平:
α
通常,我们取95%或99%作可信区间
2.正态分布法
适用于总体标准差已知或n>50
总体标准差已知:
n>50:
假设检验
为什么做假设检验
检验差别是否由抽样误差造成的
基本思想
假定差别是由抽样误差引起的
然后计算由抽样误差引起这么大,甚至比这更大的差别的概率P
根据小概率原理,作出拒绝或者接受假设的判断
步骤
1.建立假设,确定检验水准
先确定是单侧还是双侧的
若考虑u,u0有误差别→双侧
若不仅考虑差别,还关注u,u0大小→单侧
一般认为双侧
无效假设H0:
从反证法的基础上提出的,无论何时,假设差别是由抽样误差造成的,但具体问题具体分析
备择假设H1:
与H0相对立的假设,是依H0而产生的,一旦H0不成立,只能接受H1,现在H0不成立→非H0
→体现单双侧之分
检验水准α:
界定小概率事件的一个标准(有单双侧之分)
通常α=0.05
2.选定检验方法,计算统计量
3.确定P值,做出统计推断
P值:
指由H0所规定的总体中做随机抽样,获得等于大于或小于现有统计量的概率。
若P<=α,拒绝H0;若P>α,接受H0
第一类错误和第二类错误
♏第一类:
拒绝实际上成立的H0
♏第二类:
不拒绝实际上不成立的H0
客观实际
拒绝H0
不拒绝H0
H0成立
第一类错误(α)
推断正确(1-α)
H0不成立
推断正确(1-β)
第二类错误(β)
e可信度1-α
e把握度β:
未知,只能估计,不能单独存在,只有与H1结合才有意义
e检验效能1-β:
计量总体却有差别,按α水准,能够发现他们有差别的能力
注意
1.样本的代表性→组间的均衡性→资料的可比性
2.选用的假设检验方法一定要符合其适用条件
3.正确理解差别有无显著性的含义(显著、极显著不意味着差别的大小)
4.结论不能绝对化
5.报告要规范化
检验方法
一、完全随机设计
(一)样本均数与已知总体均数比较的假设检验
1.小样本,总体标准差σ未知→t检验(要求
取自正态总体)
2.大样本,总体标准差σ未知:
1)t检验(严格)→法2无需来自正态总体
2)u检验(ν→∞,t→u)→法1
3.大样本,总体标准差σ已知→u检验
(二)两个样本均数比较的假设检验
1.小样本(有一个就算),总体标准差σ未知,正态方差齐→t检验
A.先求合并方差
B.再求两样本均数差的标准误
C.计算t值
2.小样本(有一个就算),总体标准差σ未知,方差不齐(非正态)
1)采用适当的变量变换使达到方差齐性的要求
2)采用不要求方差齐的方法比较→非参数统计
3)采用近似的t‘检验
3.大样本→u检验(不考虑正态方差齐的情况下,仍可用t检验)
(三)两个样本几何均数比较的假设检验
对x取反对数,用t检验或者u检验
(四)多个样本均数的比较(单因素方差分析)
条件:
1.个样本是相互独立的随机样本
2.小样本要求正态方差齐
*多个样本均数间的两两比较→q检验
二、配对设计
(一)配对设计的计量资料的比较
小样本,t检验→
三、配伍组设计
(一)多个样本均数的比较(两因素方差分析)
多个性质相同的配伍,同一配伍组中的N个受试对象分别接受k种处理
作用:
1.可改善处理组间的均衡性
2.可分析配伍因素的的影响
3.提高设计效率,分析两个因素
*多个样本均数间的两两比较→q检验
正态性检验
一、为什么做正态性检验
特定统计方法要求的
描述统计平均数、标准差
正常值范围的正态统计法
统计推断t检验
F检验
二、定义
判定资料是否服从正态分布或样本是否来自正态总体的一类检验方法
三、何时用?
1.为了说明资料是否服从正态分布→一定要做
2.为了满足特定统计方法的需要→可以不做
四、怎么做?
正态分布分布的特征:
1.对称性→偏度(正偏、对称、负偏)
三阶偏度系数g1
态峰→翘度(正态峰、尖峭峰、平阔峰)
四阶峰度系数g2
方差齐性检验
一、为什么?
1.t检验F检验使用条件的要求
2.方差的抽样波动
二、定义
说明变量值的变异度有无差别,或者通过样本信息来推断总体方差是否相等的一类检验方法
三、何时做?
1.说明变量值的变异度有无差别时→一定做
2.为满足t、F检验方差齐性要求的→可不做
四、如何做?
多个方差的齐性检验——X2检验
变量变换
意义:
通过改变观察值的原初形式,使资料正太化,达到方差齐性的要求,以满足t检验及方差分析的应用条件
依据:
只改变观察值的分布形式,而不是其相对大小
常用方法:
1)对数变换:
以观察值x的对数值作为新的分析数据
常用方式
适用场合:
1.使服从对数正态分布的资料正态化
2.使方差达到方差齐性要求,特别是标准差与均数的比值接近时
3.使指数曲线直线化,常用于曲线拟合
2)平方根变换:
以原观察值x的平方根作为新的分析数据
常用方式
适用场合:
1.使服从Poisson分布的计数资料或轻度偏态资料正态化
2.使各样本的方差与均数的正比例关系消除或削弱,达到方差齐性要求
3)百分数、平方根、正反弦变换
以原观察值用百分数表示,平方根反正弦值作为新的分析数据
适用场合:
总体百分数小于30%或大于70%的情形
计数资料的统计描述和推断
相对数
(一)为什么引入
绝对数不能做进一步分析
(二)什么是相对数
同一基础上,两个有联系指标之比
*常用指标
1.率/频率指标:
用以说明某现象发生的频率与强度
计算
比例基数—依习惯而用
—使算的的率至少保留1-2位整数
2.构成比/构成指标:
用以说明某一事物内部各组成部分所占的比重或分布→总和为100%
计算
*若总和不为100%:
超减于大,低加在小
3.相对比:
两个有关同类指标之比,用以说明两者的对比水平
计算
*指标可为平均数、绝对数、相对数
4.动态数列:
一系列按时间顺序排列起来的统计指标,用以说明事物延时间发展的变化与趋势
*指标可为平均数、绝对数、相对数
*动态分析:
(1)绝对增量=统计期指标-基期指标
说明事物在一定时期增加的绝对数量
可分为
逐年的、逐期的:
后比前,内部波动
累计的:
基期固定,总体结果
(2)发展速度、增长速度:
反映事物在一定时期的速度变化,可分为定基与环基
发展速度=统计期指标/基期指标
增长速度=发展速度-1
(三)应用相对数应注意的问题
1.计算相对数的分母一般不宜过小,对于动物实验,可减小
2.分析时不能以比代率
3.计算观察单位不等的几个率的平均值时,不能直接相加求平均
4.资料的对比应注意可比性
5.率和构成比也可有抽样误差→假设检验
二项分布及其应用
(一)概念及其应用条件
对于某个性状,常常可以把其资料分成两个类型。
即“非此即彼”两种情况,彼此构成对立事件,我们把这种“非此即彼”事件所构成的总体,称为二项总体,其概率分布称为二项分布。
1.二项分布的概率密度函数:
重复做①n次相互独立的实验,每次实验②有相互独立的结果,
③P(A)=ΠP(
)=1-Π,则n次实验中A恰好发生x次的概率
2.实验有①②③,则可用二项分布处理
3.分布函数
4.特征:
Π=0.5对称,正态
0.3≤Π≤0.7近似对称,近似正态
Π>0.7或Π<0.3偏态严重,离0.5越远,偏的越厉害
二项分布近似正态分布的条件:
1)Π,1-Π均大于0.01→Π不接近0或1
2)nΠ,n(1-Π)均大于5→n足够大
5.二项分布的均数和标准差、
(二)二项分布的应用
1.总体率的可信区间
(1)点估计
(2)区间估计
1)查表法
2)正态近似法(条件)
2.样本率与已知总体率比较的假设检验
(1)直接计算概率法
利用二项分布的概率密度和分布函数,求出p值,与所用的检验水准α进行比较,做出统计推断
适用条件:
Π偏离0.5较远,x较小
(2)正态近似法(条件)
(3)两个样本率比较的u检验(条件)
Poisson分布及其应用
(一)概念及应用条件
是二项分布的一个特例,当Π或1-Π很小(<0.05)而n很大时,二项分布近似于Poisson分布
常用于研究单位时间或单位面积或容积内,某罕见事件发生次数的分布
1.概率密度函数:
2.应用条件:
同二项分布
3.分布函数
4.特点:
✠离散型分布,适用于计数资料
✠二项分布的特例,应用条件同二项分布
✠方差等于均数,σ=
✠λ≥20时,Poission分布近似正态分布
✠Poisson分布具有可加性
(二)应用
1.总体均数λ的估计(区间)
1)查表法x≤50
2)正态近似法
2.样本均数与总体均数的比较
1)直接计算概率法
2)正态近似法
3.两个样本均数的比较→u检验
1)两个样本观察单位数相等
2)两样本单位不同时
X2检验及其应用——同性质、适合性、独立性检验
一、X2分布
1.X2变量ν个标准正态变量平方和
2.概率密度函数
3.分布函数
4.X2介值表
5.X2分布与正态分布的关系
随着自由度的增加卡方分布近似于正态分布
当ν=1时,
二、X2检验的基本思想
在实际操作中,k个实际频数ki与其相应的理论频数T的差值
①
表示实际频数与理论频数的吻合程度
*当n>40,Ti>5时,上式①近似X2
*可以利用X2值检验实际频数与按假设检验计算的理论频数是否相等的问题
*如果假设成立,那X2≈0;不应出现大X2的概率P<α,如果出现,则可以怀疑假设是否成立,进而拒绝他,反之不拒绝
X2的基本公式
n>40,T>5
四格表资料
处理
阳性数
阴性数
合计
阳性率
1
a
b
a+b
2
c
d
c+d
合计
a+c
b+d
n
X2基本公式的专用公式
n>40,T>5
X2校正公式
n>40,1X2校正公式的专用公式
n>40,1四格表的确切概率法
n<40或T<1
配对计数资料的X2检验
甲处理
乙处理
合计
+
-
+
a
b
a+b
-
c
d
c+d
合计
a+c
b+d
n
1)两种处理有误差别
b+c>40时可不校正
2)两种处理有无相关(双向有序列联表)
列联表X2检验
基本数据中多于四格表
用途:
1.多个样本率的比较
2.样本构成比的比较(三个以上)
3.计数资料的相关分析
基本思想、基本公式、自由度的计算同前
应用条件:
1.n>40
2.13.不能有T<1的格子
T过小的处理:
1.增大样本含量n
2.合并相应的行或列
3.删除相应的行或列
*多个样本率/构成比的比较,结论为拒绝H0时,认为有差别,但不知其具体,应两两比较
*如果分组标志是双因素的,若其中一组分组标志有序→单向有序列联表。
若分析构成比→X2检验,否则用秩和检验
(一)多个样本率的比较(
表)
(二)两个样本构成比的比较(可推多个)(2
表)
(三)计数资料的相关分析(双向有序列联表)
频数分布拟合优度的X2检验——判定样本频数分布是否符合某一理论
非参数统计
*不依赖于总体的分布形式,应用时忽略分布类型是否已知
*检验时比较分布而非参数
*适用范围广,不受分布形式限制
*可用于不能活未能精确测量的资料,尤其适用等级资料或适合于算中位数
*前提为变量变换后仍不能达到正态
缺点:
检验效能低=参数统计×30%
适用场合:
①等级资料②偏态分布(经变换后不能正态,近似L型)③开口资料④分布不清的
⑤方差不齐(经变换后仍不能达到齐性)
常用方法:
①符号检验②秩和检验③超越检验④游程检验⑤等级相关分析
秩和检验
(一)配对比较的符号秩和检验
(二)两个样本比较的秩和检验
(三)多个样本比较的秩和检验
(四)多个样本两两比较的秩和检验→t检验
相关与回归分析
直线相关
一、概念
1.两变量间的关系
2.直线相关分析:
找出一个适当的指标来描述两个变量间的直线相关关系、相关密切程度及方向是怎样的
3.适用条件:
双变量正态分布或正态双变量
二、相关系数(指标)
1.定义:
描述两个变量间有无直线变量关系及密切程度
样本→r总体→
2.意义:
通过取值描述不同的相关情形
3.相关系数的计算
4.r=0推出
=0→r的假设检验→t检验
等级相关
用等级数据做直线相关分析
适用场合:
1.不服从双变量正态分布的
2.总体分布型未知的
3.原始数据使用等级表示的
等级相关系数:
表明两变量间的相关密切程度
样本rs总体
rs的检验:
1.查表法
2.t检验
直线回归
一、概念
研究两变量在数量上的依存关系
直线回归方程y=a+bx+ε
*用容易测量的变量推算不易测得的变量
*对资料的要求:
1.正态双变量:
x→y&y→x的两个方程(不同)
2.至少有一个是正态变量,必须是y→要求x是精确测定的
二、直线回归方程
1.一般表达式
*数学模型:
Y=a+bx+ε
*一般表达式:
2.系数a、b的求法
三、直线回归方程的图示
四、回归系数的假设检验
1.方差分析(F检验)
2.回归系数b的t检验
五、回归方程的应用
1.描述两变量间的依存关系
2.以容易测得的变量去推测不易测得的变量
3.利用回归方程进行预测预报(一个区间)把变量x带入回归方程中去估计Y
4.利用直线回归方程进行控制
六、应用注意
1.要有实际意义
2.资料要符合要求
3.自变量和因变量的选择要符合实际
4.直线回归的范围只限于取得原始资料的范围
5.直线回归方程可以内插,一般不能外延
6.回归方程必须经过检验
七、相关与回归的区别与联系
区别
相关
回归
资料要求
正态双变量
至少有一个为正态变量
意义
反映相关关系
反映依存关系
应用
说明有无相关关系
说明有无依存关系
r
b
意义
描述两变量间有无相关关系及相关的密切程度和方向的指标
x增减一个单位,y平均改变b个单位
范围
[-1,1]
(-∞,+∞)
单位
无
y单位或x单位
联系:
1.对同一正态双变量资料,如果计算得r、b,则r与b符号一致
2.相关系数的假设检验与回归系数的假设检验一致,对同一资料,tr=tb
3.r与b的数值关系:
4.回归可解释相关
曲线拟合
1.用途:
1)修匀(变成平滑曲线)
2)估计(x,y之间不是函数关系)
3)求极值及极值点(拟合二次曲线,三次曲线特有用途)
2.步骤:
1)曲线定型:
根据资料的性