完整word版生物统计学复习资料整理docx.docx
《完整word版生物统计学复习资料整理docx.docx》由会员分享,可在线阅读,更多相关《完整word版生物统计学复习资料整理docx.docx(28页珍藏版)》请在冰点文库上搜索。
完整word版生物统计学复习资料整理docx
生物统计学复习资料
第一章
1.生物统计学的基本作用:
1)提供整理和描述数据资料的科学方法,确定某些性状和特征的数量特征。
2)判断试验结果的可靠性
3)提供由样本推断总体的方法
4)提供试验设计的一些重要原则
3.总体:
具有相同性质的个体所组成的集合
4.个体:
组成整体的基本单元
5.样本:
从总体中抽出的若干个体所构成的集合
6.变量:
相同性质的事物间表现差异性的某项特征。
按其性质分为连续变量和非连续变量。
变量可以是定量的,也可以是定性的。
7.连续变量:
表示在变量范围内可抽出某一范围的所有值
8.非连续变量:
也称离散型变量,表示在变量数列中,仅能取得固定数值,并且通常是整数。
9.常数:
是不能给予不同数值的变量,它代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。
10.参数:
对总体特征的度量
11.统计数:
由测定样本的全部重复观测值算得的描述样本的特征的数。
12.效应:
试验因素相对独立的作用
13.误差:
是试验中不可控因素所引起的观测值偏离真值的差异
14.随机误差:
由于试验中许多无法控制的偶然因素所造成的试验结果与真实结果之间的差异,不可避免。
15.系统误差:
由于试验处理以外的其他条件明显不一致所产生的带有倾向性或定向性的偏差,可避免。
16.错误:
是指在试验过程中,人为因素所引起的差错。
17.准确性:
在调查或试验中某一试验指标或性状的观测值与真实值接近程度
18.精确性:
指调查或试验中同一试验指标或性状的重复观测值彼此接近程度的大小。
第二章
1.次数分布:
在不同区间内变量出现的次数所构成的分布。
2.资料根据生物的形状特性,可分为数量性状和质量性状
3.间断性变数:
指用计数方法获得的数据,其各个观测值必须以整数表示,在两个相邻整数间不允许带有小数的值存在。
4.连续性变数:
指称量、度量或测量方法所得到得数据,其各个观测值并不限制于整数,在两个数值之间可以有微量数值差异的第三个数值存在
5.质量性状资料的方法:
统计次数法,评分法
统计次数法:
于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别及其次数或相对次数
给分法:
给予每类性状以相对数量的方法。
6.试验资料搜集方法:
调查和试验
7.资料调查方法:
普查和抽样调查
抽样调查:
根据一定的原则对研究对象抽取一部分个体进行测量或度量,把得到的数据资料作为样本进行统计处理,然后利用样本特征数对总体进行推断。
8.随机抽样满足条件:
1)总体中每个个体被抽中的机会均相等;2)总体中任意一个个体是否被抽中是相互独立的
9.统计表要求:
1)标题:
简明扼要,准确地说明表的内容,有时须注明时间、地点
2)标目:
分横纵两项,横列在表的左侧,纵列表上端,须注明计
算单位
3)数字:
一律用阿拉伯数字,以小数点对齐,无数字用“/”表示
4)线条:
多用三线条。
上下两条边路略粗
10.统计图绘制的要求:
1)标题简明扼要,列于图的下方
2)横纵坐标两轴有刻度,注明单位
3)横轴从左至右,纵轴由下而上,数值由小至大,图形长宽约为
5.4或6.5
4)图中要不同颜色或线条代表不同的事物时,应有图例说明
11.计数资料基本采用单项式分组法进行整理
12.计量资料的整理一般采用组距式分组法
13.次数分布图分类:
条形图、饼图、直方图、多边形图、散点图
14.变量的基本特征:
1)集中性:
变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分
布的性质。
特征数是平均值
2)离散性:
变量有着离中分散变异的性质。
特征数是变异数,常用的指标是极
差、方差、标准差和变异系数
15.平均数的种类:
算术平均数、中位数、纵数、几何平均数
17.标准差的作用;
1)表示变量分布的离散度
2)利用标准差的大小,可以概括的估计出变量的次数分布及各类观测值在总体中所占有的比例
3)估计平均数的标准误
4)进行平均数的区间估计和变异系数的计算
18.组距:
根据极差分成若干组,每组的距离相等,称为组距。
组距=极差/组数
19.自由度:
样本内独立且能自由变动的离均差的个数。
20.变异系数:
样本的标准差除以平均数的百分比
21.平均数的用处:
①平均数指出了一组数据的中心位置,标志着资料所代表性状的数量水平和质量水平;②作为样本或资料的代表数据与其他资料进行比较。
平均数的特征:
①离均差之和为零;②离均差平方和为最小。
21.标准差的用处:
①标准差的大小,受实验后调查资料中的多个观测值的影响,
如果观测值之间的差异大,离均差就越大;②在计算标准差是如果对观察值加上一个或减去一个a,标准差不变;如果给各观测值乘以或除以一个常数a,所得的标准差就扩大或缩小a倍;③在正态分布中,X+-S内的观测值个数占总个数的68.26%,X-+2s内的观测值个数占总个数的95.49%,x-+3s内的观测值个数占总个数的99.73%。
标准差的特征:
①表示变量分布的离散程度;②标准差的大小可以估计出变量的次数分布及各类观测值在总体中所占的比例;③估计平均数的标准差;④进行平均数区间估计和变异数的计算。
22.比较总体和样本的平均数、标准差:
总体平均数μ=∑x/N,式中分母为总体观察个数N;样本平均数x=∑x/n,公式中n是样本容量;样本平均数是总体平均数的无偏估计值。
总体和样本标准差都等于离均差的平方和除以样本容量;而总体标准差σ
=,分母上是总体观测值个数N;而样本标准差是s=
2
(xx)
n1,分母上是样本自由度n-1.样本标准差s是总体标准差
σ的无偏估计值。
第三章:
1.事件:
一种事物常存在几种可能出的情况,每种情况都一次事件。
2.随机事件:
在一定条件下,可能出,也可能不出的事件。
3.随机象:
在原本条件不的条件下,重复行察,其果未必相同的象。
随机象三个特征:
1)可以在相同条件下多次重复且相互独立;
2)定条件下每次果不只一个;
3)每次不能料出那种果,但可以大概知。
4.常的理分布:
离散型随机量的二分布、泊松分布、型随机量的
正分布
5.事件的相互关系:
1)和事件:
事件A和事件B至少有一件生而构成的新事件
2)事件:
事件A和事件B同生而构成的新事件
3)互斥事件:
事件A和事件B不能同生
4)立事件:
事件A和事件B必有一个生,但二者不能同生
5)独立事件:
事件A的生或事件B的生毫无关系
6)完全事件:
如果多个事件A1、A2⋯两两互斥,切每次果必然生其一
6.加法定理是互斥事件A和B的和事件的概率等于事件A和事件B的概率之和
7.乘法定理是独立事件的概率的乘
8.大数定理:
本容量越大,本数与体参数之差越小
9.二分布、泊松分布与正分布的关系:
如果n相当大或p与q基本接近,二分布接近于正分布;当λ大,泊松分布也接近正分布。
10.正分布的特征:
1
1)当x=u是,f(x)有最大2
2)当x-u的相等,f(x)也相等,正分布是以
u中心向左右两
称分布
3)(X-u)/
σ的越大,
f(x)也越小,但
f(x)永不会等于
0,所以正
分布以
x近
4)正分布的曲完全由参数u和σ决定,u确定正分布曲在x上的中心位置,减小,曲左移,增大曲右移。
σ确定正分布曲的展开程度,越小,曲展开程度越小,曲越陡高,反之亦然
5)正分布曲在x=u+σ各有一个拐点,曲通拐点是改弯曲的方向
6)正态分布的概率密度曲线与渐近线X轴所围成的全部面积必然等于1
11.无偏估计值:
如果参数所有样本的某一统计数的平均数等于总体的相应参数
(1)样本平均数是总体平均数的无偏估计值
(2)样本方差是总体方差的无偏估计值
(3)样本标准差不是总体的标准差的无偏估计值
12.中心极限定理:
如果被抽样总体不是正态总体,但具有平均数u和σ2,当样
本容量
n不断增大,样本平均数的分布也越来越接近正态分布,且具有平均数
u
和方差σ
2/n
13.t
分布的特征:
1)t
分布曲线是左右对称,围绕平均数
u=0向两侧递降
2)t
分布受自由度df=n-1的制约,每个自由度都有一条t分布曲线
3)和正态分布相比,t分布的顶部偏低,尾部偏高,自由度大于等于30时,
其曲线就比较接近正态分布曲线,当自由度趋向于无穷大时和正态分布曲线重合
14.重置抽样(放回式抽样):
指从总体中抽取一个个体,记下其特征数后再放回总体的抽样方法。
15.非重置抽样(不放回式抽样):
指从总体中抽取一个个体,记下其特征数后不再放回的抽样方法。
16.抽样分布:
指从总体中按一定的样本容量随机抽取全部所有可能的样本,由这些样本计算的统计数组成的分布。
17.无偏估计:
指在统计数上如果所有可能样本的统计数的平均数等于总体相应的参数,则称这个统计数为总体相应参数的无偏估计量。
18.频率与概率之间的转化:
事件A在n次重复试验中发生了m次,则比值m/n称为事件A发生的频率,记
为W(A);事件A在n次重复试验中发生了m次,当试验次数n不断增加时,事件A发生的频率W(A)就越来越接近某一确定值p,则p即为事件A发生的概率。
二者的关系是:
当试验次数n充分大时,频率转化为概率。
19.正态分布、标准正态分布、正态分布曲线的特点
正态分布是一种连续型随机变量的概率分布,它的分布特征是大多数变量围绕在平均数左右,由平均数到分布的两侧,变量数减小,即中间多,两头少,两侧对称。
U=0,σ2=1的正态分布为标准正态分布。
正态分布具有以下特点:
标准正态分布具有以下特点:
①、正态分布曲线是以平
1
均数μ为峰值的曲线,当
x=μ时,f(x)
取最大值
2;②、正态分布是以μ
xu
为中心向左右两侧对称的分布③、的绝对值越大,f(x)值就越小,但f(x)
永远不会等于0,所以正态分布以x轴为渐近线,x的取值区间为(-∞,+∞);
④、正态分布曲线完全由参数μ和来决定⑤、正态分布曲线在x=μ±处
各有一个拐点;⑥、正态分布曲线与x轴所围成的面积必定等于1。
正态分布具有两个参数μ和,μ决定正态分布曲线在x轴上的中心位置,μ减
小曲线左移,增大则曲线右移;决定正态分布曲线的展开程度,越小曲线展
开程度越小,曲线越陡,越大曲线展开程度越大,曲线越矮宽。
第四章
1.统计推断是根据理论分布由一个样本或一系列样本所得的结果来推断总体特征的过程。
2.参数估计则是由丫根本结果对总体参数在一定概率水平下所做出的估计。
参数估计包括点估计和区间估计。
3.统计推断包括假设检验和参数估计两个方面
任务:
分析误差产生的原因,确定差异的性质,排除误差干扰,从而对总体的特征做出正确的判断。
4.假设检验:
根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,做出在一定概率意义上应该接受的那种假设推断。
5.假设检验步骤:
1)提出假设:
对样本所属总体提出无效假设Ho和备择假设HA
2)确定显著水平α
3)计算概率:
在Ho正确的前提下,计算统计分布的统计数或相应的概率值。
4)推断是否接受假设:
根据小概率原理,进行差异是否显著地推断,并作出推
论。
6.小概率原理:
如果假设一些条件,并在假设的条件下能够准确的算出事件A出现的芥蓝菜为很小,则在假设条件下的n次独立重复试验中,事件A将按预定的概率发生,而在一次试验中则几乎不能发生。
小概率原理是指概率很小的事件再一次试验中被认为是几乎不可能会发生的,一般统计学中常把概率概率小于0.05或0.01的时间作为小概率事件。
他是假设检验的依据,如果在无效假设H0成立的条件,某事件的概率大于0.05或0.01,说明无效假设成立,则接受H0,否定HA;,如果某时间的概率小于0.05或0.01,说明无效假设不成立,则否定H0,接受HA。
7.假设检验中的两类错误:
1)第一类错误(弃真错误):
如果H0是真实的,假设检验却否定了它,就犯了一个否定真实假设的错误
2)第二类错误(纳伪错误):
如果H0不是真实的,假设检验时却接受了H0,否定了HA,这样就犯了接受不真实假设的错误。
两者的区别:
第一类错误只有在否定H0时才会发生,而第二类错误只有在接受H0时才会发生,二者不会同时发生。
联系:
在样本容量相同的情况下,犯第一类错误二等概率减少,第二类错误就会增加,反之亦然
假设检验中的两类错误是取证错误和取伪错误。
为了减少犯两类错误的概率要做到:
①显著水平a的取值不可以太高也不可太低,一般去0.05作为小概率比较合适,这样可以使犯两类错误的概率都比较小;②尽量增加样本容量,并选择合理的实验设计和正确的实验技术,以减小标准误,减少两类错误。
8.区间估计指根据一个样本的观测值给出总体参数的估计范围给出总体参数落在这一区间的概率。
9.点估计是指从总体中抽取一个样本,根据样本的统计量对总体的未知参数作出一个数值点的估计。
10.置信度与区间估计的关系为;对于同一总体,置信度越大,置信区间就越小,置信度越小,置信区间越大。
第五章
1.Χ2检验主要有三种用途:
一个样本方差的同质性检验,适合性检验和独立性检验。
一个样本方差的同质性检验用于检验一个样本所属总体方差和给定总体方
差是否差异显著,适合性检验是比较观测值与理论值是否符合的假设检验;独立性检验是判断两个或两个以上因素间是否具有关联关系的假设检验。
Χ2检验用途:
一个样本方差的同质性检验、适合性检验、独立性检验
1)适合性检验:
比较观测值与理论值是否符合的假设检验。
这种方法是对样本
的理论值先通过一定的理论分布推算出来,然后用实际观测值与理论观测值比
较,从而得出实际观测值与理论观测值之间是否吻合的结论,因此适合性检验也
叫吻合性检验或拟合优度检验。
2)独立性检验:
实验九两个或两个以上因子彼此之间的相互独立的还是相互影
响的一类统计方法。
2.Χ2检验基本原理:
应用理论推算值E与观测值O之间的偏离程度来决定的。
理论推算值与实际观测值之间偏差越大,越不符合;偏差越小,越趋于符合;若两值完全相等时,表明理论值与实际值完全符合。
3.Χ2检验的步骤为:
(1)提出无效假设H0:
观测值与理论值的差异由抽样误差引起即观测值=理论值备择假设HA:
观测值与理论值的差值不等于0,即观测值≠理论值
(2)确定显著水平a.一般可确定为0.05或0.01
(3)计算样本的x2,求得各个理论次数Ei,并根据各实际次数Oi,代入公式,计算出样本的x2。
(4)进行统计推断
4.在计算Χ2是应注意:
1)任何一组的理论次数Ei都必须大于5,如果Ei<=5,,统计量会明显偏离Χ2分布,则需要并组或增大样本容量,以满足EI>5;
2)在自由度df=1时,需进行连续性矫正
公式:
对同一资料,进行矫正的值要比未校正的值小。
当自由度df>=2时,一般不需要
矫正。
第六章
1.试验因素:
试验中所研究的影响试验指标的原因或原因组合,简称为因素或因子。
按照性质不同,因素可以分为可控因素和非可控因素。
2.因素水平:
每个试验因素的不同状态(处理的某种特定状态或数量上的差别)。
3.试验处理:
指对受试对象给予某种外部干预(或措施),是试验实施因子水平的一个组合。
可分为单因素处理和多因素处理。
4.试验单位:
试验中能接受不同试验处理的独立的试验载体。
实际上就是根据目的而确定的观测总体。
5.重复:
是指在试验中,将一个处理实施在两个或两个以上的试验单位上。
6.方差分析基本原理:
将所有处理的观测值作为一个整体,一次比较就对所有各组间样本平均数是否有差异作出判断。
基本思想:
将测量数据的总变异按照变异原因不同分解为处理效应和试验效应,并作出其数量估计。
7.方差分析避免的问题;
1)j检验过程繁琐
2)无统一的试验误差,误差估计的精确性和检验的灵敏性低
3)推断的可靠性降低,犯α错误的概率增加
8.方差分析的基本假定:
正态性、可加性、方差同质性
9.数据转换:
平方根转换、对数转换、反正弦转换、倒数转换
样本所来自的总体和方差分析基本假定相抵触,这些数据必须进行适当的数据转
换
10.方差分析的概念、基本思想、一般步骤
1)方差分析是对两个或多个样本平均数差异显著性检验的方法。
(2)方差分析的基本思想是将测量数据的总变异按照变异来源分为处理效应和
误差效应,并作出数量估计,在一定显著水平下进行比较,从而检验处理效应是否显著。
(3)方差分析的基本步骤如下:
a.将样本数据的总平方和与自由度分解为各变异因素的平方和与自由度。
b.列方差分析表进行F检验,分析各变异因素在总变异中的重要程度。
c.若F检验显著,对个处理平均数进行多重比较。
11.多重比较
(1)多个平均数两两间的相互比较称为多重比较。
(2)多重比较常用的方法有最小显著差数法和最小显著极差法,其中最小显著极差法又有新复极差检验和q检验法。
(3)多重比较的结果常以标记字母法和梯形法表示。
标记字母法是将全部平均数从大到小依次排列,然后再最大的平均数上标字母a,将该平均数与以下各平
均数相比,凡相差不显著的都标上字母a,直至某个与之相差显著的则标以字母b。
再以该标有b的平均数为标准,与各个比它大的平均数比较,凡差数差异不显著的在字母a的右边加标字母b。
然后再以标b的最大平均数为标准与以下未
曾标有字母的平均数比较,凡差数不显著的继续标以字母b,直至差异显著的平
均数标以字母c,再与上面的平均数比较。
如此重复进行,直至最小的平均数有了标记字母,并与上面的平均数比较后为止。
这样各平均数间,凡有一个相同标
记的字母即为差异不显著,凡具不同标记的字母即为差异显著。
差异极显著标记方法同上,用大写字母标记。
梯形法是将各处理的平均数差数按梯形列于表中,并将这些差数进行比较。
差
数>LSD(LSR)0.05说明处理平均数间的差异达到显著水平,在差数的右上角标上
“*”号;差数>LSD(LSR)0.01说明处理平均数间的差异达到极显著水平,在差数的右上角标上“**”号。
差数
第七章
1.回归分析:
用来研究呈因果关系的相关变量间的关系的统计分析方法,其中表
示原因的变量为自变量,表示结果的变量为因变量。
2.回归截距是当自变量为零时,因变量的取值,即回归线在y轴上的截距;
3.回归系数是回归直线的斜率,其含义是自变量改变一个单位,因变量y平均增加或减少的单位数。
4.相关分析:
相关分析是用来研究呈平行关系的相关变量之间的关系的统计方法。
5.相关系数表示变量x与变量y相关的程度和性质,
6.决定系数是相关系数的平方,表示变量x引起y变异的回归平方和和占y变异总平方和的比率,它只能表示相关的程度而不能表示相关的性质。
第九章
1.抽样调查中必须考虑的重点问题:
抽样误差,样本容量以及抽样方法
2.生物学领域常用的抽样方法:
随机抽样,顺序抽样,典型抽样
3.平均数资料样本容量的确定:
4s2
n
L2
s
Lt0.05
第十章
1.区间实验:
在田间条件下对作物品种选育及遗传规律与栽培技术等方面进行的试验。
2.真值:
一定时刻,一定位置,一定状态下某量得程度所体现出来的客观值或实际值。
3.准确度:
指在实验中某一实验指标或性状的观测值接近的程度。
4.精确度:
指在实验中同一实验指标或性状的重复观测值很大接近的程度。
5.因素:
也叫供试因子,在试验中所研究的对试验指标有影响的各种技术措施。
例如:
品种、密度
6.水平:
试验因素的质的不同状态或量得不同等级(因素内划分的不同等级)
7.处理:
实际参加试验的试验因素水平或不同因素的实验水平组合。
在单因素试
验中指各个因素的试验的水平。
在所有因素试验中指不同因素水平的组合。
8试验设计三个基本要素:
包括处理因素、受试对象和处理效应
9.田间试验的类型:
一)按试验研究内容划分:
品种、栽培、土壤肥料、病虫害防治
二)按试验因素划分:
单因素试验、多因素试验、综合性试验
单因素试验:
指在整个试验中只重复比较一个试验因素不同水平,其他作为试验条件的因素均应该严格控制一致的试验。
多因素试验:
指同一试验中包含两个或两个以上的试验因素,各因素又分为不同水平,其他试验条件均应该严格控制一致的试验。
综合性试验:
是在较大面积上运用成套的生产栽培技术措施,从中探索高产、稳产、低成本、综合栽培技术的效应
三)按试验小区大小划分:
小区试验、大区试验
小区:
在田间试验中,安排一个处理的小块地段称为试验小区。
区组:
将全部处理分配于具有相对同质的一块土地上,称为一个区组,包括完全区组和不完全区组。
10.试验方案:
按试验目的要求所拟定的进行比较的一组试验处理的总称。
11.试验指标:
试验中用来衡量各种处理效果的好坏的指标,如产品的产量、品质。
通常指作物产量经济性状,包括定性指标和定量指标。
定量指标:
可以直接用来表示数量的指标。
定性指标:
不能直接用数量来表示,只能定性描述的指标。
12.均衡方案:
方案内包含有全部的处理组的方案称为均衡方案;方案内只有部分处理组的方案则称为非均衡方案。
13.对照:
用来与试验处理进行比较的处理。
14.唯一差异原则:
指除处理以外,其他条件应该完全一致。
15.试验效应:
试验因素的独立作用,即因素对试验指标所起的增加或减少的作用。
16.简单效应:
同一因素不同水平之间试验效应的差异。
17.平均效应:
(主效应):
同一因素内各个简单效应的平均数。
18.互作(交互作用):
两个或两个以上因素相互作用所引起的效应或两个因素简
单效应间的差异。
19.三原则:
重复、随机和局部控制
1)重复:
同一处理所放置的试验单元数,即同一处理种植的小区数
2)随机:
每一重复的每一处理都有同等的机会放在任何一个试验小区上。
3)局部控制:
将整个试验空间分成若干个各自相对均匀的局部(区组)
20.生物试验基本要求:
1)试验目的要明确
2)试验条件要有代表性
3)试验结果要可靠
4)试验结果要能重演
21.试验误差:
试验中观测值与理论值之间的偏差,包括粗大误差、系统误差、随机误差。
粗大