生物统计学复习资料重点名词问答计算模拟吐血整理.docx

资源描述

生物统计学复习资料重点名词问答计算模拟吐血整理.docx

《生物统计学复习资料重点名词问答计算模拟吐血整理.docx》由会员分享，可在线阅读，更多相关《生物统计学复习资料重点名词问答计算模拟吐血整理.docx（60页珍藏版）》请在冰点文库上搜索。

生物统计学复习资料重点名词问答计算模拟吐血整理.docx

生物统计学复习资料重点名词问答计算模拟吐血整理

生物统计学复习资料

第一章

生物统计学：

是数理统计在生物学研究中的应用，它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科，属于应用统计学的一个分支。

内容：

试验设计：

试验设计的基本原则、试验设计方案的制定和常用试验设计的方法

统计分析：

数据资料的搜集、整理和特征数的计算、统计推断、方差分析、回归和相关分析、协方差分析等

生物统计学的作用：

1.提供整理、描述数据资料的科学方法并确定其特征2.判断试验结果的可靠性

3.提供由样本推断总体的方法4.试验设计的原则

生物统计学的研究包括了两个过程：

1.从总体抽取样本的过程——抽样过程

2.从样本的统计数到总体参数的过程——统计推断过程

第二章

7．样本标准差：

（1）标准差的大小，受多个观测值的影响，如果观测值与观测值间差异大，标准差就大

（2）在计算标准差的时候，如果对各个观测值加上或者减去一个常数a，其标准差不变；如果乘以或除以一个常数a，则标准差扩大或者缩小a倍

STDEV:

基于给定样本的标准偏差

STDEVP：

基于给定样本总体的标准偏差

8变异系数（CV）：

样本标准差除以样本的平均数，得到百分比

（1）变异系数是样本变量的相对变量，是不带单位的纯数

（2）用变异系数可以比较不同样本相对变异程度的大小

1．次数分布：

在不同区间内变量出现的次数所构成的分布。

2.资料根据生物的形状特性，可分为数量性状和质量性状

3．间断性变数：

指用计数方法获得的数据，其各个观测值必须以整数表示，在两个相邻整数间不允许带有小数的值存在。

4.连续性变数：

指称量、度量或测量方法所得到得数据，其各个观测值并不限制于整数，在两个数值之间可以有微量数值差异的第三个数值存在

5.质量性状资料的方法：

统计次数法，评分法

统计次数法：

于一定总体或样本内，统计其具有某个性状的个体数目及具有不同性状的个体数目，按类别及其次数或相对次数

给分法：

给予每类性状以相对数量的方法。

6.试验资料搜集方法：

调查和试验

7.资料调查方法：

普查和抽样调查

抽样调查：

根据一定的原则对研究对象抽取一部分个体进行测量或度量，把得到的数据资料作为样本进行统计处理，然后利用样本特征数对总体进行推断。

8.随机抽样满足条件：

1）总体中每个个体被抽中的机会均相等；2）总体中任意一个个体是否被抽中是相互独立的

9.统计表要求：

1）标题：

简明扼要，准确地说明表的内容，有时须注明时间、地点

2）标目：

分横纵两项，横列在表的左侧，纵列表上端，须注明计算单位

3）数字：

一律用阿拉伯数字，以小数点对齐，无数字用“/”表示

4）线条：

多用三线条。

上下两条边路略粗

10.统计图绘制的要求：

1）标题简明扼要，列于图的下方

2）横纵坐标两轴有刻度，注明单位

3）横轴从左至右，纵轴由下而上，数值由小至大，图形长宽约为5.4或6.5

4）图中要不同颜色或线条代表不同的事物时，应有图例说明

11.计数资料基本采用单项式分组法进行整理

12.计量资料的整理一般采用组距式分组法

13.次数分布图分类：

条形图、饼图、直方图、多边形图、散点图

14.变量的基本特征：

1）集中性：

变量在趋势上有着向某一中心聚集，或者说以某一数值为中心而分布的性质。

特征数是平均值

2）离散性：

变量有着离中分散变异的性质。

特征数是变异数，常用的指标是极差、方差、标准差和变异系数

15.平均数的种类：

算术平均数、中位数、纵数、几何平均数

17.标准差的作用;

1）表示变量分布的离散度

2）利用标准差的大小，可以概括的估计出变量的次数分布及各类观测值在总体中所占有的比例

3）估计平均数的标准误

4）进行平均数的区间估计和变异系数的计算

18.组距：

根据极差分成若干组，每组的距离相等，称为组距。

组距=极差/组数

19.自由度：

样本内独立且能自由变动的离均差的个数。

20.变异系数：

样本的标准差除以平均数的百分比

21.平均数的用处：

平均数指出了一组数据的中心位置，标志着资料所代表性状的数量水平和质量水平；

作为样本或资料的代表数据与其他资料进行比较。

平均数的特征：

离均差之和为零；

离均差平方和为最小。

21.标准差的用处：

标准差的大小，受实验后调查资料中的多个观测值的影响，如果观测值之间的差异大，离均差就越大；

在计算标准差是如果对观察值加上一个或减去一个a，标准差不变；如果给各观测值乘以或除以一个常数a，所得的标准差就扩大或缩小a倍；

在正态分布中，X+-S内的观测值个数占总个数的68.26%，X-+2s内的观测值个数占总个数的95.49%，x-+3s内的观测值个数占总个数的99.73%。

标准差的特征：

表示变量分布的离散程度；

标准差的大小可以估计出变量的次数分布及各类观测值在总体中所占的比例；

估计平均数的标准差；

进行平均数区间估计和变异数的计算。

22.比较总体和样本的平均数、标准差：

总体平均数µ=∑x/N,式中分母为总体观察个数N；样本平均数x=∑x/n，公式中n是样本容量；样本平均数是总体平均数的无偏估计值。

总体和样本标准差都等于离均差的平方和除以样本容量；而总体标准差σ=,分母上是总体观测值个数N;而样本标准差是s=

，分母上是样本自由度n-1.样本标准差s是总体标准差σ的无偏估计值。

第三章：

概率的计算法则：

（1）乘法定理：

如果A和B为独立事件，则事件A和B同时发生的概率等于各自事件的概率的乘积

（2）加法定理：

互斥事件A和B的和的概率等于事件A和事件B的概率之和

加法定理推理1：

如果A1、A2、…An为n个互斥事件，则其和事件的概率为：

P（A1＋A2…An）=P（A1）+P（A2）＋…＋P（An）

加法定理：

如果A和B是任何两件事件，则

概率分布：

（1）离散型随机变量的概率分布

变量（x）

x1x2x3…xn

概率（P）

p1p2p3…pn

P（x=xi）=pi（i=1,2,…,n）

离散随机变量的方差

（2）连续型随机变量的概率分布

连续型随机变量的概率分布

1.连续型随机变量可以取某一区间或整个实数轴上的任意一个值

2.它取任何一个特定的值的概率都等于0

3.不能列出每一个值及其相应的概率

4.通常研究它取某一区间值的概率

5.用数学函数的形式和分布函数的形式来描述

概率密度函数：

（1）设X为一连续型随机变量，x为任意实数，X的概率密度函数记为f（x），它满足条件

（2）,f（x）不是概率

几种常见的概率分布：

（适用范围，尾函数，自由度）

1.二项分布的概率函数记作B（n，p）或者B（n,π）

（1）每次试验只有两个对立结果，分布记为A与它们出现的概率分布为p与q（q＝1-p）

（2）试验具有重复性和独立性

二项式分布的概率累积函数：

若随机变量x服从二项式分布，则有二项分布的总体平均数为

二项分布的总体标准差为：

二项成数（百分数）分布的平均数：

二项成数（百分数）分布的标准差：

例：

假设年龄60～64岁的100名男性在1986年注射了一种新的流感疫苗而在第二年内死亡5人，这正常嘛？

（注：

1986年，60～64岁的男性老人第二年的死亡率约为0.02）

解：

要知道100个男性的样本死亡5人是不是“异常”事件，这种估计的一个准则是寻找至少5人死亡的概率。

注：

通常是把概率值为0.05或者更小的概率事件识别为异常（稀有事件）。

由于至少5人死亡的概率是0.05，可见100人中至少死亡5人是稍微有点异常，但不是很异常。

如果至少死亡10人，那么概率是3.44*10-5，这就很不正常，因而，在没有其他证据显示此疫苗有效前，应考虑停止使用。

2.泊松分布

二项式分布中，如果p值很小而n值很大（p<0.1和np<5），则泊松分布

式中：

为参数，

泊松分布的平均数、方差、标准差

例：

假如我们研究乳腺癌的遗传敏感性。

我们发现，母亲

曾患有乳腺癌的1000名40～49岁的妇女，在研究开始后的1年中，有4人患有乳腺癌，而我们从大总体中知道在这相同的时间内，1000人中有1个人发生乳腺癌。

试问乳腺癌有没有敏感性？

解：

如果用二项分布，则n＝1000，p＝1/1000,

BINOMDIST

number_s

Trials

probability_s

cumulative

1000

0.001

Ture

0.981

0.019

解：

如果用泊松分布，则n＝1000，p＝1/1000,则平均值＝1

则：

这个事件是异常事件，则认为有乳腺癌的妇女，她们的子代具有遗传敏感性

6.正态分布求和为0

4．t分布:

是小样本分布，小样本分布一般是指n<30。

t分布适用于当总体标准差未知时用样本标准差代替总体标准差，由样本平均数推断总体平均数以及2个小样本之间差异的显著性检验等P45

6.F分布

1、概率抽样：

根据已知的概率选取样本

简单随机抽样：

完全随机地抽选样本

分层抽样：

总体分成不同的“层”，然后在每一层内进行抽样

整群抽样：

将一组被调查者（群）作为一个抽样单位

等距抽样：

在样本框中每隔一定距离抽选一个被调查者

2、非概率抽样：

不是完全按随机原则选取样本

非随机抽样：

由调查人员自由选取被调查者

判断抽样：

通过某些条件过滤来选择被调查者

3、配额抽样：

选择一群特定数目、满足特定条件的被调查者

抽样分布：

从一个给定的总体中抽取（不论是否有放回）容量（或大小）为n的所有可能的样本，对于每一个样本，计算出某个统计量（如样本均值或标准差）的值，不同的样本得到的该统计量的值是不一样的，由此得到这个统计量的分布，称之为抽样分布

1.所有样本指标（如均值、比例、方差等）所形成的分布称为抽样分布

2.是一种理论概率分布

3.随机变量是样本统计量——样本均值,样本比例等

4结果来自容量相同的所有可能样本

样本平均数的基本性质：

（1）样本均值的均值（数学期望）等于总体均值

定义：

一个参数

的估计量是

，如果

则称

是

的无偏估计

（2）样本均值的方差等于总体方差的1/n

（3）样本平均数的标准误差的定义

（4）当总体服从正态分布N~（μ,σ2）时，来自总体的所有容量为n的样本的均值也服从正态分布，的数学期望为μ，方差为σ2/n。

即～N（μ,σ2/n）

中心极限定理：

设从均值为，方差为2的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布

两个独立样本平均数差数的分布P44

1.事件：

一种事物常存在几种可能出现的情况，每种情况都为一次事件。

2.随机事件：

在一定条件下，可能出现，也可能不出现的事件。

3．随机现象：

在原本条件不变的条件下，重复进行观察，其结果未必相同的现象。

随机现象三个特征：

1）试验可以在相同条件下多次重复且相互独立；

2）给定条件下每次试验结果不只一个；

3）每次试验不能预料出现那种结果，但可以大概预知。

4.常见的理论分布：

离散型随机变量的二项分布、泊松分布、连续型随机变量的正态分布

5.事件的相互关系：

1）和事件：

事件A和事件B至少有一件发生而构成的新事件

2）积事件：

事件A和事件B同时发生而构成的新事件

3）互斥事件：

事件A和事件B不能同时发生

4）对立事件：

事件A和事件B必有一个发生，但二者不能同时发生

5）独立事件：

事件A的发生或事件B的发生毫无关系

6）完全事件：

如果多个事件A1、A2…两两互斥，切每次试验结果必然发生其一

6.加法定理是互斥事件A和B的和事件的概率等于事件A和事件B的概率之和

7.乘法定理是独立事件的概率的乘积

8.大数定理：

样本容量越大，样本统计数与总体参数之差越小

9.二项分布、泊松分布与正态分布的关系：

如果n相当大或p与q基本接近时，二项分布接近于正态分布；当λ较大时，泊松分布也接近正态分布。

10.正态分布的特征：

1）当x=u是，f（x）有最大值

2）当x-u的绝对值相等时，f（x）值也相等，正态分布是以u为中心向左右两侧对称分布

3）（X-u）/σ的绝对值越大，f（x）值也越小，但f（x）永不会等于0，所以正态分布以x轴为渐近线

4）正态分布的曲线完全由参数u和σ决定，u确定正态分布曲线在x轴上的中心位置，减小，曲线左移，增大曲线右移。

σ确定正态分布曲线的展开程度，越小，曲线展开程度越小，曲线越陡高，反之亦然

5）正态分布曲线在x=u+σ处各有一个拐点，曲线通过拐点是改变弯曲的方向

6）正态分布的概率密度曲线与渐近线X轴所围成的全部面积必然等于1

11.无偏估计值：

如果参数所有样本的某一统计数的平均数等于总体的相应参数

（1）样本平均数是总体平均数的无偏估计值

（2）样本方差是总体方差的无偏估计值

（3）样本标准差不是总体的标准差的无偏估计值

12.中心极限定理：

如果被抽样总体不是正态总体，但具有平均数u和σ2，当样本容量n不断增大，样本平均数的分布也越来越接近正态分布，且具有平均数u和方差σ2/n

13.t分布的特征：

1）t分布曲线是左右对称，围绕平均数u=0向两侧递降

2）t分布受自由度ｄｆ＝ｎ－１的制约，每个自由度都有一条ｔ分布曲线

3）和正态分布相比，ｔ分布的顶部偏低，尾部偏高，自由度大于等于３0时，其曲线就比较接近正态分布曲线，当自由度趋向于无穷大时和正态分布曲线重合

14.重置抽样（放回式抽样）：

指从总体中抽取一个个体，记下其特征数后再放回总体的抽样方法。

15.非重置抽样（不放回式抽样）：

指从总体中抽取一个个体，记下其特征数后不再放回的抽样方法。

16.抽样分布：

指从总体中按一定的样本容量随机抽取全部所有可能的样本，由这些样本计算的统计数组成的分布。

17.无偏估计：

指在统计数上如果所有可能样本的统计数的平均数等于总体相应的参数，则称这个统计数为总体相应参数的无偏估计量。

18．频率与概率之间的转化：

事件A在n次重复试验中发生了m次，则比值m／n称为事件A发生的频率，记为W（A）；事件A在n次重复试验中发生了m次，当试验次数n不断增加时，事件A发生的频率W（A）就越来越接近某一确定值p，则p即为事件A发生的概率。

二者的关系是：

当试验次数n充分大时，频率转化为概率。

19.正态分布、标准正态分布、正态分布曲线的特点

正态分布是一种连续型随机变量的概率分布，它的分布特征是大多数变量围绕在平均数左右，由平均数到分布的两侧，变量数减小，即中间多，两头少，两侧对称。

U=0，σ²=1的正态分布为标准正态分布。

正态分布具有以下特点：

标准正态分布具有以下特点：

①、正态分布曲线是以平均数μ为峰值的曲线，当x=μ时，f（x）取最大值

；②、正态分布是以μ为中心向左右两侧对称的分布③、

的绝对值越大，f（x）值就越小，但f（x）永远不会等于0，所以正态分布以x轴为渐近线，x的取值区间为（-∞，+∞）；④、正态分布曲线完全由参数μ和来决定⑤、正态分布曲线在x=μ±处各有一个拐点；⑥、正态分布曲线与x轴所围成的面积必定等于1。

正态分布具有两个参数μ和，μ决定正态分布曲线在x轴上的中心位置，μ减小曲线左移，增大则曲线右移；决定正态分布曲线的展开程度，越小曲线展开程度越小，曲线越陡，越大曲线展开程度越大，曲线越矮宽。

第四章

假设检验：

又称显著性检验：

根据总体的理论分布和小概率原理，对未知或不完全知道的总体提出两种彼此对立的假设，然后由样本的实际结果，经过一定的计算，做出在一定概率意义上应该接受的那种假设的推断。

如果抽样结果使小概率事件发生，则拒绝假设。

如果抽样结果没有使小概率事件发生，则接受假设

假设检验步骤：

1）提出假设:

对样本所属总体提出无效假设Ho和备择假设HA

2）确定显著水平α

3）计算概率：

在Ho正确的前提下，计算统计分布的统计数或相应的概率值。

4）推断是否接受假设：

根据小概率原理，进行差异是否显著地推断，并作出推论。

特点：

（1）采用逻辑上的反证法

（2）依据统计学上的小概率原理

生物统计学上，一般认为：

等于或小于0.05或0.01的概率为小概率

在一次试验中，一个几乎不可能发生的事件发生的概率。

假设检验中的两类错误：

1）第一类错误（弃真错误）：

如果Ｈ0是真实的，假设检验却否定了它，就犯了一个否定真实假设的错误

2）第二类错误（纳伪错误）：

如果Ｈ0不是真实的，假设检验时却接受了Ｈ0，否定了ＨＡ，这样就犯了接受不真实假设的错误。

两者的区别：

第一类错误只有在否定Ｈ0时才会发生，而第二类错误只有在接受Ｈ0时才会发生，二者不会同时发生。

联系：

在样本容量相同的情况下，犯第一类错误二等概率减少，第二类错误就会增加，反之亦然

假设检验中的两类错误是取证错误和取伪错误。

为了减少犯两类错误的概率要做到：

显著水平a的取值不可以太高也不可太低，一般去0.05作为小概率比较合适，这样可以使犯两类错误的概率都比较小；

尽量增加样本容量，并选择合理的实验设计和正确的实验技术，以减小标准误，减少两类错误。

一．大样本平均数的假设检验——u检验

应用范围：

1）总体方差

已知

2）总体方差

未知，但样本为大样本（

）,用s2来代替

两个样本平均数比较的u检验

二、小样本平均数的假设检验——t检验

应用范围：

总体方差未知，且样本为小样本（）,采用t检验

当总体方差为未知时，当样本容量小于30，检验一个样本平均数是否属于平均数为的指

定总体，其遵循自由度为df＝n－1的t分布

1.统计推断是根据理论分布由一个样本或一系列样本所得的结果来推断总体特征的过程。

2.参数估计则是由丫根本结果对总体参数在一定概率水平下所做出的估计。

参数估计包括点估计和区间估计。

3.统计推断包括假设检验和参数估计两个方面

任务：

分析误差产生的原因，确定差异的性质，排除误差干扰，从而对总体的特征做出正确的判断。

6.小概率原理：

如果假设一些条件，并在假设的条件下能够准确的算出事件Ａ出现的芥蓝菜为很小，则在假设条件下的ｎ次独立重复试验中，事件Ａ将按预定的概率发生，而在一次试验中则几乎不能发生。

小概率原理是指概率很小的事件再一次试验中被认为是几乎不可能会发生的，一般统计学中常把概率概率

小于0.05或0.01的时间作为小概率事件。

他是假设检验的依据，如果在无效假设H0成立的条件，某事件的概率大于0.05或0.01，说明无效假设成立，则接受H0，否定HA;，如果某时间的概率小于0.05或0.01，说明无效假设不成立，则否定H0，接受HA。

8.区间估计指根据一个样本的观测值给出总体参数的估计范围给出总体参数落在这一区间的概率。

9.点估计是指从总体中抽取一个样本，根据样本的统计量对总体的未知参数作出一个数值点的估计。

10.置信度与区间估计的关系为;对于同一总体，置信度越大，置信区间就越小，置信度越小，置信区间越大。

第五章

统计假设：

H0：

观测值与理论值的差异是由随机误差引起

HA：

观测值与理论值之间有真实差异

所以卡方值是度量实际观测值与理论值偏南程度的一个统计量

卡方值越小，表明观测值与理论值越接近

卡方值越大，表明观测值与理论值相差越大

卡方值为0，表明H0严格成立，且它不会有下侧否定区，只能进行右尾检验

连续性：

由于离散型资料的卡方检验只是近似地服从连续型变量的卡方分布，所以在对离散型资料进行卡方检验计算的时，结果常常偏低，特别是当自由度df=1时，有较大偏差，为此需要进行矫正，当自由度df>1时，与连续型随机变量卡方分相近似，这时可以不做连续性矫正

注意：

要求各个组内的理论次数不小于5，如某组理论次数小于5，则应把它与其相邻的一组或几组合并，直到理论次数大于5为止

适合性检验（吻合性检验或拟合优度检验）步骤：

1.提出无效假设，即认为观测值和理论值之间没有差异

2.规定显著性水平

3.计算样本卡方值

4.根据规定的显著水平和自由度计算出卡方值，再和实际计算的卡方值进行比较

独立性检验步骤：

1.提出无效假设，即认为所观测的各属性之间没有关联

2.规定显著性水平

3.根据无效假设计算出理论数

4.根据规定的显著水平和自由度计算出卡方值，再和计算的卡方值进行比较。

如果接受假设，则说明因子之间无相关联，是相互独立的

如果拒绝假设，则说明因子之间的关联是显著的，不独立

1.Χ²检验主要有三种用途：

一个样本方差的同质性检验，适合性检验和独立性检验。

一个样本方差的同质性检验用于检验一个样本所属总体方差和给定总体方差是否差异显著，适合性检验是比较观测值与理论值是否符合的假设检验；独立性检验是判断两个或两个以上因素间是否具有关联关系的假设检验。

Χ²检验用途：

一个样本方差的同质性检验、适合性检验、独立性检验

1）适合性检验：

比较观测值与理论值是否符合的假设检验。

这种方法是对样本的理论值先通过一定的理论分布推算出来，然后用实际观测值与理论观测值比较，从而得出实际观测值与理论观测值之间是否吻合的结论，因此适合性检验也叫吻合性检验或拟合优度检验。

2）独立性检验：

实验九两个或两个以上因子彼此之间的相互独立的还是相互影响的一类统计方法。

2.Χ²检验基本原理：

应用理论推算值E与观测值O之间的偏离程度来决定的。

理论推算值与实际观测值之间偏差越大，越不符合；偏差越小，越趋于符合；若两值完全相等时，表明理论值与实际值完全符合。

3.Χ²检验的步骤为：

（1）提出无效假设H0:

观测值与理论值的差异由抽样误差引起即观测值=理论值

备择假设HA：

观测值与理论值的差值不等于0，即观测值≠理论值

（2）确定显著水平a.一般可确定为0.05或0.01

（3）计算样本的x2，求得各个理论次数Ei,并根据各实际次数Oi，代入公式，计算出样本的x2。

（4）进行统计推断

4.在计算Χ²是应注意：

1）任何一组的理论次数Ei都必须大于5，如果Ei<=5，，统计量会明显偏离Χ²分布，则需要并组或增大样本容量，以满足EI>5;

2）在自由度df=1时，需进行连续性矫正

公式：

对同一资料，进行矫正的值要比未校正的值小。

当自由度df>=2时，一般不需要矫正。

第六章

方差分析又称F检验（F-test）;方差分析是关于k（k≥3）个样本平均数的假设测验方法，是将总变异按照来源分为处理效应和试验误差，并做出其数量估计。

发现各变异原因在总变异中相对重要程度的一种统计分析方法。

总变异分解为组间变异和组内变异。

组内变异是个体差异所致，是抽样误差。

组间变异可能由两种原因所致，一是抽样误差；二是处理不同。

在抽样研究中抽样误差是不可避免的，故导致组间变异的第一种原因肯定存在；第二种原因是否存在，需通过假设检验作出推断

方差分析基本思想：

1、把k个总体当作一个整体看待

2、把观察值的总变异的平方和及自由度分解为不同来源的平方和及自由度

3、计算不同方差估计值的比值4、检验各样本所属的平均数是否相等

•实际上是观察值变异原因的数量分析

方差分析应用条件：

1、各样本须是相互独立的随机样本2、各样本来自正态分布总体3、各总体方差相等，即方差齐

方差分析基本用途：

1、多个样本平均数的比较2、多个因素间的交互作用

展开阅读全文

生物统计学复习资料 重点名词问答计算模拟吐血整理.docx

生物统计学复习资料重点名词问答计算模拟吐血整理.docx