高通量测序科研入门常用名词意义整理Word文档下载推荐.docx
《高通量测序科研入门常用名词意义整理Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《高通量测序科研入门常用名词意义整理Word文档下载推荐.docx(19页珍藏版)》请在冰点文库上搜索。
1)有效测序数据统计
2)可供精准分析的数据统计
2.数据回归样品
1)根据tag信息将测序数据回归各自样品
3.单样品微生物种类及丰度分析
1)序列聚类OTU(OperationalTaxonomicUnits)
2)取样深度判定(RarefactionCurve)
3)计算菌群多样性和丰度指数
4)单样品群落结构分析
4.多样品间比较分析
1)全样品相似度比对
2)多样品OTU比较
3)多样品群落结构分析
4)PCA(Principalcomponentanalysis)分析
5)WeightedunifracPCA分析
6)组间显著性差异分析
三、16SrRNA
为核糖体的RNA的一个亚基,16SrDNA就是编码该亚基的基因。
细菌rRNA(核糖体RNA)按沉降系数分为3种,分别为5S、16S和23SrRNA。
16SrDNA是细菌染色体上编码16SrRNA相对应的DNA序列,存在于所有细菌染色体基因中。
16SrDNA是细菌的系统分类研究中最有用的和最常用的分子钟,其种类少,含量大(约占细菌DNA含量的80%),分子大小适中,存在于所有的生物中,其进化具有良好的时钟性质,在结构与功能上具有高度的保守性[2],素有“细菌化石”之称。
在大多数原核生物中rDNA都具有多个拷贝,5S、16S、23SrDNA的拷贝数相同。
16SrDNA由于大小适中,约1.5Kb左右,既能体现不同菌属之间的差异,又能利用测序技术较容易地得到其序列,故被细菌学家和分类学家接受。
16SrRNA与16SrDNA的区别
16S中的"
S"
是一个沉降系数,亦即反映生物大分子在离心场中向下沉降速度的一个指标,值越高,说明分子越大。
rDNA和rRNA中的小写字母"
r"
是ribosome(核糖体)的缩写。
rDNA指的是基因组中编码核糖体RNA(rRNA)分子的对应的DNA序列,也就是编码16SrRNA的基因。
rRNA指的是rDNA的转录产物,它是构成核糖体的重要成分,核糖体由许多小的rRNA分子组装而成,16SrRNA是其中一个组件.一般所分析的对象都是16srDNA,因为DNA提取容易,也比较稳定。
16SrRNA具有多项功能。
1.对于核糖体蛋白的固定起到脚手架的作用。
2.3'
末端包含反向的SD序列,用来与mRNA的AUG起始密码子结合。
16SrRNA的3'
端与S1、S21的结合被发现与蛋白质合成的开始有关系。
3.与23S进行交互,帮助两个核糖体子单元的结合。
(50S+30S)
4.在Asite稳定密码子与反密码子的正确配对。
16SrDNA鉴定方法
随着生物技术的飞速发展,传统的微生物鉴定方法常常难以鉴定众多的生长习性复杂的微生物,因而基于基因组序列的分子鉴定受到广泛关注。
在细菌基因组中,编码16SrRNA的rDNA基因具有良好的进化保守性,适宜分析的长度(约为1540bp),以及与进化距离相匹配的良好变异性,所以成为细菌分子鉴定的标准标识序列。
16SrDNA的序列包含9或10个可变区(variableregion)和11个恒定区(constantregion)。
保守序列区域反映了生物物种间的亲缘关系,而高变序列区域则能体现物种间的差异。
16SrDNA分子的序列特征为不同分类级别的近缘种系统分类奠定了分子生物学基础。
目前16SrDNA的序列信息已经广泛应用于菌种鉴定和系统发生学研究。
16SrDNA数据分析
初始数据层面:
质量统计,序列长度及分布统计,数据预处理,有效序列统计。
OTU层面:
OTU分类学统计,Alpha多样性分析,稀疏性曲线,Shannon-Wiene曲线,Rankabundance曲线。
物种丰度层面:
物种分类注释,Beta多样性分析,样本间OTU差异分布分析,OTU丰度分布聚类分析,主成分分析,显著性差异分析,样本组间差异分析。
群落结构层面:
多样本物种分布比较,群落相似度比较,群落相似度PCoA分析,基于组间进化的差异显著性(Un)WeightedUnifrac分析,RDA/CCA菌群与环境因子之间的关系分析,系统发育树的构建,含种类分级的进化树的构建。
四、Alpha多样性
在微生物多样性分析的报告中主要包括五个部分:
Alpha多样性分析、Beta多样性分析、物种组成分析、进化关系分析、相关性分析,其中Alpha多样性分析是生态学中生物多样性的一个重要的组成部分,也是比较基础的一部分。
Alpha多样性是指一个特定区域或生态系统内的多样性,是反映丰富度和均匀度的综合指标。
Alpha多样性主要与两个因素有关:
一是种类数目,即丰富度;
二是多样性,群落中个体分配上的均匀性。
群落丰富(Communityrichness)的指数主要包括Chao指数和ACE指数。
群落多样性(Communitydiversity)的指数,包括Shannon指数和Simpson指数。
(Simpson指数是评价优势度,Shannon是评价多样性;
Simpson指数越高代表物种多样性越低;
Simpson指数和Shannon指数是相反关系)
群落丰富度指
Chao:
是用chao1算法估计群落中含OTU数目的指数,chao1在生态学中常用来估计物种总数,由Chao(1984)最早提出。
Ace:
用来估计群落中含有OTU数目的指数,由Chao提出,是生态学中估计物种总数的常用指数之一,与Chao1的算法不同。
Chao和Ace越大,说明群里中含有的OTU数目越多,群落的丰富度越大。
群落多样性指数
Simpson:
是生态学中常用的一个指数,它反映的是优势种在群落中的地位和作用,若一个群里中优势种占的多,其他非优势物种所占的比例则会减少,这说明Simpson指数值越大,说明群落多样性越低,它与其他多样性指数均呈负相关。
Shannon:
用来估算样品中微生物的多样性指数之一。
它与Simpson多样性指数均为常用的alpha多样性的指数。
Shannon值越大,说明群落多样性越高。
Coverage:
是指各样品文库的覆盖率,其数值越高,则样本中序列没有被测出的概率越低。
在评价样本的Alpha多样性时,既要考虑丰富度,又要考虑多样性,需根据上述指数综合考虑评价。
分析软件:
mothur[1](versionv.1.30.1http:
//www.mothur.org/wiki/Schloss_SOP#Alpha_diversity)指数分析,用于指数评估的OTU相似水平97%(0.97)
Table:
Communityrichnessestimator
注:
由于数据样品较多,此处以图例形式列出部分。
其中label:
0.03即相似水平;
样本信息及多样性指数统计结果如下:
Table:
Estimatorstable
SampleID:
样品名称;
Reads:
被分入所有OTU中的总优化序列数;
OTU:
本次实验中该样品优化序列划分得到的OTU数目;
Chao,Ace,Coverage,Shannon,Simpson:
分别表示各个指数;
0.03:
相似性水平为0.97。
五、稀疏性分析(rarefactionanalysis)和稀疏性曲线(rarefactioncurve)
稀疏性分析是一种基于核酸水平的微生物多样性分析方法,通过统计学分析方法计算单一类型的物种在相应的大类里所占的比例。
稀疏性曲线是从样本中随机抽取一定数量的个体,统计出这些个体所代表物种数目,并以个体数与物种数来构建曲线。
它可以用来比较测序数量不同的样本物种的丰富度,也可以用来说明样本的取样大小是否合理。
对于大型生物圈的物种多样性确定,往往因为成本等原因无法大量采样研究,只能通过设计科学的采样方式抽取少量样品来估算,Rarefaction就是其中一种基于核酸水平的微生物多样性分析方法,通过统计学分析方法计算单一类型的物种在相应的大类里所占的比例。
稀疏性曲线(rarefactioncurve):
一般是从样本中随机抽取一定数量的个体,统计出这些个体所代表物种数目,并以个体数与物种数来构建曲线。
分析采用对优化序列进行随机抽样的方法,以抽到的序列数与它们所能代表OTU的数目构建rarefactioncurve。
简单来说,稀疏性曲线与Coverage类似,Rarefaction是以16SrDNA序列条带数目为横坐标,操作分类单元(OUT)数目为纵坐标的一条曲线,斜率逐渐平缓,即随着16SrDNA序列条带数目增加,OTU数目也增加。
当最后曲线趋向平坦时,说明取样的数量合理,更多的取样只会产生少量新的OTU,反之则表明继续取样还可能产生较多新的OTU。
因此,通过作稀释性曲线,可以反应出样品的取样深度情况。
默认是在97%相似性水平下划分OUT并制作各样品的稀疏曲线。
横轴:
从某个样品中随机抽取的测序条数;
Label0.03表示该分析是基于OTU序列差异水平在0.03,即相似度为97%的水平上进行运算。
纵轴:
基于该测序条数能构建的OTU数量。
六、Shannon-Weiner指数
Shannon-Wiener曲线是反映样品中微生物多样性的指数,利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,以此反映各样本在不同测序数量时的微生物多样性。
当曲线趋向平坦时,说明测序数据量足够大,可以反映样品中绝大多数的微生物信息。
软件:
使用97%相似度的OTU,利用mothur计算不同随机抽样下的shannon值,利用R语言工具制作曲线图。
来源于信息理论。
它的计算公式表明,群落中生物种类增多代表了群落的复杂程度增高,即H值愈大,群落所含的信息量愈大。
Shannon-Weiner指数(H):
H=-∑|(ni∕N)ln(ni/N)|
式中:
ni——第i个种的个体数目,
N——群落中所有种的个体总数。
上式亦可表示成:
pi=ni/N,表明第i个种的相对多度。
例图:
七、RankAbundance曲线
Rank-abundance曲线是分析多样性的一种方式。
构建方法是统计单一样品中,每一个OTU所含的序列数,将OTUs按丰度(所含有的序列条数)由大到小等级排序,再以OTU等级为横坐标,以每个OTU中所含的序列数(也可用OTU中序列数的相对百分含量)为纵坐标做图。
Rank-abundance曲线可用来解释多样性的两个方面,即物种丰度和物种均匀度。
在水平方向,物种的丰度由曲线的宽度来反映,物种的丰度越高,曲线在横轴上的范围越大;
曲线的形状(平滑程度)反映了样品中物种的均度,曲线越平缓,物种分布越均匀。
软件:
使用97%相似度的OTU,利用R语言工具制作曲线图。
注:
横坐标:
OTU等级,“500”代表样本中按照丰度排列第500位的OTU;
纵坐标:
该等级OTU中序列数的相对百分含量,即属于该OTU的序列数除以总序列数,纵坐标轴上数字,例如“100”代表相对丰度为100%,“10”代表相对丰度为10%,依次类推。
八、微生物种属鉴定及相关分析
>
分类学分析
在之前的分析步骤中,已经将序列按照其自身的碱基组成的相似性,分归到各OTU中。
在进行分类学分析时,首先,将每一条优质序列都与SILVA119数据库进行比对,找出其最相近且可信度达80%以上的种属信息。
之后,将每一个OTU中的所有序列进行类比,找出同一OTU中的不同序列的最近祖先的种属信息。
最后,将得到的结果记录在表格文件中。
这样做,可以在保留最可能多的信息量的情况下,确保得出信息的准确性。
使用软件:
mothur
OTUname为OTU编号;
第二列至OTUsize列的前一列为各样本的序列在所有OTU中的含有情况。
例如,第二行第二列的数字代表样品A中有多少序列被划分入OTU1中。
OTUsize为该OTU中所含序列的数量;
Taxonomy列为OTU对应的种属信息。
种属信息按照分类学水平分为多列,我们将物种的门、纲、目、科、属、种的信息进行了分类分析,便于对数据的筛选提取。
例如,需要提取所有含有属信息的OTU的相关信息,可在excel中选取属这一列,在工具栏的数据项中,点选筛选,查看该列第一行的单元格,在下拉菜单中的文本筛选项下方的区域内,取消选择“空白”,点确定,即得到所有含有属信息的OTU信息。
注:
分类学数据库中会出现一些分类学谱系中的中间等级没有科学名称,以norank作为标记。
分类学比对后根据置信度阈值的筛选,会有某些分类谱系在某一分类级别分值较低,在统计时以Unclassified标记。
将OTU综合分类表中的信息按照门、纲、目、科、属、种6个水平分别提取信息,分别统计各样品在不同分类水平上的菌群组成及丰度。
例表:
群落结构组成柱状图
根据分类学分析结果,可以得知一个或多个样品在各分类水平上的分类学比对情况。
在结果中,包含了两个信息:
样品中含有何种微生物;
样品中各微生物的序列数,即各微生物的相对丰度。
因此,可以使用统计学的分析方法,观测样品在不同分类水平上的群落结构。
将多个样品的群落结构分析放在一起对比时,还可以观测其变化情况。
根据研究对象是单个或多个样品,结果可能会以不同方式展示。
通常使用较直观的饼图或柱状图等形式呈现。
群落结构的分析可在任一分类水平进行。
基于物种分类信息的数据表,利用R语言工具作图或在EXCLE中编辑作图。
为使视图效果最佳,建议作图时可将丰度极低的部分合并为other在图中显示。
多样品相似度树与柱状图组合分析
左边是样品间基于群落组成的层次聚类分析(bray-curtis算法),右边是样品的群落结构柱状图。
九、OTU群落聚类及相关分析
OTU(OperationalTaxonomicUnits)是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。
在生物信息分析中,一般来说,测序得到的每一条序列来自一个菌。
要了解一个样品测序结果中的菌种、菌属等数目信息,就需要对序列进行归类操作(cluster)。
通过归类操作,将序列按照彼此的相似性分归为许多小组,一个小组就是一个OTU。
根据客户指定的相似度(96%、97%或者98%),对所有序列进行OTU划分并进行生物信息统计分析。
通常在97%的相似水平下的OTU进行生物信息统计分析。
十、RankAbundance曲线
Rank-abundance曲线可用来解释多样性的两个方面,即物种丰度和物种均匀度。
十一、韦恩图(Venn)
venn图可用于统计多个样品中所共有和独有的OTU数目,可以比较直观的表现环境样品的OTU数目组成相似性及重叠情况。
通常情况下,分析时选用相似水平为97%的OTU样品表。
使用97%相似度的OTU,R语言工具统计和作图。