《生物信息学》学生复习资料.docx

上传人:b****4 文档编号:4689011 上传时间:2023-05-07 格式:DOCX 页数:22 大小:31.65KB
下载 相关 举报
《生物信息学》学生复习资料.docx_第1页
第1页 / 共22页
《生物信息学》学生复习资料.docx_第2页
第2页 / 共22页
《生物信息学》学生复习资料.docx_第3页
第3页 / 共22页
《生物信息学》学生复习资料.docx_第4页
第4页 / 共22页
《生物信息学》学生复习资料.docx_第5页
第5页 / 共22页
《生物信息学》学生复习资料.docx_第6页
第6页 / 共22页
《生物信息学》学生复习资料.docx_第7页
第7页 / 共22页
《生物信息学》学生复习资料.docx_第8页
第8页 / 共22页
《生物信息学》学生复习资料.docx_第9页
第9页 / 共22页
《生物信息学》学生复习资料.docx_第10页
第10页 / 共22页
《生物信息学》学生复习资料.docx_第11页
第11页 / 共22页
《生物信息学》学生复习资料.docx_第12页
第12页 / 共22页
《生物信息学》学生复习资料.docx_第13页
第13页 / 共22页
《生物信息学》学生复习资料.docx_第14页
第14页 / 共22页
《生物信息学》学生复习资料.docx_第15页
第15页 / 共22页
《生物信息学》学生复习资料.docx_第16页
第16页 / 共22页
《生物信息学》学生复习资料.docx_第17页
第17页 / 共22页
《生物信息学》学生复习资料.docx_第18页
第18页 / 共22页
《生物信息学》学生复习资料.docx_第19页
第19页 / 共22页
《生物信息学》学生复习资料.docx_第20页
第20页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

《生物信息学》学生复习资料.docx

《《生物信息学》学生复习资料.docx》由会员分享,可在线阅读,更多相关《《生物信息学》学生复习资料.docx(22页珍藏版)》请在冰点文库上搜索。

《生物信息学》学生复习资料.docx

《生物信息学》学生复习资料

《生物信息学》复习资料

陈芳宋东光

教材:

《生物信息学简明教程》(钟扬编)

1绪论

分子生物学与计算机、信息科学的结合-生物信息学(Bioinformatics);

Bioinformaticsisthescienceofstoring,extracting,organizing,analyzing,interpreting,andutilizinginformationfrombiologicalsequencesandmolecules.

生物信息学及其分支学科

分子生物信息学(molecularinformatics)-即狭义的生物信息学,指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据;

生物信息学(bioinformatics)-广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科,对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释;生物信息学是广义的计算生物学的分支,在为生物学系统建模中应用了量化分析技术;

计算分子生物学(computationalmolecularbiology)-开发和使用数学和计算机技术以帮助解决分子生物学中的问题,侧重于发展理论模型和有效算法;

分子计算(molecularcomputing)-将DNA作为一种信息储存器,应用PCR技术和生物芯片等来进行计算。

生物信息学的主要目的不是分子发展最精致的算法,其目的是发现生物体以怎样的方式生存。

生物信息学和计算生物学研究包括从生物系统的性质抽象出为数学或物理模型,到实现数据分析的新算法,以及开发数据库和访问数据库的Web工具。

生物信息学的功能是表示、存储和分布数据。

开发从数据中发现知识的分析工具处于第二位。

生物信息学发展阶段与研究方向

前基因组时代-数据库建立、检索工具的开发和蛋白质序列分析;

基因组时代-基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等;

后基因组时代-大规模基因组分析、蛋白质组分析、各种数据的比较和整合。

面临的主要挑战:

1)互操作的生物信息系统及相关数据挖掘技术;

2)发展揭示大规模数据集合不同组分间关系的统计分析方法和优化算法;

3)开发数据转换工具,建立预测模型;

4)开发微阵列和基因芯片等新技术的数据分析工具。

我国生物信息学研究的发展方向

建立国家生物医学数据库与服务系统

人类基因组的信息结构分析

功能基因组相关信息分析

研究遗传密码起源与生物进化(尤其是分子进化)的过程与机制

生物信息学基本方法与前沿技术

基本方法

1)建立生物数据库

2)数据库检索

3)序列分析

4)统计模型

5)算法

前沿技术

1)数据管理技术

2)数据仓库、数据挖掘与数据库中的知识发现技术

3)图像处理与可视化技术

生物信息学的应用

生物信息的经济价值与生物信息学市场

基因组分析

基因芯片

药物开发

其他应用领域

生物信息学的主要研究领域及其应用前景

生物信息学(bioinformatics)-广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科,对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释;生物信息学是广义的计算生物学的分支,在为生物学系统建模中应用了量化分析技术;

 

生物信息学发展阶段与研究方向

前基因组时代-数据库建立、检索工具的开发和蛋白质序列分析;

基因组时代-基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等;

后基因组时代-大规模基因组分析、蛋白质组分析、各种数据的比较和整合。

 

面临的主要挑战:

1)互操作的生物信息系统及相关数据挖掘技术;

2)发展揭示大规模数据集合不同组分间关系的统计分析方法和优化算法;

3)开发数据转换工具,建立预测模型;

4)开发微阵列和基因芯片等新技术的数据分析工具。

我国生物信息学研究的发展方向

建立国家生物医学数据库与服务系统

人类基因组的信息结构分析

功能基因组相关信息分析

研究遗传密码起源与生物进化(尤其是分子进化)的过程与机制

生物信息学的应用前景

生物信息的经济价值与生物信息学市场

基因组分析

基因芯片

药物开发

其他应用领域

2生物信息学的计算机基础

数据管理与数据库技术

数据库是以一种能够保存持久并可以被操作的方式来保存的数据集合。

包括文本文件、电子数据表格和图象。

数据库系统由一个数据库和周围的环境,包括软件、操作系统、硬件和使用它的用户所组成。

计算机网络与Internet

计算机网络是为了资源共享和信息交流的目的而互相连接起来的计算机的集合。

互联网络(Internetwork)是指通过中间设备连接的多个网络的集合,形成覆盖范围更广的计算机网络。

网络分类

根据距离分类:

局域网(LAN,LocalAreaNetwork)-连接小范围内的计算机,一般系统覆盖半径为几百米到几公里,是随着PC机的发展而发展起来的;广域网(WAN,WideAreaNetwork)可以连接地理位置比较分散的计算机,Internet是最大的WAN,连接了不同大洲的数百万个网络.介于二者的是城域网(MAN,MetropolitanAreaNetwork).

Internet提供的服务

Telnet:

主机远程登录;

FTP:

文件传输;

Email:

电子邮件;

Usenet:

新闻组;

WWW:

万维网.

数据仓库和数据挖掘

Datawarehouse:

面向主题的、集成的、持久的、历史的数据集合。

从各种数据资源中获得原始数据→按辅助决策的主题要求形成当前基本数据层→按综合决策要求形成综合数据层→由时间机制转为历史数据层;

KDD:

knowledgediscoveryindatabase,从数据中发现有用信息和模式的过程,包括数据选择-预处理-转换-数据挖掘-解释或评价-knowledge;

Datamining:

利用算法对KDD过程获得的信息和模式进行提取,对隐藏信息进行预测性的或描述性的模型匹配.数据挖掘的基本技术包括分类(classification),回归(regression),时序分析(timeseriesanalysis),预测(prediciton),聚类(clustering),概括(summarization),关联(association),顺序发现(sequencediscovery)等.

3生物信息学资源与数据挖掘

生物信息学资源

基因组信息

蛋白质信息

整合生物学信息

分子数据挖掘工具

序列相似性查询软件-BLAST

序列查询和模式识别

数据挖掘工具

生物信息学资源

查找科学文献

几乎每种主要的期刊都有自己的Web站点,网上也有很多文献数据库,如NCBI的Medline数据库(PubMed)等。

PubMed介绍

PubMed系统是由美国国立生物技术信息中心(NCBI)开发的用于检索MEDLINE、Pre-MEDLINE数据库的网上检索系统(www.ncbi.nlm.nih.gov/entrez)。

MEDLINE是美国国立医学图书馆(U.S.NationalLibraryofMedicine)最重要的书目文摘数据库,内容涉及医学、护理学、牙科学、兽医学、卫生保健和基础医学。

收录了全世界70多个国家和地区的4000余种生物医学期刊,现有书目文摘条目1000万余条,时间起自1966年。

虽然是世界范围的,但是大多数记录是从英语资料(87%)或有英文摘要(72%)的文献中获得的。

PubMed使用以关键词为基础的搜索策略,允许逻辑运算符AND/OR/NOT,用户可以使用Mesh(MedicalSubjectHeading)查找。

Mesh是一个标准词库,可用来帮助查找用不同名称代表同一概念的文献。

可用Mesh浏览器查询相关的Mesh词。

基因组信息

DNA测序

双脱氧测序(ddNTPs)(Sanger1977)

自动测序(荧光标记引物)

毛细管测序:

提高100倍(2005)

基因组测序

1)YAC,BAC(>100Kb)文库->作图找到重叠片段,测序

2)鸟枪法测序:

对所有克隆进行测序然后通过计算机进行片段重叠连接。

cDNA文库测序:

ESTs(expressedsequencetags).

提交序列到数据库

BankIt:

submittoGenBankbyWeb

Sequin:

localPCprogram->GenBank

Email:

gbsub@ncbi.nlm.nih.gov

GenBank

GenBank是美国国立卫生研究院(NIH)维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。

每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。

这些文件按类别分为几组:

有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。

目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。

这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。

GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心(NCBI)建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。

所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放

分类检索:

用accessionnumber,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。

同源性(homology):

定性。

同源序列指从某一共同祖先经趋异进化而形成得不同序列。

相似性(similariy):

定量。

通过序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基序列所占比例的高低。

相似性检索:

用BLAST来在GenBank和其他数据库中进行序列相似搜索。

用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。

用FTP下载整个的GenBank和更新数据。

序列格式

GenBankflatfile(GBFF)是GenBank数据库的基本信息单位.GBFF可以分成三个部分,头部包含关于整个记录的信息(描述符)。

第二部分包含了注释这一记录的特性,第三部分是核苷酸序列自身。

蛋白质信息

蛋白质序列和结构分为3个层次:

氨基酸序列-一级数据库,基序(motif)-二级数据库,结构域(domain)-结构数据库。

二级和三级数据库为DerivedDatabases。

蛋白质数据库先于核苷酸数据库。

在60年代初,Dayhoff和他的同事们收集了所有当时已知的氨基酸序列,这就是“蛋白质序列与结构图册”。

这一蛋白质数据库后来成为PIR(ProteinInformationResource).

一级数据库记录了实验结果,以及一些初步的解释。

在DNA序列记录中的一种常见的注释是编码序列(CDS).大多数蛋白质序列都不是直接由实验确定的,而是通过DNA序列得到的。

蛋白质一级数据库主要包括:

PIR,MIPS,SWISS-PROT,TrEMBL,NRDB,OWL,MIPSX等。

二级数据库(SecondaryDB或PatternDB):

包括PROSITE,PRINTS,Pfam,BLOCKS,IDENITIFY等。

三级数据库:

包括SCOP,CATH,PDBsum等。

分子数据挖掘工具

大量的序列和文献数据必须经过人工或计算机的处理分析才能提取出有用的信息,因而近年来数据挖掘技术的应用在基因表达分析等领域得到了广泛的开展。

数据挖掘不同于传统的数据库查询语言,数据库的数据须经过调整以利于进行知识挖掘,提取的结果不是数据库中的元数据,因此,数据挖掘采用多种算法去完成一定的任务,可以对隐藏信息进行预测性的或描述性的模型匹配。

数据挖掘的基本技术包括分类(classification),回归(regression),时序分析(timeseriesanalysis),预测(prediciton),聚类(clustering),概括(summarization),关联(association),顺序发现(sequencediscovery)等。

序列相似性查询软件

Globalsimilaralgorithmswhichoptimizeoverallalignmentbetweentwosequences(dynamicprogramming)

Localsimilaralgorithmswhichseeonlyrelativelyconservedpiecesofsequence(FASTA,BLAST)

BLAST:

BasicLocalAlignmentSearchTool

BLASTN,BLASTP,BLASTX,tBLASTN,tBLASTP

blastn:

核酸序列对核酸库的比对,直接比较核酸序列的同源性。

blastp:

蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。

blastx:

核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为6种可能的蛋白序列),然后再与蛋白库做比对。

tblastn:

蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然后进行比对。

tblastx:

核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行比对。

4DNA序列分析

基因结构与DNA序列分析

EST分析

cDNA文库

EST数据库

EST聚类分析

电子克隆全长cDNA

序列比对分析

全局和局部排列

CLUSTAL软件

基因结构与DNA序列分析

电子克隆cDNA全长序列

Virtualcloning:

利用重叠EST序列通过计算机EST数据库搜索进行拼接获得全长cDNA.通常使用BLAST进行检索,然后进行重叠片段拼接。

Sequencealignment

序列比对是比较两个(pair-wisealignment)或多个序列(multiplesequencealignment)找出单一字符或字符模式在序列中处于相同的顺序。

将两序列排成两行,相同字符按列对齐,错配字符亦可按列或以空格对齐。

很容易对齐的序列认为是相似的(similiar).

全局比对(globalalignment):

用于比较十分相似且长度几乎相等的序列,比对大部分碱基.

局部比对(localaligment):

比较序列中的最高密度配对字符,获得一个或多个亚比对顺序(subalignment),用于比较有部分相似的序列,其他部分不相似、长度不同、或具有保守区段或结构域的序列。

序列比对的重要性

序列比对用于发现生物序列的功能、结构和进化的信息,获得最佳比对(optimalalignment)才能做到.很相似的序列往往可能具有相同的功能,如DNA分子的调控作用,蛋白质分子的相似生化功能或三维结构。

来自不同生物相似的两个序列可能具有相同的祖先序列,或称为同源的。

新的基因进化认为是通过基因复制(geneduplication)产生前后两个拷贝并发生突变,极少的机会其中的一个拷贝的新突变功能上可能更有利,然后沿不同途径进化,形成的两个基因家族仍是相关的且很相似因为具有共同的祖先,由于基因重排(generearrangement)会引起蛋白质结构域进行重新配对而导致形成更复杂的蛋白质其进化关系可能难以辨认。

Orthologs(垂直进化-直系同源):

具有共同祖先及功能的同源基因但找不到基因如何复制的证据(有复制证据而同源基因来自一个具有相同功能的拷贝时亦称Orthologs);

Paralogs(平行进化-并系同源):

复制产生的两个拷贝及其各自进化的后裔;

Analogous(类似):

不具有相同祖先但通过独立进化途径而聚合了相同的功能称为聚合进化(convergentevolution),如chymotrypsin和subtilisin的空间结构和折叠完全不同但其活性部位具有相似的结构特征;

Xenologous(外源的-异同源):

通过基因水平转移(共生、病毒转导)而产生的相似序列。

DotMatrix序列比对

点阵比对方法应作为序列比对的首选,因为它可以很快反映序列的插入/缺失和正向/反向重复。

但多数程序(DOTTER,DNAStrider,DOTPLOT,COMPARE)不能很好确切的表示比对。

比对采用对角线来比对两个序列,用滑动窗口来过滤随机的配对,窗口大小可以改变。

DynamicProgramming许多计算机科学的问题都可以简化为通过图表寻求最优路径,对每一种路径都有必要对其进行某种意义上的打分,通常是对沿这一途径的每一步的增量进行加和.假定相同残基加正分,有插入或缺失的残基就加负分(扣分)根据这一定义,最合适的比对方法会得到最高分,也就是我们寻找的最佳路径。

动态规划的思想是这样的,如果一条路径终止于最佳路径上的一点,那么这条路径本身就是起点到这个中间点的最佳路径,即任何一个终止于最佳路径上的一点的次级路径必然就是终止于这一点的最佳路径本身.这样,最佳路径就可以通过把各个最佳的次级路径连接而成。

Needleman-Wunsch算法:

最佳比对必然对每个序列都由始至终,就是说从搜索空间的左上角直至右下角。

换句话说,它搜索全程比对。

Smith&Waterman算法:

把寻找K种最好的但不相互交叉的比对方式为目标,寻求局部比对时可能会发现若干个重要的比对。

PAM记分矩阵

序列比较往往希望找到序列的共同祖先是如何经过突变和选择的。

基本的突变过程认为是取代(substitutions)-序列中的残基改变,以及插入或缺失(insertionsanddeletions).自然选择过程筛选突变因而某些突变比其他较为常见。

PAM120,PAM80,PAM60分别用来比对序列间有40%,50%及60%相似性。

PAM250用来比较较远如只有14~27%相似性的蛋白质较合适。

用PAM矩阵进行比对可以统计地区分偶然或具有生物学意义的比对。

通常不需要先知道序列相似程度,而无空格比对在使用合适PAM矩阵时达到最佳。

有时可以使用几种矩阵的组合,或使用一个矩阵而调整打分的参数可以比对相距较远序列(主要用于数据库搜索)。

PAM矩阵比一些简单的矩阵可能更逊色如基于侧链化学基团的矩阵,而且PAM用于构建进化树关系方面不理想。

BLOSUM矩阵用于比较较远蛋白质序列更为有用,因为其基于大量蛋白质的数据。

BLOSUM取代矩阵

BLOSUM62取代矩阵(Blocksaminoacidsubstitutionmatrices)基于大量约2000种保守氨基酸patterns(blocks,来自Prosite数据库)中出现的氨基酸取代而获得的记分矩阵(Henikoff1992)。

60%相同的patterns获得的称为BLOSUM60,80%相同的称为BLOSUM80.BLOSUM62代表了信息含量与数据大小的平衡,即聚类比率升高,区分真实与偶然的比对的能力亦提高。

PAM模型用于追溯蛋白质的进化途径,而BLOSUM模型用于发现保守结构域。

同源性分析中常常要通过多序列比对来找出序列之间的相互关系,和blast的局部匹配搜索不同,多序列比对大多都是采用全局比对的算法。

Clustal的渐进比对:

在比对过程中,先对所有的序列进行两两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,并在每组之间进行比对,计算相似性分值。

根据相似性分值继续分组比对,直到得到最终比对结果。

在比对过程中,相似性程度较高的序列先进行比对而距离较远的序列添加在后面。

CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反映序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。

世界上最权威的三大生物数据平台

GenBank数据库:

1979年

欧洲分子生物学实验室(EMBL):

1982年

日本核酸序列数据库(DDBJ):

1984年

 

5分子系统发育分析

分子进化的基本概念

核酸或蛋白质谱系的系统发育分析是推测同一谱系是如何通过进化而来的。

序列的进化关系可以描述为树的分枝,枝条反应进化关系远近,很相似的两个序列放在邻近并由共同祖先分枝连接。

这个进化树描述了同一谱系的进化关系,包括了分子进化(基因树)、物种进化以及分子进化和物种进化的综合。

同源性

当两个序列具有进化关系时,两序列同源(homologous).

类群(group)

祖先类群(ancestralgroup)

单系类群(monophyleticgroup)

并系/复系类群(paraphyletic/polyphyleticgroup)

内/外类群(ingroup/outgroup)

姊妹群(sistergroup)

基因组复杂性与系统发育分析

进行系统发育分析时,需考虑大多数基因组的起源是很复杂的,基因组的部分可能是通过正常生殖循环垂直进化的,其他部分可能由遗传物质的水平转移如病毒、DNA转化、共生和其他转移机制而来的。

进行发育树分析时,选择的基因应该在所有生物体中出现且在多数物种中可以通过序列保守性来辨认,同时有足够的序列变异将不同生物体划分为相同系统发育的类群,另外最好该基因不处在选择压力下即不易丢失变异.

符合以上条件的序列只有小rRNA亚基和线粒体序列。

其他基因家族的系统发育分析则复杂些因而提出了不同的模型。

进化树:

是一个反映生物体或不同生物体的某些基因的进化关系的二维图。

进化树均是二分树(binary),分开的序列称为类群(taxa),是系统发育树的明确单位。

树由向外伸展的枝条或叶片代表taxa,节点和枝干代表taxa间的关系。

每个节点代表基因经过分开的进化途径进入两个不同生殖隔离的物种。

枝干长度代表序列的差异数目.建树方法常用的有:

maximumparsimony(简约法),distance(距离法),maximumlikelihood(最大似然法).

Maximumparsimonymethod(MP,最大简约法)

也称最小进化法(minimumevolutionmethod),通过减少产生序列观察差异的步骤来预测进化树。

多序列比对是必要的,利用尽可能少比对序列上各个位置的改变预测发育树,并找到最好的发育树。

主要用于序列数较少且很相似的序列。

Distancemethod(距离法)

距离法根据一组序列中的每对序列差异的数目产生发育树。

具有最小差异的序列对称为“邻居(neighbors)”,它们在树上的同一节点或具有相同祖先,分别以树枝表示。

距离法找到组内最近的邻居的方法亦是multiplesequencealignment使用的第一步。

距离法最早由Feng&Doolittle(1991)提出,可以同时产生蛋白质序列的比对和发育树。

CLUSTALW程序利用neighbor-joiningdistancemetho

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2