生物信息学doc.docx

资源描述

生物信息学doc.docx

《生物信息学doc.docx》由会员分享，可在线阅读，更多相关《生物信息学doc.docx（20页珍藏版）》请在冰点文库上搜索。

生物信息学doc.docx

生物信息学doc

●蛋白质结构预测是指从蛋白质序列预测出其三维空间结构。

●蛋白质的生物学功能依赖于其空间结构，因此进行蛋白质结构预测对理解蛋白质结构与功能的关系，进行蛋白质工程和药物设计具有重要意义。

一、蛋白质结构的价值

1、结构与功能的一致性

例1：

肌球蛋白和血红蛋白的结构十分相似，这反映了它们进化上的关系和作为氧携带者的保守功能；但它们氨基酸序列的相似性只有39％。

可能会有数以千计的假想蛋白质和已知蛋白质具有相似的关系，它们的序列分化的很远以至于不能再用序列分析检测同源关系，但是它们的结构可以识别它们之间的同源关系。

明显不相关的序列可能具有相似的结构。

结构蛋白组学的目标就是发现每一个蛋白质折叠家族中的代表成员，并解析其结构，为结构比较提供模板。

这种结构的比较可以用于假想蛋白质的功能注释，甚至再序列分析显示不同源的情况下也可以提供功能信息。

结构与功能的非一致性

尽管蛋白质的结构对于预测其功能十分有帮助，但需注意：

结构与功能之间并不是简单的一对一的关系。

蛋白质具有相似的结构但经过进化以后可以执行不同的功能。

蛋白质结构预测是基于两种需求发展起来的

1.氨基酸序列和蛋白质高级结构间的关系是生物学中心法则的延伸，对了解生命现象的本质有重要意义。

2.蛋白质结构的测定速度远跟不上序列的增长速度，而高级结构的信息对蛋白质工程的研究、药物设计等都是必须的，因此，结构预测成为一种迫切的需要。

解析蛋白质结构的技术

1、X射线晶体学：

当X射线经过蛋白质晶体时，会以可预测的方法被散射或衍射。

衍射的特征依赖于每个原子中电子的数量和原子在空间的排列。

2、核磁共振（nuclearmagneticresonance,NMR）：

某些原子核具有磁性而发生的现象。

蛋白质结构预测流程图

1.序列比对2.二级结构预测3.三级结构预测

4.同源性或类似的折叠模式5.计算或简化模型的从头折叠计算

6.蛋白质结构建模7.蛋白质结构预测的检验

一级结构（氨基酸序列）

二级结构：

主要是氢键维持的结构

－螺旋（-helix）－折叠（-sheet）弯（turn）襻（loop）

二级结构的预测是蛋白结构预测的第一步。

蛋白质二级结构预测的方法

●基于统计学的预测方法

1.Chou-Fasman方法直接以氨基酸序列来预测二级结构

统计各种氨基酸在不同二级结构中的各种构象分布概率、氨基酸在蛋白质中的相对出现概率以及残基出现在结构中的频率，最后得到构想参数，根据此参数得出氨基酸形成二级结构的倾向性，从而预测二级结构。

Chou-Fasman二级结构预测经验规则

●α螺旋规则

Ø相邻的6个残基中如果有至少4个残基倾向于形成α螺旋，则认为是螺旋核。

Ø然后从螺旋核向两端延伸，直至四肽α螺旋倾向性因子的平均值pα<1.0为止。

此外，不容许脯氨酸在螺旋内部出现，但可出现在C末端以及N端的前三位。

Ø最后，将α螺旋两端各去掉3个残基，剩余部分多于6个残基，且pα>1.3，则为α螺旋。

●β折叠规则

Ø如果相邻5个残基中若有3个倾向于形成β折叠，则认为是β折叠核。

Øβ折叠核向两端延伸直至4个残基的平均折叠倾向因子pβ<1.0。

若延伸后片段的pβ>1.05，则预测为β折叠。

●转角规则

Ø四肽片段，若位置专一性转角形成几率fi+1fi+2fi+3fi+4>7.5*10-5，pt>1.0，并大于pα和pβ，则预测为转角。

●重叠规则

Ø螺旋和折叠的重叠区域，按pα和pβ的相对大小进行预测，若pα>pβ，则预测为螺旋，反之为折叠。

2、GOR方法

Ø基于信息论算法

相邻氨基酸之间存在相互作用，蛋白质序列中某一位置的二级结构主要是由17个连续的氨基酸（包括一个中心氨基酸、与其N端相连的8个氨基酸残基、与其C端相连的8个氨基酸残基）决定。

最小邻近法:

相似的一级结构就有相似的二级结构

4、人工神经网络法

●基于实验数据的预测方法1、Cohen法

疏水性残基决定了二级结构的相对位置，螺旋亚单元或扩展单元是结构域的核心，α螺旋和β折叠组成了结构域。

蛋白质二级结构预测的用途

1.蛋白质或其突变体的设计2.确定蛋白质间结构和功能的关系

3.建立正确的序列比对关系4.三级结构预测的基础5.有助于晶体结构的解析

蛋白质三级结构预测

1.同源建模一个未知结构的蛋白质，如果有一个与之密切相关的蛋白质的结构已知，而且可以作为结构预测的模板，那么根据序列就可以比较精确的预测出这个蛋白质的三级结构。

这种方法叫做同源建模（homologymodeling）或比较建模（comparativemodeling）。

同源建模基本包括如下几个步骤：

1．使用未知序列搜索已知蛋白质结构。

2．产生未知序列和模板序列最可能的完整比对。

3．以模板结构骨架为模型，建立蛋白质骨架模型。

4．在靶序列或者模板序列的有空位区域，使用环建模过程代替合适长度的片段。

5．给骨架模型加上侧链。

6．优化侧链的位置。

7．使用能量最小和已知的优化知识来优化结构。

2.折叠识别：

是以结构已知的蛋白质折叠子为模板，寻找给定氨基酸序列折叠类型的方法需要解决的问题：

Ø一个新测定的蛋白质序列是否能够折叠成已知的模式

Ø给定的结构能否在序列数据库中找出所有能折叠成该结构的序列

Ø即使能够判断出一个序列与某个结构相匹配，也难以像同源蛋白结构预测一样构建出可靠的结构模型。

远缘蛋白序列也可能折叠出类似的空间结构，但并不意味着它们有相似的生物学功能。

3.从头预测

前两种方法的缺点是只能预测那些有合适模板的蛋白质的结构。

●从头预测的方法不需要任何结构信息，直接由蛋白质序列预测其空间结构。

缺点是会产生庞大的数据。

1.分子动力学模拟2.二级片段堆积法

蛋白质跨膜区预测

●跨膜区特点

Ø膜蛋白跨膜区氨基酸具有极强疏水性

Ø跨膜区的二级结构一般为α螺旋和β筒状结构20-30个连续高度疏水氨基酸可以α螺旋形式穿越脂双层；β筒跨膜区的氨基酸只有20个左右。

●预测原理

Ø20个氨基酸为单位的疏水性氨基酸残基的区域是蛋白质跨膜螺旋

Ø正电荷居内规则

带正电荷的氨基酸主要分布在紧靠膜内连接跨膜区的环上。

分析蛋白质的翻译后修饰

几乎所有的蛋白质在合成过程中或者合成后都要经过某些形式的修饰，有的是肽链骨架的剪接，有的是特异氨基酸侧链的化学修饰，这种现象称为翻译后修饰（post-translationalmodification,PTM）

●蛋白组学研究中涉及较多的三种修饰形式：

磷酸化、糖基化和泛素化。

●翻译后修饰明显增加了蛋白质的复杂性，同时也增加了蛋白质结构预测的难度和准确度。

分析蛋白质的相互作用

蛋白质的相互作用与蛋白质功能之间有着直接的关系，研究蛋白质间的相互作用可以帮助我们对那些未鉴定的假想蛋白进行功能注释。

分析蛋白质的相互作用核心是从分子水平上去研究蛋白质间直接的相互作用

●研究方法按研究对象分为两种：

研究两个蛋白质间的相互作用和蛋白质复合物的相互作用（组成复合物的多个蛋白质间的相互作用）。

●按分析的原理分：

遗传学方法、生物信息学方法、生物化学方法、物理方法、文库法、酵母双杂交系统、质谱法等。

结构预测的发展趋势

目标蛋白的选择方法

1.基于蛋白质折叠类型的推断，对于已经测定的序列进行分析计算，选择有代表性的蛋白进行研究2.选择有重要生物学功能或与人类重大疾病有关的蛋白质进行研究

发展趋势

1.用于基因组计算的蛋白质折叠模式分析法

2.如何根据实验测定或预测的高级结构来预测蛋白的功能3.对蛋白质网络的认识

4.同源蛋白结构预测方法5.蛋白质折叠全过程6.影响蛋白质稳定的因素

实验数据可靠、完整，及时实现信息资源共享

分子生物学领域的大规模合作研究—————————————————————

计算机数据管理技术广泛应用

分子生物学数据库建立并不断发展，成为相关研究的主要数据来源和数据交换手段。

1.1.计算机网络的发展和互联网在全球的普及，为分子生物信息数据库的利用开辟了广阔的前景。

2.测序中心和生物学家得到的各种生物学数据都可以通过互联网直接向国际数据中心递交。

分子生物信息数据库的种类：

1.基因组数据库

2.核酸和蛋白质一级结构（序列）数据库3.生物大分子（主要是蛋白质）空间结构数据库以上是一次数据库4.二次数据库

一次数据库基因组作图序列测定X射线衍射、核磁共振等结构测定

基因组数据库序列数据库结构数据库生物信息学的基本数据资源

二次数据库1.对一次数据库以及文献等数据进行分析、整理、归纳、注释

2.具有特殊生物学意义和专门用途3.数据库开发的有效途径

二次数据库的种类

1.真核生物启动子以核酸数据库为基础：

1.数据库EPD2.克隆载体数据库Vector

3.基因转录调控因子数据库TransFac

2.以蛋白质序列数据库为基础：

1.蛋白质功能位点数据库Prosite2.蛋白质序列指纹图谱数据库Prints3.同源蛋白家族数据库Pfam4．同源蛋白结构域数据库Blocks

3.以具有特殊功能的蛋白质为基础：

1.免疫球蛋白数据库Kabat2.蛋白激酶数据库PKinase

4.以三维结构原子坐标为基础：

1.蛋白质二级结构构象参数数据库DSSP2.已知空间结构的蛋白质家族数据库FSSP3.已知空间结构的蛋白质及其同源蛋白数据库HSSP

两类数据库的特点：

一次数据库1.数据量大，更新速度快，用户面广

3.需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。

二次数据库1.容量小，更新速度较慢，可以不用大型商业数据库软件支持。

2.许多二次库的开发基于Web浏览器。

其优点是使用方便，使用者不需要有丰富的计算机专业知识。

DBCat1.由法国生物信息研究中心Infobiogen建立维护。

2.DBCat（DatabaseCatalog，生物信息数据库目录）搜集了500多个数据库的名称、内容、数据格式、联系地址、网址等详细信息。

3.DBCat按DNA、RNA、蛋白质、基因图谱、结构、文献等分类，其中大部分数据库可以免费下载。

MetaBaseMetaBase是一个生物学数据库清单，目前收集了1799个不同的数据库，可直接输入数据库名称进行搜索，也可以浏览目录。

HGMP-RC英国基因组图谱资源中心（HumanGenomeMappingProjectResourceCenter,HGMP-RC）搜集世界各地基因组中心、基因组数据库、基因组图谱、基因组实验材料、基因突变，以及生物公司、实验规程、网络教程等几百个网址。

序列数据库序列数据库是分子生物信息数据库的重要组成部分，包括核酸和蛋白质两类，以核苷酸碱基顺序和氨基酸残基顺序为基本内容，并附有注释信息。

核酸序列数据库目前世界上最大的核苷酸序列数据库是美国的GenBank、欧洲的EMBL、日本的DDBJ数据库。

截止到2011年4月，GenBank已经收录了135,440,924条序列记录，超过1260亿个碱基记录，每隔大约10个月数据就翻番。

三大核酸数据库GenBank，由美国国家生物技术信息中心（NationalCenterforBiotechnologyInformation,NCBI）维护。

EMBL数据库是由欧洲分子生物学实验室（EuropeanMolecularBiologyLaboratory，EMBL）创建，并因此得名，现由欧洲生物信息学研究所（EuropeanBioinformaticsInstitute,EBI）维护。

RefSeq数据库提供校正的序列数据和信息，提供使用标准。

GenBank是序列的存储池，RefSeq数据库将是一个参考序列的非冗余集合，包括构建的基因组contig，mRNA，蛋白和整个染色体。

RefSeq记录是有三种可以获得的状态：

预测的，临时的和检查过的。

检查过的记录代表了目前关于一个基因的知识的汇编。

整合了更多的信息，只要是可以获得，如序列数据，发表物，命名，和特征注解，都来自于很多GenBank记录。

⏹通过计算机程序对GeneBank中的序列数据进行适当处理，剔除冗余部分，将同一基因的序列，包括EST序列片段搜集到一起，以便研究基因的转录图谱。

⏹UniGene中部分条目包括已知基因序列，而有些条目则仅有新测得的EST序列片段。

这就意味着，这些EST序列所对应的基因尚未搞清，可以用来发现新基因

GenBank和EMBL数据库格式1.GenBank和EMBL数据库的基本单位是序列条目，包括核苷酸碱基排列和注释两部分。

2.序列条目由字段组成，每个字段由标识字起始，后面是该字段的具体说明。

3.标识字包括序列名称、说明、编号、关键词、种属来源、学名、文献、特征表、碱基组成，最后以双斜杠作为本序列条目的结束。

蛋白质序列数据库PIR1984年，“蛋白质信息资源”（Proteininformationresource,PIR）计划正式启动，蛋白质序列数据库PIR也由此诞生。

PIR1：

序列已经验证，注释最详尽PIR2：

包含尚未确定的冗余序列PIR3：

序列尚未验证，也未加注释PIR4：

包含其他各种渠道获得的序列，既未验证，也无注释

Swiss-Prot和TrEMBL蛋白序列数据库前者由日内瓦大学与1986年创建，现由瑞士生物信息学研究所（SwissInstituteofBioinformatics,SIB）和欧洲生物信息学研究所（EBI）共同维护。

后者创建于1996年，意为“TranslationofEMBL”。

ExPASy是ExpertProteinAnalysisSystem的缩写，即为专业蛋白质分析系统。

ExPASy由瑞士生物信息学研究所维护（SwissInstituteofBioinformatics），提供从序列（Swiss-Prot）到结构（Swiss-Model），以及2D-Page等蛋白质操作相关的全套服务。

NRL-3D已知三维结构蛋白质的一级结构序列数据库。

GenPept，由GenBank翻译得到的蛋白质。

OWL和NRDB非冗余蛋白质序列数据库。

注意：

1、PIR和Swiss-Prot是创建最早和应用最广泛的两个蛋白质序列数据库。

2、TrEMBL和GenPept由核酸序列通过计算机程序翻译生成，错误率较高，冗余度较大。

基因组数据库1.基因组数据库的主体是模式生物基因组数据库，主要有世界各国人类基因组研究中心、测序中心构建的各种人类基因组数据库。

2.小鼠、拟南芥、水稻、线虫、果蝇、大肠杆菌等多种模式生物基因组数据库都已建立。

3.基因组信息资源还包括染色体、基因突变、遗传疾病、分类学、比较基因组学、基因表达调控、基因图谱等各种数据库。

宏基因组（Metagenome）:

也称微生物环境基因组（MicrobialEnvironmentalGenome）,或元基因组。

生境中全部微小生物遗传物质的总和,“thegenomesofthetotalmicrobiotafoundinnature”。

宏基因组学（metagenomics）是以环境样品中的微生物群体基因组为研究对象,以功能基因筛选和测序分析为研究手段,以微生物多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系为研究对象的学科。

GDB人类基因组数据库基因组结构数据：

基因单位、PCR位点、细胞遗传标记、EST、

叠连群、重复片段等。

2）基因组图谱：

细胞遗传图、连锁图、放射杂交图、转录图等。

3）基因多态性数据：

等位基因等。

4）与其他数据库的超文本链接：

GenBank、EMBL、遗传疾病数据库OMIM、MedLine等。

结构数据库蛋白质分子的各种功能是通过不同的三维空间结构实现的。

蛋白质结构数据库是随着X射线晶体衍射分子结构测定技术的出现而出现的数据库，其基本内容是实验测定的蛋白质分子空间结构原子坐标。

蛋白质结构数据库Protein（DataBank,PDB）PDB原由美国Brookhaven国家实验室管理、维护，后由结构生物学合作研究协会（ResearchCollaboratoryforStructuralBioinformatics，RCSB）管理，通过网络可以直接向PDB递交数据。

PBD中存放的原子坐标大部分为蛋白质，此外还有核酸、蛋白质核酸复合物，以及少量的多糖分子。

结构测定的速度和精度不断提高，蛋白质结构数据的量迅速上升；同时，核酸三维结构测定进展迅速，PDB中核酸结构数据也不断上升。

蛋白质结构分类数据库1.蛋白质结构分类是蛋白质结构研究的一个重要方向。

2.蛋白质结构分类包括不同的层次：

折叠类型、拓扑结构、家族、超家族、结构域、二级结构、超二级结构等。

蛋白质结构数据库很多，简介以下两种:

1）SCOP（StructuralClassificationofProteins）SCOP是英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于Web的蛋白质结构数据库分类、检索和分析系统。

SCOP将计算机自动检测和人工验证结合起来，将PDB中的蛋白质分成7个类型：

α型、β型、α/β型（α螺旋和β折叠交替出现）、α+β型（α螺旋和β折叠连续出现）、多结构域蛋白、膜蛋白和细胞表面蛋白、小蛋白。

并在此基础上，按折叠类型、超家族、家族三个层次逐级分类。

2）CATH（class,architecture,topology,homology）CATH数据库的分类基础是蛋白质结构域，将蛋白质分成四类：

α为主类，β为主类，α-β类（包括α/β型和α+β型）和低二级结构类。

低二级结构类是指二级结构成分含量很低的蛋白质分子。

第二个分类依据是α螺旋和β折叠形成的超二级结构的排列方式，而不考虑它们之间的连接关系。

第三个层次为拓扑结构，即二级结构的形状和二级结构间的联系。

第四个层次为结构的同源性，它是先通过序列比较，然后再用结构比较来确定的，即序列层次。

二次数据:

以基因组、序列和结构数据库为基础，结合文献资料，研究开发更具特色、更便于使用的二次数据库，或专用数据库信息系统，已经成了生物信息学研究的一个重要方面。

一次库和二次库之间其实并没有明确的界限。

如，GDB和AceDB基因组数据库、SCOP和CATH结构分类数据库，无论从内容还是用户界面，都具有二次数据库的特色。

即使是蛋白质序列数据库SWISS-PROT，也有与其它数据库的交叉引用，还具有表格和图形等功能。

基因组信息二次数据库德国生物工程研究所开发的真核生物基因转录调控因子数据库TransFac。

包括顺式调控位点、基因、转录因、细胞来源、分类和调控位点核苷酸分布6个子库。

法国巴斯德研究所构建的大肠杆菌基因组数据库。

蛋白质序列二次数据库1.蛋白质功能位点数据库Prosite2.蛋白质序列指纹图谱数据库Prints3.同源蛋白家族数据库Pfam4.同源蛋白结构域数据库Blocks

5.蛋白质序列概貌数据库Profiles6.蛋白质序列识别数据库Identify

第一个蛋白质序列二次数据库，构建于20世纪90年代初期，现由瑞士生物信息学研究所SIB维护。

此数据库基于对蛋白质家族中同源序列多重比对得到的保守性区域，这些区域通常与生物学功能有关。

通过对Prosite数据库的搜索可以判断该序列包含什么样的功能位点，从而推测其可能属于哪一个蛋白质家族。

Prosite数据库包括两个数据库文件：

数据文件Prosite说明文件PrositeDoc，给出该序列模式生物的生物学功能以及文献资料来源。

这些数据库的共同特点是基于多序列比对。

不同之处在于处理比对结果的原则和方法：

Prints和Blocks利用序列中的多重保守片段

Profiles着眼于构建序列谱Pfam采用了隐马尔可夫链模型Identify利用模糊正则表达式的概念

蛋白质序列二次数据库实际上也是蛋白质功能数据库，因为从这些数据库中可以得到有关蛋白质功能、家族和进化等信息。

蛋白质结构二次数据库1.蛋白质二级结构构象参数数据库（DefinitionofSecondaryStructureofProteins，DSSP）：

根据PDB中的原子坐标，计算每个氨基酸残基的二级结构构象参数，包括氢键、主链和侧链二面角、二级结构类型等。

2.同源蛋白质数据库（HomologyDerivedSecondaryStructureofProteins，蛋白质家族数据库（FamiliesofStructurallySimilarProteins，FSSP）：

把DSSP数据库中的蛋白质通过序列和结构进行比对和分类。

3.（HSSP）：

不但包括已知三维结构的同源蛋白质家族，而且包括未知结构的蛋白质分子，并将它们按同源家族分类。

蛋白质结构二次数据库为蛋白质分子设计、蛋白质模型构建和蛋白质工程等研究提供了很好的信息资源和工具。

数据库查询和数据库搜索数据库查询（databasequery）：

对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。

在生物信息学中，数据库搜索是专门针对核酸和蛋白质序列数据库而言的，其搜索的对象不是注释信息，而是序列信息。

显然，数据库查询和数据库搜索是两个截然不同的概念，它们所要解决的问题、所采用的方法和得到的结果均不相同。

数据库查询系统1、Entrez由美国NCBI开发，用于对文献摘要、序列、结构和基因组等数据库进行关键词查询，找出相关的一个或几个数据库条目（entry）。

Entrez系统的辅助功能1.限定查询范围（Limits）2.预览查询结果（Preview/Index）不列出具体查询结果，只列出查询到的序列的条目数3.查看查询记录（History）4.操作剪贴板（Clipboard）

Entrez系统的特点把序列、结构、文献、基因组、系统分类等不同类型的数据库有机地结合在一起，通过超文本链接，用户可以从一个数据库直接转入另一个数据库。

此外，把数据库和应用程序结合在一起。

数据库查询系统SRS（sequenceretrievalsystem）是EBI开发的数据库查询工具。

SRS是欧洲各国主要生物信息中心必备的数据库查询系统。

SRS已经发展为商业软件，学术单位可以免费使用。

与Entrez不同，SRS是一个开放的数据库查询系统，即不同的SRS查询系统可以根据需要安装不同的数据库。

目前，共有300多个数据库安装在世界各地的SRS服务器上。

SRS系统的特点1.统一的用户界面2.高效的查询功能3.灵活的指针链接4.方便的程序接口5.开放的管理模式6.同一的开发平台

数据库搜索1.新测定的碱基序列或氨基酸序列，往往需要通过数据库搜索，找出具有一定相似性的同源序列，以推测未知序列可能属于哪个家族，具有哪些生物学功能。

2.数据库搜索的基础是序列的相似性比对，即序列比对（alignment）。

检测序列（probesequence）：

新测定的、希望通过数据库搜索确定其性质或功能的序列。

目标序列（subjectsequence）：

通过数据库搜索得到的和检测序列具有一定相似性的序列。

数据库搜索的任务和目的1.任务发现序列之间的相似性辨别序列之间的差异

2.目的相似序列相似的结构和功能判别序列之间的同源性推测序列之间的进化关系

核苷酸碱基和氨基酸残基代码

展开阅读全文