生物信息学bioinformatics近完整版 Microsoft Word 文档 21Word文档格式.docx

资源描述

生物信息学bioinformatics近完整版 Microsoft Word 文档 21Word文档格式.docx

《生物信息学bioinformatics近完整版 Microsoft Word 文档 21Word文档格式.docx》由会员分享，可在线阅读，更多相关《生物信息学bioinformatics近完整版 Microsoft Word 文档 21Word文档格式.docx（20页珍藏版）》请在冰点文库上搜索。

生物信息学bioinformatics近完整版 Microsoft Word 文档 21Word文档格式.docx

前者是利用EST数据库进行片段的拼接与组装，而后者是利用基因组数据库的基因序列进行识别、预测，

三．基因电脑克隆

基因电脑克隆的实质:

以一个序列片段为线索,通过它和整个数据库的比较,还原出全序列原貌。

原理：

当测序获得一条EST序列时，它来自哪一个基因的哪个区域是未知的（随机的），所以属于同一个基因的不同EST序列之间常有交叠的区域。

根据这种“交叠”现象，就能找出属于同一个基因的所有EST序列，进而将它们拼接成和完整基因相对应的全长cDNA序列。

可行性：

到目前为止,公共EST数据库（dbEST）中已经收集到约800万条的人的EST序列。

估计这些序列已覆盖了人类全部基因的95%以上，平均起来每个基因有10倍以上的覆盖率。

嵌合体cDNA是指来源于不同基因的序列，由于偶然因素被组装在一起形成的Contig。

我们构建的神经网络能探测组装过程形成的嵌合体。

4．EST

①利用EST（ExpressionSequenceTag）数据库（dbEST）发现新基因和新SNPs

EST数据库质量相对较低，就象许多文献报道，发现了许多内含子，克隆载体，多酶切点，ALU以及3’、5’非翻译序列（统称污染序列，也称载体序列或非insert序列）被包含在EST数据库中，这使得EST序列分析复杂化。

因此在进行Contig电脑组装之前，需要探测并去除EST数据库中的污染序列。

为探测并去除EST数据库中的污染序列，必须建立载体库，对种子库和人EST库中的每条序列扫描其前端和尾部检查上述非Insert序列，并去除。

全长cDNA标注涉及到mRNA的5’端即转录起始位点区、第一个ATG、开读框架、终止密码子和3’端的确认。

目前国际上各种二次数据库的建立和公布，使得我们有可能利用现有的数据源，通过同源性比较来预测mRNA的5’端，最常用的与转录起始位点相关的数据库是真核启动子数据库（TheTRADATProject,EukaryoticPromoterDatabase,EPD.http:

//www.epd.unil.ch/）。

开读框架（OpenReadingFrame:

ORF）的预测常与第一个ATG和终止密码子的确定相关，但由于EST序列相对较低的测序质量，在测序过程中出现的碱基删除或插入错误（称为indel错误）将引起读框移动，甚至出现假终止密码子，所以，仅凭第一个ATG和终止密码子是不足以确定ORF的。

我们结合下述几种方法对Contigs进行标注，先用复合人工神经网络系统预测Contig编码蛋白的可能性，然后采用NCBI的ORF预测软件（ORFfinder:

http:

//www.ncbi.nlm.nih.gov/gorf/orfig.cgi）初步判断ORF的可能范围。

第一个ATG的确定则依据Kozak规则和信号肽分析软件（SignalPhttp:

//www.cbs.dtu.dk/services/signalP）的结果。

所谓Kozak规则，即第一个ATG侧翼序列的碱基分布所满足的统计规律，若将第一个ATG中的碱基A，T，G分别标为1，2，3位，则Kozak规则可描述如下：

（1）第4位的偏好碱基为G；

（2）ATG的5’端约15bp范围的侧翼序列内不含碱基T；

（3）在-3，-6和-9位置，G是偏好碱基；

（4）除-3，-6和-9位，在整个侧翼序列区，C是偏好碱基。

Kozak规则是基于已知数据的统计结果，为获得高可信度的结果，我们把预测过程中证实含完整mRNA5’端的Contig翻译为蛋白序列，然后用SignalP软件对前50个氨基酸序列（从第一个ATG对应的甲硫氨酸Met开始）进行评估，如果SignalP分析给出正面结果，则测试序列有可能为信号肽，假如在该测试序列的第一个Met5’端存在终止密码子，该序列为信号肽的可能性更大。

3’端的确认主要根据Poly（A）尾序列,若测试Contig不含Poly（A）序列，则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。

②EST数据也可用来帮助研究基因的可变剪接和发现非编码RNA。

5．完整基因组的比较研究是一个新方向

研究生命是从哪里起源的？

生命是如何进化的？

遗传密码是如何起源的？

估计最小独立生活的生物至少需要多少基因，这些基因是如何使它们活起来的？

比如，鼠和人的基因组大小相似，都含有约三十亿碱基对，基因的数目也类似。

可是鼠和人差异确如此之大，这是为什么？

同样，有的科学家估计不同人种间基因组的差别仅为0.1%；

人猿间差别约为1%。

但他们表型间的差异十分显著。

这又为什么？

完整基因组序列的比较研究是解决这些问题的重要途径。

六．基于序列数据的生物进化研究当前面临的问题

自1859年Darwin的物种起源（OriginofSpecies）发表以来，进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。

进化论研究的核心是描述生物进化的历史（系统进化树）和探索进化过程的机制。

自本世纪中叶以来，随着分子生物学的不断发展，进化论的

研究也进入了分子水平。

当前分子进化的研究已是进化论研究的重要手段，并建立了一套依赖于核酸、蛋白质序列信息的理论方法。

建树步骤：

①序列相似性比较。

就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。

完成这一工作只需要使用两两序列比较算法。

常用的程序包有BLAST、FASTA等；

②序列同源性分析。

是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。

这是理论分析方法中最关键的一步。

完成这一工作必须使用多序列比较算法。

常用的程序包有CLUSTAL等；

③构建系统进化树。

根据序列同源性分析的结果，重建反映物种间进化关系的进化树。

为完成这一工作已发展了多种软件包，象PYLIP、MEGA等；

④稳定性检验。

为了检验构建好的进化树的可靠性，需要进行统计可靠性检验，通常构建过程要随机地进行成百上千次，只有以大概率（70％以上）出现的分支点才是可靠的。

通用的方法使用Bootstrap算法，相应的软件已包括在构建系统进化树所用的软件包当中。

为便于使用者查找表三给出了进化分析相关软件的因特网地址。

MoreandmoreLGT（LateralGeneTransfer）werediscoveredandreported.Somepeopleguess1.5%~14.5%ofgenesinagenomearerelatedwithLGT,evenrRNAmoleculesareinvolvedinLGT;

Garcia-Vallvé

S,RomeuA,PalauJ.，GenomeRes,2000,11,1719~1725

YapWH,ZhangZ,WangY.，J.Bacteriol.1999,181:

5201~5209

Somepeopleargueitisimpossibletoreconstructauniversallifetree;

PennisiE.，Science,1999,284:

1305~1307

DoolittleRF.，Nature,1998,392:

339~342

Asmoreandmorewholegenomesequenceandtherelateddatabecomeavailable,itispossibletore-considerthephylogenyandclusteringpropertiesofspeciesinmorebroadmeasurements,eveninlevelofwholegenome.

PhylogenyBasedonWholeGenomeasinferredfromCompleteInformationSetAnalysis（CISA）

wepresentanewmethodbasedoninformationtheorytocalculatethephylogenicdistancebetweenbiologicalsequences,including16sRibosomalRNA,whichisusedformethodproof-test,24completelysequencedgenomes,aswellasallpredictedORFproductsofthem,creatingPhylogenyofgenomeandproteomeusingneighboring-joiningalgorithm.

Scientistshavealreadybeenconsciousofthatnootherbiologicalsequencecanbringmorephylogeneticinformationthanthegenome.However,previousalgorithmsdon’thavetheabilitytohandlesuchmegabaselevelnucleicacidoraminoacidsequences,whoselengthsizesareinmostcasesunequal.

七．2000年基因组研究的三个突出方面

1.干细胞作为基因组研究的重要选材

CeleraGenomicsAndGeronCorporationAnnounceCollaborationForHumanPluripotentStemCell（GenomicsJune12,2000）

Theobjectiveofthecollaborationistoidentifyandassignfunctiontogenesimportantinearlyhumandevelopment,andtoutilizetheinformationtodevelopsmallmoleculepharmaceuticals,proteintherapeutics,cellandgenetherapies,diagnostics,andtoolsforuseindrugdiscoveryandtesting.

2.SNP研究的国际大协作

TheSNPConsortiumLtd.isanon-profitfoundationorganizedforthepurposeofprovidingpublicgenomicdata.Itsmissionistodevelopupto300,000SNPsdistributedevenlythroughoutthehumangenomeandtomaketheinformationrelatedtotheseSNPsavailabletothepublicwithoutintellectualpropertyrestrictions.856,666mappedSNPs,isnowavailable.（July11,2000）

HumanGenomeProjectandSNPConsortiumAnnounceCollaboration

3.DNA芯片的广泛使用

8．大规模基因功能表达谱的分析

随着人类基因组测序逐渐接近完成，人们自然会提出如下的问题：

即使我们已经获得了人的完整基因图谱，那我们对人的生命活动能说明到什么程度呢？

人们进一步提出了一系列由上述数据所不能说明的问题，例如：

基因表达的产物是否出现与何时出现；

基因表达产物的量是多少；

是否存在翻译后的修饰过程，若存在是如何修饰的；

基因敲除（knock-out）或基因过度表达的影响是什么；

多基因差异表达与表现型关系如何等等。

概括这些问题，其实质应该是：

知道了核酸序列和基因，我们依然不知道它们是如何发挥功能的，或者说它们是如何按照特定的时间、空间进行基因表达的，表达量有多少。

Ⅰ基因芯片

Microarray:

AnarrayedseriesofthousandsoftinyDNAoligonucleotidesamplesimprintedonasmallchip.mRNAscanbehybridizedtomicroarraystoasseesstheamountandlevelofgeneexpression.（GENES'

X）

通常芯片数据分析有如下的一些步骤，它们的每一步都与生物信息学相关：

①Scanning（扫描）：

读取芯片上的光密度。

因为芯片上的点都是被荧光染料标记的（一般有红、绿两种颜色），荧光强度就代表了基因的表达量；

②Gridding（网格化）：

确定芯片每一个杂交点的位置。

具体说来，它要做三件事情，即：

发现每一个杂交点；

按照信号的强弱等级分割信号和背景的边界；

分别读取信号和背景的光强度。

③Normalization（标准化）：

对所有信号进行标准化，使光密度值能正确代表基因表达量。

这是芯片数据分析中非常重要的一步。

为什么要对数据进行标准化呢？

这是因为很多因素都可影响芯片上的光密度，如：

载体（象玻璃）表面不干净、染料不纯、空气中的灰尘污染；

背景光的照射方式；

光点大小以及对不同的杂交点荧光效率不同等；

④Clustering（聚类）：

将具有相同特征（如：

相同功能、相同表达趋势）的基因聚集在一起。

这只是芯片分析方法的一个代表，不同的方法还有很多。

常用的方法有：

Clustering方法，也称聚类方法，它是无监管的学习方法。

这是芯片分析中使用最广泛的方法[30，31]，它比较适合分析具有某种共同表达特征的数据，象，由共同细胞类型产生的芯片数据，例如：

对照和样品来自同一组织；

Classification方法，也称分类方法，它是有监管的学习方法[32]。

它非常适用于基因按其生物学功能分类的情况，例如：

肿瘤的分类[33]；

多变量统计也是芯片数据的常用分析方法[34]。

其中单组分分析和多维标度可有效地减低系统的维数。

这种方法常用于分析信号贫乏的数据集[35]来探测特定基因的表达概率[36]。

尽管发展了很多方法，但基因表达模式的研究才刚刚开始，大量的问题尚未解决，例如：

目前的分析还只能停留在一类基因或一组基因上，还不能有效地区分它们之间的关联，同时也很难获取非常重要也很有兴趣的若干低表达基因象，转录因子以及受体的信息。

为此，将基因表达数据与序列数据、pathway数据以及生物医学实验数据结合起来共同分析可能是未来的发展趋势。

用于基因芯片分析的重要软件有：

TIGR（TheInstituteforGenomicResearch）芯片数据分析软件包[41]：

它由三个软件组成。

MultipleExperimentViewer（TMEV）是用Java语言设计的。

用于对芯片数据标准化及进行聚类和距离代数的分析。

本软件还有图形显示界面。

但要运行此软件必须SunJRE和J3D1.2版本以上的系统；

ArrayViewer是一个简化的芯片数据分析软件，用于设备条件不允许使用TMEV时;

Spotfinder是用于芯片信号收集和图象处理的。

它是用C和C++写成在PCWindowsNT/98环境下运行的。

这些软件是可以下载的。

尽管芯片技术有极为广泛的前景，但对海量芯片数据的分析依然存在很多尚未解决的问题。

如：

（1）芯片上光密度数据标准化的理论方法研究。

为了保证芯片上每一个杂交点的光密度值都能正确地代表基因产物的表达量，需要在整个芯片范围内同时对所有点的光密度值进行标准化。

这是一个多点非线性的拟合问题，当前虽有很大进展，但仍需发展新的理论方法。

（2）含有大量无定义元的大规模矩阵数据处理的方法研究：

当根据信噪比对芯片数据进行筛选时，可能有约60%杂交点的数值不可靠，要舍去，这样就导致大量矩阵元无定义。

如何处理这种数据也要发展新方法。

（3）．大规模基因功能表达谱数据挖掘和知识发现：

这是表达谱研究成功与否的关键。

只有找到成百上千个表达水平发生变化基因之间在实现生物功能上的关联，才能充分揭示基因功能表达谱数据蕴含的丰富信息。

功能基因组信息分析的进一步工作必然是获取基因调节网络的知识。

这在肿瘤研究中尤其重要，因为肿瘤往往是多基因病，只有了解了这些基因的内在关系后，才能对其病理有根本的认识，也才能有好的诊断、治疗方案。

在基因调节网络这一领域已有了一些探索。

下一步，随着多层次、多类型的海量信息的增加，功能基因组研究将朝着复杂系统的方向发展，即：

探讨生物系统中各部分、各层次的相互作用，从而进入系统生物学的领域。

Ⅱ蛋白质芯片与蛋白质组技术

——二维电泳技术与质朴测序技术？

蛋白质芯片的概念虽然在上一世纪八十年代就已提出，但进展较为缓慢。

它主要研究蛋白与蛋白以及蛋白与配体（药物）的相互作用。

近年来有了一定进展，哈佛大学的一个研究组已实现了包括一万多个蛋白样品的玻璃载体芯片。

蛋白芯片研制的最大困难是同时得到数以万记的纯样品并保持它们的天然构象。

蛋白质组学技术和基因芯片技术一样是功能基因组的研究手段，与基因芯片不同的是，它是在蛋白质水平获取基因功能表达谱。

由于它使用二维凝胶电泳和测序质谱，所以在分析软件和数据库的使用上与基因芯片有所不同。

按照蛋白质组的研究过程，使用的分析软件和数据库有：

1.二维凝胶电泳分析，用于从胶图上鉴定蛋白位点；

2.蛋白识别，用于从质谱相关数据，象，电荷数、分子量、氨基酸组分、序列标识和MS指纹图确定蛋白；

3.DNA和蛋白质序列相互转换，包括通过EST的序列延长；

4.序列相似性比较；

5.特定模式的发现，象：

预测信号肽、糖基化位点、磷酸化位点、酶切位点等；

6.序列物理化学性质分析，象，PI、消光系数、疏水性等；

7.二级结构预测；

8.空间结构预测；

9.膜蛋白过膜区预测；

10.蛋白质亚细胞定位；

11.蛋白代谢Pathway;

12.蛋白相互作用等。