第三章转录组学文字复习版.docx

资源描述

第三章转录组学文字复习版.docx

《第三章转录组学文字复习版.docx》由会员分享，可在线阅读，更多相关《第三章转录组学文字复习版.docx（69页珍藏版）》请在冰点文库上搜索。

第三章转录组学文字复习版.docx

第三章转录组学文字复习版

生物信息学（Bioinformatics）

第1章：

概论

一、生物信息学产生的背景/人类基因组计划二、生物信息学定义

三、生物信息学的研究目标及内容四、生物信息学的发展

五、生物信息学研究方法的新进展六、国内外生物信息学研究现状

七、生物信息学的意义和展望八、生物信息学与生物实验的关系

HGP的最初目标：

通过国际合作，用15年时间（1990～2006）至少投入30亿美元，构建详细的人类基因组遗传图和物理图，确定人类DNA的全部核苷酸序列，定位约10万基因，并对其它生物进行类似研究。

HGP的终极目标：

阐明人类基因组全部DNA序列；识别基因；建立储存这些信息的数据库；开发数据分析工具；研究HGP实施所带来的伦理、法律和社会问题

HGP的研究特色：

1、大协作研究：

以学科为中心以问题为中心，多学科合作

2、研究的计划性和有序性：

多方共同参与，制定更科学、更全面的研究计划

3、商业竞争促进基础研究：

1998年Celera公司的加入

4、政府与国家的作用：

美：

领导与推动英：

始于1989年2月，贡献为1/3左右

法：

始于1990年6月，贡献为3％左右日：

始于1990年，贡献为7％左右

德：

始于1995年，贡献为7％左右中：

始于1999年9月，贡献为1％左右

1、生物信息学的定义生物信息学（Bioinformatics）的来源：

Dr.HwaA.Lim（林华安）1987年提出“Bio-informatique”→“Bioinformatics”1955年出生于马来西亚。

联合国Bioinformatics专家，30岁取得佛罗里达州立大学终生教授。

1997年，创立结合软件与数据分析的专业顾问公司D’Trends，服务生物技术、制药及卫生保健等机构。

他认为信息学与生物学相结合时未来科学研究的一个潮流，所以他构思了一个新的名称为这个新学科命名。

生物信息学主要研究两种信息载体：

DNA分子蛋白质分子

生物分子至少携带着三种信息：

遗传信息与功能相关的结构信息进化信息

概念（狭义）：

生物分子信息的获取、存贮、分析和利用

概念（广义）：

生物体系和过程中信息的存贮、传递和表达

细胞、组织、器官的生理、病理、药理过程的中各种生物信息

目前为止，尚没有一个标准定义？

首先，该学科仍然是一门处于高速发展的学科，学科知识每天都在发生着细微的变化，这样使得科学家难以给出一个长久不被动摇的定义；

另一方面，生物信息学是一门多学科交叉的新生学科，不同学科的科学家对生物信息学有着不同的侧重点，给出的定义也有不同的局限性，且这种学科的交叉极有可能会随着生物信息学发展的需要而进一步升级。

美国国家基因组研究中心的定义：

Bioinformatics（Bioinformaticsisanemergingscientificdisciplinerepresentingthecombinedpowerofbiology,mathematics,andcomputers.）生物信息学是一个代表生物学，数学和计算机的综合力量的新兴学科

美国乔治亚理工大学：

Bioinformaticsisanintegrationofmathematical,statisticalandcomputermethodstoanalyzebiological,biochemicalandbiophysicaldata生物信息学时采用数学，统计学和计算机等方法分析生物学，生物化学和生物物理学数据的一门综合性学科。

美国密苏里大学：

Bioinformaticsisthescienceandtechnologyaboutlearning,managingandprocessingbiologicalinformation生物信息学时获知，管理和处理生物信息的科学技术

美国国家卫生研究院（NIH）的定义：

Bioinformatics（Research,development,orapplicationofcomputationaltoolsandapproachesforexpandingtheuseofbiological,medical,behavioralorhealthdata,includingthosetoacquire,store,organize,archive,analyze,orvisualizesuchdata.）为拓展生物学、医学、行为学和卫生学数据的用途而进行有关计算机方法手段的研究、开发与应用，包括此类数据的采集、存贮、整理、归档、分析与可视化。

生物信息学：

存储、修复、分析、整合生物数据的学科分子生物学与信息技术的结合体

研究材料与结果：

各种生物学数据研究工具：

网络、计算机

包括生物学和计算两部分现代生物研究的核心

对生物信息学定义的归纳：

生物信息学是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等相互渗透而形成的交叉学科。

是应用计算机技术和信息论方法采集、储存、传递、检索、分析和解读蛋白质及核酸序列等各种生物信息，以帮助了解生物学和遗传学信息的科学。

分子生物信息学（MolecularBioinformatics）：

与生物信息学的定义相对而言，分子生物信息学可以说是一种狭义的生物信息学概念，它专指对于基因组测序中产生的DNA序列进行生物信息学分析，揭示序列中的遗传信息。

DNA计算（DNAComputing）：

是将DNA作为一种信息存储器，应用PCR技术、DNA测序技术、生物芯片等进行计算。

它也常常被看作是生物信息学的一个分支学科。

计算生物学（ComputationalBiology）：

为生物学、行为学和社会系统的研究发展和应用数据提供分析方法、数学建模以及计算机模拟技术。

生物信息学研究的目标：

通过认识生命的起源，进化，遗传，和发育的本质，破译隐藏在DNA序列中的遗传语言，并揭示基因组信息结构的复杂性及遗传语言的根本规律，以及人体生理和病理过程的分子基础，为人类疾病的诊断，预防和治疗提供最合理且有效的方法和途径

研究内容：

1生物信息的收集，储存，管理和提供2基因组序列信息的提取和分析

3生物信息分析技术和方法的研究开发分析工具和实用软件4功能基因组相关信息分析

5生物大分子结构模拟和药物模拟

1.大规模基因组分析研究主要集中在核苷酸序列的存储、分类、检索和分析等方面

新基因的发现非蛋白编码区生物学意义的分析基因组整体功能及其调节网络的系统把握

2基因单核苷酸多态性（SNP）分析单核苷酸多态性也就是相同基因在不同个体中存在的单个碱基上的变异所造成的基因差异表现。

现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。

这主要是因为SNP将提供一个强有力的工具，用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。

3在基因组水平研究生物进化基因组在研究物种演化历史中，具有重要作用的是基因组整体组织方式而不仅仅是个别基因。

由于基因组是物种所有遗传信息的储藏库，从根本上决定着物种个体的发育和生理。

因此，从基因组整体结构组织和整体功能调节网络方面，并结合相应的生理表征现象来进行基因组整体的演化研究，将是揭示物种真实演化历史的最佳途径。

4蛋白质与蛋白质组分析1蛋白质结构：

新蛋白的完整、精确和动态的三维结构计算机辅助结构模拟2理解蛋白质的氨基酸序列和三维结构之间的关系3蛋白质序列及特性分析4蛋白质组学

5、芯片数据分析

6新药设计：

相当数量的蛋白质、核酸、多糖的三维结构获得精确测定，基于生物大分子结构知识的药物设计成为热点；根据靶标分子与药物分子相结合的活性部位的几何形状和化学特征，设计出与其相匹配的具有新颖结构的药物分子。

四、生物信息学的发展

1、前基因组时代的生物信息学属于生物物理学范畴的传统生物信息学可以追溯到很久以前，如研究生物发光、生物电、生物磁和激素等信息物质的传递现象及其相应测定技术。

以研究序列比对为标志的现代生物信息学则起源于20世纪70~80年代。

这一阶段的主要成就包括核酸和蛋白质序列的初步分析、生物学数据库的建立以及检索工具的开发。

例如替换矩阵、序列比对（sequencealignment）及GenBank（由美国国立生物技术信息中心建立和维护的核酸与蛋白质序列数据库）等大型数据库的建立，形成了生物信息学的雏形。

2、基因组时代的生物信息学以基因组计划的实施为标志（20世纪80年代至20世纪末），这一时期生物信息学确立了自身的研究领域和学科特征，成为生命科学的热点学科和重要前沿领域之一。

这一阶段的主要成就包括大分子序列以及表达序列标签（expressedsequencetag，EST）数据库的高速发展、BLAST（basiclocalalignmentsearchtool）和FASTA（fastalignment）等工具软件的研制和相应新算法的提出、基因的寻找与识别技术等，大大提高了管理和利用海量数据的能力。

3、后基因组时代的生物信息学在后基因组时代（21世纪初至今），这一时期的生物信息学确立了以综合为特征的相互作用网络分析方法，是生物信息学日趋成熟的时期，已经成为当今生命科学乃至整个自然科学的重大前沿研究领域之一。

今后的主要研究目标是对基因组数据的大规模分析、比较与综合，从基因组信息来揭示生物体的系统功能信息，以推进人们对生命活动基本规律的认识。

五、生物信息学的研究方法的新进展六、国内外生物信息学研究现状

七、生物信息学的主要意义和展望

科学意义：

可望从海量生物学数据分析中获得对生命运行机制和疾病机理等等的深入理解。

生物信息学的发展不光对生命科学产生了革命性的影响；且其影响已经超出了生命科学领域，？

掀起新的产业革命

应用价值：

在生物医药研究和生物技术相关产业（生物制药、农、林、牧、渔、环保等）的发展中将发挥越来越重要的作用。

21世纪生命科学研究最有力的工具产业潜力：

自身产业发展潜力很大：

1997年1.5亿美元，1998年2.7亿美元，1999年4.6亿美元，2000年已达7.4亿美元；预测2010年将达千亿美元。

例子：

只有50名员工的德国Lion生物信息学公司，将通过扫描公共数据库中的序列来发现500个可能的药物作用靶点，以一亿美元的价格预售给德国Bayer公司。

产业尚处于萌芽发展阶段生物信息学是生命科学与信息技术交叉融合的新学科，也是当今全球最具发展前途的学科之一。

生命科学已从一种以实验为基础的科学转向以信息为基础的科学，其成功将大大依靠信息科学与生命科学的联姻、依赖于生物信息技术的发展。

基因信息现在正推动着生物制药革命。

破译人类基因组给我们带来了打开这个星球上最有价值的图书馆的钥匙，但我们现在阅读这些图书还处在非常初级的水平，科学家的下一步工作将是如何把信息从这些图书中挖掘出来。

目前美国缺少有能力阅读这部人类基因“天书”并使用其中信息的人。

这个领域有非常多的机会，有非常大的需要。

据估计，这一领域所需要的研究人员数量将是现有人数的50倍。

培养这种人才就像破译人类基因组一样重要。

生物信息学研究面临的挑战：

未来生物学领域的高效研究发现将有赖于生物信息学的发展，而目前生物信息学存在不少的难题有待解决：

1、生物信息学理论研究明显薄弱生物信息学对许多学科都提出了巨大的挑战，包括分子进化遗传学、群体遗传学、统计生物学、基因组学以及计算机科学和应用数学等相关学科。

如果基础理论研究得不到应有的发展，生物信息学的发展将受到严重制约。

2、生物学领域中各种不同来源数据的有效整合处理将面临三方面的挑战：

计算基础设施、数据模式和预测分析模式。

计算基础设施包含了数据存储和数据处理能力两个方面。

数据建模的挑战是如何建立一个可用的、可发展的生物学数据模式。

而预测分析模式的挑战则是如何高效、自动化地获取有用的科学假设。

3、如何监控生物数据的质量是摆在生物信息学家面前的另一大难题。

监控已有生物数据的可信度对于生物遗传、物理图谱的构建具有十分重要的意义。

8、生物信息学与生物实验的关系研究起点

第2章生物学基础

生物起源和分子进化生物的分类分子生物学

生物“界”的划分

三界说、四界说、五界说、六界说

六界说：

真细菌古细菌原生生物真菌植物动物

原核生物（真细菌、古细菌）原核生物（prokaryote）：

由原核细胞构成的单细胞生物

DNA分子无核膜包裹，遗传信息量小；细胞小，直径为0.2~10m，有细胞壁；

细胞内无细胞器。

真核生物（原生生物、真菌、植物、动物）真核生物（eukaryote）：

由真核细胞构成的单细胞、多细胞生物

有核膜包裹的完整细胞核，核内DNA借助组蛋白形成多个染色体；

细胞体积较大，直径为10~100m；细胞内有功能专一的细胞器。

生物学基础：

分子生物学

生物信息的载体主要是1核酸2蛋白质

核酸：

1核酸：

包括核糖核酸RNA和脱氧核糖核酸DNA。

是一种线性多聚核苷酸。

2DNA的三级结构3RNA的分类4核酸性质：

变性；复性；杂交

蛋白质：

1基本组成单位为氨基酸。

2蛋白质的四级结构

3蛋白质的性质：

两性电解质；变性、复性。

4蛋白质结构与功能的关系

氨基酸（aminoacid）：

是蛋白质的结构单体；天然存在于蛋白质中的氨基酸只有20种；

结构特点：

在与羧基-COOH相连的-碳原子上都连着氨基，侧链R的不同决定了氨基酸的特性。

蛋白质结构与功能的关系

蛋白质的生物学功能：

是蛋白质分子的天然构象所具有的性质。

功能与结构密切相关。

只有当蛋白质以特定的空间构象存在时才具有生物活性。

不同的蛋白质，由于结构不同而具有不同的生物学功能。

基本假设（Anfinsen，1961）：

序列决定构象

即折叠所需信息完全包含在氨基酸排列的一维序列中

三联遗传密码的普遍性与特殊性

1、普遍性：

对大多数病毒、原核生物、真菌、植物、动物都适用；

2、特殊性：

支原体：

UGA色氨酸（Trp）嗜热四膜虫：

UAA谷氨酰胺（Gln）

线粒体：

与核DNA编码的氨基酸有部分差异

第三章生物信息数据库及其信息检索

近年来生命科学的发展突飞猛进，采集到的数据浩如烟海，我们得到了大量的生物学数据。

我们必须改变原有的数据处理方法，将生物学数据按照一定的目标与功能分类收集整理，形成了生物信息数据库。

一个数据库记录（entry）一般由两部分组成：

1.原始序列数据（sequencedata）2.描述这些数据生物学信息的注释（annotation）

注释中包含的信息与相应的序列数据同样重要和有应用价值

数据库的动态更新：

1.不断增加2.不断修正

1982年，第一个核酸序列数据库GenBank（LosAlamos）——1982年，606条序列，长度680,338bp——2004年，约43,322,756条序列，长度约7.11010bp

按分子生物学研究层次及实际应用可将现有的800多个数据库分为8类：

核酸序列数据库，蛋白质序列数据库，结构数据库，基因组数据库，蛋白质数据库，代谢组数据库，疾病数据库，药物与分子设计数据库，分析与记载方式数据库。

基因组数据库：

来源于人类基因组计划及各种模式生物基因组计划

从1995年，第一个自由生物体流感嗜血菌（H.inf）被完全测序收集开始，收集了多种生物（主要是模式生物）的全基因组数据，方便直接对该生物的多个方面的基因活动及相关性质进行研究。

如人类基因与基因组图谱数据库GDB，大肠杆菌基因组数据库Colibri

人类基因组相关数据库测序中心：

美国国家人类基因组研究所英国人类基因组

Sanger中心是世界上最大的DNA测序中心之一，承担人类基因组测序三分之一的任务：

华盛顿大学基因中心：

http:

//www.genome.washington.edu/UWGC/index.cfm

法国人类基因组中心：

http:

//www.genethon.fr/index.php?

id=162

生物学数据库：

按照一定的目标收集和整理生物学实验数据，并提供相关的数据查询、数据处理等服务。

这些数据库大多可以通过网络进行访问或下载。

一级数据库二级数据库

一级数据库：

直接来源于实验获得的原始数据，只经过简单的归类、整理和注释。

二级数据库：

在一级数据库、实验数据和理论分析的基础上，针对不同的研究内容和需要，对生物学知识和信息的进一步整理得到的数据库。

一级数据库核酸序列数据库：

GenBank、EMBL、DDBJ蛋白质序列数据库：

SWISS-PROT、PIR蛋白质结构数据库：

PDB

（一）核酸（DNA）序列数据库世界三大核酸序列数据库（公共序列数据库，PublicSequenceDatabase）GenBank（美国EMBL（欧洲）DDBJ（日本）

（二）蛋白质序列数据库

Swiss-prot（欧洲）：

最大的蛋白质序列数据库TrEMBL（欧洲）:

未挑选的蛋白质数据库

PIR（美国）：

最早的数据库UniProt（欧洲）：

蛋白质数据仓库

1Swiss-prot1.日内瓦大学医学生物化学系和欧洲生物信息学研究所（EBI）合作维护（1986年）2.只有实际存在的蛋白质才被收入，所有数据都经过检验并查阅，对有关文献资料进行仔细核实3.数据库包括了从EMBL翻译而来的蛋白质序列，这些序列经过检验和注释4.数据记录包括两部分序列注释（结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰、突变体、文献等以及与其它数据库的连接）

2TrEMBL大多数蛋白质是从EMBL库中的DNA序列翻译映射得到，并非由实验获得。

包括两部分：

SP-TrEMBL：

作为Swiss-prot的预备库

REM-TrEMBL：

不放入Swiss-prot，主要包括一些人工合成的蛋白、伪基因对应的蛋白

3PIR（proteininformationresource）

1.1960年左右由Dayhoff和其同事最早搜集了已知蛋白质序列；

2.由美国NCBI翻译自GenBank的DNA序列（1984年）；

3.是一个全面的、经过注释的、非冗余的数据库，支持有关分子进化、功能基因组学和计算生物学方面的研究。

1、能够快速查询、比较蛋白质序列并对其进行特征序列的模式匹配；

2、可给出蛋白质的功能位点，如磷酸化、糖基化位点、细胞黏附位点等；

3、可进行多种方式的序列比较，如两两比较和多序列比对等，可通过关键词、特征序列或序列接受号等进行查询。

4UniProt集成了Swiss-Prot，TrEMBL和PIR的数据信息。

将蛋白质序列数据库分为三个部分

UniProt：

Proteinknowledgebase,consistsoftwosections:

Swiss-Prot,whichismanuallyannotatedandreviewed.TrEMBL,whichisautomaticallyannotatedandisnot

reviewed.（蛋白质序列，功能，分类等信息存取中心）UniParc：

Sequencearchive（存储大量蛋白质研究的历史信息）.UniRef：

Sequenceclusters,usedtospeedupsimilaritysearches.（为提高检索速度，将紧密相关的蛋白质序列合并到同一条记录中）

1PDB1.1970年代建立，美国Brookhaven国家实验室维护管理;

2.988年，由美国RCSB（researchcollaboratoryforstructuralbiology）管理；

3.以文本格式存放数据，包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等；4.PDBsum数据库：

PDB注释信息综合数据库，具有检索、分析、可视化的功能。

（已移至EBI）

2SCOP英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于web的蛋白质结构数据库分类、检索和分析系统；可按照结构和进化关系进行分类；

对每个蛋白提供到PDB库的连接、序列、参考文献

总体上分为：

all-α,all-β,α+β,α/β,多域蛋白，膜与细胞表面蛋白，小蛋白

二级数据库在一级数据库、实验数据和理论分析的基础上，针对不同的研究内容和需要，对生物学知识和信息的进一步整理得到的数据库。

二级数据库的形式：

大多以web界面为基础，具有文字信息、表格、图形、图表等方式显示数据库内容；一级数据库与二级数据库之间并无明确的界限。

（例如：

SCOP、CATH等都已经具有二级数据库的特色）

1）DNA二级数据库

转录因子数据库（TRANSFAC）：

真核启动子数据库（EPD）：

转录调控序列数据库（TRRD）：

大肠杆菌调控数据库（RegulonDB）：

2）protein二级数据库

蛋白模体数据库（PROSITE）：

蛋白二级结构数据库（DSSP）：

指纹数据库（PRINTS）：

3）其它数据库

人类遗传数据库（OMIM）：

单碱基多态性数据库（dbSNP）：

表达序列标记数据库（dbEST）：

细胞器基因组数据库（GOBASE）：

二数据库格式历史原因：

没有完全统一的数据库格式

数据一般由两部分组成：

文本注释序列主体

文件格式：

FASTA数据库flatfile格式

FASTA格式（Pearson格式）FASTA是一种表示序列数据的平面文件格式，是比较简单而使用最多的序列格式。

主要由两部分组成：

第一行由“>”开头的序列说明文字（注释行），指明序列的名称与来源等信息；第二行开始是序列本身，采用标准的核苷酸符号或标准的单字符氨基酸符号。

（每行60-80个字符），序列结尾处用“*”终止，也可缺省。

EMBL,GenBank和DDBJ数据库的格式

EMBL，GenBank和DDBJ数据库的主要内容和格式

1描述符：

序列名称、长度、日期序列说明、编号、版本号

物种来源、学名、分类学位置相关文献作者、题目、刊物、日期

2特征表3碱基组成序列，每行60个碱基

三数据库的信息检索Entrez用于对GenBank,EMBL,DDBJ,PIR,Swiss-ProtandPDB数据库中的核酸和蛋白的序列数据提供整合的访问，同时提供对3D蛋白结构，基因组图谱信息和PubMedMEDLINE的访问。

【NCBI】SRS检索系统【EBI】【CIB】

ExPASy用于获取蛋白质及其相关数据【SIB】（Swiss-prot）

Entrez是NCBI开发的生命科学搜索引擎，也是NCBI所有数据库的核心查询系统，管理NCBI的核酸序列数据库（Necleotide）、蛋白质序列数据库（Protein）、生物医药文献数据库（PubMed）、大分子三维结构数据库（Structure）等大型生物信息数据库。

Entrez提供了对上述各个数据库的全面检索功能，同时也提供序列和染色体图谱的视图，还具有检索参考文献的功能，有的甚至包含了出版商网络资源的文献全文的链接。

Entrez的高级检索功能

短语自动匹配范围检索：

使用Limits选项菜单，对具体查询范围进行限定

使用检索词[限定范围]形式，

展开阅读全文