生物信息学复习重点.docx

资源描述

生物信息学复习重点.docx

《生物信息学复习重点.docx》由会员分享，可在线阅读，更多相关《生物信息学复习重点.docx（9页珍藏版）》请在冰点文库上搜索。

生物信息学复习重点.docx

生物信息学复习重点

生物信息学是一门交叉学科,包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学等的各种工具来阐明和理解大量数据所包含的生物学意义。

生物信息学宗旨在揭示基因组信息结构的复杂性及遗传语言的根本规律。

从生物分子获得和挖掘深层次生物学知识。

人类基因组计划（）：

获得遗传图、物理图、序列图、转录图；终极目标：

阐明人类基因组全部序列；识别基因；建立储存这些信息的数据库；开发数据分析工具；研究实施所带来的伦理、法律和社会问题。

其中我国承担了人类3号染色体短臂。

记录：

一个数据库记录一般由两部分组成：

原始序列数据和描述这些数据生物学信息的注释。

冗余：

在一个数据库存在着多个相同的项，如两个或者更多的记录中有一个相同序列

格式开始于一个标识符：

">"，然后是一行描述。

格式：

每个基因描述可有多个描述行，包含一行以开头描述行，基因序列以开头，以结尾。

：

入口标识符，序列开始标识符，结束是。

数据库的特点：

①数据库是可以检索的，即具有检索功能；②数据库应该是定时更新的，即不断有新版内容发布；③数据库是交叉引用的，特别是在互联网时代，数据库应该通过超链接与其他数据库相连。

序列：

表达序列标签对文库测序得到的，是转录的序列。

序列：

序列标签位点染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的短片断,（200－500）。

序列标签位点是基因组上定位明确、作为界标并能通过扩增被唯一操作的短的、单拷贝序列，用于产生作图位点。

序列：

基因组概览测序基因组克隆的一次性部分测序得到的序列。

序列：

高通量基因组序列

三大数据库：

（）：

美国生物技术中心，建立了一系列生物信息数据和各种服务。

：

欧洲分子生物学实验室。

：

日本遗传研究所。

同源性基因系指起源于同一祖先但序列已经发生变异的基因成员。

基因同源性只有“是”和“非”的区别,是一种质的判断。

直系同源基因：

分布在不同物种间的同源基因又称直系同源基因。

旁系同源基因：

同一物种的同源基因则称旁系同源基因（水平基因）,水平基因由重复后趋异产生。

一致性：

序列中同一碱基位置的相同的碱基成员,或者蛋白质的同一氨基酸位置的相同的氨基酸成员的百分比。

相似性：

序列中同一位置相同或相似序列的百分比。

如同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。

可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员,它们之间的代换不影响蛋白质（或酶）的生物学功能。

相似性和同源性关系：

一般来说序列间的相似性越高的话，是同源序列的可能性就更高，所以经常可以通过序列的相似性来推测序列是否同源。

序列比对：

确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。

任务：

通过比较生物分子序列，发现它们的相似性，找出序列之间共同的区域，同时辨别序列之间的根本差异。

相似性：

可能是核酸／氨基酸序列的相似、可能是结构的相似、可能是功能的相似

主要的程序：

程序名

查询序列

数据库

搜索方法

核酸

核酸序列搜索逐一核酸数据库中的序列

蛋白质

蛋白质序列搜索逐一蛋白质数据库中的序列

核酸

蛋白质

核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。

蛋白质

核酸

蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。

核酸

核酸序列6框翻译成蛋白质序列，再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。

：

使用打分矩阵对匹配的片段进行打分，这是对各对氨基酸残基（或碱基）打分求和的结果，一般来说，匹配片段越长、相似性越高则值越大。

E：

在相同长度的情况下，两个氨基酸残基（或碱基）随机排列的序列进行打分，得到上述值的概率的大小。

E值越小表示随机情况下得到该值的可能性越低。

分子钟：

某一蛋白在不同物种间的取代数与所研究物种间的分歧时间接近正线性关系，进而将分子水平的这种恒速变异称为“分子钟”。

中性学说：

突变大多数是中性的,中性突变通过随机的遗传漂变在群体里固定下来,分子进化是遗传漂变的结果,在分子进化上自然选择不起作用。

分子进化／系统发育树的研究目的：

①物种分类及关系：

从物种的一些分子特性出发，构建系统发育树，进而了解物种之间的生物系统发生的关系②大分子功能与结构的分析：

同一家族的大分子，具有相似的三级结构及生化功能，通过序列同源性分析，构建系统发育树，进行相关分析和功能预测③进化速率分析：

例如，的高突变性，哪些位点易发生突变

末端节点：

代表最终分类，可以是物种，群体或者蛋白质、、分子等。

系统发育树是由一系列节点和分支组成，其中每个节点代表一个分类单元（物种或序列），而节点之间的连线代表物种之间的进化关系。

树的节点又分为外部节点和内部节点。

外部节点代表实际观察到的分类单元。

内部节点又称为分支点，代表分类单元进化历程中的祖先。

一个序列在物种形成或基因复制时，分裂成两个子序列，因此系统发育树一般是二叉树。

有根树:

从最早共同祖先，即根开始，随着时间的连续分支事件引起的一组相关物种的分歧。

无根树：

表示分类单元之间的进化关系，但不鉴别最早的共同祖先。

距离：

对一个有根树来说，沿着每个分支的进化方向是确定的。

反之，对无根树来说，并不清楚内部分支的祖先物种是从哪里进化而来相关序列间的差异称为距离。

不同物种的两条同源序列的度量被称为遗传距离或进化距离。

外群/外围枝：

与当前研究的主要物种或基因相对较远的一组序列，可以辅助定位树根，选择条件：

序列必须与剩余序列关系较近，但外围支序列与其他序列间的差异必须比其他序列之间的差异更显著

系统发育树构建步骤：

多序列比对；建立取代模型（建树方法）；建立进化树；进化树评估。

进化树的可信度检验自展法（统计方法）：

从排列的多序列中随机有放回的抽取某一列，构成相同长度的新的排列序列；重复上面的过程，得到多组新的序列；对这些新的序列进行建树，再观察这些树与原始树是否有差异，以此评价建树的可靠性

建树一般原则：

1.可靠的待分析数据2.准确的多序列比对3.选择合适的建树方法：

A.序列相似程度高，（简约法）B.序列相似程度较低，（似然法）C.序列相似程度中等，（邻接法）D.序列相似程度太低，无意义

为每个分支指派一个数值，表示这些分支在测试中出现的百分比，暗示它们关联的化分是否被数据很好地支持。

越接近100，可信度越高。

：

基因本体联合会所建立的数据库，旨在建立一个适用于各种物种的，对基因和蛋白质功能进行限定和描述的，并能随着研究不断深入而更新的语义词汇标准。

语义的分类：

①分子功能描述在个体分子生物学上的活性，如催化活性或结合活性。

②生物学过程由分子功能有序地组成的，具有多个步骤的一个过程。

③细胞组件指基因产物位于何种细胞器或基因产物组中（如糙面内质网，核糖体，蛋白酶体等），即基因产物在什么地方起作用。

语义之间有三种关系：

①a（I）②（P）③（R）

语义之间的关系：

1.“语义”用“结点”表示2.用父子结点来表示语义之间的关系，其中父结点离根结点较近，表示相对宽泛的语义，而子结点离叶子结点较近，相对父结点其语义所代表的内容更为具体。

3.实线表示结点之间的关系4.虚线表示推理而并未证明的关系

语义之间的关系是单向的，结构像是有向非循环树，但与有向非循环树不同的是，本体论结构图中的结点可以有两个及其以上的父结点。

在“”用“”标注，如“”，其说明根据实验数据，该基因产物并不在“”过程中起明显作用，因而该基因产物用该语义注释只是研究者的一种推测与期望，此推测的根据是该基因产物与那些在“”起明显作用的基因产物有着非常相似的序列结构。

间隔区（）是一片位于基因之间的序列。

非编码间隔区的一个子集。

偶尔有些间隔的作用来控制基因附近，但目前大部分没有已知的功能。

它有时也被称为“垃圾”的序列之一，最近被称为“暗物质”或“暗物质转录间隔区的片段”。

重复序列的分析：

对于真核生物的核酸序列而言，在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去，因为很多情况下重复序列会对预测程序产生很大的扰乱，尤其是涉及数据库搜索的程序。

等值区：

大部分真核基因组表现出一种称为等值区的组织形式。

等值区定义为“具有一致碱基组成的长区域”：

①等值区基因组序列的长度超过1,000,000对碱基；②虽然不同的等值区其含量差别显著，但同一等值区的含量始终相对均衡，即在等值区全长序列上移动的1,000滑动窗口中的含量与整个序列的含量相差不超过1%。

人类基因组大约可以划分为五个不同类型的等值区：

其中有两个区域缺乏G和C，分别被称作L1和L2，平均含量分别为39%和42%；另三个区域所含的G和C相对丰富，分别被称作H1、H2和H3，含量平均值分别为46%、49%和54%。

真核生物的H等值区中含有丰富的基因，是开始基因组测序的最佳位置。

序列：

翻译起点上游与原核16S核糖体或真核18S3′端富含嘧啶的7核苷酸序列互补的富含嘌呤的3～7个核苷酸序列（），是核糖体小亚基与结合并形成正确的前起始复合体的一段序列。

规则，即第一个侧翼序列的碱基分布所满足的统计规律，若将第一个中的碱基A，U，G分别标为1，2，3位，则：

①第4位的偏好碱基为G②的5’端约15范围的侧翼序列内不含碱基T；③在-3，-6和-9位置，G是偏好碱基；④除-3，-6和-9位，在整个侧翼序列区，C是偏好碱基

真核生物中的基因预测程序的分类：

1.基于同源性的方法2.基于从头算的方法3.基于一致性的算法（大部分程序是物种专一的，这是由于用于获得统计参数的训练数据必须由单一生物体取得）

蛋白质数据库：

提供详细的蛋白质序列、功能信息，如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等同时提供其它数据库，包括序列数据库、三维结构数据库、2凝聚电泳数据库、蛋白质家族数据库的相应链接

和代表数据的可性度。

可性度的标签主要有三种：

人工验证的数据（黄色星）；从其他数据源引用过来的数据（半黄半灰星）；通过程序添加或者产生信息的（灰色星）。

蛋白质3D结构预测的方法可分为三大类：

①同源建模法②折叠识别法③从头预测法

生物芯片：

生物活性物质以点阵的形式有序地固定在固相载体上。

在特定条件下与荧光标记过的待检测样品进行生化反应。

反应结果用化学方法显示，光学仪器进行数据采集，通过计算机软件进行数据分析，得到样品的分子信息。

基因芯片数据处理和分析：

1.基因芯片数据的获取2.芯片数据的标准化3.差异表达基因的分析4.基因共表达分析5.基因表达数据的聚类6.基因表达数据的分类7.后续分析

误差来源：

①图像分析②扫描③杂交过程（温度、时间、混合均匀程度等）④探针的标记⑤的抽提⑥加样⑦其他

芯片数据的标准化：

为了消除由于实验技术所导致的表达量的变化，并使各样本和平行实验的数据处于相同的水平，从而得到具有生物学意义的基因表达量的变化。

数据过滤：

过滤掉非正数，通过图像扫描软件，将每个杂交点的光强度转化为表达量时，会产生负的数值或者0，这主要是软件的算法对背景噪音处理时所产生的。

由于负数和零是不能对数化的，故过滤掉这些数据是非常必要的。

归一化采用的一个基本假设是：

在测试样本与对照样本间大多数的基因是没有显著差异表达的，而在有差异表达的基因中，在测试样品中高表达的基因与低表达的基因在数量上也是大致相当的，因此芯片上所有基因的相对表达量应该是以0为中心的分布。

平均数、中位数标准化：

由于不同的实验样本（如不同组织）是分别在不同的芯片上杂交试验，因而也有系统误差，应通过标准化将芯片的数据调整到同一水平。

芯片间的数据标准化常采用，常用的方法是平均数、中位数标准化。

即：

将不同组实验的数据对数比值的中位数或平均数调整到同一大小

差异表达基因的分析：

目的：

比较两个条件下的基因表达差异，从而识别出与条件相关的特异基因或者显著差异表达基因

基因显著差异表达：

通常是指一个基因在两个条件中的表达水平的检测值在排除实验、检测等因素后达到一定的差异，具有统计学意义，同时也具有生物学意义。

基因共表达分析：

在N个不同的条件下，考察基因X和Y的表达是否相似。

共表达：

正相关：

相似的表达谱，可能存在正关联；负相关：

相反的表达谱，可能存在负调控