基于de+Bruijn图的DNA+contig生成算法Word下载.docx

上传人:b****4 文档编号:8070222 上传时间:2023-05-10 格式:DOCX 页数:155 大小:253.57KB
下载 相关 举报
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第1页
第1页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第2页
第2页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第3页
第3页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第4页
第4页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第5页
第5页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第6页
第6页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第7页
第7页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第8页
第8页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第9页
第9页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第10页
第10页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第11页
第11页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第12页
第12页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第13页
第13页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第14页
第14页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第15页
第15页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第16页
第16页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第17页
第17页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第18页
第18页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第19页
第19页 / 共155页
基于de+Bruijn图的DNA+contig生成算法Word下载.docx_第20页
第20页 / 共155页
亲,该文档总共155页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

基于de+Bruijn图的DNA+contig生成算法Word下载.docx

《基于de+Bruijn图的DNA+contig生成算法Word下载.docx》由会员分享,可在线阅读,更多相关《基于de+Bruijn图的DNA+contig生成算法Word下载.docx(155页珍藏版)》请在冰点文库上搜索。

基于de+Bruijn图的DNA+contig生成算法Word下载.docx

师:

陈彬副教授

申请学位:

工学硕士

科:

计算机科学与技术

所在单位:

计算机科学与技术学院

答辩日期:

授予学位单位:

ClassifiedIndex:

TP319

U.D.C:

621.3

DissertationfortheMasterDegreeinEngineering

Candidate:

Supervisor:

AcademicDegreeAppliedfor:

Specialty:

Affiliation:

DateofDefence:

Degree-Conferring-Institution:

WangXu

AssociateProf.ChenBin

MasterofEngineering

ComputerScienceandTechnology

SchoolofComputerScienceand

Technology

June,2011

HarbinInstituteofTechnology

哈尔滨工业大学工学硕士学位论文

为了探索生命的本质,人们迫切希望快速地获得新物种个体DNA分子的全部

碱基序列。

现在,新一代测序技术不断发展,但测序过程中DNA分子已被打碎成

碱基片段,于是从头测序被提出来了。

随着第二代、第三代测序技术的产生,人

们能在较短时间内获得大量的测序数据。

测序技术以高通量、低成本、高精度为

发展方向,现在积累的测序数据越来越多。

如何快速、准确地处理海量测序数据

已成为DNA测序发展的瓶颈。

测序之前,DNA分子要经过复制、打碎、过滤等过程,然后通过测序仪,把

DNA片段读出,读出的DNA片段称为读取。

要获得整个DNA分子的碱基序列,

首先要根据读取构造重叠群。

重叠群是由读取相互重叠而成的DNA片段,并且重

叠群上的每个碱基都被一条读取所覆盖。

在本文中,提出了一种新的重叠群生成

算法,叫SRGA。

该算法基于deBruijn图,将从头测序问题转化成一个四叉树的

搜索问题,并采用启发式搜索策略,能够快速地处理海量测序数据,而且能得到

质量较高的重叠群。

本文详细叙述了算法的原理以及实现过程。

为了存储大量的读取,在本文中

使用了一种新的deBruijn图结构。

为了引入启发式规则,决策表结构是必要的。

决策表中保存了正在参与拼接的读取,后继k-mer就是由这些读取决定的。

当选定

后继k-mer时,决策表需要更新。

算法中通过不断选取后继k-mer,来扩展重叠群。

故后继k-mer的选取是一个非常重要的过程,只有选择了正确的后继k-mer才能得

到质量较高的重叠群。

本文提出了读取锁定策略,即通过设置决策表中的锁定位,

将一些快要成功拼接的读取锁定,令后继k-mer由这些读取产生。

这样可以保证重

叠群上每一个碱基都被一个成功拼接的读取所覆盖。

最后,本文将SRGA与EULER算法进行了比较。

发现EULER产生的重叠群

较短,数量较多,单条重叠群与参考基因组匹配较好,但总体覆盖度较低。

而SRGA

能产生较长的重叠群,且使用了更少的时间与内存。

虽然单条重叠群与参考基因

组匹配稍差,但总体覆盖度较高。

关键词:

从头测序;

启发式搜索;

deBruijn图;

决策表

-I-

Abstract

Inordertoexploretheessenceoflife,peopleareeagertogetallthebasesonDNA

moleculesofnewspeciesquickly.Now,anewgenerationofsequencingtechnologyis

developingonandon,butintheprocessofsequencing,DNAhasbeenbrokeninto

fragments.Sodenovosequencingisproposed.Asthesecondgeneration,third

generationsequencingtechnologygenerated,peoplecangetalotofsequencedataina

relativelyshortperiodoftime.Thesequencingtechnologyisdevelopinginthedirection

ofhigh-throughput,lowcostandhigh-precision,whichleadstomoreandmore

sequencingdataareaccumulated.Howtoquicklyandaccuratelyhandlethemassive

sequencingdatahasbecomethebottleneckofthedevelopmentofDNAsequencing.

Beforesequencing,DNAmustbecopied,smashedandfiltered,andthenthe

sequencerreadDNAfragmentsout.TheseDNAfragmentsarecalledreads.First,we

mustgeneratecontigsfromreads.AcontigissuchaDNAfragmentthatisovoerlaped

byreads,andeachbaseiscoveredbyaread.Inthispaper,weproposeanewdenovo

sequencingalgorithm,calledSRGA.ThisalgorithmisbasedondeBruijngraph,andit

transformsthedenovosequencingproblemintoaquadtreesearchproblem.Inthis

algorithmheuristicsearchstrategyisused,soitisabletodealwithmasssequencing

dataquicklyandthecontigsgeneratedfromthealgorithmhavehighquality.

Inthispaper,theprincipleandtherealizationofthealgorithmisdescribed

detailedly.Inordertosaveagreatdealofreads,anewdeBruijngraphisused.Decision

tableisessentialforheuristicrules.Assemblingreadsaresavedinthedecisiontable,

andthesereadsdecidewhichk-meristhesubsequentk-mer.Thedecisiontableneedsto

beupdatewhenasubsequentk-merischosen.Wechoosesubsequentk-merrepeatedly

toextendcontig.Sochoosingthesubsequentk-merisanimportantprocess.Ifandonly

iftherightsubsequentk-merischosencanwegetthecontigwithhighquality.Here

lockedreadstrategyisproposed.Somereadswhichareaboutsuccesscanbelocked

throughsetthelockedbitinthedecisiontableandthenthelockedreadswilldecide

whichk-meristhesubsequentk-mer.Thisensuresthateachbaseonthecontigcanbe

coveredbyasuccessfulassemblingread.

Atlast,wecompareSRGAwithEULER.EULERproducesshortetcontigs,and

eachcontigcanmatchreferencegenomewell,butoverallcoverageislow.SRGA

produceslongercontigs,anduseslesstimeandmemory.Althougheachcontigcannot

matchreferencegenomewell,yetoverallcoverageishigh.

Keywords:

denovosequencing,heuristicsearch,deBruijngraph,decisiontable

-II-

要...............................................................................................................................I

Abstract.............................................................................................................................II

第1章绪论....................................................................................................................1

1.1课题背景...............................................................................................................1

1.2研究目的和意义...................................................................................................2

1.3国内外研究现状和分析.......................................................................................4

1.4基于deBruijn图的算法概述..............................................................................6

1.4.1deBruijn图简介...............................................................................................6

1.4.2基于deBruijn图算法的一般步骤.................................................................7

1.5本文主要研究内容...............................................................................................7

1.5.1基因组中存在大量重复片段..........................................................................8

1.5.2测序过程中可能出现错误..............................................................................8

1.5.3建立deBruijn图.............................................................................................9

1.5.4更新决策表策略..............................................................................................9

1.5.5后继k-mer选取策略.....................................................................................10

第2章拼接模型...........................................................................................................11

2.1数据分析..............................................................................................................11

2.2问题建模..............................................................................................................11

2.3模型分析.............................................................................................................12

2.4模型求解.............................................................................................................13

2.4.1拼接总体思路................................................................................................13

2.4.2contig的构建过程..........................................................................................14

2.5本章小结.............................................................................................................19

第3章contig生成算法...............................................................................................20

3.1deBruijn图的建立..............................................................................................20

3.1.1debruijn图的数据结构..................................................................................20

3.1.2deBruijn图的建立过程.................................................................................23

3.1.3有关deBruijn图的基本操作.......................................................................26

3.2构建contig..........................................................................................................27

3.2.1决策表更新过程............................................................................................27

-III-

3.2.2后继k-mer选取过程.....................................................................................33

3.2.3contig构建过程的其他模块..........................................................................36

3.3本章小结.............................................................................................................36

第4章结果及评价......................................................................................................37

4.1算法的输入与输出.............................................................................................37

4.2评价内容.............................................................................................................38

4.3评价方法.............................................................................................................41

4.4评价结果.............................................................................................................43

4.5本章小结.............................................................................................................44

论............................................................................................................................46

参考文献........................................................................................................................48

哈尔滨工业大学硕士学位论文原创性声明................................................................50

哈尔滨工业大学硕士学位论文使用授权书................................................................50

谢............................................................................................................................51

-IV-

第1章绪论

1.1课题背景

分子生物学是一门从分子水平上研究生命现象物质基础的学科,主要研究细

胞成分的物理、化学的性质和变化以及这些性质和变化与生命现象的关系。

而生

物信息学则是一门综合计算机科学、信息技术和数学的理论和方法来研究生物信

息的交叉学科,主要包括生物学数据的研究、存

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 幼儿教育 > 幼儿读物

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2