Illumina测序基础知识.docx

上传人:b****3 文档编号:11528600 上传时间:2023-06-01 格式:DOCX 页数:17 大小:27.86KB
下载 相关 举报
Illumina测序基础知识.docx_第1页
第1页 / 共17页
Illumina测序基础知识.docx_第2页
第2页 / 共17页
Illumina测序基础知识.docx_第3页
第3页 / 共17页
Illumina测序基础知识.docx_第4页
第4页 / 共17页
Illumina测序基础知识.docx_第5页
第5页 / 共17页
Illumina测序基础知识.docx_第6页
第6页 / 共17页
Illumina测序基础知识.docx_第7页
第7页 / 共17页
Illumina测序基础知识.docx_第8页
第8页 / 共17页
Illumina测序基础知识.docx_第9页
第9页 / 共17页
Illumina测序基础知识.docx_第10页
第10页 / 共17页
Illumina测序基础知识.docx_第11页
第11页 / 共17页
Illumina测序基础知识.docx_第12页
第12页 / 共17页
Illumina测序基础知识.docx_第13页
第13页 / 共17页
Illumina测序基础知识.docx_第14页
第14页 / 共17页
Illumina测序基础知识.docx_第15页
第15页 / 共17页
Illumina测序基础知识.docx_第16页
第16页 / 共17页
Illumina测序基础知识.docx_第17页
第17页 / 共17页
亲,该文档总共17页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

Illumina测序基础知识.docx

《Illumina测序基础知识.docx》由会员分享,可在线阅读,更多相关《Illumina测序基础知识.docx(17页珍藏版)》请在冰点文库上搜索。

Illumina测序基础知识.docx

Illumina测序基础知识

第一个要给大家讲的,是它这个flowcell。

Flowcell翻成中文,就叫“流动池”。

我们来看这个图片。

图片当中,我们看到一个象载玻片大小的芯片。

这个芯片里面,是做了8条通道。

在这个通道的内表面,是做了专门的化学修饰。

它的化学修饰,主要是用2种DNA 引物,把它(2种DNA引物)种在玻璃表面。

这两种(DNA引物的)序列是和接下来要测序的DNA文库的接头序列相互补的。

而且这2种引物是通过共价键,连到Flowcell上去。

之所以要用共价键连到Flowcell上去,是因为接下来有大量的液体要流过这个Flowcell,只有有共价键连接的这些DNA,才不会被冲掉。

这就是Flowcell。

文库制作

再接下来,讲一下文库、和文库的制作(过程)

所谓的DNA文库,实际上是许多个DNA片段,在两头接上了特定的DNA接头,型成的DNA混合物。

文库有2个特点,第1个特点,是当中这一段插入的DNA,它的序列是各种各样的。

第2个特点,它的两头的接头序列,是已知的,而且是人工特地加上去的。

要做这个文库,首先是把基因组DNA,用超声波打断。

然后打断之后,两头用酶把它补平,再用Klenow酶在3’端加上一个A碱基。

然后,再用连接酶把这个接头给连上去。

连好了接头的DNA混合物,我们就称为一个“文库”。

英文也称作“library”。

桥式PCR

做好了Library之后,就要做桥式PCR了。

桥式PCR,实际上是把文库种到芯片上去,然后进行扩增,这样的一个过程。

这个过程,首先是把文库加入到芯片上,因为文库两头的DNA序列,和芯片上引物是互补的,所以,就会产生互补杂交。

杂交完了之后,我们在这里面加入dNP和聚合酶。

聚合酶会从引物开始,延着模板合成出一条全新的DNA链来。

新的这条链,和原来的序列是完全互补的。

接下来,我们再加入NaOH碱溶液。

DNA双链在NaOH碱溶液存在下,就解链了。

而且被液流一冲,原来的那个(模板)链,也就是没有和芯片共价连接的链,就被冲走了。

而和芯片共价连接的链,就被保留下来。

然后,我们再在液流池里加入中性液体,主要是为了中和这个碱液,在加入中和液之后,整个环境变成中性了。

这时侯,DNA链上的另外一端,就会和玻璃板上的第二种引物,发生互补杂交。

接下来,我们加入酶和dNTP,聚合酶就延着第二个引物,合成出一条新链来;然后,我们再加碱,把2条链解链解开;然后,我们再加中和液,这时侯,DNA链会和新的引物杂交。

再加酶,再加dNTP,又从新引物合成出新的链来。

连续重复这一过程,DNA链的数量,就会以指数方式增长。

制备单链

在桥式PCR完成之后,接下来要做的工作,就是要把合成的双链,变成可以测序的单链。

办法是通过一个化学反应,把其中一个引物上的一个特定的基团给切断掉。

然后,再用碱溶液来洗这个芯片。

这时侯,碱让DNA的双链解链,那根被切断了根的DNA链就被水冲掉了。

留下那根共价键连在(芯片)上面的链。

接下来,再加入中性溶液,然后在这个中性溶液里面加入测序引物。

正式测序

好,接下来正式的测序工作就开始了。

那么,在测序的时侯,加入进去的,最主要是2个东西:

一个是带荧光标记的dNTP。

而这个dNTP,它还有一个特点,它的3’末端是被一个叠氮基堵住的。

然后,再加一个聚合酶,聚合酶就会选择:

哪一个dNTP是和原来位置上的那个碱基是互补的,根据互补性原理,把这个dNTP合成到新的这个DNA链上去。

因为这个dNTP的3’端是被一个叠氮基团堵住了,所以,它一个循环只能延长一个碱基。

然后,它就停在那儿了。

合成完了之后,就用水把多余的dNTP和酶给冲掉。

冲掉之后,就放到显微镜下,去进行激光扫描。

根据发出来的荧光来判断它是哪个碱基。

因为4种dNTP,它每一种dNTP上面标的荧光素都不一样,根据红、黄、蓝、绿,它出来的哪种颜色,那么,就可以倒过来推出来,这个新合成上去的碱基,是哪种碱基。

因为新合成的碱基,是和原来位置(的碱基)是互补的,所以,又推出模板上那个碱基是哪个。

这一个循环完成之后,就加入一些化学试剂,把叠氮基团和旁边标记的荧光基团切掉。

切完了之后,3’端的羟基就暴露出来。

再接下来,加入新的dNTP和新的酶,然后,又延长一个碱基。

新延长完一个碱基之后,把多余的酶和dNTP冲掉,再进行一轮显微的激光扫描,再读一下这个碱基是什么。

不断重复这个过程,可以重复上百次,到几百次,就可以把上百个碱基,甚至更多碱基的序列读出来。

读Index

那么,什么是Index哪?

是因为Illumina的评委会个测序量很大,往往一个样本,用不了那么几亿条DNA。

所以,科学家就想了一个办法。

在文库的接头上做了一些标记,每一个样本,它有一个特定的接头,每个接头里面,它有一段特定的序列。

这段特定的序列,我们就称为Index。

也有人把它叫做Barcode,反正,表达的是一个意思:

这么一段特定的序列,标记了样本的来源。

那么,要读这个Index的序列,先用碱把上面这根测完“Read1”的序列,把上面这根DNA链给解链掉。

解链掉之后,再加入中性液,然后,加入“Read2”这个测序引物。

Read2测序引物结合的位点,正好,就在这个Index序列的旁边。

接下来,就进行第2轮测序,一般来说,是读6到8个碱基。

把这6到8个碱基读下来,我们就可以知道,这某一个具体的一段DNA,它来自于原始的哪个样本。

双端测序

这是Illumina的最核心的另外一个技术,就是双端测序。

那么双端测序,就是说,一根DNA链,除了从正向读一遍,还可以从DNA的负向,再读一遍。

这一下子就把Illumina测序的有效长度加了一倍。

这是非常有实际用途的。

那么这个倒链的过程,是这样,先让这个DNA先合成,合成出来这根互补链。

有了这个互补链之后,用一个化学试剂,在原来这根链的根上切一下。

切一下,原来这根模板链就掉了,剩下那根互补链。

再接下来,就进行第2端的测序。

第2端的测序原理,和第一端的测序原理是一样的。

加上了“Read3”的这个引物,依次往下,一个一个碱基地往下读。

大规模平行测序

那么最重要的事情是什么呢?

一个点,经过几百个循环,就读出了几百个碱基。

但实际上,这个芯片上可以有上亿个点,上亿个“cluster”,也就是“簇”。

那么上亿个“cluster”,每个循环,它都可以读出地么多序列,这是Illumina测序非常强大的原因。

因为是成千上万,准确说是上亿上链都在合成,这个就得到了很大的一个测序数据量。

 

IlluminaHiSeq测序仪的工作原理。

也就是芯片上发生了这么多变化,HiSeq是如何把这些信息给读出来,并且把扫描出来的荧光信号,又通过怎样一系列的加工,变成可以识别的“A、C、G、T”的碱基序列的。

HiSeq首先是一台高精度的显微光学扫描仪。

然后再配上了一整套的液流系统,和计算机软硬件,再加温控系统,组成这样一台测序仪。

其中最核心,也是结构最复杂的,是它的光学系统。

前一期,我们讲了,Illumina测序仪主要是靠4种dNTP分别带有不同的荧光基团,在被激光照了之后,发出不同颜色的荧光。

再通过对光的颜色的分辩,可以判断出到底是哪个碱基。

光路结构

这里,我们要说明一下:

感光元件CCD,它本身是色盲。

所以,它一定要配合滤光片,才能分辩出颜色来。

那我们先来看一下,HiSeq的光路图。

左边这两个元器件,就是激光器。

一个发出红色激光,另一个发出绿色激光。

其中红色激光主要是激发A和C,这两种碱基上的荧光基团;而绿色激光主要是激发G和T,这两种碱基上的荧光基团。

红色和绿色这两束光,通过一面半透半反镜,组成一道激光。

这道激光打在Flowcell上。

那么请注意,Flowcell就放在这个位置。

在Flowcell里面,结合在DNA上的那个荧光基团在激光的照射下,就发出荧光。

荧光通过3面半透半反镜,和1面全反镜,被分成4条光路,这4道光线,分别通过一道滤光片,这4张滤光片的滤过波长不一样。

这样,这4道光在经过了滤光片之后,就变成了4种颜色不同的光线。

然后,这4条颜色不同的光线,各自照在一面反射镜上,通过反射镜进入到CCD。

这4个CCD就记录到不同颜色的光线。

TDI线扫描

HiSeq的光线扫描是“线扫描”,和传统的相机不一样,传统的相机是面扫描。

HiSeq采取了一种特定的叫“TDI”线扫描方式,TDI是Timedelayintegration的缩写。

在HiSeq上之所以采取TDI扫描方式,因为它有非常明显的优点。

第一个优点,就是它的扫描速度非常快,在HiSeq2500上,从Flowcell的一个Lane的一头扫到另外一头,也就是一个“Swath”的扫描时间,大概只有20秒种不到。

第二个好处,就是它的扫描精度非常高。

在最新的HiSeqV4版试剂上,它的光点密度,大概可以达到每平方毫米90万个点,要扫描清楚这么高密度的光点,扫描仪的扫描精度是可想而知的。

TDI扫描的第三个好处,是这种方式,可以把Flowcell的上表面、和下表面都扫描到。

Flowcell(测序芯片)

接下来,我们再要详细介绍这张Flowcell。

那么,先来看一下,这张flowcell有点象一张载玻片,在这一张片子里面,我们可以看到,它做了8条通道。

每条通道,我们称为一个Lane。

这8个Lane之间,相互是隔绝的。

每个Lane的两端各有一个小孔。

这两个小也孔,就是液流流进、流出的地方。

每个Lane的上表面和下表面,都分别以共价键的方式,种了2种DNA引物。

这两种DNA引物,是与文库接头的两头序列相互补的。

上一期(节目)我们已经说明了这一点。

一个Lane里面,分成2个面,上表面、和下表面。

上表面和下表面,都种了DNA引物,也都是可以产生测序数据的。

在每一条Lane的每一个面,又被分成了3个扫描通道,每个道被称为一个“swath”。

每条Swath是从头到底被连续扫描的。

但是它的数据,在进行数据分析的时侯,是被分割成16个小方块。

这每一个小方块,被称为一个“tile”。

这样一张Flowcell,总共就是768个Tile。

每个Tile在扫描的时侯,会根据4种颜色,产生4张照片。

图像处理

扫描完了之后,就要进行图像处理。

扫描出来的最原始的文件,它的格式是“.tiff”文件。

Tiff文件记录了每个像素点上采集到的光强度。

Tiff文件的优点是它是完全无损,保留了所有的原始信息。

但它也有它的不足之处。

它的不足之处就是它的这个文件太大了。

它的数据量很大,既不便于数据的传输,也不便于数据的存储。

接下来,计算机软件就把图像文件转化成光点文件。

光点文件叫“.BCL”文件。

也就是“Basecalling”的英文缩写。

要把图像文件,转化成BCL文件,就是把4种颜色的4张照片,组合在一起,变成一张有4种颜色的彩色照片。

这其中首先要解决的,是4张照片在空间位置上的匹配问题,因为4张照片是通过4个CCD分别拍下来的,所以,会有一定的空间上的偏差。

软件要通过对4张照片上,亮点相互比对,找到最合适的、匹配的位置。

这里,我们要说明一下,如果被测的文库是碱基不平衡的文库,在这个空间匹配上就会遇到问题。

什么叫碱基平衡呢?

也就是说,在测序过程当中,每个循环,A、C、G、T四种碱基,都是比较均匀在存在的。

最典型是人全基因组文库,这是一个典型的碱基平衡文库。

那什么是碱基不平衡文库呢?

最典型的,就是PCR扩增子产生的文库。

PCR扩增子的特点:

PCR是有特定的起始位点的,一个特定的测序循环中,几乎所有的片段都是同一种碱基,而剩下的3种碱基,就特别少。

这在反映到照片上去的时侯,就变成:

一张照片特别亮,光点很多。

而其它的三张照片就特别暗,上面的光点就很少。

这时侯,要软件做空间上的比对,软件就会觉得困难,因为对于那几张暗的照片,软件很难判断上面的光点,是否与那张亮的照片上的光点真正对得上。

结果,就是判断出来的可靠性变差。

最后,就是测序的数据质量变差,有效数据量也会变少。

要解决这个问题,办法是在测序过程中掺入一些碱基平衡的文库。

例如掺人全基因组文库。

或者也可以掺Illumina提供的标准的PhiX文库,这些都是碱基平衡文库。

它的作用,是在每个循环当中,为每一种颜色的照片,都提供足够多的亮点。

这样,它可以弥补那些不平衡的文库当中缺亮点的问题。

BCL文件

当把4种颜色的光点组成一个文件之后,软件就会生成一个“.BCL”文件。

“.BCL”文件就是光点文件,它对每个光点,记录了以下的内容。

首先一个光点处在哪个Lane里面。

其次,这个光点在这个Lane的哪个Tile里面。

第3,就是这个亮点在这个Tile的X轴和Y轴的座标位置。

第4,是记录了这个光点当中“红、黄、蓝、绿”四种光的对应的光强。

这个图是BCL文件的一个示意图。

实际上,BCL文件是二进制文件,无法拿来直接阅读。

也正是因为BCL文件难于阅读,并且很难改动,所以,BCL文件几乎不存在做假的可能。

在测序过程当中,有许多客户会要求测序公司提供原始的测序数据,如果客户是包Lane、或者包Flowcell的,一般测序公司是可以提供BCL文件的。

客户在拿到BCL文件之后,可以用“BCL2FASTQ”这个软件,把BCL文件转化成FASTQ序列语文件。

以此,客户可以来验证,测序公司提供的数据是否是原始的,是否是真实的。

再说一下最初生成的那个tiff文件。

tiff文件实在太大了,所以,测序仪在测序过程中,只把tiff文件作为中间文件。

最后是把这个tiff文件删掉的。

如果客户想要原始的图像文件,在HiSeqV4之前,可以让测序公司保留“.CIF”文件。

CIF文件是一种彩色图案的向量文件,它的优点是比tiff文件的数据量小很多。

测序公司把CIF文件给客户之后,客户就可以看到原始的图像文件了。

但是,请注意:

在HiSeq升级到V4之后,保留CIF文件的这个选项是被取消掉了。

所以,对于要测V4Lane的客户来说,是拿不到CIF文件了。

碱基识别

接下来,我们讲一下碱基识别。

我们之前讲:

4种dNTP,各标一种荧光基团,红、黄、蓝、绿,四种颜色,根据颜色来判断碱基种类。

这个实际上是一种简化了的说法。

实际情况,要比这个复杂得多。

来看这个图,这是2种荧素的荧光的波长图。

我们会发觉,这两种荧光色,它发出来的发射光,它在波长上是有交叠的。

在X的这个位置,主要是绿色荧光素的贡献,但是蓝色荧光素,也有少许贡献。

而在Y这个波长位置,蓝色荧光素是做了主要贡献,但是绿色荧光素,也有少量供献。

在实际测序过程中,是4种荧光素发出的亮,相互有交叠,相互之间的交系,变得更加复杂。

那么,现在我们要做的事情,是把A、C、G、T,4种荧光素的贡献给拆开。

首先,我们就要确定4种荧光素在4个被测波长处的贡献率。

我们可以看一下,这个表,就是4种荧光素,在4个波长分别有不同的贡献率。

这样就组成一个4X4的贡献率表格。

我们在实际的分析当中,等于解一个4元1次、4联方程。

因为是4个未知数,又是4个方程,所以肯定是可以解出来的。

说解方程,有点复杂。

那么我们来打一个比方。

让大家来理解这个事情。

假设有一家饭店,它有4个熟客:

甲、乙、丙、丁。

它日常又提供4道菜:

猪肉、白菜、黄瓜、花生。

大厨知道:

甲最爱吃猪肉、乙最爱吃白菜、丙最爱吃黄瓜、丁最爱吃花生,每个人来了饭店之后,主要吃自己最爱吃的,也会吃些别的菜,但别的菜都吃得不是太多。

那么这个大厨不到前台,看不到今天来的客人。

如果,这个大厨想要知道今天来的客人是谁,他有什么办法呢?

看今天哪个菜被吃掉得最多。

如果今天的菜被吃掉的最多的是猪肉,那他可以大致地判断,今天是甲来过了;如果他看到今天被吃掉的菜,最多的是白菜,很可能是乙来过了;那么其它的,道理也是一样的。

希望这个例子可以帮大家来理解一下,这4个荧光和4种碱基的判读的关系。

Phasing和Prephasing

接下来,我们再讲一下,Phasing和Prephasing。

在Illumina的测序过程当中,一个簇,大概有5千个到1万个分子。

但是在边合成、边测序的过程当中,每一步酶反应,理想情况下,应该这5千个分子都延长1个碱基。

但实际情况,总有少量分子没有完成延长反应。

也就是说,总有少量的分子会掉队,我们称这种掉队的现象叫“phasing”。

Phasing主要是由于酶活性不足,所引起的。

如图所示,掉队的这个分子,它所发出的荧光信号,和大部队所发出的荧光信号是不一样的。

这个循环的次数越多,掉队的分子就越多。

所以,测序越到后面,它Phasing的分子数就越多。

最后,信号的可靠性就越差。

除了掉队的分子,还会有一部分分子,会跑得超前,也就是在一个循环中,它延长了2个碱基。

在一个循环中延长了2个碱基的最主要的原因,是dNTP上标记的那个叠氮基团(N3)掉了。

我们知道,叠氮基团是非常容易从有机化合物上掉落的。

当叠氮基团掉落之后,dNTP的3’端的羟基就暴露出来了。

当丢失了叠氮基团的dNTP加到(合成链的)3’端之后,它的聚合反应不会终止,而是会继续往前走。

当再加上了一个带叠氮基团的dNTP之后,这个聚合反应才停下来。

这样的后果,就是一个循环,某些分子,会合成了2个碱基。

也就是说比大部队多走了一步。

那么这个多走了一步的碱基,它所发出来的荧光颜色,也是和大部队不一样的。

在Illumina测序过程当中,Phasing和Prephasing是限制测长的最主要原因。

也就是说,随着循环不断进行,越来越多的分子掉队,还有越来越多的分子超前。

然后,它们所产生的噪音,掩盖了大部队的信号的时侯,也就是测序开始测不准的时侯。

在HiSeq测序当中,从第12个循环开始,在计算某个光点是哪种碱基的时侯,就要把Phasing和Prephasing的影响,纳入考虑。

Chastity和Passfilter

为了对光点当中荧光素的纯粹程度进行描述,Illumina公司定义了个标准,叫“chastity”,Chastity的定义,就是浓度最高的那个荧光素的量,去除以“它自己+排名第二的荧光素的量的和”。

大于0.6是一个好碱基。

用更加通俗的话来说,也就是“老大”比“老二”,如果大于、等于“1.5倍”,这就是个“好”碱基。

如果“老大”比“老二”不足“1.5倍”,这就是个“坏碱基”。

Illumina对每个read的质量都要做一个检验,这个检验就叫“passfilter”检验。

检验的标准,是看前25个碱基当中,有几个是“坏碱基”。

如果只有一个、或者没有坏碱基,则Passfilter就通过;如果有超过一个以上的坏碱基,Passfilter就不能通过。

那我们平时说,测序服务保证多少“PFdata”,指的就是PassFilter(PF)的数据。

PassFilter最主要的作用,就是把那些一个光点当中,含了几个cluster的那些点,给去掉。

只剩下那些纯粹的单克隆的read,作为合格的数据,提交给客户。

我们平时说“PF率”,指的就是PassFilter的Reads数,占总的、测到的Reads数的比例。

PF率可以从一个侧面反映测序的质量。

一般来说,如果上样密度过高,PF率就可能会下降。

QualityScore,Q值

一个碱基的QualityScore,也就是这个碱基的质量分数(Q值)。

这个是通过这个碱基被误判的可能性,换算出以10为底的对数,再乘以“-10”得到的这样一个数字。

这个Q值,有点象我们说黄金的纯度,我们说“三九金”,或者说“四九金”,就是指99.9%的纯度的金子,或者是99.99%的纯度的金子。

我们平时说Q30,就是指一个碱基的可靠性达到99.9%。

或者说,它的出错的可能性小于千分之一。

同样道理,我们说Q40,就是指一个碱基的可靠性是99.99%。

或者说,它的出错的可能性是万分之一。

那么,我们经常说Q30比例,所谓的“Q30比例”,就是在全部PF数据当中,达到、或者超过Q30质量标准以上的数据,占所有PF数据的比例,叫Q30比例。

Q30比例,可以表征一个测序过程的质量的好坏。

一个碱基的质量分数,不是以数字方式,直接记录到最后的Fastq文件的。

而是把它的Q值,加上33,再用ASCII码表转换成一个字母,把这个字母录入Fastq文件。

这样做,有2个好处。

如果我记2位数字,那么就占2个字节,现在用一个字母来记录,只占一个字节。

那(数据存储)空间就节省了很多。

第二个好处,用ASCII码字母表,一个碱基,只对应一个字母;如果是用2位数字来记录,就有可能发生移码错误。

而用ASCII码,一个字母来记录,就不太容易发生移码错误。

Fastq文件

在软件做完上述所有的数据处理之后,就会生成一个Fastq文件。

Fastq文件里,主要包含了3部分内容。

第一个部分,是每个Read的目录信息。

也就是这个Read来自于哪台HiSeq、第几个run、第几个Lane、和第几个Tile,以及在这个Tile的X、Y的什么位置。

接下来,就是所测到的碱基的序列。

最后,是这些碱基序列对应的质量分数信息。

这个,就是Fastq文件。

到Fastq文件之后,测序仪所要完成的工作,就完全完成了。

 

Pacbio是目前读长最长的测序技术公司。

它的读长,最长可以达到2万到3万个碱基,平均可以达到8千多个碱基。

相比于llumina和IonTorrent的几百个碱基的读长来说,有着明显的优势。

PacBio测序过程

PacBio的测序原理,和别的高通量测序的原理,基本上也是一样的。

也是边合成,边测序。

首先,这个聚合酶是固定在测序小孔的玻璃底板上。

这个聚合酶又和DNA模板、测序引物是结合在一起的。

然后加入带4色荧光的dNTP底物,这些dNTP都在其磷酸基团上被标上了荧光基团,四种碱基、各标一种颜色。

当一种与聚合酶正要合成的碱基一致的dNTP被酶抓住的时候,酶就会长时间地抓住这个dNTP,不让这个dNTP漂走。

这时侯,激发光从小孔的底部照进来,打在这个被抓住的dNTP上,就会在较长时间内发出荧光。

仪器根据所拍到的荧光的颜色,就可以来判断,这个碱基是哪种碱基。

一个循环的聚合反应发生完毕之后,焦磷酸基团就从原来的dNTP上掉下来,因为荧光基团是连到这个焦磷酸上的,所以这个荧光基团也就一起掉下来了,在溶液中就会漂走。

接下来,进行第二、第三个循环……,一直进行下去。

一张芯片上有几万个孔,同时进行测序,这样一次就可以得到几亿个碱基的序列。

接下来,分几个要点,来说明这个测序的过程。

化学方法

和Illumina一样,PacBio也采用了4色荧光基团来标记dNTP,但是PacBio的标记和Illumina的标记有所不同,PacBio的荧光基团直接是标在dNTP的3'端的磷酸基团的末端的。

这样标记的好处是:

当一个聚合反应的循环完成的时侯,dNTP上的那两个磷酸基团就掉下,连在这个磷酸基团上的荧光基团也随一块儿掉下来。

它掉下来之后,就在溶液中漂走,不会影响接下来的测序过程了。

测序微孔

然后,我们说一下这个测序小孔的设计。

这个测序小孔叫ZeroModelWaveguide,简称ZMW。

小孔的直径很小,光只能在小孔中传输很短的距离。

这个特点对PacBio的测序很重要。

因为酶是被固定在玻璃底板上的,所以,只有互补的dNTP被酶抓到的时侯,这个dNTP才会较长时间地停留在离玻璃底板很近的位置。

也只有这样,才会被激发光照到,并且发出它的荧光。

PacBio的光学设计中,入射光是几百纳米波长的可见光,光从小孔的底部的玻璃处照到小孔中来。

这个,只有70纳米。

其它游离的dNTP,只会非常短暂地进入小孔,又很快漂走。

所以,这些游离dNTP带来的的噪音(信号),就被抑制在很低的水平。

哑铃状的文库

接下来,我们说一下PacBio的建库。

PacBio的建库是比较特别

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2