诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf

上传人:wj 文档编号:5972438 上传时间:2023-05-05 格式:PDF 页数:38 大小:13.19MB
下载 相关 举报
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第1页
第1页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第2页
第2页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第3页
第3页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第4页
第4页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第5页
第5页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第6页
第6页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第7页
第7页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第8页
第8页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第9页
第9页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第10页
第10页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第11页
第11页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第12页
第12页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第13页
第13页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第14页
第14页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第15页
第15页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第16页
第16页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第17页
第17页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第18页
第18页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第19页
第19页 / 共38页
诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf_第20页
第20页 / 共38页
亲,该文档总共38页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf

《诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf》由会员分享,可在线阅读,更多相关《诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf(38页珍藏版)》请在冰点文库上搜索。

诺禾致源真核无参转录组生物信息分析结题报告2013年8月资料下载.pdf

北京诺禾致源生物信息科技有限公司二、生物信息分析流程对于无参考基因组的转录组分析,可先将测序所得的序列拼接成转录本,以转录本为参考序列,进行后续分析。

信息分析流程图如下:

4/38F:

/结题报告+老销售培训/结题报告模板修改/真核无参转录组_Report.html北京诺禾致源生物信息科技有限公司三、结果展示及说明1原始序列数据高通量测序(如IlluminaHiSeqTM2000/MiseqTM)得到的原始图像数据文件经CASAVA碱基识别(BaseCalling)分析转化为原始测序序列(SequencedReads),我们称之为RawData或RawReads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。

FASTQ格式文件中每个read由四行描述,如下:

HWI-ST1276:

71:

C1162ACXX:

1:

1101:

1208:

24581:

N:

0:

CGATGTNAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGATCCAT+#55?

BBBBB?

BADEEFFCFFHHFFCFFHHHHHHHFAE0ECFFD/AEHH其中第一行以“”开头,随后为Illumina测序标识别符(SequenceIdentifiers)和描述文字(选择性部分);

第二行是碱基序列;

第三行以“+”开头,随后为Illumina测序标识别符(选择性部分);

第四行是对应碱基的测序质量,该行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。

Illumina测序标识符详细信息如下:

HWI-ST1276Instrumentuniqueidentifierofthesequencer71runnumberRunnumberoninstrumentC1162ACXXFlowCellIDIDofflowcell1LaneNumberpositiveinteger1101TileNumberpositiveinteger1208Xxcoordinateofthespot.Integerwhichcanbenegative2458Yycoordinateofthespot.Integerwhichcanbenegative1ReadNumber-1forsinglereads;

1or2forpairedendsNwhetheritisfiltered-NB:

Yifthereadisfilteredout,notinthedeliveredfastqfile,Notherwise0controlnumber-0whennoneofthecontrolbitsareon,otherwiseitisanevennumberCGATGThaoIlluminaindexsequences5/38F:

/结题报告+老销售培训/结题报告模板修改/真核无参转录组_Report.html北京诺禾致源生物信息科技有限公司2测序数据质量评估2.1测序错误率分布检查如果测序错误率用e表示,IllunimaHiSeqTM2000/MiseqTM的碱基质量值用Qphred表示,则有:

Qphred=-10log10(e)。

IllunimaCasava1.8版本碱基识别与Phred分值之间的简明对应关系见下表:

Phred分值不正确的碱基识别碱基正确识别率Q-sorce101/1090%Q10201/10099%Q20301/100099.9%Q30401/1000099.99%Q40对于RNA-seq技术,测序错误率分布具有两个特点,具体见图1:

(1)测序错误率会随着测序序列(SequencedReads)的长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的,并且为illumina高通量测序平台都具有的特征(ErlichandMitra,2008;

Jiangetal.)。

(2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。

所以推测这部分碱基的测序错误率较高的原因为随机引物和RNA模版的不完全结合所致(Jiangetal.)。

一般情况下,单个碱基位置的测序错误率应该低于1%。

图1测序错误率分布图横坐标为reads的碱基位置,纵坐标为单碱基错误率前100bp为双端测序序列的第一端测序Reads的错误率分布情况,后100bp为另一端测序reads的错误率分布情况。

6/38F:

/结题报告+老销售培训/结题报告模板修改/真核无参转录组_Report.html北京诺禾致源生物信息科技有限公司2.2A/T/G/C含量分布检查GC含量分布检查用于检测有无AT、GC分离现象。

对于RNA-seq来说,因随机性打断及G/C和A/T含量分别相等的原则,理论上GC及AT含量每个测序循环上应分别近似相等(若为链特异性建库,可能会出现AT分离和/或GC分离),且整个测序过程基本稳定不变,呈水平线。

但在现有的高通量测序技术中,反转录成cDNA时所用的6bp的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性,这种波动属于正常情况。

如图2所示:

图2GC含量分布图横坐标为reads的碱基位置,纵坐标为单碱基所占的比例;

不同颜色代表不同的碱基类型前100bp为双端测序序列的第一端测序Reads的GC分布情况,后100bp为另一端测序reads的GC分布情况。

7/38F:

/结题报告+老销售培训/结题报告模板修改/真核无参转录组_Report.html北京诺禾致源生物信息科技有限公司2.3测序数据过滤测序得到的原始测序序列(SequencedReads)或者rawreads,里面含有带接头的、低质量的reads,如图3所示。

为了保证信息分析质量,必须对rawreads过滤,得到cleanreads,后续分析都基于cleanreads。

数据处理的步骤如下:

(1)去除带接头(adapter)的reads;

(2)去除N(N表示无法确定碱基信息)的比例大于10%的reads;

(3)去除低质量reads(质量值sQcomp0_c0_seq1len=305path=306:

0-22468:

225-264531:

265-304CAGGACACAACATATATCCGAGTTGGTGTGGCTATCGAGCAGGGCTCGGACACACTGAGGATGCATGCTCTATGCTGGAGCCTCATGGATCGGGACCGCCCAGCCTCATTACAAGGGTTTTACTCTGTCGGAAATGTGGCTTTGATTTAGAGAAGGCAACAACTCCAGGCCAGGACTGTAGGAGAGAGCACATCTACAACCACTGCAGTCCCGGACTGTAGGAGAGACCACACCTACAACCACTGCAGGCCAGGGCTGTAGGAGGGACCACACCTACAACCACTGCAGGCCAGGGCTGTAGGAGGcomp1_c0_seq1len=623path=1565:

0-622AAAAAAAAGGGAAACGTGAAATCAACGACTATTATAACCTTAAATCAAACTTATCACCAGGTGAATTAAGCCCATCTCTGTGGGCCAGAGCATGTGTATAATTACTTAAATACCAATGTAGTGGGTTTTTAACAAACATGACAACCTGTAGGAAATGAATGGTAGATTATGAAATTACTCCTCATTCAACATACATTTCTCAACAGAAGCTACATTTGATTATGTGTTTGCTAGTTACATATTATGACGCTTTGTATTTTGACATTAAAGGGGTTTAATAACTTACAGCAAGACAGATGTTACATACCCAATTATAGACCGGTTACAATTACAGCTGTTGGGTAGGATTTGTGTTCCTTTCAAGACAGTGACAACCTTCACAGTTGGTAGTATTGAGAGTACACACTTGCACATACATGCTCTTCCCATCTAAGCACATAAATAAACCAAACAAAAAAAAACTGGTTGGCAAGGTGTGTGTGTATACACATGAAAGCAGATTATATCTTAACCTTAGATCAAACTTGAATTACTTGATCCAAGAAGAGGAACTACAGTCCAGCAGTAAAGGGACATACATTTGTTTACATTTACTTTGGGACCTGCTCCATGTTTATACAATT其中大于号后紧跟转录本的id号,len=后面为转录本的长度,即该转录本的碱基数,path为从deBruijnGraphsubComponent中经历的路径。

其后为该转录的碱基序列。

每个转录本的id号构成都为comp_c_seq,其中comp为拼接过程形成的deBruijnGraphComponent,c为10/38F:

/结题报告+老销售培训/结题报告模板修改/真核无参转录组_Report.htmlsubcomponet,可以看作为广泛意义上的基因,seq代表转录本。

详细解释见Trinity官方网站拼接转录本长度分布用Trinity将测序序列拼接成一个转录组,以此作为后续分析的参考序列。

取每条基因中最长的转录本作为Unigene。

对转录本及Unigene的长度进行统计,结果见表2,表3和图4,图5。

表2拼接长度频数分布情况一览表Transcriptlengthinterval200-500bp500-1kbp1k-2kbp2kbpTotalNumberoftranscripts100027443455729343241244906Numberofunigenes7364317186113397632109800表3拼接长度分布情况一览表MinLengthMeanLengthMedianLengthMaxLengthN50N90Transcripts2011112712167961886457Unigenes201661340167961166258N50/N90的定义为:

按照长度将拼接转录本从大到小排序,累加转录本的长度,到不小于总长50%/90%的拼接转录本的长度就是N50/N90。

图4拼接转录本长度分布图横坐标为拼接转录本的长度区间,纵坐标为对应长度的频数。

图4拼接得到的Unigene长度分布图横坐标为拼接的到的Unigene的长度区间,纵坐标为对应长度的频数。

12/38F:

/结题报告+老销售培训/结题报告模板修改/真核无参转录组_Report.html北京诺禾致源生物信息科技有限公司4基因功能注释4.1基因功能注释基因功能注释所用到的数据库:

Nr(NCBInon-redundantproteinsequences)是NCBI官方的蛋白序列数据库,它包括了GenBank基因的蛋白编码序列,PDB(ProteinDataBank)蛋白数据库、SwissProt蛋白序列及来自PIR(ProteinInformationResource)和PDF(ProteinResearchFoundation)等数据库的蛋白序列。

Nt(NCBInucleotidesequences)是NCBI官方的核酸序列数据库,包括了GenBank,EMBL和DDBJ(但不包括EST,STS,GSS,WGS,TSA,PAT,HTG序列)的核酸序列。

Pfam(Proteinfamily)是最全面的蛋白结构域注释的分类系统。

蛋白质是由一个个结构域组成的,而每个特定结构域的蛋白序列具有一定保守性。

PFAM将蛋白质的结构域分为不同的蛋白家族,通过蛋白序列的比对建立了每个家族的氨基酸序列的HMM统计模型。

PFAM家族按注释结果可靠性分为两大类:

手工注释的可靠性高的Pfam-A家族和程序自动产生Pfam-B家族。

我们通过HMMER3程序,搜索已建好的蛋白结构域的HMM模型,对unigene进行了蛋白家族的注释。

详见http:

/pfam.sanger.ac.uk/。

KOG/COG:

COG是ClustersofOrthologousGroupsofproteins的简称,KOG为euKaryoticOrthologGroups。

这两个注释系统都是NCBI的基于基因直系同源关系,其中COG针对原核生物,KOG针对真核生物。

COG/KOG结合进化关系将来自不同物种的同源基因分为不同的Ortholog簇,目前COG有4873个分类,KOG有4852个分类。

来自同一ortholog的基因具有相同的功能,这样就可以将功能注释直接继承给同一COG/KOG簇的其他成员。

/www.ncbi.nlm.nih.gov/COG/。

Swiss-Prot(Amanuallyannotatedandreviewedproteinsequencedatabase)搜集了经过有经验的生物学家整理及研究的蛋白序列。

/www.ebi.ac.uk/uniprot/。

KEGG是KyotoEncyclopediaofGenesandGenomes的简称,是系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能的数据库。

它整合了基因组、化学分子和生化系统等方面的数据,包括代谢通路(KEGGPATHWAY)、药物(KEGGDRUG)、疾病(KEGGDISEASE)、功能模型(KEGGMODULE)、基因序列(KEGGGENES)及基因组(KEGGGENOME)等等。

KO(KEGGORTHOLOG)系统将各个KEGG注释系统联系在一起,KEGG已建立了一套完整KO注释的系统,可完成新测序物种的基因组或转录组的功能注释。

详见http:

/www.genome.jp/kegg/。

GO(GeneOntology)是一套国际标准化的基因功能描述的分类系统。

GO分为三大类ontology:

生物过程(BiologicalProcess)、分子功能(MolecularFunction)和细胞组分(CellularComponent),分别用来描述基因编码的产物所参与的生物过程、所具有的分子功能及所处的细胞环境。

GO的基本单元是term,每个term有一个唯一的标示符(由“GO:

”加上7个数字组成,例如GO:

0072669);

每类ontology的term通过它们之间的联系(is_a,part_of,regulate)构成一个有向无环的拓扑结构。

/www.geneontology.org/。

各数据库及功能注释所用到的软件及方法:

与NR、NT、SwissProt、KOG、KEGGGENES序列数据库的比对:

NCBIblast2.2.27+;

PFAM蛋白结构域预测:

HMMER3.0package,hmmscan;

GO功能注释:

基于NR和Pfam两部分的蛋白注释结果:

软件为Blast2GOv2.5(Gtzetal.,2008)和自写脚本;

KEGG相关注释:

KAAS,KEGGAutomaticAnnotationServer。

注释结果统计见表4。

表4基因注释成功率统计NumberofUnigenesPercentage(%)AnnotatedinNR5226647.6AnnotatedinNT2461222.41AnnotatedinKO2419922.03AnnotatedinSwissProt4271438.9AnnotatedinPFAM4309839.25AnnotatedinGO5447949.61AnnotatedinKOG2790725.41AnnotatedinallDatabases93018.47AnnotatedinatleastoneDatabase6159156.0913/38F:

/结题报告+老销售培训/结题报告模板修改/真核无参转录组_Report.htmlTotalUnigenes109800100AnnotatedinNR:

NR注释成功的Unigene数目及其占总Unigene数的比例AnnotatedinNT:

NT比对成功的Unigene数目及其占总Unigene数目的比例AnnotatedinKO:

KO注释成功的Unigene数目及其占总Unigene数的比例AnnotatedinSwissprot:

Swissprot注释成功的Unigene数目及其占总Unigene数的比例AnnotatedinPfam:

Pfam注释成功的Unigene数目及其占总Unigene数的比例AnnotatedinGO:

GO注释成功的Unigene数目及其占总Unigene数的比例AnnotatedinKOG:

KOG注释成功的Unigene数目及其占总Unigene数的比例AnnotatedinallDatabases:

在以上7个数据库中都注释成功的Unigene数目及其占总Unigene数的比例AnnotatedinatleastoneDatabase:

在以上7个数据库中至少1个数据库注释成功的Unigene数目及其占总Unigene数的比例TotalUnigenes:

总的Unigene条数,占总Unigene比例为100%注释结果示意部分见表5。

表5基因注释结果(此处只展示NR的部分比对结果,其它数据库比对注释结果详见结果文件夹中表格)GeneIDGeneLengthNRGINRIDNRScoreNREvaluecomp943620_c022547087029NP_998528.13352.20751e-35comp116203_c02571255543897XP_002513011.125640comp453168_c0

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工作范文 > 其它

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2