临床遗传学常用的生物信息.pptx

上传人:聆听****声音 文档编号:9544078 上传时间:2023-05-19 格式:PPTX 页数:82 大小:2.81MB
下载 相关 举报
临床遗传学常用的生物信息.pptx_第1页
第1页 / 共82页
临床遗传学常用的生物信息.pptx_第2页
第2页 / 共82页
临床遗传学常用的生物信息.pptx_第3页
第3页 / 共82页
临床遗传学常用的生物信息.pptx_第4页
第4页 / 共82页
临床遗传学常用的生物信息.pptx_第5页
第5页 / 共82页
临床遗传学常用的生物信息.pptx_第6页
第6页 / 共82页
临床遗传学常用的生物信息.pptx_第7页
第7页 / 共82页
临床遗传学常用的生物信息.pptx_第8页
第8页 / 共82页
临床遗传学常用的生物信息.pptx_第9页
第9页 / 共82页
临床遗传学常用的生物信息.pptx_第10页
第10页 / 共82页
临床遗传学常用的生物信息.pptx_第11页
第11页 / 共82页
临床遗传学常用的生物信息.pptx_第12页
第12页 / 共82页
临床遗传学常用的生物信息.pptx_第13页
第13页 / 共82页
临床遗传学常用的生物信息.pptx_第14页
第14页 / 共82页
临床遗传学常用的生物信息.pptx_第15页
第15页 / 共82页
临床遗传学常用的生物信息.pptx_第16页
第16页 / 共82页
临床遗传学常用的生物信息.pptx_第17页
第17页 / 共82页
临床遗传学常用的生物信息.pptx_第18页
第18页 / 共82页
临床遗传学常用的生物信息.pptx_第19页
第19页 / 共82页
临床遗传学常用的生物信息.pptx_第20页
第20页 / 共82页
亲,该文档总共82页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

临床遗传学常用的生物信息.pptx

《临床遗传学常用的生物信息.pptx》由会员分享,可在线阅读,更多相关《临床遗传学常用的生物信息.pptx(82页珍藏版)》请在冰点文库上搜索。

临床遗传学常用的生物信息.pptx

临床遗传学与生物信息学:

工具与资源,刘春宇,主要内容,定义与背景主要数据对象及特点常用数据库资源与工具临床遗传学实验室的基本信息学装备与管理生物信息学的基本技能,定义,生物信息学(Bioinformatics)是研究生物数据的采集、处理、存储、传播,分析和解释等各方面的学科,是生命科学和计算机科学相结合形成的一门学科。

是通吃所有现在与未来的OMICS的学科。

生物信息学应用服务于科研与临床。

精准医学背景下的遗传学和生物信息学,科研:

基因定位、突变检测、基因型分析、疾病易感基因的关联分析、基因与蛋白的调控、结构与功能预测分析临床:

突变检测、基因型分析,和已知相关基因的信息查询和临床指导,生物信息学是现代遗传学研究的灵魂,遗传学数据量大一个人携带数百万的多态或突变2万余编码蛋白的基因表达,数十万甚至更多的剪接本,非编码调控基因、分子种类多SNVs,CNVs,INDELs,SVs可遗传的、新生的、体细胞的影响编码的,调控的数据到知识的转化依赖信息的分析与整合知识到临床实践的转化依赖信息的管理与发布,主要数据对象,遗传学数据表型数据,单基因病VS多基因病,?

突变与多态性,?

AmericanCollegeofMedicalGeneticsACMGMinimumList(56genes),AmbryExonscreen293genesfor229diseases,对临床医生最重要关键信息,DNA变异:

区分致病突变、易感基因与常见多态变异影响到的什么基因基因名称功能如果影响基因的功能蛋白质编码表达量,信息的有效性和适用范围,基因型与表型的关系可行动性(Actionable),大合作大数据的重要性,基因型与表型的关系BRCA1的突变为例人群中已经发现数千种变异,致病性如何?

常用数据库资源与工具,基因组与序列各类图谱序列基因组与表观基因组变异与表型OMIM,GWAScatalog,DNA变异数据查询,UCSCgenomebrowser(位置)http:

/genome.ucsc.edu/cgi-bin/hgTracks?

clade=mammal&org=Human&db=hg19&position=BRAC1&hgt.positionInput=BRAC1&hgt.suggestTrack=knownGene&Submit=submit&hgsid=423900655_v4S6u9fIecnW2XqxxDOTaqapW1v3&pix=1045NCBIClinVar(变异与疾病)http:

/www.ncbi.nlm.nih.gov/clinvar/?

term=PTEN%5Bgene%5D,基因的相关信息,GeneCardshttp:

/www.genecards.org/cgi-bin/carddisp.pl?

gene=BRCA1&search=aa389e880a9c80096d5a96c63a2975f6,常见病的易感基因,GWASCataloghttp:

/www.genome.gov/page.cfm?

pageid=26525384#searchForm,基因表达的信息,BRCA1http:

/www.genecards.org/cgi-bin/carddisp.pl?

gene=BRCA1&search=aa389e880a9c80096d5a96c63a2975f6,遗传学以外的生物信息学,临床大数据人口资料影像学生理生化病理治疗与疗效生物测量可穿戴设备,计算需求,100TBPB存贮空间641000+CPU32-64+G内存并行运算,流程化,数据关联,备份,临床遗传学实验室的基本信息学装备与管理,计算机一般以Linux操作系统为佳,配以较大容量内存(16GB以上)、硬盘存贮空间(4TB以上),以及数据备份系统如需要处理原始NGS数据,则应需要高性能、上千CPU的并行计算机集群(cluster)或网格(grid)因分析处理的数据不同,会需要使用到以上提到的各类商业或非商业的软件、数据库。

而这些软硬件安装、使用、维护,都需要计算机专业人员提供,生物信息学的基本技能,大规模数据格式变换、处理常用数据库、软件的使用数据库管理与查询基本编程、计算,小结,临床遗传学的研究和应用建立在DNA测序及相关数据分析基础上临床遗传学实验室,尤其是分子遗传为手段的实验室,离不开生物信息的技术支持,熟练掌握数据分析方法、了解相关数据资源的专才是临床遗传学实验室的重要构成其他临床遗传学工作者也有必要对数据及分析方法、工具、及资源有基本的了解,对数据分析过程中涉及的数据文件类型有所了解生物信息学与大数据,分析流程,质控序列比对,拼装发现变异变异注释,基因定位,以家系或群体样本,通过连锁或关联分析,以统计概率判断基因在基因组中位置数据分析流程:

数据质量评估与控制、过滤确定基因型数据进一步过滤(按等位基因频率等)群体结构分析关联或连锁分析,分析软件,大体分为:

连锁分析基于家系数据的参数连锁(parametric)与非参数连锁(non-parametric)分析关联分析基于家系基于群体正常-对照也可分为单点分析和多点分析,还有数量性状分析及基因-基因相互作用分析等群体结构(populationstructure)分析针对全基因组的基因型数据不少软件兼有多种分析的功能,常用的家系关系和基因型错误检查软件,PedcheckPREST(PedigreeRElationshipStatisticalTest)Plink可在全基因组型数据中检查家系关系、孟德尔遗传错误及性别错误,Imputation软件,用于推测基因组中未分型的标记BeagleIMPUTEMACH,常用连锁分析软件,LINKAGE/FASTLINKGeneHunter和GeneHunter-PlusMerlinSOLARSimwalkFBAT/PBAT相关软件的总结对比可参考:

Dudbridge,F.Asurveyofcurrentsoftwareforlinkageanalysis.Hum.Genomics1,63-65(2003)http:

/www.soph.uab.edu/ssg/linkage/linkageanalysis,全基因组关联分析(GWAS)软件,Plink(http:

/pngu.mgh.harvard.edu/purcell/plink/)最广泛使用的软件GoldenHelix(http:

/&VariationSuite(SVS)较为广泛使用的商用全基因组关联分析软件Bioconductor的GWASTools(http:

/www.bioconductor.org/packages/release/bioc/html/GWASTools.html)支持大型GWAS数据和注释的存储,及GWAS数据的清理和分析GCTA(http:

/(http:

/animalgene.umn.edu/)图形化工具,提供SNP影响效应图、GWAS结果视图,变异检测,变异检测,DNA变异常见类型:

单核苷酸多态(SNP)和短片段插入缺失(Indel)缺失(deletion)插入(insertion)倒位(inversion)易位(translocation)拷贝数变异(CNV)DNA测序是确定基因型的方法之一,更是在样本基因组中发现新变异的终极手段,DNA测序分析,针对单个小扩增片段进行的Sanger测序全基因组或全外显子组的第二代测序(Next-generationsequencing,NGS)第三代测序因目前暂未普及,应用较少,在此不做分析讨论,基于Sanger测序的数据分析,测序仪提供的数据分析软件,如:

ABI的SequencingAnalysisSoftware商业软件,处理原始测序数据trace文件(或称chromatogram)以识别变异,如:

DNASTAR的LasergeneGeneCodes的SequencherSoftgenetics的MutationSurveyor免费软件,如:

Phred/Phrap/Consed/PolyPhredSNPdetector,DNASTARhttp:

/,快速组装比对序列片段用即时互动视图和过滤工具检测和分析SNP可直接访问dbSNP、COSMIC和GERP数据库可大规模比较多个样本间或多个群体样本之间的SNP,并鉴定SNP对基因的影响程度,Lasergene工具包可分析Sanger测序和NGS数据,可从多个/群体样本的Sanger测序数据中鉴定和比较潜在的致病变异,Softgeneticshttp:

/,工具包MUTATIONSurveyor专门针对Sanger测序的序列进行变异检测可在15分钟之内分析由AppliedBiosystemsGeneticAnalyzers、MegaBACE或BeckmanCEQ电泳系统产生的高达2000个Sanger测序文件,支持多种格式分析结果SNP、Indel和体细胞变异具有较高的准确性和灵敏度能自动下载GenBank氨基酸序列,进行序列比对、DNA甲基化检测、多变区间的变异检测、杂合Indel的分解识别de-convolution(这是MUTATIONSurveyor的主要特色和卖点)、线粒体DNA序列分析和定量、自定义变异编码与报告等,杂合性Indel检测输出图例,图中正向显示一杂合性TT缺失的de-convolution,基于NGS的数据分析,项目总体流程,PabingerS,etal.BriefingsInBioinformatics,2013,NGS数据分析基本流程,NGS数据分析基本流程,原始下机数据转换成fastq格式测序质量评估,评估数据产量和质量,并根据需要去除接头污染和低质量序列,如:

FastQC可对Illumina和ABISOLiD测序序列质量进行快速评估FASTX-Toolkit和Galaxy即可评估序列质量,还可去除污染碱基和低质量碱基并对序列进行质量过滤将序列比对到参考基因组上,生成SAM或BAM文件比对工具如:

BWA,bowtie2,Illumina的HiseqAnalysisSoftware,SOAP等,FASTQ格式,FASTQ文件示例,该文件包含一条序列:

SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!

*(*+)%+)(%).1*-+*)*55CCFCCCCCCC65AFASTQ文件将每条序列用四行表示:

第一行以“”打头,后跟着序列ID,可加上序列描述(类似于FASTA文件的标题行);第二行是序列内容;第三行以+打头,后面的序列ID和描述可有可无;第四行是第二行序列每个位点的质量值,字符个数必须与第二行完全相同。

变异检测运用GATK/MuTect/VarScan/Atlas2/Samtools/SVDetect/Polymutt等工具包,查找SNP和Indel、缺失、插入、倒位、易位、CNV等实践显示,多种不同软件共同识别的变异有更高的可靠性,因此有建议使用consensuscalls生成VCF(VariantCallFormat)文件变异注释运用Annovar、SeattleAnnotation、GenomeTrax等工具对每一变异筛查dbSNP、1000genomes、PolyPhen、SIFT、ESP、HGMD、OMIM、KEGGPathway、CNV、DGV等数据库,评估表型或疾病风险,VCF格式,#fileformat=VCFv4.0#fileDate=20110705#reference=1000GenomesPilot-NCBI37#phasing=partial#INFO=#INFO=#INFO=#INFO=#INFO=#INFO=#FILTER=#FILTER=#FORMAT=#FORMAT=#FORMAT=#FORMAT=#CHROMPOSIDREFALTQUALFILTERINFOFORMATSample1Sample2Sample324370rs6057GA29.NS=2;DP=13;AF=0.5;DB;H2GT:

GQ:

DP:

HQ0|0:

48:

1:

52,511|0:

48:

8:

51,511/1:

43:

5:

.,.27330.TA3q10NS=5;DP=12;AF=0.017GT:

GQ:

DP:

HQ0|0:

46:

3:

58,500|1:

3:

5:

65,30/0:

41:

3VariantCallFormat(VCF)是用于存储基因序列变异的特定文本文件格式,该格式是随着大规模基因分型和DNA测序而出现的,如千人基因组计划。

它包含描述元数据的行,然后是数据表头行,后面的数据行每行包含基因组中一个位置的信息(如变异信息)。

6.变异筛选(举例,并非唯一方案),显性,隐性,SNP和indel变异检测软件,GATK针对外显子和全基因组重测序数据检测SNP和indel,基因分型少量样本/多个样本的群体变异检测均可较高灵敏度和准确性,目前应用很广MuTect适于混杂的不纯肿瘤样本,检测体细胞SNP运用精密的统计模型,假阳性产出率很低VarScan/VarScan2适于靶向测序,外显子和全基因组重测序数据单个样本/多个样本(群体样本,如体细胞变异)共有或独有的种系变异、杂合性丢失(LOH)、肿瘤与正常肿瘤外显子-正常体细胞CNVVarScan2特别针对肿瘤外显子测序检测体细胞突变和CNV,GATKBestPractices(http:

/www.broadinstitute.org/gatk/guide/best-practices),Atlas2全外显子测序的变异检测综合分析包采用逻辑回归模型和简单启发式过滤法检测出的SNP和Indel准确性高、灵敏度高Ploymutt检测家系内的SNP和点突变能结合家系遗传关系找出家系内共有变异,给出每个变异的可信度,并提供一些过滤功能Samtools针对外显子和全基因组重测序数据包含一系列工具分析处理序列比对结果可检测SNP和Indel变异,其检出的SNP准确性略高于GATK,但灵敏度稍低,Indel的准确性较低,HiseqAnalysisSoftware(HAS)Illumina开发的针对HiSeq测序仪系列和MiSeq测序仪的专用数据分析软件对外显子或全基因组测序数据进行快速比对并检测突变外显子测序突变检测,运用当前广为使用的BWA+GATK突变检测法检测SNP和Indel全基因组重测序突变检测,运用最新开发的Isaac算法,对大量数据进行快速高效地比对并检测与疾病相关的SNP和Indel变异,其结果的灵敏性与准确性与BWA+GATK的结果相差不大,但运行效率比BWA+GATK快5倍以上,HAS的Isaac运行效率与BWA+GATK的比较,SNP和indel(SNV)检测的对比(http:

/,SNP和indel变异检测软件,商业软件CLCGenomicsWorkbenchPartekGenomicsSuiteSoftgeneticsNextGENe工具包GoldenHelix只分析变异检出后得到VCF文件后的下游分析,结构变异(SV)检测,针对全基因组重测序数据,检测插入、缺失、倒位、易位、CNV等检测方法基于序列对的异常匹配基于深度分析基于序列剪接分析法(对测序片段长度依赖较高,应用较少),SV检测软件,SVdetect适于短片段(如200bp)的paired-end测序和长片段(如2kb)的mate-paired测序运用窗口滑动法和聚类法分析异常比对序列可检测长片段插入、缺失、倒位、平衡易位和非平衡易位、CNV能比较多个样本的变异差异可输出多种格式的结果,包括用Circos图形化浏览SV的格式,Breakdancer适于短片段paired-end测序可检测插入、缺失、倒位、染色体之间和染色体内的异位GASVProBreakpointerCLEVERPindelSVMerge可比较并整合多个分析工具的结果,CNV检测软件,MrFAST/mrCaNaVaR运用特有的方法减少测序错误并可检测SNP准确性和灵敏度较高CNV-Seq根据两个样本比对后的深度分布,运用泊松分布模型计算CNV差异用于比较疾病样本与正常样本的差异,尤其适于肿瘤样本的检测能较好地预测拷贝数个数,灵敏度较好,准确性不及mrCaNaVaR,readDepth预测断裂点位置和拷贝数个数较好假阴性较低EWT较好地预测断裂点位置假阴性和假阳性较低运行效率较高,消耗内存较少CNVnator假阴性较低FREEC假阳性较低运行效率较高,消耗内存较少SegSeq假阳性较低,Duan,J.etal,PloSONE,2013,变异检测软件总结(Pabinger,etal.BriefinBioinform,2013),实践显示,多种不同软件共同识别的变异有更高的可靠性Refto:

JiaP,LiF,XiaJ,ChenH,JiH,etal.(2012)ConsensusRulesinVariantDetectionfromNext-GenerationSequencingData.PLoSONE7(6):

e38470.doi:

10.1371/journal.pone.0038470,变异注释,变异注释,帮助预测变异的生物学功能或意义目前有一系列的工具软件对常见的编码改变的功能效应进行预测,实际应用中,具体运用某个特定的软件是可以根据需要调整、优化的非编码改变的影响预测准确性还相对有限,通过数量性状定位或关联分析的文献数据来预测是目前最为有效的方法,常见变异注释工具,ANNOVARSnpEffSeattleSeqAnnotationSIFTPLOYPHENSCAN数据库VATOncotator,变异注释工具比较(Pabinger,etal.BriefinBioinform,2013),ANNOVAR(http:

/www.openbioinformatics.org/annovar/)较全面的功能注释,广为使用需在本地安装注释数据库,如dbSNP、1000genomes、SIFT、DGV等,范围很广很灵活可基于基因注释、基于区间注释,还可过滤对于全外显子测序或全基因组测序的SNP和indel,将产生Excel兼容的结果文件,包括基因注释、氨基酸置换预测评分、保守性预测评分、dbSNPID、千人基因组变异频率、NHLBI-ESP6500个外显子测序变异频率等等,SnpEff(http:

/)高效的SNP/MNP/Indel变异注释及功能影响预测工具包与GATK兼容运用SnpSift过滤和处理注释文件现已整合到Galaxy,支持在线注释,也可在本地以命令行形式运行,SeattleSeqAnnotation(http:

/snp.gs.washington.edu/SeattleSeqAnnotation137/)可在线注释,也可离线注释可接受多种输入格式,如Maq、GFF、CASAVA、VCF、自定义格式、一行一基因型格式、GATKBED可根据NCBI全基因注释、或CCDS(仅编码区)、或NCBI和CCDS两者兼有注释的结果内容较SnpEff丰富,但不及ANNOVAR全面,SCAN数据库(http:

/www.scandb.org/newinterface/about.html)大型SNP和CNV注释数据库结合eQTL表达数量性状数据库,可进行遗传学和基因组学数据的挖掘包含两类SNP注释:

SNP与基因的位置关系和连锁不平衡(LD)关系结合eQTL表达数量性状的数据库,根据对表达水平的影响程度定义SNP功能可用于全基因组关联分析(GWAS)的下游分析,经过多步处理来划分SNP或CNV变异与疾病的关联程度,VAT(http:

/vat.gersteinlab.org/index.php)采用云计算技术进行个人基因组变异的功能注释基于GENCODE的注释(转录因子的位置和序列)进行对转录调控和蛋白质编码的功能影响注释,Oncotator(http:

/www.broadinstitute.org/oncotator/)针对肿瘤研究,在线注释SNP和Indel注释主要含三个方面:

基因组的基因、转录、功能影响(参考UCSCKnownGeneshg19和mirBase),dbSNP的SNP注释(含千人基因组计划)蛋白质的UniProt、DrugBank和PloyPhen-2注释肿瘤相关注释,如COSMIC的肿瘤变异频率、CancerGeneCensus的肿瘤基因和变异、Tumorscape和TCGACopyNumberPortal收录的显著片段扩增或缺失、CancerCellLineEncyclopedia的Oncomap重叠变异、发表的MutSig分析的重大变异基因注释,FamilialCancer数据库的肿瘤基因注释、人类DNA修补基因注释(HumanDNARepairGene)等,变异检测及注释示例,示例一:

从全外显子测序结果检测SNP和Indel通过患者血浆连续采样进行DNA测序来分析比较肿瘤治疗的获得抗性,全外显子测序原始数据去除接头并转换成fastq格式FastQC测序质量评估,FastX/脚本去除低质量的碱基或序列BWA将每个样的序列分别比对到参考基因组hg19Picard去除PCR重复序列GATK进行局部比对,如基于dbSNP已知Indel重新进行比对GATK对碱基质量重新计算,进行标准化SAMtools将比对质量60的正确比对序列生成Pileup文件,并对碱基质量30的计算等位基因频率(AF)GATK根据特定规则检测变异ANNOVAR注释变异,对P值0.05的变异进行进一步分析,示例二:

从全基因组重测序结果检测SV,全外显子测序原始数据去除接头并转换成fastq格式测序质量评估,并去除低质量的碱基或序列BWA将序列比对到参考基因组hg19SAMtools去除PCR重复序列GATK进行局部重新比对,如基于已知Indel重新进行比对SVDetect分离出异常比对的序列并产生BAM文件SVDetect、Breakdancer等多个工具根据特定规则检测SVSVMerge综合比较多个工具的SV,调整断裂点,过滤出高可信度的SVANNOVAR注释高质量的SV,并过滤DGV、CNV等数据库的正常人SVigvtools查看比对情况并检验变异按需要用Circos环图可视化浏览全基因组范围的变异,患者外周血DNA的样本,运用IlluminaHiseq2000测序平台进行双末端100bpX2测序,对测序数据进行下列分析:

IGV显示某染色体异位断裂点的异常比对情况,其它常用数据库资源与工具,常用综合数据库,NCBI(http:

/www.ncbi.nlm.nih.gov)涵盖最新的全面的生物信息相关资源,被广为使用特别针对临床遗传研究,NCBI提供了一套专门的数据和工具,除支持一般的变异数据库dbSNP、dbVar、dbGaP外,也有更专注于临床研究的ClinVar、MedGen和GeneticTestingRegistry(GTR)UCSC(http:

/genome.ucsc.edu/)广为使用的大型基因组图谱浏览平台,它大规模收录了基因组参考序列和草图可访问ENCODE和Neandertal计划数据EBI(http:

/www.ebi.ac.uk/)MedicalandClinicalGenetics(http:

/www.kumc.edu/gec/prof/genewww.html)综合了医学和临床遗传学相关的研究信息和数据库资源,包括与临床信息相关的、生化与分子遗传相关的、肿瘤相关的、细胞遗传、遗传咨询、基因组、神经肌肉、产前诊断、普及遗传情况与出生缺陷、初级护理与管理保健

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2