真核转录组讲解及数据解读PPT优质PPT.pptx
《真核转录组讲解及数据解读PPT优质PPT.pptx》由会员分享,可在线阅读,更多相关《真核转录组讲解及数据解读PPT优质PPT.pptx(53页珍藏版)》请在冰点文库上搜索。
![真核转录组讲解及数据解读PPT优质PPT.pptx](https://file1.bingdoc.com/fileroot1/2023-4/28/7ea5e3d3-55ce-4133-9c9a-024227bb59b3/7ea5e3d3-55ce-4133-9c9a-024227bb59b31.gif)
OD260/OD2302.0,且OD260/OD2802.0这说明RNA提取结果是相当好的,一般在1.8-2.1之间就说明RNA结果十分好,但是nanodrop的灵敏度没有2100好,因此我们主要根据2100检测结果来判定RNA是否合格,一般只要RIN值和RNA总量达到我们的判定标准的话,我们就会判为合格。
生物信息分析(有参转录组),3,有参转录组,生物信息分析(医口转录组),3,医口转录组,生物信息分析,3,1、数据质控1、1测序数据说明,见结果文件:
QC,生物信息分析,3,1、2测序数据过滤,对原始数据进行过滤:
去除带接头(adapter)的reads;
去除含N(N表示无法确定碱基信息)的reads;
去除低质量reads(Qphred=20的碱基数占整个read长度的50以上的reads)。
每个样本的测序数据过滤情况,如图所示。
生物信息分析,3,1、3测序错误率分布测序错误率分布存在以下两个特征:
测序错误率随着测序序列长度的增加而升高。
原因:
测序过程中化学试剂的消耗导致的,为Illumina高通量测序平台所具有的特征。
前6个碱基具有较高的测序错误率,反转录所需的随机引物和RNA模版的不完全结合,单个碱基位置的测序错误率应该低于1%,最高不超过6%,生物信息分析,3,1、4GC含量分布GC含量在物种间存在一定特异性,反转录使用的6bp随机引物,前几位碱基在核苷酸组成上有一定偏好性,产生正常波动,随后则趋于稳定。
普通建库方法,由于序列的随机性打断和双链互补等原则,理论上测序读段在每个位置的GC及AT含量应分别相等,且在整个测序过程基本稳定不变,呈水平线。
而对于链特异性建库而言,由于只保留了单链信息,可能会出现AT分离或GC分离现象。
生物信息分析,3,1.5数据质量汇总,Q20:
Phred数值大于20的碱基占总碱基的百分比Q30:
Phred数值大于30的碱基占总碱基的百分比,生物信息分析(有参/医口),3,2、比对分析2、1比对率统计(HISAT2比对软件))HISAT2的算法主要分为三个部分:
将测序序列整段比对到基因组单外显子将测序序列分段比对到基因组的两个外显子上将测序序列分段比对到基因组三个以上(含三个)外显子mapping高于70%(TotalReads):
参考基因组组装的较为完善所测物种与参考基因组一致相关实验不存在污染。
mapping时用的是read全长,还是头尾有处理?
测序得到的read1和read2的各个碱基全都是样本的序列,生物信息分析(有参/医口),3,2、2数据质量汇总表格见结果文件:
QC/5.Stat/align_pct.xls,生物信息分析(有参/医口),3,2.3比对区域分布,1、注释较为完善的物种比对到外显子区域的比例很高。
2、比对到内含子:
可能来源于前体mRNA、可变剪接事件滞留的内含子。
3、比对到基因间区,可能来源于ncRNA、少许DNA片段污染,基因注释还不够完善。
所有样本的测序reads在基因组区域分布情况如图所示,见,结果文件:
QC/4.Region。
生物信息分析(有参/医口),3,2.4比对可视化显示reads在各染色体上的分布及在基因组中注释的外显子、内含子、基因间区等功能区域的分布,如下图所示,使用说明文档IGVQuickStart,染色体的长度越长,map到的reads数目越多吗?
不一定,前提是基因在染色体上分布的密度是相同的,且这些基因的转录水平相当,生物信息分析(有参/医口),3,3新基因预测,:
3.1新转录本组装(StringTie软件)相对于cufflinks等软件,StringTie有以下优势
(1)拼接出更完整的转录本;
(2)拼接出更准确的转录本;
更好的估计转录本的表达水平;
拼接速度更快。
新基因预测的意义?
非模式物种,其基因注释信息通常不是很完善,新基因预测可挖掘该物种新的基因或转录本。
见结果文件2.Assemble,生物信息分析(有参/医口),3,StringTie预测的新转录本结构注释GTF格式内容,见结果文件:
Assemble/*_novel.gtf。
V1seqname:
染色体编号V2source:
注释的来源,这里的StringTie是指该转录本是由StringTie软件组装所得V3feature:
注释信息的结构类型,如gene、transcript、exon等V9attributes:
包含众多属性的列表,主要为基因编号、转录本编号等信息,生物信息分析(有参/医口),3,3.2新转录本注释我们会对新转录本进行Pfam、SUPERFAMILY、GO、KEGG等数据库注释,其中Pfam结果如下表所示,其余数据库注释信息见结果文件:
Assemble/*_novel_gene.xls。
生物信息分析(有参/医口),3,4定量分析(featureCounts),见结果文件3.Quant,生物信息分析,3,4.1基因表达分布,RNA-seq的基因表达值一般不用readcount来表示,而是用FPKM,FPKM先后对测序深度和基因长度进行了校正。
有参:
FPKM大于1,认为表达无参:
FPKM大于0.3,认为表达FPKMintervals代表基因表达水平分为5个区间:
低表达(0-1)、中表达(1-3)、中高表达(3-15)、高表达(15-60)、超高表达(60),生物信息分析,3,4.2样本间相关性,生物学重复主要有两个用途:
1、实验可以重复;
2、获得更可靠的差异结果(样本选择合理),相关性系数越高,其表达模式越为接近,样本相关性热图如下图所示,见结果文件:
Quant/correlation.svg。
生物信息分析(有参/医口),3,4.3主成分分析,对所有样本的基因表达值(FPKM)进行PCA分析,如图所示。
理想条件下,PCA图中,组间样本应该分散,组内样本应该聚在一起,见结果文件:
Quant/pca.svg。
问与答,为什么要做生物学重复,1、发表文章的需要2、不同个体、不同的处理、甚至某一瞬间样品的基因表达也是存在差异的,RNA-Seq数据可能会表现出比预期的更高的假阳性变异性,通常会通过生物学重复来屏蔽掉生物学内部变异大的不稳定的差异,得到真正的处理间的差异。
3、在分析方面,增加生物学重复主要是为了减少生物学重复之间的噪音对分析结果的影响,简言之,如果组内差异大于组间差异,这种情况下得到的差异基因假阳性会高一些。
生物信息分析(有参/医口),3,5差异分析,差异分析主要分为三个步骤。
首先对原始的readcount进行标准化(normalization),主要是对测序深度的校正。
然后统计学模型进行假设检验概率(pvalue)的计算最后进行多重假设检验校正,得到FDR值(错误发现率)。
大部分差异分析软件(DESeq,DESeq2和edgeR)用原始的readcount作为输入文件,这些软件自身对会readcount做一些校正(主要是测序深度),而FPKM是校正后的表达值,所以用FPKM做差异分析相当于做了两次校正,是不合理的,见结果文件4.Differential,生物信息分析(有参/医口),3,5.1差异基因列表每个比较组合的差异显著性分析如下表所示,见结果文件:
Differential/1.deglist。
如何判断差异基因在两个样品间的差异大小?
padj越小,差异越显著。
也可通过|log2Foldchange|来判断差异的大小情况,|log2Foldchange|越大,差异倍数越大,生物信息分析(有参/医口),3,5.2差异基因统计每个比较组合的差异基因(包括上调和下调)数目统计以及筛选差异的标准如下表所示,见结果文件:
Differential/1.deglist/diff_stat.xls。
FDR=padj=correctedpval,生物信息分析,3,结果文件:
Differential/1.deglist/比较组合/_volcano.png。
问与答,某基因在两个样本中表达量差别很大,却不存在与显著差异的基因列表中,这是为何?
差异基因的筛选是基于统计学意义的,不能直观的通过两个数值的大小判断差异基因的是否;
在有重复的项目中,如果重复较差,组内差异情况会屏蔽掉部分组间的差异。
所以会导致差异基因过少,再次:
在计算完pvalue以后,需要对pvalue进行多重假设检验校正,得到padj,来减少假阳性。
使得部分通过pvalue阀值的基因,无法通过padj的阀值。
差异基因筛选条件最大能设的阈值是多少?
最大可设阀值没有定论,一般等级比较高的文章卡的阀值都比较的严格。
在一些PLOSONE等文章里面,可能卡的值比较的松,有的文章会在无重复中,只卡qvalue,不卡log2foldchange。
有的文章会卡pvalue。
某基因readcount值为0,但是也有foldchange以及pvalue、qvalue值?
在DESeq中,如果某基因的在一个样品中的校正后的readcount为0,而在另一个样品中不为0,foldchange会为INF或者-INF;
如果两个数值均为0,log2foldchange以及pvalue、qvalue值均为NA;
在DEGseq中,如果某基因的在一个样品中的校正后的readcount为0,软件会默认的把0进行轻微的校正,校正成一个接近于0,但不为0的值,故会产生foldchange以及pvalue、qvalue值。
问与答,差异基因列表中,readcount一个为0,另一个不为0,能否说明一个表达,一个不表达?
这里的readcount值仍为校正后的readcount,由于软件显示的原因,实际的readcount并不一定是0,在无参项目中,一般默认rpkm0.3时,基因表达;
在有参项目中,一般默认rpkm1时,基因表达。
不推荐看readcount的值看判断表达与否。
能否提取部分基因来做差异分析?
不能。
差异分析是基于整体来做的。
差异分析软件的作者推荐用全部readcount进行差异分析,若使用部分基因做分析,会毁坏掉数据整体的特点,如测序深度、reads分布特征。
每次选定差异基因筛选阈值后,软件都会重新计算pval、padj值,同一阈值下两次计算pval/padj值可能会有不同,尤其是处于阈值附近的pval/padj值,所以差异基因筛选结果会出现微弱的不同,对数据整体的影响不大,可正常使用。
为什么两组比较的readcounts值不一样,即AvsB中A的readcount值和AvsC中的A的readcount值不一样?
差异基因是根据两两组对比得来的,而不是拿全部数据来进行的差异分析。
所以两组中的标准化以后的readcount数值不同。
具体是因为不同的组合组成的矩阵不同,因而不同组合的背景值不同,所以矫正后的值也会有差别.,问与答,qPCR验证有差异,但是测序结果中没有差异?
选择表达量高的,差异大的基因验证,选取几十个基因做验证,使用和测序一样的核酸验证。
表达量越高的基因越能被准确定量。
1、测序分析的结果是基于大量的数据分析基础上统计得出的结果,使用的软件为DEseq2等。
而Q-PCR是相对表达定量,计算的公式2-Ct。
两者的计算方法不一致;
2、文献报道,测序RNAseq结果和QPCR结果的相关性一般也只能达到0.9左右。
3、如果是没有生物学重复的项目,在RNA-Seq数据分析时,假阳性较高,导致测序数据和Q-PCR结果不一致。
建议Q-PCR验证时多设置几组生物学重复,以Q-PCR结果为准。
4、我们进行差异分析的时候,确定该基因是否为差异基因是按照q0.05,比较严格,如果p0.05则该基因即可认为差异基因;
5、如果按照p值也不是差异基因的话,可以通过igv浏览,查看测序reads在参考基因组上覆盖情况,检查是否是因为分析软件无法区别分析所造成的;
6、QPCR验证时,p出来的可能只是该基因的某个转录本,定量的是某个转录本,而二代测序差异分析时基于基因来定量的。
如果老师多次实验验证出来确实是有差异的,建议以QPCR结果为准。
生物信息分析,3,5.3差异基因韦恩图结果文件:
Differential/2.venn,为什么全部差异基因韦恩图中共有部分基因数不等于分别上调、下调差异基因共有部分韦恩图基因数的总和?
因为是用所有的差异基因及上调和下调的差异基因分别做图,在所有差异基因的共有基因中会存在同一个基因在一个比较组合中是上调,但在另一个比较组合中是下调的情况,该基因被计数在所有差异基因韦恩图共有基因中,但不会被计数在上调、下调基因分别做韦恩图的共有基因中,因此往往是上调、下调基因分别做的韦恩图共有基因数加合比总差异基因韦恩图共有基因数少。
生物信息分析,3,5.4差异基因聚类聚类分析将表达模式相同或相近的基因聚集成类,从而识别未知基因的功能或已知基因的未知功能;
这些同类的基因可能具有相似的功能,或是共同参与同一代谢过程或细胞通路。
颜色反映的不是基因表达值,而是表达数据的行进行均一化处理后得到的数值,所以热图中的颜色只能横向比较(同一基因在不同样本中的表达情况),而不能纵向比较(同一样本不同基因的表达情况)结果文件中既有组间的聚类,也有样品间的聚类。
结题报告展示的是样品间的聚类,具体如下图所示。
见结果文件:
Differential/3.cluster/cluster1/cluster1_heatmap.png,问与答,层次聚类热图中的样品如果去掉一组,再进行聚类,会对别的组造成影响吗?
在进行聚类的时候,统计学上就是要计算两两基因之间的距离、两两样本间的距离,在多组的情况下,会考虑每个基因在每个组的fpkm,然后进行聚类,所以当去掉其中一组的时候,肯定会影响到聚类的结果。
聚类热图里,我想要看到聚类的那支上表示的基因怎么看?
能看到吗?
在结果文件中,结果9.DiffExprAnalysis/9.3heatCluster.detail文件可以无限放大,后面会显示基因名称,该文件也支持ctrl+F查找功能,生物信息分析(有参/医口),3,我们用H-cluster方法将差异基因集分为若干cluster,同一cluster中的基因在不同的处理条件下具有相似的表达模式,结果文件:
Differential/3.cluster/cluster1/cluster1_line.png,生物信息分析(有参/医口),3,6富集分析,clusterProfiler软件对差异基因(每个组合的所有差异基因、上调、下调差异基因)集进行GO、KEGG通路富集分析,基于超几何分布原理差异基因集:
为差异显著分析所得差异基因并注释到GO或KEGG数据库的基因集背景基因集:
为所有进行差异显著分析的基因并注释到GO或KEGG数据库的基因集。
GO是描述基因功能的数据库,可分为生物过程、和细胞组成、分子功能三个部分。
见结果文件:
Enrichment/GO。
KEGG是整合了基因组、化学和系统功能信息的综合性数据库。
Enrichment/KEGG。
GO、KEGG通路富集以padj小于0.05作为显著性富集的阈值,见结果文件Enrichment,生物信息分析(有参/医口),3,GO、KEGG功能富集分析,为什么感兴趣的KEGG通路没有富集到基因?
首先查找一下此通路是否有KO注释的结果,如果没有KO注释,则不管怎么调整分析参数都不会有该通路的富集结果,因为富集分析是基于注释的结果来做的。
为何没有GO和KEGG富集结果?
这是客观结果的体现,也是一个比较常见的情况,通常是由于富集到该通路上的差异基因较少,一般可以通过调参增加差异基因,重新进行富集,若仍无结果,可以考虑以P值进行富集分析。
非显著富集的通路也是可以关注的,只要找到解释生物学现象的切入点即可。
生物信息分析(有参/医口),3,GO富集分析结果中,选取最显著的30个Term(keg-20)绘制柱状图、散点图,若不足30个,则绘制所有Term,生物信息分析(有参/医口),3,KEGG通路图,见结果文件:
Enrichment/KEGG,问题:
在同一条pathway中,编码同一个物质的基因,有的基因上调、有的下调,这种情况应该怎么给该物质下结论呢?
这个物质究竟是表达多了还是少了?
同一个基因family往往有多个成员,这些编号的基因存在着多个条目,也可能包含了一个家族的多个基因,它们间的调控机制可能尚不清楚,反映在图上会有部分上调,部分下调的现象,这是比较常见的现象;
最终基因产物是否增减取决于family中的基因成员的表达丰度关系和基因产物的活性高低。
问与答,3生物信息分析,7蛋白互作网络分析(STRING),见结果文件EnrichmentPPI,生物信息分析(有参/医口),3,8可变剪接分析(rMATS软件),可变剪接是调节基因表达和产生蛋白质组多样性的重要机制,主要包括SE、RI、MXE、A5SS、A3SS五种可变剪接事件,如下图所示SE:
Skippedexon外显子跳跃。
RI:
Retainedintron内含子滞留。
MXE:
Mutuallyexclusiveexon外显子互斥。
A5SS:
Alternative5splicesite5端外显子发生可变剪接。
A3SS:
Alternative3splicesite3端外显子发生可变剪接。
见结果文件6.AS,生物信息分析(有参/医口),3,生物信息分析(有参/医口),3,变异位点分析变异位点检测,变异位点主要分为SNP与INDEL,每个位点的基因型及注释如下表,见结果文件:
SNP/2.snpeff。
GT表示样本的基因型,假如一个二倍体生物样本,其基因组有两个拷贝,两个拷贝的同一位置是等位位点,GT值表示该样本在某位点携带的两个等位位点,主要用三个数值0,1,2来描述。
0表示跟REF一致,1表示跟第一个ALT一致。
SNP的杂合纯合统计:
每个样本中有分别支持ref和alt型的reads数目,如果其中一个为0,另一个非0,则为纯合;
如果两个均为非0,则为杂合,如果均为0,该位点没有有效reads覆盖。
FeatureID:
变异位点所在的转录本编号,见结果文件7.SNPGATK软件对样本数据进行变异位点分析,并用SnpEff软件对变异位点进行注释,生物信息分析(有参/医口),3,9.2变异位点统计,变异位点功能、区域、影响统计。
变异位点功能:
同义突变、错义突变、无义突变变异位点区域:
EXON、INTRON、INTERGENIC等基因结构变异位点影响:
HIGH(高)、MODERATE(中)、LOW(低)、MODIFIER(自身无表型效应,和别的突变位点同时存在才会产生影响)四个层次结果文件:
SNP/3.stat检测到的SNP,定位在几条染色体上。
其他染色体上都不存在SNP位点?
并不是这些染色体上一定没有,只是转录组测序中没有检测到而已,转录组测序检测SNP有一些局限的,与重测序达到的效果是不同的。
生物信息分析,3,生物信息分析(医口转录组),3,医口转录组,生物信息分析(医口),3,融合基因分析:
STAR-Fusion(SATR比对STAR-Fusion.predictSTAR-Fusion.filter),融合基因:
是指两个基因的全部或部分序列融合而成的嵌合基因,一般由染色体易位、缺失等原因所致。
生物信息分析(医口),3,融合基因分析,融合基因分析:
*_fusion.xls为融合基因列表,生物信息分析(医口),3,融合基因分析Fa序列:
STAR-Fusion预测得到的融合转录本利用FusionInspector进行校正后的序列信息,融合基因染色体分布图:
图中的环由多条染色体组成,环内每条线代表一个融合事件(红色线代表同一染色体上发生的融事件,蓝色线代表不同染色体上发生的融合事件),线的两端代表融合事件的断点位置,