BLAST核酸氨基酸序列相似性比较Word文件下载.docx
《BLAST核酸氨基酸序列相似性比较Word文件下载.docx》由会员分享,可在线阅读,更多相关《BLAST核酸氨基酸序列相似性比较Word文件下载.docx(13页珍藏版)》请在冰点文库上搜索。
假设是作核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。
如要用TBLASTX也可,但记住此时不考虑缺口。
BLAST适用于本地查询。
可以下载公共数据库,对于该数据库的更新和维护是必不可少的。
如果要直接到网上查询也可以〔即NetBlast〕,但记住如果你认为自己的序列很有价值的话,还是慎重为宜。
如何访问在线的BLAST功能效劳?
您只要通过浏览器访问Blast主页(blast.ncbi.nlm.nih.gov/)。
所有的查询和分析都通过浏览器来完成,就象您在您的本地机上一样方便和快捷。
Blast中常用的程序介绍:
NCBI的在线blast:
blast.ncbi.nlm.nih.gov/Blast.cgi
1,进入在线blast界面,可以选择blast特定的物种〔如人,小鼠,水稻等〕,也可以选择blast所有的核酸或蛋白序列。
不同的blast程序上面已经有了介绍。
这里以常用的核酸库作为例子。
2,粘贴fasta格式的序列。
选择一个要比对的数据库。
关于数据库的说明请看NCBI在线blast数据库的简要说明。
一般的话参数默认。
3,blast参数的设置。
注意显示的最大的结果数跟E值,E值是比拟重要的。
筛选的标准。
最后会说明一下。
4,注意一下你输入的序列长度。
注意一下比对的数据库的说明。
5,blast结果的图形显示。
没啥好说的。
6,blast结果的描述区域。
注意分值与E值。
分值越大越靠前了,E值越小也是这样。
7,blast结果的详细比对结果。
注意比对到的序列长度。
评价一个blast结果的标准主要有三项,E值〔Expect),一致性(Identities),缺失或插入〔Gaps〕。
加上长度的话,就有四个标准了。
如图中显示,比对到的序列长度为1405,看Identities这一值,才匹配到1344bp,而输入的序列长度也是为1344bp〔看上面的图〕,就说明比对到的序列要长一点。
由Qurey〔起始1〕和Sbjct(起始35)的起始位置可知,5'
端是是多了一段的。
有时也要注意3'
端的。
附:
E值〔Expect):
表示随机匹配的可能性,E值越大,随机匹配的可能性也越大。
E值接近零或为零时,具本上就是完全匹配了。
一致性(Identities):
或相似性。
匹配上的碱基数占总序列长的百分数。
缺失或插入〔Gaps〕:
插入或缺失。
用"
—"
来表示。
BlastN/MegaBlast/DiscontiguousMegaBlast的区别:
三者之间的共同之处就是BlastN/Megablast/Discontiguousmegablast都是BlastN,就是核酸序列比对核酸序列的算法。
简单而言
BlastN:
应该是出现较早的算法。
比对的速度慢,但允许更短序列的比对〔如短到7个碱基的序列〕。
MEGABLAST:
主要用来鉴定一段新的核酸序列,它并不注重比对各个碱基的不同和序列片断的同源性,而只注重被比对序列是否是数据库未收录的,是否为新的提交序列或基因。
速度快。
同一物种间的。
DiscontiguousMEGABLAST:
灵敏度〔sensitivity〕更高,用于更准确的比对。
主要用于跨物种之间的同源比对。
详细解释
1,MEGABLAST常被用于鉴定核酸序列
MEGABLASTisthetoolofchoicetoidentifyanucleotidesequence.
MegaBLAST也是一种BLASTN程序,不过它主要是用来在非常相似的序列之间〔来自同一物种〕比对同源性的。
鉴定某一段核酸序列是否存在于数据库,最好的方法是选择MEGABLAST。
如果比对到的序列在数据库中注释完整的话,那该序列丰富的注释可以当作新序列的参考。
当然,BlastN/MEGABLAST/DiscontiguousMEGABLAST,都可以完成这种事情。
但MEGABLAST就是特别设计用于非常相似序列之间的比对,可用于寻找查询序列的最正确匹配的序列。
2,DiscontiguousMEGABLAST更好地用于查找不同物种的相似的核酸序列,而不是与查询序列一样〔identical〕物种的。
DiscontiguousMEGABLASTisbetteratfindingnucleotidesequencessimilar,butnotidentical,toyournucleotidequery.
DiscontiguousMEGABLAST,用于跨物种核酸序列快速比对。
它使用非重叠群字段匹配算法〔noncontiguouswordmatch〕来进展核酸比对。
DiscontiguousMegaBLAST比blastx等翻译后比对要快得多,同时它在比拟编码区时也具有相当高的敏感度。
但是需要指出的是,核酸与核酸之间的比对并不是发现同源蛋白编码区域的最正确方法,直接在蛋白水平用Blastp比对更好。
这是因为密码子的简并性。
(Lc.注:
翻译得有些拗口,多多见谅!
)
DiscontiguousMEGABLAST详细介绍:
.ncbi.nlm.nih.gov/blast/discontiguous.html
原文:
.ncbi.nlm.nih.gov/blast/producttable.shtml#tab31
本文详细出处参考:
liucheng.name/1009/#more-1009
1,Blastp:
标准的蛋白序列与蛋白序列之间的比对
StandardproteinBLASTisdesignedforproteinsearches.
Blastp用于确定查询的氨基酸序列在蛋白数据库中找到相似的序列。
跟其它的Blast程序一样,目的是要找到相似的区域。
2,PSI-BLAST:
敏感度更高的蛋白序列与蛋白序列之间的比对
PSI-BLASTisdesignedformoresensitiveprotein-proteinsimilaritysearches.
Position-SpecificIterated(PSI)-BLAST,是一种更加高灵敏的Blastp程序,对于发现远亲物种的相似蛋白或某个蛋白家族的新成员非常有效。
当你使用标准的Blastp比对失败时,或比对的结果仅仅是一些假基因或推测的基因序列时〔"
hypotheticalprotein"
or"
similarto..."
〕,你可以选择PSI-BLAST重新试试。
3,PHI-BLAST:
模式发现迭代BLAST
PHI-BLASTcandoarestrictedproteinpatternsearch.
PHI-BLAST,模式发现迭代BLAST,用蛋白查询来搜索蛋白数据库的一个程序。
仅仅找出那些查询序列中含有的特殊模式的对齐。
PHI的语法详细介绍看这里:
.ncbi.nlm.nih.gov/blast/html/PHIsyntax.html
PeptideSequenceDatabases蛋白序列的数据库
nr
Allnon-redundantGenBankCDStranslations+
RefSeq
Proteins+PDB+SwissProt+PIR+PRF
所有非冗余的的GenBankCDS区的翻译序列+参考序列的蛋白+PDB数据库
+SwissProt蛋白数据库+PRF蛋白数据库
refseq
RefSeqproteinsequencesfrom
NCBI'
sReferenceSequenceProject.
所有NCBI的参考序列
swissprot
LastmajorreleaseoftheSWISS-PROTproteinsequencedatabase(noupdates).
swissprot的蛋白数据库
pat
ProteinsfromthePatentdivisionofGenPept.
专利的蛋白数据库
pdb
Sequencesderivedfromthe3-dimensionalstructurefromBrookhavenProteinDataBank.
PDB数据库
month
AllneworrevisedGenBankCDStranslation+PDB+SwissProt+PIR+PRFreleasedinthelast30days.
一个月新增加的蛋白序列
env_nr
Proteinsequencesfromenvironmentalsamples.
来自environmentalsamples的蛋白序列
NucleotideSequenceDatabases核酸数据库
AllGenBank+RefSeqNucleotides+EMBL+DDBJ+PDBsequences(excludingHTGS0,1,2,EST,GSS,STS,PAT,WGS).Nolonger"
non-redundant"
.
所有GenBank的核酸序列+参考序列中的核酸序列+EMBL+DDBJ+PDB核酸序列〔但不包括HTG,EST,GSS等序列〕
refseq_rna
RNAentriesfromNCBI'
sReferenceSequenceproject
NCBI参考序列中的核酸序列
refseq_genomic
GenomicentriesfromNCBI'
NCBI参考序列中的基因组序列
est
DatabaseofGenBank+EMBL+DDBJsequencesfromESTDivisions
来自GenBank+EMBL+DDBJ的EST序列
est_human
Humansubsetofest.
人的EST序列
est_mouse
Mousesubset.
小鼠的EST序列
est_others
Non-Mouse,non-Humansubsetofest.、除了人与小鼠之外的EST序列
gss
GenomeSurveySequence,includessingle-passgenomicdata,exon-trappedsequences,andAluPCRsequences.
htgs
UnfinishedHighThroughputGenomicSequences:
phases0,1and2(finished,phase3HTGsequencesareinnr)
未发布的高通量的基因组测序
NucleotidesfromthePatentdivisionofGenBank.
专利的核酸序列
Sequencesderivedfromthe3-dimensionalstructurefromBrookhavenProteinDataBank
PDB核酸序列
AllneworrevisedGenBank+EMBL+DDBJ+PDBsequencesreleasedinthelast30days.
一个月新增的核酸序列
dbsts
DatabaseofGenBank+EMBL+DDBJsequencesfromSTSDivisions.
STS数据库
chromosome
AdatabasewithpletegenomesandchromosomesfromtheNCBIReferenceSequenceproject..
NCBI参考序列方案中所有的完整基因组和染色体序列
wgs
Adatabaseforwholegenomeshotgunsequenceentries.
基因组鸟枪法测序得到的序列
env_nt
Nucleotidesequencesfromenvironmentalsamples,includingthosefromSargassoSeaandMineDrainage
projects.
来自environmentalsamples的核酸序列。
NCBI中Blast可以用来进展序列比对、检验引物特异性
Blast导航主页面主体包括三局部
BLASTAssembledGenomes选择你要比照的物种,点击物种之后即可进入比照页面
BasicBLAST包含5个常用的Blast,每一个都附有简单介绍
SpecializedBLAST是一些特殊目的的Blast,如Primer-BLAST、IgBLAST
根据需要做出选择
本学期学习了最根本的核苷酸序列的比对
点击BasicBLAST局部的nucleotide到一个新的页面,翻开后的页面特征:
大体上包括三个局部
EnterQuerySequence局部可以让我们输入序列,其中的JobTitle局部可以为本次工作命一个名字
ChooseSearchSet局部可以选择要与目的序列比对的物种或序列种类。
其中的EntrezQuery可以比照对结果进展适当的限制。
ProgramSelection局部可以选择本次比照的准确度,种种间等等。
其次Blast按钮下面有一个“Algorithmparameters〞算法参数,可设置参数。
点击Blast后,出现的页面大体上包括四个局部
一.所询问和比对序列的简单信息
1.询问序列的简单信息——名称、描述、分子类型、序列长度
2.所比对数据库的名称、描述和所用程序
二.GraphicSummary——blast结果图形显示
相似度颜色图〔黑、蓝、绿、粉红、红,相似度由低到高〕
三.Descriptions——blast结果描述区
1.到其他数据库的
2.描述以表格的形式呈现〔以匹配分值从大到小排序〕
(1)Accession下程序比对的序列名称,点击相应的可以进入更为详细的mapviewer
(2)Descriptions下是对所比对序列的简单描述
接下来是5个结果数值:
(3)Maxscore匹配分值,点击可进入第四局部相应序列的blast的详细比对结果
(4)Totalscore总体分值
(5)Querycoverage覆盖率
(6)Evalue——E〔Expect〕值,表示随机匹配的可能性。
E值越大,随机匹配的可能性也越大。
(7)Maxident——匹配一致性,即匹配上的碱基数占总序列长的百分数。
(8)Links——到其他数据库的。
四.各序列blast的详细比对结果
数据库中不同序列比对的详细结果,每一个结果大体上包括3局部
1.所比对序列的名称、简单描述、长度。
到其他数据库的。
2.比对结果的5个数值:
(1)score打分矩阵计算出来的值,由搜索算法决定的,值越大说明询问序列跟目标序列匹配程度越大
(2)Expect是输入序列被随机搜索出来的概率,该值越小越好。
(3)Identities是相似程度,即输入序列和搜索到序列的匹配率
(4)Gaps就是空白,即比对序列只有一条链上有碱基
(5)strand=plus/minus即询问序列和数据库里面序列的互补链匹配
3.输入序列和库中比照到的序列每个碱基的详细比照
2Sequences,在很早前NCBI就有提供这种工具的了。
最近在2008年底又重新改版了,改版后的功能更加强大。
有许多非常实用,但你可能不是太清楚的功能。
这里大概提一下,具体的详细用法,还是要靠你自己慢慢摸索。
功能介绍:
∙1,两个序列之间的比对〔BLAST2Sequences〕,这是最初的功能
∙2,BLAST多个序列。
∙3,BLAST2Sequences时,还能用点矩阵图〔DotMatrix〕查看
∙4,BLAST多个序列时,还能进一步做进化树分析。
BLAST主页:
blast.ncbi.nlm.nih.gov/
现在在任何一个Blast界面都可以直接切换到BLAST2Sequences,只要把Aligntwoormoresequences的选项勾上就可以了。
看下列图。
1,2个序列的比对
下列图是NP_000680.2和NP_004170.1的2个序列比对。
结果看DotMatrixView。
但这两个序列有匹配到时,在图中用线条表示。
标示各自起始和终止的位置,匹配的长度中。
就在图中一目了然。
如下列图,仅有两个小片段blast上。
2,多个序列的比对
看第一图,可以直接输入多个Accession
Number,或是直接输入多个FASTA格式的序列。
或是用本地的文件上传也行。
有时需要对一个未知的序列在一些目标序列里作一些比拟。
这个方法很有用。
如下列图,用人苯丙氨酸羟化酶(NP_000680)与其它不同物种的羟化酶进展多个BLAST,最后看它们的进化树。
详细如下:
humanphenylalaninehydroxylase(accessionNP_000680)withasetof34othervertebratearomaticaminoacidhydroxylases.Theportionshownherecontainsthetryptophanhydroxlase1homologsfromhuman(Homosapiens),
NP_004170;
rabbit(Oryctolaguscuniculus),
NP_001093425
and
NP_001075741;
mouse(Musmusculus),
NP_033440;
rat(Rattusnorvegicus),
NP_001094104;
chicken(Gallusgallus),
NP_990287;
Xenopuslaevis,
NP_001080923;
zebrafish(Daniorerio),
NP_001001843
NP_840091;
andpufferfish(Takifugurubripes),
NP_001027848.