NCBIBLAST使用.docx
《NCBIBLAST使用.docx》由会员分享,可在线阅读,更多相关《NCBIBLAST使用.docx(14页珍藏版)》请在冰点文库上搜索。
NCBIBLAST使用
NCBI的BLast最好生物核酸的数据库
NCBI是在NIH的国立医学图书馆(NLM)的一个分支。
NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。
NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。
BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。
BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。
NCBI提供的附加的软件工具有:
开放阅读框寻觅器(ORFFinder),电子PCR,和序列提交工具,Sequin和BankIt。
所有的NCBI数据库和软件工具可以从WWW或FTP来获得。
NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。
NCBI的BLast种类介绍
?
GappedBLAST(2.0)—一种BLAST版本,允许在它产生的对齐(alignments)中存在缺口。
统计有效性的评估是基於使用随机序列的优先模拟。
在不久的将来,所有对GappedBLAST的访问都要通过QBLAST。
?
QBLAST—一种新的系统,允许用户以他们方便的方式检索GappedBLAST结果,并且可以用各种格式选项多次格式化他们的结果。
这个系统也使NCBI更有效的使用计算资源,更好的为大家服务。
到1999年秋季,QBLAST系统用於所有的BLAST搜索。
?
PSI-BLAST—位点特异迭代BLAST—用蛋白查询来搜索蛋白资料库的一个程式。
所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起来。
这个矩阵被用来搜索资料库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。
?
PHI-BLAST—模式发现迭代BLAST—用蛋白查询来搜索蛋白资料库的一个程式。
仅仅找出那些查询序列中含有的特殊模式的对齐。
?
BLAST两个序列—一个基於BLAST的工具,对齐两个核酸或蛋白的序列,产生一个成对的DNA-DNA或蛋白—蛋白序列比较。
?
IgBLAST—IgBLAST被开发出来以便於分析在GenBank中的免疫球蛋白的序列。
它允许用blastp或blastn来搜索nr资料库或一个由免疫球蛋白生殖系变化区基因的特殊的资料库。
搜索可以限制在人类或小鼠的基因。
IgBLAST执行三个主要的功能∶1)报告与查询序列最相似的可变,D,或J区,2)根据Kabatetal.来注解免疫球蛋白domains(从FWR1到FWR3),3)对於搜索核酸或蛋白nr资料库,通过匹配IgBLAST的发现和最接近的生殖系变化区基因来简化识别相关序列的过程。
?
PowerBLAST—PowerBLAST是一个程式,允许对非常长的序列进行快速的gappedBLAST搜索,它把序列分割开,对每个部分搜索,然後把结果组装起来。
包含在Sequin中的PowerBlast版本使用了新的强大的gappedBLAST演算法,过滤和物种特异的输出特点还仍旧保留。
?
BLASTE-mail伺服器—基於e-mail的序列相似搜索服务,接受FASTA格式的核酸或蛋白序列。
如果要获得帮助档,给blast@ncbi.nlm.nih.gov写一封只有内容为HELP的E-Mail。
?
网路BLAST—一个WWWEntrez基於TCP/IP的客户-伺服器版本。
直接通过Internet来连接NCBI的资料库来检索资料。
有PC,Mac,Unix,版本的客户软体。
?
单独的BLAST—下载可用於本地执行使用的BLAST。
二进位版本有IRIX6.2,Solaris2.6,DECOSF1(ver.4.0d),LINUX,和Win32系统。
BLAST资料库同样可以下载。
专门的BLAST页面
?
BLAST人类染色体—人类染色体测序页面的一部分。
?
BLASTagainstDrosophilamelanogastergenomesequence-seeadditionalinformationontheDrosophilagenomeabove.
?
BLASTagainstdbSNP-additionalinformationaboutdbSNPisabove.
?
MicrobialGenomesBLASTDatabases-BLASTagainstfinishedandunfinishedmicrobialgenomes.
?
BLASTagainstP.falciparumonly,allPlasmodium,orallToxoplasmainGenBank
?
BLASTagainstP.falciparum3D7GenomeProjectfinishedandunfinishedsequences
Primer-BLAST是NCBI的引物设计和特异性检验工具。
Primer-Blast介绍
Primer-BLAST,在线设计用于聚合酶链反应(PCR)的特异性寡核苷酸引物。
Primer-BLAST可以直接从Blast主页(http:
//blast.ncbi.nlm.nih.gov/)找到,或是直接用下面的链接进入:
http:
//www.ncbi.nlm.nih.gov/tools/primer-blast/
这个工具整合了目前流行的Primer3软件,再加上NCBI的Blast进行引物特异性的验证。
Primer-BLAST免除了用另一个站点或工具设计引物的步骤,设计好的引物程序直接用Blast进行引物特异性验证。
并且,Primer-BLAST能设计出只扩增某一特定剪接变异体基因的引物–animportantfeatureforPCRprotocolsmeasuringtissuespecificexpression(注:
没办法准确的翻译,只好作罢,汗!
)。
Primer-BLAST有许多改进的功能,这样在选择引物方面比单个的用Primer3和NCBIBLAST更加准确。
Primer-BLAST的输入
Primer-BLAST界面包括了Primer3和BLAST的功能。
提交的界面主要包括三个部分:
targettemplate(模板区),theprimers(引物区),和specificitycheck(特异性验证区)。
跟其它的BLAST一样,点击底部的“Advancedparameters”有更多的参数设置。
模板(Template)
在“PCRTemplate”下面的文本框,输入目标模板的序列,FASTA格式或直接用AccessionNumber。
如果你在这里输入了序列,是用于引物的设计。
Primer-BLAST就会根据你输入的序列设计特异性引物,并且在目标数据库(在specificitycheck区选择)是唯一的。
引物(Primers)
如果你已经设计好了引物,要拿来验证引物的好坏。
可以在PrimerParameters区填入你的一条或一对引物。
并且选择好验证的目标数据库(在specificitycheck区选择)。
根据需要可设置产物的大小,Tm值等。
特异性(Specificity)
在specificitycheck区,选择设计引物或验证引物时的目标数据库和物种。
这一步是比较重要的。
这里提供了4种数据库:
RefSeqmRNA,Genome(selectedreferenceassemblies),Genome(allchromosomes),andnr(thestandardnon-redundantdatabase)。
前两个数据库是经过专家注释的数据,这样可以给出更准确的结果。
特别是,当你用NCBI的参考序列作为模板和参考序列数据库作为标准来设计引物时,Primer-BLAST可以设计出只扩增某一特定剪接变异体基因的特异引物。
selectedreferenceassemblies包括以下的物种:
human,chimpanzee,mouse,rat,cow,dog,chicken,zebrafish,fruitfly,honeybee,Arabidopsis,和rice。
Nr数据库覆盖NCBI所有的物种。
实例分析
用人尿嘧啶DNA糖基化酶(uracil-DNAglycosylasegenes,UNG,GeneID:
7374)的两个转录本序列作为一个例子来分析。
UNG1的序列长一点(NM_003362),UNG2的序列短一点(NM_080911,注:
拿这两个基因的序列ClustalW一下就可以了)。
这里用UNG2的序列设计引物,选择RefSeqmRNAdatabase,物种是Human,其它默认。
结果如下图A-B所示,设计的引物只能扩增出UNG2。
看上面的图,把“AllowprimertoamplifymRNAsplicevariants”这个选项给勾上,出现的结果如下图-C所示,新的引物也可以扩增出UNG1(注:
我试了一下,不能得到预期的结果,可能参数没设对)。
Figure.Primer-BLASTresultsforUNGtranscriptvariant2.TheNCBIReferencesequenceNM_080911wasusedasatemplate.Toppanel:
PrimersspecifictothesinglesplicevariantarereportedbydefaultwiththemRNARefSeqdatabaselimitedtohumansequences.Bottompanel:
Primersthatamplifybothsplicevariantsarefoundwiththeoptiontoallowsplicevariants.(点击看大图)
一些Tips
1,在任何时候都要优先使用参考序列的Gi号或Accession号(尽量不要Fasta格式的序列)。
另外,确保你的序列是最新版本的(在填AccessionNumber时后面不加版本号就会自动拿最新的序列)
2,就算你对整个序列的某部分感兴趣(如某条染色体上的某个区域),你也应该优化使用Gi号或Accession号(Primer-BLAST有参数可以设置设计引物的范围,”Form-To”,如上面的第一幅图所示)。
因为用Gi号或Accession号,NCBI会自动读取该序列的一些注释数据,对引物的设计更加有利。
3,尽量使用没有冗除的数据库(如refseq_rna或genomedatabase),nr数据库包括了太多的冗除的序列,会干扰引物的设计。
4,请指定一个或几个PCR扩增的目标物种。
如果不指定在所有的物种搜索,将会使程序变得很慢,引物的结果也会受其它不相关的物种影响。
参考文献
1.SteveRozenandHelenJ.Skaletsky(2000)Primer3ontheWWWforgeneralusersandforbiologistprogrammers.In:
KrawetzS,MisenerS(eds)BioinformaticsMethodsandProtocols:
MethodsinMolecularBiology.HumanaPress,Totowa,NJ,pp365-386.
来源于Primer-BLAST:
NCBI的引物设计和特异性检验工具|柳城博客
BLAST是BasicLocalAlignmentSearchTool的缩写。
序列比较的基本步骤如下:
step1website
http:
//ncbi.nlm.nih.gov
step2website
http:
//blast.ncbi.nlm.nih.gov/Blast.cgi
step3根据比较需要点击blastn(比较核酸序列)或其他,在相应的位置输入序列(FASTA形式),并在database一栏中选择others(如果做非人类研究的话),点击blast提交按钮。
你看看这个吧,实在不会你找到你的目的序列自己找找看序列对不对
首先登陆到http:
//www.ncbi.nlm.nih.gov/BLAST/
然后选择需要比对的序列类型(核酸或蛋白质),然后copy你的序列到相应的窗口,注意,这里要求一定的格式。
然后其它都选择默认设置就可以了。
一般需要等一小会儿(最多几十秒)。
此外,该链接处还有关于其它的blast,如基因组序列的blast等,你可以参考该站点的使用说明。
你说进行多序列比对,是否是几个序列之间的比对而不是和Genbank的database比对呢?
如果是前者,有好多软件可用,比如Dnaman和VectorNTI,更多的软件见www.bio-
什么是BLAST?
BLAST(BasicLocalAlignmentSearchTool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。
BLAST程序能迅速与公开数据库进行相似性序列比较。
BLAST结果中的得分是对一种对相似性的统计说明。
BLAST采用一种局部的算法获得两个序列中具有相似性的序列。
如果您想进一步了解BLAST算法,您可以参考NCBI的BLASTCourse,该页有BLAST算法的介绍。
BLAST功能是什么?
BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。
BLAST还能发现具有缺口的能比对上的序列。
BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:
403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。
从最初的BLAST发展到现在NCBI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。
BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。
所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。
GCG及EMBOSS等软件包中包含有五种BLAST:
1、BLASTP是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。
与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5、TBLASTX是核酸序列到核酸库中的一种查询。
此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
由于这种比对?
E值意义:
当用查询序列搜索一个数据库时,完全由机会击中对象的平均数。
即,因为随机性造成获得这一联配结果的可能次数。
例如,E=1,表示在目前大小的数据库中,完全由机会搜到对象数的平均值为1.
从搜索角度讲,E值越小,联配结果越显著(E越接近0,说明发生这一事件的可能性越小);E值越大,说明这些匹配结果很有可能是随机产生的,而且绝大部分序列来自其他生物。
PeptideSequenceDatabases蛋白序列的数据库
nr
Allnon-redundantGenBankCDStranslations+
RefSeq
Proteins+PDB+SwissProt+PIR+PRF
所有非冗余的的GenBankCDS区的翻译序列+参考序列的蛋白+PDB数据库+SwissProt蛋白数据库+PRF蛋白数据库
refseq
RefSeqproteinsequencesfrom
NCBI'sReferenceSequenceProject.
所有NCBI的参考序列
swissprot
LastmajorreleaseoftheSWISS-PROTproteinsequencedatabase(noupdates).
swissprot的蛋白数据库
pat
ProteinsfromthePatentdivisionofGenPept.
专利的蛋白数据库
pdb
Sequencesderivedfromthe3-dimensionalstructurefromBrookhavenProteinDataBank.
PDB数据库
month
AllneworrevisedGenBankCDStranslation+PDB+SwissProt+PIR+PRFreleasedinthelast30days.
一个月内新增加的蛋白序列
env_nr
Proteinsequencesfromenvironmentalsamples.
来自environmentalsamples的蛋白序列
NucleotideSequenceDatabases核酸数据库
nr
AllGenBank+RefSeqNucleotides+EMBL+DDBJ+PDBsequences(excludingHTGS0,1,2,EST,GSS,STS,PAT,WGS).Nolonger"non-redundant".
所有GenBank的核酸序列+参考序列中的核酸序列+EMBL+DDBJ+PDB核酸序列(但不包括HTG,EST,GSS等序列)
refseq_rna
RNAentriesfrom
NCBI'sReferenceSequenceproject
NCBI参考序列中的核酸序列
refseq_genomic
GenomicentriesfromNCBI'sReferenceSequenceproject
NCBI参考序列中的基因组序列
est
DatabaseofGenBank+EMBL+DDBJsequencesfromESTDivisions
来自GenBank+EMBL+DDBJ的EST序列
est_human
Humansubsetofest.
人的EST序列
est_mouse
Mousesubset.
小鼠的EST序列
est_others
Non-Mouse,non-Humansubsetofest.、
除了人与小鼠之外的EST序列
gss
GenomeSurveySequence,includessingle-passgenomicdata,exon-trappedsequences,andAluPCRsequences.
htgs
UnfinishedHighThroughputGenomicSequences:
phases0,1and2(finished,phase3HTGsequencesareinnr)
未发布的高通量的基因组测序
pat
NucleotidesfromthePatentdivisionofGenBank.
专利的核酸序列
pdb
Sequencesderivedfromthe3-dimensionalstructurefromBrookhavenProteinDataBank
PDB核酸序列
month
AllneworrevisedGenBank+EMBL+DDBJ+PDBsequencesreleasedinthelast30days.
一个月内新增的核酸序列
dbsts
DatabaseofGenBank+EMBL+DDBJsequencesfromSTSDivisions.
STS数据库
chromosome
AdatabasewithcompletegenomesandchromosomesfromtheNCBIReferenceSequenceproject..
NCBI参考序列计划中所有的完整基因组和染色体序列
wgs
Adatabaseforwholegenomeshotgunsequenceentries.
基因组鸟枪法测序得到的序列
env_nt
Nucleotidesequencesfromenvironmentalsamples,includingthosefromSargassoSeaandMineDrainage
projects.
来自environmentalsamples的核酸序列。
二、如何在pubMed下全文
一、PubMed
PubMed上约有5%的文献是可以免费看到全文的,通常这些文献的左上角会有一个FreeFullText的小标记。
你只要点击这个图标,系统就自动链接入该文献的全文。
但有两点值得注意的是,第一,很多时候,这个图标在PubMed处于显示简要(summary)状态下并不出现,而只有在选择显示摘要(abstract)时才出现。
因此,如果你不只是泛泛浏览,而希望看到全文的话,我强烈建议你在display下拉菜单中选择摘要(abstract)状态。
第二,有些时候,小图标上仅标着FullText,而并没有Free字样,但仍然可以链接入全文,你不妨试一试。
二、免费提供全文的期刊
天下没有免费的午餐,这句老话也不一定正确。
有些期刊就提供全文免费检索。
比如著名的美国Science(科学)杂志,以前国内很多高校、研究所的资料室都流传着Science杂志的影印本,印刷质量低劣,而且有盗版之嫌。
后来Science的老板充分理解到中国的国情,干脆顺手做个人情,就与中国有关方面达成协议,使在中国大陆的读者都可以在网上免费看到Science的全文。
方法如下:
(1)先登录Science网址:
http:
//intl.sciencemag.org。
注意,不是www.sciencemag.org,否则你得不到全文。
(2)点击中间那个SEARCH按钮,就进入查询页了。
你可以选择简单检索还是复杂检索。
(3)输入您要找的关键词(不一定是MESH标准主题词),再点击search就可以了。
(4)找出文章后,点击标题后的FullText,就可以浏览原文了。
除了Science,其他一些期刊如美国科学院院报(PNAS),Genetics等都可以在网上获取全文,甚至能够下载文献的pdf格式,这样就和真正在期刊上的排版形式一模一样了。
一