NCBI数据库检索.ppt
《NCBI数据库检索.ppt》由会员分享,可在线阅读,更多相关《NCBI数据库检索.ppt(112页珍藏版)》请在冰点文库上搜索。
NCBI数据库检索,NationalCenterofBiotechnologyInformation,NCBI简介,http:
/www.ncbi.nlm.nih.govNCBI就是美国国家生物技术信息中心(NationalCenterofBiotechnologyInformation)NLM是美国国家医学图书馆(NationalLibraryofMedicine)NIH是美国国立卫生研究院(NationalInstitutesofHealth),NCBI中通过Entrez可互查的数据库,NCBI数据库,Nucleotide:
DNA序列数据库Protein:
蛋白质序列数据库Genome:
基因组序列数据库Structure:
分子结构模型数据库Popset:
种群、种系发生或突变序列数据库Taxonomy:
微生物类别数据库OMIM:
人类孟德尔遗传学在线数据库。
一.Nucleotide(GenBank),该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国HinxtonHall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成。
二.Genome,即基因组数据库,提供了多种基因组、完全染色体、临近序列图谱以及一体化基因物理图谱。
三.Structures,即结构数据库或称分子模型数据库(MMDB),包含来自X线晶体学和三维结构的实验数据。
MMDB的数据从PDB(ProteinDataBank)获得。
四.Taxonomy,即生物学门类数据库,可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等。
五.PopSet,包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列。
PopSet既包含核酸序列数据又包含蛋白质序列数据。
六.OMIM,孟德尔遗传学(OMIM)数据库是人类基因和基因疾病的目录数据库。
该数据库包括原文信息、图片和参考信息,同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息。
PubMed数据库检索,一、PubMed数据库简介,PubMed是美国国家医学图书馆(NLM)下属的国家生物技术信息中心(NCBI)开发的、基于WWW的医学数据库查询系统。
PubMed的网址:
http:
/www.ncbi.nlm.nih.gov/pubmedhttp:
/www.ncbi.nlm.nih.gov/entrez/query.fcgi,PubMed,数据类型:
期刊论文、综述、以及与其他数据资源链接。
特点:
1.免费提供题录和文摘2.可与提供原文的网址链接(部分免费获取)3.操作简便、快捷,期刊来源地理分布,北美(31%),欧洲和中东(52%),非洲(1%),中南美洲(2%),ASIAN,Australia(14%),MEDLINE2919独有,BIOSIS3071,2043shared,BIOSIS与MEDLINE的覆盖范围,MEDLINE:
联机医学文献分析和检索系统,BIOSIS(BiosciencesInformationService,美国生物科学信息服务社),4,400Employees,11,500Employees,2,800Employees,9,900Employees,IntlLegal&Regulatory,NorthAmericanLegal,Scientific,Financial,Tax&Accounting,Healthcare,2,600Employees,3,100Employees,2005营业收入87亿美元为全球2千万用户提供服务市值260亿美元,福布斯全球500强之一,二、通过PubMed可检索到如下的信息,MEDLINEPreMedline出版商提供的书目信息,MEDLINE,MEDLINE:
是美国国立医学图书馆MEDLARS系统中最大的生物医学数据库,收录1966年以来70多个国家近4300种生物医学期刊的书目信息和著者文摘,每周更新。
每条记录均带有PubMed-IndexedforMEDLINE标志。
PreMedline:
收集未正式给予MeSH词、出版类型等深度标引信息的一个临时库。
NLM每天把最新记录加入到PreMedline库中,每条记录均带有PubMed-inProcess标志。
工作人员在一周内将这些记录标引,然后转入MEDLINE,同时从PreMedline中删去。
PreMedline,Pre-Medline,Medline,NewData,Collect,PubMed,Process,PubMed,出版商提供的书目信息:
出版商提供的是整本期刊的信息,若有部分没有被MEDLINE收录,PubMed仍保存,在记录中做PubMed-assuppliedbypublisher的标记。
图1,以下是几条PubMed的记录,标记不同,其出自的分库也不同,三、PubMed文献检索,PubMed页面的结构,PubMedCentral页面的结构,三、PubMed页面的结构,执行检索,基本检索输入框,三、PubMed页面的结构,执行检索,基本检索输入框,RelatedResources:
MeSHDatabase-主题词数据库JournalDatabase-杂志数据库ClinicalTrials-对公众提供临床科研的当前信息PubMedTools:
CitationMatcher-引文匹配器在表格输入刊物的引文信息来定位特定文章。
ClinicalQueries-与临床相关的疗法,诊断,病因,预后咨询。
1、词语检索及自动词语匹配,四、PubMed的基本检索功能,四、PubMed的基本检索功能
(二),2、作者姓名检索在检索框内按照姓+名缩写(不用标点)的格式键入作者姓名,如LiuC,系统会自动在作者字段内进行检索。
如果想进行更精确的检索,可以用双引号将作者名引起来,再加au,如“LiuC”au,四、PubMed的基本检索功能(三),3、杂志名检索在检索框中键入杂志全名molecularbiologyofthecell也可以直接键入Medline的期刊标准缩写形式,如:
molboilcell,键入刊物的ISSN(国际标准出版物代码)进行检索,如1059-1524。
Celltransplantationta,四、PubMed的基本检索功能(四),4、截词检索可利用系统的截词功能获取更多的相关文献,截词符“*”可代表多个字符,将*加在检索词后可以表示对所有以该词开头的词进行检索;如:
bacter*,可以检出bacter,bacteria,bacterium,bacteriophage等词。
四、PubMed的基本检索功能(五),5、短语检索PubMed首先将键入的检索词(词组)视为合理的短语在短语索引中进行查找。
如:
singlecell,PubMed将其视为词组进行查找。
当PubMed没有找到该词组时,系统将自动把两个词分开进行检索;如果不希望系统将两词分开,则需要用“”把检索词括起来,即强迫PubMed进行词组检索。
如“singlecell”。
当用双引号括起词语时,PubMed将不执行自动词语匹配功能。
五、显示检索结果(Display):
text1,Summary作者姓名、文章题目、出处、记录状态、语种、出版物类型、PMID。
Abstract出处、记录状态、文章题目、作者姓名、作者单位、文摘、出版物类型、缩写、注释、PMID等。
六、检索结果的保存1,六、检索结果的保存2,文章数目,链接(Links)链接外部资源LinkOutLinkOut是链接到本站点外部信息的出口。
可以与出版商、信息集成者、图书馆、生物学数据库、序列中心等链接来获取更多的相关信息。
链接带星号的LinkOut是表明提供者需要订阅、会员资格或需要交费进入。
链接相关图书Books为帮助用户解决对检索结果中不熟悉的要领提供背景资料,七、检索结果的链接(Links),文摘中的期刊图标链接,Linkout链接,GenBank数据库检索,三大基因数据库,GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列。
它是由美国国立生物技术信息中心(NCBI)建立和维护的。
NCBI的网址是:
http:
/www.ncbi.nlm.nih.gov。
EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成。
数据库网址是:
http:
/www.ebi.ac.uk/embl/。
DDBJ数据库日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库。
DDBJ的网址是:
http:
/www.ddbj.nig.ac.jp/。
GenBank,PublicfreeAvailableviaInternet,EMBLDataLibrary,DDBJ(DNADataBankofJapan),三大基因数据库之间的关系,在线获取序列(entrez)方法1,1.进入entrez,2.选择数据库,3.查询关键词,4.开始查询,显示格式,每页显示数目,符合条件的记录数,mRNA数量,不同物种记录数,在线获取序列方法2,显示格式,符合条件的记录数,mRNA数量,不同物种记录数,在线获取序列方法3,Accessionnumber,序列长度,数据类型,Definition:
标题,GInumber,物种名称,基因名称,编码蛋白名称,GenBank数据格式,该序列发表在哪篇论文中,基因序列提交Genbank方法1在线提交,基因序列提交Genbank方法2Sequin软件提交,共克隆、测序了北京油鸡风味特性基因43个,五指山小型猪3个,虎源犬瘟热病毒基因4个,提交GenBank50个。
举例:
序列数据的查询,某天,Prof.Gene发现人的Hela细胞中,有丝分裂期间有异常情况:
细胞不再分裂,而是开始凋亡(表型,phenotype),通过实验的方法,发现了与有丝分裂期间某个蛋白可能相互作用的一个基因,测序结果如下(genotype):
CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC,正常细胞,凋亡细胞,问题:
1.这是哪个基因?
2.编码的蛋白质序列是怎样的?
3.有没有保守的功能结构域(domain)?
4.它的功能是怎样的?
5.有没有三级结构信息?
NCBI:
BLAST,http:
/www.ncbi.nlm.nih.gov/,nucleotideblast,Megablast:
找基因序列,输入序列,提交序列,NM_001168.2:
Survivin,Geo:
基因表达信息,Geneinfo:
基因信息,Survivin,Geneinfo:
17号染色体,功能注释:
GeneOntology,结论1,1.该基因为人的Survivin基因,染色体定位:
17号染色体,73721872-73733311;基因标识符:
NM_001168.2;2.初步的功能分析:
细胞周期,caspase酶的抑制因子,等等。
NM_001168.2:
Survivin,HumanSurvivin!
获取蛋白质的序列信息,Survivin:
142aa,结论2,人的Survivin蛋白质包含142个氨基酸,序列标识符为:
NP_001159.2,获取FASTA序列,FASTA格式的序列,PHI-BLAST:
finddomain,填入蛋白质的FASTA序列,BIRdomain,结论3,Survivin具有保守的功能结构域BIR,如何进行Survivin功能分析。
如:
亚细胞定位,活性中心位点,3D结构。
http:
/www.expasy.org/,UniProt:
蛋白质数据库,在人中做BLAST搜索,Survivin:
O15392,Survivin的蛋白质信息,功能注释,结论4:
功能分析,1.在瘤形成过程中可能起一定作用;2.阻碍G2/M期的细胞编程性凋亡;3.Chromosomalpassengercomplex(CPC)的成员之一。
细胞亚定位:
胞质,核。
PDB:
三级结构数据库,Survivin的三级结构信息,Raswin:
三级结构显示,Raswin:
三级结构显示,总结,1.该基因为人的Survivin基因,染色体定位:
17号染色体,73721872-73733311;基因标识符:
NM_001168.2;2.人的Survivin蛋白质包含142个氨基酸,序列标识符为:
NP_001159.23.Survivin具有保守的功能结构域BIR4.Survivin的细胞亚定位:
胞质,核,其功能有:
(1)在瘤形成过程中可能起一定作用;
(2)阻碍G2/M期的细胞编程性凋亡;(3)Chromosomalpassengercomplex(CPC)的成员之一。
等等。
6.Survivin的三级结构已知,在PDB中的标识符为1E31。
谢谢各位认真听讲!