NCBI数据库检索.ppt

资源描述

NCBI数据库检索.ppt

《NCBI数据库检索.ppt》由会员分享，可在线阅读，更多相关《NCBI数据库检索.ppt（112页珍藏版）》请在冰点文库上搜索。

NCBI数据库检索.ppt

NCBI数据库检索,NationalCenterofBiotechnologyInformation,NCBI简介,http:

/www.ncbi.nlm.nih.govNCBI就是美国国家生物技术信息中心（NationalCenterofBiotechnologyInformation）NLM是美国国家医学图书馆（NationalLibraryofMedicine）NIH是美国国立卫生研究院（NationalInstitutesofHealth）,NCBI中通过Entrez可互查的数据库,NCBI数据库,Nucleotide：

DNA序列数据库Protein：

蛋白质序列数据库Genome：

基因组序列数据库Structure：

分子结构模型数据库Popset：

种群、种系发生或突变序列数据库Taxonomy：

微生物类别数据库OMIM：

人类孟德尔遗传学在线数据库。

一.Nucleotide（GenBank）,该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库（DDBJ）和英国HinxtonHall的欧洲分子生物学实验室数据库（EMBL）三部分数据组成。

二.Genome,即基因组数据库，提供了多种基因组、完全染色体、临近序列图谱以及一体化基因物理图谱。

三.Structures,即结构数据库或称分子模型数据库（MMDB），包含来自X线晶体学和三维结构的实验数据。

MMDB的数据从PDB（ProteinDataBank）获得。

四.Taxonomy,即生物学门类数据库，可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等。

五.PopSet,包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列。

PopSet既包含核酸序列数据又包含蛋白质序列数据。

六.OMIM,孟德尔遗传学（OMIM）数据库是人类基因和基因疾病的目录数据库。

该数据库包括原文信息、图片和参考信息，同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息。

PubMed数据库检索,一、PubMed数据库简介,PubMed是美国国家医学图书馆（NLM）下属的国家生物技术信息中心（NCBI）开发的、基于WWW的医学数据库查询系统。

PubMed的网址：

http:

/www.ncbi.nlm.nih.gov/pubmedhttp:

/www.ncbi.nlm.nih.gov/entrez/query.fcgi,PubMed,数据类型：

期刊论文、综述、以及与其他数据资源链接。

特点：

1.免费提供题录和文摘2.可与提供原文的网址链接（部分免费获取）3.操作简便、快捷,期刊来源地理分布,北美（31%）,欧洲和中东（52%）,非洲（1%）,中南美洲（2%）,ASIAN,Australia（14%）,MEDLINE2919独有,BIOSIS3071,2043shared,BIOSIS与MEDLINE的覆盖范围,MEDLINE：

联机医学文献分析和检索系统,BIOSIS（BiosciencesInformationService,美国生物科学信息服务社）,4,400Employees,11,500Employees,2,800Employees,9,900Employees,IntlLegal&Regulatory,NorthAmericanLegal,Scientific,Financial,Tax&Accounting,Healthcare,2,600Employees,3,100Employees,2005营业收入87亿美元为全球2千万用户提供服务市值260亿美元，福布斯全球500强之一,二、通过PubMed可检索到如下的信息,MEDLINEPreMedline出版商提供的书目信息,MEDLINE,MEDLINE：

是美国国立医学图书馆MEDLARS系统中最大的生物医学数据库，收录1966年以来70多个国家近4300种生物医学期刊的书目信息和著者文摘，每周更新。

每条记录均带有PubMed-IndexedforMEDLINE标志。

PreMedline：

收集未正式给予MeSH词、出版类型等深度标引信息的一个临时库。

NLM每天把最新记录加入到PreMedline库中，每条记录均带有PubMed-inProcess标志。

工作人员在一周内将这些记录标引，然后转入MEDLINE，同时从PreMedline中删去。

PreMedline,Pre-Medline,Medline,NewData,Collect,PubMed,Process,PubMed,出版商提供的书目信息：

出版商提供的是整本期刊的信息，若有部分没有被MEDLINE收录，PubMed仍保存，在记录中做PubMed-assuppliedbypublisher的标记。

图1,以下是几条PubMed的记录，标记不同，其出自的分库也不同,三、PubMed文献检索,PubMed页面的结构,PubMedCentral页面的结构,三、PubMed页面的结构,执行检索,基本检索输入框,三、PubMed页面的结构,执行检索,基本检索输入框,RelatedResources:

MeSHDatabase-主题词数据库JournalDatabase-杂志数据库ClinicalTrials-对公众提供临床科研的当前信息PubMedTools:

CitationMatcher-引文匹配器在表格输入刊物的引文信息来定位特定文章。

ClinicalQueries-与临床相关的疗法，诊断，病因，预后咨询。

1、词语检索及自动词语匹配,四、PubMed的基本检索功能,四、PubMed的基本检索功能

（二）,2、作者姓名检索在检索框内按照姓+名缩写（不用标点）的格式键入作者姓名，如LiuC，系统会自动在作者字段内进行检索。

如果想进行更精确的检索，可以用双引号将作者名引起来，再加au，如“LiuC”au,四、PubMed的基本检索功能（三）,3、杂志名检索在检索框中键入杂志全名molecularbiologyofthecell也可以直接键入Medline的期刊标准缩写形式，如：

molboilcell，键入刊物的ISSN（国际标准出版物代码）进行检索，如1059-1524。

Celltransplantationta,四、PubMed的基本检索功能（四）,4、截词检索可利用系统的截词功能获取更多的相关文献，截词符“*”可代表多个字符，将*加在检索词后可以表示对所有以该词开头的词进行检索；如：

bacter*，可以检出bacter,bacteria,bacterium,bacteriophage等词。

四、PubMed的基本检索功能（五）,5、短语检索PubMed首先将键入的检索词（词组）视为合理的短语在短语索引中进行查找。

如：

singlecell，PubMed将其视为词组进行查找。

当PubMed没有找到该词组时，系统将自动把两个词分开进行检索；如果不希望系统将两词分开，则需要用“”把检索词括起来，即强迫PubMed进行词组检索。

如“singlecell”。

当用双引号括起词语时，PubMed将不执行自动词语匹配功能。

五、显示检索结果（Display）：

text1,Summary作者姓名、文章题目、出处、记录状态、语种、出版物类型、PMID。

Abstract出处、记录状态、文章题目、作者姓名、作者单位、文摘、出版物类型、缩写、注释、PMID等。

六、检索结果的保存1,六、检索结果的保存2,文章数目,链接（Links）链接外部资源LinkOutLinkOut是链接到本站点外部信息的出口。

可以与出版商、信息集成者、图书馆、生物学数据库、序列中心等链接来获取更多的相关信息。

链接带星号的LinkOut是表明提供者需要订阅、会员资格或需要交费进入。

链接相关图书Books为帮助用户解决对检索结果中不熟悉的要领提供背景资料,七、检索结果的链接（Links）,文摘中的期刊图标链接,Linkout链接,GenBank数据库检索,三大基因数据库,GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列。

它是由美国国立生物技术信息中心（NCBI）建立和维护的。

NCBI的网址是：

http:

/www.ncbi.nlm.nih.gov。

EMBL核酸序列数据库由欧洲生物信息学研究所（EBI）维护的核酸序列数据构成。

数据库网址是：

http:

/www.ebi.ac.uk/embl/。

DDBJ数据库日本DNA数据仓库（DDBJ）也是一个全面的核酸序列数据库。

DDBJ的网址是：

http:

/www.ddbj.nig.ac.jp/。

GenBank,PublicfreeAvailableviaInternet,EMBLDataLibrary,DDBJ（DNADataBankofJapan）,三大基因数据库之间的关系,在线获取序列（entrez）方法1,1.进入entrez,2.选择数据库,3.查询关键词,4.开始查询,显示格式,每页显示数目,符合条件的记录数,mRNA数量,不同物种记录数,在线获取序列方法2,显示格式,符合条件的记录数,mRNA数量,不同物种记录数,在线获取序列方法3,Accessionnumber,序列长度,数据类型,Definition:

标题,GInumber,物种名称,基因名称,编码蛋白名称,GenBank数据格式,该序列发表在哪篇论文中,基因序列提交Genbank方法1在线提交,基因序列提交Genbank方法2Sequin软件提交,共克隆、测序了北京油鸡风味特性基因43个，五指山小型猪3个，虎源犬瘟热病毒基因4个，提交GenBank50个。

举例：

序列数据的查询,某天，Prof.Gene发现人的Hela细胞中，有丝分裂期间有异常情况：

细胞不再分裂，而是开始凋亡（表型，phenotype），通过实验的方法，发现了与有丝分裂期间某个蛋白可能相互作用的一个基因，测序结果如下（genotype）：

CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC,正常细胞,凋亡细胞,问题：

1.这是哪个基因？

2.编码的蛋白质序列是怎样的？

3.有没有保守的功能结构域（domain）？

4.它的功能是怎样的？

5.有没有三级结构信息？

NCBI:

BLAST,http:

/www.ncbi.nlm.nih.gov/,nucleotideblast,Megablast:

找基因序列,输入序列,提交序列,NM_001168.2：

Survivin,Geo:

基因表达信息,Geneinfo：

基因信息,Survivin,Geneinfo:

17号染色体,功能注释：

GeneOntology,结论1,1.该基因为人的Survivin基因，染色体定位：

17号染色体，73721872-73733311；基因标识符：

NM_001168.2;2.初步的功能分析：

细胞周期，caspase酶的抑制因子，等等。

NM_001168.2：

Survivin,HumanSurvivin！

获取蛋白质的序列信息,Survivin：

142aa,结论2,人的Survivin蛋白质包含142个氨基酸，序列标识符为：

NP_001159.2,获取FASTA序列,FASTA格式的序列,PHI-BLAST:

finddomain,填入蛋白质的FASTA序列,BIRdomain,结论3,Survivin具有保守的功能结构域BIR,如何进行Survivin功能分析。

如：

亚细胞定位，活性中心位点，3D结构。

http:

/www.expasy.org/,UniProt:

蛋白质数据库,在人中做BLAST搜索,Survivin：

O15392,Survivin的蛋白质信息,功能注释,结论4：

功能分析,1.在瘤形成过程中可能起一定作用；2.阻碍G2/M期的细胞编程性凋亡；3.Chromosomalpassengercomplex（CPC）的成员之一。

细胞亚定位：

胞质，核。

PDB：

三级结构数据库,Survivin的三级结构信息,Raswin:

三级结构显示,Raswin:

三级结构显示,总结,1.该基因为人的Survivin基因，染色体定位：

17号染色体，73721872-73733311；基因标识符：

NM_001168.2;2.人的Survivin蛋白质包含142个氨基酸，序列标识符为：

NP_001159.23.Survivin具有保守的功能结构域BIR4.Survivin的细胞亚定位：

胞质，核，其功能有：

（1）在瘤形成过程中可能起一定作用；

（2）阻碍G2/M期的细胞编程性凋亡；（3）Chromosomalpassengercomplex（CPC）的成员之一。

等等。

6.Survivin的三级结构已知，在PDB中的标识符为1E31。

谢谢各位认真听讲！

展开阅读全文