《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt

上传人:wj 文档编号:12991095 上传时间:2023-06-10 格式:PPT 页数:100 大小:5.42MB
下载 相关 举报
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第1页
第1页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第2页
第2页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第3页
第3页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第4页
第4页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第5页
第5页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第6页
第6页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第7页
第7页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第8页
第8页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第9页
第9页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第10页
第10页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第11页
第11页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第12页
第12页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第13页
第13页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第14页
第14页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第15页
第15页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第16页
第16页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第17页
第17页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第18页
第18页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第19页
第19页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第20页
第20页 / 共100页
亲,该文档总共100页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt

《《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt》由会员分享,可在线阅读,更多相关《《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt(100页珍藏版)》请在冰点文库上搜索。

《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt

信息检索与利用系列课件,第6章,Internet的信息检索与学术信息的开放获取,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-1,1互联网搜索引擎,搜索引擎(SearchEngine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,经过组织和处理后为用户提供检索服务的系统。

1990年大学生AlanEmtage、PeterDeutsch等发明了Archie1993年JumpStation、TheWorldWideWebWorm(Goto的前身,也就是今天的Overture)和Repository-BasedSoftwareEngineering(RBSE)spider成功检索整个因特网各种信息。

JumpStation和WWWWorm只是以命中信息的先后顺序为结果排序,而RBSE是第一个索引Html文件正文的搜索引擎,也就是第一个在结果排列中引入关键字串匹配程度概念的引擎。

1994年MichaelMauldin将JohnLeavitt的Spider程序接入到其索引程序中,创建了Lycos。

同年4月DavidFilo和美籍华人杨致远共同创办了Yahoo。

1995年元搜索引擎出现。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-2,搜索引擎的工作原理,搜索器也称为蜘蛛系统(Spider)或爬虫系统(Crawler),其功能是遵循一定的协议,在互联网中及时搜索和发现新的网页信息,并更新索引数据库,避免死链接。

分析器借助词频统计、词语位置认定和一些特殊算法,对搜索器抓回的网页进行标引,并对其中的网页超链接进行关联。

索引器根据分析器生成的关键词,建立从关键词到网页URL的关系索引倒排文档,即建立索引数据库。

检索器根据用户输入的提问词,在索引数据库中进行匹配运算,然后将查询结果按相关程度排序。

用户接口接收并解释用户输入的检索提问,最后将检索器查询的结果输出。

搜索引擎实际上是一个WWW检索服务器,由搜索器、分析器、索引器、检索器和用户接口等部分组成。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-3,搜索引擎的检索功能,搜索引擎的检索功能非常强大,通常包括布尔逻辑检索、字符串(词组)检索、截词检索、字段检索、限制检索和位置检索,有些搜索引擎还包括自然语言检索、多语种检索、区分大小写等特殊功能,但并非每个搜索引擎都提供上述所有检索功能,也并非每种检索功能在各个搜索引擎中都有完全相同的表现。

按受到搜索引擎支持的程度划分,各种检索功能的位次排列如下:

布尔逻辑检索和字符串检索截词检索、字段检索和限制检索位置检索,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-4,通用搜索引擎百度,2001年10月22日正式发布,是国内最大的商业化全文搜索引擎,其功能完备,搜索精度高,除数据库的规模及部分特殊搜索功能外,其他方面可与当前的搜索引擎业界领军人物Google相媲美,在中文搜索的支持方面有些地方甚至超过了Google,是目前国内技术水平最高的搜索引擎,其独创的核心技术“超链分析”是新一代搜索引擎的关键技术,已为世界各大搜索引擎普遍采用。

网址:

http:

/,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-5,基本检索,逻辑算符:

空格=“与”;符号“|”=“或”;符号“-”=“非”,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-6,高级搜索语法,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-7,调整搜索结果,相关搜索,在搜索结果页面下方提示若干与输入的关键词很相似的查询词,供用户从中选择,结果中找,相当于“二次检索”,可以帮助用户逐步缩小查找的范围,直至得到最佳结果,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-8,百度快照,百度收录的网页都会自动生成临时缓存,可供用户快速浏览,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-9,通用搜索引擎Google,1998年9月发布测试版,一年后正式商业运营。

2005年Google中文推出,2006年4月命名为“谷歌”,包含2400万个中文页面以及超过13亿的Web文件。

网址:

http:

/www.,Google是第二代搜索引擎的代表,目前被公认为全球最大的搜索引擎,并由于对搜索引擎技术的创新而获奖无数。

Google所擅长的是易用性和高相关性,其先进的PageRank排序技术可以保证将重要的搜索结果排列在结果列表的前面。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-10,检索界面,逻辑算符:

空格=“与”;符号“+”=“或”;符号“-”=“非”,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-11,高级搜索语法,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-12,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-13,“手气不错”,直接指向查询后所找到的相关性最高的网站,清华大学,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-14,调整搜索结果,相关搜索,在搜索结果页面下方提示若干与输入的关键词很相似的查询词,供用户从中选择,在结果中搜索,相当于“二次检索”,可以帮助用户逐步缩小查找的范围,直至得到最佳结果,类似网页,显示与当前网页相关的网页,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-15,网页快照,供用户查看Google最近一次编制索引时的相关网页内容,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-16,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-17,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-18,Google学术搜索,提供众多学科和资料来源,包括:

学术著作出版商(如“万方”、CNKI、维普中的部分内容)大学等学术团体的作品公开的学术刊物专业类报纸的电子版其他网络上可以搜索到的学术文章,输入加引号的论文标题来查找特定论文和提及此论文的其他论文输入“作者:

”以查找特定作者的文章,使用方法与Google中文基本相同,但为适应学术文献检索的需要而设计了一些新功能,例如:

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-19,学术搜索结果,结果排序综合考虑每篇文章的内容、作者、发表的刊物以及被其他学术文章引用的次数等要素,相关度越高的文章在结果列表中的位置越靠前,如果点击结果列表上方的“最新文章”则按文章的发表时间排序每条记录中显示的项目充分考虑到使用者的需要,包括:

标题、被引用次数、相关文章、图书馆搜索、网页搜索等,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-20,通用搜索引擎-MSN由微软编制,大部分数据来源于搜索提供商Inktomi的数据库以及Looksmart的人工分类体系,微软的电子百科全书和广告合作商提供的信息也在其中。

其资源类型包括网页、黄页白页信息、新闻、地图、音乐、星座和求职信息等。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-21,检索功能基本检索:

基本同Google。

不同的是:

支持完全布尔检索、不支持截断检索、区分大小写。

网页特色检索:

特殊文档检索比如能检索微软Office文档,高级检索中更多的文档限定,或者使用feature:

*字段检索和各种限定检索(高级检索界面)特色:

高级检索中能为用户提供多媒体信息参考源,区分大小写,检索人名、地名和专业词汇优于其他引擎,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-22,通用搜索引擎AltaVista,1995年12月推出,曾经是互联网上名噪一时的全文搜索引擎,至今仍被认为是功能最完善、搜索精度较高的全文搜索引擎之一。

目前它的优势主要是它拥有很强的图形检索和音频、视频检索功能。

网址:

http:

/www.,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-23,检索功能,支持自然语言搜索,检索提问可以是单词、词组或短语以及完整的问题,词组或短语应置于双引号中检索词前面加“+”表示该词一定要出现在搜索结果中,加“-”则表示该词一定不要出现在搜索结果中检索时区分大小写:

当以大写字母查询时默认为精确匹配,而输入小写字母则同时查询大、小写采用“*”作为通配符,1个“*”号最多可以代替5个小写字母支持布尔逻辑算符,并以“NEAR”表示靠近关系,即两个关键词间的单词数少于10个,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-24,2、中国搜索资源包括2亿网页、分类目录、新闻、区域、网站、多万首70mp3歌曲、2亿多张图片、商品搜索、游戏、和行业数据库等检索功能:

基本同百度、用“/”表示OR、仅对site字段做检索,即在网址前加site:

搜索具体网站内的网页网页目录分类主题一体化查询行业搜索开创了搜索引擎行业特性分类、关键字分类搜索的先河。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-25,3、3721,用实名搜索而不需要用网址。

查询非普通网页比其他引擎好。

4、天网,http:

/仅支持“与”,用空格“”执行词组检索太常用的词被忽略不区分大小写分类主题一体化查询5、其他中文搜索引擎,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-26,元搜索引擎Dogpile,1996年12月创制的混合式元搜索引擎,2000年8月被InfoSpace公司收购。

目前InfoSpace拥有4个元搜索引擎,而Dogpile一直是这个元搜索引擎家族的旗舰。

网址:

http:

/www.,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-27,检索功能,每一条搜索结果都综合自数个搜索引擎,收到查询提问首先并行地调用Google、Yahoo、MSN、AskJeeves等4个源搜索引擎,如果没有得到10个以上的结果,再调用另外的搜索引擎采用先进的自动聚类技术,对来自源搜索引擎的结果进行相关性比较,聚合生成并提供最符合查询提问的无重复的结果列表支持“AND”、“OR”、“NOT”等逻辑运算和优先运算符“()”、精确搜索符“”、通配符“*”、临近搜索符“NEAR”等支持“filetype:

”、“intitle:

”、“inurl:

”、“link:

”等搜索语法,并能将其转化为符合源搜索引擎的相应搜索语法通过“Preferences”可以进行个人搜索习惯设置,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-28,目录型网络检索工具目录型网络检索工具概述因特网目录型检索工具一般称为网络资源目录(WebDirectory),又称分类站点目录、站点导航系统,专题目录或主题指南等。

是一种可供分类浏览和检索的等级结构式目录。

用户通过浏览目录树,在目录体系中根据概念间的关系层层递进,不断深入,不断缩小搜索范围,最终检索到自己需要的信息。

这种类型的检索工具适用于查找综合性、概括性的主题以及检索的准确性要求较高的问题,特别适合希望了解某领域的重要、权威的网站资源、站点,而并不严格限制查询具体的单位或某一关键词对应的网页的用户。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-29,网络资源目录的结构和使用方法网络资源目录是按照等级结构式组织的。

类目体系的展开与文献分类法相同,基本上是层层划分,按照从总到分的方式逐级展开的。

它建立了一个由类目、子类目构成的可供浏览的相当详尽的目录等级结构。

使用方法:

选择一级类目,点击鼠标查看二级类目清单或目录之外的超链,如果深入到更下级类目,会发现更多外部网页清单。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-30,网络资源目录使用的分类法1、主题分类法其特征是一个主题充当一个类目,类目象主题词表一样按字顺排列,而不是按逻辑顺序排列。

优点:

以事物分类,能将相关的内容全部集中在一起。

对交叉学科的主题揭示非常有利。

缺点:

容量小,类目覆盖面十分有限。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-31,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-32,2.科学分类法学科分类法是以知识分类为基本,按照学科性质及从属、层次关系来组织资源,类目排序以字顺为标准。

优势:

类目容量大,内容更有针对性,学术性更强,符合科技工作者族性检索的要求。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-33,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-34,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-35,网络资源目录介绍1、yahoo,http:

/

(1)编制者DavidFilo,JerryYang于1994年创建,是最早、最著名的目录型网络检索工具。

(2)内容范围:

网站、Web页、新闻组、FTP等(3)分类特点:

主题分类:

14个基本大类,大类下设若干小类目录结构:

具有多个层次,每个基本大类下细分不同层次的次级类目或子类目,一般有四级(4)关键词检索,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-36,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-37,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-38,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-39,2.TheWWW.VirtualLibrary(VL),www.vlib.org主要收集各学科专业领域网络信息。

主要面向专业人员。

参照国会图书馆的主题词表,采用分布式目录组织方法。

检索方法主要是通过目录的导引和浏览。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-40,3.BUBLLINK,hppt:

/bubl.ac.uk/link源于1990英国Glasgow大学的BulletinBoardforLibraries,现在发展成为英国国家网络信息服务重要的网站,主要为高等教育团体服务。

是一个覆盖所有学术领域的网络资源目录(catalogueofinternetresources),按DDC分类体系组织,每月更新。

可分类或主题浏览,也可用词汇检索,有简单检索,高级检索和联合检索三中检索方式。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-41,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-42,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-43,4.Dmoz:

opendirectoryproject(ODP)http:

/dmoz.org/自称是世界上最权威的人工编辑的搜索引擎。

它与其他资源目录不同的是提供全部免费的主题目录和免费提交站点服务。

可通过分类目录检索,也可以用关键词检索。

高级检索可以选择目录范围,站点和目录搜索限定。

支持布尔检索、词组检索、通配符检索、默认检索和元搜索等。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-44,5.Google网页目录http:

/它的网页目录是以ODP为基础,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-45,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-46,2学科信息门户,学科信息门户又叫主题网关、热点门户、学科导航系统等,是一种为科研和教学提供权威可靠的网络信息导航服务的专业性网站,它通过灵活的整合、可靠的组织,无缝地链接用户所需的信息资源和服务,将分布式的信息空间组织成一个方便的用户信息系统,是近年来出现的新型的、面向学科的网络信息服务方式。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-47,学科信息门户的特征,以联机方式提供互联网上许多站点和文献的链接服务智能化的资源选择,即根据既定的质量和范围标准来选择资源智能化的内容描述,包括简短的注释和评论,可以采用给定的关键词或受控术语智能化的构建浏览和分类体系结构至少部分地采用人工方法为每个资源创建书目元数据,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-48,学科信息门户的服务,围绕某个学科主题提供网络信息导航,是网络资源发现的工具,其本身并不包含文献的全文和被链接网站的内容被引导的资源都按照一定的遴选标准,由学科专家进行“质量控制”,因此都是高质量的信息资源的描述由学科专家或编目人员完成,而不是像搜索引擎那样由计算机自动抽取,因而描述更加准确、清晰,便于利用对于被引导的资源采用权威分类体系加以组织,资源分类的结果具有通用性,2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-49,重要学科门户网站

(1),国家科学数字图书馆学科门户,简称CSDL学科门户,2002年1月开始建设,目前已建成化学、生命科学、物理数学、资源环境、图书情报、青藏高原、地球科学数据、环境与生态科学、专利信息、天然药物、长江流域资源生态环境、食品安全、新生传染性疾病、先进制造、冷原子物理、微生物、海洋学等特色学科门户,管理和维护更新分别由中国科学院各文献信息机构和部分相关研究院(所)承担。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-50,CSDL学科门户有明确的资源收录范围、选择原则、评价政策和元数据描述规范,收录资源的语种为中文和英文,范围覆盖国内和国外,并最大可能地覆盖该学科的重要核心信息资源。

因为学科性质和拥有的资源状况不同,CSDL各个学科门户的页面存在明显区别,大体上以“物理数学信息门户”等为一类,而以运行10年的“化学信息门户”为另一类,后者的建设基础是中国科学院过程工程研究所建立的化学化工资源导航系统ChIN。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-51,ChIN,静态网页版提供主要的元数据及其自动检索功能,包括资源所属的类型分类和相关链接,并可同时浏览某个分类下的全部资源,不需翻页动态网页版提供完整的元数据及其自动检索功能,包括该资源所属的类型分类和学科领域分类、主题/关键词以及相关链接,既可按照资源类型浏览,也可按照学科分类浏览,按每页15条分页显示,面向化学学科的信息服务门户网站,提供权威和可靠的化学信息导航,截至2008年5月资源总数已达10866条,并对每条被索引的化学化工资源,均就其特点和概貌进行描述。

有“静态网页版”和“动态网页版”2个版本:

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-52,快速检索,在ChIN首页上部的搜索框内输入检索条件,点击“搜索”即可。

静态网页版可检索的范围包括资源的名称、主题/关键词。

动态网页版可检索的范围包括资源的名称、主题/关键词以及网址URL。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件,6-53,高级检索,系统提供5个检索字段,包括资源的名称(标题)、关键词(由ChIN人工加注)、网址URL、资源类型分类、学科分类,各个检索条件之间可选择匹配方式(包含、不包含、等于、不等于)和逻辑关系(并且、或者)。

可以将关键词检索和分类检索结合进行,点击分类树选择分类,所选择的分类将在当前输入框中自动显示。

2023年6月10日星期六,北京交通大学出版社信息检索教程(InformationRetrievalTextbook

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 幼儿教育 > 幼儿读物

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2