Internet信息检索文档格式.docx

上传人:b****1 文档编号:3606812 上传时间:2023-05-02 格式:DOCX 页数:14 大小:151.46KB
下载 相关 举报
Internet信息检索文档格式.docx_第1页
第1页 / 共14页
Internet信息检索文档格式.docx_第2页
第2页 / 共14页
Internet信息检索文档格式.docx_第3页
第3页 / 共14页
Internet信息检索文档格式.docx_第4页
第4页 / 共14页
Internet信息检索文档格式.docx_第5页
第5页 / 共14页
Internet信息检索文档格式.docx_第6页
第6页 / 共14页
Internet信息检索文档格式.docx_第7页
第7页 / 共14页
Internet信息检索文档格式.docx_第8页
第8页 / 共14页
Internet信息检索文档格式.docx_第9页
第9页 / 共14页
Internet信息检索文档格式.docx_第10页
第10页 / 共14页
Internet信息检索文档格式.docx_第11页
第11页 / 共14页
Internet信息检索文档格式.docx_第12页
第12页 / 共14页
Internet信息检索文档格式.docx_第13页
第13页 / 共14页
Internet信息检索文档格式.docx_第14页
第14页 / 共14页
亲,该文档总共14页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

Internet信息检索文档格式.docx

《Internet信息检索文档格式.docx》由会员分享,可在线阅读,更多相关《Internet信息检索文档格式.docx(14页珍藏版)》请在冰点文库上搜索。

Internet信息检索文档格式.docx

为了帮助Internet上用户方便地查询到所需要的信息,人们按照图书馆管理书目的方法设置了目录。

网上目录一般以主题方式来组织,大主题下又包括若干小主题,这样一层一层地查下去,直到比较具体的信息标题。

目录存放在www服务器里,各个主题通过超文本的方式组织在一起,用户通过目录最终可得到所需信息的网址,即可到相应的地方查找信息,这种通过目录帮助的方法获得所需信息的网址继而查找信息的方法称为基于目录的信息查询方法。

有许多机构专门收集Internet上的信息地址,并编制成目录提供给网上用户。

如Yahoo就是一个非常著名的基于目录帮助的网址,其目录按照一般主题组织,顶层按经济、计算机、教育、政治、新闻、科学等分成14大类目录,每一大类又分成若干子类,层层递进。

3.基于搜索引擎的信息查询

搜索引擎又称WWW检索工具,是www上的一种信息检索软件。

www检索工具的工作原理与传统的信息检索系统类似,都是对信息集合和用户信息需求集合的匹配和选择。

基于搜索工具的检索方法接近于我们通常所熟悉的检索方式,即输入检索词以及各检索词之问的逻辑关系,然后检索软件根据输入信息在索引库中搜索,获得检索结果(在Internet上是一系列节点地址)并输出给用户。

搜索引擎实际上是Internet的服务站点,有免费为公众提供服务的,也有进行收费服务的。

不同的检索服务可能会有不同界面,不同的侧重内容,但有一点是共同的,就是都有一个庞大的索引数据库。

这个索引库是向用户提供检索结果的依据,其中收集了Internet上数百万甚至数千万主页信息,包括该主页的主题、地址,包含于其中的被链接文档主题,以及每个文档中出现的单词的频率、位置等。

二、影响Internet信息检索的因素

影响Internet,信息检索的因素很多,如信息资源质量、检索软件、用户水平等。

1.信息资源质量对信息检索的影响

丰富的信息资源为Internet信息检索系统提供了庞大的信息源,但由于其收集、加工、存储的非标准化,给信息检索带来难题。

(1)信息资源收集不完整、不系统、不科学,导致信息检索必须多次进行,造成人力、物力和时间上的浪费。

(2)信息资源加工处理不规范、不标准、使信息检索的查全率、查准率下降。

(3)信息资源分散、无序、更换、消亡无法预测,因此用户无法判断网上有多少信息同自己需求有关,检索评价标准无法确定。

(4)信息资源由于版权和知识产权问题,也给信息检索带来麻烦。

由于Internet,是一个非控制网络,所有网上公用信息均可以自由使用、共同分享,网上电子形式的文件极易被复制使用,这样就容易引起知识产权、版权及信息真伪等问题。

(5)信息的语言障碍问题。

目前Internet上800亿以上的信息是以英语形式发布,英语水平低和不懂英语的人很难利用Intemet上庞大的信息资源。

对中国用户来说,虽然网上中文信息剧增,但还是需要查询西方国家先进科技信息,由于缺乏汉化软件、自动翻译系统尚未成熟,因此,语言障碍也影响了广大用户对网上信息资源的开发与应用。

2.检索软件对信息检索的影响

Internet将世界上大大小小、成千上万的计算机网络连在一起,成为一个没有统一管理的、分散的,但可以相互交流的巨大信息库,这意味着人们必须掌握各种网络信息检索工具,才能检索到自己所需要的网络信息资源。

但是由于Internet信息组织的特殊性和目前检索工具自身存在的一些问题,给信息检索带来一些问题。

(1)Internet上的信息存放地址会频繁转换和更名,根据检索工具检索的结果并不一定就能获得相应的内容。

(2)基于一个较广定义的检索项,往往会获得数以千万计的检索结果,而使用户难于选择真正所需的信息。

(3)每种检索工具虽然仅收集各自范围内的信息资源,但也难免使各种检索工具的信息资源出现交叉重复现象。

3.用户水平对信息检索的影响

在Internet这个开放式的信息检索系统中,用户不仅要自己检索信息资源,同时还进行信息资源的收集、整理、存储工作。

因此,Intemet用户的信息获取与检索能力对信息检索有着直接的影响。

(1)用户对信息检索需求的理解和检索策略的制定关系到信息检索的质量。

(2)用户的计算机操作能力及网络相关知识的掌握程度影响着信息检索的效率。

(3)用户对网络信息检索工具的应用熟练程度影响着信息检索的效果。

(4)用户的外语水平影响着信息检索的广度与深度。

Chapter2搜索引擎的使用

一、关键词

选择合适的关键词是最基本、最有效的搜索技巧。

选择查询词是一种经验积累,在一定程度上也有章可循,表述准确搜索引擎会严格按照您提交的查询词去搜索,因此,关键词表述准确是获得良好搜索结果的必要前提。

1、一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。

例如:

要查找2008年国内十大新闻,查询词可以是“2008年国内十大新闻”;

但如果把查询词换成“2008年国内十大事件”,搜索结果就没有能满足需求的了。

2、另一类典型的表述不准确,是查询词中包含错别字。

要查找林心如的写真图片,用“林心如写真”,当然是没什么问题;

但如果写错了字,变成“林心茹写真”,搜索结果质量就差得远了。

主流搜索引擎对于用户常见的错别字输入,有纠错提示,比如:

在Google中若输入“林心茹写真”,在搜索结果上方,会提示“您要找的是不是:

林心如写真”。

3、查询词的主题关联与简练

目前的搜索引擎并不能很好的处理自然语言。

因此,在提交搜索请求时,最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的查询词。

例如,某家长想给三年级小孩,想查一些关于时间的名人名言,他的查询词是“小学三年级关于时间的名人名言”。

这个查询词很完整的体现了搜索者的搜索意图,但效果并不好。

原因:

绝大多数名人名言,并不规定是针对几年级的,因此,“小学三年级”事实上和主题无关,会使得搜索引擎丢掉大量不含“小学三年级”但非常有价值的信息;

“关于”也是一个与名人名言本身没有关系的词,多一个这样的词,又会减少很多有价值信息;

“时间的名人名言”,其中的“的”也不是一个必要的词,会对搜索结果产生干扰;

“名人名言”,名言通常就是名人留下来的,在名言前加上名人,是一种不必要的重复。

因此,最好的查询词,应该是“时间名言”。

4、根据网页特征选择查询词

很多类型的网页都有某种相似的特征。

例如,小说网页,通常都有一个目录页,小说名称一般出现在网页标题中,而页面上通常有“目录”两个字,点击页面上的链接,就进入具体的章节页,章节页的标题是小说章节名称;

软件下载页,通常软件名称在网页标题中,网页正文有下载链接,并且会出现“下载”这个词等等。

经常的搜索,并且总结各类网页的特征现象,并应用查询词的选择中,就会使得搜索变得准确而高效。

如找明星的个人资料页,一般来说,明星资料页的标题,通常是明星的名字,而在页面上,会有“姓名”、“身高”等词语出现。

找林青霞的个人资料,就可以用“林青霞姓名身高”来查询。

而由于明星的名字一般在网页标题中出现,因此,更精确的查询方式,可以是“姓名身高intitle:

林青霞”。

Intitle,表示后接的词限制在网页标题范围内。

二、主题词加上特征词的查询构造方法

主题词加上特征词的查询构造方法,适用于搜索具有某种共性的网页

1、使用布尔运算符——and/or

许多搜索引擎都允许在搜索中使用两个不同的布尔运算符:

AND和OR。

如果你想搜索所有同时包含“干洗”和“连锁”的Web站点,输入如下关键字:

  干洗AND连锁(and可以用空格代替)

搜索将返回以干洗连锁为主题的Web站点。

如果想要搜索所有包含“干洗”或“连锁”的Web站点,输入下面的关键字:

干洗OR连锁(or可以用"

|"

代替,据笔者观察,XX中使用"

比较准)

搜索会返回与干洗有关或者与连锁有关的Web站点。

2、把搜索范围限定在网页标题中——intitle

网页标题通常是对网页内容提纲挈领式的归纳。

把查询内容范围限定在网页标题中,有时能获得良好的效果。

使用的方式,是把查询内容中,特别关键的部分,用“intitle:

”领起来。

例如:

找有关mba的留学信息,就可以这样查询:

mbaintitle:

留学

注意:

intitle:

和后面的关键词之间,不要有空格。

3、把搜索范围限定在特定站点中——site

有时候,你如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。

使用的方式,是在查询内容的后面,加上“site:

站点域名”。

在"

生活常识网"

中搜索有关"

美容"

的文章,就可以这样查询:

美容site:

其中“”为站点名。

“site:

”后面跟的站点域名,不要带“http:

//”;

另外,site:

和站点名之间,不要带空格。

4、把搜索范围限定在url链接中——inurl

网页url中的某些信息,常常有某种有价值的含义。

如果对搜索结果的url做某种限定,就可以获得良好的效果。

实现的方式,是用“inurl:

”,后跟需要在url中出现的关键词。

找关于photoshop的使用技巧,可以这样查询:

Photoshopinurl:

jiqiao

上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。

inurl:

语法和后面所跟的关键词,不要有空格。

5、精确匹配——"

"

如果输入的查询词很长,搜索引擎在经过分析后,给出的搜索结果中的查询词,可能是拆分的。

如果您对这种情况不满意,可以尝试让搜索引擎不拆分查询词。

爱情短信给查询词加上双引号,就可以达到这种效果。

搜索上海科技大学,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,“上海科技大学”,获得的结果就全是符合要求的了。

书名号是XX独有的一个特殊查询语法。

在其他搜索引擎中,书名号会被忽略,而在XX,中文书名号是可被查询的。

加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;

二是被书名号扩起来的内容不会被拆分。

书名号在某些情况下特别有效果:

查名字很通俗和常用的那些电影或者小说:

如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了。

6、要求搜索结果中不含特定查询词——-

如果发现搜索结果中,有某一类网页是您不希望看见的,办公家具而且,这些网页都包含特定的关键词,那么用减号语法,就可以去除所有这些含有特定关键词的网页。

搜域名,希望只是关于域名方面的内容,却发现很多关于虚拟主机方面的网页。

那么就可以这样查询:

域名-主机

前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理而失去减号语法功能。

减号和后一个关键词之间,有无空格均可。

7、搜索特定文件类型中的关键词——filetype

以“filetype:

”这个语法来对搜索对象做限制,冒号后是文档格式,如PDF、DOC、XLS等。

例如,旅游filetype:

pdf

搜索结果将返回包含旅游的pdf格式的文档

filetype与关键词之间必须有空格。

8、除此之外,你还可以灵活使用搜索引擎中的"

高级搜索"

功能。

Chapter3热门主题搜索集锦

新闻搜索-NewsSearch

整合国内10几家新闻搜索引擎、门户新闻频道及专业新闻媒体网站的搜索平台,让你一次搜遍天下新闻,让你足不出户就能了解天下事。

图象搜索-ImageSearch

给你几个最好用的图象搜索引擎,将互联网上的精彩好图一网打尽!

里面还有Google的图象搜索哦。

MP3搜索-MP3Search

厌倦了在一大堆网址中翻箱倒柜寻找你钟爱的MP3歌曲吗?

这里就是解除你烦恼的地方。

“傻瓜式”的MP3搜索能让你在片刻之间找到你的最爱,而你要做的只是输入关键词,然后轻点鼠标......

Flash搜索-FlashSearch

Flash网站俯拾皆是,都号称自己是最好的,可是乱花渐欲迷人眼,找来找去都挑花了眼。

有没有一个真正一站式的搜索引擎让我能轻轻松松地查询呢?

当然有!

不信?

那就进来看看先。

在线影视搜索-MovieSearch

Chapter4搜索信息的三套方案

.....................................................................................

据AlexiResearch对网民使用搜索引擎的调查表明,网民中真正懂得如何浏览和使用Web的人数并不多,尽管网民的绝对数量在增加,但在对Web的认知上仍存在严重的概念误解。

本例主要讲述在网上搜索信息的三套方案。

 ■方案一使用搜索引擎

1.认识搜索引擎  

搜索引擎是指互联网上专门提供查询服务的网站。

这些网站通过复杂的网络搜索系统,将互联网上大量网站的页面收集到一块,经过分类处理并保存起来,从而能够对用户提出的各种查询做出响应,提供用户所需的信息。

2.推荐使用的搜索引擎

在互联网上有大量的搜索引擎,考虑到国内网民对中文的依赖,推荐使用下面列出的搜索引擎。

这些搜索引擎不仅支持中文,还具有较高的搜索效率——搜索速度快、分类清晰、查询方便,这正是大家渴望得到的。

名称        网址

  雅虎中文     

  搜狐       

  新浪搜索引擎   

  网易搜索引擎   

  Goole中文    

3.使用更多的关键字

即使在使用了上面列出的搜索引擎后,你仍可能抱怨搜索信息不够准确,甚至会抱怨搜索引擎给你带来大量的无用信息。

这个时候,你应该问问自己,是否正确使用了关键字。

  搜索引擎是将你输入的关键字与其数据库中存储的信息进行匹配,直到找出结果。

如果你输入的关键字过于简单,那么得到的搜索结果将不计其数。

比如,你以“网络”作为关键字,与之相关的信息就太多了。

下面以网易搜索引擎()为例,来说明使用更多关键字的好处。

假如你想在网上查看重庆地区的渡假信息,建议你在搜索引擎中输入关键字“重庆渡假”。

假如你想进一步把搜索范围锁定在重庆的大足地区,那么应该输入关键字“重庆大足渡假”。

这样一来,你用搜索引擎找到的信息会更加准确。

假如你想查找重庆地区的电信信息,但想排除与手机相关的信息,那么应该输入关键字“重庆电信-手机”。

“手机”前面多了一个“-”,表示排除与手机相关的信息。

每一个搜索引擎在使用上都有细微的差别,所以在使用前应先查阅相关的使用方法,这些信息的链接通常就在关键字输入框的旁边。

4.使用多个搜索引擎

很少有人敢打赌仅使用一个搜索引擎就能找遍互联网上的所有信息。

每个搜索引擎的性能都有所不同,所以,在你为找不着所需的信息而着急的时候,不妨再用别的搜索引擎试试,或者用浏览器打开多个搜索引擎进行同时搜索。

评价:

  优点:

搜索速度快,信息分类清晰,搜索信息量大,无需安装其它软件。

  缺点:

每次只能使用一个搜索引擎,搜索结果容易重复。

 ■方案二使用搜索软件

针对搜索引擎的弱点,国内出现了许多专业的搜索软件。

这些搜索软件的最大特点就是可以同时启动互联网上的多个搜索引擎进行搜索,能得到更多、更详细的信息。

笔者推荐使用《中华搜索宝》(下载网址:

),这款搜索软件的安装和使用都非常简单,无需进行复杂的设置。

快速上手:

通过选择菜单“查看”→“选项”,打开“选项”窗口。

先在“选项”窗口中选择“搜索结束自动进行智能处理”、“搜索处理包括过滤重复名称”、“智能处理包括过滤重复域名”、“智能处理包括过滤重复内容”,然后点击“确定”按钮。

前面已经讲过,同时使用多个搜索引擎很可能返回重复的信息,通过这些设置可以过滤掉重复的信息。

在“搜索范围”中选择好搜索范围。

在“关键词”输入框中输入搜索关键字,再点击“回车”键或者“F12”键,软件即刻进行搜索,并将搜索结果显示在下面的列表中。

用鼠标在结果列表中双击某一条信息,即可打开系统默认的浏览器进行浏览。

在重新搜索前,你可以选择菜单“编辑”→“全部清除”,以清除结果列表中的内容。

推荐使用的其它搜索软件

飓风搜索通

SearchX   

优点:

搜索速度快,搜索范围广,可以得到更多的搜索结果。

缺点:

需要安装软件,准确性不高,个别软件无法有效地过滤重复信息。

 ■方案三使用3721中文网址

《3721中文网址》是一款可以使用中文来访问网站的客户端软件(下载网址:

),你只需记住网站的中文名称,不用再记忆长长的英文域名,这确实方便了大家浏览网站。

从另一个角度来说,《3721中文网址》也相当于一款搜索软件。

将《3721中文网址》安装在系统中,以后启动系统时会自动启动《3721中文网址》。

打开浏览器,当你用鼠标点击“地址”输入框后,会看到一段提示,输入中文即可访问到相关网站,例如输入“大众网络报”。

当《3721中文网址》无法找到与你输入的中文相对应的网站时,会在浏览器列出名称与之相近的网站供你选择。

查询中文网站非常方便,操作简单,上手容易。

需要安装软件,无法找到非中文类网站,在网络使用高峰时会影响网站的访问速度。

总结:

  对于这三套搜索信息的方案,你可择优而取。

如果你有针对性地查询某一信息,建议使用第一套方案;

如果你经常在网上查询大量的信息,建议使用第二套方案;

如果你只是为了方便地上网,那就建议使用第三套方案。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工程科技 > 环境科学食品科学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2