搜索引擎基本工作原理.docx

上传人:b****2 文档编号:14003166 上传时间:2023-06-19 格式:DOCX 页数:18 大小:107.94KB
下载 相关 举报
搜索引擎基本工作原理.docx_第1页
第1页 / 共18页
搜索引擎基本工作原理.docx_第2页
第2页 / 共18页
搜索引擎基本工作原理.docx_第3页
第3页 / 共18页
搜索引擎基本工作原理.docx_第4页
第4页 / 共18页
搜索引擎基本工作原理.docx_第5页
第5页 / 共18页
搜索引擎基本工作原理.docx_第6页
第6页 / 共18页
搜索引擎基本工作原理.docx_第7页
第7页 / 共18页
搜索引擎基本工作原理.docx_第8页
第8页 / 共18页
搜索引擎基本工作原理.docx_第9页
第9页 / 共18页
搜索引擎基本工作原理.docx_第10页
第10页 / 共18页
搜索引擎基本工作原理.docx_第11页
第11页 / 共18页
搜索引擎基本工作原理.docx_第12页
第12页 / 共18页
搜索引擎基本工作原理.docx_第13页
第13页 / 共18页
搜索引擎基本工作原理.docx_第14页
第14页 / 共18页
搜索引擎基本工作原理.docx_第15页
第15页 / 共18页
搜索引擎基本工作原理.docx_第16页
第16页 / 共18页
搜索引擎基本工作原理.docx_第17页
第17页 / 共18页
搜索引擎基本工作原理.docx_第18页
第18页 / 共18页
亲,该文档总共18页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

搜索引擎基本工作原理.docx

《搜索引擎基本工作原理.docx》由会员分享,可在线阅读,更多相关《搜索引擎基本工作原理.docx(18页珍藏版)》请在冰点文库上搜索。

搜索引擎基本工作原理.docx

搜索引擎基本工作原理

搜索引擎基本原理

一.全文搜索引擎

  在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。

搜索引擎的自动信息搜集功能分两种。

一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

  另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。

由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

  当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

二.目录索引

  与全文搜索引擎相比,目录索引有许多不同之处。

  首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。

用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

  其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。

而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。

尤其象Yahoo!

这样的超级索引,登录更是困难。

(由于登录Yahoo!

的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧)

  此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。

  最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。

更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

  目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。

如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。

如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

目前,搜索引擎与目录索引有相互融合渗透的趋势。

原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用OpenDirectory目录提供分类查询。

而象Yahoo!

这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。

在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。

 

搜索大法——浅谈搜索引擎

一、什么叫搜索引擎?

在Internet上有上百亿可用的公共Web页面,即使是最狂热的冲浪者也不会访问到所有的页面,而只能看到其中的一小部分,更不会在这浩瀚的Web海洋中发现你那即使精彩却渺小的一隅。

当然你可以为你的存在做广告,可以用大大的字把你的URL刻在你的身体上,然后裸体穿过白宫草坪,但你得保证媒体正好在那里,并注视到了这一切。

与其这样做,不如好好去理解搜索引擎是如何工作的?

又怎样选择和使用"keywords"(关键词)等等。

本文的目的就是让众多的页面设计者在了解搜索引擎的基础上,寻求如何使自己的页面在搜索引擎索返回的列表中获得好的排列层次的方法。

  "搜索引擎"这个术语一般统指真正意义上的搜索引擎(也就是全文检索搜索引擎)和目录(即目录式分类搜索引擎),其实他们是不一样的,其区别主要在于返回的搜索结果列表是如何编排的。

1、目录

目录(比如Yahoo!

)返回的列表是由人工来编排的。

这类引擎提供了一份人工按类别编排的网站目录,各类下边排列着属于这一类别的网站的站名和网址链接,再记录一些摘要信息,对该网站进行概述性介绍(摘要可能是你提交过去的,也可以是引擎站点的编辑为你的站点所做的评价)。

人们搜索时就按相应类别的目录查询下去。

这类引擎往往还伴有网站查询功能,也称之为网站检索,即提供一个文字输入框和一个按钮。

我们可以在文字框中输入要查找的字、词或短语,再点击按钮,便会在目录中查找相关的站名、网址和内容提要,将查到的内容列表送过来。

目前国内Sohoo、常青藤等都是这种搜索方式。

2、搜索引擎

搜索引擎看起来与目录的网站查询非常相似,也提供一个文字输入框和按钮,使用方法也相同,而且有些也提供分类目录,但两者却有本质上的区别。

目录的资料库中,搜集保存的是各网站的站名、网址和内容提要;搜索引擎的资料库中,搜集保存的则是各网站的每一个网页的全部内容,范围要大得多。

搜索引擎是以全文检索的方式工作的。

全文检索查到的结果不是站名、网址和内容提要,而是与你输入的关键词相关的一个个网页的地址和一小段文字。

在这段文字中,可能没有你输入的那个关键词,它只是某一网页的第一段话,甚至是一段无法看懂的标记,但在这个网页中,一定有你所输入的那个关键词,或者相关的词汇。

打个比方说,网站查询可以查到网上有哪些报纸,如《文汇报》、《大公报》,而全文检索则可以查到网上这些报纸的每一篇文章中的词汇。

3、两者相结合的搜索引擎

某些搜索引擎同时也提供目录。

包含在搜索引擎中的目录通常质量比较高,也能从那里找到许多好站点。

因为即使你把你的站点提交过去,也并不能保证一定被加到目录中去,他们把注意力放在那些已经在别的目录中存在的站点上,并有选择地寻找有吸引力的加到自己的目录中。

搜索引擎和目录各有各自不可替代的功用。

目录比较简单,要想获得一个好的排列层次,除了你努力创建一个好内容的高品质站点外别无他法。

搜索引擎复杂得多,它们随时都在自动地索引众多WEB站点的最新网页,所以常常会发现目录所不能得到的信息。

如果你改动了你的页面,搜索引擎还随时会发现这个变化,并重新排列你在列表中的位置。

而目录就做不到。

下面专门讨论搜索引擎的工作原理以及如何提高在搜索引擎列表中的排列位置。

二、搜索引擎是如何工作的?

  搜索引擎有三个主要的基本部分。

1、搜索引擎蜘蛛

  搜索引擎首先利用的是一种俗称蜘蛛(Spider)或爬虫(Crawler)的软件。

搜索引擎蜘蛛访问到一个页面,读取它,然后跟随这个页面链接到这个站点的其他页面,这就是人们所说的站点被套住了或者被爬过了。

蜘蛛会按照固定的时间不断的回来访问这个站点,如每月或每两个月,以便查看页面的变化。

2、索引

  蜘蛛所找到的每一个页面放入搜索引擎的第二部分--索引。

索引也可以说是目录册,就像一本巨大的书,书中包含了蜘蛛所找到的每个Web页的拷贝。

如果Web页改变了,这本书当然也会更新。

但有时蜘蛛发现了新的Web页和Web页的变化,并不是马上加到索引中去,当中间隔一段时间,就是说一个Web页被爬过了,但却不能被索引,直到这个Web页被加到了索引里才可用于搜索引擎的搜索。

3、分析软件

搜索引擎分析软件是一个搜索引擎的第三部分。

这个程序详细审查记录在索引中的成百上亿的Web页,找出与搜索要求相匹配的那些,并按他认为最合适的相关性排列出列表,呈现在冲浪者的面前。

三、搜索引擎如何排列Web页面

用你所喜欢的搜索引擎搜索任何东西,搜索引擎几乎立刻就从他知道的几百万的页面中挑选出与你的主题相匹配的那些,呈现在你的荧屏上。

这些网页按一定的顺序排列起来,最相关的排在最前面。

但搜索引擎并不是图书管理员,他没有能力一再地询问有关的问题来更好地定位搜索的目标,也不能依靠智力判断和过去的经验来排列网页,而人可以做到。

智能化是发展的方向,但还有一段很长的路要走。

那么搜索引擎是怎样决定相关性的呢?

他们依靠一套规则,主要的规则是页面中关键词出现的位置和频率,我们把这称做"位置/频率法"。

1、位置

如果你到图书馆去寻找有关旅游方面的书,管理员首先会去查找题目中有"旅游"的书籍。

搜索引擎也一样,关键词(即"旅游")出现在题目(Title)中的页面比那些Title中不出现关键词的页面更相关。

搜索引擎还会检查关键词是否出现在页面的顶部,如文章标题中或前面的几个段落。

他们认为与搜索主题相关的页面在开始都会提到那些词语。

2、频率

频率是相关性的另外一个主要因素。

搜索引擎会分析页面中关键词相对其他词语所出现的频率,频率越高,就越具相关性。

3、搜索引擎在排列网页时有一定的差异

所有的搜索引擎都有以上提到的三个基本部分,在一定程度上都符合“位置/频率法”,但在具体实施上又有区别,这就是为什么我们用不同的搜索引擎做同样的搜索时会产生不同结果的原因。

首先,有些搜索引擎会索引到更多的Web页面,有些又会比其他引擎更新索引的频率快,所以搜索引擎索引中不可能收集完全一样的Web页面。

其次,出于某种原因,有些搜索引擎也可能给某些Web页面在排列层次上有优先权。

如Excite用链接的流行度作为排列网页的一个因素,他知道在索引中哪些页面有许多指向他们的链接,他在排列时就给这些页面小小的奖励,将他们适当提前。

这也是合理的,因为在Internet上有越多指向他们的链接,就说明这些页面更被大家看重。

另外,一些混合结构(搜索引擎和目录共存)的搜索引擎可能会把那些目录中已存在的站点的网页靠前,理由是一个站点足够好才能放到目录中,就应该有机会比那些不被列在目录中的站点的网页靠前。

最后要强调的是,许多Web页面设计者错误地认为"Metatags"是将Web页提到列表前列的秘密,实际上有些搜索引擎会把那些"Metatags"中有keywords的页面靠前,有些搜索引擎根本就不读"Metatags"。

"Metatags"是解决问题的一个方面,但并不是什么必需的绝密武器。

四、如何提高Web页面的相关性

搜索引擎的一次搜索会返回成百上千的相关网页,一般情况下首先呈现出来的是10个最相关的页面。

任何站点都想被列在前10位,因为大多数的用户都喜欢从前10位中找到他所要的结果,排在第11位以下就意味着许多人不会访问到你的站点。

下面就来看看如何能使你的网页排在列表前列。

1、选择合适的关键词(Keywords)

大胆地设想别人在搜索引擎的搜索框内正好输入的是你页面的Title中选择的关键词,那该多好啊!

例如,如果你有一个有关邮票收藏的网页,如果你想别人任何时候在搜索框里输入"邮票收藏"时你能排在前10位,那么就为这个页面选择"邮票收藏"这个关键词吧!

网站的每一个页面都应该有反映网页内容的关键词,并且关键词至少由2个以上的字或词组成。

通常与单个的字或词相关的网站太多太多,例如"邮票"就比"邮票收藏"所相关的网页多得多,那么竞争就激烈,网页排在前列的概率就相对低一些。

所以不要怕花费时间,尽量选择2个以上的字或词组成的短语,成功的可能性会大得多。

最后,假设适当地扩展文章的涉及范围,多选几个关键词又会怎么样呢?

例如,一个邮票收藏的网页可能会提到"收藏家"和"收藏",那么扩展开来,用"邮票收藏家"和"邮票收藏"增加关键词的数量也是合理的。

可不是没有问题,因为你的网页实际上是关于邮票收藏的精典网页,应该出现在邮票收藏一类网页的前列,但你在关键词上扩展了页面的涉及范围,可能就会无意识地降低页面对于"邮票收藏"的相关性。

如何决定更好,看你的想法了!

2、关键词(Keywords)出现的位置

选择好关键词后还要确保关键词出现在至关重要的位置。

首先页面的题目(Title)是最重要的地方,忽略将关键词放进页面的题目中是许多本身具备良好相关性的网页被排在底层的原因。

其次像前面提到的,搜索引擎也看中关键词出现在页面前面的网页,所以有可能的话就把关键词作为大标题,并使得关键词出现在网页的第一段。

特别注意的是使用表格会把网页的正文推到网页的更下面,就会造成相关性的降低。

例如,画一个有两列的表格,第一列放的是对其他网页的链接,第二列才是含有关键词的正文。

浏览看到的网页是这样的:

主页邮票收藏

邮票历史邮票收藏爱好者遍布世界各地。

每天都有成

邮票价格千上万的人在对邮票津津乐道,并且每天的邮票

邮票展览交易额达数百万元。

点击各个栏目,你就可以得

邮票精品到许多邮票的知识。

  而搜索引擎看这个页面是这样的:

主页

邮票历史

邮票价格

邮票精品

邮票收藏  邮票收藏爱好者遍布世界各地。

每天都有成千上万的人在对邮票津津乐道,并且每天的邮票交易达数百万元。

点击各个栏目,你就可以得到许多邮票的知识。

  显然,关键词"邮票收藏"移到了下面!

在这种情况下,除了使用metatags外,没有其他更好的办法。

使用metatags对那些读metatags的搜索引擎有帮助,对其他不读metatags的搜索引擎也不是什么大不了的问题。

你认为表格对你的页面很有影响,也没有必要放弃他们,喜欢的话就继续使用,不能因个别搜索引擎而破坏页面的整体性。

  大量的JavaScript也和表格有一样的影响。

搜索引擎首先读JavaScript语句,引起正常的HTML正文排后一些。

这样,如有可能的话,把JavaScript语句放到页面后面一点。

也可以使用metatags来帮助解决问题。

3、页面有相关的内容

如果页面没有相关的内容,即使改变页面的题目或使用metatags都不会对你在搜索引擎的位置有何帮助。

就是说你使用的关键词要反映页面的内容。

有些页面出现的是大量的图形,看起来非常漂亮,但搜索引擎却不能读这些图形,他们就得不到文字来决定页面的相关性。

有些搜索引擎也可能将ALT包含的文字和metatags结合起来索引。

但为保险起见,建议尽可能用HTML文字,访问者也喜欢这些实质性的东西。

另外,要保证HTML文字是可见的。

有些页面设计者想通过用微小的字体或把字体颜色设置成和背景颜色一致的方法在正文中重复关键词。

虽然浏览器是看不见了,但搜索引擎却能识破这种类似的诡计。

料想浏览器都看不见的东西,搜索引擎也不应该索引到它。

这些页面是搜索引擎的垃圾,应该摈弃它们。

4、避免搜索引擎阻塞

有些搜索引擎看WEB页面,就像一个人使用非常旧的版本的浏览器一样。

他们不能读图像映像(imagemaps),不能读框架结构(frames)。

你必须考虑到这些问题,否则搜索引擎也许根本就不可能索引到你的任何页面。

(1)要有HTML文字链接。

页面设计者经常在主页上只是用图像映像来链接子页面,那么不能跟随这种链接的搜索引擎就不能到达站点的子页面。

最不幸的是,子页面常常比主页更有相关性。

所以建议在主页底部加一些在文字上所做的HTML超链接来链接各个子页面,搜索引擎就会发现他们,并跟随进去。

你也可以考虑制作一个带有文字链接的本站导航页来链接网站的所有页面。

然后递交这个页面,帮助搜索引擎查找站点的其他所有网页。

(2)框架结构是致命的一击。

一些主要的搜索引擎都不能跟随框架里的链接。

你只好使用metatags或另外的巧妙设计来解决它。

(3)动态页面的阻塞。

有些搜索引擎也不可能索引由CGI或数据库所生成的动态页面,所以尽量使用静态页面。

宁愿用数据库来修改页面,也不要动态生成它们。

还要避免在URL上使用符号,尤其是问号"?

",如(

5、使用metatags

  正如前面所提到的,metatags能帮助你解决表格、框架等其他麻烦所带来的问题。

metatags也帮助你能在支持metatags的搜索引擎中控制你的站点描述语言。

但须记住的是:

metatags并不一定就能保证站点排在前列,他们并不是改变站点排列低落状态的魔术弹。

6、杜绝搜索引擎垃圾

首先要知道,垃圾并不一定被搜索引擎接受,搜索引擎可能会发现你的这种想把垃圾网页提到前列的行为,并在列表中取缔你的网页。

一般来说,搜索引擎垃圾是想通过加上最流行的关键词来达到排在前列的目的,这是不道德的行为。

网页应该以真实的内容让搜索引擎来决定其相关性,而不是毫无道理地凭借重复关键词来击败其他网页。

是金子总会发光!

我们将搜索引擎的垃圾和垃圾邮件比较一下。

没人喜欢垃圾邮件,发送垃圾邮件的站点经常面临的是来自那些接受方的反击。

制造搜索引擎垃圾的站点降低了搜索引擎返回列表的质量。

随着问题的越来越严重性,这些站点也会面临和垃圾邮件所带来的一样的反击。

7、提交关键页面

大多数的搜索引擎是从你提交过去的一个页面开始索引站点的其他页面的。

所以最好提交最能概括站点的前面2到3个页面。

也不要太信任自动提交服务程序的自动提交过程,有些是很优秀的。

但有些搜索引擎太重要了,还是人工提交比较好,以便你能看看提交有没有何问题。

更不要怕麻烦提交2到3个页面。

当搜索引擎在一个页面上遇到问题时,它还可以从另一个页面开始爬你的站点。

8、定期检查和维护你的列表位置

一旦你的页面被搜索引擎列表,最好是每到一至两个星期监控一下列表,可能会有一些奇怪的事情发生:

页面消失了;链接不对了;.....。

那么重新提交你的站点吧。

当你对页面做了重大改动的时候最好也要重新提交站点。

搜索引擎本来是按固定的周期反复访问站点的,然而一些搜索引擎很灵敏,它们知道有些站点一年只做一到两次的改动,它们可能就不会经常去访问这些站点,那就发现不了站点的变化。

在重大改动后重新提交将确保你的站点内容是最新的。

五、结束语

对于页面设计者来说,花一些心思和精力与搜索引擎建立起良好的关系是值得的,往往稍做一些改动就可能得到很大的好处。

即使没有进入前10名,也在相关性上得到了一个改进。

同时,如自己的站点没有运气进入前10名,还应该考虑与排列前10名的站点进行互惠互利的链接。

虽然他们是竞争对手,但你也会因此而得到许多意想不到的回报,你会发现网上指向自己站点的链接多了,这时你只要稍微注意一下关键词的使用,你就可能跑到列表前列。

何况链接也是人们找到你的站点的最好方式之一。

最后要说的是:

搜索引擎是人们寻找Web站点的主要方式,但不是唯一的方式。

人们也从以下的方式获得站点,如口传、传统广告、传统媒体、新闻组、Web目录和其他站点来的链接等。

有时候,这些形式比搜索引擎更有效。

所以千万不要被搜索引擎的排列位置所困扰,一个页面设计者更多的时间应该放在制作更好的网页上。

搜索引擎原理概述及其在星空黄页网站中的应用

陈哲倪俊峰

引言

搜索引擎(SearchEngine)已经成为大家在工作、学习、娱乐中不可或缺的神兵利器。

通过使用搜索引擎,使得我们检索信息的能力获得了极大的提高,成本有效地降低。

可以说,搜索引擎是现代的计算机技术,因特网技术与传统的索引理论相结合的成功典范。

搜索引擎是在因特网普及的大背景下应运而生的,它出生伊始就带有浓烈的平民色彩,走出了象牙塔、实验室,走进了寻常巷、百姓家。

最早搜索引擎应用于门户网站,获得了极大的成功,如今,它已广泛地应用于各行各业,以它为核心引发了所谓的搜索经济,成为大家关注的焦点。

本文对回顾了搜索引擎发展的简要历史、对它的分类和实现原理进行了分析,并介绍了国内一些主要搜索引擎的特点。

星空黄页是中国电信黄页已有八年历史的提供全国企业信息的专业网站,随着数据量的快速增长,用户查询习惯的改变,对黄页网站的检索技术也提出了新的挑战。

搜索引擎技术成为改造黄页网站的首选,本文也介绍了搜索引擎技术在黄页网站的应用情况。

1.搜索引擎的历史

曾有人说搜索引擎的鼻祖就是黄页,诞生于十九世纪末。

因为黄页,在电话诞生后成为了以电话为主体的信息门户,而且黄页把有电话的企业分门别类,的确与现在的搜索引擎有异曲同工之妙。

不过,这更多地是从这两者的形式和用途做的类比,事易时移,今天我们所谓的搜索引擎,是以计算机,网络,大信息量,自动化为特征的新型检索工具。

现在意义上的搜索引擎其实是在近十年的不断发展中逐步形成的,它建立在因特网和诸多计算机技术之上,所以很难把搜索引擎的缘起与哪个具体的产品对应起来。

但是我们知道,在它逐步发展过程中,一些关键的产品成为了里程碑。

1993年10月MartijnKoster创建了ALIWEB(MartijnKosterAnnoucestheAvailabilityofAliweb),它相当于Archie的HTTP版本。

ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。

1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。

这就是Excite。

后来曾以概念搜索闻名。

1994年1月,第一个既可搜索又可浏览的分类目录EINetGalaxy(TradewaveGalaxy)上线。

除了网站搜索,它还支持Gopher和Telnet搜索。

Lycos是搜索引擎史上又一个重要的进步。

CarnegieMellonUniversity的MichaelMauldin将JohnLeavitt的spider程序接入到其索引程序中,创建了Lycos。

除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要。

1998年10月之前,Google只是Stanford大学的一个小项目BackRub。

1999年2月,Google完成了从Alpha版到Beta版的蜕变。

Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。

2.搜索引擎的分类

搜索引擎并没有一个精确的定义,大致可以分为两大类:

全文搜索引擎(FullTextSearchEngine)和分类目录(Directory)。

全文搜索引擎通过一个叫网络机器人(Spider)或叫网络蜘蛛(crawlers)的软件,自动分析网络上的各种链接并获取网页信息内容,按规则加以分析整理,记入数据库。

Google、XX就是比较典型的全文搜索引擎系统。

  分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。

  全文搜索引擎的使用以关键词和一定的语法为特点,而分类目录则通过建立多级目录对网站进行分类。

它们在使用上各有长短。

全文搜索引擎因为依靠网络机器人搜集数据,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。

  

此外,基于这两类搜索引擎,还衍生了其它的搜索服务,主要有所谓元搜索引擎(METASearchEngine)。

和集成搜索引擎(All-in-OneSearchPage)等,就不一一介绍了。

搜索引擎既然没有明确的定义,一般就以其发展中一些里程碑式的应用标志其阶段。

业界普遍的共识是“第一代搜索引擎”是依靠于人工分拣的分类目录搜索,以"雅虎"为标志;而"第二代搜索引擎"则是依靠于机器抓取,并建立在超链分析技术基础之上的网页搜索,以"Google"为代表,其信息量大、更新及时、但返回信息过多,可能有很多无关信息。

而"第三代搜索引擎"则把"智能化"、"人机交互"等功能融入了主流。

将自动分类技术、中文内容分析技术及区域识别技术应用到大型搜索引擎中

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 总结汇报 > 实习总结

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2