lucene搜索引擎与信息检索.docx

上传人:b****6 文档编号:12826314 上传时间:2023-06-08 格式:DOCX 页数:19 大小:580.59KB
下载 相关 举报
lucene搜索引擎与信息检索.docx_第1页
第1页 / 共19页
lucene搜索引擎与信息检索.docx_第2页
第2页 / 共19页
lucene搜索引擎与信息检索.docx_第3页
第3页 / 共19页
lucene搜索引擎与信息检索.docx_第4页
第4页 / 共19页
lucene搜索引擎与信息检索.docx_第5页
第5页 / 共19页
lucene搜索引擎与信息检索.docx_第6页
第6页 / 共19页
lucene搜索引擎与信息检索.docx_第7页
第7页 / 共19页
lucene搜索引擎与信息检索.docx_第8页
第8页 / 共19页
lucene搜索引擎与信息检索.docx_第9页
第9页 / 共19页
lucene搜索引擎与信息检索.docx_第10页
第10页 / 共19页
lucene搜索引擎与信息检索.docx_第11页
第11页 / 共19页
lucene搜索引擎与信息检索.docx_第12页
第12页 / 共19页
lucene搜索引擎与信息检索.docx_第13页
第13页 / 共19页
lucene搜索引擎与信息检索.docx_第14页
第14页 / 共19页
lucene搜索引擎与信息检索.docx_第15页
第15页 / 共19页
lucene搜索引擎与信息检索.docx_第16页
第16页 / 共19页
lucene搜索引擎与信息检索.docx_第17页
第17页 / 共19页
lucene搜索引擎与信息检索.docx_第18页
第18页 / 共19页
lucene搜索引擎与信息检索.docx_第19页
第19页 / 共19页
亲,该文档总共19页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

lucene搜索引擎与信息检索.docx

《lucene搜索引擎与信息检索.docx》由会员分享,可在线阅读,更多相关《lucene搜索引擎与信息检索.docx(19页珍藏版)》请在冰点文库上搜索。

lucene搜索引擎与信息检索.docx

lucene搜索引擎与信息检索

第1章搜索引擎与信息检索

Google的巨大成功让整个世界都把眼光投入到搜索引擎这个领域中。

仿佛一夜间,各种各样的搜索服务席卷而来,从最初的Google、Yahoo到现今的Baidu、MSN、中搜、Sogou等,搜索引擎的品牌越来越多,服务也越来越丰富。

同时,伴随着Web2.0的疯狂普及,网络信息的膨胀速度成指数急速增长,各种各样的网站都需要为其加入检索功能,以满足用户的需要。

另外,在企业级应用的市场上,全文信息检索的需求也一直在增加,各种文档处理、内容管理软件都需要加入全文检索的功能。

在这样的背景下,搜索引擎的技术迅速发展。

各种讨论搜索的文章、杂志、论文铺天盖地,论坛和博客上也有着许多相关贴子。

一时间,搜索技术成为最为热门的技术之一。

不过,搜索引擎技术并非是一种大众技术,从其出现开始,就一直是一种高门槛的技术,它的后台包括学术领域的众多先进思想和设计,其涉及的学科包括自然语言处理、人工智能、离散数学、排列组合、编译原理等等。

因此设计一个性能良好,并且实用性强的搜索引擎并非易事。

本书不研究上述多种学科与搜索引擎的关联理论,但是作为读者,了解和掌握搜索引擎技术的方方面面,会对阅读有很大的帮助。

因此,作为本书的第1章,将带领读者了解一下搜索引擎和信息检索的基础知识、发展历史、现今状况等内容。

1.1搜索引擎的历史

在互联网发展的最初阶段,网站的数量相对较少,信息查找比较容易。

随着互联网爆炸性地发展,用户很难找到所需的资料。

这时,搜索引擎的需求就出现了,一些为满足大众信息检索需求的专业搜索网站也就应运而生。

1.1.1萌芽:

Archie、Gopher

1.Archie

事实上,搜索引擎的的诞生追溯到1990年,在加拿大蒙特利尔(Montreal)的麦吉尔大学,一个学生制作了一个自动索引互联网上匿名FTP网站文件的程序。

这个学生叫AlanEmtage。

如图1-1所示。

图1-1AlanEmtage

这个能够自动索引互联网上匿名FTP网站文件的程序,被他们称为Archie。

Archie是Internet上用来查找文档的自动搜索服务工具,这些文档的标题必须满足特定条件

通常,为了从匿名FTP服务器上下载一个文件,必须知道这个文件的所在地,同时必须知道这个匿名FTP服务器的地址,及文件所在的目录名。

Archie可以帮助用户在遍及全世界的千余个FTP服务器中寻找文件。

ArchieServer又被称作文档查询服务器。

用户只要给出所要查找文件的全名或部分名字,文档查询服务器就会指出在哪些FTP服务器上的哪个路径下存放着这样的文件。

使用Archie进行查询前提:

输入要查找的文件名或部分文件名,知道某个或几个Archie服务器的地址。

如今,提供Archie服务的网站已经很少了,笔者在Google上查找了一下,链接到了一个波兰的网站,仍在提供着Archie服务,如图1-2所示。

有兴趣的读者可以上去一看。

图1-2一个Archie网址

从概念上讲,Archie的工作十分简单。

每隔一段时间,一个特殊的程序连到每一个已知的匿名FTP主机,然后下载所有公共文件的完整目录表。

这些表存储于InternetArchivesDatabase(Internet档案数据库)中。

当用户要求Archie检索一个文件时,所要进行的工作就是对该数据库进行检索。

2.Gopher简介

受其启发,美国明尼苏达大学的一个学生MarkMcCahill,于1991年发明了一种叫“Gopher”的搜索协议。

“Gopher”的命名来自于这所学校的吉祥物。

这种协议与Archie最大的不同是,Archie仅能够索引网络上的文件,而Gopher却可以对网页也进行索引。

同时,另外两个程序“Veronica”和“Jughead”用来对以Gopher格式进行索引的文件进行检索。

“Veronica”的名字来自于“VeryEasyRodent-OrientedNet-wideIndextoComputerizedArchives”(非常方便的、专门用于收取网络范围内的、可计算机化的文档)的首字母。

它能够对整个Gopher列表中的目录主题进行关键字查找。

而“Jughead”的名字则来源于(Jonzy'sUniversalGopherHierarchyExcavationAndDisplay)(Jonzy的通用Gopher层次挖掘和显示)的首字母,它是一个能够从很多Gopher服务器上获取目录信息的工具。

直到今天,网上仍然有一些Gopher的服务器在运作着。

许多Gopher协议的狂热者依然在维护着它们。

只不过大多数浏览器已经不支持Gopher协议,因此,很难为读者找到一个可以演示的网站。

不过,在SourceForge的开源项目中,有一个叫GoFish的项目,它实现了一个支持Gopher协议的服务器,如图1-3所示。

有兴趣的读者可以下载下来,研究一下它的实现。

图1-3GoFish的主页

1.1.2起步:

Robot(网络机器人)的出现与Spider(网络爬虫)

实际上,Archie的工作原理与现在的搜索引擎已经很接近,它依靠开发者撰写的脚本程序,自动搜索网上的文件,然后对相关信息进行索引,保存入索引库,供用户查询。

1.Robot

在当时,在开发者中,“机器人”(Robot)是个十分流行的词汇。

电脑“机器人”(ComputerRobot)是指能够以人类无法达到的速度,不间断地执行某项任务的软件程序。

由于用于检索信息的“机器人”程序像蜘蛛一样,在网络间爬来爬去,因此搜索引擎的“机器人”程序就被称为“蜘蛛”程序。

第一个用于监测互联网发展规模的“机器人”程序诞生于1993年,由美国麻省理工学院的MatthewGray开发,名字叫做WorldWideWebWanderer。

最初它只是用来统计互联网上的服务器数量,监测网络的规模。

从1993年到1995年间,这个“漫步者”每个月都会运行一次,以获取相关信息。

后来,它演变成为收集URL的工具。

同时,它也成为有史以来第一个网站资源库,被称为“Wandex”。

从“TheWebRobotsFAQ”(http:

//www.robotstxt.org/wc/faq.html)上得到这样的定义:

一个网络机器人是一段程序,它能够在获取网页的情况下,自动遍历其超文本结构,同时递归遍历所有与其相关的网页。

通常,人们所说的Robot是指Web漫步者、Web爬虫或Web蜘蛛。

它们的名字可能有一些误导的作用,让人们觉得软件本身有点像病毒一样侵蚀着网页,但实际上,它们只是简单的从网站上获取到网页的内容。

2.Spider

MatthewGray所开发的“漫步者”应该是第一个网络爬虫。

不过在1993年10月,英国的软件工程师MartijnKoster创建了ALIWEB(),这个名字来自于Archie-LikeIndexingoftheWeb(像Archie一样索引互联网)的首字母。

从名字就可以看出,ALIWEB事实上是一个Archie的互联网版本。

ALIWEB允许用户提交他们自己的网页,以便能够被索引,也就是说,如果网站主管们希望自己的网页被ALIWEB所收录,则需要自己提交每一个网页的索引信息,有点类似于后来的Yahoo。

根据Koster的说法,ALIWEB是基于自动元数据收集的搜索引擎,如图1-4所示。

图1-4自称是互联网上最古老的搜索引擎的ALIWEB

1.1.3发展:

Excite、Galaxy、Yahoo等

慢慢的,网络机器人理论逐渐成熟。

在1993年底,一些基于此原理的搜索引擎开始纷纷涌现。

1993年2月,6个Stanford(斯坦福)大学生希望通过分析字词关系,以对互联网上的大量信息做更有效的检索,于是他们开发出了Excite(),后来它曾以概念搜索闻名。

仅用了一年时间,Excite就组成了公司,并在1995年12月上线。

不过在2002年5月,被Infospace收购的Excite停止了自己的搜索引擎,改用元搜索引擎Dogpile。

1994年1月,第一个既可以搜索又可以浏览的分类目录EINetGalaxy(Galaxy)成功上线了。

除了网站的搜索外,它还支持了Gopher和Telnet搜索。

它最早是作为德克萨斯大学微电子与计算机研究中心的一个产品,不过最终还是被大学卖给了公司。

在几经转手后,它成为了一家独立的公司。

1994年,斯坦福的两名博士生,美籍华人杨致远JerryYang和与DavidFilo共同创建了雅虎Yahoo。

一开始,雅虎只是列出一些用户喜爱的站点。

与其他分类搜索引擎的最大不同是,除了简单的URL链接之外,它还提供了对于网页的一些简单描述信息。

另外,随着访问量和收录链接数的增长,Yahoo的目录也开始支持简单的数据库搜索。

因为最初Yahoo的数据是手工输入的,所以还不能被归为搜索引擎。

事实上它只是一个可搜索的目录。

不过在一年间,他们就得到了投资,并迅速成长壮大,最终成为今天家喻户晓的搜索引擎。

1994年初,美国华盛顿大学计算机工程系的学生BrianPinkerton开始了他的小项目WebCrawler。

1994年4月20日,WebCrawler正式亮相时,仅包含来自6000个服务器的内容。

WebCrawler是第一个全文搜索引擎(FullTextSearchEngine)。

在它之前,用户只能通过URL和摘要进行搜索,摘要一般来自人工评论,或程序自动提取正文的前100个字。

(后来Webcrawler陆续被AOL和Excite收购,现在和Excite一样,改用元搜索引擎Dogpile)。

如图1-5所示。

图1-5第一个全文搜索引擎WebCrawler

1994年7月20日,数据量为54000个文档的Lycos()搜索引擎正式发布。

Lycos的出现是搜索引擎史上又一个重要的进步。

美国卡耐基梅隆大学的的MichaelMauldin将JohnLeavitt开发的网络机器人程序与其创建的索引程序组合在一起,创建了Lycos。

Lycos除了引入相关度排序外,还提供了前缀匹配和字符相似度限制。

同时,Lycos还是第一个使用了网页自动摘要的搜索引擎。

不过,其最大的优势还是它远胜过其他搜索引擎的数据量:

1994年8月它收集了394000个文档;到了1995年1月,这个数量达到了150万;而到了1996年11月,Lycos已经有了超过6000万个的文档。

如图1-6所示。

图1-6搜索引擎历史上的一个里程碑Lycos

1.1.4繁荣:

Infoseek、AltaVista、Google和Baidu

1.Infoseek

1995年初,搜索引擎家族又添加了新的一员:

Infoseek。

Infoseek是另一个重要的搜索引擎。

虽然公司声称1994年1月已经创立,但直到年底其搜索引擎才与公众见面。

起初,Infoseek只是一个不起眼的搜索引擎。

它沿袭了雅虎和Lycos的概念,并没有什么独特的创新,但是它的发展史和后来受到的众口称赞证明了它的重要性。

Infoseek友善的用户界面、大量附加服务使它的声望日益增加。

而1995年12月与Netscape的战略性协议,使它成为一个强势搜索引擎。

作为当时使用最为广泛的互联网浏览器,每当用户点击Netscape浏览器上的搜索按钮时,总会弹出Infoseek的搜索服务,在此前,该项服务是由Yahoo提供的。

到了Infoseek时,搜索引擎的的发展基本已经成型。

它已经与现有的搜索引擎在功能上没有太大的区别。

所不同的只是受当时的硬件发展束缚,搜索引擎在性能上还有待提高。

2.AltaVista

AltaVista()是在1995年12月时推出的。

虽然晚到些,不过大量的创新功能使它迅速达到了搜索引擎的顶峰。

Altavista最突出的优点是搜索速度。

同时,它的另一些新功能,则永远改变了搜索引擎的定义。

AltaVista是第一个支持自然语言搜索的搜索引擎。

同时它也是第一个实现高级搜索语法的搜索引擎。

所谓高级搜索语法,就是允许用户在查找关键字时,输入一些逻辑运算符,以表示关键字之间的关系。

用户可以用AltaVista搜索新闻组的内容,并从互联网上获得文章,还可以搜索图片名称中的文字、搜索目录、搜索Javaapplets、搜索ActiveX对象。

AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。

除此之外,AltaVista还添加了一个新功能,就是它能搜索有链接指向某个地址的所有网站。

在用户的界面上,AltaVista也有了长足的进步。

它在搜索框区域下使用一些提示,以帮助用户更好的表达搜索式,从而构建更为准确和有效的搜索关键字。

这些搜索提示经常更新,这样,在使用过几次AltaVista的服务后,用户会看到很多他们从来不知道的搜索功能。

如图1-7所示。

图1-7AltaVista的搜索界面

应该说,AltaVista是功能最为全面的搜索引擎,它在Google声名鹊起之前曾经名噪一时,但现在其地位已被Google取代。

即便如此,它仍被认为是功能最完善,搜索精度较高的全文搜索引擎之一。

截止2002年6月,AltaVista宣称其数据库已存有11亿个Web文件,并且经过升级,其搜索精度已达业界领先水平。

3.Google

在AltaVista诞生的那几年,业界还出现了一些搜索引擎。

但是它们的出现并没有给整个搜索引擎领域带来新鲜感。

不过,这种情况很快被打破了。

1998年的10月Google正式推出,迅速成为业界的领头羊。

Google在网页排序、动态摘要、网页快照、每日更新、多文档格式支持、地图股票词典人物搜索等方面的创举,令全世界为之一惊。

它在集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。

事实上,在1998年10月之前,Google只是斯坦福大学的一个小项目BackRub。

1995年博士生LarryPage开始学习搜索引擎设计,并于1997年9月15日注册了的域名。

1997年底,在SergeyBrin和ScottHassan、AlanSteremberg的共同参与下,BachRub开始提供Demo。

1999年2月,Google完成了从Alpha版到Beta版的蜕变。

Google公司则把1998年9月27日认作自己的生日。

在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其他搜索引擎大,并且缺乏高级搜索语法,所以使用价值不是很高,推广并不快。

直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。

4.Baidu

进入2000年后,互联网高速发展,网上信息量以指数级速率增长着。

这再次为搜索引擎的发展提供了良好的背景。

搜索引擎成为继门户网站后的又一个重心。

但是同时,在中文搜索领域,全世界还没有任何一个搜索引擎有着令人满意的效果,这其中的原因是多方面的:

一方面,缘自于中文的复杂性和汉语分词的不确定性;另一方面,也是由于国内搜索引擎技术水平与国外还有着较大的差距。

2000年的1月,超链接分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)携120万美元从美国硅谷回国,在北京中关村创立了XX(Baidu)公司。

创立之初,XX就将自己的定位于打造中国人自己的中文搜索引擎。

2000年5月,XX首次为门户网站“硅谷动力”提供搜索技术服务,之后它迅速占领了中国搜索引擎的市场,成为国内最主要的搜索技术供应商。

2001年8月,XX公司发布了B搜索引擎Beta版,从后台服务转向了独立提供搜索服务,并在中国首创竞价排名的商业模式。

2001年10月22日,正式发布Baidu搜索引擎。

Baidu虽然只提供中文搜索,但目前收录中文网页超过9000万,是最大的的中文数据库。

Baidu搜索引擎的其他特色包括:

网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索。

2005年8月5日,XX在纳斯达克上市,成为2005年全球资本市场上,最为引人注目的上市公司,中国的搜索引擎市场也由此进入一个崭新的阶段。

1.2信息检索系统的基本知识

本节将向读者介绍信息检索系统的一些基本知识。

这些知识有助于读者更好的阅读本书,掌握其中要领。

由于本书并非一本学术性书籍,因此,对于一些信息获取技术的细节知识只是提纲挈领并不深究,读者在阅读时,也不会感到晦涩。

1.2.1什么是信息检索系统

1.从Word中看搜索

举个最简单的例子,当使用Word的时候,按Ctrl+F键,系统就会弹出一个对话框,如图1-8所示。

图1-8MicrosoftWord里的搜索功能

它会提示输入需要查找的关键字。

待输入完毕后,单击“查找下一处”按钮,系统便会自动找到你所想查找的关键字,然后定格在那一页上,并高亮显示它。

可以说,这就是一个最为简单的信息检索系统。

2.从Windows资源管理器中看搜索

再举一个例子,某天你和朋友出去游玩,用数码相机拍了许多照片。

回到家中后,就把这些照片从数码相机上拷贝到了自己的电脑上,其中,有一张你和朋友的合影,将它命名为“合影.jpg”。

事隔多日,你偶然想起那天的游玩,希望重温昨日情怀,于是便打开电脑,希望能够再次回味那天的照片。

可是,你突然发现,已经完全记不起来那天的照片放在电脑的哪个文件夹下了,无论如何回忆,依然无法找到那天的照片。

此时,可以打开Windows自带的“搜索”功能,输入那张照片的名字:

合影.jpg,然后单击“搜索”按钮,Windows就会自动查找名为“合影.jpg”的文件,然后你会发现,原来那些照片就在某个目录下放着,系统不但给出了照片的路径信息,你还可以通过双击照片直接打开它。

Windows的这种搜索功能,同样也是一个信息检索系统。

如图1-9所示。

图1-9Windows的搜索功能

3.总结

简而言之,信息检索系统就是帮助用户查找到特定信息的一种工具。

为了达到这个目的,信息检索系统需要能够对信息进行正确的表示、存储和组织,同时还要提供对于信息的访问方式。

在这里,信息的概念很宽范。

信息可以是一篇文章,一段文本,一个网页,一封邮件,一张照片,甚至是一些虚拟信息集合。

从一些资料中得知,大约在4000年前,人类就开始有目的地组织信息,以方便对其的获取和使用。

最典型的例子可以说是图书的目录,读者可以从目录中获得到正文内容所在的页面,从而直接阅读他们感兴趣的信息。

后来,随着人们对于信息访问速度要求的提升,出现了一种从某个词指向相关文档的指针,也就是索引(Index)。

目前,索引已经成为所有信息检索系统的核心。

利用索引,可以快速的存取数据,并且加速存储的过程。

在计算机被发明之前,人们主要通过手工的方式,来对大量的信息进行分类和建立索引。

不过,随着计算机技术的普及,信息检索系统与计算机的结合越来越紧,出现了利用计算机来实现大规模自动索引的方法,互联网搜索引擎就是其中的最典型代表。

除此之外,信息检索系统也被广泛应用于各种领域,来帮助人们完成他们所需要的查找。

1.2.2信息检索的过程

1.构建文本库

在开发检索功能前,一个信息检索系统需要做些准备工作。

首先必须构建一个文本的数据库。

这个文本数据库用来保存所有用户可能检索的信息。

在这些信息的基础上,确定检索系统中的文本模型。

文本模型是被系统所认可的一种信息格式,这种格式应当具有可识别、冗余程度低等特点。

当然,在系统的运作过程中,文本数据库的信息可能会不断的发生变化。

但是一旦文本模型确定下来后,就不应当对其进行大的变动。

2.建立索引

在有了这种文本模型后,就应该根据数据库内的文本,建立索引。

索引可以大大提高信息检索的速度。

目前,有许多种索引的建立方式。

采用哪种方式取决于信息检索系统的规模。

对于大型信息检索系统(如XX、Google这样的搜索引擎)来说,“倒排”是一种常用的建立索引的方式,如图1-10所示。

图1-10信息检索系统的数据处理流程

3.进行搜索

在为文档建立索引之后,就可以开始对其进行搜索。

这时,通常都是由用户提交一个检索请求,该请求将被分析,然后利用文本操作进行处理。

对于真实的信息检索系统,在真正处理查询请求前,还可以对请求进行一些预处理,然后再将请求送到后台,并返回给用户所需要的信息。

4.返回结果以前,对结果进行过滤

通常,在信息检索系统检索到用户需要的信息后,还要做一步操作。

就是将信息以一定的规则进行排序或过滤,再返回给用户。

这一步实际上关乎到最终用户的体验,试想一下,如果总是将一些无关信息返回给用户,那么它一定不是一个成功的信息检索系统。

用户可能会有疑问,在前面所提到的MicrosoftWord中的检索,似乎完全没有这些过程。

其实,Word是从内存中直接利用字符串匹配的方式来查找关键字,它忽略了索引建立这个环节。

这是因为,此时所有的内容已经全都在内存中了。

另外,由于建立索引这种方式更适用于大数据量时的情况,因此,在Word的搜索中并非很适合。

1.2.3传统查找的优点和不足

在Word中,查找是通过线性匹配驻留于内存中的文本而实现的。

这种方式被称为顺序查找,或是在线查找。

它无需对文档集合中的信息进行预处理,或者是只需很少的预处理。

这种在线分析方法仅适合于文档较少的情况(例如,目标文档集合大小仅有几M),或是文档集合的内容经常发生变化(如Word中,一个文档的内容可以被任意修改),或是没有足够空间来支持索引的情况下。

它的优点是结构简单,易于实现;缺点就是信息检索的速度比较慢。

例如,构建一个10M左右的Word文件,并将一个关键字“Thisisatest”放置于文档的最后,然后使用Word提供的查找功能,来查找这个关键字。

如图1-11所示。

图1-11一个10M的Word文档,共有2820页

Word大约需要3秒钟才能完成查找,可如果将这个关键字放在文档的头几页(比如第10页),再次进行查找时,我们会发现,在按下“查找下一处”按钮的同时,Word已经找到了关键字,并高亮显示它。

这种时间上的差别,是线性查找(或称在线查找)的显著特点。

可以想象,如果将这种方法应用于一个大型的信息检索系统,信息的存储容量在T级别时,查找的速度是无法忍受的。

1.2.4使用索引提高检索速度

我们需要一种方法,对文档进行预处理,在文档间建立一种便于检索的数据结构,以此来提高信息检索的速度。

这种数据结构就是索引。

当信息检索系统所要处理的文档数量巨大时,建立索引能够显著提高信息检索的速度。

不过,索引系统不支持快速的信息更改,因为这涉及到数据内容的变更,需要对整个数据结构中的关系链进行维护。

但大多数信息检索系统中的文档数据都相对稳定,小的变更与整个系统的数据量相比,可以忽略不计。

比如Web搜索引擎,它就维护了一个庞大的索引库,由爬虫蜘蛛每天从网上抓取最新网页,并更新索引库。

1.2.5倒排索引

事实上,常用的索引方式有3种,分别是倒排、后缀数组和签名文件。

倒排索引已经被当前大多数信息系统所广泛使用。

它特别适合于人们的思维习惯,同时它对关键字检索非常有效。

后缀数组在短语查询时,具有较快速度,只是构造和维护这样的索引库非常复杂。

签名文档的方式已经基本被淘汰,更多人转而使用倒排方式。

1.什么是倒排

用一个简单的例子来说明,当我们在阅读一本书时,通常使用页数来查找相关内容。

每一页上具有一定数量的文本,这些文本记录了信息。

当使用倒排方式后,不再有整页整页的信息了,信息被分割成一个个的关键字,并辅以关键字所在原书中的页数,而构成一个倒排基本单位。

例如,一本旅游类书籍的第13

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > PPT模板 > 商务科技

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2