搜索引擎研究本科毕业设计论文.docx

资源描述

搜索引擎研究本科毕业设计论文.docx

《搜索引擎研究本科毕业设计论文.docx》由会员分享，可在线阅读，更多相关《搜索引擎研究本科毕业设计论文.docx（38页珍藏版）》请在冰点文库上搜索。

搜索引擎研究本科毕业设计论文.docx

搜索引擎研究本科毕业设计论文

本科毕业设计论文

搜索引擎研究

摘要

搜索引擎（searchengine），作为现在万维网中仅次于电子邮件的网络应用，它已成为广大网络用户获取信息的首要途径。

目前国内外知名的搜索引起公司包括：

Google、XX、雅虎、MSN、InfoSpace等等。

其中，像Google、XX这样的全文搜索引擎是完整意义上的搜索引擎；雅虎、MSN则是目录式搜索引擎；InfoSpace则是元搜索引擎。

本文简单介绍了搜索引起的发展历史、分类、世界知名搜索引擎和全文搜索引擎的工作流程、原理，各部分（搜索器、分析器、索引器、检索器）的工作方式。

搜索引擎优化则是在2004年以后兴起的一门新型的技术，主要目的是增加特定关键字的曝光率以增加网站的能见度，以提高其在搜索引擎中的排名，提升网站的访问量，达到宣传或销售的目的。

目前已经有许多的公司开始参与搜索引起优化方向的工作。

关键词：

搜索引擎分类,全文搜索引擎,搜索引擎优化

SearchEngine

Abstract:

Searchengine,isnowsecondonlytoe-mailasnetworkapplicationsintheWorldWideWeb,itistobecometheprimarywayforinternetusertogetinformationchannels。

Athomeandabroad,thewell-knownsearchcompanyincluding:

Google,Baidu,Yahoo,MSN,InfoSpaceandsoon。

Which,likeGoogle,Baidu,full-textsearchengineisacompletesenseofthesearchengine;Yahoo,MSNisadirectory-stylesearchengine;InfoSpaceisametasearchengine。

Thiscausedabriefhistoryofsearch,classification,world-renownedsearchengineandfull-textsearchengineprocesses,principles,andeachpart（searchengine,parser,indexer,crawler）work。

Searchengineoptimizationistherisein2004afteranewtechnology,themainpurposeistoincreasetheexposureofaspecifickeywordtoincreasethevisibilityofthesitetoimproveitsrankinginsearchengines,improvesitetraffic,reachadvertisingormarketingpurposes。

Therehavebeenmanycompaniesareinvolvedintheworkofsearing。

Keyword:

searchenginecategory,full-textsearchengine,searchengineoptimization

第1章前言

随着互联网的蓬勃发展,建立在互联网上的各种应用也层出不穷,其中最为成功的摸过于万维网（WWW）。

万维网的发展也彻底改变了人们的思维、习惯与生活。

一方面，它使网络用户更容易获取各种各样的信息，而另一方面，要想在数十亿网页的网络信息中精确地找到自己需要的信息简直就如“大海捞针”一般。

在互联网彷徨无计之时,搜索引擎的出现就像是引领互联网走出迷雾的灯塔。

网民不在需要记住复杂的网址和路径（URL），只需要知道搜索引擎的入口，就可以畅游互联网的世界，从海量的互联网信息中找到和分享全人类的经验与智慧。

WordNet中对搜索引擎的解释是一种用来在计算机网络特别是在万维网上检索各种文件的计算机程序。

而在袁津生等所著的<<搜索引擎原理与实践>>一书中,将搜索引擎定义为根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，为用户提供检索服务的系统。

可见搜索引擎在用户面前呈现的动态网页，是由用户定义的一个信息聚合系统。

搜索引擎通过用户输入的查询关键词，推测用户的搜索意图，然后快速的返回相关的查询结果。

随着搜索引擎技术和商业模式的成熟，更衍生出搜索引擎优化（SEO）的概念，它是近几年非常流行的一种网络营销方式。

已有非常多的公司开始从事这方面的工作或者开展相关的业务。

搜索引擎优化主要工作是通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术，来对网页进行相关的优化，使其提高搜索引擎排名，从而提高网站访问量，最终提升网站的销售能力或宣传能力。

第2章概述

2.1发展历史

　现代意义上的搜索引擎的祖先，是1990年由蒙特利尔大学学生AlanEmtage发明的Archie。

虽然当时WorldWideWeb还未出现，但网络中文件传输还是相当频繁的，而且由于大量的文件散布在各个分散的FTP主机中，查询起来非常不便，因此AlanEmtage想到了开发一个可以以文件名查找文件的系统，于是便有了Archie。

Archie工作原理与现在的搜索引擎已经很接近，它依靠脚本程序自动搜索网上的文件，然后对有关信息进行索引，供使用者以一定的表达式查询。

由于Archie深受用户欢迎，受其启发，美国内华达SystemComputingServices大学于1993年开发了另一个与之非常相似的搜索工具，不过此时的搜索工具除了索引文件外，已能检索网页。

当时，“机器人”一词在编程者中十分流行。

电脑“机器人”（ComputerRobot）是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。

由于专门用于检索信息的“机器人”程序像蜘蛛一样在网络间爬来爬去，因此，搜索引擎的“机器人”程序就被称为“蜘蛛”程序。

世界上第一个用于监测互联网发展规模的“机器人”程序是MatthewGray开发的WorldwideWebWanderer。

刚开始它只用来统计互联网上的服务器数量，后来则发展为能够检索网站域名。

与Wanderer相对应，MartinKoster于1993年10月创建了ALIWEB，它是Archie的HTTP版本。

ALIWEB不使用“机器人”程序，而是靠网站主动提交信息来建立自己的链接索引，类似于现在人们熟知的Yahoo。

随着互联网的迅速发展，使得检索所有新出现的网页变得越来越困难，因此，在MatthewGray的Wanderer基础上，一些编程者将传统的“蜘蛛”程序工作原理作了些改进。

其设想是，既然所有网页都可能有连向其他网站的链接，那么从跟踪一个网站的链接开始，就有可能检索整个互联网。

到1993年底，一些基于此原理的搜索引擎开始纷纷涌现，其中以JumpStation、TheWorldWideWebWorm（Goto的前身，也就是今天Overture），和Repository-BasedSoftwareEngineering（RBSE）spider最负盛名。

然而JumpStation和WWWWorm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果，因此毫无信息关联度可言。

而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。

最早现代意义上的搜索引擎出现于1994年7月。

当时MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中，创建了大家现在熟知的Lycos。

同年4月，斯坦福（Stanford）大学的两名博士生，DavidFilo和美籍华人杨致远（GerryYang）共同创办了超级目录索引Yahoo，并成功地使搜索引擎的概念深入人心。

从此搜索引擎进入了高速发展时期。

目前，互联网上有名有姓的搜索引擎已达数百家，其检索的信息量也与从前不可同日而语。

比如最近风头正劲的Google，其数据库中存放的网页已达30亿之巨！

随着互联网规模的急剧膨胀，一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况，因此现在搜索引擎之间开始出现了分工协作，并有了专业的搜索引擎技术和搜索数据库服务提供商。

像国外的Inktomi（已被Yahoo收购），它本身并不是直接面向用户的搜索引擎，但向包括Overture（原GoTo，已被Yahoo收购）、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。

国内的XX也属于这一类，搜狐和新浪用的就是它的技术。

因此从这个意义上说，它们是搜索引擎的搜索引擎。

2.2搜索引擎分类

人们对于搜索引擎的理解经历一个非常漫长的过程,从早前的目录式搜索,到现在的全文搜索,搜索引擎神秘的面纱逐步展现在人们面前。

至今主流搜索引擎基本上有以下四种:

2.2.1全文搜索引擎（FullTextSearchEngine）

全文搜索引擎是真正意义上的搜索引擎,它通过从互联网上提取的各个网站的信息而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。

现在比较有名的搜索引擎包括:

Google、AllTheWeb、AltaVista、WiseNut等,国内的有XX、中文搜索、北大天网等。

全文搜索引擎具有全文搜索、检索功能强、更新及时,且无须人工干扰等优点,但是却由于提供过多的返回信息而降低了命中率,用户需要从中筛选获得自己想要的信息。

2.2.2目录式搜索引擎（SearchIndex）

目录式搜索引擎是最早出现的搜索引擎,它仅仅是按目录分类的的网站链接而已,用户无须进行关键词查询,仅靠分类列表就能找到需要的信息。

这种搜索引擎最有名的是早期的雅虎,以及国内的搜狐。

其他还包括OpenDirectoryProject（DMOZ）、LookSmart、新浪、网易等。

目录式搜索引擎最大的特点是由人工建立,目标结果是网站,通过仍的方式将各个站点进行了分类,只记录一些摘要信息,及该网站的简要介绍。

它的主要优点有:

层次、结构清晰,易于查找,其缺点是搜索范围小,数据量有限,更新速度慢,维护成本较高。

2.2.3元搜索引擎（MetaSearchEngine）

元搜索引擎并没有自己的数据,在接受用户查询请求时,同时在其他多个搜索引擎上进行搜索,然后将结果返回给用户。

著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具代表性的是北斗搜索。

在搜索结果排列方面，有的直接按来源排列搜索结果，如Dogpile；有的则按自定的规则将结果重新排列组合，如Vivisimo。

元搜索引擎的主要优点是返回结果的信息量大;缺点则是不能充分利用原搜索引擎的功能,用户需要做更多的筛选。

2.2.4垂直搜索引擎

垂直搜索引擎是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。

垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式，通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。

其特点就是“专、精、深”，且具有行业色彩，相比较通用搜索引擎的海量信息无序化，垂直搜索引擎则显得更加专注、具体和深入。

2.2.5其他非主流搜索引擎

1集合式搜索引擎该搜索引擎类似于远搜索引擎,但区别在与不是同时调用多个搜索引擎进行搜索,而是根据用户提供的4个搜索引擎之中选择。

2门户搜索引擎虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,结果完全来自其他搜索引擎。

3免费链接列表这类网站一般只简单地滚动链接条目，少部分有简单的分类目录，不过规模要比Yahoo！

等目录索引小很多。

2.3著名搜索引擎简介

2.3.1谷歌（）

Google是由单词googol变化而来,而googol表示的是1后带100个零的数字,Google用这个词代表公司向征服网上无穷无尽资料的雄心。

Google创始人之一LarryPage指出：

“完美的搜索引擎需要做到确解用户之意，切返用户之需”。

就搜索技术的现状而言，需要通过研究、开发和革新来实现长远的发展。

Google致力于成为这一技术领域的开拓者。

目前Google已经成为全球最大的全文搜索引擎,并在2000年已经开始提供中文搜索服务。

Google每天提供超过2亿次查询服务,搜索时间不到半秒,成为网上最快捷的信息查询方法。

1.Google的特点

资源丰富、内容广泛

Google是全球最大的互联网文档收集者,在全球范围内已经收集了20多亿网页资料,7亿多新闻组的帖子和3亿多图片。

还有网页快照服务,非常适合使用者众多的门户网站。