面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx

上传人:b****1 文档编号:14608765 上传时间:2023-06-25 格式:DOCX 页数:79 大小:718.78KB
下载 相关 举报
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第1页
第1页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第2页
第2页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第3页
第3页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第4页
第4页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第5页
第5页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第6页
第6页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第7页
第7页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第8页
第8页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第9页
第9页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第10页
第10页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第11页
第11页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第12页
第12页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第13页
第13页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第14页
第14页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第15页
第15页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第16页
第16页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第17页
第17页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第18页
第18页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第19页
第19页 / 共79页
面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx_第20页
第20页 / 共79页
亲,该文档总共79页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx

《面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx》由会员分享,可在线阅读,更多相关《面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx(79页珍藏版)》请在冰点文库上搜索。

面向丝绸领域的垂直搜索引擎关键算法研究毕业论文.docx

面向丝绸领域的垂直搜索引擎关键算法研究毕业论文

摘要

垂直搜索引擎是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后以某种形式返回给用户。

垂直搜索引擎与传统的网页搜索引擎最大的区别就是将网页中的信息进行结构化的抽取。

使得信息在抽取的时候就建立了分类,更好的适应查询需求。

近几年来,垂直搜索引擎已经被应用到某些专业的领域(如化学、科技文献)。

本文从研究和设计的角度对垂直搜索引擎的相关技术作了详细的分析和讨论,论述了目前搜索引擎的国内外发展现状和趋势。

分析了搜索引擎的工作原理及其各部分主要功能,抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,提出一个基于丝绸信息的定题搜索器,它是垂直搜索引擎的核心。

在文章的主体部分,以搜索引擎的设计流程为主线,重点论述垂直搜索引擎设计与实现时一些独特的信息识别方法,包括pagerank和HITS算法。

从HTML页面解析的一般概念入手,结合网页之间的超链接分析,按照搜索引擎系统的要求,采用深度优先的搜索策略设计具有垂直搜索引擎功能的丝绸信息网站。

并按照软件工程的方法,研究了丝绸信息搜索引擎的总体设计过程和实现过程,设计过程重点论述了需求分析、网站的功能规划和总体结构、数据库设计等内容,并通过编码实现设计阶段的各种算法和具体功能。

最后的软件功能测试表明,此搜索引擎算法准确、确定、不会引起本地资源耗尽;它支持按指定站点搜索,按给定URL范围进行搜索的搜索策略。

可以完成指定信息的自动搜索和下载。

关键词:

垂直搜索引擎网页信息抽取抽取规则索引库

 

Abstract

TheVerticalSearchingEngineisatypicaltypeofsearchingengine,whichcanclassifyinformationincertainfieldfromthosewebsites,Directionalmarkofsyllabletakesoutthedataneedingcarryingouttreatmentandanalyzethosedata,thenreturnthemtousers.ThemajordifferencebetweenVerticalSearchingEngineandtraditionalsearchingengineisthtattheverticaloneselectinformationfromwebsiteinastructuralway—classifytheinformationwhileselectingittobebettersatisfythesearchingrequirements.

InthispaperitdoesdetailedlysomeanalyinganddiscussingthetechnologyoftheVerticalSearchingEnginefromthestudyinganddesigningangle,hasdiscussedhomeandabroadpresentsituationandtrendsearchingforanengineatpresent.Theoperatingprinciplehavinganalysedsearchingengineandtheireverymainpartfunction,graspthetwokeyproblemsabouthowtoappraisingpage’ssubjectcorrelativityanddesigningthehigh-effectcrawllingtactics,SuggestadirectionalquestionSearchingmachinebasedonSilkInformation,itisthecoreofaVerticalSearchingEngine.Inthearticlemainbodypart,weregardedtheSerchingEngine’sdesigningflowasthemainclue,andfocusedondiscussingthedesigningandcarryingoutsometypicalinformation’sidentificationmethodaboutVerticalSerachingEngine,IncludingPageRank’sandHITS’salgorithm.StartingwiththeHTMLpageanalysis’saverageconcept,combinetheHypertextanalysisamongtheWebs,AccordingSearchingEngineSystem’requirements,adoptthedepth-firstsearchingtacticstodesignasilkinformationwebsitewhichhasVerticalSearchingEnginefunction.Andaccordingtothesoftwareengineeringmethod,wehavestudiedthesilkinformationSearchingEngine’soveralldesigningandrealizingprocess,duringthisprocesswediscussedwithanemphasisonrequirementanalys、webfunction’sdesignandtotalstructure、databasedesignetc.andrealizeddesigningstage’sallkindsofalgorithmsandspecificfunctionbycode.

TheresultsofsoftwarefunctiontestshowthatthealgorithmofVerticalSearchingEngineisaccurateandsteadywithouttheriskoflocalinformationresourceexhaustion.ItsupportsthesearchingstrategyofsearchingonfixedsiteorinagivenURLcircle.Itcanalsodoautomaticsearchinganddownloadingaccordingtothegiveninformation.

Keywords:

VerticalSearchingEngine;WebInformationExtraction;

Extractionrules;IndexDatabase

WrittenbyShallyZhang

SupervisedbyJamesYao

毕业设计(论文)原创性声明和使用授权说明

原创性声明

本人郑重承诺:

所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。

尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。

对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。

作者签名:

     日 期:

     

指导教师签名:

     日  期:

     

使用授权说明

本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:

按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。

作者签名:

     日 期:

     

学位论文原创性声明

本人郑重声明:

所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。

除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。

对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。

本人完全意识到本声明的法律后果由本人承担。

作者签名:

日期:

年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。

本人授权    大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名:

日期:

年月日

导师签名:

日期:

年月日

 

指导教师评阅书

指导教师评价:

一、撰写(设计)过程

1、学生在论文(设计)过程中的治学态度、工作精神

□优□良□中□及格□不及格

2、学生掌握专业知识、技能的扎实程度

□优□良□中□及格□不及格

3、学生综合运用所学知识和专业技能分析和解决问题的能力

□优□良□中□及格□不及格

4、研究方法的科学性;技术线路的可行性;设计方案的合理性

□优□良□中□及格□不及格

5、完成毕业论文(设计)期间的出勤情况

□优□良□中□及格□不及格

二、论文(设计)质量

1、论文(设计)的整体结构是否符合撰写规范?

□优□良□中□及格□不及格

2、是否完成指定的论文(设计)任务(包括装订及附件)?

□优□良□中□及格□不及格

三、论文(设计)水平

1、论文(设计)的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意?

设计是否有创意?

□优□良□中□及格□不及格

3、论文(设计说明书)所体现的整体水平

□优□良□中□及格□不及格

建议成绩:

□优□良□中□及格□不及格

(在所选等级前的□内画“√”)

指导教师:

(签名)单位:

(盖章)

年月日

评阅教师评阅书

评阅教师评价:

一、论文(设计)质量

1、论文(设计)的整体结构是否符合撰写规范?

□优□良□中□及格□不及格

2、是否完成指定的论文(设计)任务(包括装订及附件)?

□优□良□中□及格□不及格

二、论文(设计)水平

1、论文(设计)的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意?

设计是否有创意?

□优□良□中□及格□不及格

3、论文(设计说明书)所体现的整体水平

□优□良□中□及格□不及格

建议成绩:

□优□良□中□及格□不及格

(在所选等级前的□内画“√”)

评阅教师:

(签名)单位:

(盖章)

年月日

 

教研室(或答辩小组)及教学系意见

教研室(或答辩小组)评价:

一、答辩过程

1、毕业论文(设计)的基本要点和见解的叙述情况

□优□良□中□及格□不及格

2、对答辩问题的反应、理解、表达情况

□优□良□中□及格□不及格

3、学生答辩过程中的精神状态

□优□良□中□及格□不及格

二、论文(设计)质量

1、论文(设计)的整体结构是否符合撰写规范?

□优□良□中□及格□不及格

2、是否完成指定的论文(设计)任务(包括装订及附件)?

□优□良□中□及格□不及格

三、论文(设计)水平

1、论文(设计)的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意?

设计是否有创意?

□优□良□中□及格□不及格

3、论文(设计说明书)所体现的整体水平

□优□良□中□及格□不及格

评定成绩:

□优□良□中□及格□不及格

(在所选等级前的□内画“√”)

教研室主任(或答辩小组组长):

(签名)

年月日

教学系意见:

系主任:

(签名)

年月日

目录

摘要I

AbstractII

第1章绪论1

1.1课题的背景及意义1

1.2垂直搜索引擎现存的问题1

1.2.1垂直搜索引擎的产生1

1.2.2存在的问题2

1.3国内外垂直搜索引擎的发展3

1.4垂直搜索引擎的发展前景4

1.5课题的主要研究内容6

第2章搜索引擎实现原理7

2.1通用搜索引擎的工作流程7

2.2网页信息采集技术和软件8

2.2.1网页信息采集软件的工作方式9

2.2.2网页采集软件的组成模块10

2.3索引器12

2.3.1实现原理12

2.3.2索引数据组织13

2.3.3索引文件导出过程14

2.4网页存储器与分析索引器14

2.5查询器和用户接口的设计15

2.5.1查询器15

2.5.2用户接口16

2.6搜索引擎的性能评价指标16

2.7小结18

第3章垂直搜索引擎的关键技术19

3.1页面分析技术19

3.2超链接分析算法20

3.2.1PageRank算法20

3.2.2HITS算法22

3.3网页信息的结构化抽取23

3.3.1网页信息的结构化抽取方式24

3.3.2结构化信息抽取系统的结构24

3.3.3中文网页结构化信息抽取的难点25

3.4暗藏网页的信息抽取26

3.5小结27

第4章面向丝绸领域垂直搜索引擎的总体设计28

4.1基本功能需求28

4.2丝绸产品信息搜索引擎系统的体系结构29

4.3系统开发环境30

4.4垂直搜索引擎的主要数据库设计30

4.5系统功能特点31

第5章面向丝绸领域的垂直搜索引擎的具体实现33

5.1丝绸信息网页自动搜索算法的具体实现33

5.1.1元搜索算法33

5.1.2自动搜索过程的实现35

5.1.3网页爬行的控制模块实现37

5.1.4HTML标准化与页面解析38

5.1.5网页爬行的控制模块的性能测试39

5.2页面分析与丝绸产品信息的自动抽取41

5.3Lucene倒排文件索引结构44

5.4用户查询功能的实现45

5.4.1网页形式的丝绸产品信息查询与返回46

5.4.2站内数据库中的丝绸产品信息查询与返回48

5.5小结49

结论50

致谢52

参考文献53

攻读学位期间公开发表的论文55

第1章绪论

1.1课题的背景及意义

随着网络与通信技术的迅速发展,Web信息爆炸性的增长,互联网已经成为一个巨大的海量信息空间。

如何迅速、准确、方便的从如此庞大的信息库获取自己需要的信息,是互联网用户面临的一个重要问题。

搜索引擎的出现,整合了众多网站信息,极快的查询起到了信息导航的作用,信息的价值得到众多商家的普遍认可,成为互联网中最有价值的领域。

大家熟知的搜索引擎Google、XX、雅虎等都是搜索引擎的杰出代表,为互联网的发展做出了重要的贡献。

CNNIC第十四次互联网调查表示,搜索以71.9%的绝对优势成为用户从互联网上获取信息的主要方式[1],是互联网上使用程序仅次于电子邮箱的服务。

互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集就是海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾信息,用户越来越难迅速找到符合的信息,现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容。

因此,如何对通用搜索引擎技术进行改进,使查询的结果更加贴近用户的要求,成为搜索引擎行业近期的研究热点。

1.2垂直搜索引擎现存的问题

1.2.1垂直搜索引擎的产生

所谓通用搜索引擎,并不能够囊括所有的网页,据google的人说,也就猜测覆盖了40%不到的网页,也就是说,更多的网页是没有被通用搜索引擎收录的,也就谈不上被搜到了。

那些没有机会收录的网页,有些是需要身份验证等之后才可以看到,有些是根本未被通用搜索引擎的蜘蛛爬到。

这些信息却往往是宝贵的,更有价值的。

每一个行业都是复杂的,从目前计算机技术来讲,还是遵循冯.诺依曼的体系,也即是说还是依靠图灵未实现的人工智能之下的计算机逻辑来处理信息,在搜索收录的分析过程中,如果不加上行业特点和特性进行分析,很难说会更准确分析到网页的重要性和分析的准确。

这个也是垂直的意义所在[2]。

当然,这里面也需要注意到,并非你垂直了,你的搜索收录和搜索结果就一定比通用搜索更准确[3]。

垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。

然后将这些数据存储到数据库,进行进一步的加工处理,如:

去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。

整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。

垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。

搜索由通用到专业目前来看是一趋势,都分了什么图片搜索、mp3搜索之类,这也好理解,用户输入关键字的时候,可能并不需要其他行业的内容,仅仅一个关键字不结合其他补充信息,是无法准确分析用户的搜索要求的,但是通用搜索引擎只能够一股脑给你信息。

从这个角度讲,信息多了会造成一部分搜索结果是垃圾,而这垃圾会影响用户的感受,以及继续试用搜索的兴趣。

而垂直搜索引擎应该可以更好的做到理解垂直用户的需求,从而给出更好的结果。

举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:

抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。

从搜索信息的结果来看,除了上面的垃圾会过多外,还会存在信息不符合要求的情况,有时候用户搜索某类事物,并以此作为关键字,他需要的是关于这个事物的数量、价格等甚至相关比较信息,而通用搜索引擎只能给你线索,给你网页。

通用搜索引擎由于自身巨大,他做不到更深入分析后给出更符合行业、用户需求的结果。

一个内容提供商所能担当的,应该是知识导航和知识集成的角色。

它所提供的内容,说到底是深加工后的而不是粗放的信息。

[4-6]

由此我们可能得出垂直搜索引擎的定义:

能够满足某一特定领域,某一特定人群或者说是某一特定需求,提供内容集中而深入的信息与服务的网站。

1.2.2存在的问题

垂直搜索引擎作为提供专业、集中的内容服务网站,必须首先考虑到为用户提供专业的信息及围绕专业展开的服务。

由此看来,要保证一个垂直搜索引擎的生命力,还应为信息工作人员考虑如何确保在尽可能短的时间内的找到最需要的信息内容,进行专业处理、深度加工,及时更新内容。

然而经过我们的细致研究,发现现有的多数垂直搜索引擎尚不能达到上述的要求。

主要存在以下四个问题:

(1)没有为用户和信息人员提供一个合适的专业检索服务、专业搜索引擎,查找所需的信息并不方便。

常常是用户找了几千甚至上万条记录出来,根本无法从中再细找。

或者找到的内容和要找的内容不是一个专业领域内的,信息无效;

(2)信息工作不得不花费大量时间在收集、编辑和发布信息上,工作枯燥且大都属于重复性劳动,还有较高的技术要求,而对信息内容的关注反而少了;(3)信息更新不够及时,或者提供一些过时、不适当的信息;(4)虽然已有足够大的信息量,但由于存储或者管理不适当,难以去检索所需信息,更加无法分析、挖掘数据,从中提炼规则或做判断、预测。

这些问题的存在有其技术背景和人为因素的。

过去比较落后的技术不能跟上用户的要求,对信息管理人员的要求较高。

但随着技术的发展和日益成熟,垂直搜索引擎现存的问题也将得以解决与改善。

(1)提供合适的专业搜索引擎,查找专业的信息内容。

(2)为信息工作人员提供界面友好、适用的信息管理系统。

(3)为信息建立关系型数据库,为今后的进一步发展提供基础。

1.3国内外垂直搜索引擎的发展

与以前的通用搜索引擎不同,垂直搜索引擎并不求大求全,而是力求做到一个特定领域内容的全面,这个领域之外的信息并不收集,也不提供这个领域外的服务,这种特定的服务可以有效地把对某一特定领域感兴趣的用户与其他网民区分开来,并能长期久地吸引住这些用户,这就为电子商务的发展提供了一个理想的平台。

美国垂直搜索引擎的发展已经充分说明了这种经营模式的正确。

M公司通过发布有关疾病和治疗的详细内容,每月赢得高达2500万次的点击,有260万患者和100万医生浏览。

Yahoo也从一个单纯的互联网目录发展成为一个垂直搜索引擎总汇,它上面即有保健信息及服务的内容,拍卖、购物、开设网上商店也做得很出色。

W的网站其对象只是水和废水处理工程师,这个站点上有聊天室、论坛、就业机会等。

内容非常具体丰富。

今天,它已发展成为水处理行业的网上交易所,水资源领域的厂商非常愿意在这里投放广告。

与此同时,以W起家的这个网站,现在已发展成面向50多个特定领域的垂直搜索引擎社区,从机械制造到医务护理。

从食品包装到垃圾处理品,应有尽有,可能最说明问题的还是它的销售额,1998年只有310美元,1999年成功实现IPO(InitialPublicOffering)以后,骤升到19亿美元,另外还有一个紧随其后的垂直搜索引擎社区也已囊括26个行业广告领域的,等也正在走向互联网经济的前台[7-8]。

可见,专业化,垂直化已成为未来搜索引擎发展的一个潮流和方向。

继2007年1月10日对2006年度互联网市场数据进行系统发布之后,2007年7月9日,2007(上半年)中国互联网市场数据发布会暨2007中国互联网大会发布会在京隆重举行。

由中国互联网协会作为指导单位,DCCI互联网数据中心与中国互联网协会交流与发展中心作为主办单位共同实施的2007年度互联网调查,在发布会现场和主

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2