天津大学本科生毕业设计论文模板.docx

资源描述

天津大学本科生毕业设计论文模板.docx

《天津大学本科生毕业设计论文模板.docx》由会员分享，可在线阅读，更多相关《天津大学本科生毕业设计论文模板.docx（46页珍藏版）》请在冰点文库上搜索。

天津大学本科生毕业设计论文模板.docx

天津大学本科生毕业设计论文模板

毕业设计（论文）说明书

学院

专业

年级

姓名

指导教师

年月日

毕业设计（论文）任务书

题目：

图像检索系统的设计与实现

学生姓名王超

学院名称软件学院

专业软件工程

学号3007218015

指导教师于永新

职称讲师

1、原始依据（包括设计或论文的工作基础、研究条件、应用环境、工作目的等。

）

随着互联网的飞速发展，网络上的图片信息呈爆炸式增长，这使得人们在网上找到所需的图片越来越困难，图片检索技术成为当今非常热门的研究话题。

图像检索一直是信息检索领域的一个主流问题，涉及到图像处理、图像分割、模式识别及机器学习等多个方面。

检索的智能化和自动化是图像检索的目标。

目前主流的图像检索方法大致可以分为两大类,即基于文本的图像检索（TBIR）和基于内容的图像检索（CBIR）。

在检索原理上，无论是基于文本的图像检索还是基于内容的图像检索，主要包括三方面：

一方面对用户需求的分析和转化，形成可以检索索引数据库的提问；另一方面，收集和加工图像资源，提取特征，分析并进行标引，建立图像的索引数据库；最后一方面是根据相似度算法，计算用户提问与索引数据库中记录的相似度大小，提取出满足阈值的记录作为结果，按照相似度降序的方式输出。

而搜集图片和建立索引又是实现图像检索技术的非常重要的一个环节。

网络爬虫程序就是用来搜集网页和图片的程序。

本文的研究重点在于使用网络爬虫框架Heritrix进行扩展，从网络上下载所需网页及图片并利用HTMLParser进行网页分析和图片相关信息提取。

完成上述工作后，再将图片的目录位置和提取的信息存入数据库。

并建立一个图片检索系统的Web工程，实现检索功能。

开发语言为Java,开发工具为MyEclipse和MySQL及Tomcat.

2、参考文献

[1]RitendraDatta,DhirajJoshi,JiaLietal.ImageRetrieval:

Ideas,Influences,andTrendsoftheNewAge[J].ACMComput.Surv.40,2,Article5.April2008.

[2]李晓明，闫宏飞，王继民.搜索引擎-原理,技术与系统[M].北京：

科学出版社,2004.

[3]马自萍.形状和颜色特征的混合图像检索[D].银川：

北方民族大学,2010.7.

[4]陈剑雄，张蓓．简析图像检索中的CBIR技术[J].情报探索（第7期）,2010.7.

[5]RafaelC.GonzalezandRichardE.Woods．DigitalImageProcessingSecondEdition[M]．PrenticeHall,2003-3．

[6]沈兰荪，张箐，李晓光。

图像检索与压缩域处理技术的研究[M].北京：

人名邮电出版社,2008.12.

[7]周明全，耿国华，韦娜.基于内容图像检索技术[M].北京：

清华大学出版社，2007.7.

[8]李向阳,庄越挺,潘云鹤.基于内容的图像检索技术与系统[J].计算机研究与发展2001年第3期.

[9]安志勇.基于内容的图像检索关键技术的研究[D].西安：

西安电子科技大学，2008.

[10]李伟，黄颖。

基于HTMLParser的网页信息提取[J].兵工自动化（第7期），2007，7.

3、设计（研究）内容和要求（包括设计或研究内容、主要指标与技术参数，并根据课题性质对学生提出具体要求。

）

1.系统学习Java编程语言，熟练掌握Java语言的基本思想和相关的编程技术。

2.学习并掌握机器学习、数据库常用技术，JSP，图像处理等相关技术。

3.学习并掌握项目开发用到的相关工具及软件的使用。

4.了解图像检索的原理，发展，意义及用途，及图像检索系统的设计思路。

5.了解网络爬虫的原理及工作流程，充分阅读Heritrix的开放源代码，会利用Heritrix从网上爬图片存入数据库。

6.掌握正则表达式及HTMLParser等网页分析方法，了解网页信息提取策略、

7.完成图像检索系统的设计和代码开发

8.对该系统进行充分的测试，并完善开发

9.总结开发过程中所遇到的问题和心得体会

指导教师（签字）

年月日

审题小组组长（签字）

年月日

天津大学本科生毕业设计（论文）开题报告

课题名称

图像检索系统的设计与实现

学院名称

软件学院

专业名称

软件工程

学生姓名

王超

指导教师

于永新

1、课题的来源及意义

随着互联网的飞速发展，图像信息应用越来越广泛,人们对图形、图像等多媒体数据的需求也越来越强烈。

网络上的图片信息呈爆炸式增长，这使得人们在网上找到所需的图片越来越困难，图片检索技术成为当今非常热门的研究话题。

2、国内外发展状况

从20世纪70年代开始，有关图像检索的研究就已开始，当时主要是基于文本的图像检索技术（Text-basedImageRetrieval，简称TBIR），利用文本描述的方式描述图像的特征，如绘画作品的作者、年代、流派、尺寸等。

到90年代以后，出现了对图像的内容语义，如图像的颜色、纹理、布局等进行分析和检索的图像检索技术，即基于内容的图像检索（Content-basedImageRetrieval，简称CBIR）技术。

基于内容的图像检索根据图像特征、图像的内容语义以及上下文联系进行查找，以图像语义特征为线索从图像数据库中检出具有相似特性的其它图像。

因为图像的规模一般要大于纯粹的文本信息，因此，基于内容的图像检索在检索的速度和效率上要求更高。

目前已有不少应用于实践环境的基于内容图像检索系统，如由IBM公司开发的最早商业化QBIC系统，以及由哥伦比亚大学研发的WebSeek系统、麻省理工学院研发的Photobook系统等。

基于文本和基于内容是图像检索发展的两个分支，不过从目前图像检索研究的趋势而言，尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中，出现了三个不同的研究着眼点。

立足于文本，对图像进行检索。

试图将传统的文本检索技术移植于对多媒体信息的检索上，因为基于文本的检索技术发展已经成熟。

如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等，不仅技术发展较为成熟，同时分析和实现的难度略小。

但是因为受控词汇本身的局限，易歧义，更新慢，所以不太容易应对网络上日新月异的各类图像。

立足于图像内容，对图像进行分析和检索。

相比而言，尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法，但是要突破对低层次特征的分析，实现更高语义上的检索，实现难度大，进展慢。

不过，基于内容的图像检索建立在多媒体信息的内容语义上，能够更为客观地反映媒体本质的特征。

结合文本和内容，进行融合性研究。

发挥各自的优势促进图像的高效、简单检索方式的实现，尤其是网络环境下，结合图像所在Web文档的特征分析，推断图像的特征，同时结合对图像的内容分析，共同标引达到对图像的分析和检索。

可以说，三个方向都是相互影响和促进的，任何一个方向的进展都会促进图像检索技术向前更进一步。

下一代搜索技术：

2007～2009年:

具有联想技术和分析功能的搜索服务逐渐兴起。

在这一时期，语义搜索还没有广泛普及，带有分析功能的搜索服务开始崭露头角，尤其是商业智能厂商提供的面向企业的信息搜索解决方案引起人们的广泛关注。

通过对博客及SNS等媒体公布的有关公司产品或宣传活动的评测进行即时分析，可以为企业的市场运营提供更多有益的参考。

2010～2012年:

语义搜索和感性搜索技术将逐渐兴起。

将语义搜索用于特定领域或对象时，可以达到高度适合率和再现率，这一结论已经得到实际验证。

由于有生物学验证这一技术作基础，对于感性搜索来说，提高图像、语音、动画数据的特征提取准确度以及加快检索速度不会花很长时间。

2013年以后:

阶梯式搜索方法将投入使用。

帮助用户追加搜索条件、询问搜索内容的阶梯型检索将被搜索服务商广泛采用。

技术趋势:

在互联网时代，包括文件、图像、语音、动画、视频、虚拟世界等在内的数据呈指数级增长，搜索技术显得越来越重要。

以往，搜索服务都是依据输入的关键字，列出符合关键字的信息。

未来，全新的搜索服务模式将出现。

3、研究目标，内容

研究目标：

1.了解图像检索，网络爬虫等相关技术及发展潮流。

2.综合运用机器学习，JSP，数据库，图像处理，网络爬虫等相关技术完成一个BS架构的的图像检索系统的实现。

研究的内容主要有：

1.利用网络爬虫Heritrix进行网页图片爬取，

2.利用正则表达式和HTMLParser进行网页分析和信息提取

3.运用JSP,数据库，strust2，Hibernate等技术实现图像检索系统。

4、研究方法，手段

1.基础知识和开发工具的学习：

掌握Java,JSP，数据库，图像处理等相关知识。

掌握MyEclipse和MySQL的使用.

2.理解开源爬虫Heritrix的架构和运行机制，学会扩展和定制自己的Heritrix.

3.掌握HTMLParser和正则表达式等网页信息提取方法

4.运用开发工具完成界面设计和系统的架构设计，并实现具体的框架结构代码。

5.对系统进行测试并改进完善。

5、实验方案的可行性分析和已具备的实验条件

随着图像检索技术的发展，目前已有不少应用于实践环境的图像检索系统。

在实践上具有参考性。

Heritrix网络爬虫框架在经过多年的丰富更新后更加稳定和有效。

网页分析和信息提取技术也是热门的研究话题，为实验原理提供基础为算法的编写提供可行性证明。

掌握相关技术知识后运用MyEclipse和MySQL工具即可进行开发。

开发平台稳定且功能强大，工具的开发与设计均是可行的。

6、进度安排

2011年1月20日-2011年2月10日阅读图像检索相关资料，初步了解

图像检索的原理意义和用途；

2011年2月11日-2011年3月5日完成开题报告，并深入学习实现一

个图像检索系统的知识；

2011年3月6日-2011年4月20日完成网页的爬取及信息提取和检索

系统的初步开发；

2011年4月21日-2011年5月25日完善该系统并测设改进，完

成毕业设计论文初稿；

2011年5月26日-2011年6月15日跟据导师意见认真修改，校对论文

初稿，最后完成论文；

2011年6月16日-2011年6月21日准备毕业论文答辩；

7、参考文献

[1]RitendraDatta,DhirajJoshi,JiaLietal.ImageRetrieval:

Ideas,Influences,andTrendsoftheNewAge[J].ACMComput.Surv.40,2,Article5.April2008.

[2]李晓明，闫宏飞，王继民.搜索引擎-原理,技术与系统[M].北京：

科学出版社,2004.

[3]马自萍.形状和颜色特征的混合图像检索[D].银川：

北方民族大学,2010.7.

[4]陈剑雄，张蓓．简析图像检索中的CBIR技术[J].情报探索（第7期）,2010.7.

[5]邱哲，符滔滔，王学松．开发自己的搜索引擎Lucene+Heritrix[M].北京：

人民邮电出版社,2010-01．

[6]李刚.轻量级J2EE企业应用实战[M].北京：

电子工业出版社,2008.11.

[7]周明全，耿国华，韦娜.基于内容图像检索技术[M].北京：

清华大学出版社，2007.7.

[8]沈兰荪，张箐，李晓光。

图像检索与压缩域处理技术的研究[M].北京：

人名邮电出版

社,2008.12.

[9]李向阳,庄越挺,潘云鹤.基于内容的图像检索技术与系统[J].计算机研究与发展2001年第3期.

[10]安志勇.基于内容的图像检索关键技术的研究[D].西安：

西安电子科技大学，2008.

[11]李伟，黄颖。

基于HTMLParser的网页信息提取[J].兵工自动化（第7期），2007，7.

选题是否合适：

是□否□

课题能否实现：

能□不能□

指导教师（签字）

年月日

选题是否合适：

是□否□

课题能否实现：

能□不能□

审题小组组长（签字）

年月日

摘要

而搜集图片和建立索引又是实现图像检索技术的非常重要的一个环节。

网络爬虫程序就是用来搜集网页和图片的程序。

本文的研究重点在于使用网络爬虫框架Heritrix进行扩展，从网络上下载所需网页及图片并利用HTMLParser进行网页分析和图片相关信息提取。

完成上述工作后，再将图片的目录位置和提取的信息存入数据库。

并建立一个图片检索系统的Web工程，实现检索功能。

开发语言为Java,开发工具为MyEclipse和MySQL及Tomcat.

关键词：

图像检索，网络爬虫，Heritrix,HTMLParser,网页信息提取

ABSTRACT

Withtherapiddevelopmentofnetworkinformationontheexplosivegrowthofimages,whichmakesitontheInternetmoreandmoredifficulttofindtheimages,imagesearchtechnologybecomeaveryhotresearchtopic.Thecollectionofimagesandindexingforimageretrievalisaveryimportantaspect.WebcrawlerisusedtocollectWebpagesandpicturesoftheprogram.

ThisstudyfocusesonusingtheHeritrixWebcrawlerframeworktoextend,fromtheInternetanddownloadwebpagesandimagesforwebuseHTMLParserinformationextractionandimageanalysis.Aftercompletionofthework,thentheimagedirectorylocationandtheextractedinformationintoadatabase.AndapictureretrievalsystemforWebprojects,toachievesearchfunction.DevelopmentlanguageforJava,andMySQLdevelopmenttoolsfortheMyEclipseandTomcat.

Keywords:

imageretrieval,webcrawler,Heritrix,HTMLParser,Webinformationextraction

目　　录

第1章文献综述……………………………………………11.1图像检索的研究意义…………………………………11.2图像检索的国内外发展状况…………………………11.3网络爬虫技术在搜索引擎中的应用…………………31.4网页分析和信息提取技术……………………………41.5本文的研究重点，系统结构和内容……………………5

第2章Heritrix应用开发扩展……………………………72.1Heritrix简介……………………………………………7

2.1Heritrix抓取策略及改进………………………………9

2.3Heritrix抓取过程……………………………………10

2.3网页爬结果…………………………………………13

第三章　HTMLParser图片相关信息提取………………143.1HTMLParser简介………………………………………143.2图片信息提取策略…………………………………143.3图片信息提取的实现方法……………………………153.4实验提取结果…………………………………………17

第四章图像检索系统的搭建……………………………184.1数据库的建立………………………………………184.2系统的实现框架和结构………………………………214.3检索结果展示…………………………………………23

第五章　总结和展望………………………………………25

　参考文献……………………………………………………26

附录…………………………………………………………27

外文资料

　中文译文

　致谢

第1章文献综述

1.1图像检索的研究意义

为了解决上述问题，定向抓取相关网页资源的网络爬虫应运而生。

网络爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。

图像检索一直是信息检索领域的一个主流问题，涉及到图像处理、图像分割、模式识别及机器学习等多个方面。

检索的智能化和自动化是图像检索的目标。

目前主流的图像检索方法大致可以分为两大类,即基于文本的图像检索（TBIR）和基于内容的图像检索（CBIR）。

在检索原理上，无论是基于文本的图像检索还是基于内容的图像检索，主要包括三方面：

1.2图像检索的国内外发展状况

基于内容的图像检索根据图像特征、图像的内容语义以及上下文联系进行查找，以图像语义特征为线索从图像数据库中检出具有相似特性的其它图像。

因为图像的规模一般要大于纯粹的文本信息，因此，基于内容的图像检索在检索的速度和效率上要求更高。

立足于文本，对图像进行检索。

试图将传统的文本检索技术移植于对多媒体信息的检索上，因为基于文本的检索技术发展已经成熟。

如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等，不仅技术发展较为成熟，同时分析和实现的难度略小。

但是因为受控词汇本身的局限，易歧义，更新慢，所以不太容易应对网络上日新月异的各类图像。

立足于图像内容，对图像进行分析和检索。

不过，基于内容的图像检索建立在多媒体信息的内容语义上，能够更为客观地反映媒体本质的特征。

结合文本和内容，进行融合性研究。

可以说，三个方向都是相互影响和促进的，任何一个方向的进展都会促进图像检索技术向前更进一步。

下一代搜索技术：

2007～2009年:

具有联想技术和分析功能的搜索服务逐渐兴起。

通过对博客及SNS等媒体公布的有关公司产品或宣传活动的评测进行即时分析，可以为企业的市场运营提供更多有益的参考。

2010～2012年:

语义搜索和感性搜索技术将逐渐兴起。

将语义搜索用于特定领域或对象时，可以达到高度适合率和再现率，这一结论已经得到实际验证。

由于有生物学验证这一技术作基础，对于感性搜索来说，提高图像、语音、动画数据的特征提取准确度以及加快检索速度不会花很长时间。

2013年以后:

阶梯式搜索方法将投入使用。

帮助用户追加搜索条件、询问搜索内容的阶梯型检索将被搜索服务商广泛采用。

技术趋势:

在互联网时代，包括文件、图像、语音、动画、视频、虚拟世界等在内的数据呈指数级增长，搜索技术显得越来越重要。

以往，搜索服务都是依据输入的关键字，列出符合关键字的信息。

未来，全新的搜索服务模式将出现。

搜索技术的评测指标主要有两种：

适合率和再现率。

适合率指搜索结果中符合要求的数据比例，可以通过减少非适合数据提高这一比例。

再现率指在所有应该列出的适合数据中，实际检索出的适合数据所占的比例，可以通过减少检索遗漏提高这一比例。

未来，搜索技术将朝着三个方向发展：

包括联想在内的语义搜索，检索图像、语音、动画内容的感性搜索，通过传感技术搜索现实世界对象的现实挖掘。

2008年8月，微软收购了一家语义搜索服务商Powerset。

微软目前正式推出的新型搜索引擎Bing就整合了Powerset的语义搜索技术。

CNNIC2009年3月公布的调查报告显示，对搜索结果不满意的网友比例为35%，40%的用户会在第一次键入关键词的基础上修正关键词，72%的用户认为搜索结果非常凌乱。

用户如果想在互联网海量信息中快速、简便地寻找到自己想要的信息而不受干扰，需要搜索技术对检索者的想法进行臆测。

目前，人们看到的搜索结果都是参考文献，而不是最终的答案。

这是现有搜索技术最大的问题。

但是，已经有一些产品能够对垃圾信息进行最初级的人为摒除，比如XX知道。

当一个人提问之后，经过一个或多个人的回答，此人就可以找到自己所需要的信息。

另外，各大厂商也在致力于实现真正的人机对话。

以PowerSet和WolframAlpha为代表的问答式精准搜索近来受到广泛关注。

GazoPa是一家成立于2008年的图像搜索引擎供应商。

它提供的搜索图像服务的特色在于，可以提取图像中商品的形状、颜色等信息。

以往的图像搜索采用的方法是，给图像数据赋予标签等文本数据，当输入的关键字与文本数据相匹配时，图像就会被检索出来。

但是，用户使用GazoPa提供的服务，被搜索的图像不具备文本信息，也可能被搜索到。

GazoPa使用的是

展开阅读全文