基于内容的图像检索毕业论文.docx

资源描述

基于内容的图像检索毕业论文.docx

《基于内容的图像检索毕业论文.docx》由会员分享，可在线阅读，更多相关《基于内容的图像检索毕业论文.docx（31页珍藏版）》请在冰点文库上搜索。

基于内容的图像检索毕业论文.docx

基于内容的图像检索毕业论文

本科毕业论文

（毕业设计）

题目：

基于内容的图像检索

姓名：

学院：

软件学院

系：

专业：

软件工程

年级：

学号：

指导教师（校内）：

职称：

年月日

摘要

基于内容的图像检索（CBIR）是多媒体检索研究的前沿课题。

利用颜色特征作为索引进行图像检索是最重要的技术。

本文以基于颜色特征的图像检索实例系统为基础，研究RGB与HSI颜色空间内，全局直方图，累积直方图，局部累加直方图对图像的描述。

以之为特征，再引入欧氏距离的相似性度量方法实现基于内容的图像检索。

根据实验结果比较，总结颜色空间、特征描述方法对检索系统性能的影响，从而得出不同算法所适合的应用范围。

本文第一章介绍了本课题的研究背景和问题概要解决方案。

第二章通过对基于颜色特征的图像检索技术的深入分析，得出实例系统使用的核心方法论，包括RGB与HSI空间的转换，三种直方图实现公式，和欧式距离计算方法等。

第三章基于VC++技术，阐述了图像检索系统实现的设计思路与执行方法，重点介绍之前提出的核心方法论在系统中的实现算法。

第四章对不同算法条件下的实验数据进行分析比较，总结不同颜色空间或特征描述方法对检索系统效率的影响。

第五章分析设计工作中的问题，提出在进一步的工作中，结合web搜索的相关技术，进行了相关讨论。

关键词：

基于内容的图像检索，颜色特征，直方图，相似度

ABSTRACT

Content-basedimageretrieval（CBIR）isanadvancedprojectintherecentresearchareaofmultimediaretrieval.Indexingbycolorfeaturesistheimportanttechnologyofimageretrieval.

ThisdissertationischieflycontributedtotheCBIRstudyofcolorspecification.Basedonpracticalsystemexperiment,underRGBandHSIcolorspace,wedoresearchontheefficiencyofglobalcolorhistogram,globalaccumulatedcolorhistogram,andpartialaccumulatedcolorhistogram,whichdescribesthedistributionofcolorsineachimage.Bythismeans,colorhistogramdissimilarityisbroughtintoachievehighefficiencyincolorhistogramqueryprocess.

Thus,aresearchbackgroundandessentialsolutionsisintroducedinthistopic.Thenbyfurtheranalysisoncolor-basedimageretrieval,wemakeoutthekeymethodology,including:

thetransferofRGBandHSIspace,formulastothreekindsofcolorhistogramandsimilaritydistancesolutions,tofulfillininstancesystem.Thirdly,fromtheviewofVC++development,weputemphasisonhowthosekeymethodologyiscarriedout.InChapter4wemakeanalysisfromresultsofsystemexperiment,andsummarizetheinfluencesbydifferentmeans.Finally,visionworkisputforward.

KeyWords:

CBIR,colorspecification,colorhistogram,similaritydistance

Contents

第一章引言

1.1基于内容的图像检索的研究背景

图像检索自70年代来一直是个非常活跃的研究方向。

早期的图像检索是基于图像关键字的检索（TBIR）。

该方法需要人工对每幅图像按其内容进行标注，然后将标注信息存到文本数据库中用于后来的检索。

显然，随着图像的增多，人工标注非常困难，而且，每个人对图像内容的理解不同会造成标注的主观性过强，不利于用户检索。

同时，图像的某些可视信息，例如：

纹理，形状等，很难用文本准确描述。

20世纪90年代以后，图像检索的研究重点是基于图像内容的检索（CBIR）。

CBIR指的是在图像数据库中找出满足某一特定的视觉特征描述的图像的过程。

它的基本思想是通过分析图像的视觉特征和上下文联系来进行检索。

下图为基于内容的图像检索一些主要研究技术罗列：

图1-1基于内容的图像检索主要研究技术

CBIR的研究目标是在没有人类参与的情况下能自动识别或理解图像重要特征。

其中，图像内容是通过图像的特征来反映的，可以将图像的特征分为两大类，即底层物理特征（如颜色、纹理、形状、轮廓、图像内容的空间、时间关系等）和高层语义特征（是人们对图像内容概念级的反映，一般是对图像内容的文字性描述）。

CBIR突破了传统的基于关键字的表达式检索的局限，直接对图像内容进行分析和特征提取，利用这些描述图像内容的特征建立索引。

目前，基于内容的多媒体信息检索的主要工作集中在识别和描述图像的颜色、纹理、形状、空间关系上，对于视频数据，还有视频分割、关键帧提取、场景变换探测等问题。

由此可见，这是一门涉及面很广的交叉学科，需要利用图像处理、模式识别、计算机视觉、图像理解等领域的知识作为基础，还需从认知科学、图像处理、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型，从而设计出可靠有效的检索算法、系统结构以及友好的人机界面。

CBIR的特点主要有：

⏹基于内容的图像检索是一种近似匹配，即按照某种相似性度量，比较图像特征间的相似度。

相似度较高的图像将作为检索结果返回给用户。

⏹特征提取和匹配可由计算机自动完成。

⏹为了提高检索的准确性，整个过程是个逐步逼近和相关反馈的过程。

用户的交互性增强了表达查询、评价查询结果和基于评价结果进行进一步检索的能力。

1.2图像检索的关键技术

目前，对于通用的静止图像检索，用于检索的特征主要有颜色（Color）、纹理（Texture）、形状（Shape）等，其中颜色、纹理、形状应用尤为普遍；活动视频检索脱胎于序列图像分析中的技术。

本文主要研究对静止图像检索。

对于目标图像和检索图像进行颜色空间转换、亮度图像的边缘提取和二值分割、提取目标区域的颜色特征。

颜色内容包含两个一般的概念，一个对应于全局颜色分布，一个对应于局部颜色信息。

按照全局颜色分布来索引图像可以通过计算每种颜色的像素的个数并构造颜色灰度直方图来实现，这对检索具有相似的总体颜色内容的图像是一个很好的途径。

局部颜色信息是指局部相似的颜色区域，它考虑了颜色的分类与一些初级的几何特征。

比如Smith等提出了颜色集合（colorset）方法来抽取空间局部颜色信息并提供颜色区域的有效索引[1]。

运用颜色直方图进行检索有如下三种方式：

（1）指明颜色组成：

该法需要用户对图像中的颜色非常敏感，而且使用起来也不方便，检索的查准率和查全率并不高，因此暂时不做进一步开发。

（2）指明一幅示例图像：

通过与用户确定的图像的颜色直方图的相似性匹配得到查询结果，这是该课题研究方法的根本。

（3）指明图像中一个子图：

分割图像为各个小块，然后利用选择小块来确定图像中感兴趣的对象的轮廓，通过建立更复杂的颜色关系（如颜色对方法）来查询图像，该方法是进一步优化检索的一个设想。

在颜色空间选取方面，最常用的颜色空间是RGB颜色空间。

通常，人们采用欧氏距离来刻画两种颜色之间的差异，RGB空间存在的一个严重问题是其中所计算出来的两种颜色之间的距离无法正确表征人们实际所感知到的这两种颜色之间的真实差异。

HSI空间比较直观并且符合人的视觉特性。

HSI颜色模型有两个重要的特点作为基础。

首先，I分量与彩色信息无关，其次H和S分量与人感受彩色的方式紧密相连，其中H分量尤其影响人类的视觉判断。

这些特点使得HSI模型非常适合基于人视觉系统对彩色感知特性的图像处理。

得到图像特征的统计直方图后，不同图像间的特征匹配可借助计算直方图间的相似性距离来进行。

一般意义上直方图匹配方法有直方图相交法，直方图匹配法，欧氏距离法，中心矩法，累积直方图匹配法共6种。

本文重点讨论欧氏距离法，并将其作为系统编程实现的主要方法。

所以，颜色特征的图像检索关键技术路径如下图：

颜色空间

相似度量

特征表达

图1-2颜色特征的图像检索关键技术路径

1.3国内外典型系统概况

目前已有许多通用目的的图像搜索引擎，例如，在商用领域，IBM首先研制出了QBIC系统；在学术研究领域，MIT的Photobook系统，新加坡国立大学的CORE系统，美国哥伦比亚大学的VisualSEEK系统，加利福尼亚大学SantaBarbara分校的Netra，伊利诺依大学的MARS，CMU的Infomedia以及哥伦比亚大学的VideoQ等。

下文就其中几个作简要介绍：

1．QBIC系统

IBMAlmaden研究中心研究开发的，是基于内容检索系统的典型代表

QBIC系统允许使用例子图像、用户构建的草图和图画、选择的颜色和纹理模式、镜头和目标运动和其他图形信息等，对大型图像和视频数据库进行查询。

2．Photobook系统

MIT的媒体实验室在1994年开发研制的。

图像在装入时按人脸、形状或纹理特性自动分类，图像根据类别通过显著语义特征压缩编码。

3．CORE系统

新加坡国立大学开发的一个基于内容的检索机。

其显著技术特色包括:

多种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术。

4．VisualSEEK系统

美国哥伦比亚大学图像和高级电视实验室开发的。

它实现了互联网上的"基于内容"的图像/视频检索系统，提供了一套工具供人们在Web上搜索和检索图像和视频[2][3][4]

（a）基于颜色直方图的检索

（b）基于主颜色块的检索B

图1-3Smith的webseek系统

1.4本文的研究内容

从图1-2的技术路径分析，结合设计要求，我们需要对要素工作具体化，目的是使系统试验简单高效而又不失代表性。

⏹颜色空间选取————面向硬件的RGB空间和面向视觉的HSI空间

⏹颜色特征的表达——全局直方图，全局累加直方图，局部累加直方图

⏹相似性度量—————————————————欧氏距离计算方法

这些要素分析将在第二章中做详细阐述。

第二章基于颜色特征的图像检索

颜色模型

颜色是彩色图像的最显著的特征，与其它特征相比，颜色特征具有非常稳定，对于旋转、平移、尺度变化都不敏感，表现出很强的鲁棒性，又由于颜色特征计算简单，因此基于颜色的查询成为现有基于内容的图像检索系统中应用最基本的方法。

国际标准MPEG-7正式推荐了一种颜色描述符——颜色空间（colorspace）（ISO/IEC2001）。

它给出了可用于其他颜色描述夫的颜色空间：

RGB，YCbCr，HSV，HMMD等。

考虑到颜色模型的用途（包括基于内容的图像检索），常用到的颜色模型可分为两类。

一类面向诸如彩色显示器或打印机之类的设备（但可以与具体设备相关，也可独立于具体设备）。

另一类面向以视觉感知或颜色处理分析为目的的应用，如动画中的彩色图形，各种图像处理算法等。

前者对应于RGB模型，而后者则分析HSI模型[5]。

2.1.1RGB模型

众所周知，当我们将两种不同的颜色按一定比例混合可以生成另一种颜色，通过混合三种不同的颜色我们就可以得到我们想要的颜色，这就是三基色颜色模型的基本原理。

我们的眼睛通过三种可见光对视网膜的椎状细胞的刺激来感受颜色。

这些光在波长为630nm（红）530nm（绿）和450（蓝）时的刺激达到高峰。

通过对各刺激强度的比较，我们感受到光的颜色。

这种视觉理论就是使用红、绿、蓝三种基色来显示彩色的基础，称之为RGB颜色模型。

RGB模型中三基色的大小可以限定到一定的范围，如{0，1，…255}，我们把这种约定称为RGB格式。

每个像素（实际上任何可能要量化的颜色）都能用三维空间中第一象限的一个点来表示，如下页图2-1中的立方体所示。

三色图像的灰度级直方图是RGB空间的点分布。

图2-1RGB空间模型

在RGB彩色空间的原点上，任一基色均没有亮度，即原点为黑色。

三基色都达到最高的亮度时则表现为白色。

亮度较低的等量的三种基色产生灰色的影调。

所有这些点均落在彩色立方体的对角线上，该对角线被称为灰色线。

彩色立方体中有三个角对应于三基色——红、绿和蓝色。

剩下的三个角对应于二次色黄色、青色和品红。

一幅图像可以看作从点坐标映射到R、G、B空间。

如果在图像中点的位置忽略掉，图像可以认为是R3空间中的点集[6]。

2.1.2HSI模型

另一种有用的彩色方案由色度、饱和度和强度（或亮度）组成的HSI（Hue,Saturation,Intensity）格式，它是Munseu提出的彩色系统格式，经常为艺术家所使用。

这种设计反映了人观察彩色的方式，同时也有利于图像处理。

在HSI格式中，I表示强度或亮度。

H由可见光谱中各分量成分的波长来确定，是彩色光的基本特性。

S反映了彩色的浓淡，它取决于彩色光中白光的含量，也就是彩色光的纯度的反映。

HSI坐标是柱形彩色空间。

灰度影调沿着轴线以底部的黑变到顶部的白，具有最高亮度最大饱和度的颜色位于圆柱上顶面的圆周上如图2-2所示。

图2-2HIS空间模型模型

RGB空间到HSI空间的坐标转换计算比较简便。

公式1：

值得注意的是，当R=G=B时色度无定义；HSI坐标系为柱形坐标系。

从两个图像可以看出RGB空间中灰度线是彩色立方体的对角线，而在HSI空间中是垂直中轴。

HSI模型有两个重要的特点。

首先亮度分量与色度分量是分开的，I分量与图像的彩色信息无关，它表示光的强度。

其次是H及S分量与人感受彩色的方式紧密相连（这里强调颜色的重要性，因为人对光的感知与I分量有关）。

这些特点使得HSI模型非常适合人的视觉系统对彩色感知特性进行处理分析的图像算法[7]。

在HSI模型中，H分量对彩色描述的能力相对来说最与人的视觉接近，区分力也比较强。

在许多应用中当将彩色图像由RGB空间转换到HSI空间进行检索时，可仅用H分量而将检索缩小到1-D空间，从而简化运算，加快计算速度[8]。

颜色特征的提取与表达

自从1991年Swain和Ballard提出的将颜色直方图作为图像的索引以来，在基于内容的图像检索中得到了广泛的关注[9]。

其主要思想是根据颜色直方图统计颜色空间中每种颜色出现的概率，然后对颜色之间的距离采用直方图相交来度量每个颜色直方图之间的相似性。

直方图描述了图像颜色（或灰度）统计特征，反映了图像颜色的统计分布和基本色调。

具体地，对于一幅图像I，其颜色（或灰度）由L级（C1,C2,…,CL）组成，CI为第i级颜色值。

在整幅图中，具有CI值的象素个数为hi,则一组象素的统计值h1,h2,…,hL就称为该图像的颜色直方图。

用H（h1,h2,…,hL）表示。

2.2.1全局直方图

图像特征的统计直方图实际上是一个1-D的离散函数[10]，即有

公式2：

H（k）=nk/Nk=0,1,……,L-1

式中k代表图像的特征取值，L是特征可取值的个数，nk是图像中具有特征值为k的像素的个数，N是图像像素的总数。

例如，设计系统中RGB空间内采用256个直方条（bin），对应图像中8种会读像素数载总像素数中的比例即为象限中的纵坐标值。

（a）RGB全局直方图

（b）HIS全局直方图

图2-3直方图对真彩JPG图的表达

2.2.2累积直方图

当图像中的特征并不能取遍所有可取值时，统计直方图中会出现一些零值。

这些零值的出现会对计算直方图的相交带来很大影响，从而使得算出的匹配值并不能正确的反映两图间的颜色差别。

图像特征统计的累积直方图也是一个1-D的离散函数，即对原有统计直方图作迭代累加。

显然，当k=L-1时，累积直方图的纵坐标值为1，因为根据所有条件概率求全概率的值为1。

对彩色图像，可对其3个分量分别做累积直方图。

2.2.3局部累加直方图

在HSI空间里，H=0基本对应红色，H=π/3基本对应黄色，H=2π/3基本对应绿色。

这样在H轴上黄色与红色间，黄色与绿色间距相等。

但从人的视觉感知来讲，黄色与红色间，黄色与绿色间本无所谓哪两个更相似。

这表明色度信号的分布从视觉意义上讲，并不满足累加直方图应用的前提。

所以，对色彩比较复杂的自然景物图像，一般累加直方图算法在检索中就会将不同色度的信号混淆起来。

另外，一幅图像的颜色一般非常多，尤其是真彩色图像，因此直方图矢量的维数会非常高。

如果能采用局部累加后降维，则计算量要少得多。

系统设计中，我们采用π/3为区间的长度，将H轴共分成6个不重叠的局部区间[60k,60（k+1）]，k=0,1,…5，通过分别计算每个局部区间的累加直方图进行检索。

上述方法都保留了颜色在图像中出现的概率信息，但也丢失了很多颜色的空间信息，因此不同的图像有可能具有相同颜色特征表示。

许多人提出了颜色索引的改进方法---局部颜色特征索引。

从划分局部区域的角度来说可分为：

基于固定块的图像分割、基于手工的区域分割、采用交互的半自动的区域分割以及一些自动的颜色分割方法。

局部区域中的颜色信息可以表示为平均颜色、主颜色、颜色直方图和二进制颜色集等来表示。

本文中暂不做讨论。

颜色特征的相似性度量

对于一种颜色特征表示，其距离度量方法又可以有很多种，例如在文献[7]中，作者比较与评价了颜色直方图的8个度量方法：

直方图的交、直方图欧氏距离、直方图余弦距离、二值集hammimg距离、直方图二次距离度量、二值集二次距离、直方图Mahalanobis距离。

这里我们只简要介绍一下我们系统中常用的直方图的交、直方图欧氏距离两种距离度量方法。

●直方图的交集的方法

直方图的交集算法，根据颜色索引检索出查询图像的颜色直方图，将其与图像库中的每一图像的直方图取交集，根据交集的值来选出最佳匹配图像。

直方图交集的公式如下

公式3:

其中

为查询图像直方图，

为图像库中的任一图像直方图，

为两图像的匹配值。

，它的值越接近1，则两图像越相似。

直方图交集方法能对两幅图像进行详细的比较，然而对于许多合成的图像，如商标等，它们有大量的一致颜色，三维直方图只有几个域的值很高，而其它许多域的颜色信息变化有限。

因而，对于这样的图像进行过细的比较是不必要的。

又由于在扫描图像时容易产生一些噪音，所以这种过细的比较容易产生错误的结果。

●欧氏距离方法

我们可以利用欧基里德距离公式（EuclideanDistance）来计算距离。

对于两个N维直方图x,y，两者的欧氏距离可以表示如下：

公式4：

此距离公式虽然简单，但是与特定的颜色分布无关，因此我们可以引入相关权值A,这里A是一个

维矩阵，此时距离公式可以表述如下：

公式5：

为了简化计算，将直方图x,y规范化使其满足：

，矩阵

，权

表示颜色i与颜色j之间的相似度。

若取z=x-y,则有

，取定了距离公式后，我们需要确定A的取值，且要保证此矩阵A能够使

我们用

表示颜色i与颜色j在RGB颜色空间的距离。

取

。

有

公式6：

因为

●模糊方法

1965年，Zadeh提出了他著名的模糊集理论，从此创建了一个新的学科——模糊数学。

模糊集理论是对传统集合理论的一种推广，在传统集合理论中，一个元素或者属于一个集合，或者不属于一个集合；而对于模糊集来说，每一个元素都是以一定的程度属于某个集合，也可以同时以不同的程度属于几个集合。

对人们现实生活中大量使用的一些含义确定但又不准确的语言表达，比如“今天天气很热”、“车速过高，需要适当踩刹车”等，用模糊数学可以很好的表达。

本文主要运用欧氏距离方法实现相似度计算。

其他提及的方法暂时不做进一步研究。

第三章图像检索系统的设计

系统总体构架

系统的整个业务流程可以用如下框图表示：

图3-1基于彩色特征的图像检索系统业务流程

我们可以从系统框图中抽象出四个层次或者功能模块：

（1）颜色空间内特征提取

对图像数据进行自动或半自动的特征提取，提取用户感兴趣的、适合检索要求的特征。

颜色空间实现为RGB和HSI。

对于图像全局的特征表达为全局统计直方图和累计直方图，对于图像局部的特征表达为局部累计直方图。

（2）图像匹配

在选取了特征之后，需要选择或寻找适当的判别准则，从而判断出待识别的图像的特征与数据库中的哪些图像的特征最接近。

该系统使用的相似度量方法为欧氏距离法。

（3）特征索引

当数据库中包含大量图像数据时，为了有效地查询，合适的存取、访问结构就变得非常的重要了。

在常规数据库中采用像B树的索引结构，提供有效的访问机制，即向用户返回满足查询条件的记录，而不需要逐个检查数据库中的每个记录。

本系统为最小系统实现，即未使用数据库管理系统这样的中间件。

在图像库特征化的离线模块中直接在相应目录内生成二进制文件，以存储特征表达的相关信息。

这样节约成本和降低系统安装要求。

当用户在线检索图像时直接索引已生成的文件，达到预期同样的效果。

图3-2在线离线模块与数据的索引

（4）用户反馈

基于用户反馈（RelevanceFeedback）的检索是将人包括在检索环路中，以弥补自动语义分析面临的困难，通过交互式的反馈，来决定采用何种类型特征组合及多大特征权值进行检索，从而使数据库中的图像分类更接近使用者的愿望，使检索结果符合使用者的个性化要求[11]。

本系统的实现方法是在环境下，检索样本的图像库，根据欧式距离升序排列前40个样本，并人工判断检索正确性。

从而为各种算法对检索效率的影响比较提供试验数据。

参看下图

图3-3示例搜索结果

颜色空间内特征提取

特征分析抽取待查图像，生成RGB颜色直方图[12]。

下面是程序实现代码：

boolCSystemDlg:

LoadImageRGB（CStringfilePath,CStringfileTitle,CStringfileExt,int*RGBArray）+fileExt;

if（filePathName,CFile:

modeRead））dat",CFile:

modeRead））

dat”

dat",CFile:

modeWrite））

dat”颜色直方图文件，创建它；否则继续

{

if（!

（filePath+fileTitle+".rdat",CFile:

modeWrite|CFile:

modeCreate）

展开阅读全文