基于内容的视觉信息检索译文.docx

资源描述

基于内容的视觉信息检索译文.docx

《基于内容的视觉信息检索译文.docx》由会员分享，可在线阅读，更多相关《基于内容的视觉信息检索译文.docx（23页珍藏版）》请在冰点文库上搜索。

基于内容的视觉信息检索译文.docx

基于内容的视觉信息检索译文

第三章基于内容的视觉信息检索

OgeMarques,BorkoFurht

FloridaAtlanticUniversity,USA

本章主要对视觉信息检索（VisualInformationRetrieval，简写为VIR）系统特别是基于内容的视觉信息检索（Content-BasedVisualInformationRetrieval，简写为CBVIR）系统领域作了一个综述。

本章阐述了该领域的一些主要概念以及系统设计时所面临的主要问题，并回顾评价了当前已有的一些系统原型以及商业上的解决方案，同时指出了该领域中比较有前途的研究方向。

绪论

近年来，数字化格式的视听信息量成指数级增长，每天都会有成G字节级的新的图像、声音和视频产生和存储，这些构成了一个巨大的、分布式的、未组织的多媒体信息库，其中的大部分信息可以通过互联网访问到。

多媒体信息的数字化、压缩和存储已经变得很普及、很简单，而且成本也大大降低了，这些都可以通过现存的大量的硬件和软件来完成，但是如果以后要对这些信息进行高效率的检索则需要进行大量的额外工作。

对多媒体库中多媒体数据的检索主要有三种方法：

1、自由浏览（Freebrowsing）：

用户顺序浏览图像、声音和视频文件集，当发现所想要的信息时便停止浏览。

2、基于文本的检索（Text-basedretrieval）：

在编目阶段（cataloguingstage）给视听文件加上文本信息（元数据），在检索阶段，这些附加的文本信息被用来引导常规的基于文本的搜索引擎查找所需要的数据。

3、基于内容的检索（Content-basedretrieval）：

用户搜索多媒体库中有关图像、声音或者视频片断的实际内容的信息。

基于内容的搜索引擎将这些信息按照某种方式进行转换以便对数据库进行查询，检索出能尽量满足用户要求的结果。

前两种方法都有严重的局限性和可扩展性问题。

自由浏览只适用于临时用户使用，而不适用于那些经常要获取具体的多媒体信息以进行专业应用的用户。

这是一个冗长、效率低下而且耗时的过程，对大型的数据库而言，这是完全不实用的。

基于文本的检索在编目阶段存在着两个重大的问题：

a）需要花费相当多的时间和精力手工对每一幅独立的图像或者视频片断进行标注；

b）对内容进行标注时由于人的主观性而带来了不精确性。

这两个问题随着多媒体信息的搜集量的增大而更加严重，很可能会使得后期的检索出现错误。

基于文本的检索需要前期对多媒体数据进行标注，这样导致它的效率低下且具有很大的局限性，为了解决这些问题，来自于图像处理和计算机视觉方向的研究人员开始研究更可行的多媒体信息（特别是图像和视频片断）检索方法——基于内容的检索方法，即图像和视频将根据它们的视觉内容（如：

颜色、纹理、对象的形状和运动，等等）建立索引，而不是手工用关键字进行标注。

基于内容的视觉信息检索（CBVIR）的研究始于上个世纪九十年代早期，而且很有可能在二十一世纪的最初十年里持续下去。

目前，许多大学和大公司的研究小组都在这个领域积极地进行研究，许多系统原型和商业产品也已经研制成功，但是目前的解决方案与视觉信息检索的最终目标，即使用户以快速、高效、语义上有意义的（semanticallymeaningful）、友好的且位置相对独立（location-independent）的方式从海量的视觉信息中检索出图像或者视频片断，仍有很大的差距。

本章下面的内容组织如下：

在第二节我们将回顾CBVIR系统的基本原理；第三节将讨论设计一个CBVIR系统的主要问题；第四节概述现存的（包括商业性的和研究性的在内）一些CBVIR系统；第五节叙述在这一领域出现的的一些open研究问题（openresearchproblems）；第六节描述了作者们开发的一个CBVIR系统——MUSE的主要特征；最后，第七节是对本章的总结评论。

CBVIR系统基本原理

预备知识

视觉信息检索（VIR）是计算机科学与工程学科中一个相对比较新的研究领域。

与传统的信息检索类似，VIR系统的主要目标是检索出所有的与用户的查询相关的图像（或图像序列），同时在检索的结果中应尽可能的去掉不相关的图像。

对信息的检索与对数据的检索的着重点恰恰相反。

视觉信息检索系统必须能够解释文档（图像）的内容并将它们按照与用户查询的相关程度进行排列。

这个解释过程包括从文档（图像）里抽取（语义）信息并用这些信息与用户要求进行匹配。

视觉信息检索研究的发展得到了多个研究领域的支持（如图1所示），尤其是：

基于文本的信息检索，图像处理和计算机视觉，模式识别，多媒体数据库组织，多维索引（multidimensionalindexing），psychologicalmodelingofuserbehavior，人机交互，等等。

图1视觉信息检索结合了许多研究方向

VIR系统根据用于查询检索图像或视频文件的属性的不同可以大体上可以分为两代（DelBimbo,1999）：

•第一代VIR系统：

使用文本进行查询，例如查询“红色的法拉利”或者“凡高的作品”。

它们非常依赖于元数据（字符串，关键字，或者完整的脚本fullscripts）

•第二代（CB）VIR系统：

支持基于内容的查询，对图像而言，其中内容的概念包含：

感觉属性（例如：

颜色、形状、纹理），语义上的基本要素（例如：

对象、角色、场景），还有主观的属性（例如：

印象、情绪和与感觉属性相关的意图）。

许多的第二代系统都将基于内容的技术作为一个补充，而不是选择代替基于文本的方法。

一个典型CBVIR系统的体系结构

图二显示了一般CBVIR系统的结构图，系统的主要组成部分有：

•用户界面（Userinterface）:

友好的图形化用户界面，用于向数据库提出查询，浏览结果，查看选中的图像或者视频片断；

•查询/搜索引擎（Query/searchengine）:

负责根据用户提交的参数在数据库中进行搜索；

•数字图像和视频存储器（Digitalimageandvideoarchive）:

数字化、压缩的图像和视频片断的存储库；

•视觉信息摘要（Visualsummaries）:

图像和视频内容的简单表示，例如图像的索引图像或视频的关键帧；

•索引（Indexes）:

图像或视频片断的指针；

•数字化和压缩（Digitizationandcompression）:

将图像和视频片断转化为压缩的数字化格式的硬件和软件；

•编目（Cataloguing）:

从原始图像和视频中抽取特征建立相应的索引。

图2：

CBVIR系统结构图

由于大量现成的硬件和软件的存在，数字化和压缩过程已经变得相当简单。

许多情况下，图像和视频的生成和存储都直接使用压缩的数字化格式。

编目阶段的工作主要是从图像和视频片段的视觉内容中抽取特征。

特别的，在处理视频的情况下，原始的视频片断被分成若干块，这些块被成为场景（scenes），它们还可以被进一步细分为镜头（shots）。

每一个有意义的视频单位都被编上索引，同时系统存储一个相对应的视觉信息摘要，代表性的为一个关键帧（keyframe）。

在处理图像的情况下，相对应的过程为对象的分割过程，该过程已在少数系统中得到实现。

在两种情况下，元数据都是在编目阶段中被加入到视觉内容中。

基于文本的视觉信息检索系统必须要用手工给图像和视频文件添加元语言，而CBVIR系统则最低限度或者根本不使用元语言。

数字化、压缩和编目一般而言都是离线完成的。

一旦这三个步骤完成，数据库中不但包含了这些图像和视频文件本身，还可能包含这些文件或片段的简化表示以及用作相应图像或视频的指针的索引集。

用户与CBVIR系统的在线交互如图2的上半部分所示。

用户通过图形用户界面（GUI）提出查询，系统根据用户所提交的查询由搜索引擎查找与所需图像或视频文件相对应的索引，最终的结果将通过一种易于浏览查看的方式返回给用户，同时还应当可以根据部分返回结果来改进查询。

用户观点（Perspective）

用户接口是CBVIR系统的一个极为重要的组成部分。

理想的用户接口应当是简单的、容易的、友好的、功能的（functional）并且是可定制的。

它应当以一种清楚直觉的方式提供用户浏览、查看、搜索和检索的能力。

这种集成是非常重要的，因为用户不会一直只是由查询搜索引擎得到最佳匹配，有时用户需要检查最初少数的最佳匹配，浏览它们，查看它们的内容，改进查询，最终检索到所要的图像或视频片断。

大多数VIR系统允许使用如下所述的多种不同的方式中的一种或多种对视觉信息数据库进行搜索：

•交互式浏览（Interactivebrowsing）:

方便那些对要搜索的图像或视频没什么了解的用户使用。

聚类技术可以用来将视觉上相似的图像组织成组，同时可以最小化显示给用户的图像中非用户要求的图像数量。

•Navigationwithcustomizedcategories：

（leisureusersoftenfinditveryconvenienttonavigatethroughasubjecthierarchytogettothetargetsubjectandthenbrowseorsearchthatlimitedsubsetofimages.）使用户方便地对主题层次进行导航以找到目标主题，然后浏览或搜索这个图像的子集。

•使用X进行查询（QuerybyX）其中‘X’可能为：

•一幅实例图像（animageexample）：

许多系统允许用户指定一幅图像作为实例并且搜索与它最相似的图像，按照相似度评分的递减顺序进行排列；

•一幅草图（avisualsketch）：

一些系统提供用户一系列的工具，用户可以将头脑中的图像或视频片断用草图画出来；

•视觉特征的详细说明（specificationofvisualfeatures）：

视觉特征的详细说明都直接给出，这样可能会吸引到更多有机数的用户；

•一个关键字或者完整的文本（akeywordorcompletetext）：

第一代VIR系统依赖于用户输入的关键字，用户查找那些事先用关键字标注过的视觉信息。

我们希望查询操作应该尽可能的简单、直观而且尽量接近与人对相似性的感知。

用户会更喜欢系统提供像“显示更多与此图像相似的图像”这样的功能选项，而不是提供一个复杂的交互工具来编辑图像的颜色直方图并执行新的搜索。

后一种方式可能会有利于有经验且有图像处理方面知识的用户，但它并不适合一般用户所以具有一定的局限性。

我们认为，理想的CBVIR系统查询应当对用户隐藏复杂的查询处理技术内幕。

对视觉媒体的搜索应当像“当我看到它时，我便知道它”那样具有不精确性（Asearchthroughvisualmediashouldbeasimpreciseas“IknowitwhenIseeit.”）。

设计者的观点

设计一个CBVIR系统的一些主要方面有：

特征的抽取和表示，降低维数处理（dimensionreduction）和多维索引的建立，图像语义的抽取，以及用户相关反馈机制的设计。

下面的章节将会对这些要点进行更为详细的研究。

特征的抽取和表示

CBVIR系统应该能够自动地抽取用于描述图像或视频内容的视觉特征。

这些特征包括颜色、纹理、大小、形状和运动信息。

在特定的上下文中，特征的抽取过程可以被扩展，以发现其它专门的属性，例如：

人脸或者对象。

由于感知的主观性，已知的特征并不存在着最好的表示方法。

举个例子说，颜色信息可以用不同的颜色模型（如：

RGB、HSV、YcbCr）和数学结构（如颜色直方图、颜色矩colormoments、colorsets或者颜色相关曲线图colorcorrelograms）来表示。

与此类似的，纹理可以使用共生矩阵、Tamura纹理特征或者小波（Wavelets）来表示。

降低维数处理（DimensionReduction）和多维索引的建立

抽取出的特征聚合成某种合适的数据结构或者数学结构（例如：

标准化特征向量），另外选择合适的度量标准（例如：

欧几里德距离）来度量一幅图像与任何其它图像之间的相似度。

在这个阶段，主要的问题有：

特征向量的维数比较高；欧几里德距离度量具有局限性，虽然它在数学方面是比较完美的，但是它不能有效地模拟人的视觉感知。

高维索引的解决方案包括：

降低特征向量的维数以及使用高效的多维索引技术。

降低维数一般而言或者用Karhunen-Loeve转换或者使用聚类技术。

多维索引技术的实例包括使用专门的数据结构（例如：

k-d树、R-树和它们的变形）。

为了解决欧几里德相似度量的局限性，研究人员提出了使用聚类和神经网络的方法。

图像语义的抽取

人对视觉内容的感知很大程度上依赖于场景的高层语义信息。

如今的计算机视觉技术只是低层次的（单个象素级的）研究。

基于低层特征的CBVIR系统只能提供如下的一些查询：

•查询所有的含有30％的红色、10％的橙色以及60％的白色象素点的图像，其中橙色的RGB定义为：

R＝255，G＝130，B＝0。

•查询所有的图像，特征为蓝蓝的天空下一片绿色的草地。

•查询所有的图像，它们是某特定图像的旋转样式。

在通常情况下，用户都试图寻找所需图像的高层语义特征，例如：

“一个漂亮的玫瑰花园”，“一个击球手打中一个棒球”或者“一辆贵重的赛车”。

在低层特征与高层语义之间并不存在一个简单直接的映射。

这两者之间的距离通常被称作“语义鸿沟”。

如今有两种方法可以用来最大程度的缩小语义鸿沟。

第一种是给图像加入尽可能多的元语言，这种方法早已被讨论过而且被认为是很不现实的；第二种是结合学习算法使用用户相关反馈技术进行大量的用户交互，使得系统能够学习理解查询操作的语义上下文。