图像语义分析与理解综述.docx

上传人:b****8 文档编号:12122218 上传时间:2023-06-04 格式:DOCX 页数:61 大小:254.83KB
下载 相关 举报
图像语义分析与理解综述.docx_第1页
第1页 / 共61页
图像语义分析与理解综述.docx_第2页
第2页 / 共61页
图像语义分析与理解综述.docx_第3页
第3页 / 共61页
图像语义分析与理解综述.docx_第4页
第4页 / 共61页
图像语义分析与理解综述.docx_第5页
第5页 / 共61页
图像语义分析与理解综述.docx_第6页
第6页 / 共61页
图像语义分析与理解综述.docx_第7页
第7页 / 共61页
图像语义分析与理解综述.docx_第8页
第8页 / 共61页
图像语义分析与理解综述.docx_第9页
第9页 / 共61页
图像语义分析与理解综述.docx_第10页
第10页 / 共61页
图像语义分析与理解综述.docx_第11页
第11页 / 共61页
图像语义分析与理解综述.docx_第12页
第12页 / 共61页
图像语义分析与理解综述.docx_第13页
第13页 / 共61页
图像语义分析与理解综述.docx_第14页
第14页 / 共61页
图像语义分析与理解综述.docx_第15页
第15页 / 共61页
图像语义分析与理解综述.docx_第16页
第16页 / 共61页
图像语义分析与理解综述.docx_第17页
第17页 / 共61页
图像语义分析与理解综述.docx_第18页
第18页 / 共61页
图像语义分析与理解综述.docx_第19页
第19页 / 共61页
图像语义分析与理解综述.docx_第20页
第20页 / 共61页
亲,该文档总共61页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

图像语义分析与理解综述.docx

《图像语义分析与理解综述.docx》由会员分享,可在线阅读,更多相关《图像语义分析与理解综述.docx(61页珍藏版)》请在冰点文库上搜索。

图像语义分析与理解综述.docx

图像语义分析与理解综述

第23卷第2期

2010年4月

模式识别与人工智能

PR&AI

V01.23No.2Apr

2010

图像语义分析与理解综述

张骏

吴克伟

(合肥工业大学计算机与信息学院合肥230009)

摘要语义分析是图像理解中高层认知的重点和难点,存在图像文本之间的语义鸿沟和文本描述多义性两大关键问题.以图像本体的语义化为核心,在归纳图像语义特征及上下文表示的基础上,全面阐述生成法、判别法和句法描述法3种图像语义处理策略.总结语义词汇的客观基准和评价方法.最后指出图像语义理解的发展方向.关键词图像理解,语义鸿沟,语义一致性,语义评价中图法分类号TP

391.4

ImageSemanticAnalysisandUnderstanding:

AReview

GAOJun,XIEZhao,ZHANGJun,WUKe—Wei

(SchoolofComputerandInformation,HefeiUniversityofTechnology,Hefei230009)

ABSTRACT

Semanticanalysisistheimportanceanddifficultyofhish—levelinterpretationinimageunderstanding,inwhichthere

are

two

keyissuesoftext—imagesemanticgapandtextdescriptionpolysemy.Concentrating

on

semantizationofimages

ontology,three

sophisticated

methodologies

are

roundly

reviewed

as

generative,discriminative

and

descriptivegrammar

on

thebasisofconcludingimagessemanticfeaturesandcontextexpression.Theobjectivebenchmark

andevaluationforsemanticvocabulary

are

inducedas

well.Finally.thesummarizeddirectionsforfurtherresearcheson

semantics

inimageunderstanding

are

discussedintensively.

Key

Words

ImageUnderstanding,SemanticGap,Semantic

Consistency,Semantic

Evaluation

引言

图像理解(ImageUnderstanding,IU)就是对图像的语义解释.它是以图像为对象,知识为核心,研

究图像中何位置有何目标(what

is

where)、目标场

景之间的相互关系、图像是何场景以及如何应用场

景的一门科学.图像理解输入的是数据,输出的是知

识,属于图像研究领域的高层内型卜31.语义(Se・

・国家自然科学基金资助项目(No.60875012,60905005)收稿日期:

2009—12—21;修回日期:

2010一01—27

作者简介高隽,男,1963年生,教授,博士生导师,主要研究方向为图像理解、智能信息处理、光电信息处理等.E‘mail:

gaojun@hfut.edu.ca.谢昭,男,1980年生,博士,讲师,主要研究方向为计算机视觉、智能信息处理、模式识别.张骏,女,1984年生,博士研究生,主要研究方向为图像理解、认知视觉、机器学习.吴克伟,男,1984年生,博士研究生,主要研究方向为图像理解、人工智能.

万方数据

模式识别与人工智能

23卷

mantics)作为知识信息的基本描述载体,能将完整的图像内容转换成可直观理解的类文本语言表达,在图像理解中起着至关重要的作用.

图像理解中的语义分析在应用领域的潜力是巨大的.图像中丰富的语义知识可提供较精确的图像搜索引擎(SearchingEngine),生成智能的数字图像相册和虚拟世界中的视觉场景描述.同时,在图像理解本体的研究中,可有效形成“数据.知识”的相互驱动体系,包含有意义的上下文(Context)信息和层状结构(Hierarchical.Structured)信息,能更快速、更准确地识别和检测出场景中的特定目标(如,识别出场景中的“显示器”,根据场景语义知识可自动识别附近的“键盘”).

尽管语义分析在图像理解中处于非常重要的位置,但传统的图像分析方法基本上全部回避了语义问题,仅针对纯粹的图像数据进行分析.究其原因主要集中于两方面:

1)图像的视觉表达和语义之间很难建立合理关联,描述实体间产生巨大的语义鸿沟(SemanticGap);2)语义本身具有表达的多义性和不确定性(Ambiguity).目前,越来越多的研究已开始关注上述“瓶颈”,并致力于有效模型和方法以实现图像理解中的语义表达.

解决图像理解中的语义鸿沟需要建立图像和文本之间的对应关系,解决的思路可大致分为三类.第一条思路侧重于图像本身的研究,通过构建和图像内容相一致的模型或方法,将语义隐式地(Implicit-ly)融人其中,建立“文本-+图像”的有向联系,核心在于如何将语义融于模型和方法中.采用此策略形成的研究成果多集中于生成(Generative)方式和判别(Discriminative)方式中.第二条思路从语义本身的句法(Grammar)表达和结构关系入手,分析其组成及相互关系,通过建立与之类似的图像视觉元素结构表达,将语义描述和分析方法显式地(Explicit—ly)植入包含句法关系的视觉图中,建立“图像_文本”的有向联系.核心在于如何构建符合语义规则的视觉关系图.第三条思路面向应用,以基于内容的图像检索(ImageRetrieval)为核心,增加语义词汇规。

模,构建多语义多用户多进程的图像检索查询系统.

解决语义本身的多义性问题需要建立合理的描述规范和结构体系.Princeton大学的认知学者和语言学家早在20世纪80年代就研究构建了较合理统一的类树状结构.如今已被视为视觉图像研究领域公认的语义关系参考标准,用于大规模图像数据集的设计和标记中,有效归类统一了多义性词语.此外,一些客观的语义检索评价标准也在积极的探索

过程中.

本文将对上述两个图像语义理解中的问题进行方法提炼和总结.针对语义鸿沟问题,介绍已有模型和方法的处理策略.还采用较完备的图像语义“标尺”(Benchmark)解决语义的主观多义性.

2图像内容的语义分析

图像内容描述具有“像素一区域一目标-场景”的层次包含关系,而语义描述的本质就是采用合理的构词方式进行词汇编码(Encoding)和注解(Annota—tion)的过程.这种过程与图像内容的各层描述密切相关,图像像素和区域信息源于中低层数据驱动,根据结构型数据的相似特性对像素(区域)进行“标记”(Labeling),可为高层语义编码提供有效的低层实体对应关系.目标和场景的中层“分类”(Categori—zation)特性也具有明显的编码特性,每一类别均可视为简单的语义描述,为多语义分析的拓展提供较好的原型描述.本节将针对前述的语义鸿沟问题介绍常用的图像语义表示方法和分析策略.2.1语义化的图像特征

图像内容的语义分析借鉴文本分析策略.首先需要构建与之相对应的对象,整幅图像(Image)对应整篇文档(Document),而文档中的词汇(Lexicon)也需要对应相应的视觉词汇(VisualWord).视觉词汇的获取一般通过对图像信息的显著性分析提取图像的低层特征,低层特征大多从图像数据获取,包括简单的点线面特征和一些特殊的复杂特征,再由鲁棒的特征表达方式生成合适的视觉词汇,视觉词汇一般具有高重用性和若干不变特性.

点特征提取以图像中周围灰度变化剧烈的特征点或图像边界上高曲率的点为检测对象,根据灰度或滤波函数确定区域极值点(如Harris角点Ho等),并拓展至不同掩膜下的尺度空间中(如高斯.拉普拉斯、高斯差分等),分析极值点的稳定特性,得到仿射不变的Harris二阶矩描述符HJ.线特征描述图像中目标区域的外表形状和轮廓特性,这类轮廓线特征以Canny算子等经典边缘检测算法为基础,集中解决边缘曲线的描述、编组以及组合表达等问题.边缘上的双切线点和高曲率点可连接形成有效的边缘链或圆弧,根据聚类策略或某些规则完成线片段编组,形成线特征的视觉词汇哺』』.区域是图像上具有灰度强相关性的像素集合,包含某种相似属性(如灰度值、纹理等),相对于点线特征,面特征有更丰富的结构信息.区域特征以点特征为中心,采用拉普

万方数据

2期高隽等:

图像语义分析与理解综述

拉斯尺度下的Harris或Hessian仿射区域描述,对特征尺度上的椭圆仿射区域内的初始点集进行参数迭代估计,根据二阶矩矩阵的特征值测量点邻的仿射形状H,J.另一种策略分析视觉显著区域对象(如直方图、二值分割图等)的熵值统计特性,得到最佳尺度下的最稳定区域,满足视觉词汇的高重用性‘10。

11|.

鲁棒特征表达对提取的特征进行量化表示.点特征一般仅具有图像坐标.线特征则充分考虑邻域边缘点的上下文形状特性,以边缘上采样点为圆心,在极坐标下计算落入等距等角间隔区域的边缘像素直方图.椭圆形面特征描述主要以尺度不变特征变换(Scale

InvariantFeature

Transform,SIFY)¨。

“1为

主,SIIT特征对每个高斯窗口区域估计方向直方图,选择峰值作为参考方向基准,计算4x4网格区域内8个方向的梯度直方图,任何区域均可转换为4

X4×8

=128维特征向量.该特征对图像尺度、旋转具有不变性,对亮度和视角改变也保持一定稳定性.通过对特征向量的聚类,得到最原始的特征词汇,形成的语义化图像特征也称为“码书”(Codebook)¨4】.2.2图像语义的上下文表达

图像的语义信息描述主要包含外观位置信息和上下文信息,前者如2.1节所述,可表示成“码书”.上下文信息不是从感兴趣的目标外观中直接产生,而来源于图像邻域及其标签注解,与其他目标的外观位置信息密切相关.当场景中目标外观的可视程度较低时,上下文信息就显得尤为重要.

Biederman将场景中不相关目标关系分为5种,即支撑(Support)、插入(Interposition)、概率(Proba-bility)、位置(Position)和大小(Size)¨卜16J.五类关系均包含“知识”,不需要知道目标信息就可确定支撑和插入关系,而后三类关系对应于场景中目标之间的语义交互关系,可缩短语义分析时间并消除目标歧义,通常称为“上下文特征”(ContextFeatures),譬如一些相对复杂的特征描述(如全局Gist特征¨7。

18|、语义掩码特征等)融入场景上下文信息,本身就包含语义(关联)信息,是语义分析的基础.如今有很多研究开始挖掘Biederman提出的三类语义关系,可分为语义上下文、空间上下文和尺度上下

文㈣.

语义上下文表示目标出现在一些场景中,而没有出现在其他场景中的似然性,表示为与其他目标的共生(Co—Occurrence)关系,可采用语义编码方式Ⅲ。

211,也可由共生矩阵判断两类目标是否相关陋瑙],此类上下文对应Biederman关系中的“概

率”关系.空间上下文表示目标相对于场景中其他目标出现在某个位置上的似然性,对应于“位置”关系.空间上下文隐式地对场景中目标的“共生”进行编码,为场景结构提供更加具体的信息,只需确定很少的目标,就可通过合理的目标空间关系降低目标识别的误差,消除图像中的语,义歧义Ⅲ嗡J.尺度上下文表示目标在场景中可能的相对尺度范围,对应于“大小”关系.尺度上下文需处理目标之间的特定空间和深度关系,可缩小多尺度搜索空间,仅关注目标可能出现的尺度.尺度上下文在二维图像中较为复杂,目前仅用于简单的视觉分析系统中Ⅲ。

27].

目前大多数上下文方法主要分析图像中的语义上下文和空间上下文.语义上下文可从其他两种上下文中推理获取,与场景中的目标共生相比.尺度和空间上下文的变化范围较大,而共生关系的知识更易获取,处理计算速度更快.融入上下文特征的图像语义形成了全局和局部两种分析策略,即基于场景的上下文分析和基于目标的上下文分析.前者从场景出发¨5’27J,将图像统计量看作整体,分析目标和场景之间的高频统计特性,获取全局上下文信息,如马路预示着汽车的出现.后者从目标出发∞挪J,分析目标间的高频统计特性,获取局部上下文信息,如电脑预示着键盘的出现.总之,上下文特征包含了更丰富的知识,有助于为图像理解提供更准确的语义信息.

2.3语义分析的生成方法

生成方法基于模型驱动,以概率统计模型和随机场理论为核心,遵循经典的贝叶斯理论,定义模型集合M,观察数据集合D,通过贝叶斯公式,其模型后验概率P(MD)可以转换为先验概率P(M)和似然概率P(DI肘)的乘积.生成方法一般假设模型遵循固定的概率先验分布(如高斯分布等),其核心从已训练的模型中“生成”观察数据,测试过程通过最大似然概率(MaximizeLikelihood)得到最符合观察数据分布的模型预测似然(PredictiveLikelihood).

图像语义分析的生成方法直接借用文本语义分析的图模型结构(GraphicalModels),每个节点定义某种概念,节点之间的边表示概念间的条件依赖关系,在隐空间(LatentSpace)或随机场(RandomField)中建立文本词组和视觉描述之间的关联,生成方法无监督性明显,具有较强的语义延展性.2.3.1层状贝叶斯模型

图模型的节点之间由有(无)向边连接,建立视觉词汇和语义词语之间的对应关系.朴素贝叶斯理论形成的经典Bags—of-Words模型是层状贝叶斯模

万方数据

模式识别与人工智能23卷

型的雏形,该模型将同属某类语义的视觉词汇视为“包”,其图结构模型和对应的视觉关系描述如图l(a)所示,其中灰色节点为观察变量,白色节点为隐变量,^『为视觉词汇的个数,通过训练建立类别语义描述c和特征词汇埘之间的概率关系,选取最大后验概率P(CJ叫)对应的类别作为最终识别结果.

(a)朴素贝叶斯(b)概率隐语义分析(C)隐狄利克雷分配(a)Na押e

bayes

(b)Pmbabilisticlatentsemanticanalysis

(c)Latent

Dirichletallocation

图l有向图语义描述

Fig.1

Semanticinterpretationofdirectedgraphs

朴素贝叶斯模型试图直接建立图像和语义之间的联系,但由于视觉目标和场景的多样性导致这种稀疏的离散分布很难捕捉有效的概率分布规律,因此Hofmann借鉴文本分析中的概率隐语义分析(Probabilistic

Latent

Semantic

Analysis,pLSA)模

型[29-30],将“语义”描述放入隐空间Z中,生成相应的“话题”(Topic)节点,其基本描述如图1(b)所示.D为肘个图像d组成的集合,名表示目标的概念类别(称为“Topics”),每幅图像由K个Topics向量凸组合而成,通过最大似然估计进行参数迭代,似然函数为P(埘Id)的指数形式,与语义词汇和图像的频率相关.模型由期望最大化(ExpectationMaximization,EM)算法交替执行E过程(计算隐变量后验概率期望)和肘过程(参数迭代最大化似然).

决策过程的隐变量语义归属满足

2’=argmax

P(z

Id),

pLSA模型通过隐变量建立特征与图像间的对应关系,每个文本单元由若干个语义概念按比例组合,本质上隐空间内的语义分布仍然是稀疏的离散分布,很难满足统计的充分条件.隐狄利克雷分配(Latent

Dirichlet

Allocation,LDA)模型旧卜321在此基础上引

入参数p,建立隐变量Z的概率分布.在图像语义分析中,变量彳反映词汇集合在隐空间的聚类信息,即隐语义概念,参数0(通常标记为仃)则描述隐语义概念在图像空间中的分布,超参a(通常标记为c)一般视为

图像集合D中已知的场景语义描述如图l(C)所示,

由参数估计和变分(Variational)推理,选取

C=argmax

P(埘Ic,7r,口)

作为最终结果.

LDA中不同图像场景以不同的比例仃重用并组合隐话题空间全局聚类(GlobalCluster),形成“场景一目标.部分”的语义表达关系.LDA中的隐话题聚类满足DeFinetti可交换原理,其后验分布不受参数次序影响,不同隐话题聚类相互独立,无明显的结构特性.一种显而易见的策略就是在此模型基础上融入几何或空间关系,即同时采用话题对应的语义化特征的外观描述和位置信息,这样不同话题的分布

大体被限定于图像场景的某个区域,如天空总是出现在场景的上方等,减小模型决策干扰.如Li等人¨4.3副在LDA模型中融入词汇的外观和位置信息,并将语义词汇描述c划分为视觉描述词汇(如sky)和非视觉描述词汇(如wind)两类,由词汇类别转换标签自动筛选合适的词汇描述.模型采用取样(Sampling)策略对从超参先验中生成的视觉词汇和语义标签进行后验概率学习,模型中包含位置信息的语义特征显式地体现了空间约束关系,具有更好的分析效果.

(a)无结构(b)全互连结构(C)星状结构(a)Unstructured

(b)Full

structure

(c)Star

structure

图2

Part・based模型表示图

Fig.2

RepresentationforPart・basedmodels

LDA模型已明确地将隐空间的“话题”语义进行合理聚类,建立与视觉词汇聚类的对应关系.隐话题聚类隐式地对应场景或目标的某些部分(parts),是一种较原始的part.based模型.真正的part—based模型侧重“目标一部分”之间的语义关联表达,不仅具有较强的结构特性,而且直接概念化隐空间的语义聚类,每个part直接显式对应语义描述(如人脸可分为眼睛、鼻子、嘴等不同部分).如图2所示,一般通过人工设定或交叉验证的方式固定重要参数(如隐聚类个数、part个数等)并混合其概率密度,其中固定参数的Dirichlet生成过程是一种有限混合.“星

群”(Constellation)模型Ⅲ‘351是其中的典型,根据不

万方数据

2期

高隽等:

图像语义分析与理解综述

I司区域的外观位置信息描述,确定P个部分的归属及其概率分布,将目标和背景似然比分解为外观项、形状项、尺度项以及杂项的乘积,依次计算概率密度值(一般是高斯分布或均匀分布),并EM迭代更新参数,最后通过似然比值判断目标的语义属性.部分问的约束关系体现于形状项中,可以假设为全互连结构(FullStructure)或星状结构(StarStructure),其结构信息体现于高斯分布的协方差矩阵中(满秩或稀疏矩阵),有助于提高语义分析的准确性.

固定参数的Dirichlet生成过程是无限混合模型的一种特例,可通过合适的随机过程,很好表达无限混合(InfiniteMixture)模型,自动确定混合个数.这种“非参”(Non-Parametric)模型可捕捉到概率空间的隐性分布,不受特定的概率密度函数形式表达限制.整个Dirichlet过程可拓展至层次结构(Hierar-

chicalDirichlet

Process,HDP).HDP具有明显的结构

特性,可以很容易对应于图像中的“场景.目标一部分”层次结构,其混合组成很显式地表达了不同目标实体间的语义包含关系.Sudderth在HDP的基础上,引入转换函数(TransformedFunction),生成转换Dirichlet过程(Transformed

Dirichlet

Process,TDP),

每组的局部聚类不再直接“复制”全局聚类参数,而是通过不同转换函数生成变化多样的局部变参,更符合目标多变特性Ⅲ-37].

层状贝叶斯模型是当前处理图像语义问题的关注热点,其模型特有的参数化层次结构信息参照文本处理直接对应图像中的语义实体,通过图模型的参数估计和概率推理得到合适的语义描述.模型本身的发展也具有一定的递进关系,即“Bags・of-Word模型_pLSA模型_LDA模型-+part-based模型一HDP模型一TDP模型”等,分析得到的结果具有层次语义包含关系.2.3.2随机场模型

随机场模型以均值场(MeanField)理论为基础,图中节点变量集合{戈;Ii∈V}通常呈4一邻域网格状分布,节点之间的边{(戈i,xj)Ii√∈y;(黾,茗j)

E}体现隐性关联,由势函数砂i,(曩,xj)表示,一般

具有含参数p的近高斯指数分布形式,每个隐节点名i一般对应一个观察变量节点Yi,由势函数砂i(氟,Yi)表示.如图3所示,观察节点可对应图像的像素点,也可对应图像中的某个区域或目标语义化特征描述(如2.1节所述),隐变量则对应语义“标记”或“标签”Z.

随机场模型具有丰富的结构场信息,节点间上下文关联很强,通常分析像素标记解决图像分割问

题.近年来,其特定的约束关系(如桌子和椅子经常关联出现)也被用于图像区域化语义分析中,隐节点集的语义标签对应不同的语义化特征和势函数取值,最大化随机场的能量函数得到的标记赋值,就是最终的区域语义标记属性.随机场模型具有较成熟的计算框架,融合其上下文关联信息的层次贝叶斯“生成”模型是分析图像语义的主流趋势‘14,33-35,38-40].

图3随机场模型及其图像语义描述

Fig.3

Randomfieldmodelanditssemanticdescription

2.4语义分析的判别方法

判别方法基于数据驱动。

根据已知观察样本直接学习后验概率P(MlD),主要通过对训练样本的(弱)监督学习,在样本空间产生合适的区分函数,采用形成的分类器或结构参数,完成对特定的特征空间中点的划分(或闭包),形成某些具有相似特性的点的集合.这些共性可直接显式对应图像理解中的若干语义信息,如目标和场景的属性、类别信息等,通常以主观形式体现于观察样本中,其本质就在于学习并获取区分不同语义信息的知识规则(如分类器等).由于语义信息主观设定(如判别几种指定类别),因此判别方法主要侧重观察样本(语义)的处理分析,而非观察样本(语义)的获取.判别方法是包含经典的机器学习方法,精确度较高且易于实现,常用于目标检测识别识别.其策略主要包括最近邻分析、集成学习和核方法.2.4.1最近邻方法

最近邻(Ji}.NearestNeighbor,kNN)方法是基于样本间距离的一种分类方法.其基本思想是在任意空间中、某种距离测度下,寻找和观测点距离最接近的集合,赋予和集合元素相似的属性集合.在图像理解中,就是在图像特征空间寻找和近似的特征描述集,将已知的语义作为分析图像的最终结果.最近邻

方法非常简单,但对样本要求较高,需要很多先验知

万方数据

模式识别与人工智能23卷

识,随着大规模语义标记图像库的出现(如后3.2节所述),最近邻方法有了广阔的应用前景,Torralba等人Hu建立80万幅低分辨率彩色图像集合和相应的语义标记,图像集涵盖所有的视觉目标类别,以WordNet语义结构树(如后3.1节所述)的最短距离为度量,采用最近邻方法分别对其枝干进行投票,选取最多票数对应最终的语义标签输出.也可直接在图像空间中计算像素点的欧式距离,得到与分析图像相类似的语义空间布局(Configuration).Russell等人【421利用最近邻方法找出与输入图像相似的检索集,通过含有标记信息的检索图像知识转化到输入图像中,完成场景到目标的对齐任务.语义聚类法还被用于视频数据库中

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 农林牧渔

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2