注意力模型的当前发展水平.docx

资源描述

注意力模型的当前发展水平.docx

《注意力模型的当前发展水平.docx》由会员分享，可在线阅读，更多相关《注意力模型的当前发展水平.docx（27页珍藏版）》请在冰点文库上搜索。

注意力模型的当前发展水平.docx

注意力模型的当前发展水平

题目：

注意力模型的当前发展水平

作者：

AliBorji,andLaurentItti

摘要：

视觉注意力的建模，特别是刺激驱动的，基于显著性的注意力，在过去25年内已经是一个非常活跃的研究领域。

现在有很多不同的模型，除了给其他领域带来理论贡献以外，这些模型已经在计算机视觉，移动机器人，和认知系统展示出成功的应用。

这里我们从计算角度综述应用在这些模型的基本概念。

我们提出了对大概65个模型的分类，提供了一个方法、性能和缺点的关键的比较。

特别是，提出了从行为研究和计算研究得出的13个标准，来量化笔记注意力模

型。

并且，我们解决了一些具有挑战的模型问题，包括计算模型的生理解释，与眼动数据库的关系，自上而下和自下而上的分离，以及构建有意义的性能指标。

最后，我们突出注意力模型的今后研究方向，为未来提出见解。

1，介绍

每秒钟有大量的视觉信息进入人们的眼睛［1］［2］。

如果没有一个智慧的机制来滤除视觉数的中的错误的数据，实时处理这些数据将是一个非常恐怖的事情。

高层次的认知和复杂处理，比如物体认知或者场景理解，都依赖这些经过这种方式【注：

一个智慧的机制来滤除视觉数的中的错误的数据】转换过的易处理的数

据。

本文将讨论的这个机制就是视觉注意力，他的核心在于选择机制的思想以及

相关的概念。

对人类来说，注意力通过已经进化为高分辨率的中央凹的视网膜

【注：

中央凹（centralfovea）:

是眼球后极视网膜上一个浅黄色的区域，称为黄斑。

其中央有一椭圆形小凹，称为中央凹】和一个底分辨率的周围区域实现的。

尽管视觉注意力将这些解剖学组织指向场景中的重要部分来采集更具体的信息，（视觉注意力模型的）主要问题是基于这个指向的计算机制。

近年来，科学研究的很多方面已经旨在回答这个问题。

心理学家研究了视觉

注意力的相关行为，比如变化盲点［3］［4］【注：

变化盲点Changeblindness是一个心理学现象，当刺激发生变化时，人们往往无法注意到】，无注意力盲点⑸【注：

无注意力盲点inattentionalblindness是我们无法注意到一些显而

易见的激励】和注意瞬脱［6］【注：

注意瞬脱attenionalblink是指在一个连续

的注视过程中，我们会短时间内无法注意到一些显著的物体或者其他东西】。

神

经生理学家证明了神经元是如何适应自己来更好的感知感兴趣的物体［27］［28］。

计算神经科学家已经构建了现实的神经网络模型来模拟和解释注意力行为（比如［29］［30］）。

受这些研究的鼓励，机器人学家和计算机视觉科学家已经试图解决计算复杂度的内在问题来构建能够实时工作的系统（比如［14］［15］）。

尽管现在在以上提及的研究领域已经有很多模型，这里我们仅讨论能够计算图像或者视频的显著图的模型（见下节的定义）。

对于计算视觉注意

力的计算模型的一般综合，包括偏向竞争［10］，选择调节［15］，注意力模型的规范化［181］，和其他模型，参考［8］。

从心理学、神经生理学以及计算角度出

发的注意力模型的综述，参考[9][77][10][12][202][204][224]。

图1显示

了注意力研究的分类，并突出了我们的综述范围。

'CartnecMFiK：

■上unFeilt^licnsvir&nwhile附termow:

u^*

fwrtiDnvbelievedtobepe-riofHiffljbyneunm^.arneurafnrework:

Fig,1,Taxonomyofvisualattentionstudies.Ellipseswithsolidbordersillustrateourscopeinthispaper.

1.1定义

尽管术语attention，saliency和gaze经常被相互替换使用，但是他们之

间有更细微的描述他们的定义。

注意力attention是一个普遍概念，覆盖了影响选择机制的各个方面，无论

他们是场景驱动的自下而上的机制或者是预期驱动的自上而下机制。

显著性saliency直觉上刻画了场景的一些部分，可能是物体或者区域，这

些部分似乎相对他们的临近区域突出。

术语“alient”通常在自下而上的计算模

型[18][14]中提及到。

Gaze，一个眼睛和脑的协调运动，通常被用作注意力在自然行为中的代名词。

（见[99]）。

比如，一个人或者一个机器人必须和周围的物体进行交互，在场景中移动是控制注意点来执行任务。

从这点讲，注意点控制同时集视觉，行

为和注意力来执行感觉运动协调，这是某些特定行为（比如到达reaching和理

解grasping）所必须的。

1.2起源

很多注意模型的基础能够追溯到Treisman&Gelade's[81]，他们提出的

特征整合理论”陈述了那些视觉特征是重要的以及他们如何组合来在弹出式的和连续的搜寻任务中引导人们的注意力。

KochandUllman[18]提出了一个前

馈模型来组合这些特征，并引入了saliencymap的概念，saliencymap是表

示场景位置突出性的地形图。

他们同时引入了一个winner-take-all神经网络，

这个网络选择最显著的位置，利用返回抑制机制使注意力焦点移向下一个最显著的位置。

一些系统随即创建出来，利用相关模型来处理数字图像[15][16][17]。

Koch&Ullman模型的第一个完整的实现以及验证由Itti等人[14]提出（见图2），并应用于人造场景和自然场景。

从此以后，这个领域受到持续的关注。

基于不同对注意力模型的假设的各种各样的方法涌现出来，并在不同的数据库上进

行验证。

在接下来的章节中，我们提出一个统一的概念框架，在这个框架下我们将讨论每个模型相比其他模型的优点和缺点。

我们将给作者深入的分析关于注意

力模型的当前技术的发展，确定当前依旧面临的问题。

Fig.2.NeuromorphicVisionC++Toolkit（iNVT）developedatiLab,USC,http:

/川abusc.edu/toolkitAAsaccadeistargetedtothelocationthatisdifferentfromitssurroundingsinseveralfeatures.Inthisframefromavideo,attentionisstronglydrivenbymotionsaliency.

对注意力建模的主要关注点在于如何，何时以及为什么我们选择行为相关的图像区域。

由于这些原因，提出了一些定义和计算视角。

一个通用的方法是从前期人类视觉系统（earlyhumanvisualsystem）的解剖学和功能性来获得灵感（比如［14］［15］［16］［191］）。

另外，一些研究假设视觉注意力服从那些函

数，并将它形成一个计算框架。

比如，大家一致认为视觉注意力能吸引更多的信息［144］，更多的意想不到的场景区域［145］，或者关于一个任务的最大化回报［109］。

1.3经验基础

注意力模型通常通过观测者的眼球运动来验证。

眼球运动传达了关于认知过程的重要信息，比如阅读、视觉搜索和场景感知。

因此，他们通常被看做是注意力转移的表达方式。

比如说，在场景感知和视觉搜索中，当激励比较混乱时，注意点会变得更长，同时扫描线变得更短［19］。

任务的难度（比如说全面阅读对主旨阅读，或者在场景中寻找人对用于记忆力测试的图像浏览）明显影响着眼球

运动行为［19］。

尽管注意力模型和眼球运动预测模型经常用眼球运动数据进行验证，但是在范围、方法、激励以及细节的层次上存在着细微的差别。

眼球运动预测模型（扫描规划）试图理解注意力的数学支撑和理论支撑。

一些实例包括搜

索过程（比如优化搜索理论[20]，信息最大化理论[21],Mr.Chips:

—个理想观测者的阅读模型[21],EMMA（眼球运动和注意力运动）模型[139]，控制眼球运动的HMM模型[26]和约束的随即游动模型[175]）。

为了这个目的，他们通常使用简单可控制的激励，同时另一方面，注意力模型利用启发的、认知的和神经特征的组合，以及机器学习和计算机视觉的一些工具，来解释在简单和复杂

场景的眼球运动。

注意力模型同时关注实际实用性。

对于所有的眼球运动模型的综述超出了本文的范围。

感兴趣的读者参考关于眼球运动的研究[22][23][127]

和眼球跟踪应用的宽度优先的调查[25]。

注意到眼球运动并不总是表示出真实的事实，而且存在着其他度量标准来衡量模型。

比如，正确报告图中一次变化的准确性（也就

是search-blindness[5]），或者预测能够被记住的那些视觉吸引东西，这些

能显示出单独分析眼球运动所或略的注意力的重要方面。

很多视觉搜索的注意力

模型用精确估计反应时间（RT）（比如，RT/setsizeslopesinpop-outandconjunctionsearchtasks[224][191]）。

1.4应用

本文中，我们将关注描述模型本身。

但依然有很多关于今年来提出的模型的技术应用，并对注意力模型的关注度会进一步的增加。

我们对模型的应用分成三个类别：

视觉和图形，机器人和图3所示的其他领域。

AppdrcaDon

Refsrsncss

M噹卜毡才日亘肝EbigSD03.Mfli_mel課口口0

Imagequality

b^lamriZhan^iSDO0Nirai^iatsLs2007

imogeimortoJliriFg

5"话才isFOOB.Sag;pcaiofiie,ZC09Fnntnaoan-d_5rnz^wt.

□QCD

Imoyicrernicnngi

DsCorlQandSantsrla.ZOOS1

Imagieandvideosinpfuziad

Ouerf^Hn工戟Z0O3.R*Z0O4GoemdZhsng,2010

Imagethumbnailinjg；

r/BrEJhaiB&atsi..ZOCSLah*»_.ra-a.2CC9SGuh«si..ZQDS

Image&uipeF

Jacab^anata.ZC1□

ImageFE-targrting[thumibnBiing]

Dwthjratal.,ZODS.Chamarnt«al..2OCJE3,Gcrfinnmariaia2010.氏MdEoaftal.,2009,Msrc^osGttXaLZOOS3Mow衣el.ZOCC*Si>iH£aLi2DD3

ImogcwprrmolmtiQrii

OsdokAomdoram.^CC5

Wde口&urnrneiriEeei»

忖怕rw实el,Z007akeZCO5

GcexcXBNHiicaticn

Samian»nafttCOO3

ONbj&o%

Fnntrffp,2006.No^rparkHi^and帕”^GCSPrrt=atalsZDGSButkobhcMqi/iqIanZDC5,VidIhandJena^,2DC4Ebfigar工»□CJD3

GaliencstreetdetrHXiian

LJu«a2DC7.Gisformarfit.◎二口1□.Achamastal..ZCHD3Asascr,2DCB・

Objecxre&agnitAcm

3i曲做nL2002内“叶*x亦.2006and2007.Frntrup2005卜冷:

EaiaZ：

COS,总■口«rdwac»n»b=200^■门口20CSHararidVascciH>ce^c=iZD1CPslamazalZ'ZZOS.

VisualtmcJkmg

andVau^f^calEK；.2□□□.PmtFQp2C10

lDyn«mKl^ghtins

la^EbNo^ZOCS

sheidctre&CHi

目口ggrhjK砂ZC05

IntereMp«Motdetectinn

Kadrend：

Sr七*2001.ataL,2CMJ7

Aut^matacuILbq皀ereatian

Gafarmsfl«sL.231□Uan才mbI..Z：

Q□呂

Face^^mentatjDneodtra&king

UandMgsn.ZDOO

AeItvewision

F/«rt=Eh'ngoral.,V1jB^ku.inBr«a2001JarZOD7Sarji

ataL,201□

HobaCLocalization

DaigiBnsmata.2CO3,Ounrhenr曰fai..ZDC5

HoibatNavigAian

Sa^.sardPomerlBu,1357□tch6>BrandEgnarU5忌7

Humanj-rebotinteractic^n

目8X001,1393,I^Qid*mannmw2CX34bslardirar：

2DOO,Nsgat,2009^MuhL3007

Syn0iedEacviswniffinr□rmuloted]a>dors

CountyaridMarehcrid,^003

AdverbHeg

RndiriigWrnonmmeNnmDgrBms

RasflnhDitzatsL2011,Liuata.2DCB

HongnndSmshy2DOS

Pancicst□SOI□

HcvnaiipromiiCSV'S

Fig.3.Someapplicationsofvisualattentionmodeling

1.5本文的申明和组织

注意力很难正式定义成一个被广泛接受的方式。

然而，从计算角度来看，很多注意力模型（至少那些在自由注视的眼球运动的前几秒上测试的模型）能被统

一到以下的普遍的问题称述中。

假设K个观察员看了N副图，令*是眼睛注视点以及他们对应的时间*。

对于第i副图的k个观察员的注视点的个数用*表示。

注意力模型的目的是找到一个函数（stimuli-saliencymap）*，这个函数最小

化眼睛注视点预测的误差，也就是*。

这里一个重要的点是以上的定义更好的符合自下而上显式注意力模型，也许并不总是覆盖视觉注意力的其他方面。

（比如

显式注意力或者top-down因素），这些不能用眼球运动来解释。

standpointmanymodelsofvisualattention（atleastthosetestedagainstfirstfewsecondsofeyemovementsinfree-viewing）canbeunifiedunderthefollowinggeneralproblemstatement.AssumeAsubjectshaveviewedaseiofNimagesI=■{/..LotL：

=■[J■'■,bethevectortU

eyefixations（saccades）比=（爲忒]）andtheircorrespond*ingoccurrencetime第forthek~ti\subjectoverimageLetthenumberoffixationsofthissubjecloveri-thimagebenJ.Thegoalofattentionmodelingistofindafunction（stimuli-saliencyTmapping）fEJ~whichminimizestheerroroneyefixationprediction,i.e,刀驚刀二】"烦廿）丄第whgremGMisadistancemeasure（definedinsection27）.Animportantpointhereisthattheabovedefinitionbettersuitsbottom-upmodelsofovertVisualattention,andmaynotnecessarilycoversomeotheraspectsofvisualattention（e,gwcovertattentionortop-downfactors）thatcannotbeexplainedbyeyemovements.

这里我们对主要的应用于任意图像的注意力模型进行系统的综述。

第二章将

介绍分类这些模型的几个因素。

在第三章，我们根据这些因素总结和分类视觉模型。

第四章讨论这些模型的局限性和所遇到的问题。

第五章对全文进行总结。

2分类标准

我们从引入13个标准f1...f13开始，这些标准将用来对注意力模型进行分类。

这些标准都源于注意力在行为和计算方面的研究。

一些标准描述了模型（fl，f2，f3），其他的（f4...f7，f12，f13）并不直接相关，但是他们对于觉得这些模型的实用性非常重要。

2.1Bottom-upVSTop-down模型

模型之间一个主要的差别是他们是否依赖bottom-up因素（f1），

top-down因素（f2）或者是二者的组合。

Bottom-up因素主要基于视觉场景的特性（激励驱动）［75］，而top-down因素（任务驱动）由认知现象如知识、期望、奖励和当前任务决定的。

由bottom-up方式吸引我们注意力的感兴趣区域必须充分地不同于与其周

围特征。

这种注意力机制同样叫做外在的，自动的，灵活的或者周边的因素［78］。

Bottom-up注意力是快速的，无意识的，并最可能是前馈的。

一个典型的

bottom-up注意力的例子是看一副在有很多条垂直条纹中只有一条水平条纹的场景图中，注意力马上就会被吸引到水平条纹上[81]。

尽管很多模型属于这一

类型，他们仅仅解释了眼球运动的一小部分，因为大多数注视点是由任务驱动的

[177]o

另一方面，top-down注意力比较慢，任务驱动，有意识的和闭合回路的[77]0top-down注意力最著名的例子是来源于1967年的Yarbus[79]，他展示了依靠当前任务的眼球运动的如下实验：

测试者要求在不同的条件（问题）下

看同一场景（在有一家人的房屋中，一个不速之客进入房间），这些问题包括：

估计这个家庭的物质环境”，人们的年龄是多少”，或者简单的仔细观察场景。

对于以上不同的例子，眼球运动明显不同。

模型探索了三个主要的针对特定问题的top-down因素的来源，这个问题是：

我们如何觉得看哪里？

一些模型解决了视觉搜索中，注意力被吸引到我们要

寻找的物体的特征上这样的问题。

另外一些模型探讨了我们在场景中看到的位置的内容或者主旨（gist）的角色。

在某种情况下，很难准确的说我们在场景中看哪或者看什么，因为由一个复杂的任务管理眼睛的注视点，比如在开车的过程中。

虽然原则上，任务要求注意力包含其他两个因素，在实际中，模型往往分开关注

他们。

场景布局也被看作是top-down注意力的一个来源[80][93]，并在这里与场景内容一起考虑。

1）,物体特征。

有相当多的关于在现实世界搜索任务中存在目标驱动的注意力指引（attentionguidanee的证据[84][85][23][83]。

在经典的搜索任务中，

目标特征在一个无处不在的注意力指引的来源[81][82][83]。

考虑在简单的目标箭头是红色的箭头簇中搜索：

注意力快速地指向那个红色的箭头。

拿这个与更负责的目标物体做比较，比如说自然情景中的行人，这种情况下尽管很难定义目标，但是依然存在一些特征（比如直立形式，圆头，直直的身体）指引视觉注意力[87]。

引导搜索理论[82]提出注意力能够偏向于感兴趣的目标，通过调整贡献于注意力的不同特征的相对增益。

回到我们以前提出的例子中，当看一个红色的物体，一个很高的增益赋给红色。

Navalpakkam等人[51]提出优化特征组合（BU显著模型[14]的通道）按照最大化目标与背景的信噪比来检测目标。

在[50]中，将一个基于物体唯一性的准则的加权函数，在将每幅图加起来之气，作用到每幅图中来定位物体。

Butko等人[161]基于由Najemnik等人[20]在

一个特定中进行人脸检测和跟踪的观察框架中陈述的相同的视觉搜索原理，构建

物体搜索模型，但是他们没有利用这么模型解释在搜索人脸中眼睛注视点。

Borji

等人[89]用进化算法在一个基本的显著模型参数空间中搜索来寻找目标。

Elazary和Itti[90]提出了一个模型，该模型中top-down注意力能调整首选特征（比如一个特定的灰度）和调整特征检测器的宽度，从而给出相比调节固定特

征检测器的增益模型而言很灵活的top-down调整模型。

最后但是并不是不重要的研究包括［147］［215］［141］，他们都是从制定目标物体搜索的方法出发提

出一个显著性度量方法。

前面提到的关于在视觉搜索中物体特征的角色的研究与计算机视觉中的物体检测非常相近。

一些物体检测方法（比如DeformablePartModelby

Felzenszwalb等人［206］和theAttentionalCascadeofViolaandJones［220］）对于一些物体，如小汽车，人以及人脸有很高的检测率。

与认知模型相比，这类方法通常是纯计算方法。

关于这两个领域如何相关的研究将可能对双方领域都带来好处。

2）场景内容。

当简要的展示一副图时（小于或等于80毫秒），一个观察

者通常能够描述场景的核心特征［176］［71］。

这是一个非常粗糙的场景表示，通常叫做主旨gist”，不包含单个物体更多的细节信息，但是能够提供足够的粗糙

场景区分信息（比如室内场景和室外场景）。

意识到这点很重要：

gist并不显示

场景的语义类别。

ChunandJiang［91］证明了那些位于相对一些背景重复出现

的结构中的物体能够很快的被检测到［71］。

在特定场景中物体间的语义关联（比如电脑通常在桌子上）或者内容信息同样在指引眼球运动中起着重要的角色［199］［84］。

已经存在一些关于利用不同类型的底层特征的gist模型。

Oliveand

Torralba［93］在图像上计算非重叠窗函数傅里叶变换的幅频。

他们接着利用主成分分析（P

展开阅读全文