图像理解与机器视觉论文.docx

资源描述

图像理解与机器视觉论文.docx

《图像理解与机器视觉论文.docx》由会员分享，可在线阅读，更多相关《图像理解与机器视觉论文.docx（8页珍藏版）》请在冰点文库上搜索。

图像理解与机器视觉论文.docx

图像理解与机器视觉论文

图像理解与机器视觉报告

课程编号：

0441012

课程名称：

《图像理解与机器视觉》

课程学分：

3.0

学生姓名：

***

学号：

**********

学科专业：

控制工程

导师：

***

机器视觉动态目标跟踪

高黎

Abstract

Thisdissertationconsistssomeparts.Themajorworkdissertationinclude:

1.Introducetheresearchofactivemachinevision,theimportantoftheprojectwhichintroducedtheattentionselectandobjecttracking.Throughthispart,wecanunderstandthestructureandtheresearchoftheproject.

2．Inordertounderstandactivemachinevisioninmoredetail,westudyedtheprincipleofactivemachinevision,analysisthemechanicalandinformationtransmissionmodelofthesystem.Designedsystemstructure,analysiseditscharacter.onthebaseofprinciples,welistsomekindsofcameraheads,giventhedesignatlast.

3.Imagesareinputofbinocularvisionsystemwhenresearchobjecttrackingandcoordination,manyimagedisposealgorithmsareused.Stereovisionmethodisusedinfixation,togetspacialpositions.sothispartanalysisedimagedisposeandstereovisionmethods.

4.Researchtrackingandalgorithmofcoordinationofmulti-DOFsystem,simulationsandexperimentsweremadetoverifythealgorithms.Finally,thepaperpointouttheproblemsandproposethefieldsofthefutureresearches.Thefirst,therealtimetrackingisinfluencedbydelayofmechanicalfactorsandspeedofimagedispose;thesecond,noiseshouldconsiderinfurtherresearch;thethird,someproblemasoneeyeofcamerasbeblindedshouldbeconsiderd.

摘要

本文的主要工作有以下几个部分：

1．讨论了主动机器视觉系统的原理，分析系统的机理模型和信息处理模型，并设计系统的硬件结构。

在系统原理的基础之上，给出了系统的功能模块。

2．图像是双目视觉系统的输入信息，研究动态目标跟踪和多自由度协调控制的时候，要用到很多图像处理算法和立体视觉方法，本文介绍了有关的图像处理方法和立体视觉方法。

3．主动机器视觉系统的基本功能是完成注意力选择、定位、跟踪。

跟踪是个重要的部分。

目标的跟踪是主动机器视觉的任务之一，是为上层认知与识别层提供所需信息的途径。

4.进行了主动机器视觉系统动态目标跟踪和多自由度协调控制实验和仿真研究。

由于这个系统涉及到图像处理、立体定位、标定等问题，甚至还有高层的图像描述问题，所以这里先主要研究系统结构中的参数（基线长度）B的选取；然后对图像处理算法和多自由度协调控制算法进行试验和仿真，分析了实验和仿真结果。

虽然对主动机器视觉动态目标跟踪的研究取得了一些成果，但是还有一些问题需要进一步的研究。

首先，研究中没有对系统的实时性进行分析。

由于机械滞后和图像处理耗费大量时间，系统的跟踪速度很慢，可以通过改进硬件和跟踪算法来提高跟踪速度。

其次，研究中没有考虑环境的影响，如背景噪声，障碍物遮挡等。

在以后的研究中应该考虑如何在噪声影响下进行跟踪。

关键词：

多自由度协调主动机器视觉动态目标跟踪

引言

视觉是人类观察、认知世界的重要手段。

人类获取的信息75%来源于视觉，这既说明视觉信息量巨大，也表明人类对视觉有较高的利用率。

人类视觉过程可看成是一个复杂的从感知（感受到的三维世界之二维投影得到的图像）到知觉（由二维图像认知三维世界的内容和含义）过程。

视觉的最终目的从狭义来看是要对场景做出对观察者有意义的解释和描述，从广义上来讲，还包括基于这些解释和描述并根据周围环境与观察者的意愿制定的行为规划。

计算机视觉是指用计算机实现人的视觉功能——对客观世界三维场景的感知，识别和理解。

主要有两类方法：

仿生学方法，参照人类的视觉系统的工作原理，建立相应的处理模块完成类似功能；另一类是工程方法，从分析人类视觉过程的功能着手，并不刻意模拟人类视觉系统的内部结构，仅考虑系统的输入和输出，并采用任何现有的可行的手段实现系统功能。

现在研究者关注的问题是：

怎样在理解人类视觉的基础上，开发拟人化的视觉系统并研究机器如何凝视或者跟踪相对运动的目标。

一、跟踪方法的介绍：

主动视觉摄像头的基本功能是注意力选择、定位、跟踪，跟踪是个重要的部分。

目标的跟踪是主动机器视觉的任务之一，是为上层认知与识别层提供所需信息的途径。

对于人类来说，跟踪使目标始终处于视野之中；对于主动机器视觉系统来说，跟踪主要是由目标的图像信息来控制摄像头的运动，使目标位于摄像头所采集的图像中，这和人类的视觉是极为相似的，跟踪过程分为两种，平滑跟踪和跳跃跟踪。

本章介绍了动态目标跟踪的基本方法，与跟踪有关的要素，以及对摄像头的多自由度控制算法，最后是有关分析。

1、传统方法:

实现跟踪的方法很多，传统的视觉引导机器人的控制方法均采用纯视觉方法，即由图像信息抽取后驱动机器人运动。

后来提出了一个视觉与控制集成的设想，跳过图像信息的提取过程，直接利用目标图像与实际图像之间的误差反馈引导机器人运动，其困难在于如何寻找到一种图像与机器人之间的数学描述。

为此，采用了新的图像误差反馈控制方案，与前种方法相比期望值是期望图像，特征提取部分代之以图像采集。

以上方案成为基于视差的图像自适应反馈控制方案。

控制算法只与图像边界有关。

它的特点是：

直接以图像为控制目标，因此精度与待跟踪的物体有关；由于学习（离线时）过程中标定误差和系统非线性因素存在于期望中，因此这个方案受标定及非线性影响小；利于并行实现。

2、动态目标跟踪的最优控制算法:

可以利用最优控制来进行动态目标的跟踪。

控制目标是运动物体，让运动目标的特征点在像平面上的投影点处于期望位置，通过伺服系统使摄像头实现对特征点的跟踪。

采用最优了控制算法，通过最小化一个代价函数来求得控制规律，代价函数允许对特征点的位置误差、控制信号和控制信号的变化加权。

实验表明，控制结果是收敛的，但振荡太大，无法实际应用。

可以考虑对算法进行改进，考虑积分作用的影响，设计时变加权矩阵。

基于立体视觉的无标定视觉跟踪:

近年来无标定方法引起了关注，其核心思想是在摄像机模型未知或不精确的情况下，利用视觉反馈误差规划目标的运动，从而完成视觉伺服、跟踪任务。

以机械臂为例，问题的关键是如何将视觉空间的误差信息影射到机械臂所在的三维运动空间中去。

利用图像jiacobi矩阵描述该影射关系，以完成伺服，但是jacobi矩阵方法难以应用于目标和摄像机同时运动的情况，所以此方法局限性太大。

滤波器法与光流法：

在过去的20年里视觉分析和跟踪得到了广泛的关注。

在航空控制领域，2D和3D空间的跟踪在视觉领域之前已经研究多年了。

所以视觉跟踪的使用的技术都是经过实践的。

大部分的跟踪策略是基于统计的滤波理论，为了降低躁声、进行预测。

在应用过程中，Kalman滤波器被广泛使用。

Kalman滤波器是一种最小方差估计技术，运用的是Bayesiangu方法进行估计、预测和进行决策。

它的优点是简单，而且允许保存推测过程中的状态，通过噪声传感器。

因此它覆盖了大部分自然系统中的多种情况。

最初的滤波器只能用于线性系统中，因此引入了扩展Kalman滤波器EKF。

这种滤波器在当前参数附近把非线性系统扩展为线性系统。

滤波器被许多研究者应用于图像的特征跟踪，当观察者或目标运动时，目的是为了得到并保持有关运动的信息。

最典型的是一种预测-匹配-更新方案。

滤波器运用一个模型，这个模型以将出现在预测位置的运动类型的主导信息以及从前面测量得到未来的速度和加速度为基础。

预测状态信息将用来与新得到的数据匹配，以更新现有的状态估计。

上面的视觉跟踪过程相对较简单，但是它描述了大多2D图像的运动分析系统，象Polana和Nelson,1993及Crowley,1988等提出的操作。

应当注意的是2D模型是3D的一个子部分。

有人提出了抽象的3D模型的结构。

这些工作是Kalman方法用于重建的典型，依靠基于特征的图像描述，稀疏重建可以得到。

Grosso在Kalman滤波框架下把运动和立体信息集成来进行稠密重建与别的基于特征的技术不同，它不能用于动态场景，因为计算量太大。

实际上面提到的不能叫做主动视觉，因为在主动视觉系统中传感器是要直接的参与视觉过程，例如主动参与跟踪过程。

以前人们的工作是研究没有传感器影响的图像序列，现在的主要工作就是3D重建和运动的描述。

尽管（被动）跟踪和从二维信息进行3D重建的滤波方法被证明是很有用的，但是人们也在研究其它的方法，光流法就是一种。

以灰度的应用为例子，它涉及到许多算法，但其计算方面有很大的不确定性，所以实用还要改进。

经过改进后可以用于车辆的导航。

光流法的前景很好。

但通常对场景的限制要更严格一些，和滤波法相比，光流法需要更多的关于视觉系统的知识；快速的计算能力也是光流法所需要的。

而滤波方法更依赖于具体的模型，也就是要规划目标的映射在图像中的运动。

大部分方法都没有应用于摄像头的控制，或者控制别的传感器，为此，相关的技术正在探索。

许多的摄像头的控制依靠具体的设计方案，视觉过程只是作为获取控制信号的模块，这些信号使用光学方法控制摄像头，不象滤波或光流法以2D和3D运动计算为基础，控制方法在每个采样间歇决定目标的位置并由此导出当前的速度和位置。

然后位置和速度反馈作为PD/PID控制器的输入信号。

通过与硬件控制器的交互系统呈现连续性，回避了对2D和3D目标状态的内部模型的需要。

制做KTH头的研究者建议把对目标状态的跟踪集成在视觉过程本身之中。

证明状态跟踪比只不断为控制器提供新的采样效果要好，特别是出现拟合时。

另一个优势是这种跟踪可以用来限制当前图像与先验目标形态的匹配，因此当存在多种解决方案时可以更可靠的选择正确的匹配。

图1更新匹配的跟踪策略

图1是基本的视觉跟踪过程，扑捉图像并进行特征的提取，例如位置信息。

这些特征被送到跟踪模型之中，在那里与预测特征值进行匹配。

匹配的特征更新，剩余的（unmatched）作为新的特征进入模型.图4.1只描述了一个滤波器，实际上摄像头需要左右各一个来提供图像数据。

数据当然通过集成用来控制偏移角（version）和倾斜角（tilt）,至少version需要两个摄像头的信息以保证与目标对齐（主要是水平方向的）。

实际上version依靠部分目标运动的3D重建，因为它是基于中央眼（cyclopean）的，并不和左右任一个摄像头的视线等同。

二、多自由度协调控制算法

1、多自由度协调控制算法的研究

在中央眼坐标下通过角度与电机角度的关系，用近似计算来求出version。

尽管计算是为了得出实际电机角度与几何坐标系下角度的关系，同时也明确获取何种信息。

因为理想情况下的两个摄像头是和vergence电机角度坐标对齐的，基于视觉的测量和电机系统是直接相关的，这就是说，计算期望的version角度需要确定目标在图像平面中的坐标。

通过计算目标在左右两幅图像中的坐标的平均值，version就可以通过计算来确定了。

同样计算目标映射在两个图像平面的坐标差值即可以计算出vergence。

这是很基本的过程，但却是构建基于定位的视觉系统最直接（简单的）的途径。

因此测量目标投影在图像平面中的位置，并计算它到图像中心的距离即可得到期望的参数（尽管在估计角度中也需要焦距）。

要注意的是视觉信息是相对的，也就是说导出的不是绝对的角度，只是对当前version/vergence的偏移量。

对一个依赖于伺服的系统来说，定性的计算偏移距离就足够了，这相当于知道了近似的焦距。

2、多自由度运动协调相关角度的计算

这部分将讨论多自由度vergence、version、tilt之间的关系。

下面的示意图描述了三个角度的定义。

上图的左边给出了tilt角度γ，b是两个摄像头之间的基线的长度，P（X,Y,Z）是三维几何坐标中定位点的坐标，φ是version角，θ是vergence角，lα，rα是对应的vergence电机的角度。

从图上我们可以看到vergence是两个摄像机的光轴的交角，对应于左右两个电机角度的和vergence有下面的式子给出：

tilt角度的推导如下：

version角是从中央眼到目标的注视方向，中央眼位于基线的中点（两个光轴和旋转的中心），考虑pan电机的因素，因为它影响着注视角φ。

可以推导出下面的两个关系式

从上面的图中，Xr=Xl-b并且从目标导基线的垂直距离叫做深度Z，下面的式子从立体的vergence计算深度：

水平的距离X同样可以计算出来，因为X=X-b/2,有下面的公式：

version角φ有正切函数关系求出：

从上面的计算看出求解version远比别的角度复杂。

当角度很小的时候，正切函数的值可以和角度对应起来，即下面的等式：

用上面的近似公式算得的角度误差很小。

从应用来说，vergence通常很小，大约在20度以下，即使是在vergence到15度时，相对的误差仍低于5%。

3Version角φ的补偿算法

主动机器视觉系统的结构演变经历了几个阶段。

从最初的单目的摄像头系统到后来的基于中央眼的结构，这种结构中有一个摄像头作为主导眼，另一个作为辅助眼，辅助眼的运动完全跟从主导眼，这样的结构很简单，但是灵活性小；目前人们的研究主要是双目的系统，为了对两个摄像头进行独立的控制，主要是整体旋转自由度和摄像头旋转自由度的协调，补偿算法被引入。

这里先研究pan和version的关系。

在前面的章节中讲到，对pan的控制是独立的，控制电机使之向减小version的方向运动，但是这影响到version，所以要进行vesion的补偿。

第二章中定义的version是物体与中央眼的连线与Z轴的夹角，这样的version是非线性的，即使对静态物体的定位也是这样。

所以,应用中把原来定义的version（φ）与pan的转动角度进行叠加，进行补偿，如下面的图所示：

（1）上图所示的是version为零，pan为零的情况。

（2）是pan仍然为零，但是注视角度为φ′。

（3）是两个角度均不为零的情况，此时φ′=φ+λ。

补偿减小了非线性，有利于应用线性卡尔曼滤波器（常速度），但是把定位点转换到几何坐标中变得困难了，尽管高层的视觉信息可以在基于中央眼的坐标中描述，但是通常人们喜几何坐标描述，所以在通用的系统中进行转换还是需要的。

简单的方法是假设两种坐标是对齐的，但是有一些问题，如下图所示，在两种描述中，相对于verson的注视角度没有变（几乎都是零度），但是vergence角改变了，由1θ增大到2θ，结果就是vergence的变化是pan的变化的函数，见下图4.7。

当vergence角变化的时候，pan进行补偿使得version为零。

Vergence增大了，好像物体离摄像头近了，实际并不是这样.一般的，当pan对versoin进行补偿的时候vergence表现为增加。

要注意的是对快速移动的目标，vesion不是总为零的，因为pan电机的运动及加速较慢，结果导致了下面的情况：

如果注视的方向用前面的第二章的定义，当pan进行补偿时物体象是在向摄像头运动。

一个例子是，当一个物体平行于基线作直线运动，由于计算的距离问题，使得物体看起来是绕摄像头作圆弧运动，但是这对跟踪没有影响，因为对转换成几何坐标的影响很小。

结论：

本文介绍了目标跟踪的几种典型的方法以及目标跟踪算法的研究进展；然后分析了本文用到的双目摄像头系统的多自由度的协调控制问题，提出了一种整体的协调控制策略；再次，讨论了协调控制中有关角度的计算问题；最后研究了Version角φ的补偿问题，提出了补偿算法。

参考文献

1.马颂德，张正友.计算机视觉.科学出版社，1998

2.容观澳.计算机图像处理清华大学出版社，2000

3.雷成，主动视觉，计算机学报，vol.23,no.11,2000

4.[GrossoandBallard]HeadCenteredOrientationStrategiesinAnimateVision.inProceedingoftheFourthIntertionalConferenceonComputerVision,may,2009.IEEE

5.[Ballard]animatevisionandartificalintellgence2008

6.[Krotkov]EricPaulKrotkov.Focusing.intertionalJournalofComputerVision,1987

7.[Krotkov]EricPaulKrotkov.ActiveComputerVisionbyCooperativeFocusandStereo.SpringerVerlag,NewYoek，2002

8.[Carpenter]R.H.SCarpenter.MovementsoftheEyes.Pion,London,2nd.edition.2009

9.[Chridtensen,etal]H.I.Christensen,K.W.Bowyer,H.Bunke,editors.ActiveRobotVision.SeriesonMachinePerceptionandArtificialIntellgence.WorldScientific.2008

10.[Hubel]D.H.Hubel.Eye,BrainandVision,W.H.FreemanandCompany,1988

11.[Marr]vision,Freeman,NewYork,USA,2009

12.[Matthiesetal.]LarryMatthies,TakeoKanade,andRichardSzeliski.Kalmanfilterbasedalgorithmsforestmatingdephfromimagesecquences.internationaljournalofcomputervision,2010

展开阅读全文