cvpr 全文翻译MultitargetTrackingbyContinuousEnergyMinimizationWord下载.docx

资源描述

cvpr 全文翻译MultitargetTrackingbyContinuousEnergyMinimizationWord下载.docx

《cvpr 全文翻译MultitargetTrackingbyContinuousEnergyMinimizationWord下载.docx》由会员分享，可在线阅读，更多相关《cvpr 全文翻译MultitargetTrackingbyContinuousEnergyMinimizationWord下载.docx（19页珍藏版）》请在冰点文库上搜索。

cvpr 全文翻译MultitargetTrackingbyContinuousEnergyMinimizationWord下载.docx

但是在相同目标的不同位置之间和不同的目标之间，存在数个物理约束导致的依存关系。

例如，每个对象的线速度和角速度必须在物理上是合理的，任何两个物体之间的距离不能任意小。

由于离散轨迹并非相互独立，最大化他们的联合后验概率一般是NP-完全的。

加之（而且），对象间遮挡会导致外观上的变化和证据的缺失。

为了解决对象之间的相互作用，最近提出了几种方法，旨在通过将它们构建在同一个模型中，以找到联合的解决方案，而不是单独的跟踪每个目标。

通常通过限制状态空间为有限的候选位置来实现，或通过阈值化观察似然性，或者通过规则离散化位置空间。

离散化、加上物理约束的一定简化后，就可以构造一个能找到（近似）全局最小值的能量函数。

当然，此特性很有吸引力，但其代价是构造的能量函数只能粗略近似潜在的（背后真实的）后验概率。

在这里，我们提出这个问题：

哪个更可取？

是按不准确的能量函数找出全局最优；

还是构建一个忠实地代表实际问题的能量函数，而不管它不再凸（或至少有一个凸松弛）的事实。

我们提出了一个在时间窗口中的所有目标位置和所有帧上定义的能量函数，它涵盖多目标场景下的许多重要方面。

为了最小化产生的能量，我们设计了一个局部优化方案，能够探索到搜索空间的许多潜在感兴趣地区而不会困于最初的“盆地”。

我们的方法超过了目前最先进的几个方法。

（1）目标位置并没绑定到离散的目标检测或删格位置上，这意味着即使检测器失败了每个目标位置仍然是明确的、且没有网格走样；

（2）不必人为（不自然，unnaturally）地限制能量函数。

任意对象动力学、外观模型、甚至更多其他扩展如群体行为都可以整合到能量函数中。

虽然不能保证全局最优，但我们的实验表明，跟踪问题确实有足够的结构可资利用以构建合理的能量函数。

利用该函数可避免弱局部极小并找到后验概率的合理模态（plausiblemodes）；

（3）定制（custom-tailored）最小化过程强大高效：

它是变维的，从而比标准梯度法能探索到搜索空间更大部分，而且搜索集中于有希望的区域，避免了随机搜索行为。

本文的其余部分结构如下。

在第2节讨论有关工作后，在第3节提出了我们的方法。

首先定义了全局能量函数，在3.2节中定义了（能量函数的）各个组成部分后，跟着在3.3节深入描述了最小化过程。

最后，第4节给出了我们方法的定量分析（评价）和实验结果。

图1.通过EKF（左上）和ILP-based跟踪器（左下）获得初始值，及全局连续优化（右）后得到的追踪结果。

我们的方法生产平稳、持久的轨迹和明显降低了误报和目标丢失量。

2相关文献

在计算机视觉中，对象跟踪有一个悠久的历史和一个完整的超出了本文范围的述评（review）。

在本节中，我们专注于多目标视觉跟踪。

我们的重点是基于最优化的方法。

相较于单目标跟踪，多目标跟踪复杂得多：

单目标跟踪在大部分情况下可以通过检测每帧中的对象得到解决——可能只需在预测位置周围的局部区域检测——并且“连接点”得到一致轨迹；

因为数据关联问题、以及不同目标之间的相互作用（例如，对象间遮挡），多目标问题则更为复杂。

另外一个困难是，在大多数情况下目标数量并不知道，（这个数量的）先验概率实际上可能随时间而变化。

早期工作专注于递归方法，其中当前状态只依赖于前一个状态：

起初的卡尔曼（Kalman）滤波，例如[5]，后来的粒子滤波[8，13，16]，它们都采用一系列采样、而不是解析表达式来表示后验概率，从而更好地处理模糊、多模态的分布。

最近，出现了一些非递归方法，其目的是将跟踪问题表达为一个优化问题。

问题的解是一个较长时间区间里的（在某些情况下是全局的）最优。

一种缩小扩展时间窗跟踪的巨大解空间的方法是预先限定出较小的可能目标位置集[7，10，11，20]。

这些可能位置通常通过基于外观的对象检测[6，17]或背景减除[14]来给出。

强制跟踪器形成的轨迹只经过这些位置，而不考虑局部化的不确定性（localizationuncertainty）。

另一个在[2，3，4]里使用的方法将可能位置空间离散为规则网格，从而避免了早期就陷入到检测结果中，但也引入了离散误差。

由此产生的优化问题要么是二次整数规划[7，11]，在这种情况下，通过基于递归搜索或图分割的用户启发得到局部最优；

或者是整数线性规划（ILP）[2，4，10]，它通过线性规划（LP）松弛得到全局近似最优。

[20]是一个例外，它使用网络流算法得到不带遮挡简化版（跟踪）问题的全局最优解，然后再贪婪地增加有遮挡的目标。

在目前的工作中，我们探究的问题是，对多目标跟踪来说，（将目标状态空间）为可数有限状态空间的限制是否必要。

我们的工作表明，无论是在视觉质量上还是从跟踪准确性和精确性的标准量化度量方来说，在连续的状态空间中，一个精心设计的局部优化方案可以找到更好的解。

3模型

我们方法的目的是为在整个视频序列过程中跟踪多目标找到最佳的解决方案。

也就是说，在整个视频的持续时间段内，每一个目标需要被分配一个独有的轨迹，且该轨迹要与目标的运动尽可能的接近。

为此，我们定义了一个全局能量函数，它依赖于时间窗口内的所有帧和所有目标，从而表达了场景中所有感兴趣对象的存在、运动和互动。

跟踪在世界坐标系中进行，即图像证据被投射到地平面。

另外，对证据添加高的先验权，以减少虚假检测。

3．1符号

在正式定义能量函数之前，我们简单地引入符号：

状态向量X由所有时刻（alltime）所有目标的地面坐标组成。

（x,y）——即目标i在帧t时的位置表示为

。

F和N分别表示帧和目标的总数。

注意，在我们表示中，每个目标的位置在计算能量时总是定义了的和考虑进去了的，即使发生了遮挡也这样。

图2.能量函数不同组成部份的影响。

对每项而言，上行显示了一个高得分配置，下行是低得分配置，灰度值越黑表明目标的似然性越高。

3．2能量

有很多可能性来定义奖励更合理配置和惩罚不合理配置的能量（或等价的说，似然）函数。

从优化的角度来看，形成一个凸函数肯定是有益的，因为依定义，（凸函数）只有单一最小值，并可独立于初始值得到全局优化。

然而，（我们认为）能量函数最重要的性质是充分逼近真实情况，也就是说，它应该尽可能准确地反映出现在数据中的所有相关行为。

否则，我们将面临这种情况：

最小值很容易获得，但（模型）也不再与现实世界的有用解释相符合。

不幸的是，大多数视觉问题的更逼真的表达对应的是带有许多局部极小值的高度非凸能量函数。

我们认为，多目标跟踪时，对较少“机巧”、更“正确”的能量函数进行优化更重要，应放弃该函数是凸函数的要求。

本文给出的信息是还是有希望的——可以找到良好的能量最小值。

我们的能量函数由五项组成：

一个基于图像数据的观察项；

诱发于对象动力学、避碰、对象持续性的三个物理先验项；

试图保持最少轨迹数量的规范项（简单性先验）：

下文，我们将更详细地描述能量函数的各组成部分，请参照图2。

3．2．1观察模型

我们遵循检测跟踪学派（thetracking-by-detectionschool），即，每个位置的观察值是由对象检测器决定的对象存在似然。

在过去几年里检测被证明是跟踪的可靠基础，并应用于无约束的环境和移动相机情况。

在这里，我们采用滑动窗口方法检测行人，同时使用了HOG特征[6]和相对光流直方图[18]。

在单个帧里如果轨迹通过行人高似然区域，能量会很小，

在这里，

是在帧t里极大检测得分（峰值）数量，且

是在帧t里峰值g的位置。

惩罚没有图像证据的现存目标。

在我们所有的实验里将它设置为0.05。

将检测器的输出近似为类柯西势函数（Cauchy-likepotentials）之和是合适的（permissible），由于设计的检测得分沿峰值周围光滑降低。

这样近似的好处是可以计算

的解析导数，从而大大加速最小化过程。

除检测外，将观察模型扩展到捕捉目标外观是很直接的。

为达此目的（即在观察模型中使用目标外观），可以比较相邻帧里物体的颜色或直方图（颜色变化小的优先），以更好识别单个目标和避免身份的转换。

在某个情境下，外观可能充当一个强线索，在我们的实验里，它并没有提供足以改进整体性能充分的信息，可能是由于相似的服装和频繁的遮挡。

3．2．2动力学模型

对于运动项，我们使用了一个常速模型：

其中

是目标i的当前速度向量。

由于检测响应（得分）的最大值实际上不会与目标位置完美对准，这个动力学模型可被理解为一种“智能平滑”，它把其他能量项也考虑了进去，而不是盲目地平滑轨迹曲线的节点。

然而它却不只是平滑，例如，它有助于防止“交叉”目标的身份转换（因为它偏向于直路径）。

注意，到目前为止，动力学模型是基于ILP（integerlinearprograms）跟踪器的弱点。

这些方法饱受离散位置网格走样之苦，使得它们要么完全抛弃动力学模型[4]，要么依赖于更弱的恒定领航模型[2]。

3．2．3互斥

最明显的物理约束是两个物体不能同时占据同一空间。

我们通过定义一个连续的排斥项把这个约束包括进能量函数：

带上尺度因子

，对人类跟踪将其设定为35厘米。

当两个目标靠得太近，配置将会被惩罚，当他们共享同一位置时惩罚值将趋于无穷大。

该项同时实施特有数据关联（由于每个检测都仅可分配给一个轨迹）。

对避碰的这种表达把目标体积的实际重叠考虑了进去，从而可以正确地处理两个众所周知的多目标跟踪难题：

一方面，实现了随时检查目标间的重叠，即使是在两个目标都是被遮挡或者都被检测器错过时也不例外。

另一方面，如果由于不准确的观察证据致使两个目标发生了“碰撞”，连续最优化也会将他们推开到相距足够远，而基于网格离散或非最抑制的方法却只能“连结点滴”和被迫放弃整条轨迹。

3．2．4目标持久性

另一个在大多数情况下可能会整合到能量函数中的约束是，目标不能（无故）出现或消失在跟踪区（但却可以进入或离开这个区域）。

然而，我们宁愿采用软约束，否则必须明确为入口/出口位置（例如门）和长时间遮挡建模。

因此使用如下的sigmoid惩罚函数：

和

代表起点、轨迹i各自的终点与跟踪区域边界之间的距离。

该项强制各现存轨迹在遮挡处实施融合（即续断），因为轨迹的突然中断会受到惩罚。

3．2．5规范化

图3.说明连续跟踪方案非凸性的一个简单例子。

从浅蓝路径（较弱的最优）到深蓝路径（较强的最优），必须克服（翻越）高能量脊。

（a-b）背离观察以保持

很低导致了

上的高惩罚。

（c-d）扭曲路径迎合观察以保持

使用合理的峰值观察似然时，中间情况将更糟糕。

规范化驱使最小化走向数据的更简单解释，即一个模型有更少的目标和更长的轨迹：

这里F（i）是在帧里轨迹i的时间长度。

规范化用来平衡模型的复杂性与拟合误差，且能阻止过度拟合、轨迹割裂和假的身份改变（跟踪时错误的身份改变识别）。

3．3能量最小化

本文给出的能量函数显然不是凸的。

事实上，一个逼真、很好地描述了真实情况的能量函数，不可能是凸的：

很容易构造它的范例，它有两个被高能量脊隔开的大致相同的最小值，参见图3。

这一现象的原因是由物理约束引起的变量间高阶（high-order）依赖。

为了缓解这个（非凸）问题，我们引入一系列的跳跃运动，它们改变了当前状态

的维数（changethedimensionofthecurrentstate），从而转向搜索空间的不同区域，然而仍然降低能量。

在图4里，在总是降低能量的同时，完全移除一个弱轨迹和初始化另一个是可能的。

我们用标准共轭梯度法来局部最小化能量函数

（1）。

每n次迭代就被执行一次跳跃运动（除非它将增加能量）。

根据我们的经验，跳跃运动的次序不会影响最终结果，因为优化总是能完成一个反向的运动来找到降低能量的途径。

跳跃运动使优化有了很大的适应性——最初的解甚至不需要有正确的目标数量。

改变状态向量维数的数据驱动策略令人想起可逆跳转马尔可夫链蒙特卡罗方法[9]。

然而，与蒙特卡罗方法相比，我们的方法是确定：

它利用单模式内采样上梯度下降的优势，只有能减少能量，才按既定方案执行跳跃。

图4。

本文给出的跳跃运动使连续优化具有了更高灵活性——允许可变数量的目标。

即使一个差的初始配置也可以用来恢复真正的轨迹。

真实数据（轨迹）用灰色表示。

增长和收缩。

使用标准外推法可以在时空上对每个轨迹进行扩展。

相反，如果没有足够的图像证据，路径则可能会缩短。

这两个步骤有助于重新拾起由于跟踪失败而丢失的目标和清除误报（falsepositives）。

拆分和合并。

为消除身份转换，轨迹可以拆分和合并。

拆分是通过把路径分解成两部分实施的，如果这个分解能导致产生更少的能量。

如果两个路径可以连接成一个更少能量的路径，且保持物理上合理的目标运动，那么就会执行合并。

尤其，后者是克服由于弱证据或遮挡引起的暂时跟踪失败的强大手段。

添加和删除。

在强检测位置可以生成不属于任何已有轨迹的新轨迹。

在最初的三个连续的帧中，新插入的轨迹谨慎地开始了，但是在后面的迭代中可以成长或与已有的轨迹相融合。

一个轨迹会整体从场景中移出，如果它的总能量是正的（意味着它的出现减少当前状态的整体可能性，而不是增加它）。

再次添加有助于弥补检测器的失败，如果某轨迹进入了弱证据、不合理动态（特性）、和/或与其他轨迹重叠等状态，则抛弃该轨迹。

初始化。

像其他非凸规划一样，（本文优化）结果依赖于迭代所使用的初始值。

然而，与纯梯度法相比，上述“智能探测策略”极大地减弱了这种依赖性。

通过允许转向搜索空间的低能量区域——即使这些区域远离当前状态，局部极小值的吸引力被减弱了：

极小值越弱，越可能找到脱离吸引力盆地的跳跃，从而降低能量。

经验表明，即使不带任何目标的平凡（trivial）初始化也工作得相当好，但它需要更多迭代才能收敛。

但是，我们认为使用（任意）简单检测器的输出来进行初始化更有保障。

在我们的实验里，我们使用了每目标扩展卡尔曼滤波器（EKFs）和一个基于整数线性规划[2]的全局最优离散跟踪器。

在这两种情况下，跟踪器使用不同的参数产生一套初始值。

对于两者的初始化，我们给出的最小化方案都设法持续实质性减少能量，在我们的实验中都提高了跟踪精度，参见表1和表2。

通常不同初始值收敛到相似（虽然不完全一致）解，见图5。

图5显示了几个优化过程的收敛行为，它们运行在相同的数据集上，但采用了不同的初始点。

请注意，能量减少与良好跟踪性能对应得非常好——表明能量函数是一个真实目标的良好表达。

图1给出两个初始化（左）和连续全局优化（右）结果之间的定性对比，它们分别采用了不同技术得到的两个初始值。

本文给出的能量最小化方案能够成功地恢复持续的轨迹，而不会遭受空间离散化影响（本文方法没对空间离散化）。

4实验

在文章第3部分，我们提出了一个能量函数，考虑了从基本目标到精确反映互动多目标实际行为的方方面面，参见图5。

其结果是能量最小化只能得到局部最优，而且没有关于解优劣的理论保证。

我们的结论是最小化次函数将在平均上获得更高的跟踪精度。

为了有充分的实验数据支持这个结论，我们在各种不同的数据集上实施了广泛的试验评估。

图5.能量函数（实线）与以真实数据（轨迹）为参照的跟踪性能相关良好。

每种颜色代表一个不同的初始化。

能量值已经取负和缩放以更适合本图。

合成数据集。

众所周知很难得到跟踪的精确真实数据（accurategroundtruth），因此我们首先在合成数据集上验证该方法；

合成数据集能提供完美真实数据来定量评估跟踪。

为了模拟真实的轨迹，我们从真实标注数据中随机采样645个小片段，合成了该数据集。

为了模拟检测器失败，15%的检测结果被移除。

在我们的模拟中,在所有情况下的最小化,与初始化相比，都明显改进了跟踪精度。

在许多情况中,我们发现了理想结果,准确率达100%。

特别是,连续优化也显著地提高了最高水准的基于ILP[2]的离散跟踪器的输出。

给ILP跟踪器和连续优化（跟踪器）都提供是同一个（套）检测证据，以确保比较不会被检测器的不同而偏误。

在所有综合数据的实验里，多目标跟踪精度（见下文）都在95%以上。

这表明了与离散方案相比，连续解决方案的直接好处。

因离散误差，离散（跟踪）方案的准确性几乎不会超过70%。

真实数据基准。

除开我们自己的其中两个序列，我们还在四个广泛使用的真实世界数据集上进行了试验。

所有的数据都是在户外没有约束的环境中获取（拍摄）的，它们在视频质量、图像分辨率和帧频等方面都有很强的多变性。

对于多视图跟踪，我们使用序列terrace1和terrace2[3]，每个都包含了从四个不同的视角捕获的2000帧。

视频包含了多达6个人在一个小面积地区的自由走动，有很多相互遮挡情况、以及显著的尺度改变。

序列S2L1是从VS-PETS2009基准中拿来的。

仅仅用到第一个视角。

视频是以大约7fps从一个高视角拍摄的，有795帧，包含了8个人。

TUD-Stadtmitte数据集[1]只包含179帧，但由于极低的摄像角度而很有挑战性，——它使得3维位置的估计相当困难——和导致了物体很严重自遮挡。

最后，我们在一个新的数据集上也进行了实验，我们打算很快就公开它。

ped1序列，见图1底部，含1400帧，在一条拥挤的步行街上从两个视角展示了行人，自行车和轮椅。

在我们的实验里，我们单独分析每个视角。

我们可以在所有的数据集的整个序列以大约1秒每帧的速度进行优化，且不需借助滑动时间窗。

4．1定量评估

目前尚无关于如何去测量多目标跟踪性能的成熟方案。

我们遵循当前最好的实践，计算了[15]引入的CLEA-metrics。

所有数据（figures）在3D空间以1米的击中/脱漏阀值进行计算。

多目标跟踪准度（MOTA）把误报、丢失的目标和身份转换都考虑进来了。

多目标跟踪精度（MOTP）简单定义为估计目标和真实目标之间的平均距离。

而且，我们也计算了[12]提出的评价方案，它统计基本被跟踪到的（MT）、部分被跟踪到的（PT）和基本跟丢了（ML）的轨迹的数量，还有跟踪分裂（FM）和身份转换（IDS）的数量。

4．2例子结果

表1和表2展示了我们在所有数据集上的定量实验结果。

对于初始化，我们使用了对经典EKF的最近一个实现给出的的解决方案[19]；

由先前提到的ILP跟踪器分别跟踪的。

给出的数字是初始值的性能指标（它自己是最顶尖的多目标跟踪，因此作为基准线），我们给出方案的最终值。

另外，我们也显示了最初和最终结果之间的不同之处。

对9个不同起点做出的平均，它们是由各自算法参数的细微变化产生的。

正如所料，我们提出的方法持续减少跟踪误差，且在所有情况下提高了平均性能。

跟踪分裂和ID转变的轻微增加可以归因于成功跟踪目标的数量较大。

表3对给出了最低能量配置跟踪器后，在各数据集中跟踪的定性结果。

图6展示了在三个不同序列中的一些样本结果。

在一个特殊跟踪区域中（标有虚线的）目标移动是过时成功跟踪，且新目标是自动初始化的。

从

到

的加权参数是根据经验确定的，且在我们所有的实验中都定为（0.05，1，0.5，0.25）。

5结论和未来工作

我们提出了一个用连续优化方法联合跟踪数量可变目标的算法。

与最近的趋势相反，我们已经表明了在跟踪中“凸”性并不一定是好cost函数必要条件：

为了获取有意义的（尽管是局部的）能量最小值，没有必要去限制状态空间——大多数的多目标跟踪都隐含了这一点——无论是通过每帧非最大值抑制，或者是将位置离散为粗网格。

通过连续全局能量函数的最小化，用梯度下降连同适当的变维条约运动，我们在很多公共数据集上改善了现有的多目标跟踪技术的最高水准。

表3.我们方法的定量结果。

对每一个序列，最优化使用了不同参数的多EKF和/或ILP跟踪器初始化。

显示的结果与最低能量优化一致。

在未来的工作中，我们计划将更多复杂外观和动力学模型融合进来，且更加明确可见地处理可见性。

尽管我们的方法在即使发生了遮挡时仍然跟踪得非常好，我们相信明确的进行遮挡推理将有助于处理更加困难的目标交互，如检测丢失，拥挤场景和长期遮挡。

再者，使用基于多网格搜索的更快优化和更有效的实现，我们希望能够达到实时性能。

这就使得通过反复对过去帧求解，该方法适用于实时应用。

参考文献

[1]M.Andriluka,S.Roth,andB.Schiele.Monocular3dposeestimationandtrackingbydetection.InCVPR,2010.

[2]A.AndriyenkoandK.Schindler.Globallyoptimalmultitargettrackingonahexagonallattice.InECCV,2010.

[3]J.Berclaz,F.Fleuret,andP.Fua.Robustpeopletrackingwithglobaltrajectoryoptimization.InCVPR,2006.

[4]J.Berclaz,F.Fleuret,andP.Fua.Multipleobjecttrackingusingflowlinearprogramming.InWinter-PETS,2009.

[5]J.Black,T.Ellis,andP.Rosin.Multiviewimagesurveillanceandtracking.InMotion&

VideoComputingWorkshop,2002.

[6]N.DalalandB.Triggs.Histogramsoforientedgradientsforhumandetection.InCVPR,2005.

[7]A.Ess,B.Leibe,K.Schindler,andL.VanGool.Amobilevisionsystemforrobustmulti-persontracking.InCVPR’08.

[8]J.Giebel,D.Gavrila,

展开阅读全文