图像融合技术外文翻译-中英对照（适用于毕业论文外文翻译+中英文对照）.docx

资源描述

图像融合技术外文翻译-中英对照（适用于毕业论文外文翻译+中英文对照）.docx

《图像融合技术外文翻译-中英对照（适用于毕业论文外文翻译+中英文对照）.docx》由会员分享，可在线阅读，更多相关《图像融合技术外文翻译-中英对照（适用于毕业论文外文翻译+中英文对照）.docx（38页珍藏版）》请在冰点文库上搜索。

图像融合技术外文翻译-中英对照（适用于毕业论文外文翻译+中英文对照）.docx

中英文资料对照外文翻译

使用不变特征的全景图像自动拼接

摘要

本文研究全自动全景图像的拼接问题，尽管一维问题（单一旋转轴）很好研究，但二维或多行拼接却比较困难。

以前的方法使用人工输入或限制图像序列，以建立匹配的图像，在这篇文章中，我们假定拼接是一个多图像匹配问题，并使用不变的局部特征来找到所有图像的匹配特征。

由于以上这些，该方法对输入图像的顺序、方向、尺度和亮度变化都不敏感；它也对不属于全景图一部分的噪声图像不敏感，并可以在一个无序的图像数据集中识别多个全景图。

此外，为了提供更多有关的细节，本文通过引入增益补偿和自动校直步骤延伸了我们以前在该领域的工作。

1. 简介

全景图像拼接已经有了大量的研究文献和一些商业应用。

这个问题的基本几何学很好理解，对于每个图像由一个估计的3×3的摄像机矩阵或对应矩阵组成。

估计处理通常由用户输入近似的校直图像或者一个固定的图像序列来初始化，例如，佳能数码相机内的图像拼接软件需要水平或垂直扫描，或图像的方阵。

在自动定位进行前，第4版的REALVIZ拼接软件有一个用户界面，用鼠标在图像大致定位，而我们的研究是有新意的，因为不需要提供这样的初始化。

根据研究文献，图像自动对齐和拼接的方法大致可分为两类——直接的和基于特征的。

直接的方法有这样的优点，它们使用所有可利用的图像数据，因此可以提供非常准确的定位，但是需要一个只有细微差别的初始化处理。

基于特征的配准不需要初始化，但是缺少不变性的传统的特征匹配方法（例如，Harris角点图像修补的相关性）需要实现任意全景图像序列的可靠匹配。

在本文中，我们描述了一个基于不变特征的方法实现全自动全景图像的拼接，相比以前的方法有以下几个优点。

第一，不变特征的使用实现全景图像序列的可靠匹配，尽管在输入图像中有旋转、缩放和光照变化。

第二，通过假定图像拼接是一个多图像匹配问题，我们可以自动发现这些图像间的匹配关系，并且在无序的数据集中识别出全景图。

第三，通过使用多波段融合呈现无缝输出的全景图，可以产生高质量的结果。

本文通过

引入增益补偿和自动校直步骤延伸了我们以前在该领域的工作，我们还描述了一个高效的捆绑调整实现并展示对任意数量波段的多个重叠图像如何进行多波段融合。

特征匹配

本文其余部分的结构如下。

第二部分说明所研究问题的几何学和我们选择不变特征的原因。

第三部分介绍了图像匹配方法（RANSAC）和验证图像匹配的概率模型。

第四部分中，我们描述了图像对准算法（捆绑调整），即共同优化每个摄像头的参数。

五到七部分描述了处理过程，包括自动校直、增益补偿和多波段融合。

第九部分中，我们给出了结论和对未来工作的展望。

全景识别算法的第一步是在所有图像之间提取和匹配SIFT特征检测点。

SIFT特征检测子位于不同尺度空间高斯插值函数的极值点处，对每一个特征点，特征尺度和方向被确定，这为测量提供了一个相似不变的结构。

尽管在这个结构中简单的采样强度值是相似不变的，但是不变描述子实际上是通过对方向直方图的局部梯度值进行累积计算得到的，这样就允许边缘有轻微的移动而不会改变描述子的矢量，对仿射变换提供了一定的鲁棒性。

空间累积计算对平移不变性同样重要，因为感兴趣点位置通常仅在0~3个像素的范围内是精确的。

为了实现亮度不变性可以使用梯度（消除偏差）和对描述子矢量归一化（消除增益）。

由于SIFT特征在旋转和尺度变化时是不变的，我们可以处理具有变化的方向和大

小的图像（见图8）。

值得注意的是，这是传统的特征匹配技术不能实现的，例如Harris角点图像修补的相关性。

传统的相关性在图像旋转时是变化的，Harris角点在改变图像尺度时也是变化的。

假设相机绕光学中心旋转，图像的变换群是一个对应矩阵的特殊群。

由一个旋转矢

~ ~

量q=[q1，q2，q3]和焦距f将每个摄像头参数化，就给出了成对的对应矩阵ui=Hijuj，

其中

Hij=KiRiRTK-1

（1）

j j

~ ~ ~

并且ui,uj是均匀的图像坐标（ui=si[ui,1]，其中ui是二维的图像坐标）。

4参数的相机

模型定义为：

对旋转使用指数表示：

éfi 0

Ki=ê0 fi

êë0 0

é0

0ùúú1úû

-qi3

qi2ù

（2）

i´

R=e[qi]´,[q]

=êqi3

0 -q

i1ú

（3）

êë-qi2

qi1

0úû

在这个变换群中，理想条件下将会使用不变的图像特征。

可是，在图像坐标中对于

小的变换表示如下：

~ ~

ui=ui0+

¶ui

¶uj

ui0

Duj

（4）

或者等价于ui=Aijuj，其中，

éa11

Aij=êa21

êë0

a12a22

a13ùaú

23ú

1úû

（5）

是通过一个关于ui0的对应线性化得到的仿射变换。

这意味着每个小的图像修补经过一次仿射变换，并且合理利用了在仿射变换下局部不变的SIFT特征。

一旦从所有n个图像中提取特征点后（线性时间内），需对特征点进行匹配。

由于多个图像可能重叠在一个单一的光线上，在特征空间内每个特征点需和它最近的k个领域点匹配（k=4），通过使用k-d树算法找到近似最近的领域点，时间复杂度为O（nlogn）。

k-d树是一种轴对齐的二进制空间划分，它在平均最高方差维递归划分特征空间。

图像匹配

图像匹配的目标是找到所有匹配（例如重叠）图像，稍后图像匹配连通集会成为全景图。

由于每个图像可能和任意其他一个匹配，这个问题一开始就呈现是出图像数的二次方。

为了得到一个好的拼接结果，对于图像几何而言，每个图像只需要和少数重叠的图像来匹配。

从特征匹配这个步骤中，我们已找出图像间有大量匹配点的图像。

对于当前图像，我们将m幅图像作为可能的匹配图像（m=6），这m幅图像与当前图像有最大数量的特征匹配点。

首先，使用RANSAC算法选择一系列和图像间对应矩阵兼容的内点，然后应用概率模型做进一步的验证。

3.1使用RANSAC算法的鲁棒对应矩阵估计

RANSAC（随机抽样一致性算法）算法是使用最少的一组随机采样匹配点的一种鲁棒估计过程，用来估计图像变换参数，并找到与数据具有最好一致性的解决方案。

在全景图的情况下，我们选择r=4对匹配特征点，使用直接线性变换（DLT）方法计算图像间的对应矩阵H。

重复500次试验，选择内点数最大的解决方案（在像素误差范围内，其预测和H是一致的）。

假设一对匹配图像间的特征匹配点是正确的概率（内点概率）为pi，

n次试验后找到正确变换的概率为：

p（Hiscorrect）=1-（1-（pi）r）n

经过大量试验后，找到正确对应矩阵的概率非常大。

例如，对于内点概率

500次试验后，未找到正确对应矩阵的概率为1´10-14。

（6）

pi=0.5，在

图像匹配关系验证的概率模型

RANSAC算法本质上是一种估计H的采样方法，如果用对数似然和的最大化代替内点数量的最大化，结果是最大似然估计（MLE）。

此外，如果变换参数的先验值是有效的，可以计算出最大后验概率（MAP）。

这些算法被分别称为MLESAC和MAPSAC。

3.2

对两两图像间是否存在匹配关系，我们使用一系列几何一致的特征匹配点

（RANSAC内点）和一系列在重叠区域内，但不一致的特征点（RANSAC外点）来验证。

验证模型通过比较这些正确匹配产生的一系列内点和错误匹配产生的一系列外点的概率来进行验证。

对于一幅给定的图像，重叠区域内总的匹配特征点数为nf，内点数为ni。

图像是否有效匹配通过二进制变量mÎ{0,1}表示。

第i个匹配特征点f（i）Î{0,1}是否为内点被假定

为独立的贝努力分布，以便于内点总数服从贝努力分布：

i f 1

p（f（1:

nf）m=1）=B（n;n,p）

i f 0

p（f（1:

nf）m=0）=B（n;n,p）

（7）

（8）

其中，p1是可以正确匹配图像时特征点为内点的概率，p0是不能实现图像匹配时特征

点为内点的概率；f（1:

nf）表示特征匹配点变量的集合{f（i）,i=1,2,...,n}，内点数

ni=

i=1

f（i），B（.）是贝努力分布，表示如下：

（n x!

）

B（x;n,p）= n!

px（1-p）n-x

（9）

p（f（1:

nf）m=1）p（m=1）

p（f（1:

nf））

我们选择p1=0.6，p0=0.1，则可以使用贝叶斯规则（式10、11）计算正确图像匹配的先验概率。

p（m=1f（1:

nf））=

p（f（1:

nf）m=0）p（m=0）

p（f（1:

nf）m=1）p（m=1）

= 1

（10）

（11）

如果满足p（m=1f（1:

nf））>p

min

B（ni;nf,p1）p（m=1）accept 1

B（ni;nf

,p0

）p（m=0）

reject

pmin-1

（12）

我们可以实现图像匹配。

假定p（m=1）=10-6，pmin=0.999，进一步得出正确图像匹配的判定条件：

ni>a+bnf

（13）

其中a=8.0，b=0.3。

尽管在这我们选择了p0，p1，p（m=0），p（m=1）和pmin的值，

但在原理上可以从数据中进一步确定这些值。

例如，可以通过在大的数据集中计算一部分匹配点和正确的对应矩阵相一致来估计p1。

一旦图像间的匹配点对确定，我们可以找到全景序列作为连接匹配图像集，它可以

识别图像集中的多个全景，拒绝不匹配的噪声图像（见图2）。

（a）图一（b）图二

（c）SIFT匹配点1 （d）SIFT匹配点2

（e）RANSAC内点1 （f）RANSAC内点2

（g）依据对应矩阵的图像对准

图1，从所有图像中提取SIFT特征点。

使用k-d树匹配所有特征点后，对于一个给定图像，用有最多特征匹配点的m幅图像进行图像匹配。

首先执行RANSAC算法计算出对应矩阵，然后调用概率模型验证基于内点数的图像匹配，在这个例子中，输入图像是517×374像素，有247个正确特征匹配点。

（a）图像匹配点

（b）图像匹配点的连接分量

（c）输出全景图

图2，可识别全景图。

考虑一个特征匹配点的噪声集，我们使用RANSAC算法和概率验证过程找到

一致的图像匹配（a），每个图像对间的箭头表示在图像对间找到一致的特征匹配点集，图像匹配连接分量被找到（b），拼接成全景图（c）；注意到该算法对不属于全景图的噪声图像不敏感。

4.捆绑调整

考虑到图像间的几何一致性匹配集，使用捆绑调整解决所有相机参数的问题，这是重要的一个步骤，由于成对对应矩阵拼接将会造成累计误差，忽略图像间的多重约束，如全景图两端应联合起来。

图像一个接一个被添加到捆绑调节器，最佳匹配图像（一致匹配数目最大）在每一步被添加，新图像用与最佳匹配图像具有相同的旋转和焦距长度初始化，然后相机参数使用L-M算法被更新。

我们使用的目标函数是一种抗差总和平方预测误差。

也就是说，每个特征点被投影到所有与它匹配的图像中，并且平方图像距离的总和依据相机参数最小化。

考虑到对应

关系uk«ul（uk表示在图像i中第k个特征点的位置），残差表示为

i j i

rk=uk-pk

（14）

ij i ij

其中对应到uk的点pk是对应于uk点从图像j到图像i的投影

i ij

pij

=KiRiRTK-1uj

（15）

误差函数是所有图像抗差剩余误差的和，表示如下:

e=ååå

h（rk）

（16）

i=1jÎi（i）kÎf（i,j）

其中n是总的图像数,I（i）是和图像i匹配的图像集,f（i,j）是图像i和图像j的特征匹配集。

我们使用Huber鲁棒误差函数,如下所示:

h（x）=

íï2sx

-s2

ifx

ifx³s

（17）

这个误差函数结合将范数L2的快速收敛性作为内点的优化方案（距离小于s），和将范数L1的鲁棒性作为外点的方案（距离大于s）。

s=¥作为初始化过程中使用的外点距离，s=2个像素点作为最终结果。

这是一个我们使用L-M算法解决的非线性最小二乘问题。

每次迭代的形式如下：

F=（JTJ+lC-1）-1JTr

其中F是所有参数，r是残差，J=¶r¶F。

在（对角线）协方差矩阵Cp中，我们先前编码的有关参数改变了，如下所示：

（18）

és2 0 0

00Lù

êq ú

ê0

C ê0

0 s2

00Lú

（19）

p=ê

êêêëM

0 2

0 f

0 0 0

M M M

0 ú

Lú

q ú

O úû

- -

这个矩阵中，角度标准偏差是sq=p16，焦距长度sf=f

10（f是目前为止焦距长度估

计的平均值）。

这有助于选择合适的步长，从而加快收敛，例如，如果用一个球形的协方差矩阵，一弧度的旋转变化将被焦距长度参数中一像素的变化所补偿。

最后，在每一次迭代中，改变参数l以确保等式（16）的目标函数的确在减小。

通过链式法则导数被分析计算，例如:

¶p

kij

¶qi1

其中

kij

¶p

¶pij

¶qi1

（20）

¶p

ij=

é1z 0

¶[xz yz]

-xz2ù

（21）

¶pij

¶[x

¶pij

y z]

¶Ri

ë01z

-1

-yz2û

¶qi1

=Ki

¶q

RjKjuj

（22）

¶Ri

¶qi1

=¶

¶qi1

é0

e[qi]´=e[qi]´ê0

êë0

00ù

0 -1ú

10úû

（23）

4.1通过直接计算线性系统的快速解决方案

由于矩阵J是稀疏的,J乘以它的转置JT是没有用的，事实上，这是捆绑调整中最有价值的步骤，对M´N的矩阵J（M是测量个数的两倍，N是参数的个数）所需的时间复杂度为O（MN2）。

由于每个图像通常只匹配其它图像的一小部分，出现了稀疏性，这意味着在实际中矩阵JTJ中每个元素的计算比M次乘法少的多，如下所示：

（JTJ）ij

kÎf（i,j）

kTij

¶r

¶Fi

kij

¶r

¶Fj

=C-1

（24）

例如，相机i和j间的反向协方差只依赖于i和j间的特征匹配残差值。

相似的,JTr不需要直接计算，可通过下式得到：

（JTr）=

ååå

i=1jÎI（i）kÎf（i,j）

¶r

ij k

¶Fi

（25）

在两种情况下，如果每个特征点匹配每个单独的图像，每一个和将需要M次乘法，但在实际中，对于给定的图像，特征匹配点的个数要比这个少的多。

因此，每个捆绑调

整迭代的时间复杂度为O（N3），这是解决N´N线性系统的代价。

参数N的数量是图像

数量的4倍，典型的M值大概是N的100倍。

5.自动全景校直

使用第2-4部分步骤的图像配准提供了摄像机间的相对旋转，但是对于选定的世界坐标系而言仍有一个未知的3D旋转。

对于每一幅图像如果我们简单的假设R=I，我们通常会发现在输出的全景图中有波状效应，这是因为真正的相机不会是完全水平且没有倾斜的。

我们可以修正这种波形的输出，并且可以通过利用人们通常拍摄全景图方式的启发式算法自动校直全景图。

人们很少相对于视距扭转相机，所以相机的参数X向量（水平轴）通常位于一个平面（见图4）。

通过找到相机参数X向量的协方差矩阵的零向量，我们可以找到“向上的向量”u（对包含了相机的中心和视距），如下：

ænX

XTöu 0

（26）

èi=0

ii÷=ø

对一个垂直向上向量u（在呈现的结构中）进行整体旋转，非常有效的从输出全景图中消除了波状效应，如图4。

图3，寻找向上向量u。

由于一个好的用于对准波浪形全景图的启发式算法，人们很少相对于视距转动相机，因此，尽管倾斜（如图b）和旋转（如图c），相机参数X向量通常位于一个平面，向上向量（与重力方向相反）是这个平面的法线。

（a）没有使用自动校直图像

（b）使用自动校直图像

图4，自动全景校直。

利用人们很少相对于视距转动相机的启发式算法允许我们通过计算向上向量

（垂直于包含相机中心和视距的平面）校直波浪形全景图。

6.增益补偿

在前面的部分中，我们描述了计算相机几何参数（方向和焦距）的方法。

在这一部分中，我们描述了如何解决光度测量参数，即图像间的总增益。

通过相似的方式建立模型，对所有图像定义一个误差函数，误差函数是所有重叠像素的增益归一化强度误差的和，表示如下:

1n n 2

e=2åå å（giIi（ui）-gjIj（uj）

（27）

i=1j=1uiÎR（i,j）

~ ~

ui=HIJuj

其中gi，gj是增益，R（i,j）是图像i和图像j的重叠区域。

在实际中，我们通过每个重叠区域的平均值Iij来近似I（ui），如下所示：

- åuiÎR（i,j）Ii（ui）

Iij=

（28）

åuiÎR（i,j）

这简化了计算并给外点提供鲁棒性，这可能是由图像间小的位置不正引起的。

此外，g=0是这个问题的最佳解决方案，我们添加了一个预先条件来保持增益一致。

因此误差函数可表示如下：

2åå

n æ

Nçg

Iij-g

Iji

/s2

+（1-g）2sö

（29）

i=1j=1

ijççi

j ÷ N

i g÷

其中Nij=R（i,j）与图像i和图像j间重叠部分的像素数量相等，参数sN和sg分别是归一化强度误差和增益的标准偏差，我们选择sN=10.0（IÎ{0K255}），sg=0.1。

这是一个增益参数g的二次目标函数，可以通过在封闭的形式中设置导数趋于0来解决（见图

5）。

（a）完成一半的图像配准

（b）没有增益补偿的图像

（c）有增益补偿的图像

（d）使用增益补偿和多波段混合拼接图像

图5，增益补偿。

如果没有应用增益补偿，如（a）（b），图像间大的亮度变化是可见的；增益补偿后，由于未建模的影响，一些图像边缘仍然可见，例如晕映（图c）。

这些都可以使用多波段混合有效的平滑掉（图d）。

7.多波段融合

理想情况下，每个图像中沿一条射线的每个样值（像素）会有相同的强度，它们会相交，但现实并非如此。

由于一些未建模的影响，即使在增益补偿后，图像边缘仍然可见，如图像边缘暗淡（朝图像边缘方向强度降低），由于光中心不必要的移动引起的视差效果，摄像头的错误建模、径向畸变等引起的微小的定位误差等。

由于这些，一个好的融合策略是很重要的。

从前面的步骤中，考虑到已知的匹配，有n幅图像Ii（x,y）（iÎ{1Kn}）可以被表示在

一个共同的（球形）坐标系Ii（q,f）中。

为了从多个图像中合并信息，我们为每个图像分配一个加权函数W（x,y）=w（x）w（y），其中w（x）从中心1到边缘0线性变化。

加权函数在球形坐标系Wi（q,f）内重新采样，拼接的一种简单方法是计算沿着每条射线，使用这

些加权函数的图像强度的加权总和。

如下所示：

Ilinear（q,f）=

åi=1

Ii（q,f）Wi（q,f）

（30）

i=1

ånWi（q,f）

其中，Ilinear（q,f）是使用线性融合形成的复合球面图像，可是如果有小的匹配错误，这种方法会引起高频细节模糊（见图7）。

为了防止这种情况，我们使用Burt和Adelson

的多波段融合算法。

多波段融合的想法是在一个很大的空间范围内融合低频率，在一个小的范围内融合高频频率。

我们通过找到图像i最有用的点集来初始化每个图像的混合权重，表示如下：

max

（q,f）=ì1

ifWi（q,f）=argmax

其它

Wj（q,f）

（31）

max

例如对于（q,f），Wi（q,f）为1表示图像i有最大权值，0表示其它一些图像有较高的权

值。

这些最大权值的映射连续混合形成了每个波段的混合权值。

所呈现图像的高通版本形式如下：

Bi（q,f）=Ii（q,f）-Ii（q,f）

（32）

s s

Ii（q,f）=Ii（q,f）*gs（q,f）

（33）

其中，gs（q,f）是s的高斯标准偏差，*操作符表示卷积，Bs（q,f）表示在波长为[0,s]

展开阅读全文