中南大学数字图像处理图像风格转换.docx

资源描述

中南大学数字图像处理图像风格转换.docx

《中南大学数字图像处理图像风格转换.docx》由会员分享，可在线阅读，更多相关《中南大学数字图像处理图像风格转换.docx（18页珍藏版）》请在冰点文库上搜索。

中南大学数字图像处理图像风格转换.docx

中南大学数字图像处理图像风格转换

图像风格转换

姚环1,杨荣璐2

摘要：

通过对相关文献的阅读学习，了解到相关研究已经证明了在一幅图片中，有可能实现艺术在一个纯粹的图像处理范例内转换。

这是与之前使用图片纹理分析与提取来实现图像风格转换所不同的，同时相对于其也具有一定的优点。

采用深度卷积神经网络进行的图像处理——学习图像中的“风格”与“内容”即对图像提取特征。

我们利用gatys等人的工作，利用卷积神经网络对图像内容以及风格提取再进行融合，对于写实照出现的色彩内容等溢出问题，我们采用了《Semanticstyletransferandturningtwobitdoodlesintofineartworks》文中提出的语义图像风格转换，即将风格限制在图片中的特定事物上，达到转换过程中不会出现溢出。

索引术语–风格转换，图像处理，卷积神经，语义分割，色彩溢出

一、简介

最近卷积神经网络（ＣＮＮ）的成功得益于Gatys[4]等在风格转移的工作重新引起了人们对这个话题的兴趣。

而且，随着新平台的出现，Snapchat和Instagram为艺术创造了无障碍的技术渠道，这个问题已经变得与科学界更为相关。

让自己的图片能有出自艺术大家手笔的既视感，让自己随手拍的照片能展现出在任何天气、时间、季节所具有的场景是一件非常有意思的事，能将此功能开发并集成让摄影爱好者所使用，相信也有一定的市场。

而对于探索新知识的我们来说，探索图像风格转换这样一个主题，能充分的了解到数字图像处理这门课程的迷人之处；同时去了解探索这样一个新兴前沿的学术问题对于开阔自己的视野这个课题是很好的一个载提；当然作为当今大热的人工智能专业的科班生，在学习课本理论知识的同时了解、学习、利用、实践自己专业目前的沿技术，集目前学术界的宠儿技术卷积神经网络、深度学习。

框架等于一体的图像风格转换无疑是一个很好的选择。

图像风格迁移算法可以解决如下问题：

指定一幅输入图像作为基础图像，也被称做内容图像；同时指定另一幅或多幅图像作为希望得到的图像风格，算法在保证内容图像的结构的同时，将图像风格进行转换，使得最终输出的合成图像呈现出输入图像内容和风格的完美结合。

其中，图像的风格可以是某一艺术家的作品、也可以是由个人拍摄的图像所呈现出来的风格

。

二、相关工作介绍

总的来说，就是利用一个训练好的卷积神经网络VGG-19，这个网络在ImageNet上已经训练过了。

给定一张风格图像a和一张普通图像p，风格图像经过VGG-19的时候在每个卷积层会得到很多featuremaps,这些featuremaps组成一个集合A，同样的，普通图像p通过VGG-19的时候也会得到很多featuremaps，这些featuremaps组成一个集合P，然后生成一张随机噪声图像x,随机噪声图像x通过VGG-19的时候也会生成很多featuremaps，这些featuremaps构成集合G和F分别对应集合A和P,最终的优化函数是希望调整x让随机噪声图像x最后看起来既保持普通图像p的内容,又有一定的风格图像a的风格。

三、具体实现

3.1抽象派风格转换实现

3.1.1准备内容

一个训练好的神经网络VGG

一张风格图像，用来计算它的风格representation

一张内容图像，用来计算它的内容representation

一张噪声图像，用来迭代优化

loss函数，用来获得loss

给定一张风格图像a和一张普通图像p，风格图像经过VGG的时候在每个卷积层会得到很多featuremaps,这些featuremaps组成一个集合A，同样的，普通图像p通过VGG的时候也会得到很多featuremaps，这些featuremaps组成一个集合P，然后生成一张随机噪声图像x（在后面的实验中，其实就是普通图像p）,随机噪声图像x通过VGG的时候也会生成很多featuremaps，这些featuremaps构成集合G和F分别对应集合A和P,最终的优化函数是希望调整x,让随机噪声图像x最后看起来既保持普通图像p的内容,又有一定的风格图像a的风格。

3.1.2内容提取

Ml:

第l层的featuremap的大小

Nl:

第l层的filter的数目

Fl:

图像在第l层的特征表示，是一个矩阵，矩阵大小为Ml *Nl.

Flij:

第l层第i个filter上位置j处的激活值。

原始内容图片

生成图片

Pl:

原始图片在CNN中第l层的表示

Fl:

生成图片在CNN中第l层的表示

因而，我们就得到了内容的loss：

求导即为：

使用现在公布的训练好的某些CNN网络，随机初始化一个输入图片大小的噪声图像x，然后保持CNN参数不变，将原始图片P和x输入进网络，然后对x求导，这样，x就会在内容上越来越趋近于P。

3.1.3风格提取

初始风格图片

Al:

风格图片某一层的风格特征表示。

Gl:

生成图片某一层的风格特征表示，大小为Nl*Nl

其中，Glij的值是l层第i个featuremap和第j个featuremap的内积。

从而，我们得到了风格损失函数。

单独某层的损失函数：

各层综合的损失函数：

求偏导：

与内容表示类似，如果我们用随机初始化的x，保持CNN参数不变，将风格图片A和x输入进网络，然后对x求导，x就会在风格上趋近于A。

3.1.4内容重建与风格重建

不考虑风格转换，只单独的考虑内容或者风格，可以看到如图所示：

图3.1内容、风格重建图

图的上半部分是风格重建，由图可见，越用高层的特征，风格重建的就越粗粒度化。

下半部分是内容重建，由图可见，越是底层的特征，重建的效果就越精细，越不容易变形。

3.1.5风格转换

有了内容与风格，风格转换就呼之欲出了，即两种loss的加权。

也可如图示：

图3.2算法实现图

即同时将三张图片（a,p,x）输入进三个相同的网络，对a求出风格特征，对p求出内容特征，然后对x求导，这样，得到的x就有a的风格和p的内容。

3.1.6核心代码实现

一个训练好的神经网络VGG模型:

一张风格图像，用来计算它的风格representation：

一张内容图像，用来计算它的内容representation：

一张噪声图像，进行迭代优化：

3.1.7效果展示

图3.3风格图图3.4内容图

图3.5风格转换后效果图

图3.6风格图图3.7内容图

图3.8风格转换后效果图

3.2写实派风格转换实现

3.2.1写实风格

图像风格转换是一个经久不衰的话题，将参考风格图像的风格转换到另一个输入图像中。

比如，选择一种参考风格图像，可以将在不同光照，不同时段，不同季节拍摄的照片，艺术化地转换成不同的风格。

目前，现有的技术有局限性，只能处理它们可以处理的特定场景和变换。

本文介绍深度学习的图像风格变换，可以在更宽泛的时间和更丰富的图像内容上精确地转换成参考风格。

我们的方法基于论文5的卷积网络风格变换。

但是，如图1所示，输入图片和参考风格图像都是拍摄好的图像，输出的图像却像是一幅绘画，比如直线弯曲，纹理扭曲。

我们的贡献是去除这些像手绘的空间扭曲，将变换操作只作用在色彩空间上。

我们用一个色彩空间上的局部仿射变换模型解决这个问题，用拉普拉斯抠图矩阵表示一个完全可微项。

这种方法成功地抑制了图像扭曲，对风格变换影响非常小。

另外一个主要贡献是对变换过程中由于输入图像和参考图像的内容不同而导致的不相关内容不在预期范围内的变换的出现提供了解决方案。

比如，一个输入图像的天空内容比较少，风格变换可能会忽略掉内容上的差异而导致天空风格“溢出”到图像的其他部分。

我们用输入图像和参考图像的语义分割来处理这一问题。

我们证明了这个方法的有效性，满足各种各样的场景下逼真的风格转移，包括时间、天气、季节和艺术编辑的转移。

3.2.2需解决问题

从图3.9可以看出对于艺术风格的图片，其图片的组织结构没有像写实照片那么紧凑，其转换的效果相对有很好的效果。

对于写实的照片，我们想把夜晚的效果转换到另一张写实的照片中去，之前的程序跑出来的结果实际上是毁了两张图，出现了很大程度的在图像内容、图像色彩上的扭曲，更糟糕的是与我们的目标似乎背道而驰。

所以接下俩要解决的就是解决这个图像内容、色彩上的扭曲。

图3.9

从实践的角度来看：

我们的贡献了一个有效的算法，适用于许多应用的摄影风格转移，如改变图片中一天的时间或天气，或将艺术风格编辑从一个照片转移到另一个。

为了实现这个结果，我们必须解决两个基本的问题。

结构保留：

这在我们的目标中，有一种内在的矛盾。

一方面，我们想要获得非常强烈的局部效果，比如，打开摩天大楼上的某个窗户的灯光。

另外一方面，这些效果不应该扭曲边缘和规则的图案，例如，窗口仍然保持网格对齐。

形式上，我们寻找一种可以强烈改变图像颜色，却没有任何几何变化的效果，比如没有移动或扭曲。

Reinhard最初用全局颜色变

解决这一挑战：

但是，根据定义，这一变换不能对空间变化的影响进行建模，因此只能处理特定的风格。

更多需要空间变化效果的表现力时，就会进一步增加防止空间失真的挑战。

有一些技术可以处理特定场景，但通用的情况仍然无法解决。

我们的工作是承接这一挑战提供了第一个解决方案，将方案空间限制到逼真图像上，从而处理了从绘画中分辨图像的基本问题。

语义精度和转移保真度：

现实世界场景的复杂性提出了另一个挑战：

转移应尊重场景的语义。

例如，在城市景观中，建筑物的外观应该与建筑物相匹配，天空和天空相匹配；不能让天空看起来像建筑物。

一个合理的方法是用风格图像中最相似的区域匹配每个输入神经区域，以尽量减少不准确转移的可能性。

这个策略本质上是卷积网络和马尔科夫随机场方法。

尽管很有道理，但我们发现它往往导致一些结果，很多输入图像区域会和同一风格图像区域匹配，其他整个风格图像区域会被忽略，生成的输出图像和预期的风格匹配很差。

这个问题的一个解决方法是用神经网络反馈克莱姆矩阵的参考风格图像转移完整的“风格分布”。

这个方法可以成功地防止任何区域被忽略。

然而，可能有些场景元素比参考图像中的被更多（或更少）地表示在输入图像中。

在这种情况下，参考风格图像中的大规模元素的风格就会“溢出”到输入图像的没有匹配的元素上去，产生一些错误比如建筑的纹理放在的天空中。

我们的工作的一个贡献是将输入图像和风格图像的语义标注整合到整个转移过程中，这样在相同语义的次区域间和每个次区域上进行风格转移，映射就会趋向均匀。

正如我们将看到的，该算法保留了所需的风格的丰富性，并防止溢出效应。

如图3.10

图3.10

3.2.3实现原理

在色彩空间上的局部仿射变换模型，用拉普拉斯抠图矩阵表示一个完全可微项。

这种方法成功地抑制了图像扭曲，对风格变换影响非常小。

输入图像和参考图像的语义分割，对变换过程中由于输入图像和参考图像的内容不同而导致的不相关内容不在预期范围内的变换的出现提供了解决方案。

结构保留。

我们寻找一种可以强烈改变图像颜色，却没有任何几何变化的效果，比如没有移动或扭曲。

我们的工作是承接这一挑战提供了第一个解决方案，将方案空间限制到逼真图像上。

语义精度和转移保真度。

转移应尊重场景的语义.例如，在城市景观中，建筑物的外观应该与建筑物相匹配，天空和天空相匹配；不能让天空看起来像建筑物.一个解决方法是用神经网络反馈克莱姆矩阵的参考风格图像转移完整的“风格分布”。

将输入图像和风格图像的语义标注整合到整个转移过程中，这样在相同语义的次区域间和每个次区域上进行风格转移，映射就会趋向

将参考风格图像S转移到输入图像I上，用最小化目标函数生成一个输出图像O：

其中，L是卷积层总数量，l是深度卷积神经网络的第l层卷积层。

每层都有Nl个滤波器每个是大小为Dl的向量特征地图。

是特征矩阵，（i，j）是序号，克莱姆矩阵

定义为向量特征地图之间的內积。

αl和βl是配置层偏置的权重，Γ是平衡图像内容（等式1b）和图像风格之间取舍关系的权重。

图像写实正则化。

下面描述如何规范化优化流程以保留输入图像的结构，生成写实风格的图像输出。

这个策略不是直接在输出图像上添加约束来表示，而是在作用到输入图像的变换上。

描述写实图像的特征空间是一个还没有解决的问题。

如果使用的输入图像本来就是写实的话，就不需要处理这个问题了。

我们的策略是在风格转移的过程中，通过给等式1a添加一个与图像扭曲相关的惩罚项，确保不会丢失其属性。

我们的方案是寻找一个色彩空间的图像局部仿射变换，也就是，对于每一个输出区块，存在一个仿射函数将输入图像的RGB值映射到对应的输出对应的位置上去。

每个区域的仿射函数都不同，随空间变化。

直觉上，可以考虑使用边缘检测区块。

RGB通道的仿射合并会生成一组变量，但边缘不会移动，因为它在所有通道上都在相同的位置上。

我们在输入图像RGB通道的局部仿射合并上构建拉普拉斯抠图算法。

他们使用了一个最小二乘惩罚函数，这个惩罚函数可以用输入图像I的矩阵ΜI表示的标准线性系统最小化。

定义是输出图像O的（N×1）向量版本，定义如下的正则项惩罚不能很好地用局部仿射变换解释的输出：

在梯度处理器中使用这个项需要计算输出图像的导数。

MI是对称矩阵，则

语义分割增强风格损失函数。

等式1c中图像风格项的限制是从整幅图像中计算克莱姆矩阵。

克莱姆矩阵将组成向量组织成等距向量，隐式地对神经反应的精确分布进行编码，限制了其适应语义内容变化的能力，导致“溢出”。

我们用与NeuralDoodle和Deeplab语义分割相似的方法对带有一组通用标签（天空，建筑，水等）的输入图像和参考图像生成图像分割遮罩。

我们将遮罩添加到输入图像上作为另一个通道，通过传播语义分割通道增强神经网络风格算法，用如下函数更新风格损失：

其中，C是语义分割遮罩中的通道数量，是第l层的语义分割遮罩的通道c，

是与

对应的克莱姆矩阵。

在卷积神经网络的每层，对遮罩降采样以匹配特征地图空间大小。

为了避免输入图像上出现“孤儿语义标签”，强制输入图像语义标签从参考风格图像的标签上选择。

选择的标签通常都和内容一致，比如“湖”和“海”，但从语义观点看这可能导致错误标签。

最终的输出图像被正则化项限制，可以看到分割不需要在像素级别那么精准。

将3部分组合起来形成写实风格转移目标函数：

其中L是卷积层总数，l是深度神经网络的第l个卷积层。

Γ是控制风格损失的权重。

αl和βl是配置层选项的权重。

λ是控制写实正则化的权重。

是内容损失（等式1b）。

是增强的风格损失（等式3a）。

是图像写实正则化（等式2）

3.2.4实现效果

针对上述的不足通过查略资料，了解到上述问题一家公司刚好在今年开发的prima软件解决了这个问题，并发表了一篇《deepphotostyletransfer》其中解释了实现写实风格场景风格转换的方法——色彩空间上的局部仿射变换模型解决这个问题，用拉普拉斯抠图矩阵表示一个完全可微项，以及用输入图像和参考图像的语义分割来处理这个问题。

这种方法成功的抑制了图像扭曲，对图像风格变换影响非常小。

该论文描述了整个实现的方法，当然也提供了解决上述问题的模块代码。

但是由于其运行时间的以及硬件开销比较大，舶来的代码在自己的pc端运行很

慢，自己通过读代码减少优化的循环次数，以及降低图片大小来达到自己能接受的运行开销，完成了部分效果图：

图3.11风格图图3.12内容图

图3.13风格转换后效果图

四、展望

本次课题项目的开展虽然如期的基本实现自己的目标，但其中也有很多不完美的地方，一个明显的改进地方就是提高程序执行时间，得益于高性能计算机的应用，在图像风格和特征提取过程中提取的速度会得到质的提升，同时对于风格与内容的合成后的图像优化过程和优化结果也会得到很好的提高。

另一个明显的改进领域就是算法强大的风格和内容图像更广泛的范围。

这个可以通过用a定义样式图像的区域来完成更丰富的风格选择，也有更好的细分在算法中处理或消除对掩码的需要。

虽然计算速度在我们的算法的发展并不是主要关心的问题，诚然它可以采取约10-20分钟来生成一个图像（或约如果提供或者不使用幻觉图像，则只要一半的时间）。

然而，MATLAB和算法优化的组合应该能够显著减少运行时间。

五、代码

见文件

六、致谢与收获

感谢谢斌老师在此次项目中给我们的选题提供了宝贵的建议及项目进展过程中的专业指导。

还有良心推荐大家使用谷歌翻译，在本次课题项目进程中，几乎是用英文写的，所以在翻译文献方面谷歌翻译显得尤为重要。

通过本次课题项目，首先通过自己动手实操改变了以往对数字图像处理只是一大堆数学转换公式、学长学姐口中一大坑课的观点，相反它其实是一门很有意思的课，在使劲按中学习、在实操中开阔视野；自己通过查略资料从不了解到了解到最后完成实现自己作品，应该来说这个项目是我离自己的专业前沿最近的一次，通过老师的指导自己能够学习运用学校的网络资源去查询下载与国际接轨的最新论文，当然这也是第一次自己真真切切的阅读英文文献（虽然是借助Google翻译）另外一个意外收获就是自己有理由接触并认识到了云计算这样一种技术，之前总是听人说，但具体是什么问我肯定答不上来，但这次为了解决程序运行的开销问题主动了解了云计算。

“只要自己肯动手，花时间去学，将理论运用于实践，再高端大气的东西也会有亲和力”。

七、参考文献

[1].GatysLA,EckerAS,BethgeM.Imagestyletransferusingconvolutionalneuralnetworks[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2016:

2414-2423。

[2]TaylorGuo，深度卷积神经网络图像风格变换DeepPhotoStyleTransfer2017-4-23。

[3]FujunLuan、SylvainParis、EliShechtman、KavitaBala、LouieYang,瞬间变样！

看TensorFow如何实现深度「图片风格迁移」,2017-8-8。

[4]L.A.Gatys,A.S.Ecker,andM.Bethge. Imagestyletransferusingconvolutionalneuralnetworks.InProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,pages2414–2423,2016.1,2,3,5

[5]A.J.Champandard.Semanticstyletransferandturningtwobitdoodlesintofineartworks.Mar2016.3

[6]E.Reinhard,M.Adhikhmin,B.Gooch,andP.Shirley. Colortransferbetweenimages.IEEEComputerGraphicsandApplications,21（5）:

34–41,2001.2,5,7

[7]C.LiandM.Wand. Combiningmarkovrandomfieldsandconvolutionalneuralnetworksforimagesynthesis.arXivpreprintarXiv:

1601.04589,2016.2,3,5

[8]J.Johnson.neural-style.2015.4

[9]K.SimonyanandA.Zisserman.VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition.

[10]OmkarMParkhi,AndreaVedaldi,andAndrewZisserman.Deepfacerecognition.InBMVC,volume1,page6,2015.

[11]A.Levin,D.Lischinski,andY.Weiss.Aclosed-formsolutiontonaturalimagematting.IEEETransactionsonPatternAnalysisandMachineIntelligence,30

（2）:

228–242,2008.

[12L.-C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,andA.L.Yuille.Deeplab:

Semanticimagesegmentationwithdeepconvolutionalnets,atrousconvolution,andfullyconnectedcrfs.

[13]新新大熊2017年4月23日星期日-4月27日星期四

[4]张雨石2016年12月20日星期日

展开阅读全文

中南大学 数字图像处理 图像风格转换.docx

中南大学数字图像处理图像风格转换.docx