基于GAN的face to face的人脸变化技术研究Word下载.docx

资源描述

基于GAN的face to face的人脸变化技术研究Word下载.docx

《基于GAN的face to face的人脸变化技术研究Word下载.docx》由会员分享，可在线阅读，更多相关《基于GAN的face to face的人脸变化技术研究Word下载.docx（22页珍藏版）》请在冰点文库上搜索。

基于GAN的face to face的人脸变化技术研究Word下载.docx

此外Salimans等人提出几种技术来让GAN的训练达到更好的收敛，其中一种技术称为特征匹配。

特征匹配是指生成样本和真实样本在判别器的中间层输出的特征图尽可能相似，并将二者特征图的差异性作为生成器的损失函数。

相比原始GAN，基于特征匹配的生成器产生的样本更符合真实样本的数据。

Mirza等人提出了一种有条件约束的生成对抗网络CGAN，核心在于为生成器和判别器加入额外信息y为条件，使用额外信息y对模型的训练过程进行限制，进而指导数据的生成过程。

这些额外信息y可以为任意信息，比如为类别标签或者其它的来自不同模态的数据等。

Denton等人提出一种结合拉普拉斯金字塔和CGAN的生成对抗网络LAPGAN，利用低分辨率的图片作为条件，通过一系列的卷积神经网络连续生成清晰度不断提升的图像，构成拉普拉斯金字塔，最终生成高分辨率的图像。

由于原始GAN是通过JS散度与KL散度来衡量生成样本概率分布与真实样本概率分布的差异，在基于梯度下降的方法进行训练时候容易产生梯度弥散的问题，因为当真实样本分布与生成样本分布的支撑集交集为零测度，则生成器的损失函数恒为0，导致梯度消失。

为了解决梯度弥散的问题，Arjovsky等人提出了一种使用Wassertein距离来衡量真实样本概率分布和生成样本概率分布之间的距离的生成对抗网络WGAN，Wassertein距离相对JS散度与KL散度具有优越的平滑特性，即便生成样本概率分布与真实样本概率分布的没有重叠，Wassertein距离仍然可以描述二者之间的距离。

理论上可以解决梯度消失的问题。

由于GAN的判别器具有无限的建模能力，即无论真实样本和生成样本多复杂，判别器都可以将二者进行区分。

为了限定判别器的建模能力，Mao等人提出了一种最小二乘生成对抗网络LSGAN，LSGAN核心在于通过最小化目标损失函数得到函数L，把L函数限定在Lipschitz连续的函数类上，从而说明生成样本数据概率分布和真实样本数据概率分布的一致性。

其实WGAN和LSGAN两者都是建立在Lipschitz密度基础上的生成对抗网络，同时二者并未改变生成对抗网络的结构，只是对生成对抗网络的训练方式进行了优化。

原始的GAN都是通过学习一个生成器来将一个简单分布映射复杂的真实样本数据分布，Donahue等人提出一种双向映射的生成对抗网络BiGAN，核心在与建立复杂的真实样本数据分布与隐变量空间之间的映射，从而完成特征学习。

正如生成式对抗网络在无监督任务中展示出的强大能力，生成式对抗网络已经应用在了许多特殊的场景中。

一个较为成功的应用就是是超分辨率生成对抗网络SRGAN，它的目标函数结合超分辨率任务的传统内容损失函数和对抗性损失函数，在成功训练完SRGAN后，它的生成器会具有强大的图像生成能力，可以将低分辨率的图像输入转换成高分辨的图像输出。

1.1.2.自编码技术

传统自码器（AutoEnceoder）的概念最早来自于Rumelhart等人在《Nature》上发表的论文。

随后，Bourlard等人对其进行了详组的阐述。

自编码器具有重建过程简单，可堆叠多层、以神经科学为支撑点的优点，近几年来很多版本被提出，并且广泛用于其他各种研究领域，取得了很好的成绩，其中应用非常成功的有图像分类、视频异常检测、模式识别等。

如表1.1所示可以发现，自编码器在近几年内得到了高速发展，主要是因为在自编码器的发展早期，理论研究占主要地位，因此新型自编码器的提出比较缓慢，后来由于理论基础不断成熟，各种针对研究领域的自编码器被相继提出，并取得了令人满意的效果。

目前自编码器和玻尔兹曼机的用法非常类似。

自编码器由于内部层数不能太深，因此单个自编码器通常被逐个训练，然后堆叠多个自编码器的编码层，以完成深度学习的训练过程。

表1.1自编码器发展历程

自编码器名称

提出年份

传统自编码器

1986

降噪自编码器

2008

稀疏自编码器

2011

收缩自编码器

卷积自编码器

变换自编码器

变分自编码器

2014

张量自编码器

条件变分自编码器

2015

区分自编码器

损失变分自编码器

2016

最小二乘变分自编码器

2017

多阶段变分自编码器

1.2.本文研究内容和组织结构

1.2.1.研究内容

本文通过研究GAN，基本实现了基于GAN的人脸转换，分为以下三个部分：

基于MTCNN卷积神经网络，提取出视频中的人脸。

利用MTCNN内部的三个不同网络结构P-Net、R-Net和O-Net，可以较好地提取出视频中人脸。

基于GAN的人脸转换，通过生成器学习A脸和B脸的共有特征和个性特征，在B脸上生成A脸的特征，通过判别器不断进行对抗学习，提高生成真实率。

基于泊松融合的方式对后期生成的人脸进行处理，利用泊松方程的将图像融合转化成梯度场的方式，使图像更好的完成无缝融合。

结合上述三种方法，基本实现了人脸的转换。

1.2.2.组织结构

第一章绪论主要阐述了人脸转换的研究背景与意义。

而后从生成对抗网络和自编码器技术两个方面介绍了国内外该领域研究情况，以及传统方法中待解决的问题。

最后详细阐述了本文的研究内容和组织结构。

第二章主要围绕人脸转换的预处理部分展开，主要介绍了基于MTCNN的人脸检测。

首先介绍-了MTCNN的原理和网络架构，然后介绍了通过MTCNN对视频人脸的提取和转换，最后介绍了在人脸检测和提取中存在难点

第三章详细阐述了人脸转换的过程，即基于GAN的人脸转换方法，首先介绍了GAN的基本原理，而后详细介绍了GAN的网络结构，

然后对换GAN的训练和换脸过程进行了详细描述，最后介绍了GAN的特点。

第四章介绍了基于泊松融合的图像处理，先对泊松融合的原理进行了简单介绍，然后介绍了泊松融合对人脸的处理流程，最后展示了通过泊松融合后形成的人脸图片结果。

第五章为文章的总结与未来展望。

首先总结了本文的主要工作，而后对下一阶段的研究方向提出了展望。

第2章基于MTCNN的人脸预处理

人脸检测和人脸特征点定位是人脸转换的核心，准确的判别人脸可以有效的提高人脸特征点定位的正确率，同时提高人脸转换的效果。

传统的人脸检测和人脸特征定位虽然取得了一定成功，但这些算法都高度依赖人工设计的特征，难以应对视频中人脸剧烈的视觉变化，而深度学习凭借卷积神经网络可靠的特征表达能力能更好应对视频监控中人脸检测所面对的困难。

一些研究员将人脸检测与人脸特征点定位相结合，提出了基于多任务的人脸特征点定位方法。

2016年，Qiao等人提出多任务级联卷积神经网络算法。

该算法基于深度学习联合检测人脸边界框和人脸特征点，是目前效果最好的人脸检测和人脸特征点定位算法之一。

因此本章节主要介绍基于深度学习中MTCNN人脸检测的方法。

2.1.深度卷积网络MTCNN

2.1.

2.1.1.简介

CNN是深度学习中的一种常用网络构架，它借鉴了生物视觉细胞的思想，对目标的图像进行特征提取，从而获得目标的高层特征，这些高层特征可以用于分类等任务。

CNN的一般模式是是对输入的图像，进行卷积运算，得到图像的特征图。

从这个特征图上面，CNN可以学习到图像在某一点的特征，这个特征可以在任意地方识别出来，从而使得CNN具有较高的泛化能力。

得到的特征图可以继续进行卷积运算，得到深层的特征图一般来说浅层的特征图，可以学习出来物体的低级特征，例如颜色，边缘等;

而深层的特征图可以学习出来物体的高级特征例如人脸，性别等等。

如图2.1是一个简单CNN网络的架构示意图。

而MTCNN是一种联合人脸检测和人脸特征点定位的级联卷积神经网络框架，通过多任务学习的统一级联卷积神经网络将人脸检测和人脸特征点定位结合起来。

图2.1CNN网络架构示意图

2.1.2.网络结构

该网络是由三个神经网络构成：

第一级P-NET，通过一个浅层的CNN可以快速产生大量的候选窗口，然后在第二层R-Net中删除大量的非人脸窗口用来优化候选窗口，最后在第三级O-Net中再次优化人脸窗口，并且输出五个面部特征点的位置。

2.1.2.1.P-NET

P-Net是MTCNN的第一层网络，网络结构如图2.2，该网络的目的是用来获取人脸区域的候选窗口以及相应人脸框的回归向量。

P-Net首先会利用全卷积网络对输入的图像金字塔进行人脸检测，通过回归获取的输入图像的人脸边界框，从而对检测得到的人脸区域候选窗口进行校准。

最后通过非极大值抑制（NMS）合并高度重叠的人脸区域候选窗口。

图2.2P-Net网络结构示意图

2.1.2.2.R-NET

R-Net是MTCNN的第二层网络，网络结构如图2。

2，该网络的目的在于进一步抑制错误判断的人脸区域候选窗口。

首先将P-Net中所获得的全部人脸区域候选窗口输入R-Net然后同样通过回归边界框和非极大抑制去除错误的人脸区域候选窗口。

但是与P-Net相比，R-Net比多加入一层全连接层以达到更好的抑制效果，从而获取更准确的人脸区域候选窗口。

图2.3R-Net网络结构示意图

2.1.2.3.O-NET

O-Net是MTCNN的第三层网络，O-Net在R-Net的基础上又多加入一层卷积层，网络结构如图2。

4所示，因此O-Net处理的结果会更加精细。

O-Net的作用与R-Net相同，但O-Net对人脸区域进行了更多的监督，在抑制错误人脸候选窗口的同时还输出了5个面部特征点。

图2.4O-Net网络结构

2.2.MTCNN人脸检测流程

上一节主要介绍了MTCNN的网络结构，这一小节主要介绍MTCNN人脸检测和特征点定位的流程。

图2.5MTCNN人脸检测流程图

由图2.5可知，MTCNN的人脸检测和特征点提取主要分为四个步骤：

首先将获取到的图像进行不同尺度的缩放，构建一个图像金字塔，将不同尺度的图像送入到三个子网络中进行训练，目的是为了可以检测到不同大小的人脸，从而实现多尺度目标检测。

第二步，将缩放后的图片传入P-NET层，通过该网络的结构获得边界框回归向量和人脸区域的候选窗口。

而后再通过非极大值抑制（NMS）去除重合度很高的候选框，并通过回归向量进行校正;

第三步，再从P-Net层输出数据再传入R-Net层，该网络结构依然通过边界框回归和NMS去掉高度重合的区域，但由于该网络结构增加了一层全连接层，所以会取得更好的抑制作用;

第四步，将R-Net输出的结果传入O-Net层，该层相比于R-Net层增加了一层卷积层，所以对面部细节的处理更加精细，其作用与R-Net层一样，但因为该层对人脸区域进行了更多的监督，所以最后可输出具有人脸特征的框图

MTCNN算法使用图像金字塔，可适应不同的人脸图像，使经过缩放的人脸图片更接近训练时使用的图片大小，因此检测准确性很高，但也因此图像缩放及各层间数据传递、内存与显存间传递时耗较大。

2.3.人脸特征提取的难点

人脸识别技术相对于其他的生物特征识别,拥有很多天然的优势,但是其研究过程中存在着许多的难点,目前来说,人脸特征提取是整个生物特征提取领最困难的研究课题之一,大到人工智能领域来说,人脸特征提取的研究难度都很难克服的。

相比于其他的物体图片,人脸图片的复杂和精确程度更甚。

普通的人脸图片,由于受到的环境制约,往往变化通常都很大。

想要很好的区分类间变化,往往会受到类间变化的影响,如何去除这种影响,十分困难。

人脸特征提取的主要困难有以下几个方面：

1．相貌、姿态、表情不一样,造成人脸特征具有很大的模式可变性；

2．光照的明暗和角度,引起图片对比度和亮度的变化,造成人脸特征的多样性；

3．刘海,眼镜,头发等物体遮挡,导致的人脸特征丢失；

4．人脸的各种运动容易引起人脸姿态的异化；

5．复杂多变的背景，干扰到人险的预处理和检测。

2.2.

2.3.

2.4.本章小结

本章介绍了基于MTCNN的人脸检测的相关知识，首先介绍了MTCNN的基本原理，其次介绍了MTCNN的网络结构，由R-Net,P-NET,O-Net,三个神经网络组成，然后后介绍了MTCNN对人脸进行训练的流程，最后说明了一下人脸检测存在的难点。

本章整理了人脸转换的相关预备知识，为后续研究的展开做好了铺垫。

第3章基于GAN的人脸转换技术

图3.1人脸转换流程图

上一章主要介绍了基于MTCNN的人脸检测和特征点定位，为人脸的转换工作做好了铺垫，本章将介绍基于GAN的人脸转换部分，如图3.1

3.1.GAN基本原理

生成式对抗网络GAN是Goodfellow等在2014年提出的一种生成式模型。

该系统由一个生成器和一个判别器构成。

生成模型可以捕捉到真实训练数据的分布情况，由此可以生成高度真实的合成数据;

判别模型是用来尽可能准确地判断，输入的样本来自于真实的数据还是由生成模型产生的合成数据。

简单来说。

生成模型生成逼真的合成数据，希望使判别模型无法判断输入是真实数据还是合成数据;

而判别模型则希望在对输入数据进行判断时，能够把匹配训练样本和生成样本正确标签的概率最大化。

从而生成模型和判别模型之间形成了对抗关系。

生成对抗网络的目的是通过对生成器和判别器的分别训练，最终得到一个可以将输入噪声变得完全符合真实数据分布的生成器，以及一个可以很好地判定输入数据是真实数据还是生成数据的判别器。

图3.2生成对抗网络结构图

3.1.1.生成器

生成器是的模型是基于自编码器构成的，自编码器类似于神经网络，可以说是神经网络的一种，由一个编码器和一个解码器组成，经过训练后能够尝试将输入复制到输出。

自编码器和神经网络一样，有着隐含层，可以将输入解析成编码序列，从而复现输入。

3.1.1.1.编码器

自编码器中的编码器由五个卷积层和一个自注意力机制组成（如图3。

2），主要用于提取AB两张人脸面部的共性特征点。

其中卷积层部分用了简单的堆叠5x5卷积核，采用alpha=0。

1的LeakyRelu作为激活函数，是用来提取图片的特征。

自注意力机制是给这些提取出来的特征赋予权重，以去除掉部分的非重要因素，然后更精确的表达图像所包含的内容。

最终图像经过编码器，就可以提取出输入图像的隐含信息即特征编码。

图3.3编码器网络结构

.2解码器

解码器由四个反卷积层和残差网络组成，主要实现还原人脸面部的个性特征。

反卷积层主要用来对输入的图像特征进行恢复，残差网络即保证了梯度的可学习性，层与层之间采用leakyReLU激活函数。

反卷积层采用4*4的卷积核，由下至上卷积核数量依次为256、128、64、32、16、8、1，通过卷积核数量的减少，还原出人脸面部的个性特征。

图3.4解码器网络结构

3.1.2.判别器

判别器有四层卷积层组成，输入原图和解码后的图，通过分辨网络，实现对抗，提升编码和解码的能力。

每个卷积层均由3*3卷积核组成，通过对输入图片的提取，与真实图片进行判断，来判别输入图像的真假。

图3.5判别器网络结构

3.2.损失函数介绍

如图3.6所示，本文方法的损失函数由三部分组成：

均方误差、对抗损失和感知损失。

图3.6损失函数示意图

3.2.1.均方误差（MAEloss）

在图像处理技术中，均方误差是最广泛的图像质量评价的方法之一，是衡量“平均误差”的一种较方便的方法,均方误差统计参数时预测数据和原始数据对应点误差平方和的均值，对于像素大小为M×

N的图像来说其定义如下：

（3-1）

式中f和g分别为目标图像和原始图像:

f（i,j）和g（i,j）分别为目标图像和原始图像中对应第i+1和j+1列的像素值，

如图1中显示的均方误差，即直接对经过生成器重构出来的人脸A`与真实的人脸A作差，取绝对值以后再除以两张人脸的所有像素值的到误差值，使误差值越趋近于0，最后重构出来的人脸A越真实。

3.2.2.对抗损失（adversarialloss）

对抗损失是生成对抗网路中传统的误差，GAN是由生成器和判别器组成的，生成器的目标是欺骗判别器，判别器的目标是能够区分真实数据和生成数据，所以就产生了对抗。

根据交叉熵损失，可以构造下面的损失函数

（3-2）

在式3-2加号前面的是训练数据中的真实样本，后面的是从已知噪声分布中取出的样本，其中x表示真实图片，z表示输入G网络的噪声，而G（z）表示G网络生成的图片，D（x）表示D网络判断真实图片是否真实的概率，即P（y=1|x）P（y=1|x）。

而D（G（z））D（G（z））是D网络判断G生成的图片是否真实的概率。

G的目的：

G应该希望自己生成的图片越真实越好。

也就是说G希望D（G（z））D（G（z））尽可能大，即P（G（z）=1|x）P（G（z）=1|x），这时V（D,G）V（D,G）尽可能小。

D的目的：

D的能力越强，D（x）D（x）就应该越大，D（G（x））D（G（x））应该越小（即假的图片都被识别为0）。

因此D的目的和G的目的不同，D希望

V（D,G）V（D,G）越大越好。

所以G和D就产生了对抗训练，不断的优化生成的图片，做到让判别器分辨不清楚真假。

如图1中显示的第二个对抗损失的模式，将生成的人脸A和生成的人脸A作为输入，输进判别器，然后判别器通过检测，两张脸哪一张更像真实的，将结果反馈给生成器，生成器再继续训练

有了对抗损失函数以后生成器能确保输出更大分辨率、看起来真实的图像，并且保持和低分辨率版本相似的像素空间

3.2.3.感知损失（Perceptualloss）

感知损失是将真实图片卷积得到的feature与生成图片卷积得到的feature作比较，使得高层信息（内容和全局结构）接近

如图1中第三部分所示的感知损失，把生成器生成图片与真实图片送入现有的vggface识别模型，获取到四个不同尺寸的特征图，然后对特征图进行instancenorm后，比较差异，生成loss。

3.3.训练流程

生成式对抗网络对抗学习过程是生成网络G和判别网络D双方不断博弈，进行极大极小游戏，迭代更新优化网络参数的过程。

生成网络G生成接近真实样本的假样本，让判别网络D判别为真，判别网络D尽可能去鉴别真实样本和生成样本。

由于我们使用的生成器模型是Autoencoder，这个模型的工作是基于原始的图片再次生成原始的图片，编码器把图片进行压缩，而解码器在把图片进行还原（如图1）。

图2自编码器训练过程

在这个基础上，如果我们输入的一个人脸，最终生成的也会是一个类似原来的脸。

所以，对人脸A和人脸B使用统一的编码器Encoder，可以用以下公式表示：

（3-3）

（3-4）

目的是为了学习两张人脸共性的特征，然后对人脸A和人脸B分别建立一个解码器，用于学习人脸个性的特征，在训练的时候，输入A的图片，通过编码器，提取出A脸的特征，然后在通过A的解码器重构出A的脸和A脸语义掩码，两者做卷积还原出A脸，这样编码器就学习到了A脸的特征。

然后再输入B的人脸，通过相同的编码器和B的解码器还原B的脸，这样编码器就学习到了A和B的共有特征。

在训练的时候就只用通过编码器输入B脸的图像，将B脸的特征提取出来之后再由A的解码器还原，这样就将A脸的特征移植到了B脸上，输出出来的B脸看起来就像是A脸。

图1训练步骤

图2训练结果

3.4.生成对抗网络特点

生成式对抗网络的作为一个典型的生成式模型，其研究得到不断发展和进步。

它具有独特的优点。

首先，与玻尔兹曼机相比，生成式对抗网络采用梯度反向传播算法，优化更新网络参数，不需要复杂的马尔客服链，使得模型训练更加简单容易；

其次，相比变分自编码器，需要在变分推断方法中引入决定性偏置优化对数似然的下界，生成式对抗网络只需生成网络和对抗网络通过对抗学习达到纳什均衡，便可生成更加清晰高质量的图片；

最后，生成对抗网络通过博弈对抗训练生成逼真的图片，可应用在不同需求和噪声环境的场景下，例如风格迁移、图像生成/合成、图像超分辨率、图像去噪、图像语义分割等都能实现，在某种程度上避免了损失函数设计的困难。

生成式对抗网络开启了图像生成的新方法，但仍存在一定的问题。

生成式对抗网络在对抗训练过程中，需要保持生成网络与判别网络能力的相对平衡，任何一方能力太强都会导致对抗博弈策略的失效。

此外，生成式对抗网络训练过程中，由于梯度消失导致模式崩溃的现象，为了生成逼真的样本，生成网络会陷入局部最优解或对判别网络过拟合，而只能生成一种类似的样本，导致生成样本单一，无法生成多样性的样本。

针对这些问题，研究者们不断提出新的网络模型，例如WGAN，WGAN-GP，LSGAN，DCGAN，BEGAN等，对生成式对抗网络的损失函数、激活函数以及引入深度卷积等多个方面进行改进，一定程度上改善了生成式对抗网络训练过程中存在的问题。

3。

6。

本章小结

本章主要介

展开阅读全文