人脸识别文献综述Word文档格式.docx

资源描述

人脸识别文献综述Word文档格式.docx

《人脸识别文献综述Word文档格式.docx》由会员分享，可在线阅读，更多相关《人脸识别文献综述Word文档格式.docx（15页珍藏版）》请在冰点文库上搜索。

人脸识别文献综述Word文档格式.docx

目前，数字图像处理技术己被广泛应用于办公自动化、工业机器人、地理数据处理、医学数据处理、地球资源遥感、交互式计算机辅助设计等领域，尤其在机器视觉应用系统中成为关键技术之一。

一般的图像都是模拟图像，对于模拟图像只能采用模拟处理方式进行处理，计算机不能接受和处理模拟信号，只有将连续的模拟信号变换为离散的数字信号，或者说将模拟图像变换为数字图像才能接受。

数字图像处理就是对给定的数字图像进行某些变换的过程。

对含有噪声的图像，要除去噪声、滤去干扰，提高信噪比；

对信息微弱的图像要进行灰度变换等增强处理；

对已经退化的模糊图像要进行各种复原的处理；

对失真的图像要进行几何校正等变换。

除此之外，图像的合成，图像的边缘提取与分割，图像的编码、压缩与传输，图像的分析等技术也属于图像处理的容。

由此可见，图像处理就是为了达到改善图像的质量，将图像变换成便于人们观察和适于机器识别的目的[4]。

2.2神经网络

人工神经网络是一门以对大脑的生理研究成果为基础，以用机器模拟大脑的某些生理与机制，实现某方面功能为目的的学科[6]。

研究神经网络，特别是神经学习的机理，对认识和促进人自身发展有特殊的意义。

神经网络有许多具有非线性映射能力的神经元组成，神经元之间通过权系数连接。

网络的信息分布式就存在连接系数中，使网络具有很高的容错性和鲁棒性。

神经网络技术已经被有效地用到组合优化、图像处理、模式识别、自动控制等方面。

基于神经网络技术的人脸识别方法是人脸识别研究领域中的一大重要分支。

2.3模式识别

模式识别[7]，就是通过计算机用数学技术方法来研究模式的自动处理和判读。

这门学科使用计算机的方法实现人的模式识别能力，即对各种事物或现象进行分析、描述、判别和识别。

在人脸识别中，如果是个人识别，则每一个人就是一个模式，预先存在数据库里的图像就是样本；

如果是性别识别、种族识别或年龄识别，则不同的性别、种族或年龄就构成一个模式；

如果是表情识别，则不同的表情就是一个模式。

人脸识别重在讨论个人识别，人脸识别的最终目的就是利用人脸图像确定待识别的人究竟与数据库里的哪个人是同一个人，这是一个“是谁”的问题；

或要判断这个人与库里的某个人是不是同一个人，这是一个“认识或不认识”的问题。

图像识别是指对视觉图像目标按其物理特征进行分类，属于模式识别的畴。

图像识别系统的基本结构如图1所示。

图1图像识别系统的基本结构

2.4计算机视觉

在客观世界中，人类通过视觉识别文字和周围环境，感知外界信息。

人们75%的信息量都来自视觉，因此让计算机或机器人具有视觉，是人工智能的重要环节，也是人类多年以来的梦想。

在信号处理理论与高性能计算机出现后，这种希望正在逐步实现。

用计算机实现对视觉信息的处理形成了一门新兴的学科——计算机视觉。

计算机视觉是一门用计算机来实现人的视觉功能，实现客观三维世界的识别的学科。

计算机视觉的最终目标是模拟人类的视觉能力，理解并解释周围的世界，其研究的一个关键容是图像的识别。

3人脸检测与定位

人脸检测与定位是自动人脸识别系统首先需要解决的关键问题，也即检测图像中是否有人脸存在，若有，则将其从背景中分割出来并确定其在图像中的位置。

在某些可以控制拍摄条件的场合，如警察拍摄罪犯照片时将人脸限定在标尺，此时的人脸定位由于己经具备了人脸位置的先验知识而相对比较简单；

证件照（、护照等）由于背景相对简单，定位也比较容易。

但在通常情况的实际应用中，人脸在图像中的位置预先未能得知，人脸检测与定位将受到以下因素的制约：

（1）人脸在图像中的位置、角度和尺度不同以及光照的变化；

（2）发型、眼镜、胡须以及人脸的表情变化等；

（3）图像中的噪声影响。

因此从某种程度上说，人脸检测与定位甚至比人脸模式的识别更为关键。

按照人脸检测技术的发展历程，本文依据采用的主要技术方法将人脸检测分为以下四种类型:

基于特征检测的方法、基于肤色检测的方法、基于模板匹配的方法、基于外观统计学习的方法。

3.1基于特征检测的方法

基于特征的人脸检测方法依据人脸的面部几何特征、纹理特征、肤色特征进行人脸和非人脸的判别，见下表：

表1基于特征的人脸检测与关键特征定位算法

人脸特征

主要算法

主要参考文献

边缘、轮廓

边缘检测算子；

椭圆拟合等

[8,9]

器官特征

形态学运算；

自适应域值；

局部特征检测；

模板匹配；

概率决策等

[10,11]

纹理特征（肤色、头发、胡须等）

灰度共生矩阵（二阶纹理统计特征）；

神经网络分类器；

自组织映射网络等

[12,13]

3.2基于肤色检测的方法

利用人脸肤色信息进行人脸检测曾经一度成为人脸检测领域的研究热点，涌现了大量的学术文献，Lee等[14]最早利用人脸肤色信息进行人脸定位；

Saber[15]利用肤色、人脸形状及几何对称信息实现人脸检测和面部特征的抽取；

Jones[16]利用大量的样本图像对肤色检测问题进行了分析，并建立了人脸肤色的统计模型用于人脸检测，收到了较好的检测效果；

Terrillon[17]使用高斯模型和混合高斯模型在不同色度空间建立肤色模型进行人脸检测，并进行了对比分析，结果发现混合高斯模型比一般高斯模型具有更好的泛化能力；

Hadid[18]基于Skin-Locus建立肤色模型，提取彩色人脸区域实现人脸检测，但需要在固定成像参数下才保证有良好的性能，鲁棒性有待提高；

Martinkauppi[19]对Skin-Locus理论进行了细致分析，发现人脸肤色在各种光照条件下可以用两个二次或者多次多项式进行拟合；

anieiu[20]采用Mean-Shift算法进行局部搜索实现人脸的检测与跟踪，该算法提高了人脸的检测速度，对遮挡和光照的鲁棒性较好，但对于复杂背景和多个人脸目标的检测不够鲁棒；

Hsu[21]采用光照补偿的办法克服光照问题，从一定程度上解决了偏色、复杂背景和多人脸目标的检测问题，对人脸的位置、尺度、旋转、姿态和表情等变化具有较好的鲁棒性；

Sobottka和Pitas[22]结合肤色（HSV）和人脸的形状信息来定位人脸和进行面部特征的提取；

Terrillon[23]等利用高斯模型对肤色象素进行聚类，并采用神经网络对二值图像的几何距进行学习实现人脸检测；

Garcia和Tziritas[24]采用量化肤色区域合并结合小波分析实现人脸检测。

总的说来，基于肤色检测的方法鲁棒性的提高依赖于肤色模型的质量，在背景相对简单的情况下可以获得良好的检测效果;

但在复杂背景中，尤其是背景中存在较多的类肤色区域时，检测质量将急剧下降。

而且，肤色模型在不同人种之间会存在较大的差异，因而很难建立一个通用性很强的人脸肤色统计模型。

因此，基于肤色检测的人脸检测方法的应用受到一定限制。

3.3基于模板匹配的方法

基于模板匹配的方法首先需要人工定义一组标准或参数化的人脸模式（通常为正面），称之为模板。

对于给定输入图像，通过计算其与标准模板的相关系数并根据相关系数判断是否为人脸，详见表2。

这种人脸检测方法实现简单，但是由于人脸尺度、姿态和形状的不确定性，基于模板的人脸检测方法通常达不到很高的准确率。

表2基于模板匹配的人脸检测方法

模板种类

固定模板

人脸子模板

（眼睛、鼻子）

梯度图像；

相关匹配等

[25,26]

人脸形状模板

边缘检测；

[27,28]

分块比例模板

[29]

重心模板

Laplancian边缘检测；

[30]

变形模板

弹性模型

能量函数度量

[31]

Snakes

[32]

PDM模型

ASM搜索

[33]

3.4基于统计学习的方法

与上述方法不同，基于统计学习的方法主要采用大量的人脸与非人脸样本对检测分类器进行训练，将人脸检测转化为二类模式分类问题。

Propp等人是最早采用神经网络[34]进行人脸检测的学者之一，他们通过构造一个4层（两个隐藏层）神经网络实现人脸检测，但没有相关检测性能的报道；

后人在他们的基础上通过优化神经网络结构提出了时延神经网络（TDNN），自组织映射神经网络（SOM）、卷积神经网络（N）、概率决策神经网络（PDBNN）。

Feraud等人通过构造自协商神经网络（SNNN）[35]进行非线性主元分析，可以检测正面到左右60度旋转的人脸，他们的方法后来被Listen和Multrak采用。

Sung、Rowley、Lin&

Kung等[36]采用K-mean聚类算法在特征空间建立“人脸”和“非人脸”族，采用自举（bootstrap）方法首先建立一个仅使用人脸样本和少量非人脸样本训练的初始神经网络分类器对一组图像进行训练，将误检的非人脸样本加入非人脸样本库；

然后训练新的分类器，如此不断迭代，直到收集到足够多的非人脸样本，这种方法后来被许多学者所采用。

Carleson、Yang等[37]人提出的SNoW（SparseNetworkofWinnows）学习方法，对检测不同特征、表情、姿态和光照条件下的人脸收到了较好的效果。

其实质就是采用Winnow算法进行权值更新的稀疏神经网络；

H.Schneiderman[38]提出的基于后验概率估计的方法，先对样本进行小波变换，然后对这些特征进行统计，通过统计计算训练样本的直方图求得人脸与非人脸的概率分布实现人脸检测。

不同于传统基于经验风险最小化的分类器，如贝叶斯分类器、神经网络分类器等，支持向量机分类器（SVM）以基于结构风险最小化原理最小化泛化误差，通过构造最优分类超平面实现模式分类。

在这一领域，Osuna等人最早提出采用SVM分类器进行人脸检测，并提出了针对大规模数据集的SVM训练算法。

实验结果显示基于SVM的人脸检测速度比早先Sung等人提出的神经网络人脸检测快足足30倍。

Nefian[39]等人采用隐马尔可夫模型（HiddenMarkovModels简称HMM）检测人脸。

HMM是一种双重的随机过程，采用节点表示状态，有向边表示状态之间的转移。

因此适合描述信号统计特性。

Nefian等通过检测区域中的每个子区域，采用K-L变换系数作为观测矢量，通过B-W和维特比算法获得HMM的模型参数，依据区域观测序列的输出概率判决是否为人脸。

3.5AdaBoost算法训练器

康柏研究院的Viola[40]在2001国际计算机学术年会上发表的论文标志着人脸检测技术开始走向实用。

他们通过综合AdaBoost[41,42,43]和Cascade算法实现了实时人脸检测，使得人脸检测开始迈向实用化的道路。

而且首次引入了“积分图像”（IntegalImage）的概念，大大加快了检测过程中特征的计算速度。

利用Adaboost学习算法提高一个简单分类器（弱分类器）的性能，理论上最终形成的强分类器的训练错误率接近零，而且推广性好。

Viola在他的实验中定义了180000种矩形特征，通过实验选择一小部分特征形成一个有效的分类器。

继Viola等提出用于人脸检测的AdaBoost算法之后，许多学者对他们的算法进行了继承和发展。

首先，Lienlxart等人提出了新的旋转Haar-Like特征，可以用于旋转人脸的快速检测，同时提出了一些其他的Boosting法：

如DiscreteAdaBoost,RealAdaBoost,GentleAdaBoost等。

Froba在AdaBoost算法基础上提出了基于灰度图像的正面和平面旋转人脸实时检测系统，在EOM（EdgeOrientationMatching）的基础上进行扩展，引入SNoW算法进行校验，得到一个更为鲁棒的系统。

国的子清在AdaBoost算法基础上提出了FloatBoost算法，实现多视角人脸检测，通过从粗到精、从简单到复杂的金字塔型的人脸检测；

与传统的Adaboost算法相比，能在提高人脸检测速度的同时提高检测精度。

Liu提出了基于Kullback-LeiblerBoosting（KLB）算法的分类器，解决了传统AdaBoost算法存在的弱分类器的最优组合以及最优分类器和特征的选择问题。

Viola本人也对AdaBoost算法进行了改进，提出了不对称AdaBoost算法，用于快速图像检索和人脸检测。

总的说来，基于Boosting和Cascade算法的系统在速度方面具有很大的优越性，通过Haar-Like特征训练一些弱分类器，再组合成一个强分类器。

如何在提高检测精度的同时不降低检测速度，可以从以下方面综合考虑：

采用更优的特征描述方法，综合AdaBoost和强分类器。

3.6多种方法的结合

人脸检测与精确定位是一个颇具挑战性的研究课题，一些效果较好的人脸检测系统并不只是采用上述的某种方法，而是将多种方法有机地融合。

主流的方法大多是基于统计学习的，因此受学习样本的影响较大，不同样本集合对算法的性能也有一定影响。

复杂背景中正面人脸检测已经有了比较好的结果，多姿态人脸检测仍然是目前的研究重点，虽然取得了一些进展，但如何利用人脸的深度信息解决姿态和光照问题还有待进一步研究。

4人脸的识别方法

识别人脸主要依据那些在不同个体之间存在较大差异而对于同一个人则比较稳定的特征。

具体的特征形式随识别方法的不同而不同。

早期研究较多的静态人脸识别方法有基于几何特征的人脸识别方法和基于相关匹配的人脸识别方法。

目前，静止图像的人脸识别方法主要有三个研究方向：

一是基于统计的识别方法，包括特征脸（Eigenface）方法[44]和隐马尔科夫模型（HiddenMarkovModel）[45]方法；

二是基于连接机制的识别方法，包括一般的神经网络方法[46]和弹性图匹配[47]（ElasticGraphMatching）方法；

三是其他一些综合方法或处理非二维灰度图像的方法。

4.1基于几何特征的人脸识别方法

常采用的几何特征[48]有人脸的五官如眼睛、鼻子、嘴巴等的局部形状特征，脸型特征以及五官在脸上分布的几何特征。

提取特征时往往要用到人脸结构的一些先验知识。

在这种基于几何特征的识别中，识别总归为特征矢量之间的匹配，基于欧氏距离的判决是最常用的识别方法。

识别所采用的几何特征是以人脸器官的形状和几何关系为基础的特征矢量，其分量通常包括人脸指定两点间的欧式距离、曲率、角度等。

基于几何特征的识别方法具有如下优点：

符合人类识别人脸的机理，易于理解；

对每幅图像只需存储一个特征矢量，存储量小；

对光照变化不太敏感。

这种方法同样存在如下问题：

从图像中抽取稳定的特征比较困难，特别是特征受到遮挡时这种情况更为明显；

对强烈的表情变化和姿态变化的鲁棒性较差；

一般几何特征只描述了部件的基本形状与结构关系，忽略了局部细微特征，造成部分信息丢失，更适合于粗分类。

4.2基于模板匹配的人脸识别方法

模板匹配法[49][50]是一种经典的模式识别方法，这种方法大多是用归一化互相关直接计算两幅图像之间的匹配程度。

由于这种方法要求两幅图像上的目标要有相同的尺度取向和光照条件，所以预处理要做尺度归一化和灰度归一化的工作。

最简单的人脸模板是将人脸看成一个椭圆，检测人脸也就是检测图像中的椭圆。

另一种方法是将人脸用一组独立的小模板表示，如眼睛模板、嘴巴模板、鼻子模板、眉毛模板和下巴模板等。

但这些模板的获得必须利用各个特征的轮廓，而传统的基于边缘提取的方法很难获得较高的连续边缘。

即使获得了可靠度高的边缘，也很难从中自动提取所需的特征量。

为此，用弹性模板方法提取特征显示出其独到的优越性。

弹性模板由一组根据特征形状的先验知识设计的可调参数所定义。

为了求出这组参数，需要利用图像的边缘、峰值、谷值和强度信息及特征形状的先验知识设计合适的能量函数。

参数向能量减小方向调整，当能量达到最小时，这组参数对应的模板形状最符合特征形状。

4.3特征脸方法

特征脸（Eigenface）[51]方法是从主成分分析（PrincipalponentAnalysis,PCA）[53]导出的一种人脸识别和描述技术。

PCA实质上是K-L展开的网络递推实现，K-L变换是图像压缩中的一种最优正交变换，其生成矩阵一般为训练样本的总体散布矩阵。

特征脸方法就是将包含人脸的图像区域看作是一种随机向量，因此可以采用K-L变换获得其正交K-L基底，对应其中较大特征值的基底具有与人脸相似的形状，因此又称之为特征脸。

利用这些基底的线性组合可以描述、表达和逼近人脸图像，因此可以进行人脸识别和合成。

识别过程就是将人脸图像映射到由特征脸成的子空间上，比较其与已知人脸在特征脸空间中的位置。

近年来，据此发展了多种对特征脸的改进方法，如双子空间法、相形歧义分析方法、Fisher脸方法等。

另一方面，Albert等将PCA与人脸拓扑关系结合起来提出TPCA（topologicalprincipalponentanalysis）方法，识别率较单一的PCA类方法有所提高。

此外，与K-L变换的思想比较接近，但不是从统计角度出发的。

另一种变换是奇异值分解（SVD）的方法,即将图像矩阵的奇异值作为模式的特征矢量。

4.4隐马尔科夫模型

隐马尔科夫模型（HiddenMarkovModel，HMM）[52]是用于描述信号统计特性的一组统计模型。

HMM使用马尔科夫链来模拟信号统计特性的变化，而这种变化又是间接地通过观察序列来描述的，因此，隐马尔科夫过程是一个双重的随机过程。

在HMM中，节点表示状态，有向边表示状态之间的转移，一个状态可以具有特征空间中的任意特征，对同一特征,不同状态表现出这一特征的概率不同。

由于HMM是一个统计模型，对于同一特征序列，可能会对应于许多状态序列，特征序列与状态序列之间的对应关系是非确定的。

这种模型对于状态序列来说是隐的,故称为隐马尔科夫模型。

HMM有三个主要问题：

评估、估计及解码。

我们关心的是前两个问题，评估用于解决识别问题，一般采取比较有效的“向前-向后”法；

估计用来产生用于识别的各个单元的HMM，采取Baum-Welch方法。

4.5基于神经网络的方法

利用神经网络，人们就不需要为人脸识别清晰地定义特征。

Kohonen将自组织映射（self-organizingmap，缩写SOM）网络应用于人脸回忆。

即使当输入图像带有强烈噪声或有部分丢失，准确的回忆能力仍然可以获得。

Lawrenceetal.[53]使用了一个混合的神经网络系统，主要包括了一个改进的五层SOM网络和N网络（Convolutionalneuralnetworks），其中N具有局部权值共享的拓扑结构。

这种结构与基于接收区域（receptivefields）的生物网络有更多的相似点，并且提高了对局部变形的忍耐性。

多层感知机神经网络（Multi-layerperceptronneuralnetworks）和径向基函数网络（radialbasisfunctionnetworks）也已经被用于人脸识别。

4.6弹性匹配方法

弹性图匹配方法[54][55]是一种基于动态结构（DynamicLinkArchitecture,DLA）的方法。

它将人脸用格状的稀疏图表示，图中的节点用图像位置的Gabor小波分解得到的特征向量标记，图的边用连接节点的距离向量标记。

匹配时，首先寻找与输入图像最相似的模型图,再对图中的每个节点位置进行最佳匹配，这样产生一个变形图，其节点逼近模型图的对应点的位置。

Wiskott等人使用弹性图匹配方法，以FERET图像库做实验，准确率达到97.3%。

弹性图匹配方法对光照、位移、旋转及尺度变化都不敏感，是一种优于特征脸方法的人脸识别方法。

此方法的主要缺点是对每个存储的人脸需计算其模型图，计算量大，存储量大。

为此，Wiskott在原有方法的基础上提出聚束图匹配，部分克服了这些缺点。

在聚束图中,所有节点都已经定位在相应目标上。

对于大量数据库,这样可以大大减少识别时间，另外,利用聚束图还能够匹配不同人的最相似特征。

因此可以获得关于未知人的性别、胡须和眼镜等相关信息。

Lee等提出了一种基于弹性图动态模型的方法，既取得较高的识别速度，也获得了较理想的识别率，在一定程度上克服了以往方法总是在速度与识别率之间进行折中的缺点。

4.7其它人脸识别方法

以上几种典型的人脸识别方法，每种方法各有其优缺点，因此可以把多种方法综合起来，或同时利用不同种类的特征。

要从大量人脸数据库中进行识别，单靠扩展单一种类的特征数目是不够的，而要扩展与原特征集正交的其它种类特征。

Jia等在正面人脸几何特征的基础上，将侧面轮廓特征、眼睛形状特征以及人脸轮廓特征也加入特征矢量，获得了较采用单一正面人脸几何特征为特征矢量方法更高的识别率。

Lai等结合小波变换与傅立叶变换提出与平移、缩放、平面旋转无关的光谱脸人脸表征方法。

目前人脸识别研究的对象基本上都是针对二维灰度图像，除此之外，还有深度人脸图像识别和红外人脸图像识别方法。

深度图像包含了人脸的深度信息，Gordon针对深度图像提出了一种基于模板的用图像数据的曲率作描述子的识别方法。

他使用一个旋转的激光扫描系统获得人脸深度图像，获得的曲面数据以柱坐标形式存储，然后根据曲面上各点法向最大和最小曲率的振幅和相位值定位眼睛、鼻子和两侧脸部区域红外人脸图像（也叫温谱图）对每个人来说都是唯一的。

所以可以利用温谱图识别人脸。

另外在黑暗中也能捕捉红外光，因此用红外人脸图像在黑暗中也能进行识别。

展开阅读全文