原

深度学习人脸关键点检测方法----综述

置顶 2017年12月25日 10:55:50 TensorSense 阅读数：17381

参考资料

近期对人脸关键点相关方法进行了研究，在深度学习大行其道的背景之下，此博客对近期人脸关键点检测深度学习方法进行了记录和总结，但愿给广大朋友一点点启发，也但愿你们指出我阅读过程当中的错误~javascript

主要有以下模型：
2.1 ASM (Active Shape Models)
2.2 AAM（Active Appearance Models）
2.3 CPR（Cascaded pose regression）
2.4 DCNN
2.5 Face++版DCNN
2.6 TCDCN
2.7 MTCNN
2.8 TCNN（Tweaked Convolutional Neural Networks）
2.9 DAN（Deep Alignment Networks） php

先贴参考资料，想进入主题的直接跳过css

参考资料

主要参考资料：
2017-Facial feature point detection A comprehensive survey–综述html

标注文献：
[1] T.F. Cootes, C.J. Taylor, D.H. Cooper, et al. Active Shape Models-Their Training and Application[J]. Computer Vision and Image Understanding, 1995, 61(1):38-59.
[2] G. J. Edwards, T. F. Cootes, C. J. Taylor. Face recognition using active appearance models[J]. Computer Vision — Eccv’, 1998, 1407(6):581-595.
[3] Cootes T F, Edwards G J, Taylor C J. Active appearance models[C]// European Conference on Computer Vision. Springer Berlin Heidelberg, 1998:484-498.
[4] Dollár P, Welinder P, Perona P. Cascaded pose regression[J]. IEEE, 2010, 238(6):1078-1085.
[5] Sun Y, Wang X, Tang X. Deep Convolutional Network Cascade for Facial Point Detection[C]// Computer Vision and Pattern Recognition. IEEE, 2013:3476-3483.
[6] Zhou E, Fan H, Cao Z, et al. Extensive Facial Landmark Localization with Coarse-to-Fine Convolutional Network Cascade[C]// IEEE International Conference on Computer Vision Workshops. IEEE, 2014:386-391.
[7] Zhang Z, Luo P, Chen C L, et al. Facial Landmark Detection by Deep Multi-task Learning[C]// European Conference on Computer Vision. 2014:94-108.
[8] Wu Y, Hassner T. Facial Landmark Detection with Tweaked Convolutional Neural Networks[J]. Computer Science, 2015.
[9] Zhang K, Zhang Z, Li Z, et al. Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networks[J]. IEEE Signal Processing Letters, 2016, 23(10):1499-1503.
[10] Kowalski M, Naruniec J, Trzcinski T. Deep Alignment Network: A Convolutional Neural Network for Robust Face Alignment[J]. 2017:2034-2043.
[11] Cristinacce D, Cootes T F. Feature Detection and Tracking with Constrained Local Models[C]// British Machine Vision Conference 2006, Edinburgh, Uk, September. DBLP, 2006:929-938.
[12] Lucey S, Wang Y, Cox M, et al. Efficient Constrained Local Model Fitting for Non-Rigid Face Alignment[J]. Image & Vision Computing, 2009, 27(12):1804.
[13] Wang Y, Lucey S, Cohn J F. Enforcing convexity for improved alignment with constrained local models[C]// IEEE Conference on Computer Vision & Pattern Recognition. Proc IEEE Comput Soc Conf Comput Vis Pattern Recognit, 2008:1.
[14] Saragih J M, Lucey S, Cohn J F. Deformable Model Fitting by Regularized Landmark Mean-Shift[M]. Kluwer Academic Publishers, 2011.
[15] Papandreou G, Maragos P. Adaptive and constrained algorithms for inverse compositional Active Appearance Model fitting[C]// Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. IEEE, 2014:1-8.
[16] Matthews I, Baker S. Active Appearance Models Revisited[J]. International Journal of Computer Vision, 2004, 60(2):135-164.
[17] Amberg B, Blake A, Vetter T. On compositional Image Alignment, with an application to Active Appearance Models[C]// Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009:1714-1721.
[18] Smith B M, Zhang L, Brandt J, et al. Exemplar-Based Face Parsing[C]// Computer Vision and Pattern Recognition. IEEE, 2013:3484-3491.
[19] Zhou F, Brandt J, Lin Z. Exemplar-Based Graph Matching for Robust Facial Landmark Localization[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2013:1025-1032.
[20] Coughlan J M, Ferreira S J. Finding Deformable Shapes Using Loopy Belief Propagation[C]// European Conference on Computer Vision. Springer-Verlag, 2002:453-468.
[21] Liang L, Wen F, Xu Y Q, et al. Accurate Face Alignment using Shape Constrained Markov Network[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2006:1313-1319.
[22] Wei Y. Face alignment by Explicit Shape Regression[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:2887-2894.
[23] Xiong X, Torre F D L. Supervised Descent Method and Its Applications to Face Alignment[C]// Computer Vision and Pattern Recognition. IEEE, 2013:532-539.
[24] Tang X, Wang X, Luo P. Hierarchical face parsing via deep learning[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:2480-2487.
[25] Wu Y, Wang Z, Ji Q. Facial Feature Tracking Under Varying Facial Expressions and Face Poses Based on Restricted Boltzmann Machines[C]// Computer Vision and Pattern Recognition. IEEE, 2013:3452-3459.
[26] Zhang J, Shan S, Kan M, et al. Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment[C]// European Conference on Computer Vision. Springer, Cham, 2014:1-16.
[27] Wang N, Gao X, Tao D, et al. Facial Feature Point Detection: A Comprehensive Survey[J]. Neurocomputing, 2017.
[28] Learnedmiller E, Lee H, Huang G B. Learning hierarchical representations for face verification with convolutional deep belief networks[C]// Computer Vision and Pattern Recognition. IEEE, 2012:2518-2525.java

1、引言

人脸关键点检测也称为人脸关键点检测、定位或者人脸对齐，是指给定人脸图像，定位出人脸面部的关键区域位置，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等；mysql

咱们把关键点的集合称做形状(shape)，形状包含了关键点的位置信息，而这个位置信息通常能够用两种形式表示，第一种是关键点的位置相对于整张图像，第二种是关键点的位置相对于人脸框(标识出人脸在整个图像中的位置)。咱们把第一种形状称做绝对形状，它的取值通常介于 0 到 w or h，第二种形状咱们称做相对形状，它的取值通常介于 0 到 1。这两种形状能够经过人脸框来作转换。linux

分类
人脸关键点检测方法大体分为三种，分别是基ASM(Active Shape Model)[1]和AAM (Active Appearnce Model)[2,3]的传统方法；基于级联形状回归的方法[4]；基于深度学习的方法[5-10]。如果按照参数化与否来分，可分为参数化方法和非参数化方法，ASM、AAM和CLM[11]就属于参数化方法，而级联回归和深度学习方法属于非参数化方法。基于参数化形状模型的方法可依据其外观模型的不一样，可进一步分为，基于局部的方法[12-14]和基于全局的方法[15-17]；对于非参数化进一步可分为基于样例的方法[18,19]、基于图模型的方法[20,21]、基于级联回归的方法[4,22,23]和基于深度学习的方法[24-26]。更为详细的划分请参考文献[27]。目前，应用最普遍，效果精度最高的是基于深度学习的方法，所以本文主要针对深度学习在人脸关键点检测上的应用进行研究。git

(后来参照Facial feature point detection A comprehensive survey，人脸关键点检测方法分为两种：参数化和非参数化，这种划分方法感受更好一些，能够很好理解“参数”的含义)

参数模型是指数据服从某种特定几率分布，例如，高斯模型，高斯混合模型等。基于非参数模型方法是无分布的，其假设数据不是从给定的几率分布得出的。参数模型与非参数模型的区别在于前者具备固定的参数，然后者随着训练数据量的增长而增长参数的数量。基于参数模型可划分为基于局部模型（如，主动形状模型）和基于全局模型（如，主动外观模型）；基于非参数模型可进一步划分为基于图模型方法、基于级联回归方法和基于深度学习方法。
基于局部模型方法独立考虑每一个关键点周围的变化，而后经过从训练中学习到的全局形状来检测人脸关键点；基于全局模型方法是从总体对外观进行建模。基于图模型的方法一般设计树形结构或马尔科夫随机场来对关键点进行建模；基于级联回归的方法以从粗到细的方式直接估计关键点，并不须要对任何形状模型或外观模型进行学习和建模；基于深度学习的方法是利用神经网络非线性映射能力学习面部图像到关键点的映射。程序员

人脸关键点定位方法中具备里程碑式的有以下五种方法：
1) 1995年，Cootes的ASM(Active Shape Model)。
2) 1998年，Cootes 的AAM(Active Appearance Model)算法。
3) 2006年，Ristinacce 的CLM（Constrained Local Model）算法。
4) 2010年，Rollar 的cascaded Regression算法。
5) 2013年，Sun开创深度学习人脸关键点检测的先河，首次将CNN应用到人脸关键点定位上。

定量评价
目前主要的衡量标准是算法所获取的关键点位置与真实关键点位置之间的误差。在评价误差时，因为不一样人脸图像的实际大小不免会有所差别，为便于在一样的尺度下比较算法性能，须要采用必定的数据归一化策略．目前主流的方法是基于两眼间的距离进行人脸大小的标准化，即：
其中分子表示估计值与真实值的欧式距离，分母表示双眼距离，即两眼中心的欧式距离。也有采用边界框对角线做为归一化因子来评价误差，如文献[20]。

经常使用数据库
数据库能够分为两类：主动式捕获的数据和被动式捕获的数据。主动式捕获的数据是在实验室里，对光照变化、遮挡、头部姿态和面部表情可控的状况下，对固定人员进行照片采集。被动式捕获的数据则是在社交网站等一些环境不可控的条件下采集而得。
主动式数据
CMU Multi-PIE[20]人脸数据库是在2004年10月至2005年3月的四次会议中收集的，支持在姿态、光照和表情变化条件下识别人脸的算法的开发。该数据库包含337个主题和超过750,000个305GB数据的图像。共记录了六种不一样的表情：中性，微笑，惊奇，斜视，厌恶和尖叫。在15个视图和19个不一样照明条件下记录受试者，这个数据库的一个子集被标记为68点或39点。
XM2VTS数据库[21]收集了295人的2360个彩色图像，声音文件和3D人脸模型，这2360个彩色图像标有68个关键点。
AR数据库[22]包含超过4000个彩色图像，对应126人（70名男性和56名女性）的脸部。图像是在可控的条件下，以不一样的面部表情，光照条件和遮挡（太阳镜和围巾）拍摄的。Ding and Martinez手动为每张脸部图像标注了130个关键点。
IMM数据库[23]包含240张40我的的彩色图像（7名女性和33名男性）。每张图像都对眉毛、眼睛、鼻子、嘴巴和下巴进行标注，共计58个标记点。
MUCT数据库[24]由276我的的3755张图像组成，每张图像有76个关键点。这个数据库中的面孔在不一样的光照、不一样的年龄和不一样的种族的条件下拍摄。
PUT数据库[25]采集了部分光照条件可控的100我的，且沿着俯仰角和偏航角旋转的9971张高分辨率图像（2048×1536），每张图像都标有30个关键点。
被动式数据
BioID数据库[26]记录在室内实验室环境中，但使用“真实世界”的条件。该数据库包含23个主题的1521个灰度人脸图像，每张图像标记20个关键点。
LFW数据库[27]包含从网上收集的5724我的的13,233幅面部图像，其中1680人在数据集中有两张或更多的照片。虽然，这个数据库没有提供标记点，但能够从其他网站上获取。
AFLW(Annotated Facial Landmarks in the Wild) 数据库[28]是一个大规模、多视角和真实环境下的人脸数据库。图像是从图片分享网站Flickr上收集，该数据库共包含25,993张图像，每张图像标有21个关键点。
LFPW(Labeled Face Parts in the Wild) 数据库[29]由1400个面部图像（1100做为训练集，其余300个图像做为测试集）组成。全部数据均从google, Flickr和Yahoo上获取，每张图像标记35个关键点，但在文献中，一般采用29个关键点。
AFW(Annotated Faces in the Wild)数据库[30]包含205个图像，特色是：背景高度混乱，人脸比例和姿式都有很大的变化，每张图像均有6个关键点和边界框。
300-W(300 Faces in-the-Wild Challenge) [31]是一个混合数据库，由多个已发布数据库（LFPW，Helen，AFW和XM2VTS）的面部图像和一个新收集的数据库IBUG组成。全部这些图像都从新标注了68个关键点。

2、检测方法

2.1 ASM (Active Shape Models)
2.2 AAM（Active Appearance Models）
2.3 CPR（Cascaded pose regression）
2.4 DCNN
2.5 Face++版DCNN
2.6 TCDCN
2.7 MTCNN
2.8 TCNN（Tweaked Convolutional Neural Networks）
2.9 DAN（Deep Alignment Networks）

为了更好的理解人脸关键点的发展和历史，本文也简单介绍了最为经典的人脸关键点检测方法：ASM和AAM

2.1 ASM (Active Shape Models)
ASM(Active Shape Model)[1] 是由Cootes于1995年提出的经典的人脸关键点检测算法，主动形状模型即经过形状模型对目标物体进行抽象，ASM是一种基于点分布模型（Point Distribution Model, PDM）的算法。在PDM中，外形类似的物体，例如人脸、人手、心脏、肺部等的几何形状能够经过若干关键点（landmarks）的坐标依次串联造成一个形状向量来表示。ASM算法须要经过人工标定的方法先标定训练集，通过训练得到形状模型，再经过关键点的匹配实现特定物体的匹配。

ASM主要分为两步：第一步：训练。首先，构建形状模型：搜集n个训练样本（n=400）；手动标记脸部关键点；将训练集中关键点的坐标串成特征向量；对形状进行归一化和对齐（对齐采用Procrustes方法）；对对齐后的形状特征作PCA处理。接着，为每一个关键点构建局部特征。目的是在每次迭代搜索过程当中每一个关键点能够寻找新的位置。局部特征通常用梯度特征，以防光照变化。有的方法沿着边缘的法线方向提取，有的方法在关键点附近的矩形区域提取。第二步：搜索。首先：计算眼睛（或者眼睛和嘴巴）的位置，作简单的尺度和旋转变化，对齐人脸；接着，在对齐后的各个点附近搜索，匹配每一个局部关键点（常采用马氏距离），获得初步形状；再用平均人脸（形状模型）修正匹配结果；迭代直到收敛。
ASM 算法的优势在于模型简单直接，架构清晰明确，易于理解和应用，并且对轮廓形状有着较强的约束，可是其近似于穷举搜索的关键点定位方式在必定程度上限制了其运算效率。

2.2 AAM（Active Appearance Models）
1998年，Cootes对ASM进行改进，不只采用形状约束，并且又加入整个脸部区域的纹理特征，提出了AAM算法[2]。AAM于ASM同样，主要分为两个阶段，模型创建阶段和模型匹配阶段。其中模型创建阶段包括对训练样本分别创建形状模型(Shape Model)和纹理模型(Texture Model)，而后将两个模型进行结合，造成AAM模型。

2.3 CPR（Cascaded pose regression）
2010年，Dollar提出CPR（Cascaded Pose Regression, 级联姿式回归）[4]，CPR经过一系列回归器将一个指定的初始预测值逐步细化，每个回归器都依靠前一个回归器的输出来执行简单的图像操做，整个系统可自动的从训练样本中学习。
人脸关键点检测的目的是估计向量，其中K表示关键点的个数，因为每一个关键点有横纵两个坐标，因此S得长度为2K。CPR检测流程如图所示，一共有T个阶段，在每一个阶段中首先进行特征提取，获得 ,这里使用的是shape-indexed features，也可使用诸如HOG、SIFT等人工设计的特征，或者其余可学习特征（learning based features），而后经过训练获得的回归器R来估计增量ΔS( update vector)，把ΔS加到前一个阶段的S上获得新的S，这样经过不断的迭代便可以获得最终的S(shape)。

2.4 DCNN
2013年，Sun等人[5]首次将CNN应用到人脸关键点检测，提出一种级联的CNN（拥有三个层级）——DCNN(Deep Convolutional Network)，此种方法属于级联回归方法。做者经过精心设计拥有三个层级的级联卷积神经网络，不只改善初始不当致使陷入局部最优的问题，并且借助于CNN强大的特征提取能力，得到更为精准的关键点检测。

如图所示，DCNN由三个Level构成。Level-1 由3个CNN组成；Level-2由10个CNN组成（每一个关键点采用两个CNN）；Level-3一样由10个CNN组成。

Level-1分3个CNN，分别是F1（Face 1）、EN1（Eye，Nose）、NM1（Nose，Mouth）；F1输入尺寸为39*39，输出5个关键点的坐标；EN1输入尺寸为39*31，输出是3个关键点的坐标；NM11输入尺寸为39*31，输出是3个关键点。Level-1的输出是由三个CNN输出取平均获得。

Level-2，由10个CNN构成，输入尺寸均为15*15，每两个组成一对，一对CNN对一个关键点进行预测，预测结果一样是采起平均。

Level-3与Level-2同样，由10个CNN构成，输入尺寸均为15*15，每两个组成一对。Level-2和Level-3是对Level-1获得的粗定位进行微调，获得精细的关键点定位。

Level-1之因此比Level-2和Level-3的输入要大，是由于做者认为，因为人脸检测器的缘由，边界框的相对位置可能会在大范围内变化，再加上面部姿态的变化，最终致使输入图像的多样性，所以在Level-1应该须要有足够大的输入尺寸。Level-1与Level-2和Level-3还有一点不一样之处在于，Level-1采用的是局部权值共享（Locally Sharing Weights），做者认为传统的全局权值共享是考虑到，某一特征可能在图像中任何位置出现，因此采用全局权值共享。然而，对于相似人脸这样具备固定空间结构的图像而言，全局权值共享就不奏效了。由于眼睛就是在上面，鼻子就是在中间，嘴巴就是在下面的。因此做者借鉴文献[28]中的思想，采用局部权值共享，做者经过实验证实了局部权值共享给网络带来性能提高。

DCNN采用级联回归的思想，从粗到精的逐步获得精确的关键点位置，不只设计了三级级联的卷积神经网络，还引入局部权值共享机制，从而提高网络的定位性能。最终在数据集BioID和LFPW上均得到当时最优结果。速度方面，采用3.3GHz的CPU，每0.12秒检测一张图片的5个关键点。

2.5 Face++版DCNN
2013年，Face++在DCNN模型上进行改进，提出从粗到精的人脸关键点检测算法[6]，实现了68我的脸关键点的高精度定位。该算法将人脸关键点分为内部关键点和轮廓关键点，内部关键点包含眉毛、眼睛、鼻子、嘴巴共计51个关键点，轮廓关键点包含17个关键点。

针对内部关键点和外部关键点，该算法并行的采用两个级联的CNN进行关键点检测，网络结构如图所示。

针对内部51个关键点，采用四个层级的级联网络进行检测。其中，Level-1主要做用是得到面部器官的边界框；Level-2的输出是51个关键点预测位置，这里起到一个粗定位做用，目的是为了给Level-3进行初始化；Level-3会依据不一样器官进行从粗到精的定位；Level-4的输入是将Level-3的输出进行必定的旋转，最终将51个关键点的位置进行输出。针对外部17个关键点，仅采用两个层级的级联网络进行检测。Level-1与内部关键点检测的做用同样，主要是得到轮廓的bounding box；Level-2直接预测17个关键点，没有从粗到精定位的过程，由于轮廓关键点的区域较大，若加上Level-3和Level-4，会比较耗时间。最终面部68个关键点由两个级联CNN的输出进行叠加获得。

算法主要创新点由如下三点：（1）把人脸的关键点定位问题，划分为内部关键点和轮廓关键点分开预测，有效的避免了loss不均衡问题；（2）在内部关键点检测部分，并未像DCNN那样每一个关键点采用两个CNN进行预测，而是每一个器官采用一个CNN进行预测，从而减小计算量；（3）相比于DCNN，没有直接采用人脸检测器返回的结果做为输入，而是增长一个边界框检测层（Level-1），能够大大提升关键点粗定位网络的精度。

Face++版DCNN首次利用卷积神经网络进行68我的脸关键点检测，针对以往人脸关键点检测受人脸检测器影响的问题，做者设计Level-1卷积神经网络进一步提取人脸边界框，为人脸关键点检测得到更为准确的人脸位置信息，最终在当年300-W挑战赛上得到领先成绩。

2.6 TCDCN

网络输出为40*40的灰度图，通过CNN最终获得2*2*64的特征图，再经过一层含100个神经元的全链接层输出最终提取获得的共享特征。该特征为全部任务共同享用，对于关键点检测问题，就采用线性回归模型；对于分类问题，就采用逻辑回归。
在传统MLT中，各任务重要程度是一致的，其目标方程以下：

其中， $f (x_{i}^{t}; w^{t})$ 表示 $x_{i}^{t}$ 与权值矩阵 $w^{t}$ 相乘以后输入到函数 $f (\cdot)$ ， $l (\cdot)$ 表示损失函数， $Φ (w^{t})$ 是正则项。能够看到对于各任务t而言，其重要性是相同的，可是在多任务学习中，每每不一样任务的学习难易程度不一样，若采用相同的损失权重，会致使学习任务难以收敛。文章针对多任务学习中，不一样学习难度问题进行了优化，提出带权值的目标函数：

其中，第一项表示主任务的损失函数，即人脸关键点检测的损失函数，第二项表示其他各子任务的损失函数，其中 $λ^{a}$ 表示任务a的重要性。针对人脸关键点检测任务，本文结合了四个子任务，分别是：性别、是否带眼镜、是否微笑和脸部的姿式，目标函数为：

其中，第一项是平方和偏差，表示人脸关键点损失函数，第二项是分类任务，采用的是交叉熵偏差，第三项即正则项。

针对多任务学习的另一个问题——各任务收敛速度不一样，本文提出一种新的提早中止（Early Stopping）方法。当某个子任务达到最好表现之后，这个子任务就对主任务已经没有帮助，就能够中止这个任务。文章给出自动中止子任务的计算公式，以下：

其中， $E_{t r}^{a}$ 表示训练的偏差， $E_{v a l}^{a}$ 表示验证的偏差， $ε$ 为阈值，第一项表示训练偏差的趋势，第二项表示泛化偏差与训练偏差之比，当两项之积大于阈值，则该任务中止。

TCDCN采用多任务学习方法对人脸关键点进行检测，针对多任务学习在人脸关键点检测任务中的两个主要问题——不一样任务学习难易程度不一样以及不一样任务收敛速度不一样，分别提出了新目标函数和提早中止策略加以改进，最终在AFLW和AFW数据集上得到领先的结果。同时对比于级联CNN方法，在Intel Core i5 cpu上，级联CNN须要0.12s，而TCDCN仅须要17ms，速度提高七倍有余。
代码连接: https://github.com/zhzhanp/TCDCN-face-alignment

2.7 MTCNN
2016年，Zhang等人提出一种多任务级联卷积神经网络（MTCNN, Multi-task Cascaded Convolutional Networks）[9]用以同时处理人脸检测和人脸关键点定位问题。做者认为人脸检测和人脸关键点检测两个任务之间每每存在着潜在的联系，然而大多数方法都未将两个任务有效的结合起来，本文为了充分利用两任务之间潜在的联系，提出一种多任务级联的人脸检测框架，将人脸检测和人脸关键点检测同时进行。

MTCNN包含三个级联的多任务卷积神经网络，分别是Proposal Network (P-Net)、Refine Network (R-Net)、Output Network (O-Net)，每一个多任务卷积神经网络均有三个学习任务，分别是人脸分类、边框回归和关键点定位。网络结构如图所示：

TCNN实现人脸检测和关键点定位分为三个阶段。首先由P-Net得到了人脸区域的候选窗口和边界框的回归向量，并用该边界框作回归，对候选窗口进行校准，而后经过非极大值抑制（NMS）来合并高度重叠的候选框。而后将P-Net得出的候选框做为输入，输入到R-Net，R-Net一样经过边界框回归和NMS来去掉那些false-positive区域，获得更为准确的候选框；最后，利用O-Net输出5个关键点的位置。

在具体训练过程当中，做者就多任务学习的损失函数计算方式进行相应改进。在多任务学习中，当不一样类型的训练图像输入到网络时，有些任务时是不进行学习的，所以相应的损失应为0。例如，当训练图像为背景（Non-face）时，边界框和关键点的loss应为0，文中提供计算公式自动肯定loss的选取，公式为：

其中， $α_{j}$ 表示任务的重要程度，在P-Net和R-Net中， $α_{d e t} = 1$ , $α_{b o x} = 0.5, α_{l a n d m a r k} = 0.5$ ,在O-Net中，因为要对关键点进行检测，因此相应的增大任务的重要性， $α_{d e t} = 1$ , $α_{b o x} = 0.5$ , $α_{l a n d m a r k} = 1$ 。做为样本类型指示器。

为了提高网络性能，须要挑选出困难样本（Hard Sample），传统方法是经过研究训练好的模型进行挑选，而本文提出一种能在训练过程当中进行挑选困难的在线挑选方法。方法为，在mini-batch中，对每一个样本的损失进行排序，挑选前70%较大的损失对应的样本做为困难样本，同时在反向传播时，忽略那30%的样本，由于那30%样本对更新做用不大。
实验结果代表，MTCNN在人脸检测数据集FDDB 和WIDER FACE以及人脸关键点定位数据集LFPW均得到当时最佳成绩。在运行时间方面，采用2.60GHz的CPU能够达到16fps，采用Nvidia Titan Black可达99fps。
代码实现：
Matlab：https://github.com/kpzhang93/MTCNN_face_detection_alignment
Caffe：https://github.com/dlunion/mtcnn
Python：https://github.com/DuinoDu/mtcnn

2.8 TCNN（Tweaked Convolutional Neural Networks）
2016年，Wu等人研究了CNN在人脸关键点定位任务中到底学习到的是什么样的特征，在采用GMM（Gaussian Mixture Model, 混合高斯模型）对不一样层的特征进行聚类分析，发现网络进行的是层次的，由粗到精的特征定位，越深层提取到的特征越能反应出人脸关键点的位置。针对这一发现，提出了TCNN（Tweaked Convolutional Neural Networks）[8]，其网络结构如图所示：

上图为Vanilla CNN，针对FC5获得的特征进行K个类别聚类，将训练图像按照所分类别进行划分，用以训练所对应的FC6K 。测试时，图片首先通过Vanilla CNN提取特征，即FC5的输出。将FC5输出的特征与K个聚类中心进行比较，将FC5输出的特征划分至相应的类别中，而后选择与之相应的FC6进行链接，最终获得输出。

做者经过对Vanilla CNN中间层特征聚类分析得出的结论是什么呢？又是如何经过中间层聚类分析得出灵感从而设计TCNN呢？

做者对Vanilla CNN中间各层特征进行聚类分析，并统计出关键点在各层之间的变化程度，如图所示：

从图中可知，越深层提取到的特征越紧密，所以越深层提取到的特征越能反应出人脸关键点的位置。做者在采用K=64时，对所划分簇的样本进行平均后绘图以下：

从图上可发现，每个簇的样本反应了头部的某种姿态，甚至出现了表情和性别的差别。所以可推知，人脸关键点的位置经常和人脸的属性相关联。所以为了获得更准确的关键点定位，做者使用具备类似特征的图片训练对应的回归器，最终在人脸关键点检测数据集AFLW,AFW和300W上均得到当时最佳效果。

2.9 DAN（Deep Alignment Networks）
2017年，Kowalski等人提出一种新的级联深度神经网络——DAN（Deep Alignment Network）[10]，以往级联神经网络输入的是图像的某一部分，与以往不一样，DAN各阶段网络的输入均为整张图片。当网络均采用整张图片做为输入时，DAN能够有效的克服头部姿态以及初始化带来的问题，从而获得更好的检测效果。之因此DAN能将整张图片做为输入，是由于其加入了关键点热图（Landmark Heatmaps），关键点热图的使用是本文的主要创新点。DAN基本框架如图所示：

DAN包含多个阶段，每个阶段含三个输入和一个输出，输入分别是被矫正过的图片、关键点热图和由全链接层生成的特征图，输出是面部形状（Face Shape）。其中，CONNECTION LAYER的做用是将本阶段得输出进行一系列变换，生成下一阶段所须要的三个输入，具体操做以下图所示：

从第一阶段开始讲起，第一阶段的输入仅有原始图片和S0。面部关键点的初始化即为S0，S0是由全部关键点取平均获得，第一阶段输出S1。对于第二阶段，首先，S1经第一阶段的CONNECTION LAYERS进行转换，分别获得转换后图片T2（I）、S1所对应的热图H2和第一阶段fc1层输出，这三个正是第二阶段的输入。如此周而复始，直到最后一个阶段输出SN。文中给出在数据集IBUG上，通过第一阶段后的T2（I）、T2（S1）和特征图，如图所示：

从图中发现，DAN要作的“变换”，就是把图片给矫正了，第一行数据尤其明显，那么DAN对姿态变换具备很好的适应能力，或许就得益于这个“变换”。至于DAN采用何种“变换”，须要到代码中具体探究。

接下来看一看，St是如何由St-1以及该阶段CNN获得，先看St计算公式：

其中 $Δ S_{t}$ 是由CNN输出的，各阶段CNN网络结构如图所示：

该CNN的输入均是通过了“变换”—— $T_{t} (\cdot)$ 的操做，所以获得的偏移量 $Δ S_{t}$ 是在新特征空间下的偏移量，在通过偏移以后应通过一个反变换 $T_{t}^{- 1} (\cdot)$ 还原到原始空间。而这里提到的新特征空间，或许是将图像进行了“矫正”，使得网络更好的处理图像。
关键点热度图的计算就是一个中心衰减，关键点处值最大，越远则值越小，公式以下：

为何须要从fc1层生成一张特征图？文中提到“Such a connection allows any information learned by the preceding stage to be transferred to the consecutive stage.”其实就是人为给CNN增长上一阶段信息。
总而言之，DAN是一个级联思想的关键点检测方法，经过引入关键点热图做为补充，DAN能够从整张图片进行提取特征，从而得到更为精确的定位。
代码实现：
Theano：https://github.com/MarekKowalski/DeepAlignmentNetwork

总结

自2013年Sun等人在人脸关键点检测任务中使用深度学习得到良好效果以来，众多学者将目光从传统方法转移到基于深度学习方法，并在近年提出多种有效的深度学习模型，均取得人脸关键点检测任务的突破，如DCNN到Face++版DCNN，TCDCN到MTCNN等。本文对近年取得突破性进展的深度学习模型进行分析，在此统计其优缺点如表所示：

胡思乱想：
1. Coarse-to-Fine
从ASM、AAM到CPR（级联回归），都讲究 Coarse-to-Fine——从粗到精的这么一个过程，到了如今的深度学习方法，一样讲究从粗到精；所以能够知道从粗到精是目前不可抛弃的，因此能够考虑如何设计从粗到精；

2. 人脸检测器得影响
以前有提到，假若采用不一样的人脸检测器进行人脸检测，再输入到关键点检测模型，效果会很差，能够这么理解，换了一我的脸检测器，也就至关于换了一个样本生成器，假若样本生成器差别很大，生成的样本与训练时的样本差别比较大，那么神经网络就GG了~~
从这里能够看出：人脸检测器对关键点检测很重要！为了不不一样人脸检测器带来的影响，能够考虑在关键点检测模型里边作一个“人脸检测器”，无论从哪里来的图片，都通过同一个“人脸检测器”再输入到后面的关键点检测去，这样效果就会好了。

例如 Face++版DCNN，先进行了一个bounding box estimation；
例如MTCNN，先用了两个模型对人脸进行检测！先由P-Net 和R-Net来得到人脸候选框，而后再进行关键点定位。
再如DAN，对人脸进行了“矫正”，再检测；

若是想“搞”些新idea，能够从以上两点出发，
1.级联的CNN从粗到精；
2.必定要有“本身的人脸检测器”
固然，多任务也能够借鉴。

此博客只是抛砖引玉，但愿你们提出问题和建议~~

欢迎转载，请注明出处：
http://blog.csdn.net/u011995719/article/details/78890333

别再玩假传奇了，这传奇爆率9.9，无VIP，开局送麻痹

9377游戏 · 顶新

人脸检测综述（转）

深度学习人脸关键点检测方法----综述

参考资料

1、引言

2、检测方法

总结

EasonApp

fengbingchun

AUTO1993

zhangjiaxuu

人脸检测综述（转）

深度学习人脸关键点检测方法----综述

参考资料

1、 引言

2、 检测方法

总结

人脸关键点检测总结

人脸关键点检测5——Face++（1）

实时人脸检测,与人脸关键点检测

关键点定位︱四款人体姿式关键点估计论文笔记

Mask R-CNN 关键点检测

人体骨骼关键点检测综述

关键点检测——无监督

人体关键点检测 | 综述（1）

深度学习人脸检测综述 - yangpan011的博客 - CSDN博客

...关键点检测(附训练源码) - TensorSense的博客 - CSDN博客...

人脸关键点检测

人体骨骼关键点检测

EasonApp

fengbingchun

AUTO1993

zhangjiaxuu

【论文笔记】人脸关键点检测_简略版（时时更新中...）

人脸识别 基于系统库和68个标志点的识别算法

基于dlib的68个特征点检测

从传统方法到深度学习,人脸关键点检测方法综述 - 机器..._CSDN博客

...Convolutional Neural Networks - TensorSense的博客 - CSDN博客

人脸对齐（一）--定义及做用

深度学习学习7步骤

白话AI：看懂深度学习真的那么难吗？初中数学，就用10分钟

深度学习入门必须理解这25个概念

Deep Learning（深度学习）学习笔记整理系列之（一）

深度学习导论 - 读李宏毅《1天搞懂深度学习》

机器学习——深度学习(Deep Learning)

人脸对齐（十三）--3DDFA

行人重识别（Person Re-ID）【二】：基于深度学习的行人重识别研究综述

人脸检测：传统到深度学习方法汇总

...Facial Point Detection - TensorSense的博客 - CSDN博客...

...for robust face alignment - TensorSense的博客 - CSDN博客...

从传统方法到深度学习，人脸特征点定位方法综述

第一篇：基于深度学习的人脸特征点检测 - 背景（转载）

从传统方法到深度学习，人脸关键点检测方法综述

人脸特征点检测（一）综述

基于caffe的人脸关键点检测技术—回归

使用CNN（convolutional neural nets）检测脸部关键点教程（一）:环境搭建和数据

级联MobileNet-V2实现CelebA人脸关键点检测（附训练源码）

MS COCO数据集人体关键点评估（Keypoint Evaluation）（来自官网）

opencv之SURF算法原理及关键点检测

深度学习Deep Learning（01）_CNN卷积神经网络

第三篇:基于深度学习的人脸特征点检测 - 数据集整理 - ..._CSDN博客

第四篇:基于深度学习的人脸特征点检测 - 数据预处理 - ..._CSDN博客

系统学习深度学习（一） --深度学习与神经网络关系

入门深度学习，先看看三位顶级大牛Yann LeCun、Yoshua Bengio和Geoffrey Hinton的联合综述

人脸识别之人脸识别技术综述

基于深度学习的人脸识别技术综述（转载）

人脸检测算法综述

人脸关键点检测3——DCNN

面部关键特征点(Landmark)的定位

人脸检测（十九）--人脸检测综述（2018.2）

【Caffe实践】基于Caffe的人脸关键点检测实现

人脸定点：关键点检测方法汇总

第五篇 基于深度学习的人脸特征点检测 - 网络模型构建 ..._CSDN博客

【论文笔记】人脸关键点检测_简略版_2016

使用CNN（convolutional neural nets）检测脸部关键点教程（二）:浅层网络训练和测试

Java 发送邮件

基于 MTCNN/TensorFlow 实现人脸检测

一页纸说清楚“什么是深度学习？”

深度学习、图像分类入门，从VGG16卷积神经网络开始

相比于深度学习，传统的机器学习算法难道就此没落了吗，还有必要去学习吗？

Qt 之等待提示框（QMovie）

PHP jpgraph库的配置及生成统计图表:折线图、柱状图、饼状图等

tensorflow在linux系统上的安装

java中的“回车”与“换行”

C#实现开发windows服务实现自动从FTP服务器下载文件（自行设置分/时执行）

ThreadLocal的设计理念与做用

linux上安装Docker(很是简单的安装方法)

修改mysql数据库的默认编码方式

caffe中RGB图像三通道卷积过程学习推导

关于SpringBoot bean没法注入的问题（与文件包位置有关）

DataTables 的 实例 《一》

1、引言

2、检测方法

人脸识别基于系统库和68个标志点的识别算法

第五篇基于深度学习的人脸特征点检测 - 网络模型构建 ..._CSDN博客

DataTables 的实例《一》