做者:诺丁汉大学的Adrian Bulat & Georgios Tzimiropoulosgit
Github:https://github.com/1adrianb/face-alignmentgithub
2D-FAN:https://www.adrianbulat.com/downloads/FaceAlignment/2D-FAN-300W.t7网络
3D-FAN:https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN.t7架构
2D-to-3D FAN:https://www.adrianbulat.com/downloads/FaceAlignment/2D-to-3D-FAN.tar.gz性能
3D-FAN-depth:https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN-depth学习
摘要测试
在现存2D和3D人脸对齐数据集上,本文研究的这个很是深的神经网络达到接近饱和性能的程度。本文主要作了5个贡献:(1)结合最早进的人脸特征点定位(landmark localization)架构和最早进的残差模块(residual block),首次构建了一个很是强大的基准,在一个超大2D人脸特征点数据集(facial landmark dataset)上训练,并在全部其余人脸特征点数据集上进行评估。(2)咱们构建一个将2D特征点标注转换为3D标注,并全部现存数据集进行统一,构建迄今最大、最具备挑战性的3D人脸特征点数据集LS3D-W(约230000张图像)。(3)而后,训练一个神经网络来进行3D人脸对齐(face alignment),并在新的LS3D-W数据集上进行评估。(4)本文进一步研究影响人脸对齐性能的全部“传统”因素,例如大姿态( large pose),初始化和分辨率,并引入一个“新的”因素,即网络的大小。(5)本文的测试结果显示2D和3D人脸对齐网络都实现了很是高的性能,足以证实很是可能接近所使用的数据集的饱和性能。训练和测试代码以及数据集能够从 https://www.adrianbulat.com/face-alignment/%20下载。大数据
引言spa
随着深度学习和大规模注释数据集的发展,近年的工做已经显示出即便在最具挑战性的计算机视觉任务上也达到史无前例的准确性。在这项工做中,本文专一于特征点定位(landmark localization),尤为是人脸特征点定位,即:人脸对齐(face alignment),“人脸对齐”也能够说是过去几十年来计算机视觉中的研究热点。
目前,关于使用卷积神经网络(CNN)的特征点定位的研究,大大推进了其余领域的界限,例如人体姿态估计,但目前尚不清楚在人脸对齐方面取得怎样的成果。
历史上,根据任务的不一样,有不一样的技术已被用于特征点定位。例如,在神经网络出现以前,人体姿态估计的工做主要是基于图结构(Pictorial Structure)和各类复杂的扩展(Extension),由于它们可以模拟大的外观变化, 适应普遍的人类姿式。这些方法虽然没有被证实可以实现用于人脸对齐任务的级联回归方法(Cascaded Regression Method)表现出的高精确度,但另外一方面,级联回归方法的性能在初始化不许确的状况下,或有大量的自我封闭的特征点或大的平面内旋转时会变差。
最近,基于热图回归(Heatmap Regression)的彻底卷积神经网络架构完全改变了人体姿态估计,即便对于最具挑战性的数据集也获得很是高的准确度。因为它们对端到端训练和人工工程的需求不多,这种方法能够很容易地应用于人脸对齐问题。
使用2D-3D方法构建最大数据集(LS3D-W)
做者表示,按照这个路径,“咱们的主要贡献是构建和训练这样一个强大的人脸对齐网络,并首次调查在全部现有的2D人脸对齐数据集和新引入的大型3D数据集上距离达到接近饱和性能(saturating performance)有多远”。
Contributions(具体的贡献):
1. 首次构建了一个很是强大的基准(baseline),结合state-of-the-art的特征点定位架构和state-of-the-art的 残差模块(residual block),并在很是大的综合扩展的2D人脸特征点数据集训练。而后,咱们对全部其余2D数据集(约230000张图像)进行评估,分析真正解决2D人脸对齐问题还有多远。
2. 为了解决3D人脸对齐数据集少的问题,本文进一步提出了一种将2D注释转换为3D注释的2D特征点CNN方法,并使用它建立LS3D-W数据集,这是目前最大、最具挑战性的3D人脸特征点数据集(约230000张图像),是经过将现存的全部数据集统一块儿来获得的。
3. 而后,本文训练了一个3D人脸对齐网络,并在新的大型3D人脸特征点数据集进行评估,实际分析距离解决3D人脸对齐问题尚有多远。
4. 本文进一步研究影响人脸对齐性能的全部“传统”因素,例如大姿态(large pose),初始化和分辨率,并引入“新的”因素,即网络的大小。
5. 本文测试结果显示,2D和3D人脸对齐网络都实现了很是高准确度的性能,这多是接近了所使用的数据集的饱和性能。
2D-FAN结构:
经过堆叠四个HG(HourGlass)构建的人脸对齐网络(Face Alignment Network, FAN),其中全部的 bottleneck blocks(图中矩形块)被替换为新的分层、并行和多尺度block。
方法及数据:2D、3D标注及2D-3D转换都接近饱和性能
文章首先构建人脸对齐网络“FAN”(Face Alignment Network),而后基于FAN,构建2D-to-3D-FAN,也即将给定图像2D面部标注转换为3D的网络。文章表示,据测试所知,在大规模2D/3D人脸对齐实验中训练且评估FAN这样强大的网络,还尚属首次。
他们基于人体姿态估计最早进的架构之一HourGlass(HG)来构建FAN,而且将HG原有的模块bottleneck block替换为一种新的、分层并行多尺度结构(由其余研究人员提出)。
2D-to-3D-FAN网络架构:基于人体姿态估计架构HourGlass,输入是RGB图像和2D面部地标,输出是对应的3D面部地标。
2D-FAN标记结果
3D-FAN标记结果
下面是跟现有方法(红色)的对比,这样看更能明显地看出新方法的精度:
除了构建FAN,做者的目标还包括建立首个超大规模的3D面部地标数据集。目前3D面部地标的数据还十分稀少,所以也让这项工做贡献颇大。鉴于2D-FAN卓越的效果,做者决定使用2D-to-3D-FAN来生成3D面部地标数据集。
可是,这也带来了一个问题,那就是评估2D转3D数据很难。现有的最大同类数据集是AFLW2000-3D。因而,做者先使用2D-FAN,生成2D面部地标标注,再使用2D-to-3D-FAN,将2D数据转换为3D面部地标,最后将生成的3D数据与AFLW2000-3D进行比较。
结果发现,二者确实有差别,下图展现了差别最大的8幅图像标记结果(白色是论文结果):
做者表示,形成差别的最大缘由是,之前的方法半自动标记管道对一些复杂姿态没有生成准确的结果。因而,在改进数据后,他们将AFLW2000-3D归入现有数据集,建立了LS3D-W(Large Scale 3D Faces in-the-Wild dataset),一共包含了大约230,000幅标记图像,也是迄今最大的3D人脸对齐数据集。
做者以后从各个方面评估了LS3D-W数据集的性能。研究结果代表,他们的网络已经达到了数据集的“饱和性能”,在构图、分辨率,初始化以及网络参数数量方面表现出了超高的弹性(resilience)。更多信息参见论文。
做者表示,虽然他们尚未在这些数据集中去探索一些罕见姿态的效果,但只要有足够多的数据,他们确信网络也可以表现得同样好。
做者:南君
出处:http://www.cnblogs.com/molakejin/
本文版权归做者和博客园共有,欢迎转载,但未经做者赞成必须保留此段声明,且在文章页面明显位置给出原文链接,不然保留追究法律责任的权利。