paper:https://arxiv.org/abs/1805.08417git
GitHub:https://github.com/IcedDoggie/Micro-Expression-with-Deep-Learninggithub
摘要算法
面部微观表情(ME)的识别对于研究人员在运动和有限数据库中的细微处理形成巨大挑战。 最近,人工技术已经在微型表达识别中取得了优异的性能,可是以区域特异性和繁琐的参数调谐为代价。 在本文中,咱们提出了一个丰富的长期递归卷积网络(ELRCN),首先经过CNN模块将每一个微表情帧编码成特征向量,而后经过将特征向量经过一个长-短时间记忆(LSTM)模块。 该框架包含两种不一样的网络变体:数据库
(1) 空间富集的输入数据的通道叠加跨域
(2) 用于时间富集的特征的功能性叠加。网络
咱们证实所提出的方法可以实现合理的良好性能,而不须要数据加强。 此外,咱们还介绍了对预测微表情类别时CNN“看到”的框架和可视化进行的消融研究。架构
关键词:微表情识别; 目标类; LRCN; 网络改进,跨数据库评估框架
1. 简介机器学习
面部微表情(ME)是引起隐藏某种真实情绪的短暂和不自主的快速面部表情[1]。 标准的微表情持续时间在1/5到1/25之间,一般只发生在脸部的特定部位[2]。 微表情的微妙和简洁是对肉眼的巨大挑战; 所以,近年来已经提出了不少工做来利用计算机视觉和机器学习算法来实现自动微表情式识别。函数
面部动做编码系统(FACS)[3]的创建编码面部肌肉对情感状态的改变。 该系统还为每一个行动单位(AU)确切的开始和结束时间奠基了基础。 不一样的数据库[4],[5],[6]可能包含不一样的微表情类,它们由通过培训的编码人员根据AU的存在标记。 然而,最近Davison等人的论述[7]认为,使用AU而不是情绪标签能够更精确地定义微表情,由于训练过程能够根据特定的面部肌肉运动模式进行学习。他们进一步证实,这可以实现更高的分类准确性
在这个研究领域,一些做品[8] [9] [10]已经实现了使人印象深入的微表情识别性能。 这些做品提出了精心制做的描述符和或方法,其中涉及繁琐的参数调整以得到最大的结果。 鉴于这些笨拙的步骤,采用深度学习技术或深度神经网络已经开始起飞,从几回新的尝试中能够看出[11],[12]。 然而,因为样本稀缺和大多数微表情数据中的类别不平衡,深度神经网络的使用给ME识别带来了挑战。
2. 相关工做
A. Handcrafted Features人工特征
在过去的五年中,已经提出了许多工做来解决ME识别问题。 为了促进自发面部微表情分析(即SMIC [4],CASME II [5],SAMM [6],[7])的计算研究而创建的数据库主要选择具备三个正交平面的局部二值模式(LBP-TOP) [13]做为他们的主要基线特征提取器。 LBP-TOP是经典的局部二进制模式(LBP)描述符[14]的时空扩展,它经过将二进制码矢量编码为直方图来表征局部纹理信息。 LBP-TOP从三个平面(XY,XT,YT)中的每个中提取所述直方图并将它们链接成单个特征直方图。 LBP虽然以其简单的计算而闻名,但因为其对照度变化和图像变换的鲁棒性而被普遍使用。
Wang等人[15]经过在3D平面中仅利用六个交点来构造特征描述符来减小LBPTOP中的冗余。 后来,黄等人[10]提出了一种带有积分投影的时空LBP(STLBP-IP),该算法将LBP算子应用于基于差分图像的水平和垂直投影。 他们的方法是保持形状的,而且对白噪声和图像转换具备很强的鲁棒性。
有几项做品使用了LBP-TOP和相应的预处理技术。 最多见的是时间插值模型[4],该模型用于从构造的数据流形中均匀地采样固定数量的图像帧。 最近,[16]提出了Sparsity Promoting Dynamic Mode Decomposition(DMDSP),它在合成动态压缩序列时仅选择重要的时间动态。 许多其余做品[17],[18]选择放大视频,试图突出特征提取以前的微妙变化。
运动信息能够很容易地描绘出微表情所带来的微妙变化。 Shreve等人 [19]提出了提取称为光学应变的光学流量的衍生物,该衍生物最初用于ME识别,但后来被用做ME识别的特征描述符[20],[21]。 利用光流的判别性,其余有趣的方法已经出现,其中包括双重加权定向光流(Bi-WOOF)[8]和面部动态地图[22]。
B. 深度神经网络
尽管深度学习技术或深度神经网络在识别任务中普遍流行,但对于这一研究领域而言,它们仍是至关新颖的。 一项早期的工做[11]利用深度学习提出了一种基于表达式状态的特征表示。 研究人员采用卷积神经网络(CNN)编码不一样的表达状态(即起始,起始到顶点,顶点,顶点以抵消和抵消)。 在空间学习期间优化若干目标函数以改善表达类别可分离性。 以后,编码的特征被传递到长时间短时间记忆(LSTM)网络以学习与时间尺度相关的特征。
3. 提出的网络PROPOSED FRAMEWORK
在这项工做中,咱们提出了一种用于微表情识别的加强型长期递归卷积网络(ELRCN),该算法采用[23]的架构,同时执行特征丰富来编码微妙的面部变化。 ELRCN模型包括深层次的空间特征提取器和表征时间动态的时间模块。 介绍了网络的两种变体:1)经过输入通道叠加来丰富空间维度,2)经过深度特征叠加来丰富时间维度。 图1经过预处理模块和两种学习模块变体提出了框架
A. Preprocessing预处理
微表情视频首先使用TV-L1 [24]光流近似方法进行预处理,这有两个主要优势:更好的噪声鲁棒性和流动不连续性的保留。 光流以矢量化符号对对象的运动进行编码,指示运动的方向和强度或图像像素的“流动”。 光流的水平和垂直份量定义以下:
其中dx和dy分别表示沿x和y维度的像素估计变化,而dt表示时间变化。 为了造成三维流动图像,咱们链接水平和垂直流动图像,p和q以及光流量值,m = | v |。 因为运动变化很是微妙(不占用大范围的值),因此咱们不须要对流图像进行归一化处理; 这也被经验证实,其性能降低能够忽略不计。
咱们还经过计算光流的导数来得到光学应变[19]。 经过采用光学应变,咱们可以正确表征两个连续帧之间存在的可变形物体的微小移动量。 这由位移矢量描述,u = [u,v] T。有限应变张量定义为:
每一个像素的光学应变大小可使用法向和剪切应变份量的平方和来计算:
B. Spatial Learning空间学习
最近的深度模型[25,27,27,28]已经证实,非线性函数的许多“层”的组合能够实现各类计算机视觉问题的突破性结果,例如对象识别和对象检测。 为了以顺序的方式利用深度卷积神经网络(CNN)的优势,输入数据x首先用CNN编码成固定长度的矢量φ(xt),其表示时间t处的空间特征。 随后,φ(xt)而后被传递到递归神经网络以学习时间动态。
在本文中,咱们还假设经过使用原始输入样本的附加衍生信息,在涉及样本富集的过程当中,咱们能够最小化学习模型中的欠拟合,这反过来能够致使更高的识别性能。 图1描述了咱们提出的两个可能的变体:空间维度浓缩(SE)和时间维度浓缩(TE)的咱们提出的加强型长期递归卷积网络(ELRCN)的整体框架。
SE模型经过沿输入叠加光流图像(F∈R 3),光学应变图像(S∈R2)和灰度原始图像(R∈R2),使用更大的输入数据维度进行空间学习 通道,咱们表示为xt =(Ft,St,Gt)。 所以,输入数据为224 * 224 * 5,这就须要从头开始训练VGG-Very-Deep-16(VGG16)[29]模型。 最后的彻底链接(FC)层将输入数据编码成4096个固定长度的矢量φ(xt)。
TE模型利用传递学习[30]和来自VGG-Face模型[31]的预训练权重,该模型在野外大规模标记人脸(LFW)数据集[32]中进行训练,以进行人脸识别。 咱们调整了VGG-Face的预训练权重的微观表达数据,以使模型更有效地学习和适应。 这也有助于更快地收敛,由于微表情和LFW数据都涉及面和它们的组件。 因为VGG-Faces模型须要224 * 224 * 3的输入,咱们复制了S和G图像(R2→R3),以便它们符合所需的输入尺寸(如图1所示)。 在训练阶段,咱们对每一个输入数据在单独的VGG-16模型中进行微调,每一个模型产生一个4096长度的特征向量φ(xt)在他们的最后FC层。 这致使12288长度的特征向量被传递到随后的循环网络。
C. 时序学习Temporal Learning
D. 通用网络配置
网络训练使用自适应时期或早期中止,最大设置为100个时期。 基本上,当损失评分中止改善时,每次折叠的训练将中止。 咱们使用自适应矩估计(ADAM)[35]做为优化器,学习率为10-5,衰减为10-6。 因为微观表达的微妙性致使学习困难,学习率被调整为小于典型比率。 对于时间学习,咱们将LSTM层以后的FC层的数量固定为1。 这没有通过实验,由于咱们的重点在于这些层中的复发层和单位的数量(参见第IV-E节中的消融研究)。
4. EVALUATION估计
A. 数据库
CASME II [5]是一个全面的自发微表情数据库,包含247个视频样本,来自26个亚洲参与者,平均年龄为22.03岁。 这个数据库中的视频显示,一个参与者被五种微表情中的一种引发:幸福,厌恶,镇压,惊奇,其余。
自发行为和微运动(SAMM)[6]是一个新的数据库,包含来自32名参与者的平均年龄为33.24岁的人群自发诱发的159个微动做(每一个视频一个视频),以及一个男性女性性别分离。 最初打算用于调查微面部运动,SAMM是基于7种基本情绪诱发的。
最终,做者[7]提出了基于FACS行动单元的“客观类别”做为微表情识别的类别。 CASME II和SAMM数据库有许多共同之处:它们以200 fps的高速帧率记录,而且它们具备客观类别,如[7]中所述。
B. Preprocessing & Settings预处理与设置
使用Dlib [36]对SAMM数据集进行预处理以进行面部对齐,同时使用Face ++ API [37]提取面部地标。 而后,根据脸部边缘的选定脸部标志对每一个视频帧进行裁剪。 同时,CASME II提供了咱们直接使用的预裁剪视频帧。 全部视频帧都调整为224 * 224像素分辨率,以便将输入空间维度与网络匹配。 对两个数据库应用长度为10的时间插值模型(TIM)[4],以将样本序列拟合到指望固定时间长度的递归模型中。 咱们比较的基线方法是使用具备线性内核和C = 10000的大规则化参数的支持向量机(SVM)实现的。
咱们进行了两组实验:(1)仅涉及一个数据库的单域实验(CASME II),(2)涉及两个数据库(CASME II和SAMM)的跨域实验,具体地,使用两个设置 - 一个支持每次一个数据库,另外一个支持来自两个数据库的全部样本。
实验使用F1-得分,加权平均召回(WAR)或准确性和不加权平均召回(UAR)进行测量。 UAR相似于“平衡”准确度(平均每一个班级的准确性分数而不考虑班级人数)。 咱们报告微平均F1分数,当考虑高度不平衡的数据时,它提供了平衡的指标[38]。
C. Single Domain Experiment单畴实验
在这个实验中,CASME II数据库是咱们评估领域的选择。 使用Leave-One-Subject-Out(LOSO)交叉验证进行培训,由于该方案可防止学习期间受试者的偏见。 表I比较了咱们提出的方法与基线LBP-TOP方法(转载)的性能以及文献中最近的和相关的一些做品。 所提出的ELRCN方法的TE变量明显优于其SE对应方,这代表为每种类型的数据微调单独网络的重要性。
表1:本文提出的方法与其余微表情识别方法的比较
D. Cross Domain Experiment跨域实验
为了测试咱们的深度神经网络结构的稳健性和它从样本中学习显着特征的能力,咱们使用由微表情大挑战(MEGC)20181-综合数据库评估(CDE)和Holdout数据库评估(HDE)。 HDE和CDE分别是MEGC 2018中的任务A和B.CDE将两个数据库(CASME II和SAMM)组合在一块儿,这些数据库省略了第6和第7个目标类别(来自[7]),而后进行了LOSO评估,总计为47个主题。 HDE从相对的数据库中采集训练和测试集(即在CASME II上训练,在SAMM上测试,反之亦然)。 而后将两个褶皱的结果平均并报告为整体结果。
表2比较了咱们的两个ELRCN变体与CDE(任务B)协议中再现的LBP-TOP基线的性能。 与基线方法相比,所提出的方法在普遍应用于大量对象方面显然优越。 有趣的是,SE变体发布了比TE变体更强的结果(WAR 0.57) 这与仅CASME II的结果相反。
表III显示了HDE(任务A)协议的结果。 挑战组织者提供HOG-3D和HOOF方法做为其余竞争基线。 咱们还重现了与挑战组织者提供的结果不一样的基线LBP-TOP方法。 这多是因为面部裁剪步骤或预处理步骤(如TIM)中的某些差别,这些差别在撰写本文时还没有详细披露。 一样,咱们观察到所提议的方法的SE变体的强大性能,其超过了TE变体和所提供的基线。
为了更好地理解后面的内容,咱们在2中提供了ELRCN-SE与CDE协议的混淆矩阵。因为训练样本数量较大,I类和III类的结果可能最好。 此外,咱们还为图3和图4中的两个折叠(即CASME II-SAMM和SAMM-CASME II的训练测试配对)提供了混淆矩阵。CASME II-SAMM折叠(F1 0.409,UAR 0.485,WAR 0.382) 比SAMM-CASME II倍显着更好(F1 0.274,UAR 0.384,WAR 0.322)。 CASME II的第三类训练样本最多; 它表现最好。 一样,在训练集(CASME II中的II类,SAMM中的IV和V类)中表现相对不足的类表现很是差。 所以,小样本量可能仍然是深度学习方法的绊脚石。
E. Ablation Study消融学习
为了进一步分析,咱们经过删除咱们提出的ELRCN的某些部分来进行普遍的消融研究,以了解这是如何影响性能的。这是使用CASME II数据库(单一域)进行的。
1)空间学习:咱们只学习VGG16 CNN来本身观察空间模块的能力。咱们将每一个视频帧视为单个图像而不是序列。图5中关于空间模块不一样配置的结果代表,仅空间性能可能比基线性能差。
2)仅时间学习:因为具备大量循环单元的循环模型在计算上要求很高,所以图像调整为50 * 50像素分辨率。咱们将像素强度视为样本的基本表示,做为时间模块的输入。考虑了各类配置,包括1层和2层LSTM。图6中的结果代表,仅使用像素强度做为2层LSTM网络的输入就能够超越基准性能。参考仅限空间的方法,时间动态的重要性很是明显,能够在这里看到。
3)时空LRCN:从前两个研究中,咱们经过将两个模块中的一个固定到合理选择好的方法并改变其余方法来评估所提出的方法(SE变体)的性能。
咱们仅使用流量数据(最好来自空间研究),使用2层LSTM(3000-1024)上的VGG-16 CNN的倒数第二个彻底链接(FC)层的空间特征进行测试, 这是迄今为止仅有研究的最佳体系结构(见图6)。 7中的结果代表,从4096长度的最后一个FC层得到的空间特征是最具备区别性的。 在此以后,相反的研究继续针对许多时间网络架构测试这个选定的空间特征。 图8中的结果显示了当使用基于图像的特征而不是像素强度时,单层LSTM在ELRCN框架中执行优于2层LSTM的有趣状况。 另外,咱们注意到使用更多的常常性单位也不必定会产生更好的结果,但确定会增长计算成本。
这些研究代表,空间和时间模块在框架内扮演不一样的角色,而且他们高度相互依赖以达到良好的绩效水平。
5. 讨论
使用更多数据:深度学习技术的局限性在样本量方面最为明显。 典型的深层架构须要大量的数据才能很好地学习。 咱们尝试使用更多的内插帧(更高的TIM),可是它致使的结果比以前的做品[4],[38]推荐的结果差,即10或15的TIM。然而,若是 在咱们提出的网络上使用适当的数据加强。
可视化:为了更好地“看”提出的网络如何达到其预测,咱们在空间网络的最后一个卷积层上利用梯度加权类激活映射(Grad-CAM)[40]来提供视觉解释, 面对分类决定作出贡献。 图9中的可视化图根据可见光谱中的颜色着色,范围从蓝色(未激活)到红色(高度激活)。 激活对应于对预测类别贡献最大的空间位置。
咱们首先展现单域实验的可视化。 来自图9(a)中样品的AU 12(唇角拉拔器)与嘴唇侧面附近的绿色区域很是精确地对应。 图9(b)中对象脸颊周围的区域也显示出相对较强的激活,对应于AU 14,即实际状况。 从跨域试验中,咱们也发现了相似的图9(c)和(d)中AU匹配空间激活的证据。 图9(c)中的AU分别是4,6,7,23,它涉及围绕眼部区域和上部脸颊的运动,这两个区域都很红。 同时,图9(d)中的样本具备涉及引发眉毛的AU 1。 比较同同样品在不一样实验(图9(e)中显示)的Grad-CAMs一般代表,在单个域上训练的模型比在跨域上的模型具备更多的显着位置。
6.结论
在本文中,咱们已经提出了用于微表情识别的丰富LRCN模型的两种变体 - 一种是用于空间富集(SE)的各类输入数据的叠加,另外一种是用于时间富集(TE)的叠加特征的另外一种。 在经验上,TE模型在单个数据库上表现更好,而SE模型在跨域中学习得更好。 选定样本的Grad-CAM可视化代表,这些模型的预测与专家标记的AU相符。 经过咱们的消融研究,咱们还发现,使用光流信息比使用原始像素强度更有利于提供网络输入数据的正确特征。 从此,咱们但愿经过适当的数据加强和预处理技术扩展咱们的前期工做。
-----------------------------------------------------------------------------------------------------------------
后续进行我的实验结果的更新