【人脸表情识别】基于视频的人脸表情识别不得不读的论文

上一篇专栏文章咱们介绍了基于视频的人脸表情识别的相关概念，了解了目前基于视频的人脸表情识别领域最经常使用的几个数据集以及经典的实现方法。本文将延续上一篇的内容，分享近几年该领域一些主流的基于深度学习的方法实现。git

做者&编辑 | Menpinlandgithub

1. 峰值帧引导的深度网络web

Zhao等人[1]尝试仅用两帧的人脸图像解决序列问题的方法。网络的输入是一张表情峰值帧和非峰值帧，在训练过程当中，使用正则化的方式创建非峰值表情到峰值表情的映射（相似以后提出的对抗学习思想）。相似地，Kim等人[2]用三、5帧的人脸图像实现基于视频序列的表情识别和微表情识别任务。用这类方法的最大优势就是不须要用到序列的所有数据，训练更简单，推理所须要的参数也更少。但最大的问题是须要提早知道哪一帧是峰值帧哪一帧是非峰值帧，在实际应用中这一点很难作到。算法

推荐指数：✦✦✧✧✧express

图1｜[1]中提出方法示意图微信

[1] Zhao X, Liang X, Liu L, et al. Peak-piloted deep network for facial expression recognition[C]//European conference on computer vision. Springer, Cham, 2016: 425-442.网络

[2] Kim D H, Baddar W J, Jang J, et al. Multi-objective based spatio-temporal feature representation learning robust to expression intensity variations for facial expression recognition[J]. IEEE Transactions on Affective Computing, 2017, 10(2): 223-236.app

2. 解决时序问题经典网络的应用框架

解决时序问题有两种经典的深度学习方法：基于3DCNN和基于CNN-RNN的方法（卷积层用于特征提取）。Fan等人[3]基于上述两种网络分别获得预测结果，再结合基于语音特征预测获得的结果，进行决策级的融合从而获得了最终的识别结果。Vielzeuf等人[4]基于类似的思路作了细微的改进，在公开数据集上取得了更好的识别效果。ide

推荐指数：✦✦✦✧✧

代码：https://github.com/lidian007/EmotiW2016

图2｜[3]中提出的方法示意图

[3] Fan Y, Lu X, Li D, et al. Video-based emotion recognition using CNN-RNN and C3D hybrid networks[C]//Proceedings of the 18th ACM International Conference on Multimodal Interaction. 2016: 445-450.

[4] Vielzeuf V, Pateux S, Jurie F. Temporal multimodal fusion for video emotion classification in the wild[C]//Proceedings of the 19th ACM International Conference on Multimodal Interaction. 2017: 569-576.

3. 单张图像融合时序数据

在基于视频的人脸表情识别任务中，深度时空网络（deep spatial-temporal networks）因为其能融合时间和空间特征深受研究者的青睐。一般，3DCNN用于提取图片序列的空间特征，RNN用于提取时序特征。然而这类方法在两个分支网络都须要用到序列中全部的数据，计算量较大。所以，一些研究者考虑在尽量保留表情特征的基础上减小网络输入的大小。Zhang等人[5]用单张图片取代人脸图片序列以提取空间特征，用人脸特征点序列取代人脸图片序列以提取时间特征，一样实现了较好的识别效果。

推荐指数：✦✦✦✧✧

图3｜[5]中提出方法示意图

[5] Zhang K, Huang Y, Du Y, et al. Facial expression recognition based on deep evolutional spatial-temporal networks[J]. IEEE Transactions on Image Processing, 2017, 26(9): 4193-4203.

4. 对各类人脸表情变化模式鲁棒的LSTM

在以前专栏讨论基于图片的人脸表情识别时，咱们了解到人的身份、姿态、光照等模式的变化会对识别效果形成较大的影响。在基于视频的人脸表情识别中，这种状况一样存在。Baddar等人还发现，解决时序问题经常使用的LSTM对于人脸各类模式的变化并不鲁棒。如图4所示，他们挑选了一组表情相同可是光照不一样的图片，同时对每张图片进行复制，获得两组序列，每一个序列中的每张图片相同。理论上，序列每张图片同样，两组序列除了光照条件不一样，其余都相同，那么通过LSTM提取出的特征，单个序列特征值应该固定的，两个序列特征值应该相同或类似。但从可视化的结果可观察到，两组特征差别较大。针对上述问题，Baddar等人[6]尝试直接修改LSTM核内部结构，引入可编码误差的单元（如图5(b)所示），从而提升对各类变化模式的鲁棒性。同年，在IEEE Transactions On Affective Computing的一篇论文中，Baddar等人[7]一样针对LSTM存在的问题，构建一种时序编码结构以提高基于视频的表情识别中实时预测的效果。

推荐指数：✦✦✦✦✧

图4｜LSTM对人脸表情变化模式并不鲁棒

图5｜LSTM核原始结构(a)和[6]中修改后的LSTM核结构(b)

[6] Baddar W J, Ro Y M. Mode variational lstm robust to unseen modes of variation: Application to facial expression recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 3215-3223.

[7] Baddar W J, Lee S, Ro Y M. On-the-Fly Facial Expression Prediction using LSTM Encoded Appearance-Suppressed Dynamics[J]. IEEE Transactions on Affective Computing, 2019.

5. 含注意力机制的基于视频人脸表情识别

前面提到，若是可以提早得到人脸序列的表情峰值帧，将有利于提高基于视频的人脸表情识别的准确率，但实现这样的算法并不容易。针对这一点，Meng等人[8]引入注意力机制，在训练过程当中区分出更具表明性的帧进而提高后续表情识别效果。Zhou等人[9]则利用注意力机制和双线性池化（bilinear pooling）构建多模态表情特征融合方法；Chen等人[10]则在时空注意力的基础上增长了3D通道注意力以生成更具表明性的特征。

推荐指数：✦✦✦✧✧

代码：https://github.com/MengDebin18/Emotion-FAN

图6｜[8]中提出的注意力机制

图7｜[9]中提出方法的示意图

[8] Meng D, Peng X, Wang K, et al. Frame attention networks for facial expression recognition in videos[C]//2019 IEEE International Conference on Image Processing (ICIP). IEEE, 2019: 38663870.

[9] Zhou H, Meng D, Zhang Y, et al. Exploring emotion features and fusion strategies for audio-video emotion recognition[C]//2019 International Conference on Multimodal Interaction. 2019: 562-566.

[10] Chen W, Zhang D, Li M, et al. STCAM: Spatial-Temporal and Channel Attention Module for Dynamic Facial Expression Recognition[J]. IEEE Transactions on Affective Computing, 2020.

6. 利用背景信息辅助表情识别

在基于视频的人脸表情识别中，研究者每每会将研究的重点放在如何捕获脸部的动态变化上。Lee等人[11]认为在天然状态下，人的脸部表情变化并无那么明显、规律，单纯利用人脸的变化并不能很是准确反正一段时间内人的真实情绪。并且与实验室条件下拍摄获得的表情序列不一样的是，天然状态下的视频除了人脸外还包含丰富的肢体动做、人物互动等信息，若是能充分利用这些额外的信息，将一样有助于提高识别的效果。所以他们提出融合背景信息的双流法，一个分支用于提取人脸脸部变化特征，另外一个网络分支则编码其他的背景信息以辅助表情识别。

推荐指数：✦✦✦✦✧

图8｜[11]中提出的方法框架示意图

[11] Lee J, Kim S, Kim S, et al. Context-aware emotion recognition networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 10143-10152.

总结

因为3DCNN和LSTM等网络在处理时序问题的优越性，近几年基于视频的人脸表情识别任务主要围绕这两类方法进行有针对性的修改。同时，较大规模的人脸表情识别视频数据集CAER（2019）和DFEW（2020）都是近两年才开源，上文提到的方法大部分还只是在小规模数据集上进行验证，方法的有效性和鲁棒性仍待商榷，所以该领域还有很大的空间值得研究者们去探索。

有三AI秋季划-人脸图像组

人脸图像小组须要掌握与人脸相关的内容，学习的东西包括8大方向：人脸检测，人脸关键点检测，人脸识别，人脸属性分析，人脸美颜，人脸编辑与风格化，三维人脸重建。。了解详细请阅读如下文章：

【CV秋季划】人脸算法那么多，如何按部就班地学习好？

转载文章请后台联系

侵权必究

往期精选

本文分享自微信公众号 - 有三AI（yanyousan_ai）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。