（EmotiW2016）Video-based emotion recognition using CNNRNN and C3D hybrid networks

时间 2021-01-11

原文原文链接

Introduction 本文主要利用了RNN和C3D解决视频分类问题，其中RNN将CNN从每个视频帧中提取出来的特征进行时序上的编码，C3D对人脸表征和运动信息同时建模，最后再融合音频特征，完成视频分类。本文以59.02%的正确率较EmotiW 2015 53.8%的正确率高出许多。 Model 整体模型如图1，该模型主要由三个子模型组成：CNN-RNN，C3D和