(EmotiW2016)Video-based emotion recognition using CNNRNN and C3D hybrid networks

Introduction         本文主要利用了RNN和C3D解决视频分类问题,其中RNN将CNN从每个视频帧中提取出来的特征进行时序上的编码,C3D对人脸表征和运动信息同时建模,最后再融合音频特征,完成视频分类。本文以59.02%的正确率较EmotiW 2015 53.8%的正确率高出许多。 Model         整体模型如图1,该模型主要由三个子模型组成:CNN-RNN,C3D和
相关文章
相关标签/搜索