Spatio-Temporal Fusion based Convolutional Sequence Learning for Lip Reading论文阅读

Abstract 目前最先进的唇读方法是基于自然机器翻译和音频语音识别的seq2seq架构。但是这种方案没有充分利用唇动的特征,有两种缺陷:首先是短期的时间依赖关系是嘴唇图像到发音嘴型映射的关键但是没有接收足够的注意力;二是在现有的序列模型中由于使用了全局池化导致局部空间信息的丢失。 本文提出了一个时间聚焦块来充分描述短期依赖关系,同时提出一个时空融合模块来保持局部空间信息并降低特征维度。实验结果
相关文章
相关标签/搜索