论文阅读:《 Lip Reading Sentences in the Wild》

论文:https://arxiv.org/abs/1611.05358 原文:http://www.hankcs.com/nlp/cs224n-lip-reading.html 唇语翻译 将视频处理为以嘴唇为中心的图片序列,给或不给语音,预测正在讲的话。 这些数据可能来自新闻直播: 动画演示: 这里唇语和语音的识别、卡拉OK效果式的对齐,都是模型自动完成的。 架构 视觉和听觉两个模块或者混合交火或
相关文章
相关标签/搜索