Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

时间 2020-12-24

原文原文链接

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning.CVPR,2019. 摘要自动生成视频字幕是一项基本的计算机视觉的任务，最近使用CNN和RNN技术解决该任务。这些方法主要关注于使用RNN序列学习方法生成更好的字幕，但却忽略了使用CNN提取特征的重要性。我们精