Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning.CVPR,2019. 摘要 自动生成视频字幕是一项基本的计算机视觉的任务,最近使用CNN和RNN技术解决该任务。这些方法主要关注于使用RNN序列学习方法生成更好的字幕,但却忽略了使用CNN提取特征的重要性。我们精
相关文章
相关标签/搜索