image caption笔记（八）:《From Captions to Visual Concepts and Back》

时间 2020-12-23

原文原文链接

这篇文章是15年微软的工作，是和谷歌《show and tell》同时期的文章，它们都去参加了微软的Image Caption比赛（MS COCO caption challenge），总的结果是并列第一。文章的框架不是我们常见的encoder-decoder类型，但是仍然有启发意义。文章生成caption的思路是（1）给出一幅图像，首先使用视觉检测器提取出图像中可能存在的单词。（2）提取