《Context and Attribute Grounded Dense Captioning》笔记

时间 2021-01-02

原文原文链接

CVPR 2019 《Context and Attribute Grounded Dense Captioning》这篇文章设计了一个端到端基于文本和属性的描述架构，由上下文视觉挖掘模块和基于多层属性的描述生成模块两部分组成，同时还结合了来自分层语言的辅助监督，以增强学习的描述的独特性。具体架构如下图所示：第一部分，上下文特征提取器（CFE）。先用Faster RCNN学习输入图像的视觉特征，