《Context and Attribute Grounded Dense Captioning》笔记

CVPR 2019 《Context and Attribute Grounded Dense Captioning》这篇文章设计了一个端到端基于文本和属性的描述架构,由上下文视觉挖掘模块和基于多层属性的描述生成模块两部分组成,同时还结合了来自分层语言的辅助监督,以增强学习的描述的独特性。具体架构如下图所示: 第一部分,上下文特征提取器(CFE)。先用Faster RCNN学习输入图像的视觉特征,
相关文章
相关标签/搜索