论文笔记:Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

背景: 大多数图像字幕模型不能主动根据用户的意图来生成不同的描述。 创新点: 我们提出了抽象场景图(ASG)结构来表示细粒度级别的用户意图,并控制生成的描述对象和细节。 在本工作中,我们提出了一种更细粒度的控制信号-抽象场景图(ASG),以表示可控图像标题生成的不同意图。如图1所示,ASG为一个有向图,由三种抽象节点组成,分别是对象、属性和关系,而每个节点不需要具体的语义标签。因此,这种图形结构很
相关文章
相关标签/搜索