Exploring Visual Relationship for Image Captioning论文笔记

最近看了这篇论文, 写了些心得体会,仅代表个人看法,如有不对还请多多指教! 本文提出了一种新的设计方案,在基于注意的编解码框架下,探讨图像描述对象之间的联系。具体来说,我们提出了图形卷积网络和长期短期内存(称为gcn-lstm)架构,这种新颖的方法将语义和空间对象关系整合到图像编码器中。从技术上讲,我们根据图像中检测到的对象的空间和语义联系来构建关系图形。然后,通过GCN利用图形结构,对每个区域的
相关文章
相关标签/搜索