Exploring Visual Relationship for Image Captioning论文笔记

时间 2020-12-23

标签 Graph Convolutional Networks Visual Relationship LSTM Image Caption 繁體版

原文原文链接

最近看了这篇论文，写了些心得体会，仅代表个人看法，如有不对还请多多指教！本文提出了一种新的设计方案，在基于注意的编解码框架下，探讨图像描述对象之间的联系。具体来说，我们提出了图形卷积网络和长期短期内存(称为gcn-lstm)架构，这种新颖的方法将语义和空间对象关系整合到图像编码器中。从技术上讲，我们根据图像中检测到的对象的空间和语义联系来构建关系图形。然后，通过GCN利用图形结构，对每个区域的

>>阅读原文<<