论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer

1. 引言 在image captioning和VQA中为了生成搞质量的输出,需要精细的视觉处理甚至多步推导。所以,视觉注意机制被广泛的应用。 两个定义: top-down:nonvisual or task-specific context bottom-up:purely visual feed-forward attention mechanisms 在image captioning和VQ
相关文章
相关标签/搜索