Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

时间 2021-05-23

原文原文链接

原文链接：link 摘要自顶向下的注意力机制在image caption和VQA中被广泛地使用。本文提出的想法是结合top-down和bottom-up注意力机制。基于faster RCNN的bottom-up方法给出图像区域的特征向量，top-down注意力给出特征的权重。 introduction 在人类的视觉系统中，注意力可以被由当前任务决定的自上而下的信号(例如寻找某物)集中起来，也可以