Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

原文链接:link 摘要 自顶向下的注意力机制在image caption和VQA中被广泛地使用。本文提出的想法是结合top-down和bottom-up注意力机制。基于faster RCNN的bottom-up方法给出图像区域的特征向量,top-down注意力给出特征的权重。 introduction 在人类的视觉系统中,注意力可以被由当前任务决定的自上而下的信号(例如寻找某物)集中起来,也可以
相关文章
相关标签/搜索