【论文阅读】【CVPR2017】Dual Attention Networks for Multimodal Reasoning and Matching

Abstract 我们提出双重注意网络模型(DANs)利用视觉和文字共同注意机制捕捉视觉和语言之间的细微互动。 DANs关注图像和文字的特定区域文本信息,这些文本信息是通过多个步骤收集来自两种模式的重要信息。 基于这个框架,我们引入两种类型的DANs进行多模态推理,匹配以及分类。 推理模型允许可视化并在协作推理期间用文本注意机制互相关联,这对于视觉问答(VQA)等任务很有用。 此外,匹配模型利用文
相关文章
相关标签/搜索