Multi-level Attention Networks for Visual Question Answering阅读笔记

时间 2021-01-04

原文原文链接

Multi-level Attention Networks 这个模型可以同时提取高级语义信息和空间信息，模型框架如下所示：该模型分为三个部分，分别是Semantic Attention、Context-aware Visual Attention、Joint Attention Learning。 Semantic Attention 语义注意的工作是从图像中挖掘重要的概念来回答问题。虽然概念