《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记

时间 2020-12-25

原文原文链接

《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记一、研究背景 Bilinear models在视觉问答（VQA）任务中进行信息融合提供了一个吸引人的框架。它们有助于学习question meaning 和 visual concepts in the image之间的高层次关系，但它们存在高维度问题。论文引