《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记

《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记 一、研究背景 Bilinear models在视觉问答(VQA)任务中进行信息融合提供了一个吸引人的框架。 它们有助于学习question meaning 和 visual concepts in the image之间的高层次关系,但它们存在高维度问题。 论文引
相关文章
相关标签/搜索