《Multi-level Attention Networks for Visual Question Answering》阅读笔记

时间 2021-01-04

原文原文链接

《Multi-level Attention Networks for Visual Question Answering》阅读笔记一、研究背景 effective semantic embedding and fine-grained visual understanding；人类语言问题以明确的查询意图传达强大的高级语义，而具有数万个像素的真实世界图像则相对低级且抽象，由于众所周知的语义差