《Multi-level Attention Networks for Visual Question Answering》阅读笔记

《Multi-level Attention Networks for Visual Question Answering》阅读笔记 一、研究背景 effective semantic embedding and fine-grained visual understanding; 人类语言问题以明确的查询意图传达强大的高级语义,而具有数万个像素的真实世界图像则相对低级且抽象,由于众所周知的语义差
相关文章
相关标签/搜索