In Defense of Grid Features for Visual Question Answering论文阅读

In Defense of Grid Features for Visual Question Answering 论文阅读 Abstract 作为“自底向上”关注,基于边界框(或区域)的视觉特征最近已经超过了普通的基于网格的卷积特征,成为视觉和语言任务(如视觉问题回答(VQA))的事实标准。然而,还不清楚地区的区域(例如更好的定位)是否是自下而上注意力成功的关键原因。在这篇文章中,我们重新审视了
相关文章
相关标签/搜索