Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering简介

本篇文章介绍的VQAv2是人工标注的开放式问答数据集,通过收集互补的图像来平衡目前的VQA数据集,针对视觉问题回答(VQA)任务的语言偏见,使视觉(VQA中的V)变得重要,相较于VQAv1尽量减少了语言偏见(为每个问题补充了图片)。 同时,本文提出一个新的用于识别互补图像的数据收集模型,该模型除了为给定的(图像、问题)对提供答案外,还提供基于反例的解释。具体来说,它识别出与原始图像相似的图像,但它
相关文章
相关标签/搜索