《iVQA: Inverse Visual Question Answering》逆向视觉问答论文理解

下面是我对最近看的逆向视觉问答文章的理解 一、文章摘要 我们提出了视觉问题回答(iVQA)的反问题,并探 讨了其是否适合作为视觉语言理解的基准.iVQA任务是生成一个与给定图像和答案对对应的问题。由于答案的信息量低于问题,而且问题具有较少的可学习偏差,因此iVQA模型需要比VQA模型更好地理解图像才能成功。我们将问题生成作为一种多模式动态推理过程,并提出一个 iVQA 模型,该模型可以逐渐调整其关
相关文章
相关标签/搜索