Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering

时间 2021-01-04

原文原文链接

虽然以前的VQA直接将Image-Question元组（I，Q）映射到应答（A），但GVQA将VQA的任务分为两步：LOOK：找到回答问题所需的对象/图像块，并识别块中的视觉概念；从问题中找出合理答案的空间，并通过考虑哪些概念是合理的，从一组公认的视觉概念中返回适当的视觉概念。 GVQA的另一个新颖之处是它把回答“是”/“否”作为一项直观的验证任务。给定一个问题和一个图像，问题首先通过问题分类器

>>阅读原文<<