Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering

虽然以前的VQA直接将Image-Question元组(I,Q)映射到应答(A),但GVQA将VQA的任务分为两步:LOOK:找到回答问题所需的对象/图像块,并识别块中的视觉概念;从问题中找出合理答案的空间,并通过考虑哪些概念是合理的,从一组公认的视觉概念中返回适当的视觉概念。 GVQA的另一个新颖之处是它把回答“是”/“否”作为一项直观的验证任务。 给定一个问题和一个图像,问题首先通过问题分类器
相关文章
相关标签/搜索