视觉问答研究报告

摘 要:视觉问答(Visual Question Answering,VQA)是一项涉及计算机 视觉、自然语言理解、知识表示与推理的学习任务。其标准定义译为中 文通俗来说为:视觉问答系统的输入为一张图像和一个关于这张图像形 式自由、开放式的自然语言问题,经过系统处理后提供一个准确的自然 语言答案作为输出,也即是基于一张图像的问答处理。因此视觉问答系 统不仅要理解文字形式提出的问题,还需要进行图像处
相关文章
相关标签/搜索