基于tensorflow的视觉问答系统构建

时间 2021-01-19

原文原文链接

视觉问答（Visual Question Answering，VQA），是多模态数据挖掘的前沿应用之一，里面涉及计算机视觉和自然语言处理的学习任务。VQA系统需要将图片和问题作为输入，结合这两部分信息，产生一条人类语言作为输出。针对一张特定的图片，如果想要机器以自然语言来回答关于该图片的某一个特定问题，我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。现有视觉问答的模型基本

>>阅读原文<<