深度学习中的VQA(视觉问答)技术

时间 2021-01-13

原文原文链接

视觉问答（Visual Question Answering，VQA）是一个需要理解文本和视觉的新领域。由于深度学习技术显著地改善了自然语言处理和计算机视觉结果，我们可以合理地预期VQA将在未来几年变得越来越准确。视觉问答主要涉及图像文本俩种模态信息。目前的方法一般来说，我们可以概述VQA中的方法如下：从问题中提取特征。从图像中提取特征。结合这些特征来生成答案。对于文本特征，可以使用诸如

>>阅读原文<<