深度学习中的VQA(视觉问答)技术

视觉问答(Visual Question Answering,VQA)是一个需要理解文本和视觉的新领域。由于深度学习技术显著地改善了自然语言处理和计算机视觉结果,我们可以合理地预期VQA将在未来几年变得越来越准确。视觉问答主要涉及图像文本俩种模态信息。 目前的方法一般来说,我们可以概述VQA中的方法如下: 从问题中提取特征。 从图像中提取特征。 结合这些特征来生成答案。 对于文本特征,可以使用诸如
相关文章
相关标签/搜索