视觉问答05day

时间 2021-01-22

原文原文链接

视觉问答（VQA）的关键解决方案在于如何融合从输入图像和问题中提取的视觉和语言特征。传统方法根据数据集中训练集答案出现的次数设定一个阈值，保留出现过一定次数的答案，作为答案的候选选项形成一个答案候选集。然后把每一个候选答案设置为不同的标签，将 VQA 问题作为一个分类问题来解决。该模型回答的答案大多都与图像无关并且随着数据集的不同会回答差别很大的答案。 SWQA模型：