视觉问答05day

视觉问答(VQA)的关键解决方案在于如何融合从输入图像和问题中提取的视觉和语言特征。 传统方法        根据数据集中训练集答案出现的 次数设定一个阈值,保留出现过一定次数的答案,作为答案 的候选选项形成一个答案候选集。然后把每一个候选答案设 置为不同的标签,将 VQA 问题作为一个分类问题来解决。 该模型回答的答案大多都与图像无关并且随着数据集的不同 会回答差别很大的答案。 SWQA模型:
相关文章
相关标签/搜索