《图文匹配&VQA》小结

图文匹配以及图像的QA是图像与文本多模态融合,是计算机视觉与自然语言处理的交叉。 图文匹配:将图像与文本都映射到一个相同的语义空间,然后通过距离对他们的相似度进行判断。 图文匹配问题与VQA最大的不同就是,需要比对两种特征之间的距离。将文本和图像分别做attention,DAN计算每一步attention后的文本和图像向量相似度累加得到similarity. VQA:给定一张图像和一个关于该图像内
相关文章
相关标签/搜索