多模态＋Recorder︱多模态循环网络的图像文本互匹配

时间 2020-12-30

原文原文链接

来源于公众号：大数据与多模态计算 . 1.问题背景图像文本匹配，顾名思义，就是度量一幅图像和一段文本的相似性，该技术是多个模式识别任务的核心算法。例如，在图像文本跨模态检索任务中，当给定查询文本，需要依据图像文本的相似性去检索内容相似的图像；在图像描述生成任务中，给定一幅图像，需要依据图像内容检索相似的文本，并以此作为(或者进一步生成)图像的文本描述；在图像问答任务中，需要基于给定的文本问题查找

>>阅读原文<<