多模态+Recorder︱多模态循环网络的图像文本互匹配

来源于公众号:大数据与多模态计算 . 1.问题背景 图像文本匹配,顾名思义,就是度量一幅图像和一段文本的相似性,该技术是多个模式识别任务的核心算法。例如,在图像文本跨模态检索任务中,当给定查询文本,需要依据图像文本的相似性去检索内容相似的图像;在图像描述生成任务中,给定一幅图像,需要依据图像内容检索相似的文本,并以此作为(或者进一步生成)图像的文本描述;在图像问答任务中,需要基于给定的文本问题查找
相关文章
相关标签/搜索