《Dual Attention Networks for Multimodal Reasoning and Matching》

Dual Attention Networks for Multimodal Reasoning and Matching CVPR 2017 图文匹配终极问题是整个Text与整个Image的匹配问题,但是这个问题比较难以解决,所以一个最基本的想法就是把这个问题拆分开来,Text由不同的单词构成,Image由不同的区域构成,如果能把Text的单词与Image的区域进行一个匹配,那么这个问题就会变得
相关文章
相关标签/搜索