《Stacked Cross Attention for Image-Text Matching》

ECCV 2018 主要思路:分别对文本和图像应用attention的机制,学习比较好的文本和图像表示,然后再在共享的子空间中利用hard triplet loss度量文本和图像之间的相似性。 图像特征:采用ResNet-101的Faster R-CNN网络对每一个图像产生k个目标区域,提取每一个目标对象的特征,嵌入矩阵变换为h维的vector 文本特征:文本的每一个word得到one-hot v
相关文章
相关标签/搜索