多模态特征融合方法学习

时间 2020-12-30

原文原文链接

一、图卷积做视觉、语言特征融合这篇文章的重点是做图像内物体和句子单词的细粒度对齐，图像中物体和句子单词被做成同维度的特征表示，假设每张图像被表示成 F = d ∗ m F=d*m F=d∗m，取图像中 m m m个物体，每个被表示成 d d d维；每个句子被表示成 G = d ∗ n G=d*n G=d∗n，保留n个单词，每个单词d维。图卷积的使用关键在于邻接矩阵A怎么构造。这里采用的方法是

>>阅读原文<<