多模态特征融合方法学习

一、 图卷积做视觉、语言特征融合 这篇文章的重点是做图像内物体和句子单词的细粒度对齐,图像中物体和句子单词被做成同维度的特征表示,假设每张图像被表示成 F = d ∗ m F=d*m F=d∗m,取图像中 m m m个物体,每个被表示成 d d d维;每个句子被表示成 G = d ∗ n G=d*n G=d∗n,保留n个单词,每个单词d维。 图卷积的使用关键在于邻接矩阵A怎么构造。这里采用的方法是
相关文章
相关标签/搜索