跨模态检索CM-GANs: Cross-modal Generative AdversarialNetworks for Common Representation Learning

时间 2021-07-13

原文原文链接

核心思想：这篇论文主要是通过对抗训练文本和图像，是它们学习到共同的特征表示。本论文由四个对抗训练过程组成（详细看损失函数）。图像自身的对抗网络，文本自身的对抗网络，图像对文本的对抗网络、文本对图像的对抗网络。图像自身的对抗网络：通过图像卷积学习到到特征向量（不是最终的特征表示，论文中为hi），作为真实数据，重建（也就是decode过程）的特征向量(论文中为ri)作为假数据，来构建对抗网

>>阅读原文<<