参考:
作者使用两个对抗网络来联合学习高维特征和它们在不同模态下的对应哈希编码。同时,一方面使用对抗学习来有监督地最大化不同模态之间语义关联和特征分布一致性;另一方面无缝添加一个自监督的语义网络,来发现多标签标注中的语义信息。该模型的主要亮点如下:
本文提出了一个新型的用于跨模态检索的自监督对抗哈希模型。据作者介绍,这是第一批尝试将对抗学习应用到跨模态哈希问题的工作之一。
本文将自监督语义学习和对抗学习结合,以尽可能保留不同模态之间的语义相关性和表征一致性。使用这种方式可以有效地打破模态鸿沟。
基于三个评测数据集的大规模实验结果,表明本文提出的 SSAH 明显优于当前最好的基于传统方法和深度学习方法的跨模态哈希算法。
这个方法主要由三个部分组成,包括了一个自监督语义生成网络(LabNet)和两个分别用于图像和文本的对抗网络(ImgNet 和 TexNet)。
具体来说,LabNet 的目标设定使它可以从多标签标注中学习到语义特征。然后,它可以被视为用于监督两个阶段的模态特征学习的公共语义空间。第一个阶段,在公共的语义空间中将来自不同生成网络的模态特定的特征联系起来。考虑到深度神经网路的每个输出层都包含了语义信息,在公共的语义空间中将模态特定的特征联系起来,可以帮助提高模态之间的语义相关性。第二个阶段,把语义特征和模态特定的特征同时馈送进两个判别网络。因此,在相同语义特征的监督下,两个模态的特征分布最终会趋于一致。
具体来说,LabNet的目标是以允许其从多标签注释中学习语义特征的方式进行构建的。它可以被认为是一个共同的语义空间,在这个空间中监督两个阶段的情态特征学习。在第一阶段,来自不同发生器网络的特定于模态的特征在共同的语义空间中彼此关联。由于深层神经网络中的每个输出层都包含语义信息,因此将共同语义空间中特定于模态的特征关联起来有助于提升模态之间的语义相关性。在第二阶段,语义特征和特定于模态的特征同时馈入两个鉴别器网络。结果,两种模式的特征分布趋于在相同语义特征的监督下变得一致。在本节中,我们将详细介绍我们的SSAH方法,包括模型制定和方法背后的方法学习算法。
成对多标签相似度矩阵
在多标签设置中,两个实例(
跨模态哈希的目标是为这两种模式学习统一的哈希码:
使用汉明距离,计算两个编码的相似性
给定S,条件B下的S的概率可以表示为:
具有较大内积的两个实例应该很可能具有相似性。
量化海明空间中的二进制码之间的相似性的问题因此可以转化为编码的原始特征的内积的计算。
在这里,我们构建了一对对抗网络(ImgNet和TxtNet)来学习图像和文本模式的单独哈希函数(
通过
以微软的COCO数据集为例,有一个实例用多个标签进行了注释,例如“人”,“棒球棒”和“棒球手套”。在这种情况下,最自然的想法是,可以将多标签注释作为一种有利的方式,以便在更细粒度的层次上弥合模态之间的语义相关性。我们设计了一个端到端的全连接深层神经网络,命名为LabNet,为不同模式之间的语义相关性建模,以模拟不同形式之间的语义相关性。给定一个实例的多标签向量,LabNet会逐层提取抽象的语义特征; 通过这些我们可以监督ImgNet和TxtNet中的特征学习过程。由于三元组(
如上所述,属于多模态实例的不同模态在语义上是相关的。为了保持这种语义相关性,我们监督LabNet指导下的两种模式的特征学习过程,包括监督语义特征和学习的二进制编码。为了解决图像模态问题,我们设计了一个名为ImgNet的端到端特征学习网络,该网络可以将图像投影到哈希编码中。通过使用语义网络监督图像特征学习,我们可以在ImgNet和语义网络之间保持相同的语义相关性。这是在ImgNet中使用时的语义网络的自我监督角色。同样,在考虑文本形式时,我们使用语义网络以同样的方式监督TxtNet的特征学习过程。因此,
应该指出的是,虽然(3)和(4)式在结构上类似,它们具有不同的含义。因此,我们使用监督信息