自监督对抗哈希SSAH

时间 2021-01-21

标签哈希SSAH tensorflow 繁體版

原文原文链接

参考：

作者使用两个对抗网络来联合学习高维特征和它们在不同模态下的对应哈希编码。同时，一方面使用对抗学习来有监督地最大化不同模态之间语义关联和特征分布一致性；另一方面无缝添加一个自监督的语义网络，来发现多标签标注中的语义信息。该模型的主要亮点如下：

本文提出了一个新型的用于跨模态检索的自监督对抗哈希模型。据作者介绍，这是第一批尝试将对抗学习应用到跨模态哈希问题的工作之一。
本文将自监督语义学习和对抗学习结合，以尽可能保留不同模态之间的语义相关性和表征一致性。使用这种方式可以有效地打破模态鸿沟。
基于三个评测数据集的大规模实验结果，表明本文提出的 SSAH 明显优于当前最好的基于传统方法和深度学习方法的跨模态哈希算法。

本文提出的 SSAH

这个方法主要由三个部分组成，包括了一个自监督语义生成网络（LabNet）和两个分别用于图像和文本的对抗网络（ImgNet 和 TexNet）。

具体来说，LabNet 的目标设定使它可以从多标签标注中学习到语义特征。然后，它可以被视为用于监督两个阶段的模态特征学习的公共语义空间。第一个阶段，在公共的语义空间中将来自不同生成网络的模态特定的特征联系起来。考虑到深度神经网路的每个输出层都包含了语义信息，在公共的语义空间中将模态特定的特征联系起来，可以帮助提高模态之间的语义相关性。第二个阶段，把语义特征和模态特定的特征同时馈送进两个判别网络。因此，在相同语义特征的监督下，两个模态的特征分布最终会趋于一致。

具体来说，LabNet的目标是以允许其从多标签注释中学习语义特征的方式进行构建的。它可以被认为是一个共同的语义空间，在这个空间中监督两个阶段的情态特征学习。在第一阶段，来自不同发生器网络的特定于模态的特征在共同的语义空间中彼此关联。由于深层神经网络中的每个输出层都包含语义信息，因此将共同语义空间中特定于模态的特征关联起来有助于提升模态之间的语义相关性。在第二阶段，语义特征和特定于模态的特征同时馈入两个鉴别器网络。结果，两种模式的特征分布趋于在相同语义特征的监督下变得一致。在本节中，我们将详细介绍我们的SSAH方法，包括模型制定和方法背后的方法学习算法。

3.1 公式

O= { oi } ni=1

n个实例的跨模态数据集
oi=(vi,ti,li)
vi∈R1×dv 第i个实例的原始图像特征
ti∈R1×dt 第i个实例的文本特征
li=[li1,...,lic] 将多标签注释分配给 oi
c 类别数
如果 oi 属于第j个类，则 lij=1 ,否则 lij=0
图像特征矩阵被定义为 V
文本特征矩阵定义为 T
标签矩阵为 L

成对多标签相似度矩阵 S 用于描述两个实例中的每一个之间语义相似性

Sij=1 意为 oi 与 oj 相似，否则为0

在多标签设置中，两个实例（ oi 和 oj ）由多个标签注释

Sij=1 ， oi 和 oj 至少分享一个标签，否则为0

跨模态哈希的目标是为这两种模式学习统一的哈希码：

Bv,t∈ {−1,1} K

K 二进制编码的长度

使用汉明距离，计算两个编码的相似性

disH(bi,bj) 汉明距离，
内积 ⟨bi,bj⟩ ，
使用 disH(bi,bj)=12(K−⟨bi,bj⟩) ，我们可以使用内积来量化两个二进制代码的相似度。

给定S，条件B下的S的概率可以表示为：

p(Sij|B)={δ(Ψij),1−δ(Ψij),Sij=1Sij=0(1)

δ(Ψij)=11+e−Ψij
Ψij=12<bi,bj>
具有较大内积的两个实例应该很可能具有相似性。
量化海明空间中的二进制码之间的相似性的问题因此可以转化为编码的原始特征的内积的计算。

在这里，我们构建了一对对抗网络（ImgNet和TxtNet）来学习图像和文本模式的单独哈希函数（ Hv,t=fv,t(v,t;θv,t) ）。同时，我们构建了一个端到端的自我监督语义网络（LabNet），以便在学习语义特征的散列函数的同时，将图像和文本形态之间的语义相关性建模到共同的语义空间中（ Hl=fl(l;θl) ）

fv,t,l —— 哈希函数
θv,t,l ——要学习的网络参数。

通过 Hv,t,l 学习，二进制编码 Bv,t,l 可以通过sign函数按以下方式生成

Bv,t,l=sign(Hv,t,l)∈ { −1,1 } K , (2)

Fv,t,l∈ℝs×n 表示图像，文本和标签的共同语义空间中的语义特征
Fv,t,l 对应于深层神经网络的某些输出层（ImgNet，TxtNet和 LabNet）

3.2 自我监督的语义生成

以微软的COCO数据集为例，有一个实例用多个标签进行了注释，例如“人”，“棒球棒”和“棒球手套”。在这种情况下，最自然的想法是，可以将多标签注释作为一种有利的方式，以便在更细粒度的层次上弥合模态之间的语义相关性。我们设计了一个端到端的全连接深层神经网络，命名为LabNet，为不同模式之间的语义相关性建模,以模拟不同形式之间的语义相关性。给定一个实例的多标签向量，LabNet会逐层提取抽象的语义特征; 通过这些我们可以监督ImgNet和TxtNet中的特征学习过程。由于三元组（ vi , ti , li ）用于描述相同的第i个实例,我们认为 li 作为 vi 和 ti 自我监督的语义信息。在LabNet中，通过非线性变换将语义特征投影到相应的哈希码中。我们的意图是语义特征和它们相应的哈希码之间的相似关系保存得很好; 这是不同形式之间有效关联背后的基本前提。因此，对LabNet来说，最终目标可以表述如下：

∆lij=12(Fl∗i)T(Fl∗j)
Γlij=12(Hl∗i)T(Hl∗j)
Hl 是预测的哈希码
Ll^ 预测标签
3式中， ȷ1 和 ȷ2 两个负对数似然函数
ȷ1 用于保持语义特征之间的相似性
ȷ2 用于保留类似标签信息具有相似散列码的情况。
ȷ3 是学习哈希码的二值化的近似损失，
ȷ4 原始标签和预测标签的分类损失

3.3 特征学习

如上所述，属于多模态实例的不同模态在语义上是相关的。为了保持这种语义相关性，我们监督LabNet指导下的两种模式的特征学习过程，包括监督语义特征和学习的二进制编码。为了解决图像模态问题，我们设计了一个名为ImgNet的端到端特征学习网络，该网络可以将图像投影到哈希编码中。通过使用语义网络监督图像特征学习，我们可以在ImgNet和语义网络之间保持相同的语义相关性。这是在ImgNet中使用时的语义网络的自我监督角色。同样，在考虑文本形式时，我们使用语义网络以同样的方式监督TxtNet的特征学习过程。因此， v 和 t 中不同形式的自监督特征学习的目标函数可写为：

Δv,ti,j=12(Fl∗i)T(Fv,t∗j)
Γv,ti,j=12(Hl∗i)T(Hv,t∗j)
Hv,t 预测的哈希码
Lv,t^ 图像和文本的预测标签
超参数 α,γ,η,β
ȷLv,t^ 图像和文本的预测标签
超参数 α,γ,η,β
ȷ1 和 ȷ2 两个负对数似然函数
ȷ3 和 ȷ4 是以类似于LabNet中使用的方式定义的近似损失和分类损失

应该指出的是，虽然（3）和（4）式在结构上类似，它们具有不同的含义。因此，我们使用监督信息