【Deep Hash】NINH

[CVPR 2015] Simultaneous Feature Learning and Hash Coding with Deep Neural Networks [paper]网络

Hanjiang Lai, Yan Pan, Ye Liu, Shuicheng Yan.ide

1. Overcome

  • 在大多数哈希方法中,图像都用手工特征表示,这些特征不能很好得保存原始图片的语义信息。
  • 哈希方法大都分为编码量化两个过程,基于手工向量的优化结果可能难以同时兼容编码和量化的过程,从而形成子优化问题。
  • CNNH是一个two-stage的深度哈希方法,利用神经网络同时学习了哈希函数和图像特征表达。在stage 1时,CNNH获得了近似哈希编码,并在stage 2利用这些近似哈希编码来训练获得图像的特征表达,可是这些训练获得的图像特征没法反过来指导近似哈希编码的训练,以获得更好的编码。

2. Contribute

  • 提出了一种 “one-stage”的监督哈希检索方法,能够同时获得图像特征和哈希编码,而且特征信息和哈希编码能够相互改善,从而获得更好的结果。
  • 设计了一种triplet ranking loss,能够很好得保存图像语义的类似信息。

3. Algorithm

NINH方法分为三个步骤:(1)经过一个卷积网络获得中间图像特征;(2)经过divide-and-encode模块获得每张图片的哈希编码;(3)获得图像对的triplet ranking loss,再经由反向传播更新网络。函数

image-20181205184857999

3.1 Triplet Ranking Loss and Optimization

输入为图像对\((I, I^-, I^+)\),其中\(I\)为查询图像,\(I^-\)为与\(I\)不类似的图像,\(I^+\)为与\(I\)类似的图像。这种输入形式能够更好得表达类似信息“与\(I^-\)相比,图像\(I\)\(I^+\)更类似”。Triplet ranking hinge loss定义为:学习

为了便于优化,加入松弛技巧——将Hamming norm替换为L2 norm。获得新的损失函数以下:优化

损失函数关于\(F(I)、F(I^-)、F(I^+)\)的导数为:ui

由于损失函数的求导过程很是简单,所以能够容易结合进神经网络的反向传播过程当中。编码

3.2 Shared Sub-Network with Stacked Convolution Layers

Shared Sub-Network使用相同的神经网络结构以及相同的参数获得triplet图像对中的每一张图像的特征表达。网络结构和参数以下表所示:spa

在该部分,一种替代的策略是对于图像\(I\)使用单独的网络结构和参数,而图像\(I^-\)\(I^+\)使用相同的网络结构和参数。可是论文中的实验证实,对三个图像使用相同的网络结构和参数的表现会因为这种替代策略。设计

3.3 Divide-and-Encode Module

Divide-and-Encode(DAE)经过Shared Sub-Network获得每张图片的特征向量后,将这个向量切片成r个部分,每一个部分再经过全链接层链接到一个节点,最后经过sigmoid函数转化为[0, 1]以内的值。经过上述步骤,即可以获得一张图片r比特的哈希编码。在这个过程当中,由于每一个哈希编码是由特征向量的子部分获得的,哈希编码之间的冗余性少,有利于图像的检索。3d

这个部分另外一种策略简称为FC,将整个特征向量经过全链接层直接链接到r个节点,再借由sigmoid函数获得图片的哈希编码。显然这种策略下,每一位哈希编码都利用到了整个特征向量的信息,容易形成冗余。论文的实验也证实了DAE的表现会因为FC。

相关文章
相关标签/搜索