Paper Read: Robust Deep Multi-modal Learning Based on Gated Information Fusion Network

 Robust Deep Multi-modal Learning Based on Gated Information Fusion Network 网络

2018-07-27 14:25:26

app

Paperhttps://arxiv.org/pdf/1807.06233.pdf 
ide

Related Papers:  函数

1. Infrared and visible image fusion methods and applications: A survey   Paper 
ui

2. Chenglong Li, Xiao Wang, Lei Zhang, Jin Tang, Hejun Wu, and Liang Lin. WELD: Weighted Low-rank Decomposition  or Robust Grayscale-Thermal Foreground Detection. IEEE Transactions on Circuits and Systems for Video Technology (T-CSVT), 27(4): 725-738, 2017. [Project page with Dataset and Code]google

3. Chenglong Li, Xinyan Liang, Yijuan Lu, Nan Zhao, and Jin Tang. RGB-T Object Tracking: Benchmark and Baseline.[arXiv] [Dataset: Google drive, Baidu cloud] [Project pagespa

 

 

本文针对多模态融合问题(Multi-modal),提出一种基于 gate 机制的融合策略,可以自适应的进行多模态信息的融合。做者将该方法用到了物体检测上,其大体流程图以下所示:3d

 

 如上图所示,做者分别用两路 Network 来提取两个模态的特征。该网络是由标准的 VGG-16 和 8 extra convolutional layers 构成。另外,做者提出新的 GIF(Gated Information Fusion Network) 网络进行多个模态之间信息的融合,以取得更好的结果。动机固然就是多个模态的信息,是互补的,可是有的信息帮助会更大,有的可能就质量比较差,功效比较小,因而就能够自适应的来融合,达到更好的效果。orm

 

Gated Information Fusion Network (GIF): blog

如上图所示:

该 GIF 网络的输入是:已经提取的 CNN feature map,这里是 F1, F2. 而后,将这两个 feature 进行 concatenate,获得 $F_G$. 该网络包含两个部分:

1. information fusion network(图2,虚线框意外的部分);

2. weight generation network (WG Network,即:图2,虚线处);

Weight Generation Network 分别用两个 3*3*1 的卷积核对组合后的 feature map $F_G$ 进行操做,而后输入到 sigmoid 函数中,即:gate layer,而后输出对应的权重 $w_1$,$w_2$。

Information fusion network 分别用获得的两个权重,点乘原始的 feature map,获得加权之后的特征图,将二者进行 concatenate 后,用 1*1*2k 的卷积核,获得最终的 feature map。

总结整个过程,能够概括为:

 

== Done ! 

相关文章
相关标签/搜索