CVPR 2019|PoolNet:基于池化技术的显著性检测论文解读

时间 2019-11-14

标签 cvpr poolnet 基于技术显著检测论文解读繁體版

原文原文链接

做者 | 文永亮
研究方向 | 目标检测、GANgit

研究动机

这是一篇发表于CVPR2019的关于显著性目标检测的paper，在U型结构的特征网络中，高层富含语义特征捕获的位置信息在自底向上的传播过程当中可能会逐渐被稀释，另外卷积神经网络的感觉野大小与深度是不成正比的，目前不少流行方法都是引入Attention（注意力机制），可是本文是基于U型结构的特征网络研究池化对显著性检测的改进，具体步骤是引入了两个模块GGM(Global Guidance Module，全局引导模块)和FAM(Feature Aggregation Module，特征整合模块)，进而锐化显著物体细节，而且检测速度可以达到30FPS。由于这两个模块都是基于池化作的改进因此做者称其为PoolNet，而且放出了源码：https://github.com/backseason/PoolNetgithub

模型架构

两个模块：

GGM(Global Guidance Module，全局引导模块)
咱们知道高层语义特征对挖掘显著对象的详细位置是颇有帮助的，可是中低层的语义特征也能够提供必要的细节。由于在top-down的过程当中，高层语义信息被稀释，并且实际上的感觉野也是小于理论感觉野，因此对于全局信息的捕捉十分的缺少，致使显著物体被背景吞噬，因此提出了GGM模块，GGM实际上是PPM（Pyramid Pooling module，金字塔池化模块）的改进而且加上了一系列的GGFs（Global Guiding Flows，全局引导流），这样作的好处是，在特征图上的每层都能关注到显著物体，另外不一样的是，GGM是一个独立的模块，而PPM是在U型架构中，在基础网络（backbone）中参与引导全局信息的过程。网络

其实这部分论文说得并非很清晰，没有说GGM的详细结构，咱们能够知道PPM[7]的结构以下：
架构

该PPM模块融合了4种不一样金字塔尺度的特征，第一行红色是最粗糙的特征–全局池化生成单个bin输出，后面三行是不一样尺度的池化特征。为了保证全局特征的权重，若是金字塔共有N个级别，则在每一个级别后使用1×1的卷积将对于级别通道降为本来的1/N。再经过双线性插值得到未池化前的大小，最终concat到一块儿。

若是明白了这个的话，其实GGM就是在PPM的结构上的改进，PPM是对每一个特征图都进行了金字塔池化，因此做者说是嵌入在U型结构中的，可是他加入了global guiding flows（GGFs），即Fig1中绿色箭头，引入了对每级特征的不一样程度的上采样映射（文中称之为identity mapping），因此能够是个独立的模块。app
简单地说，做者想要FPN在top-down的路径上不被稀释语义特征，因此在每次横向链接的时候都加入高层的语义信息，这样作也是一个十分直接主观的想法啊。
FAM(Feature Aggregation Module，特征整合模块)
特征整合模块也是使用了池化技巧的模块，以下图，先把GGM获得的高层语义与该级特征分别上采样以后横向链接一番获得FAM的输入b，以后采起的操做是先把b用{2,4,8}的三种下采样获得蓝绿红特征图而后avg pool（平均池化）再上采样回原来尺寸，最后蓝绿红紫（紫色是FAM的输入b）四个分支像素相加获得整合后的特征图。
ide

FAM有如下两个优势：
- 帮助模型下降上采样（upsample）致使的混叠效应（aliasing）
- 从不一样的多角度的尺度上纵观显著物体的空间位置，放大整个网络的感觉野
第二点很容易理解，从不一样角度看，不一样的放缩尺度看待特征，可以放大网络的感觉野。对于第一点下降混叠效应的理解，用明珊师姐说的话，混叠效应就至关于引入杂质，GGFs从基础网络最后获得的特征图通过金字塔池化以后须要最高是8倍上采样才能与前面的特征图融合，这样高倍数的采样确实容易引入杂质，做者就是由于这样才会提出FAM，进行特征整合，先把特征用不一样倍数的下采样，池化以后，再用不一样倍数的上采样，最后叠加在一块儿。由于单个高倍数上采样容易致使失真，因此补救措施就是高倍数上采样以后，再下采样，再池化上采样平均下来能够弥补错误。
ui

上图就是为了说明FAM的优势的，通过高倍上采样以后的图像（b）和（d）容易引入许多杂质，导致边缘不清晰，可是通过FAM模块以后的特征图就能下降混叠效应。

实验结果

论文在经常使用的6种数据集上作了实验，有ECSSD [8], PASCALS[9], DUT-OMRON [10], HKU-IS [11], SOD [12] and DUTS [13], 使用二值交叉熵作显著性检测，平衡二值交叉熵（balanced binary cross entropy）[14]做为边缘检测（edge detection）。orm

如下是文章方法跟目前state-of-the-arts的方法的对比效果，绿框是GT，红框是本文效果。能够看到不管在速度仍是精度上都有很大的优点。
对象

论文还针对三个改进的技术PPM、GGFs和FAMs的不一样组合作了实验， (a)是原图，(b)是Ground truth，(c)是FPN的结果，(d)是FPN+FAMs，(e)是FPN+PPM，（f）是FPN+GGM（g）FPN+GGM+FAMs。

总结

该paper提出了两种基于池化技术的模块GGM（全局引导模块）和FAM（特征整合模块），改进FPN在显著性检测的应用，并且这两个模块也能应用在其余金字塔模型中，具备广泛性，可是FAM的整合过程我认为有点像是用平均中和了上采样带来的混叠效应，可是不够优雅，先下采样池化再上采样带来的损失可能代价太大。blog

参考文献

[1]. Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In CVPR, 2017. 1, 3 [2]. Tiantian Wang, Ali Borji, Lihe Zhang, Pingping Zhang, and Huchuan Lu. A stagewise refinement model for detecting salient objects in images. In ICCV, pages 4019–4028, 2017. 1, 3, 6, 7, 8 [3].Nian Liu and Junwei Han. Dhsnet: Deep hierarchical saliency network for salient object detection. In CVPR, 2016.1, 2, 3, 7, 8 [4]. Qibin Hou, Ming-Ming Cheng, Xiaowei Hu, Ali Borji, Zhuowen Tu, and Philip Torr. Deeply supervised salient object detection with short connections. IEEE TPAMI, 41(4):815–828, 2019. 1, 2, 3, 5, 6, 7, 8 [5]. Tiantian Wang, Ali Borji, Lihe Zhang, Pingping Zhang, and Huchuan Lu. A stagewise refinement model for detecting salient objects in images. In ICCV, pages 4019–4028, 2017. 1, 3, 6, 7, 8 [6]. Tiantian Wang, Lihe Zhang, Shuo Wang, Huchuan Lu, Gang Yang, Xiang Ruan, and Ali Borji. Detect globally, refine locally: A novel approach to saliency detection. In CVPR, pages 3127–3135, 2018. 1, 3, 6, 7, 8 [7]. Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In CVPR, 2017. 1, 3 [8]. Qiong Yan, Li Xu, Jianping Shi, and Jiaya Jia. Hierarchical saliency detection. In CVPR, pages 1155–1162, 2013. 1, 5, 8 [9]. Yin Li, Xiaodi Hou, Christof Koch, James M Rehg, and Alan L Yuille. The secrets of salient object segmentation. In CVPR, pages 280–287, 2014. 5, 7, 8 [10]. Chuan Yang, Lihe Zhang, Huchuan Lu, Xiang Ruan, and Ming-Hsuan Yang. Saliency detection via graph-based manifold ranking. In CVPR, pages 3166–3173, 2013. 5, 6, 7, 8 [11]. Guanbin Li and Yizhou Yu. Visual saliency based on multiscale deep features. In CVPR, pages 5455–5463, 2015. 2, 5, 6, 7, 8 [12]. Vida Movahedi and James H Elder. Design and perceptual validation of performance measures for salient object segmentation. In CVPR, pages 49–56, 2010. 5, 6, 7, 8 [13]. Lijun Wang, Huchuan Lu, Yifan Wang, Mengyang Feng, Dong Wang, Baocai Yin, and Xiang Ruan. Learning to detect salient objects with image-level supervision. In CVPR, pages 136–145, 2017. 5, 7, 8 [14]. Saining Xie and Zhuowen Tu. Holistically-nested edge detection. In ICCV, pages 1395–1403, 2015. 6