OCRNet: 目标区域上下文信息的特征表达

点击上方“视学算法”，选择“星标”git

干货第一时间送达算法

论文下载： http://xxx.itp.ac.cn/pdf/1909.11065.pdf

代码下载： https://git.io/openseg and https://git.io/HRNet.OCR

简介：

本文研究语义分割中的上下文聚合问题。基于像素的标签是像素所属对象的类别，本文提出了一种简单而有效的方法，即对象上下文表示，经过利用相应对象类的表示来表征像素。首先，在地面真值分割的监督下学习目标区域。其次，经过汇集对象区域中像素的表示来计算对象区域的表示。最后，计算每一个像素和每一个目标区域之间的关系，并用对象上下文表示来加强每一个像素的表示，这是全部对象区域表示的加权聚合。实验代表，提出的方法在不一样的基准点上取得了具备竞争力的表现。HRNet + OCR + SegFix版本在2020ECCV Cityscapes 得到了第一名。

本文主要贡献：

举例说明,（a）为以ASPP为例的多尺度上下文以及（b）为标记像素的OCR上下文。ASPP: 上下文是一组稀疏采样的像素，标记为黄色和蓝色框。不一样颜色的像素对应不一样的膨胀率。这些像素同时分布在目标区域和背景区域。OCR: 上下文是位于对象中的一组像素(用蓝色区域标记)。

方法：

语义分割是将图片中的像素按照标签分类。

背景：

1.多尺度上下文：

ASPP模块是用来捕捉多尺度上下文信息，经过若干个平行的带孔卷积：

输出的多尺度上下文表示是由并行扩展卷积的表示输出的级联。基于扩展卷积的多尺度上下文方案在不丢失分辨率的状况下捕获多尺度上下文。

2.关系上下文：

经过计算每一个像素的上下文考虑关系信息：

主题框架有两种，一是采用ResNet-101(输出步幅为8)，二是HRNet-W48(输出步幅为4)，前者的stage-3用来预测初略的分割图，将stage-4通过一个3x3卷积输出通道为512，而后输入到OCR模块中。对于HRNet则直接将最后的输出输入到OCR模块中。

在OCR模块中使用一个线性单元1x1的卷积层，经过像素智能的交叉熵损失监督生成软目标区域。

目标区域监控和像素区域关系估计，从上表能够看出，目标区域监控和像素-区域关系方案对性能都很重要。

表中的比较代表，该方法具备优越的性能。缘由是利用了像素表示和区域表示来计算关系。区域表示法可以对特定图像中的目标进行特征描述，所以对于特定图像的关系比单纯使用像素表示法更为精确。

在语义分割上的实验：

与多尺度上下文方案的比较

咱们能够发现OCR的性能一直优于它；在公平比较下，PPM和ASPP跨越不一样的基准。

与关系上下文模式的比较：

该方法在不一样的基准测试中始终表现得更好。值得注意的是，Double Attention对区域数字选择很敏感，将这个超参数调整为64，它的结果表现最佳。

模型复杂度比较：

使用大小为[1*2048*128*128]的输入feature map 在推理过程当中评估其复杂性。这些数字是在一个P40 GPU与CUDA 10.0。全部的数字都越小越好，从上表能够看出 OCR须要最少的GPU内存和最少的运行时间。

在Ctiyscapes数据集上和先进的算法比较：

在全景分割上的实验：

COCO val 2017全景分割结果：

可视化分割结果：

总结：

在本文中，提出了一种对象上下文表示方法来进行语义分割。成功的主要缘由是像素的标签是像素所在对象的标签，经过对每一个像素进行相应的对象区域表示来加强像素表示。实验结果代表，该方法在各类基准上带来了一致性的改进。

本文仅作学术分享，若有侵权，请联系删文。

以为有用，麻烦给个赞和在看~

本文分享自微信公众号 - 视学算法（visualAlgorithm）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。微信

OCRNet: 目标区域上下文信息的特征表达 | ECCV 2020

以为有用，麻烦给个赞和在看~