【语义分割】Dual Attention Network for Scene Segmentation

时间 2019-11-10

标签语义分割 dual attention network scene segmentation 栏目系统网络繁體版

原文原文链接

Dual Attention Network for Scene Segmentation

原始文档 https://www.yuque.com/lart/papers/onk4snpython

在本文中，咱们经过 基于自我约束机制捕获丰富的上下文依赖关系来解决场景分割任务。
与以前经过多尺度特征融合捕获上下文的工做不一样，咱们提出了一种双重注意网络（DANet）来自适应地集成局部特征及其全局依赖性。
具体来讲，咱们在传统的扩张FCN之上附加两种类型的注意力模块，它们分别对空间和通道维度中的语义相互依赖性进行建模。git

位置力关注模块经过全部位置处的特征的加权和来选择性地聚合每一个位置处的特征。不管距离如何，类似的特征都将彼此相关。
同时，通道注意力模块经过整合全部通道映射中的相关特征来选择性地强调相互依赖的信道映射。

咱们将两个注意模块的输出相加以进一步改进特征表示，这有助于更精确的分割结果。github

本文工做

为了解决上述问题，在本文中，咱们提出了一种新的框架，称为双注意网络（DANet），用于天然场景图像分割，如图所示。它引入了一种自注意力机制来分别捕捉空间和通道尺寸中的视觉特征依赖性。学习

具体来讲，咱们在传统的_扩张FCN_之上添加了两个并行的注意模块。一个是位置注意力模块(position attention module)，另外一个是通道注意模块(channel attention module)。测试

对于位置注意模块，咱们引入自注意力制来捕获特征图的任意两个位置之间的空间依赖性。对于特定位置的特征，经过加权累积的全部位置的特征来聚合更新特征 权重由相应两个位置之间的特征类似性决定**。也就是说，任何具备类似特征的两个位置均可以贡献出改进，不管它们在空间维度上的距离如何。
对于通道注意力模块，咱们使用类似的自注意力机制来捕获任意两个通道映射之间的通道依赖关系，并 使用全部通道映射的加权和来更新每一个通道映射。

最后，这两个注意模块的输出被融合以进一步加强特征表示。编码

值得注意的是，在处理复杂多样的场景时，咱们的方法比之前的方法[Rethinking atrous convolution for semantic image segmentation, PSPNet]更有效，更灵活。走图中的街景。以图1为例。

首先，第一行中的一些“人”和“交通讯号灯”由于光照和视角, 是不显眼或不完整的物体。
若是探索简单的上下文嵌入，来自主导的显着对象（例如汽车，建筑物）的上下文将损害那些不显眼的对象标记。
相比之下，咱们的注意模型选择性地聚合不显眼对象的类似特征，以突出其特征表示，并避免显着对象的影响。
其次，“汽车”和“人”的尺度是多样的，而且识别这种不一样的对象须要不一样尺度的背景信息。也就是说，应该平等对待不一样尺度的特征以表示相同的语义。
咱们的注意机制模型只是旨在从全局视角自适应地集成任何尺度的类似特征，这能够解决上述问题的程度。
第三，咱们明确地考虑空间关系和通道关系，以便场景理解能够受益于远程依赖。

咱们的主要贡献可概括以下：

咱们提出了一种具备自注意力机制的新型双重注意网络（DANet），以加强场景分割的特征表示的判别能力。
提出了一种位置注意力模块来学习特征的空间相互依赖性，并设计了一个通道注意力模块来模拟通道相互依赖性。它经过在本地特征上建模丰富的上下文依赖性来显着改善分割结果。
咱们在三个流行基准测试中得到了新的最新结果，包括Cityscapes数据集，PASCAL Context数据集和COCO Stuff数据集。

双注意力网络

We employ a pretrained residual network with the dilated strategy as the backbone.
Note that we** remove the downsampling operations and employ dilation convolutions in the last two ResNet blocks**, thus enlarging the size of the final feature map size to 1/8 of the input image. This retains more details without adding extra parameters.
Then the features from the dilated residual network would be fed into two parallel attention modules.

Dilated ResNet
A convolution layer: obtain the feature of dimension reduction => CxHxW
Position attention module: generate new features of spatial long-range contextual information:
The first step is to generate a spatial attention matrix which models the spatial relationship between any two pixels of the features.
Next, we perform a matrix multiplication between the attention matrix and the original features.
Third, we perform an element-wise sum operation on the above multiplied resulting matrix and original features to obtain the final representations reflecting long-range contexts.
Channel attention module: Meanwhile, channel long-range contextual information are captured by a channel attention module.

除了第一步以外，捕获通道关系的过程相似于位置注意力模块，其中在通道维度中计算通道注意力矩阵。最后，咱们汇总了两个注意模块的输出特征，以得到更好的像素级预测特征表示。

Position Attention Module

对于场景理解, 判别特征表示是必不可少的，能够经过捕获远程上下文信息来得到。然而，许多做品代表传统FCN产生的局部特征表示可能致使objects和stuff的错误分类。
为了在局部特征表示之上建模丰富的上下文关系，咱们引入了一个位置注意力模块。位置注意力模块将更普遍的上下文信息编码到局部特征中，从而加强其表示能力。

如图:

A为CxHxW => Conv+BN+ReLU => B, C 都为CxHxW
Reshape B, C to CxN (N=HxW)
Transpose B to B'
Softmax(Matmul(B', C)) => spatial attention map S为NxN(HWxHW)
1. 如上式1, 其中sji测量了第i个位置在第j位置上的影响
1. 也就是第i个位置和第j个位置之间的关联程度/相关性, 越大越类似.
A => Covn+BN+ReLU => D 为CxHxW => reshape to CxN
Matmul(D, S') => CxHxW, 这里设置为DS
Element-wise sum(scale parameter alpha * DS, A) => the final output E 为 CxHxW (式2)
alpha is initialized as 0 and gradually learn to assign more weight.

这样一来, 每一个算出来的特征E的每一个位置都是来自全部位置的特征和原始特征的加权和. 所以能够得到一个全局的上下文信息, 而且能够根据空间注意力图来有选择的集成上下文信息. 类似的特征会互相得到增益, 所以能够提高类间对比度和语义一致性.

利用矩阵乘法来实现对于全局上下文信息的利用与融合, 实际上和全链接是同样的. 全链接确实能够更为全面的利用全部位置的信息, 可是会破坏空间结构, 这也是相互矛盾的, 因此, 不能彻底的利用全链接. 还得想办法保留更多的空间结构信息. 这里使用这个全链接的结果用在原始数据信息上, 互相利用, 互相促进.

Channel Attention Module

高级特征的每一个通道映射能够被从新看做特定于类的响应，而且不一样的语义响应彼此相关联。经过利用通道映射之间的相互依赖关系，咱们能够强调相互依赖的特征映射，并改进特定语义的特征表示。所以，咱们创建了一个通道注意力模块, 以显式的建模通道之间的相互依赖性。

结构以下:

A(CxHxW) => 直接计算获得通道注意力图X(CxC)
Reshape(A) to CxN(N=HxW)
Softmax(Matmul(A, A')(大小为CxC)) => channel attention map X(CxC), 这里使用公式3
1. xji测量在第j个通道上, 第i个通道的影响.(由于对于xji实际上就是使用A的j行和A'的i列(或者说是A的i行)的矢量乘积(坐标对应乘积之和))
Matmul(X', A) => reshape to CxHxW
Element-wise sum(scale parameter beta * X, A)
beta从0开始逐渐学习.

公式4显示 每一个通道的最终特征是全部通道和原始特征的特征的加权数据，其建模特征映射之间的远程语义依赖性。它 强调依赖于类的特征映射并有助于提升特征可辨性。

咱们在计算两个通道的关系以前，咱们不使用卷积层来嵌入特征，由于能够维持不一样通道映射之间的关系。此外，与最近经过全局池化或者编码层探索通道关系的工做[26]不一样，咱们利用全部相应位置的空间信息来建通道相关性。

Attention Module Embedding with Networks

为了充分利用远程上下文信息的优点, 咱们集成来自两个注意力模块的特征. 特别地, 咱们经过一个卷积层和元素级加法来聚合两个注意力模块的输出, 以实现特征融合.

在最后紧跟着一个用来生成最终预测图的卷积层. 咱们不采用级联操做, 由于它须要更多的 GPU 内存.

注意到咱们的注意力模块很简单, 能够直接插入现有的 FCN流程中。它们不会增长太多的参数, 却又能有效地加强特征表示。

双注意力模块参考代码

# https://github.com/junfu1115/DANet/blob/master/encoding/nn/attention.py

###########################################################################
# Created by: CASIA IVA
# Email: jliu@nlpr.ia.ac.cn
# Copyright (c) 2018
###########################################################################

import numpy as np
import torch
import math
from torch.nn import (Module, Sequential, Conv2d, ReLU, AdaptiveMaxPool2d,
                      AdaptiveAvgPool2d, NLLLoss, BCELoss, CrossEntropyLoss,
                      AvgPool2d, MaxPool2d, Parameter, Linear, Sigmoid, Softmax,
                      Dropout, Embedding)
from torch.nn import functional as F
from torch.autograd import Variable


class PAM_Module(Module):
    """ Position attention module"""

    # Ref from SAGAN
    def __init__(self, in_dim):
        super(PAM_Module, self).__init__()
        self.query_conv = Conv2d(in_channels=in_dim,
                                 out_channels=in_dim // 8,
                                 kernel_size=1)
        self.key_conv = Conv2d(in_channels=in_dim,
                               out_channels=in_dim // 8,
                               kernel_size=1)
        self.value_conv = Conv2d(in_channels=in_dim,
                                 out_channels=in_dim,
                                 kernel_size=1)
        self.gamma = Parameter(torch.zeros(1))

        self.softmax = Softmax(dim=-1)

    def forward(self, x):
        """
        inputs :
            x : input feature maps( N X C X H X W)
        returns :
            out : attention value + input feature
            attention: N X (HxW) X (HxW)
        """
        m_batchsize, C, height, width = x.size()

        # B => N, C, HW
        proj_query = self.query_conv(x).view(m_batchsize, -1, width * height)
        # B' => N, HW, C
        proj_query = proj_query.permute(0, 2, 1)

        # C => N, C, HW
        proj_key = self.key_conv(x).view(m_batchsize, -1, width * height)

        # B'xC => N, HW, HW
        energy = torch.bmm(proj_query, proj_key)
        # S = softmax(B'xC) => N, HW, HW
        attention = self.softmax(energy)

        # D => N, C, HW
        proj_value = self.value_conv(x).view(m_batchsize, -1, width * height)

        # DxS' => N, C, HW
        out = torch.bmm(proj_value, attention.permute(0, 2, 1))
        # N, C, H, W
        out = out.view(m_batchsize, C, height, width)

        out = self.gamma * out + x
        return out


class CAM_Module(Module):
    """ Channel attention module"""

    def __init__(self):
        super(CAM_Module, self).__init__()

        self.gamma = Parameter(torch.zeros(1))
        self.softmax = Softmax(dim=-1)

    def forward(self, x):
        """
        inputs :
            x : input feature maps( N X C X H X W)
        returns :
            out : attention value + input feature
            attention: N X C X C
        """
        m_batchsize, C, height, width = x.size()
        proj_query = x.view(m_batchsize, C, -1)
        proj_key = x.view(m_batchsize, C, -1).permute(0, 2, 1)
        # N, C, C, bmm 批次矩阵乘法
        energy = torch.bmm(proj_query, proj_key)

        # 这里实现了softmax用最后一维的最大值减去了原始数据, 得到了一个不是太大的值
        # 沿着最后一维的C选择最大值, keepdim保证输出和输入形状一致, 除了指定的dim维度大小为1
        energy_new = torch.max(energy, -1, keepdim=True)
        energy_new = energy_new[0].expand_as(energy)  # 复制的形式扩展到energy的尺寸
        energy_new = energy_new - energy
        attention = self.softmax(energy_new)

        proj_value = x.view(m_batchsize, C, -1)

        out = torch.bmm(attention, proj_value)
        out = out.view(m_batchsize, C, height, width)

        out = self.gamma * out + x
        return out


if __name__ == '__main__':
    module = CAM_Module()
    in_data = torch.randint(0, 255, (2, 3, 7, 7), dtype=torch.float32)
    print(module(in_data).size())

实验细节

employ a poly learning rate policy **(lr*(1-iter/total_iter)^0,9)**
momentum 0.9
weight decay 0.0001
Synchronized BN
batchsize 8(cityscapes) or 16(other datasets)
When adopting multi-scale augmentation, we set training time to 180 epochs for COCO Stuff and 240 epochs for other datasets
Following [Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs], we also adopt auxiliary supervision on the top of two attention modules.
For data augmentation, we apply random cropping (crop-size 768) and random left-right flipping during training in the ablation study for Cityscapes datasets.

Ablation Study for Attention Modules

位置注意力模块的效果在图4中可视化, 一些细节和对象边界在使用位置注意力模块时更加清晰, 例如第一行中的 "杆子" 和第三行的 "人行道"。对局部特征的选择性融合加强了对细节的区分。

同时, 图5证实, 利用咱们的信道注意模块, 一些错误分类的类别如今被正确地分类, 如第一行和第三行中的 "公交车"。通道映射之间的选择性集成有助于捕获上下文信息。语义一致性获得了明显的改善。

Ablation Study for Improvement Strategies

Following [Rethinking atrous convolution for semantic image segmentation], we adopt the same strategies to improve peformance further.

DA: Data augmentation with random scaling.
Multi-Grid: we apply employ a hierarchy of grids of different sizes (4,8,16) in the last ResNet block.
MS: We average the segmentation probability maps from 8 image scales {0.5 0.75 1 1.25 1.5 1.75 2 2.2} for inference.

Visualization of Attention Module

Comparing with State-of-the-art

其余数据集的测试

另外的一些想法

这里的双注意力模块如何更好的集成到现有的FCN结构上, 必定要放在最后预测以前么?
这里的实验中, 没有和如今最强的DeepLabV3+进行比较, 这一点有点惋惜. 感受仍是超不过DeepLabV3+.