【哈工大版】Dynamic ReLU：自适应参数化ReLU基本原理

时间 2020-05-26

原文原文链接

自适应参数化ReLU是一种动态激活函数，对全部输入不是“一视同仁”，在2019年5月3日投稿至IEEE Transactions on Industrial Electronics，2020年1月24日录用， 2020年2月13日在IEEE官网公布。

本文在综述传统激活函数和注意力机制的基础上，解读了一种注意力机制下的动态激活函数，即自适应参数化修正线性单元（Adaptively Parametric Rectifier Linear Unit，APReLU），但愿对你们有所帮助。算法

1. 传统激活函数是静态的

激活函数是现代人工神经网络的重要组成部分，其做用是实现人工神经网络的非线性化。咱们首先来介绍几种最多见的激活函数，即Sigmoid激活函数、Tanh激活函数和ReLU激活函数，分别以下图所示:
网络

Sigmoid激活函数和Tanh激活函数的梯度取值范围分别是(0,1)和(-1,1)。当层数较多时，人工神经网络可能会遭遇梯度消失的问题。ReLU激活函数的梯度要么是零，要么是一，可以很好地避免梯度消失和梯度爆炸的问题，所以在近年来获得了普遍的应用。函数

然而，ReLU激活函数依然存在一点瑕疵。若是在人工神经网络的训练过程当中，遇到了特征所有小于零的状况，那么ReLU激活函数的输出就所有为零。这个时候就训练失败了。为了不这种状况，有些学者就提出了leaky ReLU激活函数，不将小于零的特征置为零，而是将小于零的特征乘以一个很小的系数，例如0.1和0.01。学习

在leaky ReLU中，这个系数的取值是人工设置的。可是人工设置的系数未必是最佳的，所以何恺明等人提出了Parametric ReLU激活函数（参数化ReLU激活函数，PReLU激活函数），将这个系数设置为一个能够训练获得的参数，在人工神经网络的训练过程当中和其余参数一块儿采用梯度降低法进行训练。然而，PReLU激活函数有一个特色：一旦训练过程完成，则PReLU激活函数中的这个系数就变成了固定的值。换言之，对于全部的测试样本，PReLU激活函数中这个系数的取值是相同的。
测试

到这里咱们就大概介绍了几种经常使用的激活函数。这些激活函数有什么问题呢？咱们能够思考一下，若是一我的工神经网络采用上述的某种激活函数，抑或是上述多种激活函数的组合，那么这我的工神经网络在训练完成以后，在被应用于测试样本时，对所有测试样本所采用的非线性变换是相同的，也就是静态的。也就是说，全部的测试样本，都会经历相同的非线性变换。这实际上是一种比较呆板的方式。spa

以下图所示，咱们若是以左边的散点图表示原始特征空间，以右边的散点图表示人工神经网络所学习获得的高层特征空间，以散点图中的小圆点和小方块表明两种不一样类别的样本，以F、G和H表示非线性函数。那么这些样本是经过相同的非线性函数实现原始特征空间到高层特征空间的变换的。也就是说，图片中的“=”意味着，对于这些样本，它们所经历的非线性变换是彻底相同的。
3d

那么，咱们能不能根据每一个样本的特色，单独为每一个样本设置激活函数的参数、使每一个样本经历不一样的动态非线性变换呢？本文后续所要介绍的APReLU激活函数，就作到了这一点。blog

2. 注意力机制

本文所要介绍的APReLU激活函数借鉴了经典的Squeeze-and-Excitation Network（SENet），而SENet是一种很是经典的、注意力机制下的深度学习方法。SENet的基本原理以下图所示：
图片

这里介绍一下SENet所蕴含的思想。对于许多样本而言，其特征图中的各个特征通道的重要程度极可能是不一样的。例如，样本A的特征通道1很是重要，特征通道2不重要；样本B的特征通道1不重要，特征通道2很重要；那么在这个时候，对于样本A，咱们就应该把注意力集中在特征通道1（即赋予特征通道1更高的权重）；反过来，对于样本B，咱们应该把注意力集中在特征通道2（即赋予特征通道2更高的权重）。ci

为了实现这个目的，SENet经过一个小型的全链接网络，学习获得了一组权重系数，对原先特征图的各个通道进行加权。经过这种方式，每一个样本（包括训练样本和测试样本）都有着本身独特的一组权重，用于自身各个特征通道的加权。这实际上是一种注意力机制，即注意到重要的特征通道，进而赋予其较高的权重。

3. 自适应参数化修正线性单元（APReLU）激活函数

APReLU激活函数，在本质上，就是SENet和PReLU激活函数的集成。在SENet中，小型全链接网络所学习获得的权重，是用于各个特征通道的加权。APReLU激活函数也经过一个小型的全链接网络得到了权重，进而将这组权重做为PReLU激活函数里的系数，即负数部分的权重。APReLU激活函数的基本原理以下图所示。

咱们能够看到，在APReLU激活函数中，其非线性变换的函数形式是和PReLU激活函数如出一辙的。惟一的差异在于，APReLU激活函数里对负数特征的权重系数，是经过一个小型全链接网络学习获得的。当人工神经网络采用APReLU激活函数时，每一个样本均可以有本身独特的权重系数，即独特的非线性变换（以下图所示）。同时，APReLU激活函数的输入特征图和输出特征图有着相同的尺寸，这意味着APReLU能够被轻易地嵌入到现有的深度学习算法之中。

综上所述，APReLU激活函数使每一个样本均可以有本身独特的一组非线性变换，提供了一种更灵活的动态非线性变换方式，具备提升模式识别准确率的潜力。

参考文献：
Zhao M, Zhong S, Fu X, et al. Deep residual networks with adaptively parametric rectifier linear units for fault diagnosis[J]. IEEE Transactions on Industrial Electronics, 2020, DOI: 10.1109/TIE.2020.2972458, Date of Publication: 13 February 2020