权重衰减（weight decay）与学习率衰减（learning rate decay）

时间 2019-11-20

标签权重衰减 weight decay 学习 learning rate 繁體版

原文原文链接

文章来自Microstrong的知乎专栏，仅作搬运。原文连接html

1. 权重衰减（weight decay）

L2正则化的目的就是为了让权重衰减到更小的值，在必定程度上减小模型过拟合的问题，因此权重衰减也叫L2正则化。算法

1.1 L2正则化与权重衰减系数网络

L2正则化就是在代价函数后面再加上一个正则化项：函数

$C=C_{0}+\frac{\lambda}{2n}\sum_{w}^{}{w^2}$

其中 $C_{0}$ 表明原始的代价函数，后面那一项就是L2正则化项，它是这样来的：全部参数w的平方的和，除以训练集的样本大小n。λ就是正则项系数，权衡正则项与 $C_{0}$ 项的比重。另外还有一个系数 $\frac{1}{2}$ ， $\frac{1}{2}$ 常常会看到，主要是为了后面求导的结果方便，后面那一项求导会产生一个2，与 $\frac{1}{2}$ 相乘恰好凑整为1。系数 $\lambda$ 就是权重衰减系数。学习

1.2 为何能够对权重进行衰减优化

咱们对加入L2正则化后的代价函数进行推导，先求导：.net

能够发现L2正则化项对b的更新没有影响，可是对于w的更新有影响：3d

在不使用L2正则化时，求导结果中w前系数为1，如今w前面系数为 $1-\frac{\eta\lambda}{n}$ ，由于η、λ、n都是正的，因此 $1-\frac{\eta\lambda}{n}$ 小于1，它的效果是减少w，这也就是权重衰减（weight decay）的由来。固然考虑到后面的导数项，w最终的值可能增大也可能减少。orm

另外，须要提一下，对于基于mini-batch的随机梯度降低，w和b更新的公式跟上面给出的有点不一样：htm

对比上面w的更新公式，能够发现后面那一项变了，变成全部导数加和，乘以η再除以m，m是一个mini-batch中样本的个数。

1.3 权重衰减（L2正则化）的做用

做用：权重衰减（L2正则化）能够避免模型过拟合问题。

思考：L2正则化项有让w变小的效果，可是为何w变小能够防止过拟合呢？

原理：（1）从模型的复杂度上解释：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合更好（这个法则也叫作奥卡姆剃刀），而在实际应用中，也验证了这一点，L2正则化的效果每每好于未经正则化的效果。（2）从数学方面的解释：过拟合的时候，拟合函数的系数每每很是大，为何？以下图所示，过拟合，就是拟合函数须要顾忌每个点，最终造成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）很是大，因为自变量值可大可小，因此只有系数足够大，才能保证导数值很大。而正则化是经过约束参数的范数使其不要太大，因此能够在必定程度上减小过拟合状况。

内容来自：正则化方法：L1和L2 regularization、数据集扩增、dropout

2. 学习率衰减（learning rate decay）

在训练模型的时候，一般会遇到这种状况：咱们平衡模型的训练速度和损失（loss）后选择了相对合适的学习率（learning rate），可是训练集的损失降低到必定的程度后就不在降低了，好比training loss一直在0.7和0.9之间来回震荡，不能进一步降低。以下图所示：

遇到这种状况一般能够经过适当下降学习率（learning rate）来实现。可是，下降学习率又会延长训练所需的时间。

学习率衰减（learning rate decay）就是一种能够平衡这二者之间矛盾的解决方案。学习率衰减的基本思想是：学习率随着训练的进行逐渐衰减。

学习率衰减基本有两种实现方法：

线性衰减。例如：每过5个epochs学习率减半。
指数衰减。例如：随着迭代轮数的增长学习率自动发生衰减，每过5个epochs将学习率乘以0.9998。具体算法以下：

decayed_learning_rate=learning_rate*decay_rate^(global_step/decay_steps)

其中decayed_learning_rate为每一轮优化时使用的学习率，learning_rate为事先设定的初始学习率，decay_rate为衰减系数，decay_steps为衰减速度。

Reference：

（1）学习率衰减部份内容和图片来自：学习率衰减（learning rate decay）

（2）神经网络学习率（learning rate）的衰减