DeepLearning.ai学习笔记（二）改善深层神经网络：超参数调试、正则化以及优化--Week2优化算法

时间 2019-11-11

标签 deeplearning.ai deeplearning 学习笔记改善深层神经网络参数调试正则以及优化 week2 week 算法栏目正则表达式繁體版

原文原文链接

转载自https://www.cnblogs.com/marsggbo/p/7577362.html

1. Mini-batch梯度降低法

介绍

假设咱们的数据量很是多，达到了500万以上，那么此时若是按照传统的梯度降低算法，那么训练模型所花费的时间将很是巨大，因此咱们对数据作以下处理：html

如图所示，咱们以1000为单位，将数据进行划分，令 $x^{{1}} = {x^{(1)}, x^{(2)} \dots \dots x^{(5000)}}$ python

注意区分该系列教学视频的符号标记：算法

小括号() 表示具体的某一个元素，指一个具体的值，例如 $x^{(i)}$ 网络

中括号[] 表示神经网络中的某一层,例如 $Z^{[l]}$ 函数

大括号{} 表示将数据细分后的一个集合,例如 $x^{{1}} = {x^{(1)}, x^{(2)} \dots \dots x^{(5000)}}$ 学习

算法步骤

假设咱们有5,000,000个数据，每1000做为一个集合，计入上面所提到的 $x^{{1}} = {x^{(1)}, x^{(2)} \dots \dots x^{(5000)}}, \dots \dots$ 优化

1)因此须要迭代运行5000次神经网络运算。

for i in range(5000):

2)每一次迭代其实与以前笔记中所提到的计算过程同样，首先是前向传播，可是每次计算的数量是1000atom
3)计算损失函数，若是有正则化，则记得加上正则项
4)反向传播spa

注意，mini-batch相比于以前一次性计算全部数据不只速度快，并且反向传播须要计算5000次，因此效果也更好。code

2. 理解mini-batch梯度降低法

如上面所提到的，咱们以1000位单位对数据进行划分，可是这只是为了更方便说明问题才这样划分的，那么咱们在实际操做中应该如何划分呢？

首先考虑两个极端状况：

mini-batch size = m
此时即为Batch gradient descent， $(x^{{t}}, y^{{t}}) = (X, Y)$
mini-batch size = 1
此时即为Stochastic gradient descent, $(x^{{t}}, y^{{t}}) = (x^{(i)}, y^{(i)})$

如图示，蓝色收敛曲线表示mini-batch size=m，比较耗时，可是最后可以收敛到最小值；而紫色收敛曲线表示mini-batch size=1，虽然速度可能较快，可是收敛曲线十分曲折，而且最终不会收敛到最小点，而是在其附近来回波动。

说了这么多，那么mini-batch size该如何选择呢？如下是选择的原则：

若是数据量比较小（m<2000），可使用batch gradient descent。通常来讲mini-batch size取2的次方比较好，例如64,128,256,512等，由于这样与计算机内存设置类似，运算起来会更快一些。

3. 指数加权平均

为了理解后面会提到的各类优化算法，咱们须要用到指数加权平均，在统计学中也叫作指数加权移动平均(Exponentially Weighted Moving Averages)。

首先咱们假设有一年的温度数据，以下图所示

咱们如今须要计算出一个温度趋势曲线，计算方法以下：

$V_{0} = 0$

$V_{1} = β * V_{0} + (1 - β) θ_{1}$

$\dots \dots$

$V_{t} = β * V_{t - 1} + (1 - β) θ_{t}$

上面的 $θ_{t}$

当 $β = 0.9$

当 $β = 0.98$

当 $β = 0.5$

4. 理解指数加权平均

咱们将上面的公式 $V_{t} = β * V_{t - 1} + (1 - β) θ_{t}$

V t = 0.1 θ t + 0.1 * 0.9 θ t - 1 + 0.1 * 0.9 2 θ t - 2 + \dots

能够看到在计算第t天的加权温度时，也将以前的温度考虑进来，可是都有一个衰减因子β，而且随着天数的增长，衰减幅度也不断增长。（有点相似于卷积计算）

5. 指数加权平均的误差修正

为何须要修正呢？咱们仔细分析一下就知道了

首先咱们假设的是 $β = 0.98, V_{0} = 0$

$V_{1} = 0.98 V_{0} + 0.02 θ_{1} = 0.02 θ_{1}$

$V_{2} = 0.98 V_{1} + 0.02 θ_{2} = 0.0196 θ_{1} + 0.02 θ_{2}$

假设 $θ_{1} = 40 ℃$

V t = β V t - 1 + ( 1 - β ) θ t 1 - β t

注意！！！上面公式中的 $V_{t - 1}$ 。

为方便说明，令 $β = 0.98, θ_{1} = 40 ℃, θ_{2} = 39 ℃$

当 $t = 1, θ_{1} = 40 ℃$

因此，记住你若是直接用修正后的 $V_{t - 1}$

6. 动量梯度降低法

首先介绍一下通常的梯度算法收敛状况是这样的

能够看到，在前进的道路上十分曲折，走了很多弯路，在纵向咱们但愿走得慢一点，横向则但愿走得快一点，因此才有了动量梯度降低算法。

Momentum算法的第t次迭代：

计算出dw,db
这个计算式子与上一届提到的指数加权平均有点相似，即
$V_{d w} = β V_{d w} + (1 - β) d w$
$W = W - α V_{d w}, b = b - α V_{d b}$

最终获得收敛的效果以下图的红色曲线所示。

该算法中涉及到的超参数有两个，分别是 $α ， β$ ，其中通常 $β = 0.9$

7. RMSprop

该算法全称叫Root Mean Square Prop(均方根传播)

这一节和上一节讲的都比较归纳，不是很深刻，因此就直接把算法记录下来吧。

在第t次迭代：

计算该次mini-batch的dw,db
$S_{d w} = β S_{d w} + (1 - β) d w^{2}$
$w := w - α \frac{d w}{\sqrt{S_{d w}}}$

收敛效果(原谅色)

8. Adam优化算法

Adam实际上是Momentum和RMSprop两个算法的结合，具体算法以下：

初始化 $V_{d w} = 0, V_{d b} = 0 ， S_{d w} = 0 ， S_{d w} = 0$
在第t次迭代
- 计算出dw,db
- $V_{d w} = β_{1} V_{d w} + (1 - β_{1}) d w$
- $V_{d w}^{c o r r e c t e d} = \frac{V_{d w}}{1 - β_{1}^{t}}$
- $W = W - α \frac{V_{d w}^{c o r r e c t e d}}{\sqrt{S_{d w}^{c o r r e c t e d}} + ε}$

该算法中的超参数有 $α, β_{1}, β_{2}, ε$ ,通常来讲 $β_{1} = 0.9, β_{2} = 0.999, ε = 10^{- 8}$

9. 学习率衰减

以前算法中提到的学习率α都是一个常数，这样有可能会一个问题，就是刚开始收敛速度刚恰好，但是在后面收敛过程当中学习率偏大，致使不能彻底收敛，而是在最低点来回波动。因此为了解决这个问题，须要让学习率可以随着迭代次数的增长进行衰减，常见的计算公式有以下几种：

Learning rate decay

α = 1 1 + d e c a y r a t e * e p o c h n u m α 0

decay_rate:衰减率
epoch_num: 迭代次数

举个栗子：
假设 $α_{0}$

Epoch	α
1	0.1
2	0.067
3	0.05
……	……

其余衰减算法
- 指数衰减： $α = {0.9}^{e p o c h_{n} u m} α_{0}$
- $α = \frac{K}{\sqrt{e p o c h_{n} u m}} α_{0}$
- 离散衰减，每次迭代后变为上一次迭代的一半。

10. 局部最优问题

图左中有不少局部最优势。
图右用青色标记出来的点称为鞍点(saddle point)，由于和马鞍类似，因此称为鞍点。

鞍点相比于局部最优势要更加棘手，由于从横向上看彷佛是最低点，可是纵向上看却不是最低点，因此收敛过程有点缓慢，缘由以下：

横向收敛只能沿着红线方向收敛，直到鞍点，而到了鞍点后才能往两边收敛，因此收敛的比较缓慢。

可是momentum和Adam等算法由于可以加速学习，因此收敛速率更快，可以更快地收敛。