深度学习中的一些组件及使用技巧

时间 2020-05-20

标签深度学习一些组件使用技巧繁體版

原文原文链接

【说在前面】本人博客新手一枚，象牙塔的老白，职业场的小白。如下内容仅为我的看法，欢迎批评指正，不喜勿喷！[认真看图][认真看图]html

【补充说明】深度学习有多火，我就很少说了。本文主要介绍深度学习项目实践过程当中可能遇到的一些组件及使用技巧！python

1、Optimizor优化器选择

1. 梯度降低：经典

梯度降低的通用计算公式以下：面试

$g_t=\nabla_{\theta_{t-1}}{f(\theta_{t-1})}$
$\Delta{\theta_t}=-\eta*g_t$

其中， $\eta$ 是学习率，是梯度。梯度降低彻底依赖于当前的梯度，因此 $\eta$ 可理解为容许当前梯度多大程度影响参数更新。算法

梯度降低主要包含三种梯度降低：网络

（1）批量梯度降低（Batch Gradient Descent）cors

使用全部的训练样原本更新每次迭代中的模型参数

（2）随机梯度降低（Stochastic Gradient Descent）框架

在每次迭代中，仅使用单个训练样本更新参数（训练样本一般是随机选择的）

（3）小批量梯度降低（Mini-Batch Gradient Descent）：这个最经常使用机器学习

训练时不是使用全部的样本，而是取一个批次的样原本更新模型参数
小批量梯度降低试图在随机梯度降低的稳健性和批量梯度降低的效率之间找到平衡

梯度降低的缺点：函数

选择合适的learning rate比较困难
对全部的参数更新均使用一样的learning rate
可能被困在鞍点，容易产生局部最优，不能达到全局最优

2. Momentum

Momentum是模拟物理里动量的概念，公式以下：post

$m_t=\mu*m_{t-1}+g_t$
$\Delta{\theta_t}=-\eta*m_t$

其中， $\mu$ 是动量因子。Momentum积累以前的动量来替代真正的梯度。

Momentum有以下特色：

降低初期时，因为降低方向和梯度方向一致，而使t时刻的动量和变化量变大，从而达到加速的目的
降低中后期时，在局部最小值来回震荡的时候，使得更新幅度增大，跳出陷阱
在梯度改变方向的时候，可以减小更新

总的来讲，Momentum能够加速SGD算法的收敛速度，而且下降SGD算法收敛时的震荡。

3. Nesterov

将上一节中的公式展开可得：

能够看出，Momentum并无直接改变当前梯度。Nesterov的改进就是让以前的动量直接影响当前的动量。即：

$g_t=\nabla_{\theta_{t-1}}{f(\theta_{t-1}-\eta*\mu*m_{t-1})}$
$m_t=\mu*m_{t-1}+g_t$
$\Delta{\theta_t}=-\eta*m_t$

其中，加上Nesterov项后，梯度在大的跳跃后，再计算当前梯度进行校订。

Nesterov有以下特色：

对于Momentum，首先计算一个梯度(短的蓝色向量)，而后在加速更新梯度的方向进行一个大的跳跃(长的蓝色向量)
对于Nesterov，首先在以前加速的梯度方向进行一个大的跳跃(棕色向量)，而后计算梯度进行校订(绿色梯向量)

总的来讲，Nesterov项在梯度更新时作了一个校订，避免前进太快，同时提升灵敏度。

以上三种方法均须要人工设置一些学习率，接下来介绍几种自适应学习率的方法！

4. Adagrad

Adagrad对学习率进行了一个约束。即：

$n_t=n_{t-1}+g_t^2$
$\Delta{\theta_t}=-\frac{\eta}{\sqrt{n_t+\epsilon}}*g_t$

其中，对从1到进行一个递推，造成一个约束项regularizer， $\epsilon$ 用来保证分母非0。

Adagrad有以下特色：

前期较小的时候，regularizer较大，可以放大梯度
后期较大的时候，regularizer较小，可以约束梯度
高频特征更新步长较小，低频特征更新较大，适合处理稀疏梯度
可以自适应学习率，避免了手动调整学习率的麻烦

Adagrad的缺点：

由公式能够看出，仍依赖于人工设置一个全局学习率
$\eta$ 设置过大的话，会使regularizer过于敏感，对梯度的调节太大
中后期，分母上梯度平方的累加将会愈来愈大，使 $gradient\to0$ ，使得训练提早结束

5. Adadelta

Adadelta是对Adagrad的扩展，它主要解决了adagrad算法单调递减学习率的问题。Adagrad会累加以前全部的梯度平方，而Adadelta只累加固定大小的项，而且也不直接存储这些项，仅仅是近似计算对应的平均值。即：

$n_t=\nu*n_{t-1}+(1-\nu)*g_t^2$
$\Delta{\theta_t} = -\frac{\eta}{\sqrt{n_t+\epsilon}}*g_t$

其中，Adadelta仍是依赖于全局学习率，可是作了必定处理，通过近似牛顿迭代法以后：

$E|g^2|_t=\rho*E|g^2|_{t-1}+(1-\rho)*g_t^2$
$\Delta{x_t}=-\frac{\sqrt{\sum_{r=1}^{t-1}\Delta{x_r}}}{\sqrt{E|g^2|_t+\epsilon}}$

其中，表明求指望。此时，能够看出Adadelta已经不用依赖于全局学习率了。

Adadelta还有以下特色：

训练初中期，加速效果不错，很快
训练后期，反复在局部最小值附近抖动

6. RMSprop

RMSprop能够算做Adadelta的一个特例，一样是用于解决adagrad算法学习率消失的问题。

当 $\rho=0.5$ 时， $E|g^2|_t=\rho*E|g^2|_{t-1}+(1-\rho)*g_t^2$ 就变为了求梯度平方和的平均数。

若是再求根的话，就变成了RMS(均方根)：

$RMS|g|_t=\sqrt{E|g^2|_t+\epsilon}$

此时，这个RMS就能够做为学习率 $\eta$ 的一个约束：

$\Delta{x_t}=-\frac{\eta}{RMS|g|_t}*g_t$

RMSprop有以下特色：

依然依赖于全局学习率
是Adagrad的一种发展，也是Adadelta的变体，效果趋于两者之间
适合处理非平稳目标

7. Adam：经常使用

Adam本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每一个参数的学习率。

通过偏置校订后，每一次迭代学习率都有个肯定范围，使得参数比较平稳。公式以下：

$m_t=\mu*m_{t-1}+(1-\mu)*g_t$
$n_t=\nu*n_{t-1}+(1-\nu)*g_t^2$
$\hat{m_t}=\frac{m_t}{1-\mu^t}$
$\hat{n_t}=\frac{n_t}{1-\nu^t}$
$\Delta{\theta_t}=-\frac{\hat{m_t}}{\sqrt{\hat{n_t}}+\epsilon}*\eta$

其中，，分别是对梯度的一阶矩估计和二阶矩估计，能够看做对指望，的估计； $\hat{m_t}$ ， $\hat{n_t}$ 是对，的校订，这样能够近似为对指望的无偏估计。能够看出，直接对梯度的矩估计对内存没有额外的要求，并且能够根据梯度进行动态调整，而 $-\frac{\hat{m_t}}{\sqrt{\hat{n_t}}+\epsilon}$ 对学习率造成一个动态约束，并且有明确的范围。

Adam有以下特色：

结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优势
对内存需求较小
为不一样的参数计算不一样的自适应学习率
也适用于大多非凸优化，适用于大数据集和高维空间

8. 其余

例如Adamax（Adam的一种变体）、Nadam（相似于带有Nesterov动量项的Adam）等，这里不展开了。

9. 经验总结

对于稀疏数据，使用学习率可自适应的优化方法（例如Adagrad/Adadelta/RMSprop/Adam等），且最好采用默认值
SGD一般训练时间更长，可是在好的初始化和学习率调度方案的状况下，结果更可靠
若是须要更快的收敛，或者是训练更深更复杂的神经网络，须要用一种自适应的算法

2、激活函数选择

1. 经常使用的激活函数

发现这么写下去，篇幅太大了，因此找到一张图，归纳一下吧：

经常使用的主要是这些吧，各类激活函数的特色看图也显而易见，其余的（例如PReLU等）就不拓展了。

2. 经验总结

对于输出层：二分类任务通常选用Sigmoid输出，多分类任务通常选用Softmax输出，回归任务通常选用线性输出。
对于中间隐层：优先选择Relu激活函数（Relu能够有效解决Sigmoid和tanh出现的梯度弥散问题，且能更快收敛）。

3、防止过拟合

1. 数据集扩充

即增大训练集的规模，实在难以得到新数据也可使用数据集加强的方法。

例如能够对图像数据集采用水平/垂直旋转/翻转、随机改变亮度和颜色、随机模糊图像、随机裁剪等方法进行数据集加强。

2. L1/L2正则化

正则化，就是在原来的loss function的基础上，加上了一些正则化项或者称为模型复杂度惩罚项。

以线性回归为例，优化目标：

min $1/N\ast\sum_{i = 1}^{N}{(y_{i} -\omega^{T} x_{i})^{2} }$

加上L1正则项（lasso回归）：
min $1/N\ast\sum_{i = 1}^{N}{(y_{i} -\omega^{T} x_{i})^{2} } + C||\omega||_{1}$

加上L2正则项（岭回归）：

min $1/N\ast\sum_{i = 1}^{N}{(y_{i} -\omega^{T} x_{i})^{2} } + C||\omega||_{2}^{2}$

其中，L1范数更容易获得稀疏解（解向量中0比较多）；L2范数能让解比较小（靠近0），可是比较平滑（不等于0）。

3. Dropout

Dropout提供了一个简单的方法来提高性能。其实至关于作简单的Ensemble，但训练速度会慢一些。

4. 提早终止Early stopping

5. 交叉验证

剩下就是选择合适的模型和网络结构了，甚至能够采用多模型融合等思路。

4、防止梯度消失/爆炸

1. 使用合适的激活函数：ReLU等

解决Sigmoid函数存在的梯度消失/爆炸问题。

2. 预训练加微调：DBN等

Hinton为了解决梯度的问题，提出采起无监督逐层训练方法，其基本思想是每次训练一层隐节点，训练时将上一层隐节点的输出做为输入，而本层隐节点的输出做为下一层隐节点的输入，此过程就是逐层“预训练”。在预训练完成后，再对整个网络进行“微调”。

3. 梯度剪切、正则

梯度剪切这个方案主要是针对梯度爆炸提出的，其思想是设置一个梯度剪切阈值，而后更新梯度的时候，若是梯度超过这个阈值，那么就将其强制限制在这个范围以内。另一种解决梯度爆炸的手段是采用权重正则化，比较常见的是L1正则和L2正则，以上已经提到了。

4. Batch Normalization

对每一层的输出作scale和shift的方法，经过必定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到接近均值为0方差为1的标准正太分布，即严重偏离的分布强制拉回比较标准的分布。这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会致使损失函数较大的变化，使得让梯度变大，避免梯度消失问题产生。并且梯度变大意味着学习收敛速度快，能大大加快训练速度。

5. 残差结构 `Resnet`

若是你但愿训练一个更深更复杂的网络，那么残差块绝对是一个重要的组件，它可让你的网络训练的更深。

6. 采用LSTM等模型

我在序列模型专题有介绍到LSTM，这里再也不赘述。

5、权值初始化

1. 随机初始化

有一些经常使用的初始化方法：

直接用0.02*randn(num_params)来初始化，固然别的值也能够。
依次初始化每个weight矩阵，用init_scale / sqrt(layer_width) * randn，init_scale能够被设置为0.1或者1。

初始化很重要，知乎大佬们的惨痛教训：

用normal初始化CNN的参数，最后acc只能到70%多，仅仅改为xavier，acc能够到98%。
初始化word embedding，使用了默认的initializer，速度慢且效果很差。改成uniform，训练速度和结果也飙升。

2. 迁移学习

能够采用迁移学习预训练的方式。说到这里，我以后想写一个迁移学习的专题。

6、数据预处理

1. 标准化/归一化处理

就是0均值和1方差化。主要是为了公平对待每一个特征、使优化过程变得平稳、消除量纲影响等。

2. Shuffle处理

在训练的过程当中，若是数据很整齐，那每次学习到的特征都是与某一个特征相关，会让学习效果有所误差。

所以，通常在训练的过程当中，建议要将数据打乱，这样才可以更好的实现泛化能力。

7、学习率 learning rate

通常建议从一个正常大小的学习率开始，朝着终点不断缩小。

8、批次大小 batch_size

batch_size会影响优化过程，建议值取64和128等，过小训练速度慢，太大容易过拟合。

9、损失函数 Loss

1. 多分类问题选用Softmax+交叉熵

当Sigmoid函数和MSE一块儿使用时会出现梯度消失。缘由以下：

MSE对参数的偏导：

corss-entropy对参数的偏导：

以上，相对于Sigmoid求损失函数，在梯度计算层面上，交叉熵对参数的偏导不含对Sigmoid函数的求导，而均方偏差MSE等则含有Sigmoid函数的偏导项。同时，Sigmoid的值很小或者很大时梯度几乎为零，这会使得梯度降低算法没法取得有效进展，交叉熵则避免了这一问题。

为了弥补Sigmoid 型函数的导数形式易发生饱和的缺陷，能够引入Softmax做为预测结果，再计算交叉熵损失。因为交叉熵涉及到计算每一个类别的几率，因此在神经网络中，交叉熵与Softmax函数紧密相关。

10、其余

例如训练时能够先用一小部分数据集跑，看看损失的变化趋势，有助于更快找到错误并调整网络结构等技巧。

另外，看到一张不一样参数对于网络训练的影响程度图，分享一下：

最后，虽然有不少组件和技巧能够方便使用（框架中通常都封装好了），可是仍是须要注意各组件、技巧之间的灵活组合，才能取得最佳结果。

若是您对数据挖掘感兴趣，欢迎浏览个人另几篇博客：数据挖掘比赛/项目全流程介绍

若是你对智能推荐感兴趣，欢迎先浏览个人另几篇随笔：智能推荐算法演变及学习笔记

若是您对人工智能算法感兴趣，欢迎浏览个人另外一篇博客：人工智能新手入门学习路线和学习资源合集（含AI综述/python/机器学习/深度学习/tensorflow）、人工智能领域经常使用的开源框架和库（含机器学习/深度学习/强化学习/知识图谱/图神经网络）

若是你是计算机专业的应届毕业生，欢迎浏览个人另一篇博客：若是你是一个计算机领域的应届生，你如何准备求职面试？

若是你是计算机专业的本科生，欢迎浏览个人另一篇博客：若是你是一个计算机领域的本科生，你能够选择学习什么？

若是你是计算机专业的研究生，欢迎浏览个人另一篇博客：若是你是一个计算机领域的研究生，你能够选择学习什么？

若是你对金融科技感兴趣，欢迎浏览个人另外一篇博客：若是你想了解金融科技，不妨先了解金融科技有哪些可能？

以后博主将持续分享各大算法的学习思路和学习笔记：hello world: 个人博客写做思路