[nlp] 梯度消失&梯度爆炸

在这里插入图片描述
在这里插入图片描述
梯度爆炸(exploding gradient) :

  1. 梯度裁剪 (设置阈值 >=2的设置为2)
    在这里插入图片描述
    梯度消失 (vanishing gradient)
  2. 初始化改变(激活函数改变为relu,tanh)(identity initialization)
  3. LSTM(后面会讲)链式法则×变+,有相加的部分,避免梯度消失
  4. 残差网络 (Residual Networks) (跳过一些,走过的神经元少了)
  5. 批处理归一化(Batch Normalization)

在这里插入图片描述
在这里插入图片描述