JavaShuo
[nlp] 梯度消失&梯度爆炸
时间 2020-12-27
梯度爆炸(exploding gradient) :
梯度裁剪 (设置阈值 >=2的设置为2)
梯度消失 (vanishing gradient)
初始化改变(激活函数改变为relu,tanh)(identity initialization)
LSTM(后面会讲)链式法则×变+,有相加的部分,避免梯度消失
残差网络 (Residual Networks) (跳过一些,走过的神经元少了)
批处理归一化(Batch Normalization)