梯度爆炸与梯度消失是什么?有什么影响?如何解决?

文章目录 一、梯度爆炸 1.什么是梯度爆炸? 2.有何影响? 二、梯度消失 1.定义 2.有何影响? 三、共同点 1.产生原因 2.解决办法 a. 方案1-预训练加微调 b. 方案2-梯度剪切、正则化 c. 方案3-relu、leakrelu、elu等激活函数 解决方案4-batchnorm/批规范化 解决方案5-残差结构 解决方案6-LSTM 梯度消失与梯度爆炸其实差不多,两种情况下梯度消失经常
相关文章
相关标签/搜索