梯度消失、梯度爆炸的解决方法及其解释

首发地址:https://zhuanlan.zhihu.com/p/143417405 1、梯度消失 1.1、换激活函数 从sigmoid换成relu或relu的一系列改进版,比如leaky relu等。sigmoid中导数接近于零的情况,就换成了导数恒定的情况,单个节点的梯度(导数)就不管x变化都永远有了。 但是多个0~1之间的数相乘还是趋近于0的趋势没变,所以只是缓解,而非完全解决。 1.2、
相关文章
相关标签/搜索