[深度学习] 梯度消失与梯度爆炸、Loss为Nan的原因

现象 如何确定是否出现梯度爆炸? 在训练过程中出现梯度爆炸会伴随一些细微的信号,如: (1)模型无法从训练数据中获得更新; (2)模型不稳定,导致更新过程中的损失出现显著变化; (3)训练过程中,模型的损失变为Nan。   梯度消失与梯度爆炸原因 首先,来看神经网络更新梯度的原理,即反向传播算法。 详细推导参考:反向传播算法 通过反向传播算法更新梯度的公式可以看到,影响梯度更新的有,初始权重、激活
相关文章
相关标签/搜索