模型训练中遇到的问题——梯度消失/爆炸(Loss为nan)

可能出现的原因 Learning_rate过大,导致梯度较大,导致梯度爆炸 激活函数、损失函数选取不当,在这种情况很少出现 当网络的层数比较多,模型的数值稳定性容易变差,容易产生梯度消失和梯度爆炸,这会导致我们的loss在训练时变为nan,也称之为数据溢出。 采用stride大于kernel size的池化层 解决方法(个人经验) 首先不要先考虑激活函数,应该先考虑的是learning_rate,
相关文章
相关标签/搜索