Adam和学习率衰减(learning rate decay)

1、梯度下降法更新参数 梯度下降法参数更新公式: 其中,η 是学习率,θt是第 t 轮的参数,J(θt) 是损失函数,∇J(θt) 是梯度。 在最简单的梯度下降法中,学习率 ηη 是常数,是一个需要实现设定好的超参数,在每轮参数更新中都不变,在一轮更新中各个参数的学习率也都一样。 为了表示简便,令,所以梯度下降法可以表示为:   2、Adam 更新参数 Adam,全称 Adaptive Momen
相关文章
相关标签/搜索