深度学习第三课随笔

梯度下降 最简单的梯度下降格式 x+=−learning_rate∗dx 动量(Momentum)更新 在普通版本中,梯度直接影响位置。而在这个版本的更新中,物理观点建议梯度只是影响速度,然后速度再影响位置: 动量更新 v=mu∗v−learning_rate∗dx x+=v Nesterov动量与普通动量有些许不同,最近变得比较流行。在理论上对于凸函数它能得到更好的收敛,在实践中也确实比标准动量
相关文章
相关标签/搜索