动量与学习率衰减

动量 取决于β参数的选取,根据矢量三角形法则,选取下次的运动方向。 不加动量的状况下,方向变化比较尖锐,没有考虑历史变化的状况,且容易局部最优。 加动量后,变化更加的缓和,依靠惯性,可能跳出局部最优解。 web 学习率调整
相关文章
相关标签/搜索