深度学习课堂笔记 5.18

深度学习课堂笔记 基于动量的梯度下降 二者区别在于,Nesterov会先更新一次参数 自适应学习率算法 学习率是难以设置的超参数。动量算法可以一定程度地缓解该问题,但又引入了另一个超参。 AdaGrad算法 学习率逐次下降。从训练开始时积累梯度平方导致学习率过早变小 RMSProp算法 累积梯度平方时做了指数加权平滑 Adam算法 结合了Momentum和RMSProp的优点 深度学习中的调参 参
相关文章
相关标签/搜索