CS231n学习笔记(十三)

时间:2019/4/4 内容:更好的优化、正则化 接上一份学习笔记,继续讲Adam 使用Adam,我们使用第一动量和第二动量的估计值。上图红框里,我们让第一动量的估计值等于梯度的加权和。我们有一个第二动量的动态估计值(AdaGrad, RMSProp),是一个梯度平方的动态近似值,下面我们来看如何更新他们。我们使用第一动量(类似于速度),并除以第二动量平方根 在最开始时会得到一个很大的步长,这并不
相关文章
相关标签/搜索