CS231 笔记

SGD with momentum有两种写法 效果等价 Adam中的bias  correction项的存在是出于以下考虑:first_momentum以及second_momentum都初始化为0,为了仅在开始的几次迭代中增大他们的影响,增加了一个参数为t的correction,值得注意的是,t的值随时间增大,也就是说放大效果越来越弱。
相关文章
相关标签/搜索