Adam优化器偏差矫正的理解

1、adam优化器公式 包括动量项和过去梯度平方的指数衰减平均 2、偏差校正后的,  3、Adam的参数更新公式 重点来了 第二部偏差矫正的公式是怎么等到的??? 论文中的推导 但是不知道是怎么变化来的,下面是我的理解 第一次迭代 初始化为0,则 对上式左右求期望 这里对vt展开了,直接套用期望的性质,那个没有搞懂。。。 这样就推出来那个公式了
相关文章
相关标签/搜索