深度学习_深度学习基础知识_RAdam详解

SGD收敛较好,但是需要耗费很多时间。 Adam收敛快,但是容易陷入局部解中。 Adam的核心思想是用指数滑动平均去估计梯度每个分量的一阶矩(动量)和二阶矩(自适应学习率),并用二阶矩去normalize一阶矩,得到每一步的更新量: 其中, m t m_{t} mt​是一阶矩(动量), v t v_{t} vt​是二阶矩(自适应学习率), η \eta η是学习率, c t c_{t} ct​是偏
相关文章
相关标签/搜索