神经网络优化:指数衰减计算平均值(滑动平均)

Polyak平均会平均优化算法在参数空间访问中的几个点。如果t次迭代梯度下降访问了点,那么Polyak平均算法的输出是。 当应用Polyak平均于非凸问题时,通常会使用指数衰减计算平均值:                                       1. 用滑动平均估计局部均值   滑动平均(exponential moving average),或者叫做指数加权平均(expone
相关文章
相关标签/搜索