《python深度学习》对于动量法的解释

《python深度学习》对于动量法的解释 动量解决了 SGD 的两个问题:收敛速度和局部极小点。 图 2-13 给出了损失作为网络参数的函数的曲线。 如你所见,在某个参数值附近,有一个局部极小点(local minimum):在这个点附近,向左移动和向右移动都会导致损失值增大。如果使用小学习率的SGD 进行优化,那么优化过程可能会陷入局部极小点,导致无法找到全局最小点。 使用动量方法可以避免这样的
相关文章
相关标签/搜索