深度学习中优化算法的演进历程

随机梯度下降(SGD)   缺点: 在训练过程中可能会错误标记数据,或者有数据和正常数据差别很大,使用这些数据进行训练,求得的梯度也会有很大的偏差,因此,SGD在训练过程中会有很大的随机性。   解决方法:选择一批量的数据,一起求梯度和,再求均值。也就是一个batch更新一次权重。如下图所示:     以上的两种方法的缺点是:计算量大,更新速度慢 解决方法:采用SGD+Momentum Momen
相关文章
相关标签/搜索