机器学习项目中该如何选择优化器

机器学习项目中该如何选择优化器 一些最常用的优化器 不同优化器及其优缺点 一些最常用的优化器 w表示参数,g表示模型的梯度,α为每个优化器的全局学习率,t为时间步长 Stochastic Gradient Descent (SGD) 在SGD中,优化器基于一个小batch估计最陡下降的方向,并在这个方向前进一步。由于步长是固定的,SGD会很快陷入平坦区或陷入局部极小值。 SGD with Mome
相关文章
相关标签/搜索