常用的优化器及其优缺点

1. SGD 在这里SGD和mini-batch是同一个意思,抽取m个小批量(独立同分布)样本,通过计算他们的平均梯度均值。 缺点: (1) leraning rate 选择太小,收敛速度会很慢,如果太大,则loss function会在极小值附近不停的震荡,甚至片偏离。 (2) 容易被困在鞍点。   2. Momentum(动量) 要是当前时刻的梯度与历史时刻梯度方向相似,这种趋势在当前时刻则会
相关文章
相关标签/搜索