各优化算法的优缺点整理

固定学习率的优化算法 SGD SGD在深度学习中指的是小批量梯度降低,是按照数据分布将整体数据划分为多个小批量数据,而后利用小批量数据对参数进行更新。 优势:每一步更新的计算时间不依赖于训练样本数目的多寡,即便训练样本数目很是大时,他们也能收敛。对于足够大的数据集,SGD可能会在处理整个训练集以前就收敛到最终测试机偏差的某个容错范围内。 缺点:选择合适的learning rate比较困难,若设置过
相关文章
相关标签/搜索