8. 深度学习实践:优化(续)

接上部分讨论:8. 深度学习实践:优化 3. 基本算法 3.1 随机梯度下降 SGD及其变种很可能是一般ML中应用最多的优化算法。 关键参数:学习率。最好的选择方法:监测目标函数值随时间变化的学习曲线。与其科学,更像艺术。实践中有必要随时间逐渐降低学习率。 SGD(1998年就有了)、小批量、基于梯度优化的在线学习算法,一个重要性质:每一步更新的计算时间不依赖于训练样本数目的多寡。 3.2 动量(
相关文章
相关标签/搜索