深度模型中的优化算法

某猪场的笔试题问到了深度学习中的优化算法,由于准备不足扑街了,后来补了一下这方面的知识,整理如下: 基本算法 随机梯度下降(SGD) 实践中,一般会线性衰减学习率直到第 τ 次迭代: ϵk=(1−α)ϵ0+αϵτ 其中, α=kτ 。在 τ 布迭代之后,一般使 ϵ 保持常数。 动量(momentum) 如果动量算法总是观测到梯度 g ,那么它会在方向 −g 上不停加速,直到达到最终速度,其中步长大
相关文章
相关标签/搜索