深度学习理论——随机梯度下降法(SGD) & 反向传播

大家好,一直在用深度学习,但是感觉理论并不扎实,打算开始补点理论基础,在CSDN上记录下来。 今天介绍随机梯度下降法和反向传播,首先介绍梯度下降法。 1.梯度下降法 梯度下降法是从初始值开始,向函数上当前点对应梯度的反方向的规定步长的距离点进行迭代搜索,最终得到最小值的过程。公式简易推导如下: 更直观的图像表示如图所示: 这是学习率为0.001,迭代两百次的示意图,当学习率设的更大,可能会迭代收敛
相关文章
相关标签/搜索