CS224n —— lecture2的重难点讲解

1、梯度下降 在进行梯度下降的时候,容易陷入局部最小值,还有一种情况是陷入鞍点。所以可以在梯度下降中加入动量Momentum。 普通的梯度下降的一般算法流程是: update = step * gd parameters = parameters - update 收敛速度会变慢,有时甚至陷入局部最优; 加入动量: update = step * gd velocity = previous_up
相关文章
相关标签/搜索