CS231n系列课程Lecture6: Training Neural Networks, Part 2

时间 2020-12-24

原文原文链接

课程链接: https://pan.baidu.com/s/1mhGp08K 密码: xgex Parameter Updates 1.梯度下降（最速下降法）这个就是简单的梯度下降， dx 就是求出的梯度，就是个微小增量，学习率是设置的超参数，也就是步长，如果梯度为正，所以说明函数上升，所以 x 要加上负梯度。求出的梯度只有方向，学习率决定 x 改变的大小，这就是最简单的梯度下降的思想那么按照