CS231n系列课程Lecture6: Training Neural Networks, Part 2

课程链接: https://pan.baidu.com/s/1mhGp08K 密码: xgex Parameter Updates 1.梯度下降(最速下降法) 这个就是简单的梯度下降, dx 就是求出的梯度,就是个微小增量,学习率是设置的超参数,也就是步长,如果梯度为正,所以说明函数上升,所以 x 要加上负梯度。求出的梯度只有方向,学习率决定 x 改变的大小,这就是最简单的梯度下降的思想 那么按照
相关文章
相关标签/搜索