【CS231n笔记】06 Training Neural Networks, Part 2

1.参数更新 2.学习率更新 3.模型整合(model ensembles) 4. Dropout 5. 梯度检查 6.卷积神经网络简史及应用 1.参数更新 训练一个神经网络的主要流程如下: a.简单梯度下降(SGD) Q:假设损失函数在垂直方向上陡峭而在水平方向上平缓,那么使用SGD来进行损失函数最小化时的收敛轨迹是怎样的? A:在比较平缓的方向上行进缓慢,而在陡峭方向上则会不停震荡,如下图所示
相关文章
相关标签/搜索