CV第七讲

一、知识梳理 二、优策策略—一阶函数(减少训练误差) 1、为什么在权重对损失函数敏感程度不同时,SGD会走Z字型? 如下图,损失函数对竖直方向敏感,因此在优化权重时在竖直方向走的多,在水平方向走的少。(为何在等高线上来回震荡呢?还是因为竖直方向敏感,因此竖直方向上走的距离要多于水平方向,因此不得不来回震荡)  2、鞍点与极值点的区别? 鞍点和局部极小值相同的是,在该点处的梯度都等于零,不同在于在鞍
相关文章
相关标签/搜索