梯度下降法和牛顿法的比较

梯度下降和牛顿法的推导均与泰勒公式有关,所以先介绍泰勒展开公式: 基本形式: 上面这个迭代形式将应用到下面的梯度下降和牛顿法中。 一、梯度下降 梯度下降法应用一阶泰勒展开,假设L(θ)代表损失函数,目标:最小化损失函数,θ是需要更新的模型参数。下面公式中alpha是步长(学习率),可以直接赋值一个小的数,也可以通过line search。 二、牛顿法 牛顿法应用二阶泰勒展开,目标:最小化损失函数
相关文章
相关标签/搜索