泰勒展开式推导梯度下降

关于梯度下降的公式可能大家耳熟能详,沿着梯度的反方向一步一步的移动,总能到达我们想要的最优点;可是为什么可以这样做呢?开始我的答案无非就是“梯度的反方向就是损失值下降最快的方向”,最近看了李宏毅老师的梯度下降算法发现别有洞天,接下来我将以通俗的语言来详细解释梯度下降算法公式的数学推导过程。 推导梯度下降之前开始引入一个Feature scaling(特征缩放):  假设我们要优化的目标函数为:,当
相关文章
相关标签/搜索