梯度降低法原理与python实现

时间 2019-12-12

标签梯度降低原理 python 实现栏目 Python 繁體版

原文原文链接

梯度降低法（Gradient descent）是一个一阶最优化算法，一般也称为最速降低法。要使用梯度降低法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。若是相反地向梯度正方向迭代进行搜索，则会接近函数的局部极大值点；这个过程则被称为梯度上升法。
本文将从最优化问题谈起，回顾导数与梯度的概念，引出梯度降低的数据推导；归纳三种梯度降低方法的优缺点，并用Python实现梯度降低（附源码）。

1 最优化问题

最优化问题是求解函数极值的问题，包括极大值和极小值。
微积分为咱们求函数的极值提供了一个统一的思路：找函数的导数等于0的点，由于在极值点处，导数一定为0。这样，只要函数的可导的，咱们就能够用这个万能的方法解决问题，幸运的是，在实际应用中咱们遇到的函数基本上都是可导的。
机器学习之类的实际应用中，咱们通常将最优化问题统一表述为求解函数的极小值问题，即:
\[ min_xf(x) \]
其中\(x\)称为优化变量，\(f\)称为目标函数。极大值问题能够转换成极小值问题来求解，只须要将目标函数加上负号便可：
\[min_x{-f(x)}\]

2 导数与梯度

梯度是多元函数对各个自变量偏导数造成的向量。多元函数的梯度表示：
\[\nabla f(x) = \left( \frac{\partial f}{\partial x_1},...,\frac{\partial f}{\partial x_n} \right)^T \]python
若是Hessian矩阵正定，函数有极小值；若是Hessian矩阵负定，函数有极大值；若是Hessian矩阵不定，则须要进一步讨论。算法
若是二阶导数大于0，函数有极小值；若是二阶导数小于0，函数有极大值；若是二阶导数等于0，状况不定。网络

问题：为什么不直接求导，令导数等于零去求解？

直接求函数的导数，有的函数的导数方程组很难求解，好比下面的方程：
\[ f(x,y) = x^5 + e^{x}{y}- y^3 + 10y^2 - 100\sin(xy)-2x^2 \]

3 梯度降低的推导过程

回顾一下泰勒展开式
\[ f(x) = \frac{f(x_0)}{0!} + \frac{f'(x_0)}{1!}(x-x_0) + \frac{f''(x_0)}{2!}(x-x_0)^2 + ... + \frac{f^{(n)}(x_0)}{n!}(x-x_0)^n + R_n(x) \]
多元函数\(f(x)\)在x处的泰勒展开：
\[ f(x + \Delta x) = f(x) + f'(x)\Delta x + \frac{1}{2}f''(x) \Delta x^2 + ...\]

3.1 数学推导

目标是求多元函数\(f(x)\)的极小值。梯度降低法是经过不断迭代获得函数极小值，即如能保证\(f(x +\Delta x)\)比\(f(x)\)小，则不断迭代，最终能获得极小值。想象你在山顶往山脚走，若是每一步到的位置比以前的位置低，就能走到山脚。问题是像哪一个方向走，能最快到山脚呢?
由泰勒展开式得:
\[f(x + \Delta x) - f(x) = (\nabla f(x))^T \Delta x + o(\Delta x) \]
若是\(\Delta x\)足够小，能够忽略\(o(\Delta x)\)，则有：
\[f(x + \Delta x) - f(x) \approx (\nabla f(x))^T \Delta x\]
因而只有：
\[(\nabla f(x))^T \Delta x < 0 \]
能使
\[ f(x + \Delta x) < f(x) \]
由于\(\nabla f(x)\)与\(\Delta x\)均为向量，因而有：
\[ (\nabla f(x))^T \Delta x = \| \nabla f(x)\|\|\Delta x\|cos\theta\]
其中，\(\theta\)是向量\(\nabla f(x)\)与\(\Delta x\)的夹角，\(\| \nabla f(x)\|\)与\(\|\Delta x\|\)是向量对应的模。可见只有当
\[cos\theta < 0\]
才能使得
\[ (\nabla f(x))^T \Delta x < 0 \]
又因
\[ cos\theta \ge -1 \]
可见，只有当
\[cos\theta = -1\]
即\(\theta = \pi\)时，函数数值下降最快。此时梯度和\(\Delta x\)反向，即夹角为180度。所以当向量\(\Delta x\)的模大小必定时，取
\[\Delta x = -\alpha \nabla f(x)\]
即在梯度相反的方向函数值降低的最快。此时函数的降低值为：
\[ (\nabla f(x))^T \Delta x = -\| \nabla f(x)\|\|\Delta x\| = - \alpha \| \nabla f(x)\|^2 \]
只要梯度不为\(0\)，往梯度的反方向走函数值必定是降低的。直接用可能会有问题，由于\(x+\Delta x\)可能会超出\(x\)的邻域范围以外，此时是不能忽略泰勒展开中的二次及以上的项的，所以步伐不能太大。
通常设：
\[\Delta x = -\alpha \nabla f(x)\]
其中\(\alpha\)为一个接近于\(0\)的正数，称为步长，由人工设定，用于保证\(x+\Delta x\)在x的邻域内，从而能够忽略泰勒展开中二次及更高的项，则有:
\[ (\nabla f(x))^T \Delta x = -\| \nabla f(x)\|\|\Delta x\| = - \alpha \| \nabla f(x)\|^2 < 0 \]
此时，\(x\)的迭代公式是：
\[x_{k+1} = x_k - \alpha \nabla f(x_k)\]
只要没有到达梯度为\(0\)的点，则函数值会沿着序列\(x_{k}\)递减，最终会收敛到梯度为\(0\)的点，这就是梯度降低法。
迭代终止的条件是函数的梯度值为\(0\)（实际实现时是接近于\(0\)），此时认为已经达到极值点。注意咱们找到的是梯度为\(0\)的点，这不必定就是极值点，后面会说明。app

4 实现的细节

初始值的设定
通常的，对于不带约束条件的优化问题，咱们能够将初始值设置为0，或者设置为随机数，对于神经网络的训练，通常设置为随机数，这对算法的收敛相当重要。机器学习
学习率的设定
学习率设置为多少，也是实现时须要考虑的问题。最简单的，咱们能够将学习率设置为一个很小的正数，如0.001。另外，能够采用更复杂的策略，在迭代的过程当中动态的调整学习率的值。好比前1万次迭代为0.001，接下来1万次迭代时设置为0.0001。函数

5 存在的问题

局部极小值
- 梯度降低可能在局部最小的点收敛。
鞍点
- 鞍点是指梯度为0，Hessian矩阵既不是正定也不是负定，即不定的点。如函数\(x^2-y^2\)在\((0,0)\)点梯度为0，但显然不是局部最小的点，也不是全局最小的点。

6 三种梯度降低的实现

批量梯度降低法：Batch Gradient Descent，简称BGD。求解梯度的过程当中用了全量数据。
- 全局最优解；易于并行实现。
- 计算代价大，数据量大时，训练过程慢。
随机梯度降低法：Stochastic Gradient Descent，简称SGD。依次选择单个样本计算梯度。
- 优势：训练速度快；
- 缺点：准确度降低，并非全局最优；不易于并行实现。
小批量梯度降低法：Mini-batch Gradient Descent，简称MBGD。每次更新参数时使用b个样本。（b通常为10）。
- 两种方法的性能之间取得一个折中。

7 用梯度降低法求解多项式极值

7.1 题目

\(argmin\frac{1}{2}[(x_{1}+x_{2}-4)^2 + (2x_{1}+3x_{2}-7)^2 + (4x_{1}+x_{2}-9)^2]\)性能

7.2 python解题

如下只是为了演示计算过程，便于理解梯度降低，代码仅供参考。更好的代码我将在之后的文章中给出。学习

# 原函数
def argminf(x1, x2):
    r = ((x1+x2-4)**2 + (2*x1+3*x2 - 7)**2 + (4*x1+x2-9)**2)*0.5
    return r


# 全量计算一阶偏导的值
def deriv_x(x1, x2):
    r1 = (x1+x2-4) + (2*x1+3*x2-7)*2 + (4*x1+x2-9)*4
    r2 = (x1+x2-4) + (2*x1+3*x2-7)*3 + (4*x1+x2-9)
    return r1, r2

# 梯度降低算法
def gradient_decs(n):
    alpha = 0.01     # 学习率
    x1, x2 = 0, 0    # 初始值
    y1 = argminf(x1, x2)
    for i in range(n):
        deriv1, deriv2 = deriv_x(x1, x2)
        x1 = x1 - alpha * deriv1
        x2 = x2 - alpha * deriv2
        y2 = argminf(x1, x2)
        if y1 - y2 < 1e-6:
            return x1, x2, y2
        if y2 < y1:
            y1 = y2
    return x1, x2, y2

# 迭代1000次结果
gradient_decs(1000)
# (1.9987027392533656, 1.092923742270406, 0.4545566995437954)

参考文献

《机器学习与应用》
https://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95