机器学习-梯度降低

时间 2019-11-13

标签机器学习梯度降低繁體版

原文原文链接

1梯度降低

梯度降低是一个用来求函数最小值的算法，咱们将使用梯度降低算法来求出代价函数 $J (θ_{0}, θ_{1})$ 算法

梯度降低背后的思想是：开始时咱们随机选择一个参数的组合 $(θ_{0}, θ_{1}, . . . . . ., θ_{n})$ 数组

$(θ_{0}, θ_{1}, . . . . . ., θ_{n})$

想象一下你正站立在山的这一点上，站立在你想象的公园这座红色山上，在梯度降低算法中，咱们要作的就是旋转360度，看看咱们的周围，并问本身要在某个方向上，用小碎步尽快下山。这些小碎步须要朝什么方向？若是咱们站在山坡上的这一点，你看一下周围，你会发现最佳的下山方向，你再看看周围，而后再一次想一想，我应该从什么方向迈着小碎步下山？而后你按照本身的判断又迈出一步，重复上面的步骤，从这个新的点，你环顾四周，并决定从什么方向将会最快下山，而后又迈进了一小步，并依此类推，直到你接近局部最低点的位置。机器学习

批量梯度降低（batch gradient descent）算法的公式为：函数

其中α是学习率（learning rate），它决定了咱们沿着能让代价函数降低程度最大的方向向下迈出的步子有多大，在批量梯度降低中，咱们每一次都同时让全部的参数减去学习速率乘以代价函数的导数。导数是选择一个方向学习

何时终止？atom

斜率等于0的时候spa

为何不求导？3d

导数为0时不必定是极值点，何况也不知道是否有导数orm

在梯度降低算法中，还有一个更微妙的问题，梯度降低中，咱们要更新 $θ_{0}$ 视频

$θ_{0}$

实现方法是：你应该计算公式右边的部分，经过那一部分计算出 $θ_{0}$

让我进一步阐述这个过程：

在梯度降低算法中，这是正确实现同时更新的方法。我不打算解释为何你须要同时更新，同时更新是梯度降低中的一种经常使用方法。咱们以后会讲到，同步更新是更天然的实现方法。当人们谈到梯度降低时，他们的意思就是同步更新。

在接下来的视频中，咱们要进入这个微分项的细节之中。我已经写了出来但没有真正定义，若是你已经修过微积分课程，若是你熟悉偏导数和导数，这其实就是这个微分项：

若是你不熟悉微积分，不用担忧，即便你以前没有看过微积分，或者没有接触过偏导数，在接下来的视频中，你会获得一切你须要知道，如何计算这个微分项的知识。

下一个视频中，但愿咱们可以给出实现梯度降低算法的全部知识。

2 梯度降低的直观理解

在以前的视频中，咱们给出了一个数学上关于梯度降低的定义，本次视频咱们更深刻研究一下，更直观地感觉一下这个算法是作什么的，以及梯度降低算法的更新过程有什么意义。梯度降低算法以下图：

$θ_{j} := θ_{j} - α \frac{\partial}{\partial θ_{j}} J (θ)$

描述：对$\theta $赋值，使得$

对于这个问题，求导的目的，基本上能够说取这个红点的切线，就是这样一条红色的直线，恰好与函数相切于这一点，让咱们看看这条红色直线的斜率，就是这条恰好与函数曲线相切的这条直线，这条直线的斜率正好是这个三角形的高度除以这个水平长度，如今，这条线有一个正斜率，也就是说它有正导数，所以，我获得的新的 $θ_{1}$

这就是我梯度降低法的更新规则： $θ_{j} := θ_{j} - α \frac{\partial}{\partial θ_{j}} J (θ)$

让咱们来看看若是 $a$

若是 $a $

若是 $a$

如今，我还有一个问题，当我第一次学习这个地方时，我花了很长一段时间才理解这个问题，若是咱们预先把 $θ_{1}$

假设你将 $θ_{1}$

咱们来看一个例子，这是代价函数 $J (θ)$

我想找到它的最小值，首先初始化个人梯度降低算法，在那个品红色的点初始化，若是我更新一步梯度降低，也许它会带我到这个点，由于这个点的导数是至关陡的。如今，在这个绿色的点，若是我再更新一步，你会发现个人导数，也即斜率，是没那么陡的。随着我接近最低点，个人导数愈来愈接近零，因此，梯度降低一步后，新的导数会变小一点点。而后我想再梯度降低一步，在这个绿点，我天然会用一个稍微跟刚才在那个品红点时比，再小一点的一步，到了新的红色点，更接近全局最低点了，所以这点的导数会比在绿点时更小。因此，我再进行一步梯度降低时，个人导数项是更小的， $θ_{1}$

回顾一下，在梯度降低法中，当咱们接近局部最低点时，梯度降低法会自动采起更小的幅度，这是由于当咱们接近局部最低点时，很显然在局部最低时导数等于零，因此当咱们接近局部最低时，导数值会自动变得愈来愈小，因此梯度降低将自动采起较小的幅度，这就是梯度降低的作法。因此实际上没有必要再另外减少 $a$

这就是梯度降低算法，你能够用它来最小化任何代价函数 $J$

在接下来的视频中，咱们要用代价函数 $J$

$J$

梯度降低的线性回归

在之前的视频中咱们谈到关于梯度降低算法，梯度降低是很经常使用的算法，它不只被用在线性回归上和线性回归模型、平方偏差代价函数。在这段视频中，咱们要将梯度降低和代价函数结合。咱们将用到此算法，并将其应用于具体的拟合直线的线性回归算法里。

梯度降低算法和线性回归算法比较如图：

对咱们以前的线性回归问题运用梯度降低法，关键在于求出代价函数的导数，即：

$j = 0$

$j = 1$

咱们刚刚使用的算法，有时也称为批量梯度降低。实际上，在机器学习中，一般不太会给算法起名字，但这个名字”批量梯度降低”，指的是在梯度降低的每一步中，咱们都用到了全部的训练样本，在梯度降低中，在计算微分求导项时，咱们须要进行求和运算，因此，在每个单独的梯度降低中，咱们最终都要计算这样一个东西，这个项须要对全部m个训练样本求和。所以，批量梯度降低法这个名字说明了咱们须要考虑全部这一"批"训练样本，而事实上，有时也有其余类型的梯度降低法，不是这种"批量"型的，不考虑整个的训练集，而是每次只关注训练集中的一些小的子集。在后面的课程中，咱们也将介绍这些方法。

但就目前而言，应用刚刚学到的算法，你应该已经掌握了批量梯度算法，而且能把它应用到线性回归中了，这就是用于线性回归的梯度降低法。

若是你以前学过线性代数，有些同窗以前可能已经学太高等线性代数，你应该知道有一种计算代价函数J最小值的数值解法，不须要梯度降低这种迭代算法。在后面的课程中，咱们也会谈到这个方法，它能够在不须要多步梯度降低的状况下，也能解出代价函数J的最小值，这是另外一种称为正规方程(normal equations)的方法。实际上在数据量较大的状况下，梯度降低法比正规方程要更适用一些。

如今咱们已经掌握了梯度降低，咱们能够在不一样的环境中使用梯度降低法，咱们还将在不一样的机器学习问题中大量地使用它。因此，祝贺你们成功学会你的第一个机器学习算法。

在下一段视频中，告诉你泛化的梯度降低算法，这将使梯度降低更增强大。

接下来的内容

在接下来的一组视频中，我会对线性代数进行一个快速的复习回顾。若是你历来没有接触过向量和矩阵，那么这课件上全部的一切对你来讲都是新知识，或者你以前对线性代数有所了解，但因为隔得久了，对其有所遗忘，那就请学习接下来的一组视频，我会快速地回顾你将用到的线性代数知识。

经过它们，你能够实现和使用更强大的线性回归模型。事实上，线性代数不只仅在线性回归中应用普遍，它其中的矩阵和向量将有助于帮助咱们实现以后更多的机器学习模型，并在计算上更有效率。正是由于这些矩阵和向量提供了一种有效的方式来组织大量的数据，特别是当咱们处理巨大的训练集时，若是你不熟悉线性代数，若是你以为线性代数看上去是一个复杂、可怕的概念，特别是对于以前从未接触过它的人，没必要担忧，事实上，为了实现机器学习算法，咱们只须要一些很是很是基础的线性代数知识。经过接下来几个视频，你能够很快地学会全部你须要了解的线性代数知识。具体来讲，为了帮助你判断是否有须要学习接下来的一组视频，我会讨论什么是矩阵和向量，谈谈如何加、减、乘矩阵和向量，讨论逆矩阵和转置矩阵的概念。

若是你十分熟悉这些概念，那么你彻底能够跳过这组关于线性代数的选修视频，可是若是你对这些概念仍有些许的不肯定，不肯定这些数字或这些矩阵的意思，那么请看一看下一组的视频，它会很快地教你一些你须要知道的线性代数的知识，便于以后编写机器学习算法和处理大量数据。