梯度降低是一个用来求函数最小值的算法,咱们将使用梯度降低算法来求出代价函数J(θ0,θ1)J(θ0,θ1) 的最小值。算法
梯度降低背后的思想是:开始时咱们随机选择一个参数的组合(θ0,θ1,......,θn)(θ0,θ1,......,θn),计算代价函数,而后咱们寻找下一个能让代价函数值降低最多的参数组合。咱们持续这么作直到到到一个局部最小值(local minimum),由于咱们并无尝试完全部的参数组合,因此不能肯定咱们获得的局部最小值是否即是全局最小值(global minimum),选择不一样的初始参数组合,可能会找到不一样的局部最小值。数组
想象一下你正站立在山的这一点上,站立在你想象的公园这座红色山上,在梯度降低算法中,咱们要作的就是旋转360度,看看咱们的周围,并问本身要在某个方向上,用小碎步尽快下山。这些小碎步须要朝什么方向?若是咱们站在山坡上的这一点,你看一下周围,你会发现最佳的下山方向,你再看看周围,而后再一次想一想,我应该从什么方向迈着小碎步下山?而后你按照本身的判断又迈出一步,重复上面的步骤,从这个新的点,你环顾四周,并决定从什么方向将会最快下山,而后又迈进了一小步,并依此类推,直到你接近局部最低点的位置。机器学习
批量梯度降低(batch gradient descent)算法的公式为:函数
其中α是学习率(learning rate),它决定了咱们沿着能让代价函数降低程度最大的方向向下迈出的步子有多大,在批量梯度降低中,咱们每一次都同时让全部的参数减去学习速率乘以代价函数的导数。导数是选择一个方向学习
何时终止?atom
斜率等于0的时候spa
为何不求导?3d
导数为0时不必定是极值点,何况也不知道是否有导数orm
在梯度降低算法中,还有一个更微妙的问题,梯度降低中,咱们要更新θ0θ0和θ1θ1 ,当 j=0 和j=1时,会产生更新,因此你将更新J(θ0)J(θ0)和J(θ1)J(θ1)。实现梯度降低算法的微妙之处是,在这个表达式中,若是你要更新这个等式,你须要同时更新θ0θ0和θ1θ1,个人意思是在这个等式中,咱们要这样更新:视频
θ0θ0:= θ0θ0 ,并更新θ1θ1:= θ1θ1。
实现方法是:你应该计算公式右边的部分,经过那一部分计算出θ0θ0和θ1θ1的值,而后同时更新θ0θ0和θ1θ1。
让我进一步阐述这个过程:
在梯度降低算法中,这是正确实现同时更新的方法。我不打算解释为何你须要同时更新,同时更新是梯度降低中的一种经常使用方法。咱们以后会讲到,同步更新是更天然的实现方法。当人们谈到梯度降低时,他们的意思就是同步更新。
在接下来的视频中,咱们要进入这个微分项的细节之中。我已经写了出来但没有真正定义,若是你已经修过微积分课程,若是你熟悉偏导数和导数,这其实就是这个微分项:
若是你不熟悉微积分,不用担忧,即便你以前没有看过微积分,或者没有接触过偏导数,在接下来的视频中,你会获得一切你须要知道,如何计算这个微分项的知识。
下一个视频中,但愿咱们可以给出实现梯度降低算法的全部知识 。
在以前的视频中,咱们给出了一个数学上关于梯度降低的定义,本次视频咱们更深刻研究一下,更直观地感觉一下这个算法是作什么的,以及梯度降低算法的更新过程有什么意义。梯度降低算法以下图:
θj:=θj−α∂∂θjJ(θ)θj:=θj−α∂∂θjJ(θ)
描述:对$\theta 赋值,使得赋值,使得J\left( \theta \right)按梯度下降最快方向进行,一直迭代下去,最终得到局部最小值。其中按梯度降低最快方向进行,一直迭代下去,最终获得局部最小值。其中a$是学习率(learning rate),它决定了咱们沿着能让代价函数降低程度最大的方向向下迈出的步子有多大。
对于这个问题,求导的目的,基本上能够说取这个红点的切线,就是这样一条红色的直线,恰好与函数相切于这一点,让咱们看看这条红色直线的斜率,就是这条恰好与函数曲线相切的这条直线,这条直线的斜率正好是这个三角形的高度除以这个水平长度,如今,这条线有一个正斜率,也就是说它有正导数,所以,我获得的新的θ1θ1,θ1θ1更新后等于θ1θ1减去一个正数乘以aa。
这就是我梯度降低法的更新规则:θj:=θj−α∂∂θjJ(θ)θj:=θj−α∂∂θjJ(θ)
让咱们来看看若是aa过小或aa太大会出现什么状况:
若是aa过小了,即个人学习速率过小,结果就是只能这样像小宝宝同样一点点地挪动,去努力接近最低点,这样就须要不少步才能到达最低点,因此若是aa过小的话,可能会很慢,由于它会一点点挪动,它会须要不少步才能到达全局最低点。
若是aa太大,那么梯度降低法可能会越过最低点,甚至可能没法收敛,下一次迭代又移动了一大步,越过一次,又越过一次,一次次越过最低点,直到你发现实际上离最低点愈来愈远,因此,若是aa太大,它会致使没法收敛,甚至发散。
如今,我还有一个问题,当我第一次学习这个地方时,我花了很长一段时间才理解这个问题,若是咱们预先把θ1θ1放在一个局部的最低点,你认为下一步梯度降低法会怎样工做?
假设你将θ1θ1初始化在局部最低点,在这儿,它已经在一个局部的最优处或局部最低点。结果是局部最优势的导数将等于零,由于它是那条切线的斜率。这意味着你已经在局部最优势,它使得θ1θ1再也不改变,也就是新的θ1θ1等于原来的θ1θ1,所以,若是你的参数已经处于局部最低点,那么梯度降低法更新其实什么都没作,它不会改变参数的值。这也解释了为何即便学习速率aa保持不变时,梯度降低也能够收敛到局部最低点。
咱们来看一个例子,这是代价函数J(θ)J(θ)。
我想找到它的最小值,首先初始化个人梯度降低算法,在那个品红色的点初始化,若是我更新一步梯度降低,也许它会带我到这个点,由于这个点的导数是至关陡的。如今,在这个绿色的点,若是我再更新一步,你会发现个人导数,也即斜率,是没那么陡的。随着我接近最低点,个人导数愈来愈接近零,因此,梯度降低一步后,新的导数会变小一点点。而后我想再梯度降低一步,在这个绿点,我天然会用一个稍微跟刚才在那个品红点时比,再小一点的一步,到了新的红色点,更接近全局最低点了,所以这点的导数会比在绿点时更小。因此,我再进行一步梯度降低时,个人导数项是更小的,θ1θ1更新的幅度就会更小。因此随着梯度降低法的运行,你移动的幅度会自动变得愈来愈小,直到最终移动幅度很是小,你会发现,已经收敛到局部极小值。
回顾一下,在梯度降低法中,当咱们接近局部最低点时,梯度降低法会自动采起更小的幅度,这是由于当咱们接近局部最低点时,很显然在局部最低时导数等于零,因此当咱们接近局部最低时,导数值会自动变得愈来愈小,因此梯度降低将自动采起较小的幅度,这就是梯度降低的作法。因此实际上没有必要再另外减少aa。
这就是梯度降低算法,你能够用它来最小化任何代价函数JJ,不仅是线性回归中的代价函数JJ。
在接下来的视频中,咱们要用代价函数JJ,回到它的本质,线性回归中的代价函数。也就是咱们前面得出的平方偏差函数,结合梯度降低法,以及平方代价函数,咱们会得出第一个机器学习算法,即线性回归算法。
也就是说,即便学习学习效率α不变时,在接近最优解时,梯度也会很缓,因此降低的愈来愈慢因此依旧收敛
在之前的视频中咱们谈到关于梯度降低算法,梯度降低是很经常使用的算法,它不只被用在线性回归上和线性回归模型、平方偏差代价函数。在这段视频中,咱们要将梯度降低和代价函数结合。咱们将用到此算法,并将其应用于具体的拟合直线的线性回归算法里。
梯度降低算法和线性回归算法比较如图:
对咱们以前的线性回归问题运用梯度降低法,关键在于求出代价函数的导数,即:
j=0 时:
j=1 时:
咱们刚刚使用的算法,有时也称为批量梯度降低。实际上,在机器学习中,一般不太会给算法起名字,但这个名字”批量梯度降低”,指的是在梯度降低的每一步中,咱们都用到了全部的训练样本,在梯度降低中,在计算微分求导项时,咱们须要进行求和运算,因此,在每个单独的梯度降低中,咱们最终都要计算这样一个东西,这个项须要对全部m个训练样本求和。所以,批量梯度降低法这个名字说明了咱们须要考虑全部这一"批"训练样本,而事实上,有时也有其余类型的梯度降低法,不是这种"批量"型的,不考虑整个的训练集,而是每次只关注训练集中的一些小的子集。在后面的课程中,咱们也将介绍这些方法。
但就目前而言,应用刚刚学到的算法,你应该已经掌握了批量梯度算法,而且能把它应用到线性回归中了,这就是用于线性回归的梯度降低法。
若是你以前学过线性代数,有些同窗以前可能已经学太高等线性代数,你应该知道有一种计算代价函数J最小值的数值解法,不须要梯度降低这种迭代算法。在后面的课程中,咱们也会谈到这个方法,它能够在不须要多步梯度降低的状况下,也能解出代价函数J的最小值,这是另外一种称为正规方程(normal equations)的方法。实际上在数据量较大的状况下,梯度降低法比正规方程要更适用一些。
如今咱们已经掌握了梯度降低,咱们能够在不一样的环境中使用梯度降低法,咱们还将在不一样的机器学习问题中大量地使用它。因此,祝贺你们成功学会你的第一个机器学习算法。
在下一段视频中,告诉你泛化的梯度降低算法,这将使梯度降低更增强大。
在接下来的一组视频中,我会对线性代数进行一个快速的复习回顾。若是你历来没有接触过向量和矩阵,那么这课件上全部的一切对你来讲都是新知识,或者你以前对线性代数有所了解,但因为隔得久了,对其有所遗忘,那就请学习接下来的一组视频,我会快速地回顾你将用到的线性代数知识。
经过它们,你能够实现和使用更强大的线性回归模型。事实上,线性代数不只仅在线性回归中应用普遍,它其中的矩阵和向量将有助于帮助咱们实现以后更多的机器学习模型,并在计算上更有效率。正是由于这些矩阵和向量提供了一种有效的方式来组织大量的数据,特别是当咱们处理巨大的训练集时,若是你不熟悉线性代数,若是你以为线性代数看上去是一个复杂、可怕的概念,特别是对于以前从未接触过它的人,没必要担忧,事实上,为了实现机器学习算法,咱们只须要一些很是很是基础的线性代数知识。经过接下来几个视频,你能够很快地学会全部你须要了解的线性代数知识。具体来讲,为了帮助你判断是否有须要学习接下来的一组视频,我会讨论什么是矩阵和向量,谈谈如何加、减 、乘矩阵和向量,讨论逆矩阵和转置矩阵的概念。
若是你十分熟悉这些概念,那么你彻底能够跳过这组关于线性代数的选修视频,可是若是你对这些概念仍有些许的不肯定,不肯定这些数字或这些矩阵的意思,那么请看一看下一组的视频,它会很快地教你一些你须要知道的线性代数的知识,便于以后编写机器学习算法和处理大量数据。