机器学习笔记2

需要配合第一周的gradient decent intuition https://www.coursera.org/learn/machine-learning/lecture/GFFPB/gradient-descent-intuition食用:

用直线去拟合函数,有两个变量,斜率和位移,这就导致了方差函数(斜率,位移)的图像是个三维的曲面,当然方差越小拟合度越高,就是个好的猜测。

如何得到这样的拟合用的是梯度下降,高数中的知识(想象成你要下山),向下降最快的方向移动,移动的步伐大小称为学习程度。learning rate,越高就会移动越快。

要注意移动是同步的,也就是等我知道xy分别移动的方向和距离后,我再改变我现在的位置。而不是我先得到x方向移动距离,然后我就移动了,之后我再现有的位置上估计y方向。

learning rate 记为a,那么a太小收敛的慢,太大可能导致无法收敛。另外由于梯度是随着曲面的陡缓而改变的,所以一个固定的a也可以使函数收敛。

注意a一般取值是正的,所以改变是x:=x-a*x方向的梯度。梯度也就是df/dx(此处应该是偏导数符号,我找不到,所以说明一下)。

由于线性的函数曲面是单独的凹函数也就是没有凸的趋势,简而言之就是个坑的形状,没有山的形状。所以最终会全局收敛而不是局部。局部全的区别就是:局部是很多个坑,有大有小,你最后收敛到哪个坑和你的初始位置选择有关。全局就是无论你在哪里,最后都能找到那个最小的点,因为整个函数就是一个坑。

题目是查着字典做的,所以我应该没有理解错的。