机器学习(13):吴恩达笔记

  • 前边咱们已经学习了线性回归和逻辑回归、神经网络一系列监督学习算法,而且得出结论:在机器学习中,重要的不是使用算法a仍是算法b,而是是否能收集到大量数据。而且算法的性能很是依赖使用者的我的水平,如特征向量的选择、正则化参数的选择
  • 接下来,咱们讨论最后一个监督学习算法:支持向量机(SVM)。与逻辑回归和神经网络相比,SVM为学习复杂的非线性方程提供了一种更强大的方式

从逻辑回归讲起

  • 咱们从逻辑回归开始,一点点的修改,逐渐改成实质上的支持向量机:

(1)首先考虑,咱们要想逻辑回归干啥。当样本y=1时,假设函数h趋近1,即向量乘积远大于0;当样本y=0时,假设函数h趋近0,即向量乘积远小于0
image
(2)接着咱们观察逻辑回归的代价函数只有一个样本即m=1时的样子。咱们令y=1,获得如图曲线,这时想让代价函数小的话,要求z远大于0;咱们将这条曲线修改成两条线段,右边水平,这做为支持向量机代价函数的一项。令y=0,获得如图曲线,想要代价函数小的话,要求z远小于0;咱们继续用两条线段代替曲线,获得支持向量机的另外一项。这两项定义为cost1(z)、cost0(z)
image算法

  • 下边咱们开始构建支持向量机的代价函数:

(1)将逻辑回归代价函数的负号放到里边去,而后两个对数项替换成cost函数
(2)去掉1/m这一项。由于在一个样本集中,由于m是相同的,带不带对代价函数的大小比较没影响
(3)概念上的变化,不用正则化参数权衡平均偏差和正则化项,而是用C参数权衡(实际是同样的,能够看作1/正则化参数)
通过三步加工,咱们就获得了支持向量机的代价函数
image安全

  • 这里要注意逻辑回归和支持向量机的区别:

(1)逻辑回归输出的是几率,而后咱们人为规定一个临界值,判断0仍是1
(2)而支持向量机直接预测y是0仍是1
image网络

支持向量机:又称大间距分类器

  • 支持向量机又称为大间距分类器,咱们来看一下为何。咱们先考虑最小化支持向量机的代价函数要求什么:

(1)当y=1时,后边一项为0,只有z大于等于1时前边一项逼近0
(2)当y=0时,前边一项为0,只有z小于等于-1时后边一项逼近0机器学习

所以与逻辑回归仅要求正负或者本身定临界值不一样,支持向量机要求更高,要求1和-1(我的理解:不是非黑即白了,在正负标签间有一段空白间距,有了过渡地带)。这就至关于嵌入了额外的安全因子,增大了准确性
image函数

  • 综前,要让偏差项为0,就要知足这两个条件中的一个:

(1)y=1时,偏差项大小由cost1决定,要求z大于1
(2)y=0时,偏差项大小由cost0决定,要求z小于-1
image性能

  • 因为嵌入了安全因子,支持向量机的决策边界更加稳健。这是由于决策边界到训练样本有更大的最短距离。因为支持向量机的这个特性,有时又被称为大间距分类器

image

  • 若咱们将C参数设置的很是大(100000),那么偏差项的权重就会很是大,颇有可能由于一个异常点就改变了曲线的形状,这显然是不明智的

image

大间距分类背后的数学原理

  • 下边咱们看一下,为何这种代价函数可以让决策边界到训练样本有更大的间距
复习向量的内积运算

U转置乘V=V乘U的转置=V投影到U上的投影,乘U的模(投影是有符号的)
image学习

应用内积到支持向量机的代价函数
  • 咱们简化代价函数的参数0为0,只有两个特征,这使得咱们能把它放到二维坐标中表示

(1)当知足前边偏差项为0的条件之一时,代价函数只有正则化项一项,能够写做假设函数参数模的平方
(2)咱们假设样本集只有一个样本,那么z能够写做参数向量的模乘特征向量在参数向量上的投影,将乘积和1或者-1比较
image
(3)由于参数0为0,因此决策边界经过原点。由于参数变量和决策边界是正交的,因此参数向量和距离是平行的。当最短距离小时,特征向量的投影值也小,要符合一、-1的话,要求参数向量的模大,而参数向量的模大的话,代价函数的值就会变大,这与咱们尽可能要求代价函数小矛盾。这就是支持向量机能产生大间距分类的缘由
imagespa

  • 综上,支持向量机经过尽量缩小参数向量模的大小,来找到最大间距的决策边界

核函数

  • 在拟合非线性边界时,以前咱们通常经过构造多项式特征变量解决,可是这种方法计算量太大。在支持向量机中,咱们经过构造新的特征,来拟合非线性边界
    image
如何构造新的特征变量
  • 咱们手动选择一些点,用函数度量x和每一个点的类似度,这些类似度构成新的特征变量。其中,类似度函数就是核函数,核函数有许多种,这里咱们以高斯核函数为例

image

  • 核函数的直观感觉:当x和咱们选择的点接近时,分子接近0,f接近1;当x和选择的点隔得远时,分子比较大,f接近0.因此核函数就是度量x和标记点的类似度,接近为1,远离为0。其中每一个特征点l定义一个新的特征变量f

image

  • 核函数参数对核函数的影响:咱们用等高线图表示。当核函数参数变小,变密收缩;核函数参数变大,稀疏扩展

image

  • 定义了新的特征变量后,看下新的假设函数:假设咱们已经获得了假设参数。当训练样本接近l1点,f1接近1,f二、f3接近0,假设函数值为0.5,预测y=1;当训练样本远离时,f一、二、3都接近0,假设函数值为-0.5,预测y=0

image

相关文章
相关标签/搜索