机器学习（13）：吴恩达笔记

时间 2021-02-19

标签算法安全网络机器学习函数性能学习 spa 3d blog 栏目系统安全繁體版

原文原文链接

前边咱们已经学习了线性回归和逻辑回归、神经网络一系列监督学习算法，而且得出结论：在机器学习中，重要的不是使用算法a仍是算法b，而是是否能收集到大量数据。而且算法的性能很是依赖使用者的我的水平，如特征向量的选择、正则化参数的选择
接下来，咱们讨论最后一个监督学习算法：支持向量机（SVM）。与逻辑回归和神经网络相比，SVM为学习复杂的非线性方程提供了一种更强大的方式

从逻辑回归讲起

咱们从逻辑回归开始，一点点的修改，逐渐改成实质上的支持向量机：

（1）首先考虑，咱们要想逻辑回归干啥。当样本y=1时，假设函数h趋近1，即向量乘积远大于0；当样本y=0时，假设函数h趋近0，即向量乘积远小于0

（2）接着咱们观察逻辑回归的代价函数只有一个样本即m=1时的样子。咱们令y=1，获得如图曲线，这时想让代价函数小的话，要求z远大于0；咱们将这条曲线修改成两条线段，右边水平，这做为支持向量机代价函数的一项。令y=0，获得如图曲线，想要代价函数小的话，要求z远小于0；咱们继续用两条线段代替曲线，获得支持向量机的另外一项。这两项定义为cost1（z）、cost0（z）
算法

下边咱们开始构建支持向量机的代价函数：

（1）将逻辑回归代价函数的负号放到里边去，而后两个对数项替换成cost函数
（2）去掉1/m这一项。由于在一个样本集中，由于m是相同的，带不带对代价函数的大小比较没影响
（3）概念上的变化，不用正则化参数权衡平均偏差和正则化项，而是用C参数权衡（实际是同样的，能够看作1/正则化参数）
通过三步加工，咱们就获得了支持向量机的代价函数
安全

这里要注意逻辑回归和支持向量机的区别：

（1）逻辑回归输出的是几率，而后咱们人为规定一个临界值，判断0仍是1
（2）而支持向量机直接预测y是0仍是1
网络

支持向量机：又称大间距分类器

支持向量机又称为大间距分类器，咱们来看一下为何。咱们先考虑最小化支持向量机的代价函数要求什么：

（1）当y=1时，后边一项为0，只有z大于等于1时前边一项逼近0
（2）当y=0时，前边一项为0，只有z小于等于-1时后边一项逼近0机器学习

所以与逻辑回归仅要求正负或者本身定临界值不一样，支持向量机要求更高，要求1和-1（我的理解：不是非黑即白了，在正负标签间有一段空白间距，有了过渡地带）。这就至关于嵌入了额外的安全因子，增大了准确性
函数

综前，要让偏差项为0，就要知足这两个条件中的一个：

（1）y=1时，偏差项大小由cost1决定，要求z大于1
（2）y=0时，偏差项大小由cost0决定，要求z小于-1
性能

因为嵌入了安全因子，支持向量机的决策边界更加稳健。这是由于决策边界到训练样本有更大的最短距离。因为支持向量机的这个特性，有时又被称为大间距分类器

若咱们将C参数设置的很是大（100000），那么偏差项的权重就会很是大，颇有可能由于一个异常点就改变了曲线的形状，这显然是不明智的

大间距分类背后的数学原理

下边咱们看一下，为何这种代价函数可以让决策边界到训练样本有更大的间距

复习向量的内积运算

U转置乘V=V乘U的转置=V投影到U上的投影，乘U的模（投影是有符号的）
学习

应用内积到支持向量机的代价函数

咱们简化代价函数的参数0为0，只有两个特征，这使得咱们能把它放到二维坐标中表示

（1）当知足前边偏差项为0的条件之一时，代价函数只有正则化项一项，能够写做假设函数参数模的平方
（2）咱们假设样本集只有一个样本，那么z能够写做参数向量的模乘特征向量在参数向量上的投影，将乘积和1或者-1比较

（3）由于参数0为0，因此决策边界经过原点。由于参数变量和决策边界是正交的，因此参数向量和距离是平行的。当最短距离小时，特征向量的投影值也小，要符合一、-1的话，要求参数向量的模大，而参数向量的模大的话，代价函数的值就会变大，这与咱们尽可能要求代价函数小矛盾。这就是支持向量机能产生大间距分类的缘由
spa

综上，支持向量机经过尽量缩小参数向量模的大小，来找到最大间距的决策边界

核函数

在拟合非线性边界时，以前咱们通常经过构造多项式特征变量解决，可是这种方法计算量太大。在支持向量机中，咱们经过构造新的特征，来拟合非线性边界

如何构造新的特征变量

咱们手动选择一些点，用函数度量x和每一个点的类似度，这些类似度构成新的特征变量。其中，类似度函数就是核函数，核函数有许多种，这里咱们以高斯核函数为例

核函数的直观感觉：当x和咱们选择的点接近时，分子接近0，f接近1；当x和选择的点隔得远时，分子比较大，f接近0.因此核函数就是度量x和标记点的类似度，接近为1，远离为0。其中每一个特征点l定义一个新的特征变量f

核函数参数对核函数的影响：咱们用等高线图表示。当核函数参数变小，变密收缩；核函数参数变大，稀疏扩展

定义了新的特征变量后，看下新的假设函数：假设咱们已经获得了假设参数。当训练样本接近l1点，f1接近1，f二、f3接近0，假设函数值为0.5，预测y=1；当训练样本远离时，f一、二、3都接近0，假设函数值为-0.5，预测y=0