class-支持向量机SVM全析笔记

时间 2020-05-22

标签 class 支持向量 svm 笔记繁體版

原文原文链接

support vector machines,SVM是二类分类模型。定义在特征空间上间隔最大的线性分类器，因为包括核技巧实质上成为非线性分类器。学习策略是间隔最大化，可形式化为求解凸二次规划问题（convex quadratic programming）。求解算法是求解凸二次规划的最优化算法。
SVM学习方法分为线性可分支持向量机(linear support vector machine in linearly separable case)、线性支持向量机(linear support vector machine)、非线性支持向量机(non-linear support vector machine)。当数据线性可分时，经过硬间隔最大化(hard margin maximization)学习线性svm称为硬间隔SVM。当数据近似线性可分，经过软间隔最大化(soft margin maximization)学习线性svm称为软间隔SVM。当数据线性不可分时，使用核技巧(kernel trick)及软间隔最大化学习非线性SVM。
当输入空间是欧式空间或离散集合，特征空间是希尔伯特空间，核函数(kernel function)表示将输入从输入空间映射到特征空间获得的特征向量之间的内积。核函数能够学习非线性svm，其实就是在更高维的特征空间中学习线性svm。

内容：

1 线性可分与硬间隔最大化
1.1 线性可分SVM
1.2 函数间隔和几何间隔
1.3 间隔最大化
1.4 求解最优化的算法：对偶算法（dual algorithm）
2 线性支持向量机与软间隔最大化
2.1 线性SVM
2.2 学习算法：dual algorithm
2.3 支持向量
2.4 合页损失函数hinge loss function
3 非线性支持向量机与核函数
3.1核技巧kernel trick
3.2 正定核positive define kernel function
3.3 经常使用核函数
3.4 非线性支持向量机
4 序列最小最优化算法sequential minimal optimization SMO
4.1 两个变量二次规划的解析方法
4.2 变量的选择方法

推荐svm理论基础的bloghtml

1 线性可分与硬间隔最大化

1.1 线性可分SVM

SVM的学习是在特征空间上进行的，SVM全部输入都是由输入空间转换到特征空间，可是在线性可分SVM和线性SVM中假设这两个空间元素一一对应，而非线性SVM中，是非线性映射。回顾线性可分的定义是存在一个线性函数可以将两类样本彻底分开的数据称为线性可分数据。
思想：给定特征空间的训练集T={(x1,x2),…(xN,yN)},X属于Rn，Y={+1，-1}称为正类，负类。学习的目标是在特征空间找到一个分离超平面，能将实例彻底分类。超平面方程w·x+b=0，法向量w，b截距，可用(w,b)来用。这里用间隔最大化来最优化分离超平面。
线性可分支持向量机定义：训练集经过间隔最大化或等价地求解相应凸二次规划问题学习model分离超平面；分类决策函数为。这里的超平面对应将线性可分数据正确划分且间隔最大。算法

1.2 函数间隔和几何间隔

一个点距离超平面的远近能够表示分类预测的确信程度，较远的可更为可信。函数间隔(function margin)的概念简单说就是用|w·x+b|可以相对的表示点x距离超平面的远近，w·x+b的符号与label y的符号是否一致表示分类是否正确，所以可用y(w·x+b)表示分类正确性和确信度。即超平面(w,b)关于样本点(xi,yi)的函数间隔为：
超平面的函数间隔全部样本点中函数间隔最小值：，表示超平面的预测正确性和确信度。
以上函数间隔存在问题：当法向量w，截距b成倍增长如2w，2b，超平面未变，可是函数间隔成为原来的2倍。
处理：将w规范化，如，||w||=1,||w||为L2范数，这就是几何间隔(geometric margin),即
（其实就是中学的点到直线的距离公式）
同理，超平面要求为全部样本点中几何间隔最小值。超平面关于样本点的几何间隔就是实例点到超平面的带符号距离(signed distance)
几何间隔和函数间隔的关系是：
虽然当||w||=1时两者相等，可是几何间隔由于归一化的问题，不会由于w，b的成倍变化而变化。函数

1.3 间隔最大化

知足分类条件的超平面可能有无穷多个，可是几何间隔最大化就将获得惟一超平面——称为硬间隔最大化。几何间隔最大的好处是可以对距离最近的点也能有很好的划分，即对未知数据的预测能力更强。学习

几何间隔最大化分离超平面
约束最优化问题：对几何间隔（约束：全部样本中最小间隔的的间隔）γ最大化。即

根据两者关系式可得

能够发现，函数间隔的成倍增长对于不等式的约束没有影响，对目标函数的优化也没有影响。取γ hat=1则1/||w||最大化等价于1/2（||w||2）,所以获得线性可分支持向量机学习最优化问题
（这就是凸二次规划问题(convex quadratic programming)）。
求解了本约束最优化问题，就能获得线性可分SVM模型。
最大间隔（maximum margin method）算法：

补充一下凸优化的概念：
凸优化问题就是约束最优化问题：

其中f为目标函数，g为约束函数，f，g均是R空间上连续可微的凸函数，约束函数h是R上的仿射函数（即形式y=ax+b，做为对比线性函数为y=ax）。
当目标函数f是二次函数且约束函数g是仿射函数时，凸优化问题就是凸二次规划问题。优化

最大间隔分离超平面的存在惟一性
这里要证实这个结论，分为两个存在性，惟一性。
存在性：
训练集线性可分，必存在可行解；目标函数有下界，必有解；训练集既有正类又有负类，所以(0,b)不是最优可行解
惟一性：
反证法，假设存在两个最优解。具体以下：
支持向量和间隔边界
支持向量(support vector)：线性可分状况下，训练数据集的样本点与分离超平面距离最近的样本点实例，对约束条件化简为：
正类点，支持向量H1在超平面：
负类点，支持向量H2在超平面：

H1与H2之间的距离称为间隔（margin），H1，H2称为间隔边界。
能够发现，支持向量决定分离超平面，其余点不起做用，故将这种方法称为SVM，支持向量不多但决定了model。

1.4 求解最优化的算法：对偶算法（dual algorithm）

对原始的最优化问题应用拉格朗日对偶性，求解对偶问题(dual problem)获得原始问题(primal problem)最优解。
首先构建Lagrange function：对约束引入拉格朗日乘子(Lagrange multuplier)，得，
其中，α为multiplier向量。
根据对偶性，原始问题转化为
分两步走：
*先求min部分：分别对w，b求偏导，并另偏导为0。
得，
将w的表达式代入L函数，同时利用第二个summation=0的条件消去一项得：

所以，获得，
spa

再求第二个部分max
将其换号转化为求极小值：
此式就是算法中使用的式子

这里补充一些基础知识：
[深刻理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件] http://blog.csdn.net/xianlingmao/article/details/7919597)
第二个理解博客.net

回到正题，如此将原始约束最优化问题转化为对偶最优化问题，原始最优化的解可求（具体可证）：
分离超平面为：；
分类决策函数为：
此式称为SVM的对偶形式，只依赖于输入x和训练样本xi的内积
线性可分SVM学习算法：

支持向量在定义：
称为SV。
支持向量必定在边界上，所以
αi*>0,故， or
注意：现实状况多是数据集含有噪声，致使数据集线性不可分。3d

2 线性支持向量机与软间隔最大化

2.1 线性SVM

简单来讲就是数据集中存在一些特异点(outlier)，正是由于这些点的存在致使数据变得线性不可分，容易想到的是除去这些点，数据集仍然变得线性可分。线性不可分意味着某些点不知足约束条件；
为了解决这个问题对每一个样本点(xi,yi)引入一个松弛变量ξi>=0,则约束条件为；
同时，对每一个松弛变量ξi，在目标函数引入ξi即
其中，C>0称为惩罚参数，C变大对误分类惩罚增大，变小误分类惩罚减少。最小化目标函数的两层含义：对最大间隔尽可能小；同时误分类点个数也尽可能小，C是调和两者的系数。从而能够根据上节内容来学习此处的svm模型，称为软间隔最大化。
线性不可分线性SVM学习模型：凸二次规划（原始问题）：

因这个问题是context quadratic programming，所以关于(w,b,ξ)的解是存在的，w惟一，b不惟一存在于某一区间。
经过求解上述凸优化问题获得分离超平面：；相应分类决策函数：，这就是线性支持向量机，比线性可分SVM更具备广适性。代理

2.2 学习算法：dual algorithm

对偶问题：

原始最优化拉格朗日函数为：，
对L的w，b，ξ求偏导=0，即获得对偶问题，求解对偶问题获得原始问题的解：

线性SVM算法：
htm

2.3 支持向量

线性不可分时，将对偶问题的解中对应于称为支持向量(软间隔的支持向量)
支持向量到边界的距离：
α和ξ对分类的影响：

此处书上讲解不太详细可看http://www.cnblogs.com/pinard/p/6100722.html
其中，这也是一系列SVM原理介绍。

2.4 合页损失函数hinge loss function

与以上思路（软间隔最大化，凸二次规划）不一样的是，最小化如下目标函数：

其中，第一项为经验风险，则合页损失函数为：，第二项为正规化项
右下角的“+”符号为取正值的函数：

L式的含义是：当样本点被正确分类且函数间隔大于1时损失为0，不然。
所以线性SVM原始最优化问题
等价于

合页损失函数是0-1损失函数的上界又称为代理损失函数(surrogate loss funtion)，虚线为感知机的损失函数，可见合页损失函数更靠右因此对学习提出更高的要求。

3 非线性支持向量机与核函数

3.1核技巧kernel trick

非线性分类问题
对于数据集中（此处仍是正负类），用一个超曲面才能将类别分开的叫作非线性可分。好比下图：用一个椭圆曲线将其分开。

非线性问题很差求解，故须要将非线性空间的点转化为线性空间的点，所以须要非线性变换

用线性方法求解非线性问题分为两步：

首先使用一个变换将原空间的数据映射到新空间；
在新空间用线性分类的学习方法从训练数据学习分类模型。
————这就是核技巧kernel trick的思想。
核技巧的基本想法：经过一个非线性变换将输入空间(欧式空间Rn或离散集合)对应于一个特征空间(希尔伯特空间H)，使得输入空间中超曲面模型对应于特征空间H中超平面模型(SVM)，分类问题的学习任务经过在特征空间求解线性SVM就能够完成。

核函数的定义

（注意是内积inner product）
φ(x)为映射函数，K(x,z)为核函数。
一般，在学习和预测中只定义核函数K而不显式的定义映射函数φ，由于直接计算K(x,z)更容易。注意到特征空间多是高维的甚至是无穷维的，对给定的核函数有不一样的特征空间和映射，即便同一特征空间映射也不一样。
核函数在SVM中的应用
在线性支持向量机的对偶问题中，不管是目标函数仍是决策函数都只涉及输入实例与训练实例之间的内积，若是将对偶问题中的内积xi·xj用核函数来代替K(xi,xj)=φ(xi)·φ(xj)，
对偶函数目标函数为：

分类决策函数为：

说明：映射函数将原来的输入空间的内积xi·xj变换为新的特征空间的内积φ(xi)·φ(xj)，在新的特征空间里，从训练样本中学习SVM，当映射函数是非线性函数时，学到的含有核函数的SVM是非线性分类模型。
要注意的是在给定K的条件下，解决非线性分类问题的SVM的学习是隐式的在特征空间进行，不须要显式的定义映射函数和特征空间，所以称为核技巧。核函数的有效性须要经过实验验证。

3.2 正定核positive define kernel function

由上可知映射函数是不知道的，那么一个函数K(x,z)知足什么样的条件才是核函数？——正定核。

补充矩阵知识：
正定：全部特征值均大于0；
半正定：全部特征值均大于等于0；
贴一个知乎回答：

用户语冰对特征值大于0与变换角度小于0的关系阐述：特征值就是原空间某一个基在变换后的空间的长度变化系数，大于0表示方向一致，小于0表示方向相反。变换后夹角小于90度，其实隐藏的含义是变换后的向量投影回原向量时方向不变。用特征值不小于零或者大于零的条件作限制能够更直观也更严格地表达出这一个特色
Gram矩阵：v1,v2,…,vn 是内积空间的一组向量，Gram 矩阵定义为： Gij=⟨vi,vj⟩，显然其是对称矩阵。
性质：Gram矩阵是半正定的；
一个重要应用是计算线性无关：一组向量线性无关当且仅当 Gram行列式不等于0.

定义映射，构成向量空间S
先定义一个映射φ：；
定义线性组合：，；
线性组合为元素的集合S，因为S对加法和数乘封闭，因此S构成一个向量空间。
在S上定义内积，使其成为内积空间

定义运算''：
要证''是空间S的内积，只需证

证实以上得出结论S是内积空间：
将内积空间S完备化为希尔伯特空间
求f的范数：，所以S为赋范向量空间，泛函理论得知分析得知不完备的赋范向量空间必定能够完备化获得完备赋范向量空间H。一个内积空间看成为一个赋范向量空间是完备的时候就是希尔伯特空间。
——称为再生核希尔伯特空间（reproducing kernel Hilbert space）。因为核K具备再生性，即知足，
——称为再生核
正定核的充要条件

定义7.7对于构造核函数很是有用。可是对于一个具体核函数来讲检验其是否为正定核并不容易。实际问题中经常应用已有的核函数。

3.3 经常使用核函数

多项式核函数polynomial kernel function

对应SVM是一个p次多项式分类器，在此状况下，分类决策函数为
高斯核函数Gaussian kernel function

对应的SVM是高斯径向基函数radial basis function分类器，分类决策函数为：
字符串核函数string kernel function
核函数不只能够定义在欧式空间上，还能够定义在离散数据集合上。字符串核函数是定义在字符串集合上的核函数，在文本分类，信息检索，生物信息学等方面都有应用。
书上讲解十分学术化所以，这里推荐一个博客：http://blog.csdn.net/shijing_0214/article/details/51134802

长度的定义是指定序列下的序列号，从1开始，好比lass das，的asd序列号为(2,3,6)和(2,4,6)因此长度为5所以这里映射后为2λ^5.
两个字符串s，t上的字符串核函数是基于映射φn的特征空间中的内积：

字符串核函数kn(s,t)给出了字符串s，t中长度等于n的全部子串组成的特征向量余弦类似度(cosine similarity)。两个字符串相同的子串越多，他们越类似，字符串核函数的值就越大。

3.4 非线性支持向量机

利用核技巧能够将线性分类的学习方法应用到非线性分类问题上，将线性SVM扩展到非线性SVM中，只需将线性SVM对偶形式中的内积函数换成核函数。
非线性SVM学习算法：

4 序列最小最优化算法sequential minimal optimization SMO

凸二次规划问题具备全局最优解，可是当训练样本很大时，这种求解算法很低效。故这里提出一个SMO算法，以快速实现(1998年 Platt提出)。
要解决的问题是：凸二次规划的对偶问题

SMO基本思路：启发式算法，KKT条件时最优化问题的充要条件，若是知足则解就获得了。不然，选择两个变量，固定其余变量，针对这两个变量构建二次规划问题，这就使得原始问题变得更小，能够经过解析方法获得，提升计算速度；应该要求关于这两个变量的解更接近于原始二次规划的解。注意子问题有两个变量，一个是违反KKT条件最严重的一个，另一个由约束条件自动肯定，如此SMO将原问题不断分解为子问题求解，进而达到求解原始问题的目的。
好比，将约束条件中假设两个变量alpha1，alpha2，其余固定，那么等式约束为：

SMO算法包括两部分：两个变量二次规划的解析方法，选择变量的启发式方法。

4.1 两个变量二次规划的解析方法

仍是假设两个变量为alpha1，alpha2，则：

目标函数省略了不含这两个变量的常数项，ζ是常数。
首先观察约束条件，而后在约束条件下求解：

通过画图和变形，发现这已经变成中学学过的线性规划的问题，这里不等式约束变成一个区域，等式约束变成一条平行于正方形约束区域的对角线的直线，两个变量可相互表示，所以两个变量最优解的问题变成了单变量最优化的问题。

4.2 变量的选择方法

选择两个变量，至少一个变量严重违反KKT条件。

第一个变量选择
SMO中将选择第一个变量称为外层循环。外层循环选择训练样本中违反KKT条件最严重的样本点，检验方法是：

说明：该检验是在范围内进行的。检验过程当中，外层循环首先遍历全部知足条件的样本点，即在间隔边界上的支持向量点，检验他们是否知足KKT条件。若这些均知足，那么遍历整个训练集检验他们是够知足KKT条件。
第二个变量的选择
SMO称这个选择为内层循环。假设外层循环找到alpha1，那么这里alpha2的要求是但愿alpha2能有足够大的变化。根据以上手写的结论，alpha2 依赖于|E1-E2|,若是alpha1已经找到则E1也会肯定。若是E1是正的，那么选择最小的Ei做为E2，若是E1是负的，那么选择最大的Ei做为E2。为了节省计算时间，将全部的Ei保存在一个列表中。
特殊状况下，若是内层循环经过以上方法选择的alpha2不能不能使目标函数有足够的降低，那么采用启发式规则继续选择，遍历间隔边界上的支持向量点，一次对alpha2进行试用，直到目标函数有足够的降低。若找不到合适的，遍历整个训练集，若扔找不到合适的，放弃alpha1，再经过外层循环寻求另外的alpha1。
计算阈值b，和差值Ei

合并化简后：

每次完成两个变量的优化后，还必须更新对应的Ei值，并将它们保存在Ei表中

b1，b2的关系：

SMO算法：

总结SMO：

推荐博客：https://www.cnblogs.com/jerrylead/archive/2011/03/18/1988419.html