说实话,凡是涉及到要证实的东西(理论),通常都很差惹。绝大多数时候,看懂一个东西不难,但证实一个东西则须要点数学功底,进一步,证实一个东西也不是特别难,难的是从零开始发明这个东西的时候,则显得艰难(由于任什么时候代,大部分人的研究所得都不过是基于前人的研究成果,前人所作的是开创性的工做,而这每每是最艰难最有价值的,他们被称为真正的先驱。牛顿也曾说过,他不过是站在巨人的肩上,你,我更是如此)。html
正如陈希孺院士在他的著做《数理统计学简史》的第四章,最小二乘法中所讲:在科研上诸多观念的革新和突破是有着不少的不易的,或者某个定理在某个时期由有我的点破了,如今的咱们看来一切都是理所固然,但在一切没有发现以前,可能许许多多的顶级学者毕其功于一役,耗尽一辈子,努力了几十年最终也是无功而返。web
上一节我学习了SVM的核函数内容,下面继续对SVM进行证实,具体的参考连接都在第一篇文章中,SVM四篇笔记连接为:算法
话休絮烦,要证实一个东西先要弄清楚它的根基在哪里,即构成它的基础是哪些理论。OK,如下内容基本上都是上文没有学习到的一些定理的证实,包括其背后的逻辑,来源背景等东西。机器学习
本文包括内容:函数
一样,在学习这些以前,咱们再复习一下SVM,这里使用(http://staff.ustc.edu.cn/~ketang/PPT/PRLec5.pdf)的PPT来学习。post
这里直接借用别人的PPT粘贴在这里,让本身再梳理一遍SVM。性能
这个感知器算法是在1956年提出的,年代久远,依然影响着当今,固然,能够确定的是,此算法亦非最优,后续会有更详尽阐述。不过,有一点,你必须清楚,这个算法是为了干什么的:不断的训练试错以期寻找一个合适的超平面。学习
下面,举个例子。以下图所示,凭咱们的直觉能够看出,图中红线是最优超平面,蓝线则是根据感知机算法在不断的训练中,最终,若蓝线能经过不断的训练移动到红线位置上,则表明训练成功。优化
既然须要经过不断的训练以让蓝线最终成为最优分类超平面,那么到底须要训练多少次呢?ui
Novikoff 定理告诉咱们当间隔是正的时候感知机算法会在有限次数的迭代中收敛,也就是说 Novikoff 定理证实了感知机算法的收敛性,即能获得一个界,不至于无穷循环下去。
Novikoff 定理:若是分类超平面存在,仅须要在序列 S 上迭代几回,在界为 (2R / γ)2 的错误次数下就能够找到分类超平面,算法中止。
这里的 R = max1<=i<=l||Xi|| ,γ 为扩充间隔。根据误分次数公式可知,迭代次数与对应于扩充(包括偏置)权重的训练集的间隔有关。
顺便再解释下这个所谓的扩充间隔 γ , γ 即为样本到分类间隔的距离,即从 γ 引出的最大分类间隔。以前咱们推导过的内容,以下:
在给出几何间隔的定义以前,我们首先来看下,如上图所示,对于一个点 x,令其垂直投影到超平面上的对应的为 x0,因为 w 是垂直于超平面的一个向量, γ 为样本 x 到分类间隔的距离,咱们有:
同时有一点值得注意:感知机算法虽然能够经过简单迭代对线性可分数据生成正确分类的超平面,但不是最优效果,那怎么才能获得最优效果呢,就是前面博文说的寻找最大分类间隔超平面。此外,Novikoff定理的证实请参考:http://www.cs.columbia.edu/~mcollins/courses/6998-2012/notes/perc.converge.pdf
Mercer定理:若是函数 K 是 Rn *Rn - R 上的映射(也就是从两个 n 维向量映射到实数域)。那么若是K是一个有效核函数(也称为 Mercer 核函数),那么当且仅当对于训练样例 { x(1), x(2), ... x(m)},其相应的核函数矩阵是对称半正定的。
Mercer定理代表为了证实K是有效的核函数,那么咱们不用去寻找 Φ ,而只须要在训练集上求出各个 Kij,而后判断矩阵K是不是半正定(使用左上角主子式大于等于零等方法)便可。
要理解这个 Mercer定理,先要了解什么是半正定矩阵,要了解什么是半正定矩阵,先得知道什么是正定矩阵(矩阵理论博大精深,关于矩阵推荐一本书《矩阵分析与应用》),而后关于Mercer定理的证实参考:http://ftp136343.host106.web522.com/a/biancheng/matlab/2013/0120/648.html
其实,核函数在SVM的分类效果中起到了重要的做用,下面连接有个 tutorial能够看看:https://people.eecs.berkeley.edu/~bartlett/courses/281b-sp08/7.pdf
在百度百科,正定矩阵的定义以下:在线性代数里,正定矩阵(positive definite materix)有时会简称为正定阵。在线性代数中,正定矩阵的性质相似于复数中的正实数。与正定矩阵相对应的线性算子是对称的正定双线性形式。
广义的定义:设 M 为 n 阶方阵,若是对任何非零向量 z,都有 zTMz > 0,其中 zT 表示 z 的转置,就称 M 为正定矩阵。
狭义的定义:一个 n 阶的实对称矩阵 M 是正定的条件是当且仅当对全部的非零实系数向量 z,都有 zTMz > 0,其中 zT 表示 z 的转置。
正定矩阵的性质:
以前提到过“支持向量机(SVM)是 90 年代中期发展起来的基于统计学习理论的一种机器学习方法,经过寻找结构化风险最小来提升学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的状况下,亦能得到良好统计规律的目的。”但初次看到的人可能不了解什么是结构化风险,什么又是经验风险。要了解这两个所谓的“风险”,还得从监督学习提及。
监督学习实际上就是一个经验风险或者结构风险函数的最优化问题。风险函数度量平均意义下模型预测的好坏,模型每一次预测的好坏用损失函数来度量。它从假设空间 F 中选择模型 f 做为决策函数,对于给定的输入 X,由 f(x) 给出相应的输出 Y,这个输出的预测值 f(X)与真实值 Y 可能一致也可能不一致,用一个损失函数来度量预测错误的程度。损失函数记为 L(Y, f(X))。
经常使用损失函数有如下几种(摘抄于《统计学习方法》):
(1) 0-1 损失函数
(2)平方损失函数
(3)绝对损失函数
(4)对数损失函数
给定一个训练数据集
模型 f(X) 关于训练数据集的平均损失称为经验风险,以下:
关于如何选择模型,监督学习有两种策略:经验风险最小化和结构风险最小化。
经验风险最小化的策略认为,经验风险最小的模型就是最优的模型,则按照经验风险最小化求最优模型就是求解以下的最优化问题:
当样本容量很小时,经验风险最小化的策略容易产生过拟合的现象。结构风险最小化能够防止过拟合。结构风险是在经验风险的基础上加上表示模型复杂度的正则化项或惩罚项,结构风险定义以下:
其中 J(f) 为模型的复杂度,模型 f 越复杂,J(f) 值就越大,模型越简单,J(f) 值就越小,也就是说J(f)是对复杂模型的乘法。λ>=0 是系数,用以衡量经验风险和模型复杂度。结构风险最小化的策略认为结构风险最小的模型是最优的模型,因此求最优的模型就是求解下面的最优化问题:
这样,简单学习问题就变成了经验风险或结构化风险函数的最优化问题。如上式最优化问题的转换。
这样一来,SVM就有第二种理解,即最优化+损失最小。如网友所言:“能够从损失函数和优化算法角度看SVM,Boosting,LR等算法,可能会有不一样收获”。
关于损失函数:能够看看张潼的这篇《Statistical behavior and consistency of classification methods based on convex risk minimization》。各类算法中经常使用的损失函数基本都具备fisher一致性,优化这些损失函数获得的分类器能够看做是后验几率的“代理”。此外,张潼还有另一篇论文《Statistical analysis of some multi-category large margin classification methods》,在多分类状况下margin loss的分析,这两篇对Boosting和SVM使用的损失函数分析的很透彻。
关于统计学习方法的问题,能够参考:https://people.eecs.berkeley.edu/~bartlett/courses/281b-sp08/7.pdf
下面引用《正态分布的前世此生》里的内容稍微简单阐述一下。
咱们口头常常常常说:通常来讲,平均来讲。如平均来讲,不吸烟的健康优于吸烟者,之全部要加“平均” 二字,是由于凡是皆有例外,总存在某个特别的人他吸烟但因为常常锻炼因此他的健康情况可能会优于他身边不吸烟的盆友。而最小二乘的一个最简单例子即是算术平均。
最小二乘法(又称最小平方法)是一种数学优化技术。它经过最小化偏差的平方和寻找数据的最佳函数匹配。利用最小二乘法能够简便的求得未知的数据,并使得这些求得的数据与实际数据之间偏差的平方和为最小。用函数表示为:
使偏差(所谓偏差,固然是观察值与实际真实值的差量)平方和达到最小以寻求估计值的方法,就叫作最小二乘法,用最小二乘法获得的估计,叫作最小二乘估计。固然,取平方和做为目标函数只是众多可取的方法之一。
最小二乘法的通常形式可表示为:
有效的最小二乘法是勒让得在1805年发表的,基本思想就是认为测量中有偏差,因此全部方程的累积偏差为:
咱们求解出致使累积偏差最小的参数便可:
勒让得在论文中对最小二乘法的优良性作了几点说明:
对于最后一点,从统计学的角度来看是很重要的一个性质。推理以下:假设真值为 Θ ,x1,.....xn 为 n 次测量值,每次测量的偏差为 ei = xi - Θ,按最小二乘法,偏差累积为:
求解 Θ 使 L(Θ) 达到最小,正好是算术平均 xhat,其公式以下:
因为算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘的一个特例,因此从另一个角度说明了最小二乘方法的优良性,使咱们对最小二乘法更加有信息。
最小二乘法发布以后很快获得了你们的承认接受,并迅速的在数据分析实践中被普遍使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢?高斯在 1809 年也发表了最小二乘法,而且声称本身已经使用了这个方法多年。高斯发明了小行星定位的数学方法,并在数据分析中使用最小二乘方法进行计算,准确的预测了谷神星的位置。
说了这么多,貌似与SVM没啥关系,可是别着急,请继续听,本质上说,最小二乘法便是一种参数估计方法,说到参数估计,我们从一元线性模型提及。
什么是一元线性模型呢?咱们引用(https://blog.csdn.net/qll125596718/article/details/8248249)的内容,先来梳理一下几个基本的概念:
对于一元线性回归模型,假设从整体中获取了 n 组观察值(X1, Y1),(X2, Y2),...(Xn, Yn)。对于平面中的这 n 个点,可使用无数条曲线来拟合。要求样本回归函数尽量好的拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。
选择最佳拟合曲线的标准能够肯定为:使总的拟合偏差(即总残差)达到最小,有如下三个标准能够选择:
最经常使用的是普通最小二乘法(Ordinary Least Square, OLS ):所选择的回归模型应该使全部观察值的残差平方和达到最小,即采用平方损失函数。
咱们定义样本回归模型为:
获得偏差 ei (ei为样本)为:
接着,定义平方损失函数 Q:
则经过Q最小肯定这条直线,即肯定 β0hat, β1hat, β0hat, β1hat为变量,把它们看作是 Q 的函数,就变成了一个求极值的问题,能够经过求导数获得。
求 Q 对两个待估参数的偏导数:
根据数学知识咱们知道,函数的极值点为偏导为 0 的点,解得:
这就是最小二乘法的解法,就是求得平方损失函数的极值点。自此,咱们能够看到求解最小二乘法和求解SVM是何等类似,尤为是定义损失函数,然后经过偏导求极值。
不管Hard Margin 或 Soft Margin SVM,咱们均给出了SVM的对偶问题,但并无说明对偶问题怎么求解。因为矩阵Q的规模和样本数相等,当训练样本数很大的时候,这个矩阵的规模很大,求解二次规划问题的经典算法会遇到性能问题,也就是说同时求解 n 个拉格朗日乘子涉及不少次迭代,计算开销太大,因此通常采用 Sequential Minimal Optimization(SMO)算法。
SMO算法的基本思想:每次只更新两个乘子,迭代得到最终解。
上文中,咱们提到了求解对偶问题的序列最小最优化 SMO 算法,但并未提到其具体解法。首先看下最后悬而未决的问题:
等价于求解:
1998年,Microsoft Research 的John C. Platt 在论文《Sequential Minimal Optimization:A Fast Alogrithm for Training Support Vector Machines》中提出针对上述问题的解法:SMO算法,它很快便成为最快的二次规划优化算法,特别是针对线性SVM和数据稀疏时性能更优。这个算法的思路是每次在优化变量中挑出两个份量进行优化,而让其余份量固定,这样才能保证知足等式约束条件,这是一种分治法的思想。
接下来,咱们便参考 John C.Platt 的文章(找不到了。。。)来看看 SMO的解法。
首先咱们来定义特征到结果的输出函数:
注:这个 u 与咱们以前定义的 f(x) 实质上是同样的。
接着,从新定义下咱们原始的优化问题,权当从新回顾,以下:
求导获得:
代入 u 的公式中,可得:
经过引入拉格朗日乘子转换为对偶问题后,得:
注:这里获得的 min 函数与咱们以前的 max 函数实质上也是同样,由于把符号变下,即由 min 转换为 max 的问题,且 yi也与以前的 y(i) 等价,yj 亦如此。
通过加入松弛变量后,模型修改成:
从而最终咱们的问题变为:
下面要解决的问题是:在 αi = { α1, α2, α3,......, αn} 上求上述目标函数的最小值。为了求解这些乘子,每次从中任意抽取两个乘子 α1 和 α2,而后固定 α1 和 α2 之外的乘子 {α3, α4,....αn},使得目标函数只是关于 α1 和 α2 的函数。这样,不断的从一堆乘子中任意抽取两个求解,不断地迭代求解子问题,最终达到求解原问题的目的。
(注意:下面均使用两个相同的表达式,是参考了两个方法,而且这两个方法均易于理解,能够说我先看第一个公式的文章,而后偶尔有次看到第二个公式的文章,发现也很好理解,因此粘贴在这里,特意说明)
咱们首先给出对于这两个常量的优化问题(称为子问题)的求解方法。假设选取的两个份量为 αi, αj,其余份量都固定(即当作常数)。因为:
因此对偶问题的子问题的目标函数能够表达为:
(更普及一点,能够写成下面这样)
其中C是一个常数,前面的二次项很容易计算出来,一次项要复杂一些,而且:
这里的变量 α* 为变量 a 在上一轮迭代后的值。上面的目标函数是一个两变量的二次函数,咱们能够直接给出最小值的解析解(公式解)。
为了解决这个子问题,首要问题即是每次如何选取 α1 和 α2。实际上,其中一个乘子是违反 KKT条件最严重的,另一个乘子则由另外一个约束条件选取。
根据KKT条件能够获得目标函数中 αi 取值的意义:
这里的 αi 仍是拉格朗日乘子:
而最优解须要知足KKT 条件,即上述三个条件都得知足,如下几种状况出现将会出现不知足:
也就是说,若是存在不知足 KKT 条件的 αi ,那么须要更新这些 αi ,这是第一个约束条件。此外,更新的同时还要受到第二个约束条件的限制,即:
所以,若是假设选择的两个乘子 α1 和 α2 ,他们在更新以前分别是 α1old 和 α2old,更新以后分别是 α1new 和 α2new,那么更新先后的值须要知足如下等式才能保证和为 0 的约束:
其中,ξ 是常数,(上面两个式子都同样,只不过第二个更容易理解)。
两个因子很差同时求解,因此可选求第二个乘子 α2 的解(α2new),获得 α2 的解(α2new)以后,再利用 α2 的解(α2new)表示 α1 的解(α1new).
为了求解 α2 的解(α2new),得先肯定 α2new 的取值范围。假设它的上下边界分别为 H 和 L,那么有:
接下来,综合下面两个约束条件,求解 α2new 的取值范围:
因为 yi, yj(也能够说为 y1 y2)的取值只能为 +1 或者 -1,那么当他们异号,也就是当 y1 != y2 时,根据:
可得: α1old - α2old = ξ ( αi - αj = ξ),它肯定的可行域是一条斜率为1的直线段,由于αi αj 要知足约束条件
他们的可行域以下图所示:
上面两条直线分别对应于 y1为 +1 和 -1 的状况。若是是上面那条直线,则 αj 的取值范围为 [-ξ, C]。若是是下面的那条直线,则为 [0,C-ξ]。
对于这两种状况 αj 的下界和上界能够统一写成以下形式:
由于 αi - αj = ξ ,因此又能够写为: L = max (0, -ξ), H = min(C, C-ξ)
下边界是直线和 x 轴交点的 x 坐标以及 0 的较大值;上边界是直线和的交点的 x 坐标和 C 的较小值。
再来看第二种状况,若是 yi yj 同号,即当 y1 = y2 时,一样根据:
可得: α1old + α2old = ξ ( αi + αj = ξ ),因此有:
根据 αi + αj = ξ , 上式也可写为:L = max (0, ξ - C), H = min(C, ξ)
这种状况以下图所示:
如此,根据这两个变量的等式约束条件( y1 和 y2 异号或者同号),能够消掉α2old ,可得出 α2new 的上下界分别为:
回顾下第二个约束条件:
下面咱们来计算不考虑截断时的函数极值。为了不分 -1 和 +1 两种状况,咱们将上面的等式约束两边同时乘以 y1(第二种表达是乘以yi),可得:
其中 α1 能够用 α2 表示,α1 = w - s*α2,从而咱们把子问题的目标函数转换为只含 α2 的问题:
对 α2 求导(即对自变量求导),并令导数为零,可得:
因为:
化简下:
而后将:
代入上式,可得:
下面令(其中 Ei 表示预测值与真实值之差):
而后上式两边同时除以 η ,获得一个关于单变量 α2 的解:
在求得 αj 以后,根据等式约束条件咱们就能够求得另一个变量的值:
目标函数的二阶导数为 η,前面假设二阶导数 η > 0,从而保证目标函数是凸函数即开口向上的抛物线,有极小值。若是 η < 0 或者 η = 0,该怎么处理?对于线性核或正定核函数,能够证实矩阵K的任意一个上述子问题对应的二阶子矩阵半正定,所以一定有 η >= 0。不管本次迭代时的初始值是多少,经过上面的子问题求解算法获得是在可行域里的最小值,所以每次求解更新这两个变量的值以后,都能保证目标函数值小于或者等于初始值,即函数值降低。
这个解没有考虑其约束条件 0 <= α2 <= C,便是未经剪辑时的解。
而后考虑约束 0 <= α2 <= C 可获得通过剪辑后的 α2new 的解析解为:
(若是用αi,αj表示,则咱们求的这个二次函数的最终极值点为:)
求出了 α2new后,即可以求出α1new ,得:
这三种状况下的二次函数极小值以下图所示:
上图中第一种状况是抛物线的最小值点在 [L, H]中;第二种状况是抛物线的最小值点大于 H,被截断为H;第三种状况是小于L,被截断为L。
那么如何选择乘子 α1 和 α2呢?
而 b 知足下述条件:
下面更新 b:
且每次更新完两个乘子的优化后,都须要再从新计算 b,及对应的 Ei值。
最后更新全部的 αi,y 和 b,这样模型就出来了,从而便可求出我们开头提出的分类函数:
此外,这里有一篇相似的文章,你们能够参考下(https://www.cnblogs.com/jerrylead/archive/2011/03/18/1988419.html)。
综上,总结下SMO的主要步骤,以下:
意思是:
假定在某一次迭代中,须要更新 x1,x2 对应的拉格朗日乘子 α1,α2,那么这个小规模的二次规划问题写为:
那么在每次迭代中,如何更新乘子呢?引用下面地址(http://staff.ustc.edu.cn/~ketang/PPT/PRLec5.pdf)的两张PPT说明下:
知道了如何更新乘子,那么选取哪些乘子进行更新呢?具体有如下两个步骤:
最后,每次更细完两个乘子的优化后,都须要再从新计算 b,及对应的 Ei 值。
综上,SMO算法的基本思想是把 Vapnik 在 1982年提出的 Chunking方法推到极致,SMO算法每次迭代只选出两个份量 ai 和 aj 进行调整,其余份量则保持固定不变,在获得 解 ai 和 aj 以后,再用 ai 和 aj 改进其余份量。与一般的分解算法比较,尽管它可能须要更多的迭代次数,但每次迭代的计算量比较小,因此该算法表现出较好的快速收敛性,且不须要存储核函数,也没有矩阵运算。
行文至此,我相信,SVM理解到了必定程度后,是的确能在脑海里从头至尾推导出相关公式的,最初分类函数,最大化分类间隔,max1/||w||,min1/2||w||^2,凸二次规划,拉格朗日函数,转化为对偶问题,SMO算法,都为寻找一个最优解,一个最优分类平面。一步步梳理下来,为何这样那样,太多东西能够追究,最后实现。
至于上文中将阐述的核函数则是为了更好的处理非线性可分的状况,而松弛变量则是为了纠正或约束少许“不安分”或脱离集体很差归类的因子。
台湾的林智仁教授写了一个封装SVM算法的libsvm库,你们能够看看,此外这里还有一份libsvm的注释文档。在这篇论文《fast training of support vector machines using sequential minimal optimization》中platt给出了SMO算法的逻辑代码。
优势:
缺点:
这篇文章主要参考:https://mp.weixin.qq.com/s/ZFWJUazMbAqeoSIkXjuG5g