From:http://science.dataguru.cn/article-10491-1.htmlhtml
第一层、了解SVM算法
支持向量机,因其英文名为support vector machine,故通常简称SVM,通俗来说,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略即是间隔最大化,最终可转化为一个凸二次规划问题的求解。机器学习
1.一、分类标准的起源:Logistic回归ide
理解SVM,我们必须先弄清楚一个概念:线性分类器。函数
给定一些数据点,它们分别属于两个不一样的类,如今要找到一个线性分类器把这些数据分红两类。若是用x表示数据点,用y表示类别(y能够取1或者-1,分别表明两个不一样的类),一个线性分类器的学习目标即是要在n维的数据空间中找到一个超平面(hyper plane),这个超平面的方程能够表示为( wT中的T表明转置):性能
可能有读者对类别取1或-1有疑问,事实上,这个1或-1的分类标准起源于logistic回归。学习
Logistic回归目的是从特征学习出一个0/1分类模型,而这个模型是将特性的线性组合做为自变量,因为自变量的取值范围是负无穷到正无穷。所以,使用logistic函数(或称做sigmoid函数)将自变量映射到(0,1)上,映射后的值被认为是属于y=1的几率。测试
假设函数优化
其中x是n维特征向量,函数g就是logistic函数。ui
能够看到,将无穷映射到了(0,1)。
而假设函数就是特征属于y=1的几率。
1.二、线性分类的一个例子
下面举个简单的例子,以下图所示,如今有一个二维平面,平面上有两种不一样的数据,分别用圈和叉表示。因为这些数据是线性可分的,因此能够用一条直线将这两类数据分开,这条直线就至关于一个超平面,超平面一边的数据点所对应的y全是 -1 ,另外一边所对应的y全是1。
换言之,在进行分类的时候,遇到一个新的数据点x,将x代入f(x) 中,若是f(x)小于0则将x的类别赋为-1,若是f(x)大于0则将x的类别赋为1。
接下来的问题是,如何肯定这个超平面呢?从直观上而言,这个超平面应该是最适合分开两类数据的直线。而断定“最适合”的标准就是这条直线离直线两边的数据的间隔最大。因此,得寻找有着最大间隔的超平面。
1.三、函数间隔Functional margin与几何间隔Geometrical margin
在超平面w*x+b=0肯定的状况下,|w*x+b|可以表示点x到距离超平面的远近,而经过观察w*x+b的符号与类标记y的符号是否一致可判断分类是否正确,因此,能够用(y*(w*x+b))的正负性来断定或表示分类的正确性。于此,咱们便引出了函数间隔(functional margin)的概念。
但这样定义的函数间隔有问题,即若是成比例的改变w和b(如将它们改为2w和2b),则函数间隔的值f(x)却变成了原来的2倍(虽然此时超平面没有改变),因此只有函数间隔还远远不够。
事实上,咱们能够对法向量w加些约束条件,从而引出真正定义点到超平面的距离--几何间隔(geometrical margin)的概念。
1.四、最大间隔分类器Maximum Margin Classifier的定义
对一个数据点进行分类,当超平面离数据点的“间隔”越大,分类的确信度(confidence)也越大。因此,为了使得分类的确信度尽可能高,须要让所选择的超平面可以最大化这个“间隔”值。这个间隔就是下图中的Gap的一半。
OK,到此为止,算是了解到了SVM的第一层,对于那些只关心怎么用SVM的朋友便已足够,没必要再更进一层深究其更深的原理。
第二层、深刻SVM
2.一、从线性可分到线性不可分
2.1.一、从原始问题到对偶问题的求解
由于如今的目标函数是二次的,约束条件是线性的,因此它是一个凸二次规划问题。这个问题能够用现成的QP (Quadratic Programming) 优化包进行求解。一言以蔽之:在必定的约束条件下,目标最优,损失最小。
此外,因为这个问题的特殊结构,还能够经过拉格朗日对偶性(Lagrange Duality)变换到对偶变量 (dual variable) 的优化问题,即经过求解与原问题等价的对偶问题(dual problem)获得原始问题的最优解,这就是线性可分条件下支持向量机的对偶算法,这样作的优势在于:一者对偶问题每每更容易求解;两者能够天然的引入核函数,进而推广到非线性分类问题。
勘误:经读者qq_28543029指出,这里的条件不该该是KKT条件,要让二者等价需知足strong duality (强对偶),然后有学者在强对偶下提出了KKT条件,且KKT条件的成立要知足constraint qualifications,而constraint qualifications之一就是Slater条件。所谓Slater 条件,即指:凸优化问题,若是存在一个点x,使得全部等式约束都成立,而且全部不等式约束都严格成立(即取严格不等号,而非等号),则知足Slater 条件。对于此处,Slater 条件成立,因此d*≤p*能够取等号。
通常地,一个最优化数学模型可以表示成下列标准形式:
其中,f(x)是须要最小化的函数,h(x)是等式约束,g(x)是不等式约束,p和q分别为等式约束和不等式约束的数量。
2.1.三、对偶问题求解的3个步骤
提醒:有读者可能会问上述推导过程如何而来?说实话,其具体推导过程是比较复杂的,以下图所示:
最后,获得:
如 jerrylead所说:“倒数第4步”推导到“倒数第3步”使用了线性代数的转置运算,因为ai和yi都是实数,所以转置后与自身同样。“倒数第3步”推导到“倒数第2步”使用了(a+b+c+…)(a+b+c+…)=aa+ab+ac+ba+bb+bc+…的乘法运算法则。最后一步是上一步的顺序调整。
(3)在求得L(w, b, a) 关于 w 和 b 最小化,以及对的极大以后,最后一步则能够利用SMO算法求解对偶问题中的拉格朗日乘子。
上述式子要解决的是在参数上求最大值W的问题,至于和都是已知数。要了解这个SMO算法是如何推导的,请跳到下文第3.5节、SMO算法。
到目前为止,咱们的 SVM 还比较弱,只能处理线性的状况,下面咱们将引入核函数,进而推广到非线性分类问题。
2.1.五、线性不可分的状况
从1.5节到上述全部这些东西,便获得了一个maximum margin hyper plane classifier,这就是所谓的支持向量机(Support Vector Machine)。固然,到目前为止,咱们的 SVM 还比较弱,只能处理线性的状况,不过,在获得了对偶dual 形式以后,经过 Kernel 推广到非线性的状况就变成了一件很是容易的事情了(相信,你还记得本节开头所说的:“经过求解对偶问题获得最优解,这就是线性可分条件下支持向量机的对偶算法,这样作的优势在于:一者对偶问题每每更容易求解;两者能够天然的引入核函数,进而推广到非线性分类问题”)。
2.二、核函数Kernel
2.2.一、特征空间的隐式映射:核函数
事实上,大部分时候数据并非线性可分的,这个时候知足这样条件的超平面就根本不存在。在上文中,咱们已经了解到了SVM处理线性可分的状况,那对于非线性的数据SVM咋处理呢?对于非线性的状况,SVM 的处理方法是选择一个核函数 κ(,) ,经过将数据映射到高维空间,来解决在原始空间中线性不可分的问题。
具体来讲,在线性不可分的状况下,支持向量机首先在低维空间中完成计算,而后经过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上自己很差分的非线性数据分开。如图7-7所示,一堆数据在二维空间没法划分,从而映射到三维空间里划分:
而在咱们遇到核函数以前,若是用原始的方法,那么在用线性学习器学习一个非线性关系,须要选择一个非线性特征集,而且将数据写成新的表达形式,这等价于应用一个固定的非线性映射,将数据映射到特征空间,在特征空间中使用线性学习器,所以,考虑的假设集是这种类型的函数:
而因为对偶形式就是线性学习器的一个重要性质,这意味着假设能够表达为训练点的线性组合,所以决策规则能够用测试点和训练点的内积来表示:
若是有一种方式能够在特征空间中直接计算内积〈φ(xi · φ(x)〉,就像在原始输入点的函数中同样,就有可能将两个步骤融合到一块儿创建一个非线性的学习器,这样直接计算法的方法称为核函数方法:
核是一个函数K,对全部x,z(-X,知足,这里φ是从X到内积特征空间F的映射。
2.2.二、核函数:如何处理非线性数据
来看个核函数的例子。以下图所示的两类数据,分别分布为两个圆圈的形状,这样的数据自己就是线性不可分的,此时我们该如何把这两类数据分开呢(下文将会有一个相应的三维空间图)?
2.2.三、几个核函数
一般人们会从一些经常使用的核函数中选择(根据问题和数据的不一样,选择不一样的参数,实际上就是获得了不一样的核函数),例如:
多项式核,显然刚才咱们举的例子是这里多项式核的一个特例(R = 1,d = 2)。虽然比较麻烦,并且没有
2.2.四、核函数的本质
上面说了这么一大堆,读者可能仍是没明白核函数究竟是个什么东西?我再简要归纳下,即如下三点:
实际中,咱们会常常遇到线性不可分的样例,此时,咱们的经常使用作法是把样例特征映射到高维空间中去(如上文2.2节最开始的那幅图所示,映射到高维空间后,相关特征便被分开了,也就达到了分类的目的);
但进一步,若是凡是遇到线性不可分的样例,一概映射到高维空间,那么这个维度大小是会高到可怕的(如上文中19维乃至无穷维的例子)。那咋办呢?
此时,核函数就隆重登场了,核函数的价值在于它虽然也是将特征进行从低维到高维的转换,但核函数绝就绝在它事先在低维上进行计算,而将实质上的分类效果表如今了高维上,也就如上文所说的避免了直接在高维空间中的复杂计算。
最后引用这里的一个例子举例说明下核函数解决非线性问题的直观效果。
假设如今你是一个农场主,圈养了一批羊群,但为预防狼群袭击羊群,你须要搭建一个篱笆来把羊群围起来。可是篱笆应该建在哪里呢?你极可能须要依据牛群和狼群的位置创建一个“分类器”,比较下图这几种不一样的分类器,咱们能够看到SVM完成了一个很完美的解决方案。
这个例子从侧面简单说明了SVM使用非线性分类器的优点,而逻辑模式以及决策树模式都是使用了直线方法。
OK,再也不作过多介绍了,对核函数有进一步兴趣的,还能够看看此文。
2.三、使用松弛变量处理 outliers 方法
例如可能并非由于数据自己是非线性结构的,而只是由于数据有噪音。对于这种偏离正常位置很远的数据点,咱们称之为 outlier ,在咱们原来的 SVM 模型里,outlier 的存在有可能形成很大的影响,由于超平面自己就是只有少数几个 support vector 组成的,若是这些 support vector 里又存在 outlier 的话,其影响就很大了。例以下图:
用黑圈圈起来的那个蓝点是一个 outlier ,它偏离了本身本来所应该在的那个半空间,若是直接忽略掉它的话,原来的分隔超平面仍是挺好的,可是因为这个 outlier 的出现,致使分隔超平面不得不被挤歪了,变成途中黑色虚线所示(这只是一个示意图,并无严格计算精确坐标),同时 margin 也相应变小了。固然,更严重的状况是,若是这个 outlier 再往右上移动一些距离的话,咱们将没法构造出能将数据分开的超平面来。
为了处理这种状况,SVM 容许数据点在必定程度上偏离一下超平面。例如上图中,黑色实线所对应的距离,就是该 outlier 偏离的距离,若是把它移动回来,就恰好落在原来的 超平面 蓝色间隔边界上,而不会使得超平面发生变形了。
插播下一位读者@Copper_PKU的理解:“换言之,在有松弛的状况下outline点也属于支持向量SV,同时,对于不一样的支持向量,拉格朗日参数的值也不一样,如此篇论文《Large Scale Machine Learning》中的下图所示:
对于远离分类平面的点值为0;对于边缘上的点值在[0, 1/L]之间,其中,L为训练数据集个数,即数据集大小;对于outline数据和内部的数据值为1/L。更多请参看本文文末参考条目第51条。”
把先后的结果对比一下(错误修正:图中的Dual formulation中的Minimize应为maxmize):
OK,理解到这第二层,已经能知足绝大部分人一窥SVM原理的好奇心,然对于那些想在证实层面理解SVM的则还很不够,但进入第三层理解境界以前,你必需要有比较好的数理基础和逻辑证实能力,否则你会跟我同样,吃很多苦头的。
第三层、证实SVM
说实话,凡是涉及到要证实的东西.理论,便通常不是怎么好惹的东西。绝大部分时候,看懂一个东西不难,但证实一个东西则须要点数学功底,进一步,证实一个东西也不是特别难,难的是从零开始发明创造这个东西的时候,则显艰难(由于任什么时候代,大部分人的研究所得都不过是基于前人的研究成果,前人所作的是开创性工做,而这每每是最艰难最有价值的,他们被称为真正的先驱。牛顿也曾说过,他不过是站在巨人的肩上。你,我则更是如此)。
正如陈希孺院士在他的著做《数理统计学简史》的第4章、最小二乘法中所讲:在科研上诸多观念的革新和突破是有着不少的不易的,或许某个定理在某个时期由某我的点破了,如今的咱们看来一切都是理所固然,但在一切没有发现以前,可能许许多多的顶级学者毕其功于一役,耗尽一辈子,努力了几十年最终也是无功而返。
话休絮烦,要证实一个东西先要弄清楚它的根基在哪,即构成它的基础是哪些理论。OK,如下内容基本是上文中未讲到的一些定理的证实,包括其背后的逻辑、来源背景等东西,仍是读书笔记。
本部分导述
3.1节线性学习器中,主要阐述感知机算法;
3.2节非线性学习器中,主要阐述mercer定理;
3.3节、损失函数;
3.4节、最小二乘法;
3.5节、SMO算法;
3.6节、简略谈谈SVM的应用;
3.一、线性学习器
3.1.一、感知机算法
这个感知机算法是1956年提出的,年代久远,依然影响着当今,固然,能够确定的是,此算法亦非最优,后续会有更详尽阐述。不过,有一点,你必须清楚,这个算法是为了干吗的:不断的训练试错以期寻找一个合适的超平面(是的,就这么简单)。
下面,举个例子。以下图所示,凭咱们的直觉能够看出,图中的红线是最优超平面,蓝线则是根据感知机算法在不断的训练中,最终,若蓝线能经过不断的训练移动到红线位置上,则表明训练成功。
既然须要经过不断的训练以让蓝线最终成为最优分类超平面,那么,到底须要训练多少次呢?Novikoff定理告诉咱们当间隔是正的时候感知机算法会在有限次数的迭代中收敛,也就是说Novikoff定理证实了感知机算法的收敛性,即能获得一个界,不至于无穷循环下去。
而后后续怎么推导出最大分类间隔请回到本文第1、二部分,此处不重复板书。
同时有一点得注意:感知机算法虽然能够经过简单迭代对线性可分数据生成正确分类的超平面,但不是最优效果,那怎样才能获得最优效果呢,就是上文中第一部分所讲的寻找最大分类间隔超平面。此外,Novikoff定理的证实请见这里。
3.二、非线性学习器
3.2.一、Mercer定理
3.三、损失函数
在本文1.0节有这么一句话“支持向量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法,经过寻求结构化风险最小来提升学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的状况下,亦能得到良好统计规律的目的。”但初次看到的读者可能并不了解什么是结构化风险,什么又是经验风险。要了解这两个所谓的“风险”,还得又从监督学习提及。
监督学习实际上就是一个经验风险或者结构风险函数的最优化问题。风险函数度量平均意义下模型预测的好坏,模型每一次预测的好坏用损失函数来度量。它从假设空间F中选择模型f做为决策函数,对于给定的输入X,由f(X)给出相应的输出Y,这个输出的预测值f(X)与真实值Y可能一致也可能不一致,用一个损失函数来度量预测错误的程度。损失函数记为L(Y, f(X))。
经常使用的损失函数有如下几种(基本引用自《统计学习方法》):
如此,SVM有第二种理解,即最优化+损失最小,或如@夏粉_百度所说“可从损失函数和优化算法角度看SVM,boosting,LR等算法,可能会有不一样收获”。
OK,关于更多统计学习方法的问题,请参看此文。
关于损失函数,以下文读者评论中所述:能够看看张潼的这篇《Statistical behavior and consistency of classification methods based on convex risk minimization》。各类算法中经常使用的损失函数基本都具备fisher一致性,优化这些损失函数获得的分类器能够看做是后验几率的“代理”。此外,张潼还有另一篇论文《Statistical analysis of some multi-category large margin classification methods》,在多分类状况下margin loss的分析,这两篇对Boosting和SVM使用的损失函数分析的很透彻。
3.四、最小二乘法
3.4.一、什么是最小二乘法?
既然本节开始以前提到了最小二乘法,那么下面引用《正态分布的前世此生》里的内容稍微简单阐述下。
咱们口头中常常说:通常来讲,平均来讲。如平均来讲,不吸烟的健康优于吸烟者,之因此要加“平均”二字,是由于凡事皆有例外,总存在某个特别的人他吸烟但因为常常锻炼因此他的健康情况可能会优于他身边不吸烟的朋友。而最小二乘法的一个最简单的例子即是算术平均。
最小二乘法(又称最小平方法)是一种数学优化技术。它经过最小化偏差的平方和寻找数据的最佳函数匹配。利用最小二乘法能够简便地求得未知的数据,并使得这些求得的数据与实际数据之间偏差的平方和为最小。用函数表示为:
勒让德在论文中对最小二乘法的优良性作了几点说明:
最小二乘使得偏差平方和最小,并在各个方程的偏差之间创建了一种平衡,从而防止某一个极端偏差取得支配地位
计算中只要求偏导后求解线性方程组,计算过程明确便捷
最小二乘能够导出算术平均值做为估计值
因为算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘的一个特例,因此从另外一个角度说明了最小二乘方法的优良性,使咱们对最小二乘法更加有信心。
最小二乘法发表以后很快获得了你们的承认接受,并迅速的在数据分析实践中被普遍使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在1809年也发表了最小二乘法,而且声称本身已经使用这个方法多年。高斯发明了小行星定位的数学方法,并在数据分析中使用最小二乘方法进行计算,准确的预测了谷神星的位置。
说了这么多,貌似跟本文的主题SVM没啥关系呀,别急,请让我继续阐述。本质上说,最小二乘法便是一种参数估计方法,说到参数估计,我们得从一元线性模型提及。
3.4.二、最小二乘法的解法
什么是一元线性模型呢? 请容许我引用这里的内容,先来梳理下几个基本概念:
监督学习中,若是预测的变量是离散的,咱们称其为分类(如决策树,支持向量机等),若是预测的变量是连续的,咱们称其为回归。
回归分析中,若是只包括一个自变量和一个因变量,且两者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
若是回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面...
对于一元线性回归模型, 假设从整体中获取了n组观察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。对于平面中的这n个点,可使用无数条曲线来拟合。要求样本回归函数尽量好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。
选择最佳拟合曲线的标准能够肯定为:使总的拟合偏差(即总残差)达到最小。有如下三个标准能够选择:
用“残差和最小”肯定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
用“残差绝对值和最小”肯定直线位置也是一个途径。但绝对值的计算比较麻烦。
最小二乘法的原则是以“残差平方和最小”肯定直线位置。用最小二乘法除了计算比较方便外,获得的估计量还具备优良特性。这种方法对异常值很是敏感。
最经常使用的是普通最小二乘法( Ordinary Least Square,OLS):所选择的回归模型应该使全部观察值的残差平方和达到最小,即采用平方损失函数。
咱们定义样本回归模型为:
根据数学知识咱们知道,函数的极值点为偏导为0的点。
解得:
这就是最小二乘法的解法,就是求得平方损失函数的极值点。自此,你看到求解最小二乘法与求解SVM问题何等类似,尤为是定义损失函数,然后经过偏导求得极值。
OK,更多请参看陈希孺院士的《数理统计学简史》的第4章、最小二乘法。
3.五、SMO算法
在上文中,咱们提到了求解对偶问题的序列最小最优化SMO算法,但并未提到其具体解法。首先看下最后悬而未决的问题:
等价于求解:
1998年,Microsoft Research的John C. Platt在论文《Sequential Minimal Optimization:A Fast Algorithm for Training Support Vector Machines》中提出针对上述问题的解法:SMO算法,它很快便成为最快的二次规划优化算法,特别是在针对线性SVM和数据稀疏时性能更优。
接下来,我们便参考John C. Platt的这篇文章来看看SMO的解法是怎样的。
3.5.一、SMO算法的推导
那么在每次迭代中,如何更新乘子呢?引用这里的两张PPT说明下:
知道了如何更新乘子,那么选取哪些乘子进行更新呢?具体选择方法有如下两个步骤:
综上,SMO算法的基本思想是将Vapnik在1982年提出的Chunking方法推到极致,SMO算法每次迭代只选出两个份量ai和aj进行调整,其它份量则保持固定不变,在获得解ai和aj以后,再用ai和aj改进其它份量。与一般的分解算法比较,尽管它可能须要更多的迭代次数,但每次迭代的计算量比较小,因此该算法表现出较好的快速收敛性,且不须要存储核矩阵,也没有矩阵运算。
3.5.三、SMO算法的实现
行文至此,我相信,SVM理解到了必定程度后,是的确能在脑海里从头到尾推导出相关公式的,最初分类函数,最大化分类间隔,max1/||w||,min1/2||w||^2,凸二次规划,拉格朗日函数,转化为对偶问题,SMO算法,都为寻找一个最优解,一个最优分类平面。一步步梳理下来,为何这样那样,太多东西能够追究,最后实现。以下图所示:
至于下文中将阐述的核函数则为是为了更好的处理非线性可分的状况,而松弛变量则是为了纠正或约束少许“不安分”或脱离集体很差归类的因子。
台湾的林智仁教授写了一个封装SVM算法的libsvm库,你们能够看看,此外这里还有一份libsvm的注释文档。
除了在这篇论文《fast training of support vector machines using sequential minimal optimization》中platt给出了SMO算法的逻辑代码以外,这里也有一份SMO的实现代码,你们能够看下。
3.六、SVM的应用
或许咱们已经听到过,SVM在不少诸如文本分类,图像分类,生物序列分析和生物数据挖掘,手写字符识别等领域有不少的应用,但或许你并没强烈的意识到,SVM能够成功应用的领域远远超出如今已经在开发应用了的领域。
3.6.一、文本分类
一个文本分类系统不只是一个天然语言处理系统,也是一个典型的模式识别系统,系统的输入是须要进行分类处理的文本,系统的输出则是与文本关联的类别。因为篇幅所限,其它更具体内容本文将再也不详述。
OK,本节虽取标题为证实SVM,但聪明的读者们想必早已看出,其实本部分并没有多少证实部分(特此致歉),怎么办呢?能够参阅《支持向量机导论》一书,此书精简而有趣。本节完。