SVM 学习心得

详细请参考  http://www.blogjava.net/zhenandaci/archive/2009/02/13/254578.htmlhtml

 

支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优点,并可以推广应用到函数拟合等其余机器学习问题中[10]。
支持向量机方法是创建在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期得到最好的推广能力[14](或称泛化能力)java

VC维 是对函数类的一种度量,能够简答的理解为问题的复杂程度机器学习

统计学习所以而引入了泛化偏差界的概念,就是指真实风险应该由两部份内容刻画,一是经验风险,表明了分类器在给定样本上的偏差;二是置信风险,表明了咱们在多大程度上能够信任分类器在未知文本上分类的结果。很显然,第二部分是没有办法精确计算的,所以只能给出一个估计的区间,也使得整个偏差只能计算上界,而没法计算准确的值(因此叫作泛化偏差界,而不叫泛化偏差)。函数

置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,咱们的学习结果越有可能正确,此时置信风险越小;二是分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。学习

泛化偏差界的公式为:.net

R(w)≤Remp(w)+Ф(n/h)htm

公式中R(w)就是真实风险,Remp(w)就是经验风险,Ф(n/h)就是置信风险。统计学习的目标从经验风险最小化变为了寻求经验风险与置信风险的和最小,即结构风险最小。blog

 

SVM擅长应付样本数据线性不可分的状况,主要经过松弛变量(也有人叫惩罚变量)和核函数技术来实现ip

 

 

在进行文本分类的时候,咱们可让计算机这样来看待咱们提供给它的训练样本,每个样本由一个向量(就是那些文本特征所组成的向量)和一个标记(标示出这个样本属于哪一个类别)组成。以下:ci

Di=(xi,yi)

xi就是文本向量(维数很高),yi就是分类标记。

在二元的线性分类中,这个表示分类的标记只有两个值,1和-1(用来表示属于仍是不属于这个类)。有了这种表示法,咱们就能够定义一个样本点到某个超平面的间隔:

δi=yi(wxi+b)

这个公式乍一看没什么神秘的,也说不出什么道理,只是个定义而已,但咱们作作变换,就能看出一些有意思的东西。

首先注意到若是某个样本属于该类别的话,那么wxi+b>0(记得么?这是由于咱们所选的g(x)=wx+b就经过大于0仍是小于0来判断分类),而yi也大于0;若不属于该类别的话,那么wxi+b<0,而yi也小于0,这意味着yi(wxi+b)老是大于0的,并且它的值就等于|wxi+b|!(也就是|g(xi)|)

如今把w和b进行一下归一化,即用w/||w||和b/||w||分别代替原来的w和b,那么间隔就能够写成

clip_image002[28]

这个公式是否是看上去有点眼熟?没错,这不就是解析几何中点xi到直线g(x)=0的距离公式嘛!(推广一下,是到超平面g(x)=0的距离, g(x)=0就是上节中提到的分类超平面)

小Tips:||w||是什么符号?||w||叫作向量w的范数,范数是对向量长度的一种度量。咱们常说的向量长度其实指的是它的2-范数,范数最通常的表示形式为p-范数,能够写成以下表达式

    向量w=(w1, w2, w3,…… wn)

它的p-范数为

clip_image004[10]

看看把p换成2的时候,不就是传统的向量长度么?当咱们不指明p的时候,就像||w||这样使用时,就意味着咱们不关心p的值,用几范数均可以;或者上文已经提到了p的值,为了叙述方便再也不重复指明。

当用归一化的w和b代替原值以后的间隔有一个专门的名称,叫作几何间隔,几何间隔所表示的正是点到超平面的欧氏距离,咱们下面就简称几何间隔为“距离”。以上是单个点到某个超平面的距离(就是间隔,后面再也不区别这两个词)定义,一样能够定义一个点的集合(就是一组样本)到某个超平面的距离为此集合中离超平面最近的点的距离。下面这张图更加直观的展现出了几何间隔的现实含义:

image

 

H是分类面,而H1和H2是平行于H,且过离H最近的两类样本的直线,H1与H,H2与H之间的距离就是几何间隔。

之因此如此关心几何间隔这个东西,是由于几何间隔与样本的误分次数间存在关系:

 

clip_image012

其中的δ是样本集合到分类面的间隔,R=max ||xi||  i=1,...,n,即R是全部样本中(xi是以向量表示的第i个样本)向量长度最长的值(也就是说表明样本的分布有多么广)。先没必要追究误分次数的具体定义和推导过程,只要记得这个误分次数必定程度上表明分类器的偏差。而从上式能够看出,误分次数的上界由几何间隔决定!(固然,是样本已知的时候)

到此咱们就明白了为何要用几何间隔做为一个评价优劣的指标了,几何间隔越大的解,偏差上界就越小。。

相关文章
相关标签/搜索