本文来自同步博客。html
前面介绍的SVM
,不管是线性可分仍是非线性可分,称为Hard Margin SVM
,都要求对输入数据进行精确划分。咱们不难想到这类SVM
存在过拟合这个问题。若是输入数据自己就存在偏差,精确划分反而是没意义的。本篇文章就如何处理过拟合问题,介绍即所谓的Soft Margin SVM
。函数
引入衡量偏差的变量 -\xi\_i-−ξ_i−。-\xi\_i-−ξ_i−表示不能被正确分类的样本点距离正确一侧边界的距离,距离越大表示错误越大,即-\xi\_i-−ξ_i−越大。若是样本点能被正确分类,则-\xi\_i = 0-−ξ_i=0−。故有-\xi\_i \ge 0-−ξ_i≥0−。spa
那么,原来能经过求解函数-\frac{1}{2}\vec{w}^{2}-−21w3d
能够以下构造函数来描述偏差:
\frac{1}{2}\vec{w}^{2} + C\sum_{i}^{n}{\xi\_i}21wcode
这个函数把全部输入数据的偏差叠加在一块儿,即-\sum_{i}^{n}{\xi\_i}-−∑inξ_i−。而后用参数C来控制全部偏差的权重。若是C很大,表示即便有很小的偏差出现都会严重影响目标函数。orm
结合以前文章提到的知识,能够构造拉格朗日方程:htm
L(\vec{w}, b, \vec{\xi}, \vec{\alpha}, \vec{\beta}) = \frac{1}{2}\vec{w}^{T}\vec{w} + C\sum_{i}^{n}{\xi\_i} - \sum\_{i}^{n}{\alpha\_i[y\_i(\vec{w}^{T}\vec{x\_i}+b)-1+\xi\_i]} - \sum\_{i}^{n}\beta\_i\xi\_iL(w