SVM

时间 2021-01-13 标签 SVM 支持向量机

What

SVM即Support Vector Machines——支持向量机，是一种分类器，属于监督学习的范畴。

Q: 给定训练样本 ${(x_{1}, y_{1}), . . . ., (x_{i}, y_{i})}, y_{i} \in {- 1, + 1}$ ，找到一个划分超平面，将不同类别样本分开。
(图:wiki)

对于上述问题，任意二分线性分类器都可以分类。作为一个二分线性分类器，SVM与之不同的是其特殊的划分超平面：要求间隔(margin)最大。如图所示，也就是图中两条虚线之间的间隔最大，划分超平面处于间隔的中间。仔细观察可知，该间隔只与距离超平面最近的几个点有关，而这几个点就被称为Support Vector，这也就是SVM的名字来源。

SVM

这个超平面可以表示为

w^{T} x + b = 0

则SVM分类器可表示为

h_{w, b} (x) = g (w^{T} x + b)

如果

w^{T} x + b \geq 0, 则 g (w^{T} x + b) = 1

，反之

g (w^{T} x + b) = - 1

函数间隔(functional margin)

对任意的样本 $(x_{i}, y_{i})$ ，定义函数间隔为

{\hat{γ}}_{i} = y_{i} (w^{T} x_{i} + b)

显而易见的是，当分类正确时，

y_{i}

和

w^{T} x_{i} + b

是同号的且距离超平面越远值越大，由于

y \in {1, - 1}

，则

{\hat{γ}}_{i}

的值为

| w^{T} x_{i} + b |

。
那么在真个训练样本上，我们定义函数间隔为所有训练样本中最小的一个:

\hat{γ} = min_{i = 0, 1, . . . n} {\hat{γ}}_{i}

函数间隔可以表示分类是否正确且可以衡量分类的正确程度，但是，当我们同时缩放

x, b

时并不会改变超平面，但是函数间隔的值会通样进行缩放。为了避免对求解的影响，接下来引入几何间隔。

几何间隔(geometric margin)

给任意一个样本A( $x_{i}, y_{i}$ )，则其到超平面的垂点B为 $x_{i} - γ_{i} \frac{w}{| | w | |}$ ，代入超平面解出几何间隔 ${\hat{γ}}_{i}$

w^{T} (x_{i} - γ_{i} \frac{w}{| | w | |}) + b = 0

求解为：

γ_{i} = (\frac{w}{| | w | |})^{T} x_{i} + \frac{b}{| | w | |}

几何间隔定义为

γ_{i} = y_{i} ((\frac{w}{| | w | |})^{T} x_{i} + \frac{b}{| | w | |})

特别的，当

| | w | | = 1

时，几何间隔和函数间隔相等。
则全局几何间隔为

γ = min_{i = 0, 1, . . . n} γ_{i}

基本型

max γ s . t . y_{i} (w^{T} x_{i} + b) \geq γ i = 0, 1, 2, . . n | | w | | = 1

由于约束中的

| | w | | = 1

无法通过优化算法进行求解，所以需要去掉该项，转化为

max \frac{\hat{γ}}{| | w | |} s . t . y_{i} (w^{T} x_{i} + b) \geq γ i = 0, 1, 2, . . n

为了约束w和b的变化，将

\hat{γ}

设为一个固定值，

\hat{γ} = 1

最终，SVM的基本型为

min_{γ, w, b} \frac{1}{2} | | w | |^{2} s . t . y_{i} (w^{T} x_{i} + b) \geq 1, i = 0, 1, 2, . . n

待完善

参考

Andrew Ng 在Stanford时的课堂讲义