机器学习入门笔记：（4.3）SMO算法

时间 2021-01-07

标签机器学习算法 smo 繁體版

原文原文链接

前言

之前的博客中，已经介绍了SVM的原理:

最后我们得到的优化问题如下：

max α \sum i = 1 m α i - 12 \sum i = 1 m \sum j = 1 m α i α j y i y j x i x j, s . t . \sum i = 1 m α i y i = 0 0 \leq α i \leq C, i = 1, 2, . . ., m

这个问题的解就是一系列的 α ，这些 α 会使得上面的式子有最大值。

这个式子是引入了软间隔后的支持向量机的问题，再进一步，用上核函数，就可以表示为：

max α \sum i = 1 m α i - 12 \sum i = 1 m \sum j = 1 m α i α j y i y j K (x i, x j), s . t . \sum i = 1 m α i y i = 0 0 \leq α i \leq C, i = 1, 2, . . ., m

一般来说，我们都不是很喜欢求最大值的问题，而是求最小值，所以将上面的问题换成求最小值的形式：

min α 12 \sum i = 1 m \sum j = 1 m α i α j y i y j K (x i, x j) - \sum i = 1 m α i, s . t . \sum i = 1 m α i y i = 0 0 \leq α i \leq C, i = 1, 2, . . ., m

我们之后的讨论都会围绕着这个问题进行。

SMO算法

为了解决二次规划问题，人们提出许多高效的算法。其中比较典型的一个就是SMO(Sequential Minimal Optimization)算法。SMO算法由Microsoft Research的John C. Platt在1998年提出，并成为最快的二次规划优化算法，特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》了。

（摘自支持向量机（五）SMO算法）

SMO 概念

SMO的基本思路就是：先固定 αi 之外的所有参数，然后求 αi 的极值。但是问题中存在约束条件： ∑mi=1αiyi=0 。如果固定了 αi 之外的其他变量，则 αi 也会被固定，可以由其他的变量导出。于是，一次只留一个参数，固定其余参数的方法在这里是不适用的，但是这个思想却给了我们不错的启发。那么，SMO可以每次选择两个变量 αi 和 αj ，并固定其他参数。这样，在参数初始化之后，SMO不断迭代重复下面的步骤，直至收敛：

选取一对新的 αi 和 αj ;
固定 αi 和 αj 之外的参数，求解前面的优化问题，获取更新后的 αi 和 αj 。

假设选取的两个变量为 α1 和 α2 ，那么由于其余参数均被固定，目标函数最后也只与 α1 和 α2 有关。

由约束条件 ∑mi=1αiyi=0 有： α1y1+α2y2=C ，其中 C 为常数。

为简化表示，我们用 Kij 表示 K(xi,xj) 。

对原始问题进行化简：

min α 12 \sum i = 1 m \sum j = 1 m α i α j y i y j K (x i, x j) - \sum i = 1 m α i

= min α \sum i = 1 m [α i α 1 y i y 1 K (x i, x 1) + α i α 2 y i y 2 K (x i, x 2) + \sum j = 3 m α i α j y i y j K (x i, x j)] - α 1 - α 2 - \sum i = 3 m α i

= min α 12 [α 21 y 21 K (x 1, x 1) + α 1 α 2 y 1 y 2 K (x 1, x 2) + \sum j = 3 m α 1 α j y 1 y j K (x 1, x j)] + 12 [α 2 α 1 y 2 y 1 K (x 2, x 1) + α 22 y 22 K (x 2, x 2) + \sum j = 3 m α 2 α j y 2 y j K (x 2, x j)] + 12 \sum i = 3 m [α i α 1 y i y 1 K (x i, x 1) + α i α 2 y i y 2 K (x i, x 2) + \sum j = 3 m α i α j y i y j K (x i, x j)] - α 1 - α 2 - \sum i = 3 m α i

= min α 12 [α 21 y 21 K 11 + α 22 y 22 K 22 + 2 α 1 α 2 y 1 y 2 k 12 + \sum i = 3 m \sum j = 3 m α i α j y i y j K (x i, x j) + 2 α 1 y 1 v 1 + 2 α 2 y 2 v 2] - α 1 - α 2 - \sum i = 3 m α i

（其中，因为核函数满足 K12=K21 ，所以直接合在一起了；为了便于表示，令 vi=∑mj=3yjαjkij ）

由于除了 α1 和 α2 之外的 αi,i=3,4,...,m 都被固定了，所以都是常数。

= min α 12 [α 21 y 21 K 11 + α 22 y 22 K 22 + 2 α 1 α 2 y 1 y 2 k 12 + 2 α 1 y 1 v 1 + 2 α 2 y 2 v 2] - α 1 - α 2 + C

其中 C 是任意常数。

解的范围

现在的结果是有关 α1 和 α2 的表达式，为了进一步化简我们还可以将 α1 用 α2 表示。但是在此之前，还有一个问题，那就是 α1 和 α2 的取值范围是多少？尽管有了约束条件 ∑mi=1αiyi=0 ，但是在 y1 和 y2 取不同值时，也会有不同的约束关系产生。

（摘自John C. Platt的论文）

前面推出的 α1 和 α2 的约束关系为： α1y1+α2y2=C 。

我们还有些已知的条件：

0≤α≤C

y1 和 y2 都是输出的标签，为 ±1 ，显然： y21=y22=1 。

如上图所示，分两种情况讨论：

如果 y1≠y2 ，则 y1 和 y2 一定异号，那么约束关系变为： α1−α2=k ， k 是任意常数。 k 具体是多少我们并不关心，但是我们知道 α1 和 α2 的取值都落在途中的直线上。 k 无非就是一个截距，随着 k 的变化，这根直线在方框内会上下移动，交点也变，但是一定要在方框范围内，所以边界一定会落在方框与直线的交点上。假设几种可能的情况就不难推算出 α 的范围了假设只考虑 α2 的范围，设 L 为 α2 可能的最小取值， H 为 α2 可能的最大取值。

$L = max (0, - k), H = min (C, C - k) L = max (0, α 2 - α 1), H = min (C, C + α 2 - α 1)$
如果 y1=y2 ，则 y1 和 y2 一定同号，那么约束关系变为： α1+α2=k ， k 是任意常数。与前面同样分析。只考虑 α2 的范围，设 L 为 α2 可能的最小取值， H 为 α2 可能的最大取值。根据图中所示，可以得到如下关系：

$L = m a x (0, k - C), H = m i n (C, k) L = m a x (0, α 1 + α 2 - C), H = m i n (C, α 1 + α 2)$

通过上面的讨论，我们得到了 α2 的可能取值范围： L≤α2≤H

当 y1≠y2 时， L=max(0,α2−α1),H=min(C,C+α2−α1) ；
当 y1=y2 时， L=max(0,α1+α2−C),H=min(C,α1+α2) 。

同理， α1 的范围与 α2 是一样的。这个范围先保留，后面再用。

求解优化问题

转化为一元函数求极值点

接下来，将 α1 用 α2 表示。将约束关系： α1y1+α2y2=C 左右同时乘上 y1 得到：

α 1 = (ζ - α 2 y 2) y 1

，这里的 ζ 是常数，为了不跟原式子中的 C 混淆，换成 ζ 表示这个常数。

好了，我们已经将 α1 用 α2 表示出来了，可以代回到前面的问题中了：

min α 12 [α 21 y 21 K 11 + α 22 y 22 K 22 + 2 α 1 α 2 y 1 y 2 k 12 + 2 α 1 y 1 v 1 + 2 α 2 y 2 v 2] - α 1 - α 2 + C 其 中 v i = \sum j = 3 m y j α j k i j

我们有 y21=y22=1 ，以及 α1=(ζ−α2y2)y1 ，代入化简得到：

min α 12 [(ζ - α 2 y 2) 2 k 11 + k 22 α 22 + 2 (ζ - α 2 y 2) α 2 y 2 k 12 + 2 (ζ - α 2 y 2) v 1 + 2 α 2 y 2 v 2] - (ζ - α 2 y 2) y 1 - α 2 + C

常数可以去掉，不影响结果：

min α 12 [(ζ - α 2 y 2) 2 k 11 + k 22 α 22 + 2 (ζ - α 2 y 2) α 2 y 2 k 12 + 2 (ζ - α 2 y 2) v 1 + 2 α 2 y 2 v 2] - (ζ - α 2 y 2) y 1 - α 2

上面的问题已经化成了单变量的优化问题了，使用常规套路，求偏导取0，即可解出 α2 的值。

对目标函数求偏导数：

\partial Φ \partial α 2 = α 2 (K 11 + K 22 - 2 K 12) - K 11 ζ y 2 + K 12 ζ y 2 - y 2 v 1 + y 2 v 2 + y 1 y 2 - 1

令这个偏导数为0可以求出新的 α2 ，利用

α 1 = (ζ - α 2 y 2) y 1

这个关系，又可以求出新的 α1 ，这两新求出的值即为我们使用SMO算法优化之后的结果。为了与原始的 α1 和 α2 值区分，我们将这两个新的值标记为 α∗1 和 α∗2 。

修改后的几个条件如下：

\partial Φ \partial α * 2 = α * 2 (K 11 + K 22 - 2 K 12) - K 11 ζ y 2 + K 12 ζ y 2 - y 2 v 1 + y 2 v 2 + y 1 y 2 - 1 = 0

ζ = α 1 y 1 + α 2 y 2 = α * 1 y 1 + α * 2 y 2

其 中 v i = \sum j = 3 m y j α j k i j

为了后面表示简便，还要给出几个关系：

如果把 vi 直接代入，结果太复杂了。还需要对 vi 做一些变换：

前面的博客中，我们已经推导过SVM的数学模型的最终结果： f(xi)=ωTx+b=∑mj=1αjyjK(xi,xj)+b

展开 f(x) 看看：

f (x 1) = α 1 y 1 K 11 + α 2 y 2 K 12 + \sum j = 3 m α j y j K 1 j + b = α 1 y 1 K 11 + α 2 y 2 K 12 + v 1 + b

f (x 2) = α 1 y 1 K 12 + α 2 y 2 K 22 + \sum j = 3 m α j y j K 2 j + b = α 1 y 1 K 12 + α 2 y 2 K 22 + v 2 + b

所以：

v 1 = f (x 1) - α 1 y 1 K 11 - α 2 y 2 K 12 - b

v 2 = f (x 2) - α 1 y 1 K 12 - α 2 y 2 K 22 - b

好了，条件基本都得到了，再列一下我们要用的条件：

\partial Φ \partial α * 2 = α * 2 (K 11 + K 22 - 2 K 12) - K 11 ζ y 2 + K 12 ζ y 2 - y 2 v 1 + y 2 v 2 + y 1 y 2 - 1 = 0

ζ = α 1 y 1 + α 2 y 2 (= α * 1 y 1 + α * 2 y 2)

v 1 = f (x 1) - α 1 y 1 K 11 - α 2 y 2 K 12 - b

v 2 = f (x 2) - α 1 y 1 K 12 - α 2 y 2 K 22 - b

联立，化简得：(注： ζ=α1y1+α2y2 ，用旧的 α1 和 α2 ，因为我们最后要表示出新的 α∗2 ）

α * 2 (K 11 + K 22 - 2 K 12) = (K 11 + K 22 - 2 K 12) α 2 + y 2 [y 2 - y 1 + f (x 1) - f (x 2)]

设预测值与真实值之差为 Ei ： Ei=f(xi)−yi

继续化简：

α * 2 = α 2 + y 2 E 1 - E 2 (K 11 + K 22 - 2 K 12)

再记 η=(K11+K22−2K12) ：

α * 2 = α 2 + y 2 E 1 - E 2 η, η = (K 11 + K 22 - 2 K 12)

注意， α∗2 是经过优化后求出的解， α2 是之前的值。

当然还有 α2 的范围约束，前面我们已经推导了：

了 α2 的可能取值范围： L≤α2≤H

当 y1≠y2 时， L=max(0,α2−α1),H=min(C,C+α2−α1) ；
当 y1=y2 时， L=max(0,α1+α2−C),H=min(C,C+α1+α2) 。

所以求出了优化后的 α∗2 后，还需要经过一个范围的约束：

α n e w 2 = ⎧ ⎩ ⎨ ⎪ ⎪ H, α * 2 > H α * 2, L \leq α * 2 \leq H L, α * 2 < L

求解 α1

知道了 α2 求 α1 就很容易了：

由约束条件： α1y1+α2y2=αnew1y1+αnew2y2=ζ 得到：

α n e w 1 = α 1 + y 1 y 2 (α 2 - α n e w 2)

取临界情况

前面推导的结果：

α * 2 = α 2 + y 2 E 1 - E 2 η, η = (K 11 + K 22 - 2 K 12)

大部分情况下，都有 η=(K11+K22−2K12)>0 ，但是在不满足这个条件时， α∗2 需要取临界值。

η<0,当核函数K不满足Mercer定理时，矩阵K非正定；
η=0,样本x1与x2输入特征相同；

也可以换个方式来理解：

原问题：

min α 12 [(ζ - α 2 y 2) 2 k 11 + k 22 α 22 + 2 (ζ - α 2 y 2) α 2 y 2 k 12 + 2 (ζ - α 2 y 2) v 1 + 2 α 2 y 2 v 2] - (ζ - α 2 y 2) y 1 - α 2 + C

其一阶偏导数为：

\partial Φ \partial α 2 = α 2 (K 11 + K 22 - 2 K 12) - K 11 ζ y 2 + K 12 ζ y 2 - y 2 v 1 + y 2 v 2 + y 1 y 2 - 1

二阶偏导数为：

\partial 2 Φ \partial α 22 = η = (K 11 + K 22 - 2 K 12)

这个 η 就是原问题的二阶偏导数，根据函数的性质来看：

当 η<0 时，目标函数为凸函数，没有极小值，最小值会在边界取得；
当 η=0 时，目标函数为单调函数，很明显，最小值或者最大值都会在边界上取得。

所以，当 η≤0 时，把 α∗2=L 和 α∗2=H 分别代入 α1y1+α2y2=αnew1y1+αnew2y2=ζ 解出 α∗1=L1 和 α∗1=H1 ，其中令 s=y1y2 ：

L 1 = α 1 + s (α 2 - L)

H 1 = α 1 + s (α 2 - H)

代回到目标函数中可以求出对应的两个可能值 ΨL 和 ΨH ，最后取两者中更小的那个就是最小值了。

代入之前先看看目标函数：

Ψ = 12 [α 21 K 11 + α 22 K 22 + 2 α 1 α 2 y 1 y 2 k 12 + 2 α 1 y 1 v 1 + 2 α 2 y 2 v 2] - α 1 - α 2

因为 v1 和 v2 的存在，展开后还是有些不太好看的。 vi=∑mj=3yjαjkij 这东西不好化简，所以使用 vi 的另一种表示形式：

v i = f (x i) - α 1 y 1 K i 1 - α 2 y 2 K i 2 - b

代入 Ψ 中：(注： y21=y22=1 )

Ψ = 12 α 21 K 11 + 12 α 22 K 22 + α 1 α 2 y 1 y 2 K 12 + α 1 y 1 (f (x 1) - α 1 y 1 K 11 - α 2 y 2 K 12 - b) + α 2 y 2 (f (x 2) - α 1 y 1 K 1 2 - α 2 y 2 K 22 - b) - α 1 y 21 - α 2 y 22

Ψ = 12 α 21 K 11 + 12 α 22 K 22 + α 1 α 2 y 1 y 2 K 12 + α 1 (y 1 f (x 1) - α 1 K 11 - α 2 y 1 y 2 K 12 - y 1 b - y 21) + α 2 (y 2 f (x 2) - α 1 y 1 y 2 K 1 2 - α 2 K 22 - b y 2 - y 22)

下面令 Ψ=12α21K11+12α22K22+α1α2y1y2k12+α1f1+α2f2 ，则：

f 1 = y 1 f (x 1) - α 1 K 11 - α 2 y 1 y 2 K 12 - y 1 b - y 21 = y 1 (E 1 - b) - α 1 K 11 - α 2 y 1 y 2 K 12

f 2 = y 2 f (x 2) - α 1 y 1 y 2 K 1 2 - α 2 K 22 - b y 2 - y 22 = y 2 (E 2 - b) - α 1 y 1 y 2 K 1 2 - α 2 K 22

使用上面的这些式子，将 L1=α1+s(α2−L) 、 H1=α1+s(α2−H) 以及 s=y1y2 代入可以得到如下结果：

这里是论文中的结果，我就偷懒不写步骤了。前面推导的式子联立就可以得到上面的6个式子。

计算 ω 和b

首先看 ω ，前面我们可以解出 α ，根据公式： ω=∑mi=1αiyixi 就可以求出来 ω 。

因为除了 α1 和 α2 之外的 αi 都被固定了，所以优化前后都会有如下关系：

ω = α 1 y 1 x 1 + α 2 y 2 x 2 + \sum i = 3 m α i y i x i

ω n e w = α n e w 1 y 1 x 1 + α n e w 2 y 2 x 2 + \sum i = 3 m α i y i x i

两式做差即可求出新的 ω ：

ω n e w = ω + y 1 x 1 (α n e w 1 - α 1) + y 2 x 2 (α n e w 2 - α 2)

然后是 b ，我们没有直接的公式来计算，只能通过KKT条件间接求出来。

（摘自Platt的论文）

这是原优化问题的KKT条件：

当 αi=0 时，分类是正确的；
当 0≤αi≤C 时，这时的样本点是支持向量，处在边界上；
当 αi=C 时，位于边界之间。

参考上面的KKT条件进行分类讨论：

如果 0<α1<C ，则 (x1,y1) 为支持向量，满足 yi(∑mi=1αiyiKi1+b1)=1 ：

$α n e w 1 y 1 K 11 + α n e w 2 y 2 K 21 + \sum i = 3 m α i y i K i 1 + b n e w 1 = y 1$

因为： y1−∑mi=3αiyiKi1=y1−f(x1)+α1y1K11+α2y2K21+b

所以：

$b n e w 1 = y 1 - f (x 1) + α 1 y 1 K 11 + α 2 y 2 K 21 + b - α n e w 1 y 1 K 11 - α n e w 2 y 2 K 21$

$b n e w 1 = - E 1 - y 1 K 11 (α n e w 1 - α 1) - y 2 K 21 (α n e w 2 - α 2) + b$

其中 α1,α2,b 为旧的值， αnew1,αnew2,bnew 为优化后的值。
如果 0<α2<C ，则 (x2,y2) 为支持向量，同理可以得到：

$b$