此次必定要弄懂-SVM-3-Hard Margin SVM的对偶问题的求解（SMO算法）

时间 2020-05-29

标签此次必定弄懂 svm hard margin 对偶问题求解 smo 算法栏目 CSS 繁體版

原文原文链接

文章目录

3-1 KKT条件

3-2 SMO算法

3-2-3-4 一些证实细节

3-2-3-5 优化变量的选择

前面咱们针对Hard Margin SVM推导了他的原问题：

\min \limits_{\bold{\omega}}\frac{||\omega||^2}{2}

s.t.

y^{(i)}(\bold{\omega}^T\bold{x^{(i)}}+b)\geqslant1 \quad\text{i=1,2,...m}

对应的对偶问题：

\min\limits_{\alpha} \frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_jy_iy_jx^{(i)}\cdot x^{(j)}-\sum\limits_{i=1}^m\alpha_i

$s.t.$
$\alpha_i\geqslant0\quad i=1,2,...,m$ $\sum\limits_{i=1}^m\alpha_iy_i=0$ html

以及决策边界中未知量w的计算方法：
$w=\sum\limits_{i=1}^m\alpha_iy^{(i)}x^{(i)}$ python

那决策边界中的未知量b如何计算呢？就要用了KKT条件，同时用于求解对偶问题的SMO算法也要应用到KKT条件，因此这一次的内容从KKT条件开始。web

3-1 KKT条件

咱们说广义拉格朗日乘子函数的构造是从本来只能解决带等式约束的拉格朗日乘数法推广而来，因此咱们先从最原始的拉格朗日乘数法的求解开始过程开始。算法

3-1-1 从拉格朗日乘数法的求解过程提及

拉格朗日乘数法是求解带有等式约束的最优化问题app

$\min\limits_{x}f(x)$
$h_i(x)=0,\quad i=1,2,...,p$ svg

对应的求解方法就是构造拉格朗日乘子函数
$L(x,\lambda)=f(x)+\sum\limits_{i=1}^p\lambda_ih_i(x)$ 函数

接着对原始的优化变量以及乘子变量求导，并令导数为0，即：
$\begin{cases} \nabla_xf+\sum\limits_{i=1}^p\lambda_i\nabla_x h_i(x)=0\\ h_i(x)=0,\quad i =1,2,...,p \end{cases}$ 优化

解这个方程组就能够找到极值点，但目前只是把疑似极值点求出来了，至因而不是极值点，是极大仍是极小点，还须要进一步断定。spa

因此上面的方程组只是取得极值的必要条件，而不是充分条件。orm

3-1-2 推广出KKT条件

针对既带有等式约束和不等式约束的优化问题，咱们能够构造广义拉格朗日函数

$\min\limits_xf(x)$
$g_i(x)\leqslant0,\quad i=1,2,...q$
$h_i(x)=0,\quad i=1,2,...p$

构造拉格朗日乘子函数
$L(x,\lambda,\mu)=f(x)+\sum\limits_{i=1}^p\lambda_ih_i(x)+\sum\limits_{j=1}^q\mu_jg_j(x)$

设极值点为 $x^*$
在极值点出必需要知足：


1.原问题的约束条件	$g_i(x^)\leqslant0,\quad i=1,2,...q$ $h_i(x^)=0,\quad i=1,2,...p$
2.对偶问题的约束条件	$\mu_i\geqslant0,\quad i=1,2,...q$
3.松弛互补条件	$\mu_ig_i(x^*)=0,\quad i=1,2,...q$
4.X同时是拉格朗日函数的极小点 $\nabla_xL(x^*,\lambda,\mu)=0$	$\nabla_xf(x^)+\sum\limits_{i=1}^p\lambda_i\nabla_xh_i(x^)+\sum\limits_{j=1}^q\mu_j\nabla_xg_j(x^*)=0$

再次详细说明下其中的松弛互补条件：
根据 $\mu_ig_i(x^*)=0,\quad i=1,2,...q$
咱们会发现
当 $\mu>0$ 时， $g_i(x^*)=0$ 。说明极值点在边界处取得。
当 $\mu=0$ 时， $g_i(x^*)\leqslant0$ 。说明这个不等式约束对函数没有影响。

以上四条就是KKT条件，它是对原问题最优解的约束，是最优解的必要条件。
可是若是原问题和对偶问题存在强对偶问题，则KKT条件就是取得极值的充要条件。

而咱们的支持向量机的原问题不论是线性可分的仍是不可分，即便加上后面的核函数，都是强对偶问题。使得咱们可使用KKT条件，获得极值点的一些特征。

3-1-3 KKT条件用于原问题

原问题：
$\min \limits_{\bold{\omega}}\frac{||\omega||^2}{2}$ $s.t.$ $y^{(i)}(\bold{\omega}^T\bold{x^{(i)}}+b)\geqslant1 \quad\text{i=1,2,...m}$

根据KKT条件中的松弛互补条件（对于不等式约束，乘子变量*函数值=0）
$\alpha_i\Big(y_i(w^Tx^{(i)}+b)-1\Big)=0,\quad i=1,2,...m$

咱们仔细分析下松弛互补条件：
当 $\alpha_i>0$ 时， $y_i(w^Tx^{(i)}+b)=1$ —>支撑向量
当 $\alpha_i=0$ 时， $y_i(w^Tx^{(i)}+b)\geqslant1$ —>自由变量，对分类超平面不起做用

3-1-4 KKT条件的做用：

SMO算法选择优化变量
SMO算法是用于求解以后对偶问题的算法，它是一个迭代算法，每次仅选取两个乘子变量进行优化。KKT条件能够帮助咱们寻找出须要优化的乘子变量。
迭代终止的断定规则
由于对于支持向量机来讲KKT条件是极值点的充分必要条件，因此若是在迭代过程当中发现待求点已经知足KKT条件了，那咱们就把极值点解出来了，无须继续迭代。

3-1-5 决策边界中b的计算：

咱们经过将原问题转化为拉格朗日对偶问题，使得最优化的变量从本来的w,b转换为拉格朗日乘子变量 $\alpha$

若是咱们能够求得使得对偶问题最优的 $\alpha$ 后。则决策边界中的w能够经过 $w=\sum\limits_{i=1}^m\alpha_iy_ix^{(i)}$ 求得

而决策边界中b经过松弛互补条件求得。
前面说到，对于最优势来讲，当 $\alpha_i>0$ 时， $y_i(w^Tx^{(i)}+b)=1$ 。
因此咱们只须要到 $\alpha_i>0$ 对应的样本，求得b。

理论上来讲，任意符合 $\alpha_i>0$ 的样本，均可以用来计算b的值，但因为计算有偏差，通常为了减少偏差，会用全部知足 $\alpha_i>0$ 的样本计算b，再取均值。

3-2 SMO算法

3-2-1 咱们如今面临的棘手问题

前面讲到了对偶问题，让咱们再看下推导获得的对偶问题

$\min\limits_{\alpha} \frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_jy_iy_jx^{(i)}\cdot x^{(j)}-\sum\limits_{i=1}^m\alpha_i$

$s.t.$
$\alpha_i\geqslant0\quad i=1,2,...,m$ $\sum\limits_{i=1}^m\alpha_iy_i=0$

为了方便以后进一步的推导，咱们将对偶问题写成向量化的形式

$\min\limits_{\alpha} \frac{1}{2}\alpha^TQ\alpha-e^T\alpha$

$s.t.$
$y^T\alpha=0$ $\alpha_i\geqslant0,\quad i=1,2,...,m$

其中
矩阵 $Q_{ij}=y_iy_jx^{(i)}\cdot x^{(j)}$
向量 $e^T=[1,1,...,1]$

关于从 $\sum\limits_{j=1}^m\alpha_i\alpha_jy_iy_jx^{(i)}\cdot x^{(j)}$ 到 $\alpha^TQ\alpha$
应用了二次型展开。

这部分我不是熟悉，只依稀记得一个例子
$x^2+y^2+z^2=\begin{bmatrix} x &y&z \end{bmatrix}\begin{bmatrix} 1 & 0 &0\\ 0 & 1&0\\ 0 & 0 &1 \end{bmatrix}\begin{bmatrix} x\\ y\\ z \end{bmatrix}$
中间的矩阵对应的是本来的系数，因此Q本质上就是 $\alpha_i\alpha_j$ 的系数矩阵

这是一个大规模的二次函数的最优化问题，因为自己是凸优化问题，因此一些经典的最优化算法（如牛顿法，梯度降低法）能够收敛到极值点处。

但棘手的是还存在着等式约束和不等式约束，因此须要更好的求解算法，那就是SMO算法（序列最小最优化算法）

从SVM提出，到SMO算法提出以前，SVM并无普遍使用就是由于这个对偶问题的求解很是麻烦。

3-2-2 破解对偶问题的神器SMO算法

SMO算法（Sequential minimal optimization）序列最小最优算法的核心思想是分治法（把一个大问题拆解成不少子问题来求解，而后把解合并起来，造成大问题的解）

SMO算法的巧妙之处在于每次选取两个变量进行优化。为何不仅选出一个变量进行优化呢？

由于咱们有一个等式约束 $\sum\limits_{i=1}^m\alpha_iy_i=0$ ,若是只有一个 $\alpha$ 变化的话，就会破坏原来的等式约束。

所以只调整一个变量是不行的，最少要调整2个变量。

根据这个想法，就能够把原来的m元2次问题转化成2元2次问题。

而对于2元2次函数的极值问题的求解就是初中内容了，能够经过等式约束，消掉一个变量，变成一元二次函数求极值的问题。

一元二次函数就是一个抛物线，但由于有 $\alpha\geqslant0$ 的限定条件，因此咱们须要根据这个状况来进行极值的讨论。

3-2-3 SMO算法的理论推导

3-2-3-1 定义一些变量

以后原来代换的变量也写在这边，方便查看


定义矩阵Q	$Q_{ij}=y_iy_jX_i^TX_j$
定义 $u_i$	$u_i=\sum\limits_{j=1}^my_j\alpha_jX_j\cdot X_i+b$ $u_i$ 至关于把第i个样本带到咱们的预测函数中

定义 $K_{ij}$	$K_{ij}=X_i^{T}X_j$
定义s	$s=y_1y_2$
定义 $v_i$	$v_i=\sum\limits_{k=1,k=\not i,k=\not j}^m y_k\alpha_kK_{ik}$
定义 $\xi$	$\xi=y_i\alpha_i+y_j\alpha_j = -\sum\limits_{k=1,k=\not i,k=\not j}^m y_k\alpha_k$

定义 $w$	$w=\xi y_i$

定义 $\eta$	$\eta=K_{ii}+K_{jj}-2K_{ij}$
定义 $E_i$	$E_i=u_i-y_i$

3-2-3-2 KKT条件的做用

再回忆KKT条件：
$\begin{cases} \alpha_i>0 & y_i(w^Tx^{(i)}+b)=1\\ \alpha_i=0 & y_i(w^Tx^{(i)}+b)\geqslant1 \end{cases}$

以前讲到，KKT条件用于选择优化变量，断定迭代是否终止

选择优化变量：
KKT条件帮助咱们选择每次哪两个变量来优化，怎么挑呢？只要这个变量违反KKT条件，咱们就把它挑出来。
因此若是不知足kkt条件，就必定不是极值点，因此咱们要把它挑出来，调整 $\alpha$ 使得知足KKT条件
断定迭代的依据：
若是alphai都知足，说明找到了极值点。

因此大致上SMO算法的流程图为：

根据SMO算法的流程图，能够看出咱们须要解决的几个小问题，分别是如何初始化，如何选出优化变量，如何优化选出的变量。先就其中最繁琐的如何优化选出的变量提及。

3-2-3-3 子问题的推导->如何优化选出的变量

3-2-3-3-1 转化为二元二次函数问题

假如咱们已经经过KKT条件，从m个 $\alpha$ 中已经选出了须要优化的2个变量 $\alpha_i,\alpha_j$

这时对于对偶问题 $f(\alpha)=\frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_jy_iy_jx^{(i)}\cdot x^{(j)}-\sum\limits_{i=1}^m\alpha_i$ 来讲，只有 $\alpha_i$ 和 $\alpha_j$ 是变量，其余的都是常量，这时咱们的目标函数就转化成了二元二次函数，再根据等式约束，能够进一步转化为一元二次求极值的问题。

咱们将上式整理下，写成 $\boxed{\text{系数}}\alpha_i^2+\boxed{\text{系数}}\alpha_j^2+\boxed{\text{系数}}\alpha_i\alpha_j+\boxed{\text{系数}}\alpha_i+\boxed{\text{系数}}\alpha_j+\boxed{\text{系数}}$ 这样的形式
$g(\alpha_i,\alpha_j)=\frac{1}{2}K_{ii}\alpha_i^2+\frac{1}{2}K_{jj}\alpha_j^2+sK_{ij}\alpha_i\alpha_j+y_iv_i\alpha_i+y_jv_j\alpha_j-\alpha_i-\alpha_j$

其中
$s=y_1y_2$
$v_i=\sum\limits_{k=1,k=\not i,k=\not j}^m y_k\alpha_kK_{ik}$

约束条件为
$\alpha_i\geqslant0$
$\alpha_j\geqslant0$

$\sum\limits_{k=1}^my_k\alpha_k=0$ 由此能够推出
$y_i\alpha_i+y_j\alpha_j = -\sum\limits_{k=1,k=\not i,k=\not j}^m y_k\alpha_k=\xi$

接下来的目标就是计算 $f(\alpha_i,\alpha_j)$ 的极值

3-2-3-3-2 肯定 $\alpha_j$ 的可行域

由于
$y_i\alpha_i+y_j\alpha_j = -\sum\limits_{k=1,k=\not i,k=\not j}^m y_k\alpha_k=\xi$

因此
$\alpha_i+y_iy_j\alpha_j=y_i\xi$
因为 $y_iy_j$ 的正负号不知，因此一共对应四种情形，同时咱们还能够尝试肯定下 $\xi$ 的正负

序号	$y_i$	$y_j$	$\alpha_i+y_iy_j\alpha_j=y_i\xi$	$\xi$
1	+	+	$\alpha_i+\alpha_j=\xi$	+
2	-	-	$\alpha_i+\alpha_j=-\xi$	-
3	+	-	$\alpha_i-\alpha_j=\xi$	不知
4	-	+	$\alpha_i-\alpha_j=-\xi$	不知

对应这四种状况，咱们能够经过图像，分别肯定出 $\alpha_j$ 的取值范围

序号	$y_i$	$y_j$	$\alpha_i+y_iy_j\alpha_j=y_i\xi$	$\xi$
1	+	+	$\alpha_i+\alpha_j=\xi$	+	Low boundary = $0$ High boundary= $\alpha_i+\alpha_j$
2	-	-	$\alpha_i+\alpha_j=-\xi$	-	Low boundary = $0$ High boundary= $\alpha_i+\alpha_j$
3	+	-	$\alpha_i-\alpha_j=\xi$	不知	Low boundary = $\max\{0,\alpha_i-\alpha_j\}$ High boundary= $+\infin$
4	-	+	$\alpha_i-\alpha_j=-\xi$	不知	Low boundary = $\max\{0,\alpha_i-\alpha_j\}$ High boundary= $+\infin$

最终总结下 $\alpha_j$ 的取值范围
$\begin{cases} \alpha_j \in [0,\alpha_i+\alpha_j] & y_iy_j=1\\ \alpha_j\in [\max\{0,\alpha_i - \alpha_j\},+\infin)& y_iy_j=-1 \end{cases}$

3-2-3-3-2 肯定 $\alpha_j$ 的值

因为 $\alpha_i$ 与 $\alpha_j$ 存在等式关系,即 $y_i\alpha_i+y_j\alpha_j=\xi$ ，
左右同时乘以 $y_i$ 得
$\alpha_i+y_iy_j\alpha_j=\xi y_i$ ,即
$\alpha_i+s\alpha_j=\xi y_i$
令 $w=\xi y_i$
故 $\alpha_i=w-s\alpha_j$

因此咱们将上式带入
$g(\alpha_i,\alpha_j)=\frac{1}{2}K_{ii}\alpha_i^2+\frac{1}{2}K_{jj}\alpha_j^2+sK_{ij}\alpha_i\alpha_j+y_iv_i\alpha_i+y_jv_j\alpha_j-\alpha_i-\alpha_j$
就能够获得关于 $\alpha_j$ 的一元二次函数，接下来就是这个带入过程。

$g(\alpha_j)=\frac{1}{2}K_{ii}(w-s\alpha_j)^2+\frac{1}{2}K_{jj}\alpha_j^2+sK_{ij}(w-s\alpha_j)\alpha_j+y_iv_i(w-s\alpha_j)+y_jv_j\alpha_j-(w-s\alpha_j)-\alpha_j$

咱们能够经过对 $g(\alpha_j)$ 求导=0，获得极值点的位置

$g'(\alpha_j)=K_{ii}(w-s\alpha_j)(-s)+K_{jj}\alpha_j+sK_{ij}w-2s^2K_{ij}\alpha_j-sy_iv_i + y_jv_j+s-1=0$

在整理过程当中，咱们使用一个小技巧
$sy_iv_i=y_iy_jy_iv_i=y_jv_i$

带入目标函数中获得
$\big(K_{ii}+K_{jj}-2K_{ij}\big)\alpha_j=sw\big(K_{ii}-K_{ij}\big)+y_jv_i-y_jv_j-s+1$

等号的右边能够进一步简化成和左边类似的结构。
用到一些小技巧好比
$sw=y_iy_jy_i\xi=y_j\xi$
其中 $\xi=\alpha_i^*y_i+\alpha_j^*y_j$
$\alpha_i*$ 和 $\alpha_j^*$ 表示未迭代的值

因此 $sw=y_j(\alpha_i^*y_i+\alpha_j^*y_j)$

将 $sw=y_j(\alpha_i^*y_i+\alpha_j^*y_j)$ 带入右式，同时让 $s=y_iy_j$ ， $1=y_jy_j$
$\begin{aligned} &sw\big(K_{ii}-K_{ij}\big)+y_jv_i-y_jv_j-s+1 \\ &=y_j(\alpha_i^*y_i+\alpha_j^*y_j)\big(K_{ii}-K_{ij}\big)+y_jv_i-y_jv_j-y_iy_j+y_jy_j\\ &=y_iy_j\alpha_i^*K_{ii}+\alpha_j^*K_{ii}-y_iy_j\alpha_i^*K_{ij}-\alpha_j^*K_{ij}+y_j\big(v_i-v_j+y_j-y_i\big)\\ \end{aligned}$

接下来的化简要将 $v_i$ 用 $u_i$ 表示

回忆
$v_i=\sum\limits_{k=1,k=\not i,k=\not j}^m y_k\alpha_kK_{ik}=X_i\cdot\sum\limits_{k=1,k=\not i,k=\not j}^m y_k\alpha_kX_k$
$u_i=\sum\limits_{j=1}^my_j\alpha_jK_{ij}+b=X_i\cdot\sum\limits_{j=1}^my_j\alpha_jX_{j}+b=v_i+\textcolor{blue}{y_i\alpha_i^*X_iX_i+y_j\alpha_j^*X_jX_i+b}$

也就是说
$v_i-v_j=u_i-u_j+y_j\alpha_jX_jX_j+y_i\alpha_iX_iX_j-y_i\alpha_iX_iX_i-y_j\alpha_jX_jX_i$
$=u_i-u_j+y_j\alpha_j^*K_{jj}+y_i\alpha_i^*K_{ij}-y_i\alpha_i^*K_{ii}-y_j\alpha_j^*K_{ij}$

因此等号右边能够继续化简
$=y_iy_j\alpha_i^*K_{ii}+\alpha_j^*K_{ii}-y_iy_j\alpha_i^*K_{ij}-\alpha_j^*K_{ij}+y_j\big(v_i-v_j+y_j-y_i\big)$
$=y_iy_j\alpha_i^*K_{ii}+\alpha_j^*K_{ii}-y_iy_j\alpha_i^*K_{ij}-\alpha_j^*K_{ij}+y_j\big(u_i-u_j+y_j\alpha_j^*K_{jj}+y_i\alpha_i^*K_{ij}-y_i\alpha_i^*K_{ii}-y_j\alpha_j^*K_{ij}+y_j-y_i\big)$
$=y_iy_j\alpha_i^*K_{ii}+\alpha_j^*K_{ii}-y_iy_j\alpha_i^*K_{ij}-\alpha_j^*K_{ij}+\alpha_j^*K_{jj}+s\alpha_i^*K_{ij}-s\alpha_i^*K_{ii}-\alpha_j^*K_{ij}+y_j\big((u_i-u_j)-(y_i-y_j)\big)$
$=\alpha_j^*\big(K_{ii}+K_{jj}-2K_{ij}\big)+y_j\big((u_i-u_j)-(y_i-y_j)\big)$

这时，等号的左右边都有 $\big(K_{ii}+K_{jj}-2K_{ij}\big)$ ，对于取得极值点的 $\alpha_j$ 能够进一步化简
设
$\eta=K_{ii}+K_{jj}-2K_{ij}$
$E_i=u_i-y_i$

$\eta\alpha_j=\alpha_j^*\eta+y_j(E_i-E_j)$
因此 $\alpha_j=\alpha_j^*+\frac{y_j(E_i-E_j)}{\eta}$

这是在无约束时，使得 $g(\alpha_i,\alpha_j)$ 最小的点，咱们令其为 $\alpha_j^{best}$ 但因为 $\alpha_j$ 还存在不等式约束
$\begin{cases} \alpha_j \in [0,\alpha_i+\alpha_j] & y_iy_j=1\\ \alpha_j\in [\max\{0,\alpha_i - \alpha_j\},+\infin)& y_iy_j=-1 \end{cases}$

因此再根据约束，进一步考虑最终迭代后 $\alpha_i的值$
对应的一共有三种状况

状况一	状况二	状况三

最终迭代后 $\alpha_j^{new}$ 的值为
$\alpha_j^{new}=\left\{ \begin{aligned} &L & \quad\text{if }\alpha_j^{best}<L\\ &\alpha_j^{best} &\quad\text{if }L\leqslant\alpha_j^{best}\leqslant H \\ &H &\quad\text{if }\alpha_j^{best}>H \end{aligned} \right.$

3-2-3-3-3 肯定 $\alpha_i$ 的值

由于 $\alpha_i^{new}y_i+\alpha_j^{new}y_j=\alpha_i^*y_i+\alpha_j^*y_j$
因此迭代后
$\alpha_i^{new}=\alpha_i^*+s(\alpha_j^*-\alpha_j^{new})$

3-2-3-3-4 更新b

若是 $\alpha_1>0$
则 $\sum\limits_{k=1}^my_k\alpha_kX_kX_1+b_1^{new}=y_1$
即 $\sum\limits_{k=3}^my_k\alpha_kX_kX_1+\alpha_1^{new}y_1K_{11}+\alpha_2^{new}y_2K_{21}+b_1^{new}=y_1$
因此 $b_1^{new}=y_1-\sum\limits_{k=3}^my_k\alpha_kX_kX_1-\alpha_1^{new}y_1K_{11}-\alpha_2^{new}y_2K_{21}$

未更新的 $E_1=\sum\limits_{k=3}^my_k\alpha_kK_{k1}+\alpha_1^{*}y_1K_{11}+\alpha_2^{*}y_2K_{21}+b^{*}-y_1$
因此可得 $y_1-\sum\limits_{k=3}^my_k\alpha_kK_{k1}=-E_1+\alpha_1^{*}y_1K_{11}+\alpha_2^{*}y_2K_{21}+b^*$

故
$b_1^{new}=-E_1+\alpha_1^{*}y_1K_{11}+\alpha_2^{*}y_2K_{21}+b^*-\alpha_1^{new}y_1K_{11}-\alpha_2^{new}y_2K_{21}$
$=b^*-E_1+y_1K_{11}(\alpha_1^*-\alpha_1^{new})+y_2K_{21}(\alpha_2^*-\alpha_2^{new})$

同理可得
$b_2^{new}=b^*-E_2+y_1K_{12}(\alpha_1^*-\alpha_1^{new})+y_2K_{22}(\alpha_2^*-\alpha_2^{new})$

最终 $b^{new}$ 的取值为
$b^{new}=\frac{b_1^{new}+b_2^{new}}{2}$
对b的更新还不是十分肯定，先暂时按这样的方式实现下代码

3-2-3-3-5 更新 $E_k$

每次完成两个变量的优化以后，还必须更新对应的 $E_k$ ，并将他们保存在列表中， $E_k$ 值的更新要用到 $b_{new}$
$E_k^{new}=\sum\limits_{i=1}^my_i\alpha_iK_{ik}+b^{new}-y_k$

3-2-3-4 一些证实细节

3-2-3-4-1 SVM对偶问题的任意一个子问题都是凸优化问题（抛物线开口向上）

用到的方法利用是Hessian矩阵判断

子问题的Hessian矩阵为
$\begin{bmatrix} Q_{ii} & Q_{ij}\\ Q_{ji} & Q_{jj} \end{bmatrix}$
能够写成以下矩阵乘积的形式
$\begin{bmatrix} y_iX_i^T \\ y_iX_j^T \end{bmatrix} \begin{bmatrix} y_iX_i & y_jX_j \end{bmatrix}=A^TA$
任意的向量x
$x^TA^TAx=(Ax)^T(Ax)\geqslant0$
因此Hessian矩阵半正定，所以目标函数必定为凸函数

3-2-3-4-2 SVM算法收敛性的证实

由于不管迭代时，两个变量的初始值时多少，经过上面的子问题求解算法获得的是在可行域内的最小值，所以每次更新完这两个变量后，都能保证目标函数的值小于或者等于初始值，即函数值降低。同时SVM要求解的对偶问题是凸优化问题，有全局最小解，因此SMO算法能保证收敛。

3-2-3-5 优化变量的选择

使用KKT条件，挑选出违反KKT条件的样本，进行优化。

根据前面的推导，在最优势处必须知足
$\begin{cases} \alpha_i>0 & y_i(w^Tx^{(i)}+b)=1\\ \alpha_i=0 & y_i(w^Tx^{(i)}+b)\geqslant1 \end{cases}$

其中 $w$ 用 $\alpha$ 来表示
设
$u_i=\sum\limits_{j=1}^my_j\alpha_jX_j\cdot X_i+b$
因此在最优势处必须知足

$\begin{cases} \alpha_i>0 & y_iu_i=1\\ \alpha_i=0 & y_iu_i\geqslant1 \end{cases}$

根据上式，依此检查全部样本，若是违反了上面的条件，则须要优化。
优先优化 $\alpha_i>0$

第二个变量的选择，选择使 $|E_i-E_j|$ 最大化的值。
其中 $E_i=u_i-y_i$

为何选 $|E_i-E_j|$