ML经典算法:支持向量机(1)


1. 简介

支持向量
        下图为训练样本集 D = {(Xl ,Yl) , (X2,Y2) ,. . ., (Xm,Ym)}, Yi ε{-1,十1}在坐标系中的分布,粗线为划分超平面: w T x b = 0 w^{T}x 十 b=0 将不同类别的样本分开
在这里插入图片描述
        则有
在这里插入图片描述
        距离超平面最近的这几个训练样本点使等号成立,它们被称为"支持向量" (support vector),
间隔
        间隔即:两个异类支持向量到超平面的距离之和
在这里插入图片描述

        具有"最大间隔" (maximum margin) 的划分超平面即最优划分超平面,即找到能满足式中约束的参数 w 和 b , 使得 γ 最大:
在这里插入图片描述
支持向量机 (Support Vector Machine,简称 SVM) 的基本型:
        即:
在这里插入图片描述

2. 对偶问题

        **对偶问题:**任何一个求极大化的线性规划问题都有一个求极小化的线性规划问题与之对应,反之亦然。
        先看什么是拉格朗日对偶:
        如下面的最优化问题, 目标函数是 f ( w ) f(w) h i ( w ) h_i(w) 是等式约束。在这里插入图片描述
        引入拉格朗日算子,这里使用 β \beta 来表示算子,得到拉格朗日公式为:
在这里插入图片描述
        对上述支持向量机的基本型使用拉格朗日乘子法可得到其"对偶问题" ,即对每条约束添加拉格朗日乘子 α i > 0 \alpha_i>0 ,则该问题的拉格朗日函数可写为:在这里插入图片描述
其中 α=(α1; α2,… , αm). 令 L( ω , b , α) 对 ω 和 b 的偏导为零可得:
在这里插入图片描述
代人消去ω 和 b ,得到对偶问题:
在这里插入图片描述

在这里插入图片描述

3. 核函数

        在现实任务中原始样本空间内 ,一般并不存在一个能正确划分两类样本的超平面。可将样本从原始空 间 映射到-个更高维的特征空间,使得样本在这个特征空间内线性可分,如下图所示。
在这里插入图片描述
        如果原始空间是有限维 , 即属性数有限,那么一定存在一个高维特征空间使样本可分。令 ϕ ( x ) \phi (x) 表示将 z 映射后的特征向量,于是, 在特征空间 中划分超平面所对应的模型可表示为:
在这里插入图片描述
ω 和 b 是模型参数,类似有:
在这里插入图片描述
其对偶问题是:
在这里插入图片描述
在这里插入图片描述
ϕ ( X i ) T ϕ ( X j ) \phi(Xi)^T\phi(Xj) 是样本 Xi 与 Xj 映射到特征空间之后的内积.由于特征空间维数可能很高,甚至可能是无穷维,因此直接计算 ϕ ( X i ) T ϕ ( X j ) \phi(Xi)^T\phi(Xj) 通常是困难的。
        因此引出了核函数:
        核函数: Xi 与 Xj 在特征空间的内积等于它们在原始样本空间中通过核函数 κ(. , .)计算的结果
在这里插入图片描述
于是上述对偶问题可重写为:
在这里插入图片描述
求解后即可得到:
在这里插入图片描述
上式显示出模型最优解可通过训练样本的核函数展开,这一展式亦称"支持向量展式 "

3.1 核函数的一些定理

什么样的函数能做核函数呢?
        令 X 为输入空间 κ(. , .) 是定义在 XxX 上的对称函数,则 κ 是核函数当且仅当对于任意数据 D = {X1 , X2, …Xm},“核矩阵” (kernel matrix) K 总是半正定的:
在这里插入图片描述
        定理表明,只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。
几种常用的核函数:
在这里插入图片描述
此外,还可通过函数组合得到:

  1. 若 κ1 和 κ2 为核函数,则对于任意正数 γ1 、γ2。线性组合
    γ1κ1+γ2κ2 为核函数。
  2. 若 κ1 和 κ2 为核函数,则核函 数的直积也是核函数:
    在这里插入图片描述
  3. 若 κl 为核函 数,则对于任意函数 g (x),也是核函数:
    在这里插入图片描述