强对偶性、弱对偶性以及KKT条件的证实(对偶问题的几何证实)

1.原问题

首先给出问题的通常形式:
在这里插入图片描述
  上式代表咱们一共有M+N个约束条件,对于不是求最小值或者约束条件大于等于0的状况,咱们添加一个负号就能够变成上面这种形式。
  上述问题咱们通常称之为带约束的原问题。


函数

  利用拉格朗日乘子法,咱们构造一个新的函数以及约束条件以下:
在这里插入图片描述
其中:在这里插入图片描述

优化

  咱们称上面的问题为无约束的原问题(对x再也不有约束)。上述L是拉格朗日乘子法的基本形式,这个就再也不证实。spa

2.对偶问题

  对于无约束的原问题,咱们先直接给出它的对偶问题形式(其实就是简单交换min和max):
在这里插入图片描述
  上述问题咱们称之为原问题的对偶问题。

.net

2.1弱对偶性的通常证实

  所谓弱对偶性,指的是:
在这里插入图片描述
  在再谈SVM(hard-margin和soft-margin详细推导、KKT条件、核技巧)中,咱们大体口头证实了弱对偶性的成立,即“凤尾”>=“鸡头”。何谓“凤尾”?我先选出最强的一批人( max ⁡ f \max f maxf),而后组成实验班,实验班倒数第一就是 min ⁡   max ⁡ f \min \ \max f min maxf;何谓“鸡头”?我先选出最弱的一批人( min ⁡ f \min f minf),而后在这批比较弱的人当中选出最强的那我的,也便是 max ⁡   min ⁡ f \max \ \min f max minf,那么“鸡头”与“凤尾”孰强孰弱,是显而易见的。
  如今咱们利用数学推导来大体证实一下弱对偶性。
  对于 L ( x , λ , η ) L(x,\lambda,\eta) L(x,λ,η)这个函数,咱们知道下面这个不等式必定成立:
在这里插入图片描述
上面这个不等式很好理解,中间 L ( x , λ , η ) L(x,\lambda,\eta) L(x,λ,η)咱们能够理解为L的值域,值域里面的任何一个数,必然是大于等于它的最小值,小于等于它的最大值。其实这一步已经证实出弱对偶性了,不过为了更容易理解,咱们能够进一步说明。
  上述不等式最左边的表达式最后是关于 λ , η \lambda,\eta λ,η的一个函数,而最右边是一个关于 x x x的函数,所以咱们又令:
在这里插入图片描述
所以咱们有:
在这里插入图片描述
证毕。










3d

2.2弱对偶性的几何证实

  为了使问题简化,同时方便证实,咱们去掉原问题中等式的约束条件,同时不等式约束条件只保留一个,即原问题变成:
在这里插入图片描述
那么拉格朗日函数就变成:
在这里插入图片描述
咱们又令:
在这里插入图片描述
p ∗ p^* p是原问题的最优解, d ∗ d^* d是对偶问题的最优解。证实弱对偶性实际上就是证实 d ∗ ≤ p ∗ d^*\leq p^* dp
  咱们令区域G的表达形式为:
在这里插入图片描述







blog

D是原问题的定义域,G表示一个个点的集合,点的横坐标是约束条件 u = m 1 ( x ) u=m_{1}(x) u=m1(x),纵坐标是原函数 t = f ( x ) t=f(x) t=f(x)
  有了上述集合G的定义以后,咱们就能够对 p ∗ , d ∗ p^*,d^* p,d进行变式。
  首先对 p ∗ p^* p进行变式:
在这里插入图片描述
由于 t = f ( x ) t=f(x) t=f(x),因此 p ∗ p^* p实际上就是t的最小值,反映到集合G中去就是指一个点的纵坐标,这个点要知足两个条件:一是确定要在G中,二是 m 1 ( x ) ≤ 0 m_{1}(x)\leq0 m1(x)0也就是该点的横坐标小于等于0。
以下图所示:
在这里插入图片描述
  咱们对 u ≤ 0 u\leq0 u0那部分,也就是图中阴影部分上的每一个点,找到一个最低的点,它的纵坐标就是 p ∗ p^* p
  接着对 d ∗ d^* d进行变形:
在这里插入图片描述
上述 t + λ u t+\lambda u t+λu的来源为:
在这里插入图片描述
对变形后 d ∗ d^* d咱们令:
在这里插入图片描述
咱们先找到 g ( λ ) g(\lambda) g(λ)在图中的位置:咱们知道 t + λ u t+\lambda u t+λu实际上也是一个值,咱们不妨令 t + λ u = k t+\lambda u=k t+λu=k,该式表示一条斜率为 − λ -\lambda λ并过(0,k)的直线,咱们要找的是 t + λ u t+\lambda u t+λu的最小值,实际上就是k的最小值,实际上就是该直线与纵轴交点的最小值。而在求 min ⁡ x   t + λ u \min \limits_{x}\ t+\lambda u xmin t+λu的最小值时, λ \lambda λ固定的,所以斜率 − λ -\lambda λ也是固定的:
在这里插入图片描述
  咱们保持斜率不变移动直线,不断往上移动,则该直线与纵轴交点的纵坐标k也不断增大,由于限制条件还有一个就是 ( u , t ) ∈ G (u,t)\in G (u,t)G,所以该直线必须通过区域G,咱们一直往上移动,直到直线第一次与G相交,记下相应的k值为 k 1 k_{1} k1,再继续往上也都知足条件,知道该直线与G再也不相交,可是如今咱们求得是最小值,那么最小值其实就是 k 1 k_{1} k1,即 g ( λ ) g(\lambda) g(λ)就等于 k 1 k_{1} k1
  进一步,咱们要求:
在这里插入图片描述
这里要重点注意:上一步咱们求得了 g ( λ ) g(\lambda) g(λ)就等于 k 1 k_{1} k1,可是这种状况只是一种状况,在上一步求 g ( λ ) g(\lambda) g(λ)时,咱们倘若改变斜率 − λ -\lambda λ,那么 k 1 k_{1} k1的值是会变的,以下所示:
在这里插入图片描述
  咱们换一个 λ \lambda λ固定时, g ( λ ) g(\lambda) g(λ)也就是 k 1 k_{1} k1天然也就在变。
  第二步要干的其实就是让咱们求这个 g ( λ ) g(\lambda) g(λ)的最大值。那何时是最大的?实际上就是以G的最低点为轴,咱们旋转直线,直到与左上方最低点相交时, g ( λ ) g(\lambda) g(λ)是最大的。以下所示:
在这里插入图片描述






















图片

  可能不少人就有疑问了:我为何不可让斜率继续增大?让直线穿过G?这里有疑问的同窗不妨回忆一下第一个步骤:
在这里插入图片描述
咱们在肯定 g ( λ ) g(\lambda) g(λ)的时候,第一次相切咱们就中止了,然后改变斜率继续相切:如上图所示,假如你继续增大斜率,那么该直线就不跟G的最低点相切了。咱们是先推第一步再推第二步,而推第二步的时候确定必须知足第一步的条件,因此 d ∗ d^* d只能是在那个位置。
在这里插入图片描述
  从上图也能够看出来: d ∗ ≤ p ∗ d^*\leq p^* dp,也就是对偶问题的解是小于等于原问题的解的,也便是说知足弱对偶性。所以这里咱们进一步证实了弱对偶性。



get

2.3强对偶性的几何表示以及条件

  什么是强对偶性?就是指原问题的解与对偶问题的解是相同的,也便是: d ∗ = p ∗ d^*=p^* d=p
  画个图:
在这里插入图片描述
  假设G是一个凸集,那么根据上面找 d ∗ d^* d p ∗ p^* p的思路,咱们很容易知道这个时候两者是相等的,也就是知足强对偶关系。
  那上面这句话的意思就是说:只要是凸集就必定知足强对偶关系。这句话不是正确的,不是全部的凸集都知足强对偶关系,可是加上slater条件就必定知足。



数学

2.4 slater condition

  先直接给出slater条件的定义:对于x的定义域D,若是它存在一个内点(不是边界上的点) x ∗ x^* x知足对任意的 m i ( x ) < 0 , i = 1 , 2 , . . . , M m_{i}(x)\lt0,i=1,2,...,M mi(x)<0,i=1,2,...,M,则说明该问题知足slater条件。
  对slater条件作两点说明:
it

  1. 对于大多数的凸优化问题来讲,slater condition都是成立的
  2. 放松的slater条件:若是约束函数 m i ( x ) , i = 1 , 2 , . . . , M m_{i}(x),i=1,2,...,M mi(x),i=1,2,...,M中有K个是仿射函数,则咱们只须要那M-K个约束函数知足第一个条件,咱们也说该问题知足slater条件。
  3. 什么是仿射函数?仿射函数,即最高次数为1的多项式函数。常数项为零的仿射函数称为线性函数。简单来讲,就是比较简单的函数。

  对第一个条件进一步说明:为何咱们要知足这个条件?第一个条件放在G中的意思就是:G在u<0部分必须有点存在
在这里插入图片描述
假设纵坐标左边没有点,那么在咱们寻找 g ( λ ) g(\lambda) g(λ)时,那条直线实际上就会是纵坐标轴。

3.KKT条件的证实

  经过上面的推导咱们知道了:
在这里插入图片描述
知足强对偶关系以后咱们就获得一个结论: d ∗ = p ∗ d^*=p^* d=p,可是也到此为止了,咱们确定得解出那些未知最优参数(带 * 的变量),KKT条件就是干这件事。
  KKT条件有三部分:可行条件、互补松弛条件以及偏导为0条件,咱们一个一个推导。


3.1可行条件

  所谓可行条件,指的是一开始就知足的一些条件:
在这里插入图片描述

这三个条件确定得知足,这个没啥可说的,自然知足

3.2互补松弛条件

  咱们知道:
在这里插入图片描述
带星号的都是最优解的意思。根据可行条件咱们知道: λ i ≥ 0 , m i ≤ 0 \lambda_{i}\geq0,m_{i}\leq0 λi0,mi0,因此 λ i m i ≤ 0 \lambda_{i}m_{i}\leq0 λimi0,因此上面继续变换:
在这里插入图片描述
由于最后一步等于第一步,因此中间推导步骤中的 ≤ \leq 都应该变成=,倒数第三步等于倒数第二步,因此咱们有:
在这里插入图片描述
而前面咱们又知道 λ i m i ≤ 0 \lambda_{i}m_{i}\leq0 λimi0,因此互补松弛条件以下:
在这里插入图片描述






3.3偏导为0条件

在这里插入图片描述
继续看这个推导,第2、三步之间应该用等号链接,即:
在这里插入图片描述
意思就是说L在 x = x ∗ x=x^* x=x处有最小值,因而偏导为0条件就出来了:
在这里插入图片描述
因而KKT条件为:
在这里插入图片描述 证毕。

相关文章
相关标签/搜索