在约束最优化问题中,经常使用拉格朗日对偶性将原始问题转换为对偶问题求解。函数
称最优化问题优化
$\begin{equation} \begin{array}{lcl} \min\limits_{x\in R^n} f(x)\\ \begin{aligned} \text{s.t.}\;\;&c_i(x) \le 0,\;\;i=1,2,...,k \\ &h_j(x)=0,\;\;j=1,2,...,l \end{aligned} \end{array} \end {equation}$blog
为原始最优化问题。使用以上优化问题构造广义拉格朗日函数:it
$L(x,\alpha,\beta) = f(x)+\sum\limits_{i=1}^k\alpha_ic_i(x)+\sum\limits_{j=1}^l\beta_jh_j(x)$io
其中$\alpha_i\ge 0,\beta_j\in R$是拉格朗日乘子。能够发现,对于违反原始问题约束的$x$,即存在某个$c_i(x)>0$,或某个$h_j(x)\ne 0$,有:im
$\max\limits_{\alpha\ge 0,\beta}L(x,\alpha,\beta) = +\infty$margin
所以有:img
$\begin{equation} \max\limits_{\alpha\ge 0, \beta}L(x,\alpha,\beta) = \left\{ \begin{aligned} &f(x),\;\;x知足原始条件约束\\ &+\infty,\;\;else \end{aligned} \right. \end {equation}$di
所以原始问题的最优值能够表示为:co
$p^* = \min\limits_{x}\max\limits_{\alpha\ge 0 , \beta}L(x,\alpha,\beta)$
从而将约束条件与待优化问题结合到了一块儿,称为广义拉格朗日函数的极小极大问题。
将极小极大交换一下,获得
$d^* = \max\limits_{\alpha\ge 0 , \beta}\min\limits_{x}L(x,\alpha,\beta)$
即为原始问题的对偶问题的最优值。对偶问题转换为带条件的形式就是:
$\begin{aligned} &\max\limits_{\alpha,\beta}\min\limits_{x} L(x,\alpha,\beta)\\ &\;\text{s.t.}\;\;\alpha_i\ge 0, \;\; i=1,2,...,k \\ \end{aligned}$
若是原始问题与对偶问题都有最优值,$p^*$和$d^*$,则:
$d^*= \max\limits_{\alpha\ge 0 , \beta}\min\limits_{x}L(x,\alpha,\beta)\le \min\limits_{x}\max\limits_{\alpha\ge 0 , \beta}L(x,\alpha,\beta)= p^*$
这是由于,对于任意$x,\alpha,\beta$,有:
$\min\limits_{x}L(x,\alpha,\beta)\le L(x,\alpha,\beta)\le\max\limits_{\alpha\ge 0 , \beta}L(x,\alpha,\beta)$
也就是左边关于$\alpha,\beta$的函数,老是小于等于右边关于$x$的函数。因此有$d^*\le p^*$。
某些状况下,对偶问题与原始问题有相等的最优值,即对于一样的$x^*,\alpha^*,\beta^*$,有$d^* = p^*$,这时解对偶问题能够替代原始问题,条件以下:
一、$f(x)$和$c_i(x)$是凸函数;
二、$h_j(x)$是仿射函数,即一次函数;
三、不等式约束$c_i(x)$是严格可行的,即存在$x$,对全部$i$有$c_i(x)<0$。若是不存在这样的$x$的话,实际上就是等式约束了。这是由于,每一个$x$都会使某个不等式约束取等号,也就能够仅使用等式约束来表示这些$x$了。
此时有:
$p^*=d^*=L(x^*,\alpha^*,\beta^*)$
且算出$x^*,\alpha^*,\beta^*$的充要条件是(KKT条件):
$\left\{ \begin{aligned} &\nabla_xL(x^*,\alpha^*,\beta^*) = 0 \\ &\alpha_i^*c_i(x^*) = 0, \;\; i=1,2,...,k \\ &c_i(x^*) \le 0, \;\; i=1,2,...,k \\ &\alpha_i^*\ge 0, \;\; i=1,2,...,k \\ &h_j(x^*) = 0, \;\; i=1,2,...,l \\ \end{aligned} \right.$
上图显示了优化的一个状况。等高线表示的是待优化函数$f(x)$($x$二维),越向中心,值越小,是个标准的凸函数。红圈表示不等式约束(内部),是个凸函数。蓝线表示等式约束(线上),是仿射函数。则$x$可取的值在红圈与其内部的蓝线上。可观察有以下几个符合KKT条件的事实:
一、三个白色箭头分别表示三个函数的梯度方向,此时有三个梯度的加权矢量和为0,与KKT条件中的1式吻合。
二、由于最优势在红圈上,所以不等式约束取等为0,有2式。
三、3式和5式是本来的约束条件。
四、观察三个梯度的方向,由于$f(x)$的方向不能改变(1式梯度前没系数),因此为了矢量和为0,$\alpha$必须大于0(知足4式,而且在2式中与$c(x^*)$成为互补条件)。而因为等式约束的仿射函数取反后约束不变,而梯度方向却变反了,所以$\beta$没有正负的限制。