可学习理论针对于监督学习,从问题空间$X\times Y$中采样,输出一个预测函数$h:X\to Y$,来断定X与Y之间的对应关系。算法
主要难点在于:函数
所以学习问题定义为一个三元组$(S,H,L)$。未知数据分布$(x,y)\sim D$的状况下,可学习理论给出了获得预测函数集合中最优函数,须要的样本复杂度。学习
定义:$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D[\exists h\in H(L_{D,f}(h)=0)\wedge m\geqslant m_H(\epsilon,\delta)\Rightarrow P(L_{D,f}(A(S)\leqslant\epsilon)\geqslant 1-\delta]$it
任一有限假设类H为PAC可学习,采样复杂度知足:$m_H(\epsilon,\delta)\leqslant\left \lceil \frac{\log(|H|)}{\epsilon\delta} \right \rceil$变量
$\gamma-$弱可学习:相似与 PAC可学习,但不要求$\epsilon=1/2-\gamma$任意小,比随机猜想好一个$\gamma$便可,以此换取高效算法。lambda
定义:$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D,m\geqslant m_H(\epsilon,\delta)\Rightarrow P(L_{D}(A(S))\leqslant\min_{h'\in H}L_D(h')+\epsilon)\geqslant 1-\delta$gc
定理:[没有免费的午饭]
对实例空间 X上0-1损失的二分任务,令 A 表示任意的学习算法。样本大小 m 表示小于|X|/2的任意数,则在$X\times\{0,1\}$上存在一个分布 D,使得:存在一个函数$f:X\to\{0,1\}$知足$L_D(f)=0$;在样本集$S\sim D^m$上,以致少$\frac{1}{7}$的几率知足 $L_D(A(S))\geqslant \frac{1}{8}$。每一个学习器,都存在一个任务使其失败。im
VC维:H 能够打散的最大集合的大小。经验
一致收敛(H):$$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D,m\geqslant m_H(\epsilon,\delta)\Rightarrow P(L_{D}(A(S))\leqslant\min_{h'\in H}L_D(h')+\epsilon)\geqslant 1-\delta$$nw
定理:二分类问题的等价性:一致收敛$\iff$不可知PAC可学习$\iff$VCdim有限
样本复杂度:$m_H:(0,1)\times(0,1)\times H\to N$
定义:$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D\forall h,m\geqslant m_H(\epsilon,\delta,h),S\sim D^m\Rightarrow P(L_D(A(S))\leqslant L_D(h)+\epsilon)\geqslant 1-\delta$
定理:二分类问题的假设类 H是不一致可学习$\iff$H 为不可知PAC可学习的可数并
定理:[结构风险最小化SRM]设$$S\sim D^m,\sum_nw(n)\leqslant 1, H=\bigcup_nH_n,\epsilon_n(m,\delta)=min\{\epsilon\in(0,1):m_{H_n}(\epsilon,\delta)\leqslant m\}$$ $$[\forall\delta\forall n\forall h\in H_n,P(|L_D(h)-L_S(h)|\leqslant\epsilon_n(m,w(n)\delta))\geqslant 1-\delta]\Rightarrow [\forall\delta\forall D\forall h\in H, L_D(h)\leqslant L_S(h)+\min_{n:h\in H}\epsilon_n(m,w(n)\delta) ]$$
一致收敛$(H,2^D)$:$$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D\forall h,m\geqslant m_H(\epsilon,\delta,h,D),S\sim D^m\Rightarrow P(L_D(A(S))\leqslant L_D(h)+\epsilon)\geqslant 1-\delta$$
凸学习问题:假设类$H$为凸集,损失函数$L$对样本$s$为凸函数,则学习问题$(H,L,S)$为凸的。
$\rho-$利普希茨性:$f:R^d\to R^k,\exists \rho\forall w_1\forall w_2, \left \| f(w_1)-f(w_2) \right \|\leqslant \rho \left \| w_1-w_2 \right \| $
光滑性:$\bigtriangledown f$具备$\rho-$利普希茨性
假设类有界:$\exists B\forall h\in H \left \| h \right \|\leqslant B$
学习问题$(H,L,S)$为凸利普希茨有界:$(H,L,S)$为凸$\wedge H$有界$\wedge L$为利普希茨
学习问题$(H,L,S)$为凸光滑有界:$(H,L,S)$为凸$\wedge H$有界$\wedge L$为非负、光滑
正则损失最小化$RLM:\arg\min_h(L_D(h)+R(h)),R:R^d\to R$
Tikhonov 正则化:$R(h)=\lambda \left \| h \right \|^2$
换一稳定:$S^{(i)})$替换了S 的第 i 个样本,$\epsilon:N\to R$是一个单调递减函数。一个学习算法 A 是在比率$\epsilon(m)$下的换一稳定,若是$$E_{(S,z')\sim D^{m+1},i\sim U(m)}[L(A(S^{(i)}),z_i)-L(A(S),z_i)]\leqslant \epsilon(m)$$
$\lambda-$强凸函数:$f(au+(1-a)v)\leqslant af(u)+(1-a)f(v)-\frac{\lambda}{2}a(1-a)\left \| u-v\right \|^2$
定理:学习问题$(H,L,S)$为凸利普希茨,那么Tikhonov 正则化的 RLM 是比率为$\frac{2\rho^2}{\lambda m}$的换一稳定。
定理:学习问题$(H,L,S)$为凸光滑,$\exists C\forall s(L(0,s)\leqslant C)$,那么Tikhonov 正则化的 RLM 是比率为$\frac{48\rho C}{\lambda m}$的换一稳定。
定理:对于梯度降低法GD,$w^{(1)}=0, w^{(t+1)}=w^{(t)}-\eta \nu_t$,有$\sum_t <w^{(t)}-w^*,\nu_t>\leqslant \frac{\left \| w^* \right \|^2}{2\eta}+\frac{\eta}{2}\sum_t\left \| \nu_t \right \|^2$
次梯度:f是凸函数$\iff \forall w\exists v\forall u,f(u)-f(w)\geqslant <u-w,v>$,v称为f在w处的次梯度,其集合记做$\partial f(w)$。
定理:A为开凸集,f为A上凸函数,f为凸利普希茨$\iff \forall w\in A\forall v\in \partial f(w),\left \| v \right \|\leqslant\rho$
随机梯度降低法SGD,$w^{(1)}=0, w^{(t+1)}=w^{(t)}-\eta \nu_t, E[\nu_t|w^{(t)}]\in\partial f(w)$,f为凸函数,h有界B,$\nu$有界$\rho$,则$E[f(\bar{w})]-f(w^*)\leqslant\frac{B\rho}{\sqrt T}$