机器学习——AdaBoost算法

机器学习——AdaBoost算法

1 集成学习

1.1 基本概念

所谓的集成学习指的是通过构建多个学习器来完成学习的任务,有的时候也被称为多分类器系统。其基本框架如下图所示:

在这里插入图片描述
我们从统一的训练样本,通过某种算法来产生多个学习器,再通过某一种策略来将各个学习器进行组合,从而形成一个学习器系统。我们将从训练样本中产生的每一个单个的学习器称为弱学习器。目前,集成学习主要包括两种实现方式,一种是两个学习器之间是存在依赖性的,也就是说,一个新的弱学习器的生成是和之前的弱学习器是有关联的。那么所有弱学习器生成的过程是串行的。这种方式比较有代表性的是AdaBoost算法。另外一种是每一个弱学习器的生成和其他弱学习器的生成是无关的。也就是一种并行生成的方式。这种方式的代表性算法是随机森林(Random Forest)。

2 AdaBoost算法

2.1 基本介绍

上面我们描述了集成学习的基本概念和两种主要的方式,下面我们来介绍第一种方式。这里我们主要介绍的是AdaBoost算法。AdaBoost算法的基本思想是:通过前面生成的弱分类器来调节训练样本集合中的每一个样本的权重,在进行重新采样,形成新的样本集合,继续训练下一个弱分类器。

2.2 训练流程

  1. 首先,对于初始的训练样本集合,我们需要对其中每一个样本产生一个初始的权重,记权重集合为 D 1 D_1
    D 1 = ( w 11 , w 12 , w 13 , . . . . w 1 N ) D_1=(w_{11},w_{12},w_{13},....w_{1N})
    这里,我们假设样本的数量为N, w 1 i w_{1i} 表示的是第1轮中的第i个样本的权重值。 w 1 i = 1 N w_{1i}=\frac{1}{N}
  2. 然后,我开始生成第一个弱分类器 G 1 G_1 ,采用概率分布 D 1 D_1 来选择N个训练样本来训练分类器 G 1 G_1 。这里我们训练的是二分类的弱分类器,并且,采样是有放回的采样。
  3. 计算加权的错误率:
    e 1 = P ( G 1 ( x i ) y i ) = i = 1 N w 1 i I ( G 1 ( x i ) y i ) e_1=P(G_1(x_i)≠y_i)=∑_{i=1}^Nw_{1i}I(G_1(x_i)≠y_i)
    α 1 = 1 2 l o g 1 e m e m α_1=\frac{1}{2}log\frac{1-e_m}{e_m}
    其中,I表示的示性函数,
    I ( G 1 ( x i ) y i ) = { 1 G 1 ( x i ) y i 0 G 1 ( x i ) = y i I(G_1(x_i)≠y_i)= \begin{cases} 1&G_1(x_i)≠y_i\\ 0&G_1(x_i)=y_i \end{cases}
    α 1 α_1 表示表示分类器 G 1 G_1 在整个分类器系统中所占的权重,我们可以看出, e m e_m 越小, α m α_m 越大。
  4. 更新权重的分布,
    Z 1 = i = 1 N w 1 i e x p { α 1 y i G 1 ( x i ) } Z_1=∑_{i=1}^Nw_{1i}exp\{-α_1y_iG_1(x_i)\}
    w 2 i = w 1 i Z 1 = e x p { α 1 y i G 1 ( x i ) } w_{2i}=\frac{w_{1i}}{Z_1}=exp\{-α_1y_iG_1(x_i)\}
    D 2 = ( w 21 , . . . . . w 2 n ) D_2=(w_{21},.....w_{2n})
  5. 回到2进行下一步迭代,形成下一个分类器 G 2 G_2
  6. 不断的进行2——5的步骤,知道生成我们设定的第M个分类器。
  7. 最终形成分类器系统:
    F ( X ) = j = 1 M α j G j ( X ) F(X)=∑_{j=1}^Mα_jG_j(X)
    G ( X ) = s i g n ( F ( x ) ) = s i g n ( j = 1 M α j G j ( X ) ) G(X)=sign(F(x))=sign(∑_{j=1}^Mα_jG_j(X))
    其中sign是符号函数:
    s i g n ( x ) = { 1 x < 0 0 x = 0 1 x > 0 sign(x)= \begin{cases} -1&x<0\\ 0 & x=0\\ 1 & x>0 \end{cases}

2.3 数学理论

  1. 基本定理:随着M的增加,AdaBoost最终形成的分类器集合G(X)在训练集上的错误率将会越来越小。总的错误率为:
    E = 1 N i = 1 N I ( G ( x i ) y i ) E=\frac{1}{N}∑_{i=1}^NI(G(x_i)≠y_i)
  2. E = 1 N i = 1 N I ( G ( x i ) y i ) 1 N i = 1 N e x p { y i F ( x i ) } E=\frac{1}{N}∑_{i=1}^NI(G(x_i)≠y_i)≤\frac{1}{N}∑_{i=1}^Nexp\{-y_iF(x_i)\}
    证明:若 G ( x i ) = y i G(x_i)=y_i ,则 I ( G ( x i ) y i ) = 0 I(G(x_i)≠y_i)=0 G ( x i ) G(x_i) F ( x i ) F(x_i) 的符号函数,则 y i y_i F ( x i ) F(x_i) 符号相同,则有 y i F ( x i ) < 0 -y_iF(x_i)<0 ,则有 e x p { y i F ( x i ) } > 0 exp\{-y_iF(x_i)\}>0
    G ( x i ) y i G(x_i)≠y_i ,则 I ( G ( x i ) y i ) = 1 I(G(x_i)≠y_i)=1 G ( x i ) G(x_i) F ( x i ) F(x_i) 的符号函数,则 y i y_i F ( x i ) F(x_i) 符号不相同,则有 y i F ( x i ) > 0 -y_iF(x_i)>0 ,则有 e x p { y i F ( x i ) } > 1 exp\{-y_iF(x_i)\}>1
    综上所述:该不等式成立。
  3. 1 N i = 1 N e x p { y i F ( x i ) } = j = 1 M Z j \frac{1}{N}∑_{i=1}^Nexp\{-y_iF(x_i)\}=∏_{j=1}^MZ_j
    证明:
    1 N i = 1 N e x p { y i F ( x i ) } = i = 1 N w 1 i e x p ( y i j = 1 M α j G j ( x i ) ) \frac{1}{N}∑_{i=1}^Nexp\{-y_iF(x_i)\}=∑_{i=1}^Nw_{1i}exp(-y_i∑_{j=1}^Mα_jG_j(x_i))
    进一步有:
    i = 1 N w 1 i e x p ( y i j = 1 M α j G j ( x i ) ) = i = 1 N w 1 i j = 1 M e x p ( y i α j G j ( x i ) ) ∑_{i=1}^Nw_{1i}exp(-y_i∑_{j=1}^Mα_jG_j(x_i))=∑_{i=1}^Nw_{1i}∏_{j=1}^Mexp(-y_iα_jG_j(x_i))
    化简之后有:
    i = 1 N w 1 i j = 1 M e x p ( y i α j G j ( x i ) ) = i = 1 N w 1 i e x p ( y i α 1 G 1 ( x i ) ) j = 2 M e x p ( y i α j G j ( x i ) ) = i = 1 N w 2 i Z 1 j = 2 M e x p ( y i α j G j ( x i ) ) ∑_{i=1}^Nw_{1i}∏_{j=1}^Mexp(-y_iα_jG_j(x_i))=∑_{i=1}^Nw_{1i}exp(-y_iα_1G_1(x_i))∏_{j=2}^Mexp(-y_iα_jG_j(x_i))\\ =∑_{i=1}^Nw_{2i}Z_1∏_{j=2}^Mexp(-y_iα_jG_j(x_i))

迭代之后有:
1 N i = 1 N e x p { y i F ( x i ) } = j = 1 M Z j \frac{1}{N}∑_{i=1}^Nexp\{-y_iF(x_i)\}=∏_{j=1}^MZ_j

  1. Z j = 2 e j ( 1 e j ) Z_j=2\sqrt{e_j(1-e_j)}
    证明:根据之前的描述我们可以知道, y i y_i 的取值为±1, G ( x i ) = ± 1 G(x_i)=±1 ,则 y i G ( x i ) = ± 1 y_iG(x_i)=±1 。则原式可以变成:
    Z j = i = 1 N w j i e x p { α j y i G j ( x i ) } = y i = G j ( x i ) w j i e x p ( α j ) + y i = G j ( x i ) w j i e x p ( α j ) Z_j=∑_{i=1}^Nw_{ji}exp\{-α_jy_iG_j(x_i)\}\\ =∑_{y_i=G_j(x_i)}w_{ji}exp(-α_j)+∑_{y_i=G_j(x_i)}w_{ji}exp(α_j)
    α j = 1 2 l o g 1 e m e m α_j=\frac{1}{2}log\frac{1-e_m}{e_m} 带入之后有:
    Z j = ( 1 e j ) e x p ( 1 2 l o g 1 e m e m ) + e j e x p ( 1 2 l o g 1 e m e m ) = 2 e j ( 1 e j ) Z_j=(1-e_j)exp(-\frac{1}{2}log\frac{1-e_m}{e_m})+e_jexp(\frac{1}{2}log\frac{1-e_m}{e_m})\\ \frac{}{}\\ =2\sqrt{e_j(1-e_j)}