AdaBoost详解

时间 2021-01-21

原文原文链接

本博客内容摘自李航老师的《统计学习方法》，加以一些整理。

AdaBoost算法

假定给定一个二分类的训练数据集：

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}

其中，每个样本点由实力和标记组成。实例

x_{i} \in X \subseteq R^{n}

(表示实数),标记

y_{i} \in Y = {- 1, + 1}

,即有两种标签的数据，用

{- 1, + 1}

来表示这两种类别;

X

是实例空间，

Y

是标记集合。AdaBoost算法利用以下算法，从训练数据中学习一系列弱分类器或基本分类器，并将这些弱分类器线性组合成一个强分类器。

AdaBoost描述:
输入:训练数据集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}$ ，其中 $x_{i} \in X \subseteq R^{n}, y_{i} \in Y = {- 1, + 1}$ ;得到弱学习算法;
输出:最终分类器 $G (x)$

算法步骤:

(1)初始化训练数据的权值分布

D_{1} = (w_{11}, . . ., w_{1 i}, . . ., w_{1 N}), w_{1 i} = \frac{1}{N}, i = 1, 2, . . ., N (2.1)

D是用来描述各样本的权值分布的。

(2)对 $m = 1, 2, . . ., M$ ， $m$ 表示迭代的次数
(a)使用具有权值分布 $D_{m}$ 的训练数据集学习，得到基本分类器:

G_{m} (x) : X ⟶ {- 1, + 1}

(b)计算

G_{m}

在训练数据集上的分类误差率

e_{m} = P (G_{m} (x_{i}) \neq y_{i}) = \sum_{i = 1}^{N} w_{m i} I (G_{m} \neq y_{i}) (2.2)

其中

I (G_{m} \neq y_{i}) = {0, 1}

，当分类正确时，等于0;分类错误时，等于1;

G_{m} (x_{i})

表示第

m

轮得到的弱分类器

G_{m}

对第

i

个样本

x_{i}

的分类结果，

y_{i}

表示第

i

个样本的真实类别。 注意计算误差率是用到了权重分布 $D$ 中的 $w_{m}$ 。
(c) 计算

G_{m} (x)

的系数

α_{m} = \frac{1}{2} l o g \frac{1 - e_{m}}{e_{m}} (2.3)

这里的对数是自然对数。可以发现，当错误率

e_{m}

越大时,

a_{m}

越小。这个参数将会用在集成阶段。
(d)更新训练数据集的权值分布

D_{m + 1} = (w_{m + 1, 1}, . . ., w_{m + 1, i}, . . ., w_{m + 1, N}) (2.4)

w_{m + 1, i} = \frac{w_{m i}}{Z_{m}} e x p (- α_{m} y_{i} G_{m} (x_{i})), i = 1, 2, . . ., N (2.5)

这里,

Z_{m}

是规范化因子，使得总的

w_{m + 1}

值和为1.

Z_{m} = \sum_{i = 1}^{N} w_{m i} e x p (- α_{m} y_{i} G_{m} (x_{i})) (2.6)

它使得

D_{m + 1}

成为一个概率分布。

(3)构建基本分类器的线性组合

Z_{m} = \sum_{i = 1}^{N} w_{m i} e x p (- α_{m} y_{i} G_{m} (x_{i})) (2.6)

它使得

D_{m + 1}

成为一个概率分布。

(3)构建基本分类器的线性组合

D_{m + 1}

AdaBoost详解

相关概念

AdaBoost算法