AdaBoost

AdaBoost的设计

1️⃣

学习误差率e

在加权的样本分布上计算分类误差率。

e_m(x)=\sum_{i=1}^Nw_{mi}I(G_m(x_i)\neq y_i)=\sum_{G_m(x_i)\neq y_i}w_{mi}

2️⃣

弱学习器权重系数

\alpha

根据分类误差率e调整弱分类器的系数：增大分类误差率小的弱分类器的权值，减小分类误差率较大的弱分类器的权值。

\alpha_m=\frac{1}{2}\log\frac{1-e_m}{e_m}

3️⃣

样本权重D

根据学习器的系数

\alpha

和前一轮是否被正确分类来调整这一轮的样本权重：提高那些被前一轮弱分类器错误分类的样本的权值，降低那些被正确分类的样本的权值。

w_{m+1,i}=\frac{w_{mi}}{Z_m}\exp(-\alpha_m y_i G_m(x_i)),i=1,2,\cdots,N

4️⃣

结合策略

AdaBoost采取加权组合的方法，分类误差率小的弱分类器起的决定作用较大。

f(x)=\sum_{m=1}^M \alpha_m G_m(x)

AdaBoost二分类算法

输入：二分类的训练数据集

T=\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\}

，其中实例

x_i\in \mathcal{X}\subseteq\mathbf{R}^n

，标记

y_i\in\mathcal{Y}=\{-1,+1\}

；弱学习算法；

输出：最终分类器

G(x)

。

初始化训练数据的权值分布

D_1=\left(w_{11},\cdots,w_{1i},\cdots,w_{1N}\right),w_{1i}=\frac{1}{N},i=1,2,\cdots,N

第一步训练数据集具有均匀的权值分布，保证第一步能够在原始数据上学习基本分类器

G_1(x)

。

对 $m=1,2\cdots,M$

使用具有权值分布 $D_m$ 的训练数据集学习，得到基本分类器

G_m(x):\mathcal{X}\rightarrow\{-1,+1\}

计算 $G_m(x)$ 在加权训练数据上的分类误差率

e_m(x)=\sum_{i=1}^Nw_{mi}I(G_m(x_i)\neq y_i)=\sum_{G_m(x_i)\neq y_i}w_{mi}

计算 $G_m(x)$ 的系数

\alpha_m=\frac{1}{2}\log\frac{1-e_m}{e_m}

当

e_m\leq 0.5

时，

\alpha_m\geq 0

，且

\alpha_m

随着

e_m

的减小而增大，所以分类误差率越小的基本分类器在最终分类器中的作用越大。

更新训练数据集的权值分布

D_{m+1}=(w_{m+1,1},w_{m+1,2},\cdots,w_{m+1,N})\\w_{m+1,i}=\frac{w_{mi}}{Z_m}\exp(-\alpha_m y_i G_m(x_i)),i=1,2,\cdots,N\\Z_m=\sum_{i=1}^N w_{mi}\exp(-\alpha_m y_i G_m(x_i))

当错误分类即

y_i\neq G_m(x_i)

时，权值被扩大，反之，权值被缩小。因此误分类样本在下一轮学习中起更大的作用。

构建基本分类器的线性组合

G(x)=\sum_{m=1}^M \alpha_m G_m(x)

得到最终分类器

\begin{aligned}f(x)&=sign(G(x))\\&=sign\left(\sum_{m=1}^M \alpha_m G_m(x)\right)\end{aligned}

\alpha_m

表示了基本分类器

G_m(x)

的重要性，这里

\alpha_m

之和并不为1。

G(x)

的符号决定实例x的类，

G(x)

的绝对值表示分类的确信度。

前向分步加法模型

加法模型

f(x)=\sum_{m=1}^M\beta_m b(x;\gamma_m)

其中

b(x;\gamma_m)

为基函数，

\gamma_m

为基函数的参数，

\beta_m

为基函数的系数。

给定训练数据及损失函数的条件下，学习加法模型即极小化损失函数

\min_{\beta_m,\gamma_m} \sum_{i=1}^N L\left(y_i,\sum_{m=1}^M\beta_m b(x;\gamma_m)\right)

通常这是一个复杂的优化过程，可采用前向分布算法求解。

前向分布算法的思想：从前往后，每一步只学习一个基函数及其系数，逐步逼近优化目标函数。

即每一步只需优化如下损失函数

\min_{\beta,\gamma} \sum_{i=1}^N L\left(y_i,\beta b(x;\gamma)\right)

前向分布算法流程

输入：训练数据集

T=\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\}

；损失函数

L(y,f(x))

；基函数集

\{b(x;\gamma)\}

；

输出：加法模型

f(x)

。

初始化 $f_0(x)=0$ ；

对 $m=1,2\cdots,M$

极小化损失函数

(\beta_m,\gamma_m)=\arg\min_{\beta,\gamma} \sum_{i=1}^N L\left(y_i,f_{m-1}(x_i)+\beta b(x;\gamma)\right)

更新

f_m(x)=f_{m-1}(x_i)+\beta_m b(x;\gamma_m)

得到加法模型

f(x)=f_M(x)=\sum_{m=1}^M\beta_m b(x;\gamma_m)

🌼

AdaBoost算法的另一种解释

AdaBoost算法是模型为加法模型

f(x)=\sum_{m=1}^M\alpha_mG_m(x)

、损失函数为指数损失函数

L(y,f(x))=\exp[-yf(x)]

、学习算法为前向分步算法时的二分类算法。

AdaBoost算法的推导

第m轮极小化指数损失函数即

\begin{aligned}(\alpha^*_m,G^*_m(x))&=\arg\min_{\alpha,G}\sum_{i=1}^N\exp[-y_i(f_{m-1}(x_i)+\alpha G(x_i))]\\&=\arg\min_{\alpha,G}\sum_{i=1}^N\={w}_{mi}\exp[-y_i\alpha G(x_i)]\end{aligned}

其中

\={w}_{mi}=\exp[-y_if_{m-1}(x_i)]

为了使

\={w}_{mi}

称为一个权重系数，我们对其归一化处理

w_{mi}=\frac{\={w}_{mi}}{\sum_i\={w}_{mi}}

，不影响优化目标

\begin{aligned}(\alpha^*_m,G^*_m(x))=\arg\min_{\alpha,G}\sum_{i=1}^Nw_{mi}\exp[-y_i\alpha G(x_i)]\end{aligned}

按照预测正确和预测错误对样本进行划分

\begin{aligned}\sum_{i=1}^N{w}_{mi}\exp[-y_i\alpha G(x_i)]&=\sum_{y_i=G_m(x_i)}{w}_{mi}e^{-\alpha}+\sum_{y_i\neq G_m(x_i)}{w}_{mi}e^{\alpha}\\&=(e^\alpha-e^{-\alpha})\sum_{i=1}^N{w}_{mi}I(y_i\neq G_m(x_i))+e^{-\alpha}\sum_{i=1}^N{w}_{mi}\\&=(e^\alpha-e^{-\alpha})e_m+e^{-\alpha}\end{aligned}

其中

e_m=\sum_{i=1}^{N}{w}_{mi}I(y_i\neq G_m(x_i))

，即加权数据下的分类误差率。

先求解 $G^*_m(x)$ ：

G^*_m(x)=\arg\min_{G}\sum_{i=1}^N{w}_{mi}I(y_i\neq G(x_i))

即

G_m^*(x)

为在

{w}_{mi}

加权的数据集下分类误差率

e_m

最小的分类器。

再解 $\alpha^*_m$ :

对

\alpha

求导，并令导数为0，求得

\alpha^*_m=\frac{1}{2}\log\frac{1-e_m}{e_m}

再观察样本权值的更新：

由

f_m(x)=f_{m-1}(x)+\alpha_m G_m(x)

以及

\={w}_{mi}=\exp[-y_if_{m-1}(x_i)]

可得

\={w}_{m+1,i}=\={w}_{mi}\exp[-y_i\alpha_mG_m(x)]

对权重进行归一化处理，则得到AdaBoost算法中样本权重的更新法则

w_{m+1,i}=\frac{w_{mi}}{Z_m}\exp(-\alpha_m y_i G_m(x_i)),i=1,2,\cdots,N\\Z_m=\sum_{i=1}^N w_{mi}\exp(-\alpha_m y_i G_m(x_i))

AdaBoost多分类算法SAMME

多分类场景下的标签

在K分类任务下的标签y是一个K维向量

\boldsymbol{y}=(y_1,y_2,\cdots,y_K)^T

y_k= \begin{cases}1, & \text { if } c=k \\ -\frac{1}{K-1}, & \text { if } c \neq k\end{cases}

相当于是把one-hot编码中所有的0全部替换为了

-\frac{1}{K-1}

，这样能保证

y_1+y_2+\cdots+y_K=0

同样，对于多分类的学习器

\boldsymbol{G}^{(m)}(x)

，其输出也为K维向量

(g_1(x),g_2(x),\cdots,g_K(x))^T

，预测为k类，则

g_k(x)=1，g_{l\neq k}(x)=-\frac{1}{K-1}

多分类场景下的指数损失函数

L(\boldsymbol{y}, \boldsymbol{f})=\exp \left(-\frac{1}{K}\left(y_1 f_1+y_2 f_2+\cdots+y_K f_K\right)\right)=\exp \left(-\frac{1}{K} \boldsymbol{y}^T \boldsymbol{f}\right)

其中

f_k

表示模型第 k 个维度对应的输出结果，同时由于每个样本的预测结果有 K 维度，因此在计算损失的时候一般需要除以 K 。

前向分步算法

初始化 $\boldsymbol{f}^{(0)}(x)=0$

每一轮的优化目标

\left(\alpha^{(m)}, \boldsymbol{G}^{(m)}\right)=\underset{\alpha, \boldsymbol{G}}{\arg \min } \sum_{i=1}^N L\left(\boldsymbol{y}_i, \boldsymbol{f}^{(m-1)}\left(x_i\right)+\alpha\boldsymbol{G}\left(x_i\right)\right)

迭代更新

\boldsymbol{f}^{(m)}(x)=\boldsymbol{f}^{(m-1)}(x)+\alpha^{(m)} \boldsymbol{G}^{(m)}(x)

最终集成模型

\boldsymbol{f}(x)=\sum_{m=1}^M \alpha^{(m)} \boldsymbol{G}^{(m)}(x)

$\alpha_m$ 更新公式

\alpha_m=\frac{(K-1)^2}{K}\left(\log\frac{1-e_m}{e_m}+\log(K-1)\right)

其中

\frac{(K-1)^2}{K}

是常数，归一化后不影响最终的优化结果。

样本权重更新公式

{w}_i^{(m+1)}=\frac{{w}_i^{(m)} \exp \left(\alpha_m I(c_i\neq G_i^{(m)})\right)}{Z_m}

I(c_i\neq G_i^{(m)})

表示真实标签和预测标签是否不同，若不同则为1，相同则为0.

AdaBoost多分类SAMME算法推导

第m轮极小化的损失函数即

\begin{aligned}\left(\alpha^{(m)},\boldsymbol{G}^{(m)}\right)&=\underset{\alpha, \boldsymbol{G}}{\arg \min } \sum_{i=1}^n \exp \left(-\frac{1}{K} \boldsymbol{y}_i^T\left(\boldsymbol{f}^{(m-1)}\left(x_i\right)+\alpha\boldsymbol{G}\left(x_i\right)\right)\right)\\&=\underset{\alpha, \boldsymbol{G}}{\arg \min } \sum_{i=1}^n \={w}_i^{(m)} \exp \left(-\frac{\alpha}{K} \boldsymbol{y}_i^T \boldsymbol{G}\left(x_i\right)\right)\\&=\underset{\alpha, \boldsymbol{G}}{\arg \min } \sum_{i=1}^n {w}_i^{(m)} \exp \left(-\frac{\alpha}{K} \boldsymbol{y}_i^T \boldsymbol{G}\left(x_i\right)\right)\end{aligned}

其中

\={w}_i^{(m)}=\exp \left(-\frac{1}{K} \boldsymbol{y}_i^T \boldsymbol{f}^{(m-1)}\left(x_i\right)\right)

，对其进行归一化得到

w_i^{(m)}

按照预测正确和预测错误对样本进行划分：记样本i真实的标签为

c_i

，第m轮弱学习器预测的标签为

G^{(m)}_i

，则有

\boldsymbol{y}_i^T \boldsymbol{G}\left(x_i\right)=\begin{cases}1+(k-1)(-\frac{1}{K-1})^2=\frac{K}{K-1},&\quad c_i=G^{(m)}_i\\-\frac{2}{K-1}+(K-2)(-\frac{1}{K-1})^2=-\frac{K}{(K-1)^2},&\quad c_i\neq G^{(m)}_i\end{cases}

那么待优化的目标函数改写为

\begin{aligned}&\underset{\alpha, \boldsymbol{G}}{\arg \min } \sum_{i=1}^n {w}_i^{(m)} \exp \left(-\frac{\alpha}{K} \boldsymbol{y}_i^T \boldsymbol{G}\left(x_i\right)\right)\\=&\underset{\alpha, \boldsymbol{G}}{\arg \min }\left[\sum_{c_i=G^{(m)}_i} w_i^{(m)} e^{-\frac{\alpha}{K-1}}+\sum_{c_i \neq G^{(m)}_i} w_i^{(m)} e^{\frac{\alpha}{(K-1)^2}}\right] \\ =&\underset{\alpha, \boldsymbol{G}}{\arg \min }\left[e^{-\frac{\alpha}{K-1}} +\left(e^{\frac{\alpha}{(K-1)^2}}-e^{-\frac{\alpha}{K-1}}\right) \sum_{i=1}^N w_i^{(m)} I\left(c_i \neq G^{(m)}_i\right)\right]\\=&\underset{\alpha, \boldsymbol{G}}{\arg \min }\left[e^{-\frac{\alpha}{K-1}} +\left(e^{\frac{\alpha}{(K-1)^2}}-e^{-\frac{\alpha}{K-1}}\right) e_m\right]\end{aligned}

其中

e_m=\sum_{i=1}^N w_i^{(m)} I\left(c_i \neq G^{(m)}_i\right)

，为加权数据下的分类误差率。

先求解 $\boldsymbol{G}^{(m)}(x)$ ：

\boldsymbol{G}^{(m)}(x)=\arg \min \sum_{i=1}^N w_i^{(m)} I\left(c_i \neq G^{(m)}_i\right)

即

\boldsymbol{G}^{(m)}(x)

为加权数据下分类误差率最小的分类器；

再解 $\alpha_m$ :

对

\alpha

求导，并令导数为0，求得

\alpha_m=\frac{(K-1)^2}{K}\left(\log\frac{1-e_m}{e_m}+\log(K-1)\right)

其中

\frac{(K-1)^2}{K}

是常数，故并不影响最终的优化结果。

再观察样本权值的更新:

由

\boldsymbol{f}_m(x)=\boldsymbol{f}_{m-1}(x)+\alpha_m \boldsymbol{G}_m(x)

以及

\={w}_i^{(m)}=\exp \left(-\frac{1}{K} \boldsymbol{y}_i^T \boldsymbol{f}^{(m-1)}\left(x_i\right)\right)

可得

{w}_i^{(m+1)}=\frac{{w}_i^{(m)}}{Z_m}\exp \left(-\frac{\alpha_m}{K} \boldsymbol{y}_i^T \boldsymbol{G}^{(m)}\left(x_i\right)\right)

当

c_i= G^{(m)}_i

时，

{w}_i^{(m+1)}=\frac{{w}_i^{(m)}}{Z_m}\exp\left(-\frac{\alpha_m}{K-1}\right)

或

c_i\neq G^{(m)}_i

时，

{w}_i^{(m+1)}=\frac{{w}_i^{(m)}}{Z_m}\exp\left(\frac{K\alpha_m}{(K-1)^2}\right)\exp\left(-\frac{\alpha_m}{K-1}\right)

故可改写为

{w}_i^{(m+1)}=\frac{{w}_i^{(m)}}{Z_m}\exp\left(\frac{K\alpha_m}{(K-1)^2} I(c_i\neq G_i^{(m)})\right)

若不考虑

\alpha_m

更新公式中的常数系数

\frac{(K-1)^2}{K}

，则样本权重更新公式为

{w}_i^{(m+1)}=\frac{{w}_i^{(m)} \exp \left(\alpha_m I(c_i\neq G_i^{(m)})\right)}{Z_m}

AdaBoost回归算法

AdaBoost的回归问题有很多变种，以AdaBoost R2算法为例。

初始化样本权重

D_1=\left(w_{11},\cdots,w_{1i},\cdots,w_{1N}\right),w_{1i}=\frac{1}{N},i=1,2,\cdots,N

对于 $m=1,2,\cdots,M$

使用具有权重 $D_m$ 的样本集来训练数据，得到弱学习器 $G_m(x)$
计算训练集上的最大误差

E_m=\max \left|y_i-G_m\left(x_i\right)\right| i=1,2 \ldots N

计算每个样本的相对误差：

若损失为绝对损失，则样本的相对误差为 $e_{m i}=\frac{\left|y_i-G_m\left(x_i\right)\right|}{E_m}$

若损失为平方损失，则样本的相对误差为 $e_{m i}=\frac{\left(y_i-G_m\left(x_i\right)\right)^2}{E_m^2}$

若损失为指数损失，则样本的相对误差为 $e_{m i}=1-\exp \left(\frac{-\left|y_i-G_m\left(x_i\right)\right|}{E_m}\right)$

计算弱学习器的回归误差率:

e_m=\sum_{i=1}^N w_{m i} e_{m i}

计算弱学习器的系数

\alpha_m=\frac{e_m}{1-e_m}

更新下一轮的样本权重

w_{m+1, i}=\frac{w_{m i}}{Z_m} \alpha_m^{1-e_{m i}}\\Z_m=\sum_{i=1}^N w_{m i} \alpha_m^{1-e_{m i}}

构建最终强学习器

采用的是对加权的弱学习器取权重中位数对应的弱学习器作为强学习器的方法

f(x)=G_{m^*}(x)

其中，

G_{m^*}(x)

是所有

\ln \frac{1}{\alpha_m}, m=1,2, \ldots M

的中位数对应序号

m^*

的弱学习器。

AdaBoost的训练误差和泛化性能

AdaBoost能在学习过程中不断减少训练误差，即不断减少在训练数据上的分类误差率。

定理一：AdaBoost算法最终分类器的训练误差界为

\frac{1}{N}\sum_{i=1}^NI(G(x_i)\neq y_i)\leq\frac{1}{N}\sum_i\exp(-y_if(x_i))=\prod_mZ_m

这一定理说明，可以在每一轮选取适当的

G_m

使得

Z_m

最小，从而使训练误差下降最快。

定理二：二类分类问题AdaBoost的训练误差界

\prod_{m=1}^M Z_m=\prod_{m=1}^M[2\sqrt {e_m(1-e_m)}]\leq \exp\left(-2\sum_{m=1}^M\gamma_m^2\right),\gamma_m=\frac{1}{2}-e_m

推论：如果存在

\gamma>0

，对所有m有

\gamma_m\geq \gamma

，则

\frac{1}{N}\sum_{i=1}^NI(G(x_i)\leq \exp(-2M\gamma^2)

这表明在此条件下AdaBoost的训练误差是以指数速率下降的。

注意：AdaBoost算法不需要知道下界，它具有适应性，即它能适应弱分类器各自的训练误差率。

AdaBoost算法随着弱学习器数目的增加，泛化能力增强。

AdaBoost算法的正则化

为了防止Adaboost过拟合，我们通常也会加入正则化项，这个正则化项我们通常称为步长

\nu

。

没有正则化的弱学习器的迭代

f_m(x)=f_{m-1}(x)+\alpha_m G_m(x)

加入正则化（学习率）的弱学习器的迭代

f_m(x)=f_{m-1}(x)+\nu\alpha_m G_m(x)

学习率的取值范围为

0<\nu \leq 1

。

较小的

\nu

意味着需要更多的弱学习器的迭代次数，而迭代次数增加可以提高模型的泛化能力。

常用步长和迭代最大次数一起来决定算法的拟合效果。

AdaBoost的学习器类型

理论上任何学习器都可以用于AdaBoost。

但使用最广泛的AdaBoost弱学习器是单层决策树，也称为决策树桩，当然这个层数也是参数，最好通过交叉验证得到。AdaBoost分类用了CART分类树，而AdaBoost回归用了CART回归树。

其它如SVM、逻辑回归、神经网络等也可以作为弱学习器。

AdaBoost算法的优缺点

优点：

Adaboost作为分类器时，分类精度很高；

在Adaboost的框架下，可以使用各种回归分类模型来构建弱学习器，非常灵活；

作为简单的二分类器时，构造简单，结果可理解；

不容易发生过拟合。

缺点：

对异常样本敏感，异常样本在迭代中可能会获得较高的权重，影响最终的强学习器的预测准确性。

AdaBoost算法不容易出现过拟合问题，但不是绝对的，模型可能会处于过拟合的情况：

弱学习器的复杂度很大，因此选择较小复杂度模型可以避免过拟合问题，如选择决策树桩。adaboost + 决策树 = 提升树模型。

训练数据含有较大的噪声，随着迭代次数的增加，可能出现过拟合情况。

参考链接：

集成学习之Adaboost算法原理小结 - 刘建平Pinard - 博客园

在集成学习原理小结中，我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类，第一个是个体学习器之间存在强依赖关系，另一类是个体学习器之间不存在强依赖关系。前者的代表算法就是是boosting系列算法。在boosting系列算法中， Adaboost是最著名的算法之一。Adaboost既可

https://www.cnblogs.com/pinard/p/6133937.html

segmentfault.com

https://segmentfault.com/a/1190000041543258