4. Stacked AutoEncoder（堆栈自动编码器）

时间 2019-11-17

标签 stacked autoencoder 堆栈自动编码器繁體版

原文原文链接

1. AutoEncoder介绍

2. Applications of AutoEncoder in NLP

3. Recursive Autoencoder（递归自动编码器）

4. Stacked AutoEncoder（堆栈自动编码器）

1. 前言

深度学习的威力在于其可以逐层地学习原始数据的多种表达方式。每一层都之前一层的表达特征为基础，抽取出更加抽象，更加适合复杂的特征，而后作一些分类等任务。html

堆叠自编码器（Stacked Autoencoder，SAE）实际上就是作这样的事情，如前面的自编码器，稀疏自编码器和降噪自编码器都是单个自编码器，它们经过虚构一个$x->h->x$的三层网络，能过学习出一种特征变化$h = f(wx+b)$。实际上，当训练结束后，输出层已经没有什么意义了，咱们通常将其去掉，即将自编码器表示为：网络

2. SAE原理

以前之因此将自编码器模型表示为3层的神经网络，那是由于训练的须要，咱们将原始数据做为假想的目标输出，以此构建监督偏差来训练整个网络。等训练结束后，输出层就能够去掉了，由于咱们只关心的是从$x$到$h$的变换。app

接下来的思路就很天然了，咱们已经获得特征表达$h$，那么咱们可不能够将$h$再做为原始信息，训练一个新的自编码器，获得新的特征表达呢？当软能够，并且这就是所谓的堆叠自编码器（Stacked Autoencoder，SAE）。Stacked就是逐层堆叠的意思，这个跟“栈”有点像。当把多个自编码器Stack起来以后，这个系统看起来就像这样：学习

2.1 第一层AE

这样就把自编码器改为了深度结构了，即《learning multiple levels of representation and abstraction》(Hinton, Bengio, LeCun, 2015)。须要注意的是，整个网络的训练不是一蹴而就的，而是逐层进行的。好比说咱们要训练一个$n -> m -> k$ 结构的网络，实际上咱们是先训练网络$n -> m -> n$，获得$n -> m$的变换，而后再训练$m -> k -> m$网络，获得$m -> k$的变换。最终堆叠成SAE，即为$n -> m -> k$的结果，整个过程就像一层层往上面盖房子，这就是大名鼎鼎的 layer-wise unsuperwised pre-training （逐层非监督预训练）。编码

接下来咱们来看一个具体的例子，假设你想要训练一个包含两个隐藏层的堆叠自编码器，用来训练 MNIST 手写数字分类。spa

首先，你须要用原始输入$x(k)$训练第一个稀疏自编码器中，它可以学习获得原始输入的一阶特征表示$h(1)(k)$，以下图所示：3d

2.2 第二层AE

接着，你须要把原始数据输入到上述训练好的稀疏自编码器中，对于每个输入$x(k)$，均可以获得它对应的一阶特征表示$h(1)(k)$。而后你再用这些一阶特征做为另外一个稀疏自编码器的输入，使用它们来学习二阶特征$h(2)(k)$，以下图：code

2.3 第三层

一样，再把一阶特征输入到刚训练好的第二层稀疏自编码器中，获得每一个$h(1)(k)$对应的二阶特征激活值$h(2)(k) $。接下来，你能够把这些二阶特征做为softmax分类器的输入，训练获得一个能将二阶特征映射到数字标签的模型。以下图：htm

2.4 组合

最终，你能够将这三层结合起来构建一个包含两个隐藏层和一个最终softmax分类器层的堆叠自编码网络，这个网络可以如你所愿地对MNIST数据集进行分类。最终模型以下图：blog

3. 总结

为何逐层预训练的SAE有不错的效果？一个直观的解释是，预训练好的网络在必定程度上拟合了训练数据的结构，这使得整个网络的初始值是在一个合适的状态，便于有监督阶段加快迭代收敛。固然，有很多研究提出了很好的初始化策略，再加上如今经常使用的dropout、ReLU，直接去训练一个深层网络已经不是问题。

最后，多说一句，除了AE和SAE这种逐层预训练的方式外，还有另一条相似的主线，即限制玻尔兹曼机（RBM）与深度信念网络（DBN）。