深度学习的威力在于其可以逐层地学习原始数据的多种表达方式。每一层都之前一层的表达特征为基础,抽取出更加抽象,更加适合复杂的特征,而后作一些分类等任务。html
堆叠自编码器(Stacked Autoencoder,SAE)实际上就是作这样的事情,如前面的自编码器,稀疏自编码器和降噪自编码器都是单个自编码器,它们经过虚构一个\(x->h->x\)的三层网络,能过学习出一种特征变化\(h = f(wx+b)\)。实际上,当训练结束后,输出层已经没有什么意义了,咱们通常将其去掉,即将自编码器表示为:网络
以前之因此将自编码器模型表示为3层的神经网络,那是由于训练的须要,咱们将原始数据做为假想的目标输出,以此构建监督偏差来训练整个网络。等训练结束后,输出层就能够去掉了,由于咱们只关心的是从\(x\)到\(h\)的变换。app
接下来的思路就很天然了,咱们已经获得特征表达\(h\),那么咱们可不能够将\(h\)再做为原始信息,训练一个新的自编码器,获得新的特征表达呢?当软能够,并且这就是所谓的堆叠自编码器(Stacked Autoencoder,SAE)。Stacked就是逐层堆叠的意思,这个跟“栈”有点像。当把多个自编码器Stack起来以后,这个系统看起来就像这样:学习
这样就把自编码器改为了深度结构了,即《learning multiple levels of representation and abstraction》(Hinton, Bengio, LeCun, 2015)。须要注意的是,整个网络的训练不是一蹴而就的,而是逐层进行的。好比说咱们要训练一个\(n -> m -> k\) 结构的网络,实际上咱们是先训练网络\(n -> m -> n\),获得\(n -> m\)的变换,而后再训练\(m -> k -> m\)网络,获得\(m -> k\)的变换。最终堆叠成SAE,即为\(n -> m -> k\)的结果,整个过程就像一层层往上面盖房子,这就是大名鼎鼎的 layer-wise unsuperwised pre-training (逐层非监督预训练)。编码
接下来咱们来看一个具体的例子,假设你想要训练一个包含两个隐藏层的堆叠自编码器,用来训练 MNIST 手写数字分类。spa
首先,你须要用原始输入\(x(k)\)训练第一个稀疏自编码器中,它可以学习获得原始输入的一阶特征表示\(h(1)(k)\),以下图所示:3d
接着,你须要把原始数据输入到上述训练好的稀疏自编码器中,对于每个输入\(x(k)\),均可以获得它对应的一阶特征表示\(h(1)(k)\)。而后你再用这些一阶特征做为另外一个稀疏自编码器的输入,使用它们来学习二阶特征\(h(2)(k)\),以下图:code
一样,再把一阶特征输入到刚训练好的第二层稀疏自编码器中,获得每一个\(h(1)(k)\)对应的二阶特征激活值$h(2)(k) $。接下来,你能够把这些二阶特征做为softmax分类器的输入,训练获得一个能将二阶特征映射到数字标签的模型。以下图:htm
最终,你能够将这三层结合起来构建一个包含两个隐藏层和一个最终softmax分类器层的堆叠自编码网络,这个网络可以如你所愿地对MNIST数据集进行分类。最终模型以下图:blog
为何逐层预训练的SAE有不错的效果?一个直观的解释是,预训练好的网络在必定程度上拟合了训练数据的结构,这使得整个网络的初始值是在一个合适的状态,便于有监督阶段加快迭代收敛。固然,有很多研究提出了很好的初始化策略,再加上如今经常使用的dropout、ReLU,直接去训练一个深层网络已经不是问题。
最后,多说一句,除了AE和SAE这种逐层预训练的方式外,还有另一条相似的主线,即限制玻尔兹曼机(RBM)与深度信念网络(DBN)。