深度学习六

时间 2019-11-17

标签深度学习繁體版

原文原文链接

接上算法

注：下面的两个Deep Learning方法说明须要完善，但为了保证文章的连续性和完整性，先贴一些上来，后面再修改好了。网络

9.三、Restricted Boltzmann Machine (RBM)限制波尔兹曼机架构

假设有一个二部图，每一层的节点之间没有连接，一层是可视层，即输入数据层（v)，一层是隐藏层(h)，若是假设全部的节点都是随机二值变量节点（只能取0或者1值），同时假设全几率分布p(v,h)知足Boltzmann 分布，咱们称这个模型是Restricted BoltzmannMachine (RBM)。函数

下面咱们来看看为何它是Deep Learning方法。首先，这个模型由于是二部图，因此在已知v的状况下，全部的隐藏节点之间是条件独立的（由于节点之间不存在链接），即p(h|v)=p(h₁|v)…p(h_n|v)。同理，在已知隐藏层h的状况下，全部的可视节点都是条件独立的。同时又因为全部的v和h知足Boltzmann 分布，所以，当输入v的时候，经过p(h|v) 能够获得隐藏层h，而获得隐藏层h以后，经过p(v|h)又能获得可视层，经过调整参数，咱们就是要使得从隐藏层获得的可视层v1与原来的可视层v若是同样，那么获得的隐藏层就是可视层另一种表达，所以隐藏层能够做为可视层输入数据的特征，因此它就是一种Deep Learning方法。性能

如何训练呢？也就是可视层节点和隐节点间的权值怎么肯定呢？咱们须要作一些数学分析。也就是模型了。学习

联合组态（jointconfiguration）的能量能够表示为：网站

而某个组态的联合几率分布能够经过Boltzmann 分布（和这个组态的能量）来肯定：编码

由于隐藏节点之间是条件独立的（由于节点之间不存在链接），即：spa

而后咱们能够比较容易（对上式进行因子分解Factorizes）获得在给定可视层v的基础上，隐层第j个节点为1或者为0的几率：.net

同理，在给定隐层h的基础上，可视层第i个节点为1或者为0的几率也能够容易获得：

给定一个知足独立同分布的样本集：D={v⁽¹⁾, v⁽²⁾,…, v^(N)}，咱们须要学习参数θ={W,a,b}。

咱们最大化如下对数似然函数（最大似然估计：对于某个几率模型，咱们须要选择一个参数，让咱们当前的观测样本的几率最大）：

也就是对最大对数似然函数求导，就能够获得L最大时对应的参数W了。

若是，咱们把隐藏层的层数增长，咱们能够获得Deep Boltzmann Machine(DBM)；若是咱们在靠近可视层的部分使用贝叶斯信念网络（即有向图模型，固然这里依然限制层中节点之间没有连接），而在最远离可视层的部分使用Restricted Boltzmann Machine，咱们能够获得DeepBelief Net（DBN）。

9.四、Deep Belief Networks深信度网络

DBNs是一个几率生成模型，与传统的判别模型的神经网络相对，生成模型是创建一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都作了评估，而判别模型仅仅而已评估了后者，也就是P(Label|Observation)。对于在深度神经网络应用传统的BP算法的时候，DBNs遇到了如下问题：

（1）须要为训练提供一个有标签的样本集；

（2）学习过程较慢；

（3）不适当的参数选择会致使学习收敛于局部最优解。

DBNs由多个限制玻尔兹曼机（Restricted Boltzmann Machines）层组成，一个典型的神经网络类型如图三所示。这些网络被“限制”为一个可视层和一个隐层，层间存在链接，但层内的单元间不存在链接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。

首先，先不考虑最顶构成一个联想记忆（associative memory）的两层，一个DBN的链接是经过自顶向下的生成权值来指导肯定的，RBMs就像一个建筑块同样，相比传统和深度分层的sigmoid信念网络，它能易于链接权值的学习。

最开始的时候，经过一个非监督贪婪逐层方法去预训练得到生成模型的权值，非监督贪婪逐层方法被Hinton证实是有效的，并被其称为对比分歧（contrastive divergence）。

在这个训练阶段，在可视层会产生一个向量v，经过它将值传递到隐层。反过来，可视层的输入会被随机的选择，以尝试去重构原始的输入信号。最后，这些新的可视的神经元激活单元将前向传递重构隐层激活单元，得到h（在训练过程当中，首先将可视向量值映射给隐单元；而后可视单元由隐层单元重建；这些新可视单元再次映射给隐单元，这样就获取新的隐单元。执行这种反复步骤叫作吉布斯采样）。这些后退和前进的步骤就是咱们熟悉的Gibbs采样，而隐层激活单元和可视层输入之间的相关性差异就做为权值更新的主要依据。

训练时间会显著的减小，由于只须要单个步骤就能够接近最大似然学习。增长进网络的每一层都会改进训练数据的对数几率，咱们能够理解为愈来愈接近能量的真实表达。这个有意义的拓展，和无标签数据的使用，是任何一个深度学习应用的决定性的因素。

在最高两层，权值被链接到一块儿，这样更低层的输出将会提供一个参考的线索或者关联给顶层，这样顶层就会将其联系到它的记忆内容。而咱们最关心的，最后想获得的就是判别性能，例如分类任务里面。

在预训练后，DBN能够经过利用带标签数据用BP算法去对判别性能作调整。在这里，一个标签集将被附加到顶层（推广联想记忆），经过一个自下向上的，学习到的识别权值得到一个网络的分类面。这个性能会比单纯的BP算法训练的网络好。这能够很直观的解释，DBNs的BP算法只须要对权值参数空间进行一个局部的搜索，这相比前向神经网络来讲，训练是要快的，并且收敛的时间也少。

DBNs的灵活性使得它的拓展比较容易。一个拓展就是卷积DBNs（Convolutional Deep Belief Networks(CDBNs)）。DBNs并无考虑到图像的2维结构信息，由于输入是简单的从一个图像矩阵一维向量化的。而CDBNs就是考虑到了这个问题，它利用邻域像素的空域关系，经过一个称为卷积RBMs的模型区达到生成模型的变换不变性，并且能够容易得变换到高维图像。DBNs并无明确地处理对观察变量的时间联系的学习上，虽然目前已经有这方面的研究，例如堆叠时间RBMs，以此为推广，有序列学习的dubbed temporal convolutionmachines，这种序列学习的应用，给语音信号处理问题带来了一个让人激动的将来研究方向。

目前，和DBNs有关的研究包括堆叠自动编码器，它是经过用堆叠自动编码器来替换传统DBNs里面的RBMs。这就使得能够经过一样的规则来训练产生深度多层神经网络架构，但它缺乏层的参数化的严格要求。与DBNs不一样，自动编码器使用判别模型，这样这个结构就很难采样输入采样空间，这就使得网络更难捕捉它的内部表达。可是，降噪自动编码器却能很好的避免这个问题，而且比传统的DBNs更优。它经过在训练过程添加随机的污染并堆叠产生场泛化性能。训练单一的降噪自动编码器的过程和RBMs训练生成模型的过程同样。

下续