变分自编码器（Variational Autoencoder, VAE）通俗教程

时间 2019-12-08

标签变分编码器 variational autoencoder vae 通俗教程繁體版

原文原文链接

原文地址：http://www.dengfanxin.cn/?p=334git

1. 神秘变量与数据集

如今有一个数据集DX(dataset, 也能够叫datapoints)，每一个数据也称为数据点。
咱们假定这个样本受某种神秘力量操控，可是咱们也无从知道这些神秘力量是什么？那么咱们假定这股神秘力量有n个，起名字叫github

网络

z也起个名字叫神秘组合。架构

一言以蔽之：神秘变量表明了神秘力量的神秘组合关系。
用正经的话说就是：隐变量(latent variable)表明了隐因子(latent factor)的组合关系。函数

这里咱们澄清一下隶属空间，假设数据集DX是m个点，这m个点也应该隶属于一个空间，好比一维的状况，假如每一个点是一个实数，那么他的隶属空间就是实数集，因此咱们这里定义一个DX每一个点都属于的空间称为XS，咱们在后面提到的时候，你就再也不感到陌生了。学习

神秘变量z能够确定他们也有一个归属空间称为ZS。优化

下面咱们就要形式化地构造X与Z的神秘关系了，这个关系就是咱们前面说的神秘力量，直观上咱们已经很是清楚，假设咱们的数据集就是彻底由这n个神秘变量全权操控的，那么对于X中每个点都应该有一个n个神秘变量的神秘组合编码

接下来咱们要将这个关系再简化一下，咱们假设这n个神秘变量不是可以操控X的所有，还有一些其余的神秘力量，咱们暂时不考虑，那么就能够用几率来弥补这个缺失，为何呢？举个例子，假设咱们制造了一个机器能够向一个固定的目标发射子弹，咱们精确的计算好了打击的力量和角度，但因为某些难以控制的因素，好比空气的流动，地球的转动致使命中的目标没法达到精准的目的，而这些因素可能十分巨大和繁多，可是他们并非造成DX的主因素，根据大数定理，这些全部因素产生的影响能够用高斯分布的几率密度函数来表示。它长这样：
atom

当spa

无论怎样，你只要记住咱们如今没有能力关注所有的神秘变量，咱们只关心若干个可能重要的因素，这些因素的分布情况能够有各类假设，咱们回头再讨论他们的几率分布问题，咱们如今假定咱们对他们的具体分布状况也是一无所知，咱们只是知道他们处于ZS空间内。
前面说到了一个神秘组合，若是一个数据集X对应的神秘组合彻底同样，那么这个数据集就是一个单一的分类数据集，若是是多个，那么就是多分类数据集，但若是是一个连续的组合数据，那么就是一个有点分不清界限的复杂数据集，就比如，咱们这个数据集是一条线段的集合，线段的长度是惟一的神秘变量，那么只要长度在一个范围内连续变化，那么这个集合里的线段你就会发现分散的很均匀，你几乎没有办法区分开他们，也无法给他们分红几类，但若是这个长度值只能选择1,3,5，那么当你观察这个数据集的时候，你会发现他们会聚在三堆儿里。若是这个线段的生成彻底依靠的是计算机，那么每一堆儿都是彻底重合的，但若是是人画的，就可能由于偏差，无法彻底重合，这无法重合的部分就是咱们说的其余复杂因素，咱们一般用一个高斯分布来把它表明了。好，咱们已经基本清晰了，咱们该给这个神秘组合一个形式化的描述了。
假设有两个变量，

设一个数据集为DX，那么这个数据集存在的几率为

其中，

这样咱们就直接定义个

好了，其实公式(1)就是咱们的神秘力量与观察到的数据集之间的神秘关系，这个关系的意思咱们直白的说就是：当隐秘变量按照某种规律存在时，就很是容易产生如今咱们看到的这个数据集。那么，咱们要作的工做就是当咱们假定有n个神秘力量时，咱们可以找到一个神奇的函数f，将神秘力量的变化转化成神奇的x的变化，这个x可以垂手可得地生成数据集DX。
从上面的描述里面咱们看到，f是生成转换函数，公式(1)不表示这种转换关系，而是这种关系的最大似然估计(maximum likelihood)，它的意思是找到最有可能生成DX这个数据集的主导函数f。

接下来咱们回到讨论

注意z的分布咱们依然是未知的。

假定咱们知道z如今取某一个或几个特定值，那么咱们就能够经过Gradient Descent来找到一个

OK，咱们还要说一个关键问题，就是咱们确信f是存在的，咱们认为变量与神秘变量之间的关系必定能够用一个函数来表示。

2. 变分自编码器(VAE)

本节，咱们探讨如何最大化公式(1)。首先，咱们要讨论怎样肯定神秘变量z，即z应该有几个维度，每一个维度的做用域是什么？更为较真的，咱们可能甚至要追究每一维度都表明什么？他们之间是否是独立的？每一个维度的几率分布是什么样的？

若是咱们沿着这个思路进行下去，就会陷入泥潭，咱们能够巧妙地避开这些问题，关键就在于让他们继续保持“神秘”！

咱们不关心每个维度表明什么含义，咱们只假定存在这么一群相互独立的变量，维度咱们也回到以前的讨论，咱们虽然不知道有多少，咱们能够假定有n个主要因素，n能够定的大一点，好比假设有4个主因素，而咱们假定有10个，那么最后训练出来，可能有6个长期是0。最后的问题须要详细讨论一下，比较复杂，就是z的几率分布和取值问题。

既然z是什么都不知道，咱们是否是能够寻找一组新的神秘变量w，让这个w服从标准正态分布

好，更加波澜壮阔的历程要开始了，请坐好。

咱们如今已经有了

咱们如今就能够专心攻击f了，因为f是一个神经网络，咱们就能够梯度降低了。可是另外一个关键点在于咱们怎么知道这个f生成的样本，和DX更加像呢？若是这个问题解决不了，咱们根本都不知道咱们的目标函数是什么。

3. 设定目标函数

咱们先来定义个函数 Q(z|DX)，数据集DX的发生，z的几率密度函数，即若是DX发生，Q(z|DX)就是z的几率密度函数，好比一个数字图像0，z隐式表明0的几率就很大，而那些表明1的几率就很小。若是咱们有办法搞到这个Q的函数表示，咱们就能够直接使用DX算出z的最佳值了。为何会引入Q呢？其实道理很简单，若是DX是x这个变量直接生成的，要想找回x的模型，就要引入一个几率密度函数T(x|DX)，亦即针对DX，咱们要找到一个x的最佳几率密度函数。
如今的问题就变成了，咱们能够根据DX计算出Q(z|DX)来让他尽可能与理想的Pz(z|DX)尽可能的趋同，这就要引入更加高深的功夫了——相对熵，也叫KL散度(Kullback-Leibler divergence,用

离散几率分布的KL公式

连续几率分布的KL公式

经过贝叶斯公式

由于

公式(2)是VAE的核心公式，咱们接下来分析一个这个公式。
公式的左边有咱们的优化目标P(DX)，同时携带了一个偏差项，这个偏差项反映了给定DX的状况下的真实分布Q与理想分布P的相对熵，当Q彻底符合理想分布时，这个偏差项就为0，而等式右边就是咱们可使用梯度降低进行优化的，这里面的Q(z|DX)特别像一个DX->z的编码器，P(DX|z)特别像z->DX的解码器，这就是VAE架构也被称为自编码器的缘由。

因为DX早已再也不有分歧，咱们在这里把全部的DX都换成了X。

咱们如今有公式(2)的拆分：
– 左侧第一项：

还有下面这些：
–

咱们再明确一下每一个几率的含义：
–

咱们的目标是优化P(X)，可是咱们不知道他的分布，因此根本无法优化，这就是咱们没有任何先验知识。因此有了公式(2)，左边第二项是

右边第一项：

如今咱们对这个公式的理解更加深刻了。接下来，咱们要进行实现的工做。

4. 实现

针对右边两项分别实现
第二项是Q(z|X)与N(0, I)的相对熵，X->z构成了编码器部分。
Q(z|x)是正态分布，两个正态分布的KL计算公式以下（太复杂了，我也推不出来，感兴趣的看[1]）：

变成具体的神经网络和矩阵运算，还须要进一步变化该式：

第一项是

到此，整个实现的细节就全都展示在下面这张图里了

因为这个网络传递结构的一个环节是随机采样，致使没法反向传播，因此聪明的前辈又将这个结构优化成了这样：

这样就能够对整个网络进行反向传播训练了。

具体的实现代码，我实如今了这里：

https://github.com/vaxin/TensorFlow-Examples/blob/master/examples/3_NeuralNetworks/variational_autoencoder.py

里面的每一步，都有配合本文章的对照解释。

5. 延伸思考

之因此关注VAE，是从文献[4]引起的，因为视觉早期的概念造成对于以后的视觉认知起了十分关键的做用，咱们有理由相信，在神经网络训练时，利用这种递进关系，先构建具备基础认知能力的神经网络，再作高级认知任务时会有极大的效果提高。但经过前面神秘变量的分析，咱们发现，为了充分利用高斯分布，咱们将w替换成了z，也就是说真正的隐变量隐藏在f的神经网络里面，而如今的z反而容易变成说不清楚的东西，这一不利于后续的时候，二来咱们须要思考，是否应该还原真实的z，从而在层次化递进上有更大的发挥空间。

[1] http://stats.stackexchange.com/questions/60680/kl-divergence-between-two-multivariate-gaussians[2] https://arxiv.org/abs/1606.05908[3] https://zhuanlan.zhihu.com/p/22464768[4] https://arxiv.org/abs/1606.05579