《AE-OT: A NEW GENERATIVE MODEL BASED ON EXTENDED SEMI-DISCRETE OPTIMAL TRANSPORT》中文笔记-2: AE-OT算法

文章信息:

D. An, Y. Guo, N. Lei, Z. Luo, S.-T. Yau, and X. Gu, “AE-OT: A NEW GENERATIVE MODEL BASED ON EX- TENDED SEMI-DISCRETE OPTIMAL TRANSPORT,” 2020, p. 19.

发表于2020年ICLR(International Conference on Learning Representations)

 

AE-OT笔记:

《AE-OT: A NEW GENERATIVE MODEL BASED ON EXTENDED SEMI-DISCRETE OPTIMAL TRANSPORT》中文笔记-1: 总述与简介

《AE-OT: A NEW GENERATIVE MODEL BASED ON EXTENDED SEMI-DISCRETE OPTIMAL TRANSPORT》中文笔记-2: AE-OT算法

《AE-OT: A NEW GENERATIVE MODEL BASED ON EXTENDED SEMI-DISCRETE OPTIMAL TRANSPORT》中文笔记-3: 实验与结果

 

在介绍算法时,这篇文章采用的是总-分的结构:首先对AE-OT model进行overview(Overview of AE-OT Model ),之后对AE-OT中三个重要步骤(Semi-Discrete OT Map ,Piece-wise Linear Extension ,SingularSetDetection)进行分别描述.具体如下:

3 COMPUTATIONAL ALGORITHMS

Overview of AE-OT Model 

(其中,AE: θ和\xi分别是编码器和解码器的参数.在latent space, latent code被聚类成了三个模式; OT:不同模式之间的singular set用虚线画出. 最终,由extended OT映射和解码器映射的组合即可生成出图像.)

上图给出了AE-OT模型.它有两个major components:

(1)(AE)

训练自动编码器对从图像空间X到潜在空间Z的数据流形进行编码(fθ),并将数据分布映射到latent code distribution(什么是latent code?)

InfoGAN中应该有具体的解释,但懒得读了,大概率和latent variable是一个意思:"可解释的 隐变量c,称作为latent code,而我们希望通过约束c与生成数据之间的关系,可以使得c里面包含有对数据的可解释的信息,如对MNIST数据,c可以分为categorical latent code代 来表数字种类信息(0~9),以及continuous latent code来表示倾斜度、笔画粗细等等。"

之后解码器g_ \xi再将latent code解码回数据流形(最终图像). 

(2)(OT)

计算从噪声分布到latent code分布的最佳传输映射(OT maps)T。

  • 首先,Brenier potential能够通过凸优化的过程被找到( Gu et al. (2016)).这个Brenier势的梯度是一个半离散(semi-diesrete)的最优传输映射, 这个OT映射的目标是训练样本latent codes的离散集合.
  • 之后, 传输映射被分段线性地扩展到全局连续映射\tilde{T},其中图像域成为通过三角剖分上述latent code而获得的simplicial complex(simplicial complex是什么意思?简单组合体??三角剖分是什么意思?)。
  • 最后,定位source domain(噪声domain)的singularity set从而避免这些点产生新的样本,这样得到的映射才会是一个符合AE特性的连续映射.

综上所述,给定一个随机噪声x,即可通过g_{\xi} \circ \tilde{T}(x)得到最终的生成图像.

Semi-Discrete OT Map 

Piece-wise Linear Extension 

SingularSetDetection