text to image（十）：《Inferring Semantic Layout for Hierarchical Text-to-image Synthesis》

时间 2021-01-05

继续介绍文本生成图像的工作，本篇博客要给出的是cvpr2018的论文《Inferring Semantic Layout for Hierarchical Text-to-image Synthesis》

论文地址:https://arxiv.org/abs/1801.05091

源码地址：未找到

文章内容基本来自：https://www.jianshu.com/p/e374182606c5

一、相关工作

首先是GAN网络的理解：https://blog.csdn.net/zlrai5895/article/details/80648898

二、基本思想及成果

基本思想是由文本生成对象的bounding box ，再生成mask,得到layout，最后由layout得到生成的图像。

三、数据集介绍：

COCO数据集

四、模型结构

1.bounding box 的生成

box定义了图片中有哪种目标以及将这些目标放到哪些位置。我们将第 t 个标注的 bounding box 表示为

b_{t} 里面包含四个变量，分别表示bounding box 的位置和大小 { x , y , w , h }. l_{t} 是一个在 L 类别上的 one-hot 向量。我们保留了第（ L+1）个类作为结束序列（sequence）的特殊指示。

举一个one hot 的例子，比如一共有 L=3 个类，猫{ 0， 1} ，兔{ 0, 1 }和狗{ 0，1}，若第 t 个 bounding box 的 label 是狗，那么l_{t} = {0，0, 1}. 若是猫的话，这个one hot向量就变为 l_{t} = {1, 0, 0}。优点是稀疏。缺点是向量长度由类别定。但在文字生成图片的任务中，类别是固定的，所以，one hot 可行。

A. box 生成器模型

box 生成器模型是定义了一个从 输入文本s 到 一组目标bounding box 的 随机映射。使用了一个自回归的解码器为box generator 建模。

图四. 如何建模，将左边这个概率模型分解为右边这个，而右边这个模型，与LSTM解决的问题很切合，比如：LSTM的输入是（之前网络的输出 + 当前输入）。右侧模型输入是（之前box 的分布 + 句子的输入）。

在生成 box 的过程中，首先为第 t 个目标采样类标签 l_{t} ，然后基于l_{t} 生成坐标信息b_{t} ------ 省略了图三中p() 和 ‘ I ’ 后面条件的内容。这两个部分分别由一个高斯混合模型和一个类分布模型建模。l_{t}由类分布得到。 b_{t} 由高斯混合模型得到，论文中解释道，这个高斯模型由一个四变量（x, y, w, h）的高斯混合模型分解为两个两变量(x, y) 和 (w, h) 的高斯混合模型，目的是减少参数个数,就是计算量。一般高斯混合模型中有三个采参数需要估计，π、μ、∑ 。权重系数π是实数，均值μ是四维向量，方差∑是4*4协方差矩阵. 从图三中看，这些参数都是由 LSTM 得到。

图五.中间模块是LSTM的一个单一神经网络层，上图中灰色框框分别表示，从上到下，第一个箭头下面的代表c_{t-1}。第二个箭头下面的是h_{t-1}，也就是前一个神将网络的输出。第三个是x_{t}, 每一个神经网络的指导输入。

B. 训练box generator

图七. 最小化bounding box 的负对数似然估计，T 表示为多少个目标， l t*是该box 的真实label， l t 是预测的label. 同样b t* 是真实的box. 我们从上式子中看到，为什么没有预测的bt呢？前思后想，我们不需要保证生成的box大小位置与原box是完全一致的。只需要生成的label与真实label接近，并且能够与生成的对应 box 。所以，可能会想在图中演示的情况，文字描述没有明确的人，象的数量，产生的图片，有多个人，或人。

文中表示λ_{l} = 4, λ_{b} =1,也说明了，会重视 label，毕竟 b_{t} 是在 l_{t} 的基础上生成的。

C. 测试box generator

图八. e_{t}是由LSTM得到的上面的l_{t}

当采样的类别是L+1时，假设还是上面的one-hot例子，那么当 l_{t}= {0,0,0,1}时，不再去采样B_{t}.

2.shape的生成

给定一组bounding box, shape生成器目的是预测细节图像结构形成mask。也就是说，对我们之前生成的每一个B_{t},（就是包含标签和大小位置信息的B_{t} ），生成一张二值mask, mask就是在框内的目标形状。如何做呢？首先，因为之前每一个LSTM的每一步都生成一个B_{t}，所以我们将分离的B_{t}=H*W转换成B_{t}=H*W*L的feature map， L是类别，仅当在box框内的值为1，其他区域值为0。

目标形状的生成应该满足两个条件，首先，每一个mask应该与box的标签和位置一致，并且能够识别为单一的实体。实例约束。其次，每一个目标的形状应该与周围的上下文对齐，全局约束。为满足这两个条件，使用了两个条件对抗的RNN作为shape 生成器。

A. shape 生成器模型

对于既包含时间序列，有包含空间信息的问题，使用卷积循环神经网络去做，文中引用是将LSTM的输入和门的操作变为feature map之间的卷积操作。

从上图解释下如何将box变为shape的。首先，每个 Bt 经过两个步长为2，padding为1，3*3的卷积，做一个instance normalization，经过RELU层最终得到编码的T个 16*16*d 的map。instance normalization是对单个layer的所有像素求均值和标准差。 instance normalization 对于生成式的任务会好，自己生成的图片应该与一个batch没有联系。当然，当前的任务第t步，只有一个输入B t，所以只能叫instance吧~ T个map作为每一个双向 CONV-LSTM的输入。在每一个LSTM输出的前段增加随机向量。空间复制，深度连接，几乎在多模态中也是这样做的，之前写的文章应该也提到过。然后经过一层卷积后，按照之前将分离的 B t 转化为一个tensor 的那种形式类似，它是将box框内的值保留，box外的值置为0。然后通过残差块，如上图黄色框内。然后上采样，得到一个mask。那么生成的mask如何判定是否正确呢？使用GAN。

为了满足第一个条件，每一个mask应该与box的标签和位置一致，并且能够识别为单一的实体。这样设计一个GAN，instance级的GAN，将每一步得到的Bt 和与之对应的 Msak t ,深度相连（channel 方向），GAN来判定是否正确。

为了满足第二个条件，每一个目标的形状应该与周围的上下文对齐，全局约束。GAN的输入变为所有的mask+ 所有的B t，同样下采样后，GAN判别生成是否合理。

B.Shape 的训练

首先我们先看看原始的GAN的损失函数吧。看看跟本文的区别。

图11. 原始GAN的损失函数

为了满足第一个条件，每一个mask应该与box的标签和位置一致，并且能够识别为单一的实体。

图12. 训练时instance 级GAN的损失函数

我们发现，除了原始GAN中 X 变为了（B,M）之外，没什么区别。对了，还有一点，原始输入到GAN中正确的数据分布应该是什么样子的，这里做下猜测，是正样本数据集中包含box的label和大小以及mask的单目标图。啊~~~

图13. 集中所有的instance求均值

再看看第二个条件的损失函数如何设计的。

图14.B的global是所有的box一层一层链接得到，M的global是所有的mask映射到一张图上。

最终呢，使用了perceptual loss, 测量了真实图片和假图片在特征空间的距离。生成模型中使用perceptual lose是非常常用的，他提高了GAN生成的稳定性。perceptual loss

图15 . Φl 是从 CNN 中提取的第l层特征

二. Image的生成

现在我们知道了t给目标的分割mask, 将他们的mask聚合成为一个map, 那么给定map和句子s，这样任务就变成了已知分割区域和句子描述，来生成真实的图像。就像这篇论文，已知分割区域和文字，得到真实场景的图片。

图16. 这是整个网络的缩减图，大致能够知道网络架构，但实际每一部分是单独通过网络得到的。

A.image生成器模型

下面讲一下image generator 的网络架构。网络是基于Image-to-image translation with conditional adversarial networks.这篇论文的改进。

图17. 本文所用的条件GAN模型，前片论文的条件GAN不同的是，这列的条件有句子，分割map, 噪声。噪声在生成图片的时候是为了保证生成图片的多样性。

上图concatenation中灰色部分。M通过一系列的下采样层构建层特征A∈ H*W*d。为了自适应地选择与文本相关的上下文，我们将注意力放在布局特性上。然后使用一个类似于LSTM中门的做法，门。从text得到一个d维向量，让后复制他使它成为W*H*d 的tenser得到S. 然后应用门将S后取sigmoid激活后，与A做乘法。concatenation中蓝色部分如何得到。为了更好的将文字中的背景描述得到，使用分开的全连接层和空间复制来对文本嵌入的方法。然后，橘色部分就是对噪声向量进行空间复制，然后直接将三部分相连得到新的map，接下来将map输入到残差网络，然后decoder解码得到真实图片。解码器用的是得到了下图结果的论文。Photographic Image Synthesis with Cascaded Refinement Networks

图18. cascased decoder 的效果，震惊脸！！小伙伴说，以后是不是会有一门技术来鉴别生成还是真实图片

每一个上采样层都加入了semantic Mask。因为cascaded 网络可以增加布局结构的条件从而产生更好的目标边界。判别器就如图17所示，同样在下采样的过程中加入了mask。在采样大小变为h' * w' 时，仍然将文字描述空间复制，然后继续采样，最终得到判别器的判别分数。

B. image 生成器的训练

对抗生成网络-文字到图片的合成Generative Adversarial Text to Image Synthesis ，之前的一篇论文所提到的loss方法，判别器中的输入对除了有对生成图质量的考量——<假图，描述>和<真图，描述>外，添加第三种对文字与图片的匹配度考量——即<真图，不匹配描述> ，这篇论文同样从这个角度出发。

图19. 截取了之前主篇论文的算法步骤部分

图20. 这是这片论文图片生成器的loss

我们类比下，看一下这里的loss代表了什么意思, 看下图20，第一部分表示mask+与之对应的正确句子+真实的图片。第二部分表示mask+随机生成的错误的句子+真实的图片。第三部分表示mask+与之对应的正确句子+假的图片。与之前想法相同。然后论文中同样应用了perceptual loss.

三. 实验

1. 实验数据集和评估标准

MS-COCO来评估实验结果，164000张，80个类，每一张图片都有instance-wise 注释，而且每张图片有5条文本描述。复杂场景，多目标，多样化的场景，所以生成任务是困难的。评价标准有Inception score，caption generation，human evaluation。inception score是衡量生成图片多样性且有意义的能力。caption generation 是为生成图片预测caption，与相同mask真实图片的caption相比，潜在的直觉是，如果能够生成原始的文本，说明生成的图像与输入文本相关，并且它的内容是可识别的。Show and tell: A neural image caption generator.这篇论文来生成caption。评价生成caption的标准有BLEU，METERO，CIDEr。再就有人工判定了Amazon Mechanical Turk。

。