Generative Adversarial Text to Image Synthesis --- 根据文字描述生成对应的图片

时间 2020-12-30

原文原文链接

总说简单的说就是根据文字进行生成相应的图片。先看效果：架构这里首先用一个 text embedding网络来将文字转换为向量， ϕ(t) 是1024维的向量，然后投影成128。并将这128向量分别加入到G和D网络中。在G中直接concat到后面，而D中由于中间出来的是spatial size是4x4大小的，所以直接复制4x4份，后面concat上去。因为普通的GAN就是一个 z 直接生成

>>阅读原文<<