由Goodfellow等人于2014年引入的生成对抗网络(GAN)是用于学习图像潜在空间的VAE的替代方案。它们经过强制生成的图像在统计上几乎与真实图像几乎没法区分,从而可以生成至关逼真的合成图像。python
理解GAN的直观方式是想象一个伪造者试图创造一幅伪造的毕加索做品。起初,伪造者的任务很是糟糕。他将他的一些假货与真正的毕加索混合在一块儿,并将它们所有展现给艺术品经销商。艺术品经销商对每幅画进行真实性评估,并给出关于毕加索看起来像毕加索的缘由的伪造反馈。伪造者回到他的工做室准备一些新的假货。随着时间的推移,伪造者愈来愈有能力模仿毕加索的风格,艺术品经销商愈来愈专业地发现假货。最后,他们手上拿着一些优秀的假毕加索。网络
这就是GAN的意义:伪造网络和专家网络,每一个网络都通过最好的培训。所以,GAN由两部分组成:架构
生成器网络通过训练,可以欺骗鉴别器网络,所以随着训练的进行,它逐渐产生愈来愈逼真的图像:人工图像看起来与真实图像没法区分,只要鉴别器网络不可能鉴别两张图片。同时,鉴别器不断适应发生器逐渐改进的能力,为生成的图像设置了高度的真实感。一旦训练结束,生成器就可以将其输入空间中的任何点转换为可信的图像。与VAE不一样,这个潜在空间对有意义结构的明确保证较少;特别是,它不是连续的。
[图片上传失败...(image-599f61-1536326082049)]dom
值得注意的是,GAN是一个优化最小值不固定的系统。一般,梯度降低包括在静态损失中滚下山丘。可是使用GAN,从山上下来的每一步都会改变整个景观。这是一个动态系统,其中优化过程寻求的不是最小,而是两个力之间的平衡。出于这个缘由,GAN是众所周知的难以训练 - 让GAN工做须要大量仔细调整模型架构和训练参数。ide
使用keras实现一个简单的GAN网络:DCGAN,Generator和Discriminator都是由卷积网络组成。使用Conv2DTranspose网络层在Generator用来对图片上采样。函数
在CIFAR10,50000张32x32 RGB图片数据集上训练。为了训练更容易,仅使用“青蛙"类图片。学习
实现GAN网络流程:优化
众所周知,训练GAN和调整GAN实现的过程很是困难。你应该记住一些已知的技巧。像深度学习中的大多数事情同样:这些技巧是启发式的,而不是理论支持的指导方针。 他们获得了对手头现象的直观理解的支持,而且他们已经知道在经验上运做良好,尽管不必定在每种状况下都有效。
如下是实现GAN生成器和鉴别器时使用的一些技巧。它不是GAN相关技巧的详尽列表;你会在GAN文献中找到更多:3d
首先,开发一个生成器模型,该模型将矢量(从潜在空间 - 在训练期间将随机采样)转换为候选图像。 GAN一般出现的许多问题之一是生成器卡在生成的看起来像噪声的图像。一种可能的解决方案是在鉴别器和发生器上使用dropout。
GAN 生成器网络code
import keras from keras import layers import numpy as np latent_dim = 2 height = 32 width = 32 channels = 3 generator_input = keras.Input(shape=(latent_dim,)) x = layers.Dense(128 * 16 * 16)(generator_input) x = layers.LeakyReLU()(x) x = layers.Reshape((16, 16, 128))(x)#将输入转换成16*16 128通道的特征图 x = layers.Conv2D(256, 5, padding='same')(x) x = layers.LeakyReLU()(x) x=layers.Conv2DTranspose(256, 4, strides=2, padding='same')(x)#上采样32*32 x = layers.LeakyReLU()(x) x = layers.Conv2D(256, 5, padding='same')(x) x = layers.LeakyReLU()(x) x = layers.Conv2D(256, 5, padding='same')(x) x = layers.LeakyReLU()(x) #产生32x32 1通道的特征图 x = layers.Conv2D(channels, 7, activation='tanh', padding='same')(x) generator = keras.models.Model(generator_input, x)#将(latent_dim,)->(32,32,3) generator.summary()
接下来,将开发一个鉴别器模型,将候选图像(真实的或合成的)做为输入,并将其分为两类:“生成的图像”或“来自训练集的真实图像”。
GANs 鉴别器网络
discriminator_input = layers.Input(shape=(height, width, channels)) x = layers.Conv2D(128, 3)(discriminator_input) x = layers.LeakyReLU()(x) x = layers.Conv2D(128, 4, strides=2)(x) x = layers.LeakyReLU()(x) x = layers.Conv2D(128, 4, strides=2)(x) x = layers.LeakyReLU()(x) x = layers.Conv2D(128, 4, strides=2)(x) x = layers.LeakyReLU()(x) x = layers.Flatten()(x) x = layers.Dropout(0.4)(x) x = layers.Dense(1, activation='sigmoid')(x)#二分类 discriminator = keras.models.Model(discriminator_input, x) discriminator.summary() discriminator_optimizer = keras.optimizers.RMSprop(lr=0.0008, clipvalue=1.0,decay=1e-8) discriminator.compile(optimizer=discriminator_optimizer, loss='binary_crossentropy')
最后,设置GAN,它连接生成器和鉴别器。通过训练,该模型将使生成器向一个方向移动,从而提升其欺骗鉴别器的能力。这个模型将潜在空间点转换为分类决策(“假”或“真实”) 而且它意味着使用始终“这些是真实图像”的标签进行训练。所以,训练gan将更新生成器的权重。在查看假图像时,使鉴别器更有可能预测“真实”的方式。很是重要的是要注意在训练期间将鉴别器设置为冻结(不可训练):训练gan时不会更新其权重。若是在此过程当中能够更新鉴别器权重,那么将训练鉴别器始终预测“真实”,这不是咱们想要的!
对抗网络
discriminator.trainable = False gan_input = keras.Input(shape=(latent_dim,)) gan_output = discriminator(generator(gan_input)) gan = keras.models.Model(gan_input,gan_output) gan_optimizer = keras.optimizers.RMSprop(lr=0.0004,clipvalue=1.0, decay=1e-8) gan.compile(optimizer=gan_optimizer,loss='binary_crossentropy')
如今能够开始训练了。总结一下,这就是训练循环的流程。对于每一个epoch,执行如下操做:
GAN训练
import os from keras.preprocessing import image (x_train, y_train), (_, _) = keras.datasets.cifar10.load_data() x_train = x_train[y_train.flatten() == 6]#第6类 x_train = x_train.reshape((x_train.shape[0],)+(height, width, channels)).astype('float32') / 255. iterations = 10000 batch_size = 20 save_dir = 'your_dir'#保存生成图片 start = 0 for step in range(iterations): random_latent_vectors = np.random.normal(size=(batch_size, latent_dim))#正态分布随机取点 generated_images = generator.predict(random_latent_vectors)#fake图 stop = start + batch_size real_images = x_train[start: stop] #混合真、假图片 combined_images = np.concatenate([generated_images, real_images]) #标签 labels = np.concatenate([np.ones((batch_size, 1)), np.zeros((batch_size, 1))]) labels += 0.05 * np.random.random(labels.shape)#加随机噪声 d_loss = discriminator.train_on_batch(combined_images, labels) random_latent_vectors = np.random.normal(size=(batch_size, latent_dim)) isleading_targets = np.zeros((batch_size, 1)) #gan训练:训练generator,固定discriminator a_loss = gan.train_on_batch(random_latent_vectors, misleading_targets) start += batch_size if start > len(x_train) - batch_size: start = 0 if step % 100 == 0:#每100步保存一次 gan.save_weights('gan.h5') print('discriminator loss:', d_loss) print('adversarial loss:', a_loss) img = image.array_to_img(generated_images[0] * 255., scale=False) img.save(os.path.join(save_dir,'generated_frog'\ +str(step)+'.png')) img = image.array_to_img(real_images[0] * 255., scale=False) img.save(os.path.join(save_dir,'real_frog' + str(step) + '.png'))
训练时,可能会看到对抗性损失开始显着增长,而判别性损失每每为零 - 鉴别者最终可能主导生成器。若是是这种状况,尝试下降鉴别器学习速率,并提升鉴别器的丢失率dropout。