实战生成对抗网络[2]：生成手写数字

时间 2019-11-16

原文原文链接

在开始本文以前，让咱们先看看一则报道：html

人民网讯据英国广播电视公司10月25日报道，由人工智能创做的艺术做品以432000美圆（约合300万人民币）的高价成功拍卖。python

看起来一则不起眼的新闻，其实意义深远，它意味着人们开始承认计算机创做的艺术价值，那些沾沾自喜认为不会被人工智能取代的艺术家也要瑟瑟发抖了。git

这幅由人工智能创做的做品长啥样，有啥过人之处？github

嗯，以我这种外行人士看来，实在不怎么样，但这不意味着人工智能不行。要知道，AlphaGo初出道时，也只敢挑战一下樊麾这样的二流棋手，接下来挑战顶级棋手李世石，人类还能勉力一战，等进化到AlphaGo Master，零封人类棋手。然而这尚未完，AlphaGo Zero再也不学习人类棋譜，彻底经过自学，碾压AlphaGo Master，对付人类棋手，更如咱们捏死一只蚂蚁那么容易。web

因此说，尽管人工智能创做的第一副做品如同鬼画桃符，但其潜力无可限量。算法

那么，接下来咱们会探讨如何创做出一幅名画？No. No.bash

创做一副画并非那么容易。这幅名为《埃德蒙·贝拉米肖像》的画做是由巴黎一个名为“显而易见”（Obvious）的艺术团体创做利用人工智能技术创做而成，这幅做品是用算法和15000幅从14世纪到20世纪的肖像画数据制做而成。网络

咱们尚未那个条件去创做一副人工智能的画做，但咱们能够先从基本的着手，生成手写数字。手写数字对于机器学习的同窗来讲，太熟悉不过了。既然是老朋友了，那让咱们开始吧！机器学习

首先回顾一下《实战生成对抗网络[1]：简介》这篇文章的内容，GAN由生成器和判别器组成。简单起见，咱们选择简单的二层神经网络来实现生成器和判别器。函数

生成器

实现生成器并不难，咱们采起的全链接网络拓扑结构为：100 --> 128 --> 784，最后的输出为784是由于MNIST数据集就是由28 x 28像素的灰度图像组成。代码以下：

G_W1 = tf.Variable(initializer([100, 128]), name='G_W1')
G_b1 = tf.Variable(tf.zeros(shape=[128]), name='G_b1')
G_W2 = tf.Variable(initializer([128, 784]), name='G_W2')
G_b2 = tf.Variable(tf.zeros(shape=[784]), name='G_b2')
theta_G = [G_W1, G_W2, G_b1, G_b2]

def generator(z):
  G_h1 = tf.nn.relu(tf.matmul(z, G_W1) + G_b1)
  G_log_prob = tf.matmul(G_h1, G_W2) + G_b2
  G_prob = tf.nn.sigmoid(G_log_prob)

  return G_prob
复制代码

判别器

判别器正好相反，以MNIST图像做为输入并返回一个表明真实图像的几率的标量，代码以下：

D_W1 = tf.Variable(initializer(shape=[784, 128]), name='D_W1')
D_b1 = tf.Variable(tf.zeros(shape=[128]), name='D_b1')
D_W2 = tf.Variable(initializer(shape=[128, 1]), name='D_W2')
D_b2 = tf.Variable(tf.zeros(shape=[1]), name="D_W2")
theta_D = [D_W1, D_W2, D_b1, D_b2]

def discriminator(x):
  D_h1 = tf.nn.relu(tf.matmul(x, D_W1) + D_b1)
  D_logit = tf.matmul(D_h1, D_W2) + D_b2
  D_prob = tf.nn.sigmoid(D_logit)

  return D_prob, D_logit
复制代码

训练算法

在论文arXiv: 1406.2661, 2014中给出了训练算法的伪代码：

TensorFlow中的优化器只能作最小化，由于为了最大化损失函数，咱们在伪代码给出的损失函数前加上一个负号。

D_loss = -tf.reduce_mean(tf.log(D_real) + tf.log(1. - D_fake))
G_loss = -tf.reduce_mean(tf.log(D_fake))
复制代码

接下来定义优化器：

# 仅更新D(X)的参数, var_list=theta_D
D_solver = tf.train.AdamOptimizer().minimize(D_loss, var_list=theta_D)
# 仅更新G(X)的参数, var_list=theta_G
G_solver = tf.train.AdamOptimizer().minimize(G_loss, var_list=theta_G)
复制代码

最后进行迭代，更新参数：

for it in range(60000):
  X_mb, _ = mnist.train.next_batch(mb_size)

  _, D_loss_curr = sess.run([D_solver, D_loss], feed_dict={X: X_mb, Z: sample_Z(mb_size, Z_dim)})
  _, G_loss_curr = sess.run([G_solver, G_loss], feed_dict={Z: sample_Z(mb_size, Z_dim)})
复制代码

整个流程下来，其实和以前的深度学习算法差很少，很是容易理解。算法是否是有效果呢？咱们能够将迭代过程当中生成的手写数字显示出来：

嗯，结果虽然有点差强人意，但差很少是手写数字的字形，并且随着迭代，愈来愈接近手写数字，能够说GAN算法仍是有效的。

小结

一个简单的GAN网络就这么几行代码就能搞定，看样子生成一副画也没有什么难的。先不要这么乐观，其实，GAN网络中的坑仍是很多，好比在迭代过程当中，就出现过以下提示：

Iter: 9000
D loss: nan
G_loss: nan
复制代码

从代码中咱们能够看出，GAN网络依然采用的梯度降低法来迭代求解参数。梯度降低的启动会选择一个减少所定义问题损失的方向，可是咱们并无一个办法来确保利用GAN网络能够进入纳什均衡的状态，这是一个高维度的非凸优化目标。网络试图在接下来的步骤中最小化非凸优化目标，最终有可能致使进入振荡而不是收敛到底层正式目标。

另外还有模型坍塌、计数、角度以及全局结构方面的问题，要解决这些问题，须要使用一些特殊的技巧和方法，后面咱们深刻各类GAN模型时将会探讨。

本文完整的代码请参考: github.com/mogoweb/aie…