圣诞节玩的有点嗨,差点忘记更新。祝你们昨天圣诞节快乐,再过几天元旦节快乐。git
来继续学习,在/home/your_name/TensorFlow/cifar10/ 下新建文件夹cifar10_train,用来保存训练时的日志logs,继续在/home/your_name/TensorFlow/cifar10/ cifar10.py中输入以下代码:github
def train(): # global_step global_step = tf.Variable(0, name = 'global_step', trainable=False) # cifar10 数据文件夹 data_dir = '/home/your_name/TensorFlow/cifar10/data/cifar-10-batches-bin/' # 训练时的日志logs文件,没有这个目录要先建一个 train_dir = '/home/your_name/TensorFlow/cifar10/cifar10_train/' # 加载 images,labels images, labels = my_cifar10_input.inputs(data_dir, BATCH_SIZE) # 求 loss loss = losses(inference(images), labels) # 设置优化算法,这里用 SGD 随机梯度降低法,恒定学习率 optimizer = tf.train.GradientDescentOptimizer(LEARNING_RATE) # global_step 用来设置初始化 train_op = optimizer.minimize(loss, global_step = global_step) # 保存操做 saver = tf.train.Saver(tf.all_variables()) # 汇总操做 summary_op = tf.merge_all_summaries() # 初始化方式是初始化全部变量 init = tf.initialize_all_variables() os.environ['CUDA_VISIBLE_DEVICES'] = str(0) config = tf.ConfigProto() # 占用 GPU 的 20% 资源 config.gpu_options.per_process_gpu_memory_fraction = 0.2 # 设置会话模式,用 InteractiveSession 可交互的会话,逼格高 sess = tf.InteractiveSession(config=config) # 运行初始化 sess.run(init) # 设置多线程协调器 coord = tf.train.Coordinator() # 开始 Queue Runners (队列运行器) threads = tf.train.start_queue_runners(sess = sess, coord = coord) # 把汇总写进 train_dir,注意此处尚未运行 summary_writer = tf.train.SummaryWriter(train_dir, sess.graph) # 开始训练过程 try: for step in xrange(MAX_STEP): if coord.should_stop(): break start_time = time.time() # 在会话中运行 loss _, loss_value = sess.run([train_op, loss]) duration = time.time() - start_time # 确认收敛 assert not np.isnan(loss_value), 'Model diverged with loss = NaN' if step % 30 == 0: # 本小节代码设置一些花哨的打印格式,能够不用管 num_examples_per_step = BATCH_SIZE examples_per_sec = num_examples_per_step / duration sec_per_batch = float(duration) format_str = ('%s: step %d, loss = %.2f (%.1f examples/sec; %.3f ' 'sec/batch)') print (format_str % (datetime.now(), step, loss_value, examples_per_sec, sec_per_batch)) if step % 100 == 0: # 运行汇总操做, 写入汇总 summary_str = sess.run(summary_op) summary_writer.add_summary(summary_str, step) if step % 1000 == 0 or (step + 1) == MAX_STEP: # 保存当前的模型和权重到 train_dir,global_step 为当前的迭代次数 checkpoint_path = os.path.join(train_dir, 'model.ckpt') saver.save(sess, checkpoint_path, global_step=step) except Exception, e: coord.request_stop(e) finally: coord.request_stop() coord.join(threads) sess.close() def evaluate(): data_dir = '/home/your_name/TensorFlow/cifar10/data/cifar-10-batches-bin/' train_dir = '/home/your_name/TensorFlow/cifar10/cifar10_train/' images, labels = my_cifar10_input.inputs(data_dir, BATCH_SIZE, train = False) logits = inference(images) saver = tf.train.Saver(tf.all_variables()) os.environ['CUDA_VISIBLE_DEVICES'] = str(0) config = tf.ConfigProto() config.gpu_options.per_process_gpu_memory_fraction = 0.2 sess = tf.InteractiveSession(config=config) coord = tf.train.Coordinator() threads = tf.train.start_queue_runners(sess = sess, coord = coord) # 加载模型参数 print("Reading checkpoints...") ckpt = tf.train.get_checkpoint_state(train_dir) if ckpt and ckpt.model_checkpoint_path: ckpt_name = os.path.basename(ckpt.model_checkpoint_path) global_step = ckpt.model_checkpoint_path.split('/')[-1].split('-')[-1] saver.restore(sess, os.path.join(train_dir, ckpt_name)) print('Loading success, global_step is %s' % global_step) try: # 对比分类结果,至于为何用这个函数,后面详谈 top_k_op = tf.nn.in_top_k(logits, labels, 1) true_count = 0 step = 0 while step < 157: if coord.should_stop(): break predictions = sess.run(top_k_op) true_count += np.sum(predictions) step += 1 precision = true_count / 10000 print('%s: precision @ 1 = %.3f' % (datetime.now(), precision)) except tf.errors.OutOfRangeError: coord.request_stop() finally: coord.request_stop() coord.join(threads) sess.close() if __name__ == '__main__': if TRAIN: train () else: evaluate()
如今说明一下 in_top_k 这个函数的做用,官方文档介绍中: tf.nn.in_top_k(predictions, targets, k, name=None)
这个函数返回一个 batch_size 大小的布尔矩阵 array,predictions 是一个 batch_size*classes 大小的矩阵,targets 是一个 batch_size 大小的类别 index 矩阵,这个函数的做用是,若是 targets[i] 是 predictions[i][:] 的前 k 个最大值,则返回的 array[i] = True, 不然,返回的 array[i] = False。能够看到,在上述评估程序 evaluate 中,这个函数没有用 softmax 的结果进行计算,而是用 inference 最后的输出结果(一个全链接层)进行计算。算法
写完以后,点击运行,能够看到,训练的 loss 值,从刚开始的 2.31 左右,降低到最终的 0.00 左右,在训练的过程当中,/home/your_name/TensorFlow/cifar10/cifar10_train/ 文件夹下会出现12个文件,其中有 5 个 model.ckpt-0000 文件,这个是训练过程当中保存的模型,后面的数字表示迭代次数,5 个 model.ckpt-0000.meta 文件,这个是训练过程当中保存的元数据(暂时不清楚功能),TensorFlow 默认只保存近期的几个模型和几个元数据,删除前面没用的模型和元数据。还有个 checkpoint 的文本文档,和一个 out.tfevents 形式的文件,是summary 的日志文件。若是不想用 tensorboard 看网络结构和训练过程当中的权重分布,损失状况等等,在程序中能够不写 summary 语句。浏览器
训练完成以后,咱们用 tensorboard 进行可视化(事实上在训练的过程当中,随时能够可视化)。在任意位置打开命令行终端,输入:网络
tensorboard --logdir=/home/your_name/TensorFlow/cifar10/cifar10_train/
会出现以下指示:多线程
根据指示,打开浏览器,输入 http://127.0.1.1:6006(有的浏览器可能不支持,建议多换几个浏览器试试)会看到可视化的界面,有六个选项卡:函数
EVENTS 对话框里面有两个图,一个是训练过程当中的 loss 图,一个是队列 queue 的图;因为没有 image_summary() 和 audio_summary() 语句,因此,IMAGES 和 AUDIO 选项卡都没有内容;GRAPHS 选项卡包含了整个模型的流程图,以下图,能够展开和移动选定的 namespace;DISTRBUTIONS 和 HISTOGRAMS 包含了训练时的各类汇总的分布和柱状图。学习
训练完以后,设置 TRAIN = False,进行测试,获得以下结果:测试
能够看到,测试的精度只有 76%,测试结果不够高的缘由多是,测试的时候没有通过 softmax 层,直接用全链接层的权重(存疑?),另外官方的代码也给出了官方的运行结果,以下:优化
能够看到,通过 10 万次迭代,官方给出的正确率达到 83%,咱们只进行了 5 万次,达到 76% 的正确率,相对来讲,还算能够,效果没有官方好的缘由多是:
1. 官方使用了非固定的学习率;
2. 官方迭代比本代码迭代次数多一倍;
参考文献:
1. https://github.com/tensorflow/models/tree/master/tutorials/image/cifar10