利用mnist数据集进行深度神经网络

时间 2020-03-18

标签利用 mnist 数据进行深度神经网络繁體版

原文原文链接

初始神经网络python

这里要解决的问题是，将手写数字的灰度图像（28 像素 x28 像素）划分到 10 个类别中（0~9)。咱们将使用 MINST 数据集，它是机器学习领域的一个经典数据集，其历史几乎和这个领域同样长，并且已被人们深刻研究。这个数据集包含 60000 张训练图像和 10000 张测试图像，由美国国家标准与技术研究院（National Institute of Standards and Technology，即 MINIST 中的 NIST）在 20 世纪 80 年代收集获得。你能够将“解决”MINIST 问题看做深度学习的“Belo World”，正是用它来验证你的算法是否按预期运行。当你成为机器学习从业者后，会发现 MINIST 一次又一次地出如今科学论文、博客文章等中。下图给出了 MINIST 数据集的一些样本。算法

MINST 数据集预先加载在 Keras 库中，其中包括 4 个 Numpy 数组。数组

(train_images,train_labels),(test_images,test_labels)=mnist.load_data()

下载完车给后是这样的网络

Downloading data from https://s3.amazonaws.com/img-datasets/mnist.npz架构

11493376/11490434 [==============================] - 0s 0us/step机器学习

Train_ Images 和 traln_1 abels 组成了训练集（training set），模型将从这些数据中进学习。而后在测试集（test set，即 test_ Images 和 test_ labels）上对模型进行测试。函数

图像被编码为 Numpy 数组，而标签是数字数组，取值范围为 0~9。图像和标签一一对应。咱们来看一下训练数据：性能

[3] train images. Shape 
 (60000,2828

[5] 1 train labels. Shape 
C (60000

接下来的工做流程以下：首先，将训练数据（traln_ Images 和 traln_1 abes）输人神经网络；其次，网络学习将图像和标签关联在一块儿；最后，网络对 test_ Images 生成预测而咱们将验证这些预测与 test_1 abe1 s 中的标签是否匹配。学习

网络架构测试

from keras import models, layers
network = models.Sequential()
network.add(layers.Dense(512,activation='relu',input_shape=(28*28, )))
network.add(layers.Dense(10,activation='softmax'))

神经网络的核心组件是层（layer），它是一种数据处理模块，你能够将它当作数据过滤器。进去一些数据，出来的数据变得更加有用。具体来讲，层从输入数据中提取表示一一咱们指望这种表示有助于解决手头的问题。大多数深度学习都是将简单的层连接起来，从而实现渐进式的数据蒸馏（data distillation）。深度学习模型就像是数据处理的筛子，包含一系列愈来愈精细的数据过滤器（即层）

经过summary能够查看该网络结构已经参数

Model: "sequential_6"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
dense_4 (Dense)              (None, 512)               401920    
_________________________________________________________________
dense_5 (Dense)              (None, 10)                5130      
=================================================================
Total params: 407,050
Trainable params: 407,050
Non-trainable params: 0
_________________________________________________________________

本例中的网络包含 2 个 Dense 层，它们是密集链接（也叫全链接）的神经层。第二层（也是最后一层）是一个 10 路 softmax 层，它将返回一个由 10 个几率值（总和为 1) 组成的数组。每一个几率值表示当前数字图像属于 10 个数字类别中某一个的几率。

要想训练网络，咱们还须要选择编译（compile）步骤的三个参数。

损失函数（loss function）：网络如何衡量在训练数据上的性能，即网络如何朝着正确的方向前进。
优化器（optimizer）：基于训练数据和损失函数来更新网络的机制。
在训练和测试过程当中须要监控的指标（metric）：本例只关心精度，即正确分类的图像所占的比例。

编译步骤

network.compile(optimizer='rmsprop',
                loss='categorical_crossentropy',
                metrics=['accuracy'])

在开始训练以前，咱们将对数据进行预处理，将其变换为网络要求的形状，并缩放到全部值都在【0,11 区间。好比，以前训练图像保存在一个 uint8 类型的数组中，其形状为（60000,28,28），取值区间为【0,255]。咱们须要将其変换为一个 f1 oat32 数组，其形状为（60000,28*28），取值范围为 0~1。

准备图像数据

train_images = train_images.reshape((60000,28*28))
train_images = train_images.astype('float32') / 225

test_images = test_images.reshape((10000,28*28))
test_images = test_images.astype('float32') / 225

准备标签

from keras.utils import to_categorical

train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

如今咱们准备开始训练网络，在 Keras 中这一步是经过调用网络的 fit 方法来完成的咱们在训练数据上拟合（fit）模型。

.......
60000/60000 [=============] - 4s 67us/step - loss: 2.6875e-04 - acc: 1.0000
Epoch 100/100
60000/60000 [=============] - 4s 67us/step - loss: 2.6875e-04 - acc: 1.0000
<keras.callbacks.History at 0x7f5990492eb8>

训练过程当中显示了两个数字：一个是网络在训练数据上的损失（1 oss），另外一个是网络在训练数据上的精度（acc)

咱们很快就在训练数据上达到了 1.0000 (100%）的精度。如今咱们来检査一下模型在测试集上的性能。

test_loss, test_acc = network.evaluate(test_images,test_labels)

测试集精度为 98.38%，比训练集精度低很多。训练精度和测试精度之间的这种差距是过拟合（overfit）形成的。过拟合是指机器学习模型在新数据上的性能每每比在训练数据上要差.

代码连接: