TensorFlow 教程 --教程--2.2 数据准备

时间 2021-08-14

标签 php html python git github 机器学习 ide 函数 post 学习栏目 PHP 繁體版

原文原文链接

MNIST 数据下载

源码: tensorflow/g3doc/tutorials/mnist/php

本教程的目标是展现如何下载用于手写数字分类问题所要用到的（经典）MNIST数据集。html

教程文件

本教程须要使用如下文件：python

文件	目的
`input_data.py`	下载用于训练和测试的MNIST数据集的源码

准备数据

MNIST是在机器学习领域中的一个经典问题。该问题解决的是把28x28像素的灰度手写数字图片识别为相应的数字，其中数字的范围从0到9.git

更多详情, 请参考 Yann LeCun's MNIST page 或 Chris Olah's visualizations of MNIST.github

下载

Yann LeCun's MNIST page 也提供了训练集与测试集数据的下载。机器学习

文件	内容
`train-images-idx3-ubyte.gz`	训练集图片 - 55000 张训练图片, 5000 张验证图片
`train-labels-idx1-ubyte.gz`	训练集图片对应的数字标签
`t10k-images-idx3-ubyte.gz`	测试集图片 - 10000 张图片
`t10k-labels-idx1-ubyte.gz`	测试集图片对应的数字标签

在 input_data.py 文件中, maybe_download() 函数能够确保这些训练数据下载到本地文件夹中。ide

文件夹的名字在 fully_connected_feed.py 文件的顶部由一个标记变量指定，你能够根据本身的须要进行修改。函数

解压与重构

这些文件自己并无使用标准的图片格式储存，而且须要使用input_data.py文件中extract_images()和extract_labels()函数来手动解压（页面中有相关说明）。post

图片数据将被解压成2维的tensor：[image index, pixel index] 其中每一项表示某一图片中特定像素的强度值, 范围从 [0, 255] 到 [-0.5, 0.5]。 "image index"表明数据集中图片的编号, 从0到数据集的上限值。"pixel index"表明该图片中像素点得个数, 从0到图片的像素上限值。学习

以train-*开头的文件中包括60000个样本，其中分割出55000个样本做为训练集，其他的5000个样本做为验证集。由于全部数据集中28x28像素的灰度图片的尺寸为784，因此训练集输出的tensor格式为[55000, 784]。

数字标签数据被解压称1维的tensor: [image index]，它定义了每一个样本数值的类别分类。对于训练集的标签来讲，这个数据规模就是:[55000]。

数据集对象

底层的源码将会执行下载、解压、重构图片和标签数据来组成如下的数据集对象:

数据集	目的
`data_sets.train`	55000 组图片和标签, 用于训练。
`data_sets.validation`	5000 组图片和标签, 用于迭代验证训练的准确性。
`data_sets.test`	10000 组图片和标签, 用于最终测试训练的准确性。

执行read_data_sets()函数将会返回一个DataSet实例，其中包含了以上三个数据集。函数DataSet.next_batch()是用于获取以batch_size为大小的一个元组，其中包含了一组图片和标签，该元组会被用于当前的TensorFlow运算会话中。

images_feed, labels_feed = data_set.next_batch(FLAGS.batch_size)

原文地址：MNIST Data Download 翻译：btpeter 校对：waiwaizheng

TensorFlow 教程 --教程--2.2 数据准备

教程 文件

准备数据

下载

解压 与 重构

数据集 对象

教程文件

解压与重构

数据集对象