具体的连接:http://yann.lecun.com/exdb/mnist/算法
MNIST数据库的手写数字,可从这个页面,有训练集60000例,一个测试集10000个例子。 它是NIST可用的更大集合的子集。 数字已进行大小标准化,并以固定大小的图像为中心。数据库
Four files are available on this site:学习
train-images-idx3-ubyte.gz: training set images (9912422 bytes)
train-labels-idx1-ubyte.gz: training set labels (28881 bytes)
t10k-images-idx3-ubyte.gz: test set images (1648877 bytes)
t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes)测试
来自NIST的原始黑白(双层)图像被尺寸标准化以适合20×20像素盒,同时保持其纵横比。 做为归一化算法使用的抗锯齿技术的结果,所获得的图像包含灰度级。 经过计算像素的质心,而且平移图像以便将该点定位在28×28场的中心,图像在28×28图像中居中。网站
MNIST数据库由NIST的特殊数据库3和特殊数据库1构成,它包含手写数字的二进制图像。 NIST最初指定SD-3做为他们的训练集和SD-1做为他们的测试集。 然而,SD-3比SD-1更干净,更容易识别。 其缘由能够从如下事实中找到:SD-3是在人口普查局员工中收集的,而SD-1是在高中学生中收集的。 从学习实验中得出合理的结论要求结果与整个样本集中训练集和测试的选择无关。 所以,有必要经过混合NIST的数据集构建一个新的数据库。this
MNIST训练集由来自SD-3的30,000个模式和来自SD-1的30,000个模式组成。 咱们的测试集由来自SD-3的5,000个图案和来自SD-1的5,000个图案组成。 60,000模式训练集包含约250名做家的例子。 咱们确保训练集和测试集的做者集是不相交的。orm
SD-1包含58,527位数字图像由500不一样的做家写。 与SD-3相反,在SD-3中,来自每一个写入器的数据块按顺序出现,因此SD-1中的数据被加扰。 用于SD-1的写入器身份是可用的,而且咱们使用该信息来解扰写入器。 而后咱们将SD-1分红两部分:前250个做者写入的字符进入咱们的新训练集。 剩余的250位做者被放置在咱们的测试集中。 所以,咱们有两套,每套有近30,000个例子。 新的训练集已经完成了足够的例子从SD-3,从模式#0开始,使一整套60,000训练模式。 相似地,新的测试集用从#35,000开始的SD-3实例完成,以制备具备60,000个测试图案的完整集合。 在此网站上只有10,000个测试图片(5,000个来自SD-1和5000个来自SD-3)的子集可用。 可提供完整的60,000个样本培训集。图片
All the integers in the files are stored in the MSB first (high endian) format used by most non-Intel processors. Users of Intel processors and other low-endian machines must flip the bytes of the header.ip
There are 4 files:get
train-images-idx3-ubyte: training set images train-labels-idx1-ubyte: training set labels t10k-images-idx3-ubyte: test set images t10k-labels-idx1-ubyte: test set labels