33个机器学习经常使用数据集

时间 2019-11-24

标签机器学习经常使用数据繁體版

原文原文链接

如果本文能帮助到你们，但愿能够关注并转发分享！（thanks）html

现现在构建人工智能或机器学习系统比以往的时候更加容易。广泛存在的尖端开源工具如 TensorFlow、Torch 和 Spark，再加上经过 AWS 的大规模计算力、Google Cloud 或其余供应商的云计算，这些都意味着你能够在下午休闲时间使用笔记本电脑去训练出最前沿的机器学习模型。算法

数据集对于深度学习模型的重要性不言而喻，然而根据性质、类型、领域的不一样，数据集每每散落在不一样的资源平台里，急需人们作出整理。网络

少了数据，咱们的机器学习和深度学习模型什么也干不了。这么说吧，那些建立了数据集、让咱们能够训练模型的人，都是咱们的英雄，虽然这些人经常并无获得足够的感谢。让人庆幸的是，那批最有价值的数据集后来成了「学术基准线」——被研究人员普遍引用，尤为在算法变化的对比上；很多名字则成为圈内外都耳熟能详的名称，如 MNIST、CIFAR 10 以及 Imagenet 等。机器学习

若是您在研究中使用了这些数据集，咱们但愿您记得引用原始论文（咱们已经在表单中提供引用连接）；若是您将它们用做商业或教育项目的一部分，请考虑添加致谢文及数据集原连接。工具

咱们之因此常常在教学中引用这些数据集，是由于它们就是学生们颇有可能遇到的数据类型的绝佳例子，此外，学生能够将本身的工做与引用这些数据集的学术成果进行对比，从而取得进步。此外，咱们也会使用 Kaggle Competitions 数据集，Kaggle 的 public leaderboards 容许学生在世界最好的数据集里测试本身的模型，不过 Kaggle 数据集并不会在本次表单中出现。性能

图像分类领域

1）MNIST学习

经典的小型（28x28 像素）灰度手写数字数据集，开发于 20 世纪 90 年代，主要用于测试当时最复杂的模型；到了今日，MNIST 数据集更多被视做深度学习的基础教材。fast.ai 版本的数据集舍弃了原始的特殊二进制格式，转而采用标准的 PNG 格式，以便在目前大多数代码库中做为正常的工做流使用；若是您只想使用与原始一样的单输入通道，只需在通道轴中选取单个切片便可。测试

引文：http://yann.lecun.com/exdb/publis/index.html#lecun-98云计算

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/mnist_png.tgz人工智能

2）CIFAR10

10 个类别，多达 60000 张的 32x32 像素彩色图像（50000 张训练图像和 10000 张测试图像），平均每种类别拥有 6000 张图像。普遍用于测试新算法的性能。fast.ai 版本的数据集舍弃了原始的特殊二进制格式，转而采用

标准的 PNG 格式，以便在目前大多数代码库中做为正常的工做流使用。

引文：https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/cifar10.tgz

3）CIFAR100

与 CIFAR-10 相似，区别在于 CIFAR-100 拥有 100 种类别，每一个类别包含 600 张图像（500 张训练图像和 100 张测试图像），而后这 100 个类别又被划分为 20 个超类。所以，数据集里的每张图像自带一个「精细」标签（所属的类）和一个「粗略」标签（所属的超类）。

引文：https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/cifar100.tgz

4）Caltech-UCSD Birds-200-2011

包含 200 种鸟类（主要为北美洲鸟类）照片的图像数据集，可用于图像识别工做。分类数量：200；图片数量： 11,788；平均每张图片含有的标注数量：15 个局部位置，312 个二进制属性，1 个边框框。

引文：http://vis-www.cs.umass.edu/bcnn/

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/CUB_200_2011.tgz

5）Caltech 101

包含 101 种物品类别的图像数据集，平均每一个类别拥有 40—800 张图像，其中很大一部分类别的图像数量固为 50 张左右。每张图像的大小约为 300 x 200 像素。本数据集也能够用于目标检测定位。

引文：http://www.vision.caltech.edu/feifeili/Fei-Fei_GMBV04.pdf

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/caltech_101.tar.gz

6）Oxford-IIIT Pet

包含 37 种宠物类别的图像数据集，每一个类别约有 200 张图像。这些图像在比例、姿式以及光照方面有着丰富的变化。本数据集也能够用于目标检测定位。

引文：http://www.robots.ox.ac.uk/~vgg/publications/2012/parkhi12a/parkhi12a.pdf

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz

7）Oxford 102 Flowers

包含 102 种花类的图像数据集（主要是一些英国常见的花类），每一个类别包含 40—258 张图像。这些图像在比例、姿式以及光照方面有着丰富的变化。

引文：http://www.robots.ox.ac.uk/~vgg/publications/papers/nilsback08.pdf

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/oxford-102-flowers.tgz

8）Food-101

包含 101 种食品类别的图像数据集，共有 101,000 张图像，平均每一个类别拥有 250 张测试图像和 750 张训练图像。训练图像未通过数据清洗。全部图像都已经从新进行了尺寸缩放，最大边长达到了 512 像素。

引文：https://pdfs.semanticscholar.org/8e3f/12804882b60ad5f59aad92755c5edb34860e.pdf

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/food-101.tgz

9）Stanford cars

包含 196 种汽车类别的图像数据集，共有 16,185 张图像，分别为 8,144 张训练图像和 8,041 张测试图像，每一个类别的图像类型比例基本上都是五五开。本数据集的类别主要基于汽车的牌子、车型以及年份进行划分。

引文：https://ai.stanford.edu/~jkrause/papers/3drr13.pdf

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/stanford-cars.tgz

天然语言处理领域

1）IMDb Large Movie Review Dataset

用于情感二元分类的数据集，其中包含 25,000 条用于训练的电影评论和 25,000 条用于测试的电影评论，这些电影评论的特色是两极分化特别明显。另外数据集里也包含未标记的数据可供使用。

引文：http://ai.stanford.edu/~amaas/papers/wvSent_acl2011.pdf

下载地址：https://s3.amazonaws.com/fast-ai-nlp/imdb.tgz

2）Wikitext-103

超过 1 亿个语句的数据合集，所有从维基百科的 Good 与 Featured 文章中提炼出来。普遍用于语言建模，当中包括 fastai 库和 ULMFiT 算法中常常用到的预训练模型。

引文：https://arxiv.org/abs/1609.07843

下载地址：https://s3.amazonaws.com/fast-ai-nlp/wikitext-103.tgz

3）Wikitext-2

Wikitext-103 的子集，主要用于测试小型数据集的语言模型训练效果。

引文：https://arxiv.org/abs/1609.07843

下载地址：https://s3.amazonaws.com/fast-ai-nlp/wikitext-2.tgz

4）WMT 2015 French/English parallel texts

用于训练翻译模型的法语/英语平行文本，拥有超过 2000 万句法语与英语句子。本数据集由 Chris CallisonBurch 建立，他抓取了上百万个网页，而后经过一组简单的启发式算法将法语网址转换为英文网址，并默认这些文档之间互为译文。

引文：https://www.cis.upenn.edu/~ccb/publications/findings-of-the-wmt09-shared-tasks.pdf

下载地址：https://s3.amazonaws.com/fast-ai-nlp/giga-fren.tgz

5）AG News

496,835 条来自 AG 新闻语料库 4 大类别超过 2000 个新闻源的新闻文章，数据集仅仅援用了标题和描述字段。每一个类别分别拥有 30,000 个训练样本及 1900 个测试样本。