近日,伯克利和MIT研究者发布的一篇名为《Do CIFAR-10 Classifiers Generalize to CIFAR-10?》的新论文提出了学界一个尖锐的问题:包括CIFAR10在内的知名基准测试集,都存在验证集过拟合问题。算法
这一论文引发了Keras之父François Chollet的关注与力挺,关于数据集的讨论在推特上一发不可收拾,包括Gary Marcus和François都连发数条推特对此问题进行了讨论。微信
在连续20几个小时的连续发推中,François Chollet确定了这篇论文带来对过测试集拟合问题的思考,可是也提出了一些论文中不恰当的地方。性能
最后,大神也提出了本身的建议,经过高熵验证过程(如k-fold验证)来解决这个问题。学习
让咱们先来看看这篇论文到底说了什么。测试
这篇论文建立了一组真正“未出现过”的同类图像来测量 CIFAR-10 分类器的准确率,以验证当前的测试集是否会带来过拟合风险。大数据
论文中称,咱们一般只能获取具有一样分布的有限新数据。如今你们广泛接受在算法和模型设计过程当中屡次重用一样的测试集。但显而易见的是,当前的研究方法论忽视了一个关键假设:分类器与测试集应该独立存在。设计
这种不独立带来了显而易见的威胁——研究社区可能会设计出只在特定测试集上性能良好,但没法泛化至新数据的模型。3d
大数据文摘微信公众号后台回复"过拟合"下载本篇论文blog
显而易见,目前深度学习领域的不少“标题党论文”,都存在验证集过拟合问题,包括CIFAR10在内的知名基准测试集。深度学习