关于数据科学的真相：三种规律应区分清楚

时间 2019-11-24

标签关于数据科学真相三种规律区分清楚繁體版

原文原文链接

全文共2848字，预计学习时长6分钟安全

若是你上过统计学导论课，就会知道一个数据点能够激发灵感或者验证理论，但不能同时用于两种用途。这是为何呢？微信

人类有点过于擅长从万物中寻找规律。找出的规律多是真实的，也多是虚假的。人类甚至能从薯片上看出流行歌手猫王的脸。若是想要从规律中得到真正的知识，记住区分三种数据规律：机器学习

· 存在于特定数据集中而且能够推广的规律/事实学习

· 只存在于特定数据集中的规律/事实测试

· 只存在想象中的规律/事实（过分关联错觉）大数据

数据规律可能（1）存在于整个目标数据集中（2）只存在于一个样本中（3）只存在于你的想象中。

哪种规律有用？这取决于你的目标。人工智能

灵感3d

若是只是在寻找灵感，这三种规律都颇有用。甚至是过分关联（apopheny）——源于术语 apophenia，意指人类错误地在无关事物间寻找联系和意义的倾向——也能让灵感涌现。灵感没有标准答案，因此只需为所欲为地观察和摆弄数据。不过这只是额外的好处，尽可能不要在这方面浪费太多本身或其余相关人员的时间。orm

事实cdn

政府征收税款时只会关心公民本年度财务数据中的规律。它须要分析这些数据，基于事实判断你应该缴纳的税款。换言之，观察数据并对其套用公式。这被称做纯粹的描述分析，它只针对手头的数据。前两种规律都适用于这一目的。

1. 只针对手头数据的描述分析，不肯定状况下的决策

有时发现的规律与预期不相符合。不具有作出决定所需的全部信息时，就须要探索不肯定性来挑选合理的决策。

这就是统计学——一门在不肯定条件下影响决定的科学——所研究的。它关心如何像伊卡洛斯同样超越已知，同时又不犯错以至落入水中。

2. 如何排除不重要的数据观察结论是数据科学的核心问题

开始以前，你最好但愿在有限的观察中发现的规律也适用于观察范围外的数据。也就是说，有用的规律必须具备可推广性。

来源：xkcd

上述三种规律中只有第一种（可推广的）规律能够被用于在不肯定条件下作出决策。不幸的是，数据中也可能发现其余两种规律。这就是数据科学的核心问题：如何排除不重要的数据观察结论。

推广

并不是只有人类会从数据中提炼出无用的规律。若是不够当心，机器也可能犯一样的错误。

3. 机器学习/人工智能的用处是针对未知状况作出正确推论

机器学习能够在数据中经过计算找到规律并将其应用于新的数据，从而作出许多类似的决策。在机器学习/人工智能术语中，可推广性指的是模型处理新数据的能力。仅对已有数据奏效的规律性方案有什么用？一个查询表就能解决这个问题。机器学习/人工智能的用处在于针对未知状况作出正确推论。

这就是只有第一种规律能够应用于机器学习的缘由。它是信号，而其余两种只是噪音（只存在于已知数据中的特殊规律，会阻碍你发现可推广的模型）

4. 信号：不仅存在于特定数据集中的规律；噪音：只存在于特定数据集中的规律

实际上，找出处理旧数据而非新数据的解决方案在机器学习中被称为过拟合。（人们以咒骂的口吻说出这个词）机器学习领域的几乎一切努力都是为了不过拟合。

因此这一规律属于哪种？

假设你（或机器）发现的规律是真实存在的，它属于哪种？它存在于但愿研究的目标数据集中吗（信号）？或者只是目前拥有的数据集的特性（噪音）？如何判断发现的规律属于哪种？

观察全部可用数据没法得出结论。你将困在其中，无从得知相同的规律是否存在于别处。整个统计假设检验都应该创建在未知的意外之上，不要伪装惊讶地发现存在于数据中的已知规律。（那必然成为p值黑客。）

有点像看到兔子形状的云，而后使用同一朵云来检测是否全部的云都像兔子。但愿你能够意识到，测试理论须要一些新的云。

5. 任何启发理论或问题的数据点都不能用于检测该理论的正确性

若是只能获得一张云的图片，那么能够作些什么？在扫帚壁橱里冥想，没错，就是这样。在观察数据以前先提出问题。

6. 数学永远不会违背基本常识

这导出了一个使人不快的结论。若是调用整个数据集来寻找灵感，就不能再用它来严格测试获得的理论（不管采起多少数学技巧，由于数学毫不会违背基本常识）。

艰难的选择

这意味着你必须选择！若是只有一个数据集，你就不得逼问本身：“是在壁橱里冥想，思考全部的统计测试假设，而后仔细采起严格的检验方法，认真地对待呢？仍是仅仅挖掘数据获取灵感，但不必定把结论当真，使用“我以为”或“我不肯定”之类的词来修饰结论？艰难的选择！

或者有没有办法在拥有一个蛋糕的同时把它吃掉？问题在于只有一个数据集，而你须要多个。若是数据量很大，笔者有办法解决问题。

一个神奇的技巧

想要在数据科学方面取得成功，只需经过拆分数据将一个数据集转换为（至少）两个。一个用于启发灵感，另外一个用于严格测试。若是激发你灵感的规律也存在于另外一部分数据中，那么这种模式极可能适用于全体数据。

7. 若是两个数据集中存在相同的现象，那么这个现象可能也广泛存在于它们来源的大数据集中

若是未经检验的生活不值得过，那么请靠着这四个词活下去：分割你该死的数据（Split Your Damned Data）。

若是每一个人都对数据集进行分割，世界会更美好。人们将获得更好的答案（经过统计数据）和更好的问题（经过分析）。不强制分割数据集的惟一缘由是，在上个世纪，这是一种难以负担的奢侈行为。数据集很是小，若是试图拆分它们，可能就什么也不剩了。

将数据拆分为一个用于启发灵感的探索性数据集和用于对处在研究阶段的发现进行严格检验的测试数据集。

今天有些项目仍然存在这个问题，特别是在医学研究中（笔者曾经涉猎神经科学领域，所以很是理解使用小型数据集的难度）。可是现在不少人都拥有大量数据，多到须要聘请工程师来移动它。那么还有什么理由不对数据进行分割？！不要吝啬，分割你的数据吧！

8. 不习惯分割数据的你可能还停留在20世纪

若是你已经得到了大量数据，可是仍然在研究未分割的数据集，那么你仍然止步于陈旧的观点。不少人知足于陈旧的思想，忘记与时俱进。

机器学习是数据分割的产物

讲到这里，本文的观点总结起来很是简单。使用一个数据集寻找结论，操纵镜头，而后像变魔术同样证实它在一个全新的数据集中一样成立。

9. 培养更健康的数据文化，数据分割是最简单快速的解决方案

这就是在安全范围内应用统计学，以及避免在机器学习/人工智能中因过分拟合而犯错的方式。事实上，机器学习的历史就是数据分割的历史。

如何应用最好的数据科学观念

要应用这一最好的数据科学观念，只要确保将一些数据置于分析范围以外，其他的全权交给分析师来处理。

10. 要在数据科学方面取得成功，只需拆分数据，将一个数据集转换为（至少）两个

若是认为分析师得出了可推广的有用发现，使用秘密测试数据来检查得出的结论。就这么简单！

留言点赞关注

咱们一块儿分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

（添加小编微信：dxsxbb，加入读者圈，一块儿讨论最新鲜的人工智能科技哦～）