更好的数据和更高级的算法，在数据清理中哪个更重要？

时间 2019-11-06

标签更好数据高级的算法清理哪个重要繁體版

原文原文链接

在上一章中，咱们学习了如何对一个数据集进行探索性分析，也阐述了常见的要从数据集中获取的信息。算法

基于这些信息，接下来就是经过数据清理，让咱们的数据集达到最佳状态了。数据清理也是搭建任何一种推荐系统必经的步骤之一。

数据清理的步骤和技术因数据集而异。咱们没有办法在一篇文章中穷尽全部会出现的问题。

这篇文章介绍了数据清理的一些常见步骤，例如修复结构性错误，处理丢失的数据以及过滤观察值。

更好的数据>更高级的算法

数据清理是每一个人都要作的事情之一，但不多有人专门讨论这件事，缘由很简单，这不是机器学习的“最性感”的部分。并且，没有什么可供挖掘的隐藏技巧和秘密。

但事实上，数据清理可能会加快或中断整个项目进程。专业的数据科学家一般在此步骤上花费很大一部分时间。他们为何要这么作呢？机器学习中存在一个很简单的事实：

更好的数据赛过更高级的算法。

换句话说，输入垃圾数据，获得的也是垃圾结果。

若是咱们的数据集通过了正确的清洗，那么即便是简单的算法也能够从中获得深入的启发！

不一样类型的数据须要不一样的清洗方法。可是，本文中阐述的系统方法能够做为一个很好的学习起点。

微信

删除不须要的观测结果

数据清理的第一步是从数据集中删除不须要的观测结果，包括重复或不相关的观测结果。
网络

重复的观测结果

重复的观测结果最多见于数据收集期间，例如：运维

合并多个来源的数据集时
抓取数据时
从客户/其余部门接入数据时

不相关的观测结果

不相关的观测结果实际上与咱们要解决的特定问题不符。机器学习

例如，若是咱们仅为单户住宅构建模型，则不但愿对其中的公寓也进行观测。
这时候，咱们也能够在上一步的探索性分析中判断出来。咱们能够查看类别特征的分布图，以查看是否有不相关的类存在。
在作工特征工程以前，咱们也能够检查是否存在不相关的观察结果。

修复结构性错误post

结构性错误是在测量、数据传输或其余的“不良内部管理”过程当中出现的错误。

例如，咱们能够检查拼写错误或大小写不一致的问题。这些主要和分类特征有关。

这是一个例子：

性能

从上图中能够看到：学习

“Composition”与“composition”相同
“asphalt”应为“Asphalt”
“ shake-shingle”应为“ Shake Shingle”
“asphalt,shake-shingle”也可能只是“Shake Shingle”

替换错字和大小写不一致后，整个分类变得更加整洁：

ui

最后，检查标签错误的类，即实际上应该相同的类。人工智能

例如：若是“N/A”和“Not Applicable”显示为两个单独的类，则应将其合并。
例如：“ IT”和“ information_technology”应该是同一个类。

过滤不须要的异常值

异常值可能会致使某些模型出现问题。例如，线性回归模型对异常值的鲁棒性不如决策树模型。

一般，若是咱们有合理的理由要删除异常值，则能够提升模型的性能。

可是，在证实异常值无用以前，咱们永远不要仅仅由于它是一个“大数字”就删除它，由于这个数字可能对咱们的模型有很大帮助。

这一点很重要：在删除异常值以前必需要有充分的理由，例如不是真实数据的可疑度量。

处理缺失的数据

在机器学习应用过程当中，数据缺失看上去是一个很棘手的问题。

为了清楚起见，咱们不能简单地忽略数据集中的缺失值。因为大多数算法都不接受缺失值，所以，咱们必须经过某种方式来处理这一点。

“常识”在这里并不灵验

根据咱们的经验，处理丢失数据的两种最经常使用的推荐方法实际上都不怎么有用。

这两种方法分别是：

1.删除具备缺失值的观测值

2.根据其余观察结果估算缺失值

删除缺失值不是最佳选择，由于删除观察值时会删除信息。