数据集与问题

时间 2019-12-23

标签数据问题繁體版

原文原文链接

当处理有时间序的数据时，很容易把时间结构去掉或者简单地把它看成分类或者数值数据。算法

一个容易忽略的点就是创建预测性的模型的时候参考了将来的数据点。必定要注意不能把将来的数据用来建模。由于过后诸葛亮是百分之百正确的，回顾比预测要容易太多。在构建预测模型时，一般会把一个时间节点以前的数据做为训练数据，验证数据从那个时间节点向后，测试数据在验证数据后面直到如今。这样你的算法才不会由于用了将来的数据而变的过拟合测试

此例中加入了新的 POI，而咱们没有任何人的财务信息，这就带来了一个微妙的问题，即算法可能会注意到咱们缺乏他们的财务信息，并将这一点做为他们是 POI 的线索。换个角度来看，为咱们的两个类生成数据的方式如今有所不一样 - 非 POI 的人全都来自财务电子表格，以后手动加入了许多 POI。这种不一样可能会诱使咱们觉得咱们的表现优于实际情况 - 假设你使用 POI 检测器来肯定某个未见过的新人是不是 POI，并且该人不在电子表格上。而后，他们的全部财务数据都将包含“NaN”，但该人极有可能不是 POI（世界上非 POI 的人比 POI 多得多，即便在安然也是如此）- 然而你可能会无心中将他们标识为 POI！大数据

这就是说，在生成或增大数据集时，若是数据来自不一样类的不一样来源，你应格外当心。它很容易会形成咱们在此展现的误差或错误类型。可经过多种方法处理此问题。举例而言，若是仅使用了电子邮件数据，则你无需担忧此问题（在这种状况下，财务数据中的差别并不重要，由于并未使用财务特征）。还能够经过更复杂的方法来估计这些误差可能会对你的最终答案形成多大影响，不过此话题超出了本课程的范围。方法

目前的结论就是，要很是当心地对待引入来自不一样来源（具体取决于类）的特征这个问题！引入此类特征经常会意外地带来误差和错误。数据