关于异常值方法的文章使用了理论和实践的混合体。理论一切都很好,但异常值是异常值,由于它们不遵循理论。实践涉及数据的测试方法,有时用基于理论模拟的数据,更好地使用“真实”数据集。若是一种方法发现咱们都赞成的异常值,那么它能够被认为是成功的,可是咱们是否都赞成哪些个案是异常值?算法
异常值概述(O3)图旨在帮助比较和理解异常值方法的结果。测试
Stackloss数据集的O3图。每一个变量组合(由左边的列定义)有一行,找到了异常值,并将每一个案例的一列标识为异常值(右边的列)。spa
威尔金森的算法为整个数据集找到了6个离群值(图的最下面一行)。整体而言,对于各类变量组合,发现14个案例是潜在的异常值 。 blog
一个O3plot,用于比较堆栈损耗数据集中由HDoutliers和mvBACON标识的异常值。rem
在OutliersO3中有四种其余方法可用, :get
R中还有其余异常方法,他们无疑会给出更多不一样的结果。建议必须谨慎行事。离群值自己多是有趣的,它们多是某种错误 - 咱们可能不一样意它们是不是异常值。it