R语言OutliersO3软件包异常值检测方法比较

原文连接:http://tecdat.cn/?p=8502

识别异常值的方法有不少种,R中有不少不一样的方法。

关于异常值方法的文章使用了理论和实践的混合体。理论一切都很好,但异常值是异常值,由于它们不遵循理论。实践涉及数据的测试方法,有时用基于理论模拟的数据,更好地使用“真实”数据集。若是一种方法发现咱们都赞成的异常值,那么它能够被认为是成功的,可是咱们是否都赞成哪些个案是异常值?算法

异常值概述(O3)图旨在帮助比较和理解异常值方法的结果。测试

Stackloss数据集的O3图。每一个变量组合(由左边的列定义)有一行,找到了异常值,并将每一个案例的一列标识为异常值(右边的列)。spa

威尔金森的算法为整个数据集找到了6个离群值(图的最下面一行)。整体而言,对于各类变量组合,发现14个案例是潜在的异常值 。 blog

一个O3plot,用于比较堆栈损耗数据集中由HDoutliers和mvBACON标识的异常值。rem

在OutliersO3中有四种其余方法可用, :get

    HDo    PCS    BAC adjOut    DDC    MCD##    14      4      5      0      6      5

R中还有其余异常方法,他们无疑会给出更多不一样的结果。建议必须谨慎行事。离群值自己多是有趣的,它们多是某种错误 - 咱们可能不一样意它们是不是异常值。it

相关文章
相关标签/搜索