离群点检测

时间 2019-11-10

标签离群检测繁體版

原文原文链接

离群点检测算法

问题一:如何根据客户的消费记录记录检测是否为异常刷卡消费?
问题二:如何检测是否有异常订单?
这一类问题能够经过异常点来检测
离群点检测是数据挖掘中重要的一部分,它的任务是发现与大部分其余对象显著不一样的对象,大部分数据挖掘方法都将这种差别信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能蕴含着更大的研究价值,
在数据散步图中,由于离群点的属性值明显偏离指望的或常见的属性值,因此离群点检测也称误差检测
离群点检测已经被普遍应用于电信和信用卡的诈骗检测,贷款审批,电子商务,网络入侵和天气预报等领域,例如,能够利用离群点检测分析运动员的统计数据,以发现异常运动员.
离群点的成因
- 离群点的主要成因有:数据来源于不一样的类,天然变异,数据测量和收集偏差

离群点的类型:

离群点飞类表以下:

分类标准	分类名称	分类描述
从属性的个数	一维离群点和多维离群点	一个对象可能有一个或多个属性
从数据类型	数值型离群点和分类型离群点	这是以数据集类型划分的
从数据范围	全局离群点和局部离群点	从总体看,某些对象没有离群特征,可是从局部来看,却显示了必定的离群性.

离群点检测方法

离群点检测方法	方法描述	方法评估
基于密度	考虑数据可能存在于不一样密度区域这一事实,从基于密度观点分析,离群点是在低密度区域中的对象,一个对象的离群点得分是该对象周围密度的逆	给出了对象是离群点的定量度量,而且即便数据具备不一样区域也能很好处理,大数据集不适用,参数选座位是困难的
基于统计	大部分的基于统计的离群点检测方法是构建一个几率分布模型,并计算对象符合该模型的几率,把具备低几率的对象视为离群点	基于统计模型的离群点检测前提是必须直到数据集服从什么分布,对于高维数据,检验效果可能不好
基于聚类	一种利用聚类检测离群点的方法是丢弃远离其余簇的小簇,另外一种更系统的方法,首先聚类全部对象,而后评估对象属于簇的程度(离群点得分)	基于聚类技术发现离群点多是高度有效的;聚类算法产生的簇的质量对该算法产生的离群点的质量影响很是大.
基于邻近度	一般能够在数据对象之间定义邻近性度量,把远离大部分点的对象视为离群点	简单,二维或三维数据能够作散点图观察,大数据集不适用,对于选择敏感,具备全局阈值,不能处理具备不一样密度区域数据集

基于统计模型的离群点检测方法须要知足统计学原理,若是分布已知,则检测可能很是有效,基于邻近度的离群点检测方法比统计学方法更通常,更容易使用,由于肯定数据集有意义的邻近度量比肯定它的统计分布更容易,基于密度的离群点检测与基于邻近度离群点检测密切相关,由于密度经常使用邻近度定义,一种是定义密度为到K个最邻近的平均距离的倒数,若是该距离小,则密度高,另外一种是使用DBSCAN聚类算法,一个对象周围的密度等于该对象指定距离d内对象个数.
基于模型的离群点检测方法
- 经过估计几率分布的参数来创建一个数据模型.若是一个数据对象不能很好的嗯同该模型拟合,即若是它极可能不服从该分布,则它是一个离群点.
- 一元正太分布中的离群点检测
- 正太分布是统计学中最经常使用的分布之一.
- 若随机变量x的密度函数φ(x) = 1 / (2π)^1/2e^-(x-u)2 / 2σ²(x€R),则称x服从正太分布,简称x服从正太分布N(μ,σ),其中参数μ和σ分别为均值和标准差
- N(0,1)的数据对象出如今该分布的两边尾部的机会很小,所以能够用它做为检测数据对象是不是离群点的基础,数据对象落在3倍标准差中西想你区域以外的几率仅有0.0027
- 混合模型的离群点检测
- 这里先介绍一下混合模型,混合模型是一种特殊的统计模型,它使用若干统计分布对数据建模.每个分布对应一个簇,而每一个分布的参数提供对应的簇的描述,一般用中心和发散描述
- 混合模型将数据看做从不一样的几率分布获得的观测值的集合,几率分布能够是任何分布,可是一般是多元正太的,由于郑重类型的分布不难理解,容易从数学上进行处理,而且已经证实在许多状况下能产生好的结果,这种类型的分布能够对椭圆簇建模
- 总的来讲,混合模型书产生过程为:给定几个类型形同但参数不一样的分布,随机地选取一个分布并由它产生一个对象.重复该过程m次,其中m是对象的个数
- 具体的来说,假定有K个分布和m个对象χ = {x1, x2, x3, ..., xm}.设第j个分布的参数为αj,并设A是全部参数的集合,即A = {α1, α2, ..., αk}.则P(xi | αj)是第i和对象来自j个分布的几率,选取第j个分布产生一个对象的几率由权值ωj(1 ≤ j ≤ K)给定,其中权值(几率)受限于其和为1的约束,即∑^k_j=1ωj = 1.因而,对象x的几率由一下公式给出:
  - P(x | A) = ∑^k_j=1ωjPj(x | θj)
- 若是对象以独立的方式产生,则整个对象集的几率是每一个个体对象xi的几率的乘积,公式以下:
  - P(x | α) = ∏mi=1P(xi | α) = ∏mi=1∑kj=1ωjPj(x | αj)
- 对于混合模型,每一个分布描述一个不一样的组,即一个不一样的簇,经过使用统计方法,能够由数据估计这些分布的参数,从而描述这些分布(簇).也能够识别那个对象属于那个簇,然而,混合模型只是给出具体对象属于特定簇的几率
- 聚类时,混合模型方法假定数据来自混合几率分布,而且每一个簇能够用这些分布之一识别,一样,对于离群点检测,用两个分布的混合模型建模,一个分布视为正常数据,另外一个为离群点
- 聚类和离群点检测的目标都是估计分布的参数,以最大化数据的总似然
- 咱们提供一种离群点检测经常使用的简单方法,先将全部数据对象放入正常数据集,这时离群点集为空集;再用一个迭代过程将数据对象从正常数据集转移到离群点集,该转移能提升数据的总似然.
  - 具体的才这样以下:
- 假设数据集U包含来自两个该v分布的书对象;M是大多数(正常)数据对象的分布,而N是离群点对象分布.数据的总几率分布能够记做:
  - U(x) = (1-λ)M(x) + λN(x)其中, x是一个数据对象;λ€[0,1],给出离散群点的指望比例.分布M由数据估计获得,而分布N一般去均匀分布.设Mt和Nt分别为时刻t正常数据和离群点对象的集合,初始t=0,M0 = D,而N0 ≠ Φ.
  - 根据公式混合模型中公式P(x | A) = ∑kj=1ωjPj(x | αj)推导,再整个数据集的似然和对数似然分别由下面公式给出
    - Lt(U) = ∏xi € U Pu(xi) = ((1 - λ) | Mt | ∏xi € Mi PMi(xi))(λ | Nt | ∏xi €NiPNi(xi))
    - lnLt(U) = | Mt |ln(1-λ) + ∑xi € MilnPMi(xi) + | Nt |lnλ + ∑xi €NilnPNi(xi)
  - 其中P_D, P_Mt, P_Nt分别是D,Mt, Nt的几率分布函数
  - 由于正常数据对象的数量比离群点对象的数量大不少,所以当一个数据对象移动大离群点集后,正常数据对象的分布变化不大,在这种状况下,每一个正常数据对象的总似然的贡献保持不变,此外,若是假定离群点服从均匀分布,则移动到离群点集的每个数据对象对离群点的似然贡献度一个固定的量,这样,当一个数据对象移动到离群点集时,数据总似然的改便粗略地等于该数据对象在均匀分布下的几率(用λ加权)减去该数据对象在正常数据点的分布下的几率(用1-λ加权).从而,离群点由这样一些数据对象组成.这样,数据对象在均匀分布下的几率比正常数据对象分布下的几率高
  - 在某些状况下时很难创建模型的.例如, 由于数据的统计分布未知或训练数据可用,在这种状况下,能够考虑其余不须要创建模型的检测方法.

基于聚类的离群点检测方法
- 聚类分析用于发现局部强相关的对象组,而异常检测用来发现不与其余对象强相关的对象,所以,聚类分析很是天然地能够用于离群点检测,
- 丢弃远离其余簇的小簇
  - 一种利用聚类检测离群点的方法傻HI丢弃远离其余簇的小簇,一般,该过程能够简化为丢弃小于某个最小阈值的全部簇
  - 这个方法能够和其余任何聚类计数一期使用,可是须要最小簇大小和小簇与其余簇之间距离的阈值,并且这种方案对簇个数的选择高度敏感,使用这个方案很难将离群点得分附加到对象上
  - 聚类数 k =2, 能够直观的看出其中包含5个对象的小簇远离大部分对象,能够视为离群点
- 基于原型的聚类
  - 基于原型的聚类时另外一种跟系统的方法.首先聚类全部对象,而后评估对象属于簇的程度(离群点得分).在这种方法中,能够用对象到它簇中心的聚类来衡量属于簇的程度,特别的,若是删除一个对象致使该目标的显著改进,则可将该对象视为离群点,例如,在K均值算法中,删除远离其相关簇中心的对象可以显著的改进该簇的偏差平方和
  - 对于基于原型的聚类,主要由两种方法评估对象属于簇的程度;一是度量对象到簇原型的距离,并用它做为该对象的离群点得分;二是考虑到簇具备不一样的密度,能够度量簇到原型的相对距离,相对距离是点到质心的距离于簇中全部点到质心的距离中位数之比
    - 若是选择聚类簇数 K = 3,则对象A,B,C应分别属于距离他们最近的簇,但相对于簇内的其余对象,这3个点又分别远离各自的簇,因此有理由怀疑对象A,B,C是离群点
    - 诊断以下:
      - 进行聚类.选择聚类算法(如K-Means算法),将样本集聚为K簇,并找到各簇的质心
      - 计算各对象到它的最近质心的距离
      - 计算各对象到它最近质心的相对距离
      - 与给定的阈值做对比
    - 基于聚类的离群点的改进以下
      - 离群点对初始聚类的影响:经过聚类检测离群点,离群点会影响聚类的结果.为了处理该问题,可使用方法:对象聚类,删除离群点,对象再次聚类(这个不能保证产生最优结果)
      - 还有一种更复杂的方法:取一组不能很好地拟合任何簇的特殊对象,这组对象表明潜在的离群点.随着聚类过程的进展,簇在变化,再也不强调属于任何簇的特殊对象,这组对象表明潜在的离群点,随着聚类过程的进展,簇在变化,再也不强调属于任何簇的对象被添加到潜在的离群点集合;测试当前该集合中的对象,若是它如今属于一个簇,就能够将它从潜在的离群点集合中移出,聚类过程结束时还留在该集合中的点被分类为离群点(这种方法也不能保证产生最优解,甚至不比前面的简单算法好,在使用相对距离计算离群点得分时,这个问题特别严重)
      - 对象是否被认为是离群点可能依赖于簇的个数(如K很大时的噪声簇).该问题特别严重的答案.一种策略是对于不一样的簇个数重复该分析.另外一种方法是找出大量的小簇,其方法以下:
        
        较小的簇倾向于更加凝聚;
        
        若是存在大量小簇时,一个对象时离群点,则它多半时一个真正的离群点
        
        不利的一面时一组离群点可能造成小簇,从而逃避检测.