聚类——密度聚类DBSCAN

Clustering 聚类

密度聚类——DBSCAN

  前面咱们已经介绍了两种聚类算法:k-means和谱聚类。今天,咱们来介绍一种基于密度的聚类算法——DBSCAN,它是最经典的密度聚类算法,是不少算法的基础,拥有不少聚类算法不具备的优点。今天,小编就带你理解密度聚类算法DBSCAN的实质。算法

 

DBSCAN

 

基础概念

    做为最经典的密度聚类算法,DBSCAN使用一组关于“邻域”概念的参数来描述样本分布的紧密程度,将具备足够密度的区域划分红簇,且能在有噪声的条件下发现任意形状的簇。在学习具体算法前,咱们先定义几个相关的概念:学习

  • 邻域:对于任意给定样本x和距离ε,x的ε邻域是指到x距离不超过ε的样本的集合;code

  • 核心对象:若样本x的ε邻域内至少包含minPts个样本,则x是一个核心对象;对象

  • 密度直达:若样本b在a的ε邻域内,且a是核心对象,则称样本b由样本x密度直达;blog

  • 密度可达:对于样本a,b,若是存在样例p1,p2,...,pn,其中,p1=a,pn=b,且序列中每个样本都与它的前一个样本密度直达,则称样本a与b密度可达;it

  • 密度相连:对于样本a和b,若存在样本k使得a与k密度可达,且k与b密度可达,则a与b密度相连。io

 

光看文字是否是绕晕了?下面咱们用一个图来简单表示上面的密度关系:
image.pngclass

当minPts=3时,虚线圈表示ε邻域,则从图中咱们能够观察到:基础

  • x1是核心对象;原理

  • x2由x1密度直达;

  • x3由x1密度可达;

  • x3与x4密度相连。

为何要定义这些看上去差很少又容易把人绕晕的概念呢?其实ε邻域使用(ε,minpts)这两个关键的参数来描述邻域样本分布的紧密程度,规定了在必定邻域阈值内样本的个数(这不就是密度嘛)。那有了这些概念,如何根据密度进行聚类呢?

DBSCAN聚类思想

  DBSCAN聚类的原理很简单:由密度可达关系导出最大密度相连的样本集合(聚类)。这样的一个集合中有一个或多个核心对象,若是只有一个核心对象,则簇中其余非核心对象都在这个核心对象的ε邻域内;若是是多个核心对象,那么任意一个核心对象的ε邻域内必定包含另外一个核心对象(不然没法密度可达)。这些核心对象以及包含在它ε邻域内的全部样本构成一个类。

  那么,如何找到这样一个样本集合呢?一开始任意选择一个没有被标记的核心对象,找到它的全部密度可达对象,即一个簇,这些核心对象以及它们ε邻域内的点被标记为同一个类;而后再找一个未标记过的核心对象,重复上边的步骤,直到全部核心对象都被标记为止。

  算法的思想很简单,可是咱们必须考虑一些细节问题才能产出一个好的聚类结果:

  • 首先对于一些不存在任何核心对象邻域内的点,再DBSCAN中咱们将其标记为离群点(异常);
  • 第二个是距离度量,如欧式距离,在咱们要肯定ε邻域内的点时,必需要计算样本点到全部点之间的距离,对于样本数较少的场景,还能够应付,若是数据量特别大,通常采用KD树或者球树来快速搜索最近邻,不熟悉这两种方法的同窗能够找相关文献看看,这里再也不赘述;
  • 第三个问题是若是存在样本到两个核心对象的距离都小于ε,但这两个核心对象不属于同一个类,那么该样本属于哪个类呢?通常DBSCAN采用先来后到的方法,样本将被标记成先聚成的类。

DBSCAN算法流程

image.png

DBSCAN算法小结

      以前咱们学过了kmeans算法,用户须要给出聚类的个数k,然而咱们每每对k的大小没法肯定。DBSCAN算法最大的优点就是无需给定聚类个数k,且可以发现任意形状的聚类,且在聚类过程当中能自动识别出离群点。那么,咱们在何时使用DBSCAN算法来聚类呢?通常来讲,若是数据集比较稠密且形状非凸,用密度聚类的方法效果要好一些。

DBSCAN算法优势:

  1. 不须要事先指定聚类个数,且能够发现任意形状的聚类;

  2. 对异常点不敏感,在聚类过程当中能自动识别出异常点;

  3. 聚类结果不依赖于节点的遍历顺序;

DBSCAN缺点:

  1. 对于密度不均匀,聚类间分布差别大的数据集,聚类质量变差;

  2. 样本集较大时,算法收敛时间较长;

  3. 调参较复杂,要同时考虑两个参数;

 

小结:

基于密度的聚类算法是广为使用的算法,特别是对于任意形状聚类以及存在异常点的场景。上面咱们也提到了DBSCAN算法的缺点,可是其实不少研究者已经在DBSCAN的基础上作出了改进,实现了多密度的聚类,针对海量数据的场景,提出了micro-cluster的结构来表征距离近的一小部分点,减小存储压力和计算压力...还有不少先进的密度聚类算法及其应用,相信看完这篇文章再去读相关的论文会比较轻松。

 

扫码关注

获取有趣的算法知识

qrcode_for_gh_32a933b66b99_258.jpg

相关文章
相关标签/搜索