优势:算法
(1)聚类速度快且可以有效处理噪声点和发现任意形状的空间聚类;.net
(2)与K-MEANS比较起来,不须要输入要划分的聚类个数;blog
(3)聚类簇的形状没有偏倚;内存
(4)能够在须要时输入过滤噪声的参数。get
缺点:原理
(1)当数据量增大时,要求较大的内存支持I/O消耗也很大;im
(2)当空间聚类的密度不均匀、聚类间距差相差很大时,聚类质量较差,由于这种状况下参数MinPts和Eps选取困难。数据
(3)算法聚类效果依赖与距离公式选取,实际应用中经常使用欧式距离,对于高维数据,存在“维数灾难”。img
参考co
DBSCAN参数
Eps——距离阈值,该聚类算法中把距离当作密度表达,距离如何计算也很重要。
MinPts——造成一个核心点所须要最小的直接可达点数,例如改参数设置为5,Eps设置为2,那么一个核心点(包含本身)造成的条件是该核心店距离阈值2之内至少有5个点。
待聚类点分为三类:
同一组直接可达点与可达点造成一个类簇,局外点造成噪声点