DBSCAN聚类算法 Python 代码

时间 2021-01-14

标签 python 算法数据库函数网站 spa .net 3d code blog 栏目 Python 繁體版

原文原文链接

1、前言python

2、DBSCAN聚类算法算法

3、参数选择数据库

4、DBSCAN算法迭代可视化展现函数

5、经常使用的评估方法：轮廓系数网站

6、用Python实现DBSCAN聚类算法spa

1、前言

去年学聚类算法的R语言的时候，有层次聚类、系统聚类、K-means聚类、K中心聚类，最后呢，被DBSCAN聚类算法迷上了，为何呢，首先它能够发现任何形状的簇，其次我认为它的理论也是比较简单易懂的。今年在python这门语言上我打算好好弄弄DBSCAN。下面贴上它的官方解释：.net

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具备噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法。该算法将具备足够密度的区域划分为簇，并在具备噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。3d

2、DBSCAN聚类算法

文字看不懂看下面这个图。下面这些点是分布在样本空间的众多样本，如今咱们的目标是把这些在样本空间中距离相近的聚成一类。咱们发现A点附近的点密度较大，红色的圆圈根据必定的规则在这里滚啊滚，最终收纳了A附近的5个点，标记为红色也就是定为同一个簇。其它没有被收纳的根据同样的规则成簇。（形象来讲，咱们能够认为这是系统在众多样本点中随机选中一个，围绕这个被选中的样本点画一个圆，规定这个圆的半径以及圆内最少包含的样本点，若是在指定半径内有足够多的样本点在内，那么这个圆圈的圆心就转移到这个内部样本点，继续去圈附近其它的样本点，相似传销同样，继续去发展下线。等到这个滚来滚去的圈发现所圈住的样本点数量少于预先指定的值，就中止了。那么咱们称最开始那个点为核心点，如A，停下来的那个点为边界点，如B、C，没得滚的那个点为离群点，如N）。code

基于密度这点有什么好处呢，咱们知道kmeans聚类算法只能处理球形的簇，也就是一个聚成实心的团（这是由于算法自己计算平均距离的局限）。但每每现实中还会有各类形状，好比下面两张图，环形和不规则形，这个时候，那些传统的聚类算法显然就悲剧了。因而就思考，样本密度大的成一类呗。呐这就是DBSCAN聚类算法。blog

3、参数选择

上面提到了红色圆圈滚啊滚的过程，这个过程就包括了DBSCAN算法的两个参数，这两个参数比较难指定，公认的指定方法简单说一下：

半径：半径是最难指定的，大了，圈住的就多了，簇的个数就少了；反之，簇的个数就多了，这对咱们最后的结果是有影响的。咱们这个时候K距离能够帮助咱们来设定半径r，也就是要找到突变点，好比：

以上虽然是一个可取的方式，可是有时候比较麻烦，大部分仍是都试一试进行观察，用k距离须要作大量实验来观察，很难一次性把这些值都选准。

MinPts:这个参数就是圈住的点的个数，也至关因而一个密度，通常这个值都是偏小一些，而后进行屡次尝试

4、DBSCAN算法迭代可视化展现

国外有一个特别有意思的网站：https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/

它能够把咱们DBSCAN的迭代过程动态图画出来

设置好参数，点击GO! 就开始聚类了！

直接跳到最后看一下DBSCAN的聚类结果，以下：

若是minPoints参数设置再大一点，那么这个笑脸可能会更好看。没有颜色标注的就是圈不到的样本点，也就是离群点，DBSCAN聚类算法在检测离群点的任务上也有较好的效果。若是是传统的Kmeans聚类，咱们也来看一下效果：

是否是好丑，这完美的体现出来DBSCAN算法基于密度聚类的优点了啊.

5、经常使用的评估方法：轮廓系数

这里提一下聚类算法中最经常使用的评估方法——轮廓系数（Silhouette Coefficient）：

计算样本i到同簇其它样本到平均距离ai。ai越小，说明样本i越应该被聚类到该簇（将ai称为样本i到簇内不类似度）。
计算样本i到其它某簇Cj的全部样本的平均距离bij，称为样本i与簇Cj的不类似度。定义为样本i的簇间不类似度：bi=min(bi1,bi2,...,bik2)

si接近1，则说明样本i聚类合理
si接近-1，则说明样本i更应该分类到另外的簇
若si近似为0，则说明样本i在两个簇的边界上

6、用Python实现DBSCAN聚类算法

import pandas as pd
# 导入数据
beer = pd.read_csv('data.txt', sep=' ')
print(beer)

输出结果：

from sklearn.cluster import DBSCAN
 
X = beer[["calories","sodium","alcohol","cost"]]
# 设置半径为10，最小样本量为2，建模
db = DBSCAN(eps=10, min_samples=2).fit(X)
 
labels = db.labels_ 
beer['cluster_db'] = labels  # 在数据集最后一列加上通过DBSCAN聚类后的结果
beer.sort_values('cluster_db')
 
# 注：cluster列是kmeans聚成3类的结果；cluster2列是kmeans聚类成2类的结果；scaled_cluster列是kmeans聚类成3类的结果（通过了数据标准化）

输出结果：

# 查看根据DBSCAN聚类后的分组统计结果（均值）
print(beer.groupby('cluster_db').mean())

# 画出在不一样两个指标下样本的分布状况
print(pd.scatter_matrix(X, c=colors[beer.cluster_db], figsize=(10,10), s=100))

# 咱们能够从上面这个图里观察聚类效果的好坏，可是当数据量很大，或者指标不少的时候，观察起来就会很是麻烦。
from sklearn import metrics  
# 就是下面这个函数能够计算轮廓系数（sklearn真是一个强大的包）
score = metrics.silhouette_score(X,beer.cluster_db) 
print(score)

来源： https://blog.csdn.net/huacha__/article/details/81094891