机器学习——KMeans

时间 2019-12-04

标签机器学习 kmeans 繁體版

原文原文链接

导入类库

1 from sklearn.cluster import KMeans
2 from sklearn.datasets import make_blobs
3 import numpy as np
4 import matplotlib.pyplot as plt

　　KMeans算法的过程：(假若有两类)

随机选择两个点做为聚类的中心
计算全部点距离两个中心的距离，选择距离较近的点做为类别。（例如：距离蓝点近，类别是蓝色）
计算已经分好类的各组数据的平均值，使用各组数据的平均值中心做为新的中心
以新的中心为依据跳转至第2步
直到收敛(两次迭代的数值没有明显的变化：新中心点距离上一次中心点的距离小于某个阈值，例如：0.03)

代码

 1 plt.figure(figsize=(6, 3))
 2 n_samples = 1500
 3 random_state = 170
 4 '''
 5 make_blobs聚类数据生成器：用来生成聚类算法的测试数据
 6 n_samples：待生成的样本的总数
 7 n_features：每一个样本的特征数
 8 centers：类别数
 9 cluster_std：每一个类别的方差，放在列表中
10 '''
11 X, y = make_blobs(n_samples=n_samples, random_state=random_state)
12 '''
13 KMeans是结果受初始值影响的局部最优的迭代算法
14 n_clusters：K值，类别数
15 max_iter：最大迭代次数，凸数据集可忽略该值，非凸数据集可能很难收敛，可指定最大迭代次数让算法能够及时推出循环
16 n_init：用不一样的初始化质心运行算法的次数，默认是10，K值较大时，可适当增大该值
17 init：初始值选择的方式，默认为k-means++
18 algorithm：auto、full、elkan；auto自动选择，数据值稀疏时选择full，数据稠密时选择elkan
19 '''
20 y_pred = KMeans(n_clusters=2, random_state=random_state).fit_predict(X)
21 
22 # print(X[:, 0])
23 # print(y)
24 # for i in y_pred:
25 #     print(i)
26 
27 # 根据颜色画出散点图
28 plt.subplot(121)
29 plt.scatter(X[:, 0], X[:, 1], c=y_pred)
30 plt.subplot(122)
31 plt.scatter(X[:, 0], X[:, 1], c=y)
32 plt.show()