实例1：KMeans（含源码分析）

时间 2021-01-18

标签 kmeans spark 源码栏目 Spark 繁體版

原文原文链接

算法： 1. 选择k个簇中心，作为聚类中心。 2. 计算每个样本点到聚类中心的距离，将每个样品点分配到最近的聚类中心，形成k个簇。 3. 计算每个簇的平均值，并将这个平均值作为新的聚类中心。 4. 反复执行2、3步骤，直到旧质心和新质心的差异小于阈值或迭代次数达到要求为止。实例：在IDEA运行，如果是spark-shell命令行窗口，可使用:paste进入粘贴模式，注意spark-sh

>>阅读原文<<