http://www.cnblogs.com/LBSer/p/4605904.htmlhtml
Kmeans算法是一种非监督聚类算法,因为原理简单而在业界被普遍使用,通常在实践中遇到聚类问题每每会优先使用Kmeans尝试一把看看结果。本人在工做中对Kmeans有过屡次实践,进行过用户行为聚类(MapReduce版本)、图像聚类(MPI版本)等。然而在实践中发现初始点选择与聚类结果密切相关,若是初始点选取不当,聚类结果将不好。为解决这一问题,本博文尝试将模拟退火这一启发式算法与Kmeans聚类相结合,实践代表这种方法具备较好效果,已经在实际工做中推广使用。算法
K-MEANS算法:输入:聚类个数k,以及包含 n个数据对象的数据。输出:知足方差最小标准的k个聚类。
处理流程:
(1) 从 n个数据对象选择 k 个对象做为初始聚类中心;
(2) 循环(3)到(4)直到每一个聚类再也不发生变化为止
(3) 根据每一个聚类对象的均值(中心对象),计算每一个对象与这些中心对象的距离;并根据最小距离从新对相应对象进行划分;
(4) 从新计算每一个(有变化)聚类的均值(中心对象)
K means的结果与初始点的选择密切相关,每每陷于局部最优。大数据
下面以一个实际例子来说初始点的选择对聚类结果的影响。首先3个中心点(分别是红绿蓝三点)被随机初始化,全部的数据点都尚未进行聚类,默认所有都标记为红色,以下图所示:spa
迭代最终结果以下:3d
若是初始点为以下:code
最终会收敛到这样的结果:htm
那怎么解决呢?通常在实际使用中,咱们会随机初始化多批初始中心点,而后对不一样批次的初始中心点进行聚类,运行完后选择一个相对较优的结果。这种方法不只不够自动,并且有较大几率得不到较优的结果。目前,研究较多的是将模拟退火、遗传算法等启发式算法与Kmeans聚类相结合,这样能大大下降陷于局部最优的困境。下图就是模拟退火的算法流程图。对象
“纸上得来终觉浅,绝知此事要躬行”,仅知道原理而不去实践永远不能深入掌握某一知识。本人实现了基于模拟退火的Kmeans算法以及普通的Kmeans算法,以便进行比较分析。blog
1)首先咱们随机生成二维数据点以便用于聚类。get
2)基于原生的Kmeans获得的结果。
3)基于模拟退火的Kmeans获得的结果
由上图的实验结果能够看出,基于模拟退火的Kmeans所得的整体偏差准则结果为:19309.9。
而普通的Kmeans所得的整体偏差准则结果为:23678.8。
能够看出基于模拟退火的Kmeans所得的结果较好,固然,此算法的复杂度较高,收敛所需的时间较长,尤为是在大数据环境下。