k-means优化 & k-means距离的选择 &k-medoids对比

一、k-means:在大数据的条件下,会耗费大量的时间和内存。 优化k-means的建议: 1、减少聚类的数目K。因为,每个样本都要跟类中心计算距离。 2、减少样本的特征维度。比如说,通过PCA等进行降维。 3、考察其他的聚类算法,通过选取toy数据,去测试不同聚类算法的性能。 4、hadoop集群,K-means算法是很容易进行并行计算的。 二、K-means距离的定义: 目前各种机器学习开源库
相关文章
相关标签/搜索