在数据挖掘中, k-Means 算法是一种 cluster analysis 的算法,其主要是来计算数据汇集的算法,主要经过不断地取离种子点最近均值的算法。算法
K-Means算法主要解决的问题以下图所示。咱们能够看到,在图的左边有一些点,咱们用肉眼能够看出来有四个点群,可是咱们怎么经过计算机程序找出这几个点群来呢?因而就出现了咱们的K-Means算法。spa
K-Means 算法概要ip
从上图中,咱们能够看到,A, B, C, D, E 是五个在图中点。而灰色的点是咱们的种子点,也就是咱们用来找点群的点。有两个种子点,因此K=2。get
而后,K-Means的算法以下:it
k-Means算法的缺点:数据挖掘
K 是事先给定的,这个 K 值的选定是很是难以估计的。不少时候,事先并不知道给定的数据集应该分红多少个类别才最合适。io
K-Means算法须要用初始随机种子点来搞,这个随机种子点过重要,不一样的随机种子点会有获得彻底不一样的结果。class