系列文章:数据挖掘算法之决策树算法 html
k-means算法能够说是数据挖掘中十大经典算法之一了,属于无监督的学习。该算法由此衍生出了不少类k-means算法,好比k中心点等等,在数据挖掘领域,不少地方都会用到该算法,他可以把类似的一类很好的聚在一块儿。一类指的是,他们之间的类似度较高,计算类似度的经常使用度量有欧氏距离、余弦定理等。本算法采用的是欧式距离度量。这个对理解k-means算法不会形成任何实质性的影响。ios
为了更好的说明k-means算法是把属于一类的对象聚成一个簇的,下面贴两张图,一张是100个数据对象是,K=2的状况【图1】。算法
另一张是1000个数据对象,k=3的状况,但愿你们看完图可以加深对K-means算法的理解。数据结构
[图1 objectNum=100 k=2] dom
[图2 objectNum=1000 k=3]学习
k-means算法的中心思想其实就是迭代,经过不断的迭代,使聚类效果达到局部最优,为何咱们说局部最优呢?由于K-means算法的效果的优劣性和最初选取的中心点是有莫大关系的,咱们只能在初始中心点的基础上达到局部最优解。spa
k-means算法的过程以下:3d
#include<iostream> #include<fstream> #include<vector> #include<random> #include<time.h> #include<string.h>
using namespace std; const int maxNum=0x1<<30; const int repeatMax=100;//控制迭代的上限,这里主要从效率的角度来考虑。通常来讲迭代50--100次就能达到很好的效果
const int AttributeCount=2;//数据属性维度.
const int ClusterK=8;//聚成的簇的数量
typedef double AttributeType; struct Object{//数据项的数据结构
AttributeType attribute[AttributeCount]; }; vector<Object> allObj;//保存全部的数据
Object cluster[1000][ClusterK];//各个簇的数据项,这里假定每一个簇的最大量为1000了,能够写成vector的数据结构,
Object oldcenter[ClusterK];//旧的各个中心点
int oldCluObjNum[ClusterK];//旧的各个簇有多少数据量
Object center[ClusterK];//对比旧的中心点
int CluObjNum[ClusterK];//对比旧的各簇的数据量
void getAllobject(ifstream &ifs);//加载全部数据
void kmeans(ifstream &ins);//算法
void produceData(string fileName,int maxNum,int objectNum);//随机产生数据,fileName文件名,maxNum数据的最大数,objectNum数据个数
int cloestCluster(Object obj);//返回当前数据项与哪一个簇最近
void initCenter();//初始化各中心点
void updateCluster(int cluK,Object obj);//更新簇结构
bool isChange();//判断迭代以后中心点是否改变,若没有改变能够迭代结束了,获得局部最优解
void copyCenter();//复制到旧的中
void computeCenter();//从新计算中心点
AttributeType Distance(Object obj,Object obj2);//计算两个点之间的距离
int main(){ //produceData("data2.txt",100,50);
ifstream ifs; ifs.open("data2.txt"); kmeans(ifs); ifs.close(); system("pause"); } void kmeans(ifstream &ins){ getAllobject(ins); initCenter(); for(int i=0;i<ClusterK;i++){ center[i]=allObj[i]; CluObjNum[i]=0; } int repeat=0; while(isChange()&&repeat<repeatMax){//一直迭代,直到中心点再也不改变,或者达到迭代的上限
copyCenter(); for(vector<Object>::iterator begin=allObj.begin();begin<allObj.end();begin++){ int closestK=cloestCluster(*begin); updateCluster(closestK,*begin); } computeCenter(); for(int i=0;i<ClusterK;i++){ cout<<"第"<<i<<"个簇,他们之间的中心点是:"; char file[]={'c','l','u','s','t','e','r',static_cast<char>(i+'0'),'.','t','x','t','\0'}; ofstream out; out.open(file,ifstream::trunc);//输入到各个簇的文件中保存
for(int l=0;l<AttributeCount;l++){ cout<<center[i].attribute[l]<<" "; } cout<<endl; for(int m=1;m<=CluObjNum[i];m++){ for(int j=0;j<AttributeCount;j++) out<<cluster[m][i].attribute[j]<<" "; out<<endl; } cout<<endl; out.close(); } cout<<endl; repeat++; } } void updateCluster(int cluK,Object obj){//把obj更新到cluK簇中,同时项增长1
cluster[CluObjNum[cluK]+1][cluK]=obj; CluObjNum[cluK]++; } void computeCenter(){ for(int i=0;i<ClusterK;i++){ for(int m=0;m<AttributeCount;m++){ double sum=0; for(int j=0;j<CluObjNum[i];j++){ sum+=cluster[j][i].attribute[m]; } center[i].attribute[m]=sum/CluObjNum[i]; } } } void copyCenter(){ for(int i=0;i<ClusterK;i++){ oldCluObjNum[i]=CluObjNum[i]; CluObjNum[i]=0; for(int j=0;j<AttributeCount;j++){ oldcenter[i].attribute[j]=center[i].attribute[j]; } } } void initCenter(){ Object obj; for(int i=0;i<AttributeCount;i++){ obj.attribute[i]=-1; } for(int i=0;i<ClusterK;i++){ oldcenter[i]=obj; } } int cloestCluster(Object obj){ AttributeType sq=maxNum,m=maxNum; int theCloest=0; for(int i=0;i<ClusterK;i++){ m=Distance(obj,center[i]); if(m<sq){ theCloest=i; sq=m; } } return theCloest; } AttributeType Distance(Object obj,Object obj2){ AttributeType dis=0; for(int i=0;i<AttributeCount;i++){ dis+=(obj.attribute[i]-obj2.attribute[i])*(obj.attribute[i]-obj2.attribute[i]); } return dis; } bool isChange(){ for(int i=0;i<ClusterK;i++){ for(int j=0;j<AttributeCount;j++) if(oldcenter[i].attribute[j]!=center[i].attribute[j]) return true; } return false; } void getAllobject(ifstream &ifs){ while(ifs){ Object obj; for(int i=0;i<AttributeCount;i++) ifs>>obj.attribute[i]; allObj.push_back(obj); } }
如下提供个人一个数据集运行的最终结果:code
版权全部,欢迎转载,可是转载请注明出处:潇一htm