样本点中的关键度量指标:距离
TF-IDF矩阵
聚类算法
一、开始时每一个样本各自做为一类;
二、规定某种度量做为样本间距及类与类之间的距离,并计算;
三、将距离最短的两个类聚为一个新类;
四、重复2-3,不断汇集最近的两个类,每次减小一个类,直到全部样本被聚为一类;算法
一、选择K个点做为初始质心;
二、将每一个点指派到最近的质心,造成K个簇(聚类)
三、从新计算每一个簇的质心;
四、重复2-3直至质心基本不变,此时算法达到稳定状态;
须要屡次运行,而后比较各次运行结果,而后选取最优解,K值使用肘部法则进行肯定;markdown
类相互之间的距离的计算方法