机器学习(周志华)读书笔记---第9章 聚类

9.1 聚类任务
9.1 聚类任务
聚类试图将数据集中的样本划分为若干个一般是不相交的子集
聚类既能做为一个单独的过程,用于寻找数据内在的分布结构,也可做为分类等其余学习任务的前驱过程。
基本思想:给定一个有N个对象的数据集,划分聚类技术将构造数据的K个划分,每个划分表明一个蔟,K小于等于n,对于给定的k,算法首先给出一个初始的划分方法,之后经过反复迭代的方法改变划分,使得每一次改进以后的划分方案都较前一次更好。web

9.2 性能度量(有效性指标)
若明确了最终将要使用的性能度量,则可直接将其做为聚类过程的优化目标,从而更好地获得符合要求地聚类结果。
咱们但愿蔟内类似度高,且蔟间类似度低
9.3 距离计算
这里写图片描述
这里写图片描述
常见聚类方法:
原型聚类、密度聚类、层次聚类
9.4 原型聚类
此类算法假设聚类结构能经过一组原型刻画,一般状况下,算法先对原型进行初始化,再对原型进行迭代更新求解。
9.4.1 k均值算法
最小化平方偏差(MSE)
这里写图片描述
对初值是敏感的
优缺点:
这里写图片描述
9.6 层次聚类方法
层次聚类方法对给定的数据集进行层次地分解,直到某种条件知足为止,具体又可分为:
自底向上的策略:AGNES算法
自顶向下的策略:DIANA算法
这里写图片描述
9.5 密度聚类
此类算法假设聚类结构能经过样本分布的紧密程度来肯定,一般状况下,密度聚类算法从样本密度的角度来考察样本之间的可连续性,并基于可连续样本不断扩展聚类蔟来得到最终的聚类结果。
DBSCAN
这里写图片描述
这里写图片描述
算法步骤
第一步:找出全部核心对象
第二步:从任一核心对象出发,找出其密度可达的对象,组成聚类蔟算法

密度最大值聚类
关键词:局部密度、高局部密度点距离、蔟中心、异常点
蔟中心的识别:选取有着比较大的局部密度和很大的高局部密度点距离的点
这里写图片描述svg