聚类距离方法Clustering, Distance Methods

时间 2020-12-30

原文原文链接

聚类分析的基本目标是发现项目items/变量variables的自然分组natural grouping方法。

接近程度closeness或者相似性similarity/proximity
Euclidean distance 欧氏距离
$x'=[x_{1},x_{2},...,x_{p}]\quad,\quad y'=[y_{1},y_{2},...,y_{p}]$

$d(x,y)=\sqrt{(x-y)'(x-y)}$
statistical distance 统计距离
$d(x,y)=\sqrt{(x-y)'S^{-1}(x-y)}$
Hierarchical Clustering Methods 分层聚类方法
--------------·Linkage Method 连接法
1)single linkage 单连接法

将每个对象看成是一个类，我们的聚类从合并两个最接近的项目开始：
$\min_{i,k}(d_{ik})=d_{53}=2$

对象5和3合并，形成聚类（35）。为确定下一个聚类水平，我们需要得到聚类（35）与其余对象1，2，4之间的距离，最近邻近点的距离为：
$d_{(35)1}=min{\{d_{31},d_{51}\}}=min{\{3,11\}}=3\\ d_{(35)2}=min{\{d_{32},d_{52}\}}=min{\{7,10\}}=7\\ d_{(35)4}=min{\{d_{34},d_{54}\}}=min{\{9,8\}}=8$

得到新的距离矩阵：

在这个距离阵中，各对聚类间最小距离为 $d_{(35)1}=3$ ，于是我们将聚类1与（35）合并在一起得到下一个聚类（135）
$d_{(135)2}=min{\{d_{(35)2},d_{12}\}}=min{\{7,9\}}=7\\ d_{(135)4}=min{\{d_{(35)4},d_{14}\}}=min{\{8,6\}}=6$
我们得到下一个聚类水平的距离矩阵：

各对聚类之间最小最近邻近点距离为 $d_{42}=5$ ，于是我们将对象4和2合并，得到聚类（24）。
现在我们有两个不同的聚类（135）和（24），它们的最近临近点距离为：
$d_{(135)(24)}=min{\{d_{(135)2},d_{(135)4}\}}=min{\{7,6\}}=6$

最终的距离阵变为：

于是将聚类（135）和（24）合并，形成一个包含全部5个对象的聚类（12345），此时最近邻近点距离为6。

2)complete linkage 完全连接法

依旧首先得到聚类（35），但是接下来距离的计算方式为：
$d_{(35)1}=max{\{d_{31},d_{51}\}}=mxa{\{3,11\}}=11\\ d_{(35)2}=max{\{d_{32},d_{52}\}}=max{\{7,10\}}=10\\ d_{(35)4}=max{\{d_{34},d_{54}\}}=max{\{9,8\}}=9$

于是距离阵修正为：

下一次合并发生在两个最相似的组2和4之间，得到一个新的聚类（24），距离的计算方式为：
$d_{(24)(35)}=max{\{d_{2(35)},d_{4(35)}\}}=max{\{10,9\}}=10\\ d_{(24)1}=max{\{d_{21},d_{41}\}}=9$

于是距离阵修正为：

下一次合并产生聚类（124）。
在最后阶段，将组（35）和（124）合并成一个聚类（12345），距离水平为：
$d_{(124)(35)}=max{\{d_{1(35)},d_{(24)(35)}\}}=11$
3）average linkage 平均连接法
我们仍从距离阵 $D=\{d_{ik}\}$ 中搜寻最接近/相似的对象开始，假定找到的是 $U、V$ ，将这两个对象合并得到 $（UV）$ ，聚类 $（UV）$ 和 $W$ 之间的距离由下式确定：
$d_{(UV),W}=\frac{\sum\limits_{i}\sum\limits_{k}d_{ik}}{N_{(UV)}N_{W}}$

其中 $d_{ik}$ 为聚类 $（UV）$ 中的第 $i$ 个对象与聚类 $W$ 中第 $k$ 个对象之间的距离， $N_{(UV)}$ 和 $N_{W}$ 分别为 $(UV)$ 和 $W$ 中成员的个数。

Ward’s Hierarchical Clustering Method沃德的分层聚类法
建立在“联合两个聚类时“信息损失”最小”的这一想法基础上。
信息损失表现为ESS有所增大。
首先，给定聚类 $k$ ，令 $ESS_{k}$ 为此聚类中每一个项目与类均值（中心点）的偏差平方和。若当前有 $K$ 个聚类，则定义 $ESS=ESS_{1}+ESS_{2}+...+ESS_{K}$ ，若某对聚类的合并使得 $ESS$ 增加最少（信息损失最少），则将这两个聚类合并。最初，每个聚类仅由一个项目组成，因而如果有N个项目，则 $ESS_{k}=0，k=1,2,3...,N$ ，故 $ESS=0$ ；而在另一极端，当所有的聚类合并成由N个项目组成的组，则ESS的值为：
$ESS=\sum\limits_{j=1}^{N}(x_{j}-\overline{x})'(x_{j}-\overline{x})$

其中 $x_{j}$ 为与第 $j$ 个项目相联系的多元测量值，而 $\,\overline{x}$ 则为总均值。

Nonhierarchical Clustering Methods: K-means Method
非分层聚类方法：K均值法

我们的目标是将这些项目分成 $K=2$ 个聚类，使每个聚类内部的项目之间的距离比分别属于不同聚类的项目之间的距离小。
为了实施 $K=2$ 均值法，我们将这些项目先随意分成两个聚类，如j=1∑N(xj−x)′(xj−x)

其中 $x_{j}$ 为与第 $j$ 个项目相联系的多元测量值，而 $\,\overline{x}$ 则为总均值。

Nonhierarchical Clustering Methods: K-means Method
非分层聚类方法：K均值法

我们的目标是将这些项目分成 $K=2$ 个聚类，使每个聚类内部的项目之间的距离比分别属于不同聚类的项目之间的距离小。
为了实施 $K=2$ 均值法，我们将这些项目先随意分成两个聚类，如 $(AB)$ 和 $(CD)$ ，然后计算这两个聚类中心（均值）的坐标 $(\overline{x}_{1},\overline{x}_{2})$ 。

考虑初始类 $(AB)$ 和 $(C D$ 为与第 $j$ 个项目相联系的多元测量值，而 $\,\overline{x}$ 为与第 $j$ 个项目相联系的多元测量值，而 $\,\overline{x}$ 则为总均值。

Nonhierarchical Clustering Methods: K-means Method
非分层聚类方法：K均值法

我们的目标是将这些项目分成 $K=2$ 个聚类，使每个聚类内部的项目之间的距离比分别属于不同聚类的项目之间的距离小。
为了实施 $K=2$ 均值法，我们将这些项目先随意分成两个聚类，如 $(AB)$ 和 $(CD)$ ，然后计算这两个聚类中心（均值）的坐标 $(\overline{x}_{1},\overline{x}_{2})$ 。

考虑初始类 $(AB)$ 和 $(CD)$ ，中心坐标分别是（2，2）和（-1，-2）。假如项目 $A$ 被移到组 $（CD）$ 中，则新的组为 $（B）$ 和 $（ACD）$ 为与第 $j$ 个项目相联系的多元测量值，而 $\,\overline{x}$

聚类 距离方法Clustering, Distance Methods

聚类距离方法Clustering, Distance Methods