谱聚类(spectral clustering)及其实现详解

 

       谱聚类(spectral clustering)的思想最先能够追溯到一个古老的希腊传说,话说当时有一个公主,因为其父王去世后,长兄上位,想独揽大权,便杀害了她的丈夫,而为逃命,公主来到了一个部落,想与当地的酋长买一块地,因而将身上的金银财宝与酋长换了一块牛皮,且与酋长约定只要这块牛皮所占之地便可。聪明的酋长以为这买卖可行,因而乎便应了。却不知,公主把牛皮撕成一条条,沿着海岸线,足足围出了一个城市。 
       故事到这里就结束了,可是咱们要说的才刚刚开始,狄多公主圈地传说,是目前知道的最先涉及Isoperimetric problem(等周长问题)的,具体为如何在给定长度的线条下围出一个最大的面积,也可理解为,在给定面积下如何使用更短的线条,而这,也正是谱图聚类想法的端倪,如何在给定一张图,拿出“更短”的边来将其“更好”地切分。而这个“更短”的边,正是对应了spectral clustering中的极小化问题,“更好”地切分,则是对应了spectral clustering中的簇聚类效果。 
       谱聚类最先于1973年被提出,当时Donath 和 Hoffman第一次提出利用特征向量来解决谱聚类中的f向量选取问题,而同年,Fieder发现利用倒数第二小的特征向量,显然更加符合f向量的选取,同比之下,Fieder当时发表的东西更受你们承认,由于其很好地解决了谱聚类极小化问题里的NP-hard问题,这是不可估量的成就,虽而后来有研究发现,这种方法带来的偏差,也是没法估量的,下图是Fielder老爷子,于去年15年离世,缅怀。 
SC
 算法

2、谱聚类的演算

(一)、演算

 

一、谱聚类概览数据结构

       谱聚类演化于图论,后因为其表现出优秀的性能被普遍应用于聚类中,对比其余无监督聚类(如kmeans),spectral clustering的优势主要有如下:性能

1.过程对数据结构并无太多的假设要求,如kmeans则要求数据为凸集。
2.能够经过构造稀疏similarity graph,使得对于更大的数据集表现出明显优于其余算法的计算速度。
3.因为spectral clustering是对图切割处理,不会存在像kmesns聚类时将离散的小簇聚合在一块儿的状况。
4.无需像GMM同样对数据的几率分布作假设。

       一样,spectral clustering也有本身的缺点,主要存在于构图步骤,有以下:spa

1.对于选择不一样的similarity graph比较敏感(如 epsilon-neighborhood, k-nearest neighborhood,fully connected等)。
2.对于参数的选择也比较敏感(如 epsilon-neighborhood的epsilon,k-nearest neighborhood的k,fully connected的 )。

       谱聚类过程主要有两步,第一步是构图,将采样点数据构形成一张网图,表示为G(V,E),V表示图中的点,E表示点与点之间的边,以下图: 
              谱聚类构图 
                            图1 谱聚类构图(来源wiki) 
       第二步是切图,即将第一步构造出来的按照必定的切边准则,切分红不一样的图,而不一样的子图,即咱们对应的聚类结果,举例以下: 
              切图4 
                            图2 谱聚类切图 
       初看彷佛并不难,可是…,下面详细说明推导。 rest

相关文章
相关标签/搜索