【论文阅读】Binary Multi-View Clustering

时间 2020-05-19

标签论文阅读 binary multi view clustering 繁體版

原文原文链接

文章地址：https://ieeexplore.ieee.org/document/8387526算法

出自：IEEE Trans. on Pattern Analysis and Machine Intelligence, 2018.iview

本文是对《Binary Multi-View Clustering》一文的我的理解总结，详细内容敬请阅读原文。函数

1、主要解决的问题性能

一、多视角的大尺度的数据集聚类性能表现欠佳；学习

二、实值聚类消耗较大的内存资源和计算资源；优化

二、编码和聚类是独立的，不能相互做用。this

2、创新点编码

一、BMVC是第一个使用二进制编码技术解决大规模多视图聚类问题的方法，BMVC同时从多个视图和联合优化二进制编码和聚类。设计

二、提出了一种交替优化算法用于解决离散的优化问题，。针对二值聚类中心学习的关键子问题，还提出了一种自适应离散近似线性方法(ADPLM)。3d

三、BMVC具备较好的聚类性能，还明显更少的计算时间和内存开销，内存和时间上快的不止一点，这一点真的很好。

3、文章概要：

文章是编码的多视角聚类问题。首先说明什么是多视角和如何编码，而后从哈希编码联合聚类模型、优化以及实验分析三个方面简述文章主要思想和实验设计。

所谓多视角，引用原文：1. Different to single-view clustering using singular data descriptor, in this paper, we first describe each data point (e.g., an image) by various features (e.g., different image descriptors, such as HOG, Color Histogram and GIST) and then feed these features from multiple descriptors into our clustering. It is noteworthy that the “Multiview” in our paper indicates multiple image descriptors of features rather than multiple modalities. 简单来讲：本文多视角就是多种特征。

一、哈希编码

为何要进行编码呢？

第一，针对实值聚类须要较大的内存资源，尤为是谱聚类方法，对较大尺度的图像数据集须要占用很大的内存，编码可以对数据特征进行降维处理，尽量的保留了样本的自身特征。第2、计算机可以更容易处理编码数据，下降计算复杂度。

如何编码：对于任意一个视角（一种特征），n为数据集中图像的数目，m是选取的锚点数。具体或称以下图。

怎么样让编码更好的体现特征，设计了以下代价函数：

但愿多视角学习获得的 M 个哈希矢量与二值编码B 可以类似，最小化编码和哈希矢量的L2范式；
但愿获得的投影转换矩阵约简单越好，最小化U的L2范式；
但愿数据点的二值码分布均衡，最大化其方差；
不一样视角扮演的份量不一样，不一样视角优化不一样权重。

二、哈希编码联合聚类模型

聚类模型使用的是矩阵分解的方法，但愿每一个编码b能够用一个聚类中心C和指示向量g（权重）的乘积来表示，但愿分解的偏差最小。方法化较为常见，话很少说代价函数详见下式：

文章的一个主要创新点体现再此，做者将编码和聚类同时进行优化，将二者目标方程结合在一块儿，在学习过程当中，相对于pipeline的方法更能将编码和聚类相互做用体现出来。因而总的代价函数：

三、优化

面对如此复杂的代价函数（涉及到离散约束条件的np hard问题），如何进行优化训练？

做者，使用了一个交替优化策略，即更新某个变量时，固定其它变量不变的循环更新方法。

更新U ,固定其它量不变，总代价函数变为：

可见该项不含约束项，直接求导，令其倒数为0，获得此时最优U；

其中，

更新B , 总代价函数变为：

包含有离散约束量，怎么办呢，先化简看看啦：

化简到此，是否是有种“柳暗花明又一村“的感受，第一项是常数，由于B转置和B之间的项是一常数乘以单位阵，又因B转置乘以B为常数，故第一项为常数。因而就变为求第二项的最小值，前面有（-）符号，使得B转置乘以一项的值最大，这一项就为B。由于B为编码，因此取符号操做，B为：

找出每一个b到任何聚类中心的hamming距离，最近的给权值g为1，其它置为0。

四、实验分析

做者在Caltech101, NUS-WIDE-Obj, Cifar-10, Sun-397 YouTube Faces 实验验证。

以Caltech101为例，精度上对好比图，在多view上做者算法是最高的，而且提高幅度较大。

效率上的对比，做者算法相对于K-means时间上提高了60倍的速度，是否是至关惊人！

内存资源占用对比，内存下降近1500倍，是否是更加惊人！

有人可能会有疑问，为何编码后聚类性能可以提高？？来看编码后的特征分布，以下两图，相同簇用同种颜色表示，编码后的特征簇间分布更加分散，簇内分布更加紧密，这就更容易对其进行聚类。以致于效果可以提高。

参数灵敏度分析：

手动调整参数较多，做者实验分析了这些参数对性能的影响，好在模型对这些参数不敏感。参数在必定大范围内可以保持稳定的聚类性能！

4、总结

Contributions：

1. 提出了一种可以下降计算复杂度和内存开销的多视角聚类算法；

2. 提供了一种编码和聚类同时优化的思想；

Limitations：

1. 文章中所提，手动调整参数太多（源于太多的约束项）。

若有不足，肯请指出。

张亚超

2018年10月22日