minHash最小哈希原理

时间 2019-12-10

标签 minhash 最小哈希原理繁體版

原文原文链接

前言

在数据挖掘中，一个最基本的问题就是比较两个集合的类似度。一般经过遍历这两个集合中的全部元素，统计这两个集合中相同元素的个数，来表示集合的类似度；这一步也能够当作特征向量间类似度的计算（欧氏距离，余弦类似度）。当这两个集合里的元素数量异常大（特征空间维数很大），同时又有不少个集合须要判断两两间的类似度时，传统方法会变得十分耗时，最小哈希（minHash）能够用来解决该问题。html

Jaccard类似度

在本例中，咱们仅探讨集合的类似度，先来看Jaccard类似度。假设有两个集合A，B，则算法

Jaccard(A, B)= |A ∩ B| / |A ∪ B|，咱们举一个例子：ruby

在上述例子中，sim(A,B)=2/7。函数

minHash最小哈希

假设如今有4个集合，分别为S1，S2，S3，S4；其中，S1={a,d}, S2={c}, S3={b,d,e}, S4={a,c,d}，因此全集U={a,b,c,d,e}。咱们能够构造以下0-1矩阵：工具

为了获得各集合的最小哈希值，首先对矩阵进行随机行打乱，则某集合（某一列）的最小哈希值就等于打乱后的这一列第一个值为1的行所在的行号。举一个例子：spa

定义一个最小哈希函数h，用于模拟对矩阵进行随机行打乱，打乱后的0-1矩阵为.net

如图所示，h(S1)=2, h(S2)=4, h(S3)=0, h(S4)=2。htm

在通过随机行打乱后，两个集合的最小哈希值相等的几率等于这两个集合的Jaccard类似度，证实以下：
blog

       现仅考虑集合S1和S2，那么这两列所在的行有下面3种类型：
       一、S1和S2的值都为1，记为X
       二、只有一个值为1，另外一个值为0，记为Y
       三、S1和S2的值都为0，记为Z索引

S1和S2交集的元素个数为x，并集的元素个数为x+y，因此sim(S1,S2) = Jaccard(S1,S2) = x/(x+y)。接下来计算h(S1)=h(S2)的几率，通过随机行打乱后，从上往下扫描，在碰到Y行以前碰到X行的几率为x/(x+y)，即h(S1)=h(S2)的几率为x/(x+y)。

最小哈希签名

那么，怎样获得P( h(S1)=h(S2) )呢？咱们仅须要进行N次哈希运算模拟N次随机行打乱，而后统计|h(S1)=h(S2)|，就有 P=|h(S1)=h(S2)| / N 了。有了上一章节的证实，咱们就能够经过屡次进行最小哈希运算，来构造新的特征向量，也就是完成了降维，获得的新矩阵称为最小哈希签名矩阵。举一个例子，假设进行2次最小哈希运算，h1(x)=(x+1) mod 5，h2(x) = (3*x+1) mod 5，能够获得签名矩阵SIG：

计算获得sim(S1,S4)=1，sim(S1,S3)=0.5。固然本例数据量过小，签名矩阵的估计值跟真实Jaccard偏差较大。

这里提供一种仅扫描一次就能够获得最小签名矩阵的算法：

       令SIG(i,c)表示签名矩阵中第i个哈希函数在第c列上的元素。开始时，将全部的SIG(i,c)初始化为Inf(无穷大)，而后对第r行进行以下处理：
1. 计算h1(r), h2(r)…hn(r)；
2. 对于每一列c：
       a) 若是c所在的第r行为0，则什么都不作；
       b) 若是c所在的第r行为1，则对于每一个i=1,2…n，将SIG(i,c)=min（SIG(i,c)，hi(r)）。

再看不懂的能够参考minHash(最小哈希)和LSH(局部敏感哈希)。

MinHash的应用

MinHash能够应用在推荐系统中，将上述0-1矩阵的横轴当作商品，竖轴当作用户，有成千上万的用户对有限的商品做出购买记录，具体能够参考基于协同过滤，NMF和Baseline的推荐算法一文。MinHash也能够应用在天然语言处理的文本聚类中，将上述0-1矩阵的横轴当作文档，竖轴当作词汇或n-gram。这里我提出一种基于依赖树的同义词聚类算法：

假设现有没有语法错误的文本集，咱们使用依赖树工具获得上图的边，先用TF-IDF逆文档频率过滤获得咱们想要聚类的词汇，而后用倒排索引创建相似ESA的词汇-概念向量，例如：

发展：nsubj(~，交通)，advmod(~，比较)，relcl(地方，~)，mark(~，的)

发达：nsubj(~，交通)，advmod(~，比较)，relcl(地方，~)，mark(~，的)

这样，就有待聚类的词汇有限，概念数量庞大的情形，应用minHash完成降维，再来聚类，具体能够参考从n-gram中文文本纠错，到依存树中文语法纠错以及同义词查找一文。

LSH局部敏感哈希

咱们获得签名矩阵后，对集合仍是须要进行两两比较，假如集合数量也极度庞大的话，咱们但愿仅比较那些类似度可能很高的集合，而直接忽略那些类似度很低的集合，LSH就能够用来解决该问题。

LSH用到“桶”的概念，直接举一个例子，现有一个12行的签名矩阵，咱们设置桶大小为3，则可分为4个桶，以下图：

对于S2，咱们仅须要寻找那些桶相同的集合来计算类似度，例如：

咱们仅须要计算sim(S2, S3)，sim(S2, S4)，sim(S2, S5)，由于这些集合出现过与S2桶相同的状况。再不懂能够看minHash(最小哈希)和LSH(局部敏感哈希)一文。

Reference

minHash(最小哈希)和LSH(局部敏感哈希)

MinHash (最小哈希)