常见的距离算法和类似度（相关系数）计算方法

时间 2019-11-12

标签常见的距离算法类似相关系数计算方法繁體版

原文原文链接

摘要：html

1.常见的距离算法java

1.1欧几里得距离（Euclidean Distance）以及欧式距离的标准化（Standardized Euclidean distance）git

1.2马哈拉诺比斯距离（Mahalanobis Distance）github

1.3曼哈顿距离（Manhattan Distance）算法

1.4切比雪夫距离（Chebyshev Distance）数组

1.5明可夫斯基距离（Minkowski Distance）机器学习

1.6海明距离（Hamming distance）ide

2.常见的类似度（系数）算法函数

2.1余弦类似度（Cosine Similarity）以及调整余弦类似度（Adjusted Cosine Similarity）post

2.2皮尔森相关系数（Pearson Correlation Coefficient）

2.3Jaccard类似系数（Jaccard Coefficient）

2.4Tanimoto系数（广义Jaccard类似系数）

2.5对数似然类似度/对数似然类似率

2.6互信息/信息增益，相对熵/KL散度

2.7信息检索--词频-逆文档频率（TF-IDF）

2.8词对类似度--点间互信息

3.距离算法与类似度算法的选择（对比）

内容：

1.常见的距离算法

1.1欧几里得距离（Euclidean Distance）

公式：

标准欧氏距离的思路：现将各个维度的数据进行标准化：标准化后的值 = ( 标准化前的值－份量的均值 ) /份量的标准差，而后计算欧式距离

欧式距离的标准化（Standardized Euclidean distance）

公式：

1.2马哈拉诺比斯距离（Mahalanobis Distance）

公式：

关系：若协方差矩阵是对角矩阵，公式变成了标准化欧氏距离；若是去掉马氏距离中的协方差矩阵，就退化为欧氏距离。欧式距离就比如一个参照值，它表征的是当全部类别等几率出现的状况下，类别之间的距离；当类别先验几率并不相等时，马氏距离中引入的协方差参数（表征的是点的稀密程度）来平衡两个类别的几率。

特色：量纲无关，排除变量之间的相关性的干扰。

扩展

1.3曼哈顿距离（Manhattan Distance）

公式：

定义：通俗来说，想象你在曼哈顿要从一个十字路口开车到另一个十字路口实际驾驶距离就是这个“曼哈顿距离”，此即曼哈顿距离名称的来源，同时，曼哈顿距离也称为城市街区距离(City Block distance)。

1.4切比雪夫距离（Chebyshev Distance）

公式：

1.5明可夫斯基距离（Minkowski Distance）

定义：

关系：明氏距离是欧氏距离的推广，是对多个距离度量公式的归纳性的表述。p=1退化为曼哈顿距离；p=2退化为欧氏距离；切比雪夫距离是明氏距离取极限的形式。这里明可夫斯基距离就是p-norm范数的通常化定义。

下图给出了一个Lp球（||X||p=1）的形状随着P的减小的可视化图：

参照：浅谈L0,L1,L2范数及其应用；机器学习中的范数与距离；浅谈压缩感知（十）：范数与稀疏性

1.6海明距离（Hamming distance）

定义：在信息论中，两个等长字符串之间的汉明距离是两个字符串对应位置的不一样字符的个数。

场景：在海量物品的类似度计算中可用simHash对物品压缩成字符串，而后使用海明距离计算物品间的距离

参考simHash 简介以及 java 实现；类似度计算经常使用方法综述；经过simHash判断数组内容相同（或者网页排重）的测试代码

2.常见的类似度（系数）算法

2.1余弦类似度（Cosine Similarity）

公式：

定义：两向量越类似，向量夹角越小，cosine绝对值越大；值为负，两向量负相关。

不足：只能分辨个体在维之间的差别，无法衡量每一个维数值的差别（好比用户对内容评分，5分制，X和Y两个用户对两个内容的评分分别为（1，2）和（4，5），使用余弦类似度得出的结果是0.98，二者极为类似，但从评分上看X彷佛不喜欢这2个内容，而Y比较喜欢，余弦类似度对数值的不敏感致使告终果的偏差，须要修正这种不合理性）

调整余弦类似度（Adjusted Cosine Similarity）

公式：，其中Here $\bar{R_{u}}$ is the average of the u-th user's ratings.

2.2皮尔森相关系数（Pearson Correlation Coefficient）

定义：两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商

　　　　扩展

2.3Jaccard类似系数（Jaccard Coefficient）

公式：，这里X,Y再也不是向量，而变成了集合

定义：Jaccard系数主要用于计算符号度量或布尔值度量的个体间的类似度，没法衡量差别具体值的大小，只能得到“是否相同”这个结果，因此Jaccard系数只关心个体间共同具备的特征是否一致这个问题。Jaccard系数等于样本集交集与样本集合集的比值。

计算：假设样本A和样本B是两个n维向量，并且全部维度的取值都是0或1。例如，A（0,1,1,0）和B（1,0,1,1）。咱们将样本当作一个集合，1表示集合包含该元素，0表示集合不包含该元素。

p：样本A与B都是1的维度的个数

q：样本A是1而B是0的维度的个数

r：样本A是0而B是1的维度的个数

s：样本A与B都是0的维度的个数

那么样本A与B的杰卡德类似系数能够表示为：

附：与Jaccard Coefficient相对应的是Jaccard 距离：d(X,Y) = 1 - Jaccard(X,Y);杰卡德距离用两个集合中不一样元素占全部元素的比例来衡量两个集合的区分度。(参考自余弦距离、欧氏距离和杰卡德类似性度量的对比分析)

2.4Tanimoto系数（广义Jaccard类似系数）

公式：

定义：广义Jaccard类似度，元素的取值能够是实数。又叫做谷本系数

关系：若是咱们的x,y都是二值向量，那么Tanimoto系数就等同Jaccard距离。

2.5对数似然类似率

对于事件A和事件B，咱们考虑两个事件发生的次数：

k11：事件A与事件B同时发生的次数
k12：B事件发生，A事件未发生
k21：A事件发生，B事件未发生
k22：事件A和事件B都未发生

　　　　
rowEntropy = entropy(k11, k12) + entropy(k21, k22)
columnEntropy = entropy(k11, k21) + entropy(k12, k22)
matrixEntropy = entropy(k11, k12, k21, k22)
2 * (matrixEntropy - rowEntropy - columnEntropy)

详情扩展

2.6互信息/信息增益，相对熵/KL散度

互信息/信息增益：信息论中两个随机变量的相关性程度

公式：

相对熵/KL散度：又叫交叉熵，用来衡量两个取值为正数的函数（几率分布）的类似性

公式：

扩展：知乎问答

2.7信息检索--词频-逆文档频率（TF-IDF）

《数学之美》中看到的TF-IDF算法，在网页查询（Query）中相关性以词频（TF）与逆文档频率（IDF）来度量查询词（key）和网页(page)的相关性；

网页中出现key越多，该page与查询结果越相关，可使用TF值来量化

每一个词的权重越高，也即一个词的信息量越大；好比“原子能”就比“应用”的预测能力强，可使用IDF值来量化，这里的IDF《数学之美》中说就是一个特定条件下关键词的几率分布的交叉熵。

2.8词对类似度--点间类似度

3.距离算法与类似度算法的选择（对比）

3.1 欧式距离和余弦类似度

欧几里得距离度量会受指标不一样单位刻度的影响，因此通常须要先进行标准化，同时距离越大，个体间差别越大

空间向量余弦夹角的类似度度量不会受指标刻度的影响，余弦值落于区间[-1,1]，值越大，差别越小

当两用户评分趋势一致时，可是评分值差距很大，余弦类似度倾向给出更优解。例如向量(3,3)和(5,5)，这两位用户的认知实际上是同样的，可是欧式距离给出的解显然没有余弦值合理。

余弦类似度衡量的是维度间相对层面的差别，欧氏度量衡量数值上差别的绝对值；一种长度与方向的度量所形成的不一样；余弦类似度只在［0，1］之间，而马氏距离在［0，无穷）之间（注：以上参考自知乎问题）

应用上若是要比较不一样人的消费能力，可使用欧式距离进行度量（价值度量）；若是想要比较不一样用户是否喜欢周杰伦，可使用余弦类似度（定性度量）