欧式距离、余玄相似度、编辑距离、jaccard相似性区别与总结

在计算文本相似度的时候,通常有两个层面,一个是基于字面的相似度,一个是基于语义的相似度,基于文本语义匹配可参考博文文本语义匹配,这里不再赘述。在计算基于字面的文本相似性的时候,通常有欧氏距离、cosine余弦相似度、编辑距离、jaccard相似度等方式,下面一一介绍。 余弦相似度 余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,公式如下: 余弦距离
相关文章
相关标签/搜索