文本相似度判定

简介 针对文本相似判定,本文提供余弦相似度和SimHash两种算法,并根据实际项目遇到的一些问题,给出相应的解决方法。经过实际测试表明:余弦相似度算法适合于短文本,而SimHash算法适合于长文本,并且能应用于大数据环境中。 余弦相似度 原理 余弦定理:                    图-1 余弦定理图示 性质: 余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越趋近于0°
相关文章
相关标签/搜索