【文本相似度计算】总结篇

先留位   文本相似度概念: Sim(A,B)=logP(common(A,B))/logP(description(A,B))  其中, common(A,B)是A和B的共性信息, description(A,B)是描述A和B的全部信息, 公式表达出相似度与文本共性成正相关。 文本相似度计算方法分类如下: 基于字符串的计算方法: 该方法从字符串匹配度出发, 以字符串共现和重复程度为相似度的衡量标
相关文章
相关标签/搜索