文本相似度算法

时间 2020-12-21

原文原文链接

因为舆情监测这边涉及到一些文本相似度的判断，实现把一类新闻的分类到同一个主新闻下。有点类似baidu相似新闻的搞法。所有抽时间看了些简单的文本相似度算法。下面是之前看的莱文斯坦距离算法。大家可以bing一下理论，这里直接上code。 def levenshtein_distance(first, second): if len(first) == 0 or len(second) ==