文本相似度算法

因为舆情监测这边涉及到一些文本相似度的判断,实现把一类新闻的分类到同一个主新闻下。有点类似baidu相似新闻的搞法。所有抽时间看了些简单的文本相似度算法。 下面是之前看的莱文斯坦距离算法。大家可以bing一下理论,这里直接上code。 def levenshtein_distance(first, second): if len(first) == 0 or len(second) ==
相关文章
相关标签/搜索