python使用simhash实现文本类似性对比(全代码展现)

导入2篇文章,用结巴分词选出权重Top10的词语,转化成哈希编码,对比2篇文章的汉明距离,阈值设置为18,汉明距离小于等于18的为文本类似,反之不类似。另外,有没有大神帮忙回复下怎么写一个导入2篇文章的接口,谢谢。 import re import codecs import jieba import jieba.analyse import numpy as np fr1 = 'C:/User
相关文章
相关标签/搜索