simhash Java和Python版本的实现

绍下这个算法主要原理,为了便于理解尽可能不使用数学公式,分为这几步:html 一、分词,把须要判断文本分词造成这个文章的特征单词。最后造成去掉噪音词的单词序列并为每一个词加上权重,咱们假设权重分为5个级别(1~5)。好比:“ 美国“51区”雇员称内部有9架飞碟,曾看见灰色外星人 ” ==> 分词后为 “ 美国(4) 51区(5) 雇员(3) 称(1) 内部(2) 有(1) 9架(3) 飞碟(5)
相关文章
相关标签/搜索