局部敏感哈希算法

私认为,文本的相似性可以分为两类:一类是机械相似性;一类是语义相似性。       机械相似性代表着,两个文本内容上的相关程度,比如“你好吗”和“你好”的相似性,纯粹代表着内容上字符是否完全共现,应用场景在:文章去重;       语义相似性代表着,两个文本语义上的相似程度,比如“苹果”和“公司”的相似性,本篇不做这一讨论,可参考笔者的另外一篇博客:  NLP︱句子级、词语级以及句子-词语之间相似
相关文章
相关标签/搜索