实时重复文章识别——SimHash

时间 2021-01-21

标签 simhash 繁體版

原文原文链接

一、背景介绍在前边的文章中，我们采用的是用google的Doc2Vec模型来识别重复文章的，从线上运行的效果来看，它的准确率是比较高的。当然，这是建立在把所有的文章都当做训练数据来训练Doc2Vec模型的基础上的，它推断出一篇文章的向量之后再去做相似计算的效果是不太好的。况且，训练模型的耗时是比较长的，因此，这种模型的适用性只适合于离线计算文章之间的相似，并不适合实时识别重复文章，由于我

>>阅读原文<<