TF-IDF文本去重学习(TF-IDF和simhash)

鉴于每次面试都会问这个,还是总结一下吧,毕竟没坏处 TF-IDF 我们是用tf-idf进行文本去重的,其实是用tf-idf将两篇文章的关键词提取处出来,然后比对两篇文章的关键词,大于某个阈值,则判定为两篇文章相似 TF为词频,算法为:这个词出现的次数 除以 这个文章的总词数 公式如下: IDF为逆文档频率,如果这个词在每篇文章中都有过,那么他的IDF就比较小,可以用它避免那些停用词的影响,算法为:
相关文章
相关标签/搜索