基于Redis的Bloomfilter去重(附代码)

前言 “去重”是日常工作中会经常用到的一项技能,在爬虫领域更是常用,并且规模一般都比较大。去重需要考虑两个点:去重的数据量、去重速度。为了保持较快的去重速度,一般选择在内存中进行去重。 数据量不大时,可以直接放在内存里面进行去重,例如python可以使用set()进行去重。 当去重数据需要持久化时可以使用redis的set数据结构。 当数据量再大一点时,可以用不同的加密算法先将长字符串压缩成16/
相关文章
相关标签/搜索