url去重 --布隆过滤器 bloom filter原理及python实现

##常见URL过滤方法 ###1 直接查询比较 即假设要存储url A,在入库前首先查询url库中是否存在 A,若是存在,则url A 不入库,不然存入url库。这种方法准确性高,可是一旦数据量变大,占用的存储空间也变大,同时,因为要查库,数据一多,查询时间变长,存储效率降低。html ###2 基于hash的存储 对于给定的url,经过创建的hash函数,来得到对应的hash值,并将该值存入库中
相关文章
相关标签/搜索