给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?

给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 两种方法: 一、采用Bloom filter,假设布隆过滤器的错误率为0.01,则位数组大小m约为输入元素个数n的13倍,此时需要的哈希函数k约为8个。 元素个数:n = 5G 位数组大小:m = 5G * 13 = 65G = 650亿 即需要650亿个bit位才能达到错误率0.0
相关文章
相关标签/搜索