关于常见大数据算法以及思考

时间 2020-12-30

原文原文链接

给定a、b两个文件，每个文件中有海量的数据，内存不足，让你找出a、b文件共同数据? 思考：（1）布隆过滤器：在输入数据时就将a文件的所有的数据的hashcode映射到一个集合（这里假设是一个数组arr[max]），此时b文件每次读取一条数据就计算出它的hashcode，加入此时为i，去数组中查找arr[i],如果arr[i]存在，则表示a文件中也有这个数据。缺点：如果两个数据的hashco

>>阅读原文<<