关于常见大数据算法以及思考

给定a、b两个文件,每个文件中有海量的数据,内存不足,让你找出a、b文件共同数据? 思考: (1) 布隆过滤器: 在输入数据时就将a文件的所有的数据的hashcode映射到一个集合(这里假设是一个数组arr[max]),此时b文件每次读取一条数据就计算出它的hashcode,加入此时为i,去数组中查找arr[i],如果arr[i]存在,则表示a文件中也有这个数据。 缺点:如果两个数据的hashco
相关文章
相关标签/搜索