大数据面试题-两个大文件中找出共同记录

1.题目描述 给定a、b两个文件,各存放50亿个url,每一个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?算法 2.思考过程 (1)首先咱们最常想到的方法是读取文件a,创建哈希表(为何要创建hash表?由于方便后面的查找),而后再读取文件b,遍历文件b中每一个url,对于每一个遍历,咱们都执行查找hash表的操做,若hash表中搜索到了,则说明两文件共有,存入一个集合。数据
相关文章
相关标签/搜索