大数据算法面试题

一、给定 a、b 两个文件,各存放 50 亿个 url,每一个 url 各占 64 字节,内存限制是 4G,让你找出 a、b 文件共同的 url? 1) 能够估计每一个文件安的大小为 50G×64=320G,远远大于内存限制的 4G。因此不可能将其彻底加载到内存中处理。考虑采起 分而治之 的方法。 2) 遍历文件 a,对每一个 url 求取 ,而后根据所取得的值将 url 分别存储到 1000 个
相关文章
相关标签/搜索