海量数据处理相关问题

海量数据处理相关问题 转载自: doocs/advanced-java 1. 如何从大量URL中找出相同的URL? 题目描述: 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。 总体思路: 分而治之,进行哈希取余。 对每个子文件进行HashSet统计。 解答思路: 由于内存只有4G,因此不可能一次性把所有ur
相关文章
相关标签/搜索