面试题---大数据处理

时间 2021-01-19

原文原文链接

1、给一个超过100G大小的log file ，log中存着IP地址，设计算法找到出现次数最多的IP地址？我们先考虑一下，100G大小的文件，一般是无法存到普通的计算机中的，我们的硬盘根本没这么大；我们可以使用前面讲的位图，一个整形32位，最多可以存42亿多的数据，100G的大文件，最多需要3.2G就可以放进去，但是却难以统计最多的IP地址。为了解决上面的问题，我们可以把大文件放到小文件中，

>>阅读原文<<