面试题---大数据处理

1、给一个超过100G大小的log file ,log中存着IP地址,设计算法找到出现次数最多的IP地址? 我们先考虑一下,100G大小的文件,一般是无法存到普通的计算机中的,我们的硬盘根本没这么大; 我们可以使用前面讲的位图,一个整形32位,最多可以存42亿多的数据,100G的大文件,最多需要3.2G就可以放进去,但是却难以统计最多的IP地址。 为了解决上面的问题,我们可以把大文件放到小文件中,
相关文章
相关标签/搜索