海量数据处理面试题

海量数据处理思路分析题 1.给一个超过100G大小的log file,log中存着ip地址,设计算法找到出现次数最多的ip地址? 解决方法:哈希切割topK。将100G的大文件分成1000份,根据同一个哈希函数HashFunc将ip映射到向对应的文件(每个文件的大小可以在内存中处理)中,相同的ip一定会被放在同一个文件中。然后处理每一个文件,找出出现次数最多的ip,每个文件中最大的value对应的
相关文章
相关标签/搜索