『数据结构』海量数据处理

时间 2020-06-03

原文原文链接

本篇博客咱们经过几个经典的问题来看一下计算机中处理海量数据的经常使用方法。web 哈希切分问题：给定一个超过100G大小的日志文件，文件中保存着IP地址，设计算法找出出现次数最多的IP地址？如何找到出现次数topK的IP？如何直接用Linux命令实现？算法找到出现次数最多或者前K多的IP地址并不困难，直接使用优先级队列就能够解决该问题。这道题真正困难的是100G大小的日志文件，由于咱们经常使用

>>阅读原文<<