海量数据处理

当我们拿到一个题是海量数据问题,内存不能够同时处理,首先考虑特殊数据结构能否处理比如:位图和布隆过滤器。如果不能处理我们一般需要把大的文件哈西切割为几份,在分别处理。 哈希切割——top K问题  给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?如何找到top K的IP?如何直接用Linux系统命令实现?  我的思路:100G大小的文件,而且
相关文章
相关标签/搜索