海量数据问题分析

所谓的海量数据问题不是什么高大上的问题,其实就是当数据量大到我们普通计算机的内存不够用了。 下面借助几个问题来简单分析一下: 一. 给一个超过100G大小的日志文件, 日志中存着IP地址, 设计算法找到出现次数最多的IP地址? 如图所示: 1. 将日志文件中的 每一个 ip%1000,这样就能将100G的文件分成1000个小文件,每个文件大概在100M左右,这样我们普通电脑的内存就足够用了。 2.
相关文章
相关标签/搜索