大数据处理问题及解决方法

大数据,就是指种类多、流量大、容量大、价值高、处理和分析速度快的真实数据汇聚的产物。 通常会需要考虑存储空间是、效率等问题。解决大数据问题一般主要的思想: 1.文件切分,(将大文件切成若干个小文件进行处理), 2.哈希切分, 3.使用位图。 以下通过几个实例来进行进一步分析: 1、海量日志数据,提取出某日访问百度次数最多的那个IP。(或者:给一个超过100G的文件,文件中存放着iP地址,请找出其中
相关文章
相关标签/搜索