大数据-MapRuduce

MapReduce是一种分布式编程框架,用于大规模数据集的并行运算。(可以说是一种编程方法,理论,思想,一种“分而治之”的策略) 下面用一种较为通俗的例子来引入这么一个概念及解释MapReduce的过程: 首先,我们有相当多的文本文档(可能有几千亿几万亿,反正很多),我们需要编程来统计词频,我们的一般方法是,写一个程序,把所有文件遍历一遍,可是,这也许需要花费相当长的时间。 那么,有没有更好的方法
相关文章
相关标签/搜索