Hadoop学习笔记 --- 解析MapReduce运行原理

MapReduce是一种编程模型,用于大规模数据集的并行计算。MapReduce采用分而治之的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点完成,然后通过整合各个节点的中间结果,得到最终结果。简单的说MapReduce就是任务的分解与结果的汇总。   分层解析:   1.Split阶段,Map的输入数据源是多种多样的,我们使用hdfs作为数据源,数据在hdfs上以block(块,
相关文章
相关标签/搜索