大数据学习笔记整理之MapReduce工作原理

MapReduce主要分为三个阶段,Map阶段,Shuffle阶段,Reduce阶段。 Map阶段: 将输入的多个分片(Split)有Map任务以完全并行方式进行处理。一个分片对应一个map任务,在默认的情况下,分片的大小与HDFS中数据块(Block)大小一致,可以通过调整HDFS中block的大小来控制map的任务数量。 每个Map任务对输入分片中的数据按照一定的规则解析成多个KV键值对,默认
相关文章
相关标签/搜索