MapReduce的运行原理

MapReduce的执行步骤: 每个Map上创建一个split数据,默认和block大小相同,每一个split都会由一个map task进行处理,从block中读取出每一行的数据会变成一个个的键值对<K,V>。 接下来,读取出来的数据都会进入内存缓冲区,在进入缓冲区之前,每一条数据都会被打上标签,这个过程叫做分区,由分区器来完成,默认的分区器是HashPartitioner,然后数据就会被读取到缓
相关文章
相关标签/搜索