MapReduce端的二次排序以及对移动计算而不是移动数据的理解

, 1.其实MapReduce的二次排序是咱们定义的sort排序会执行两遍,第一遍是在map端执行,针对一个map任务的(当partition以后的将数据写入到内存缓冲区的时候,达到内存缓冲区的80%的时候就会spill到disk,此时disk是做为硬盘缓存的,因此咱们的数据在硬盘上能够sort排序,并且在map执行完任务以后数据就不见了),那么当程序执行到reduce以后,reduce端shuf
相关文章
相关标签/搜索