MapReduce端的二次排序以及对移动计算而不是移动数据的理解

时间 2019-12-12

标签 mapreduce 端的二次排序以及移动计算不是数据理解栏目 Hadoop 繁體版

原文原文链接

， 1.其实MapReduce的二次排序是咱们定义的sort排序会执行两遍，第一遍是在map端执行，针对一个map任务的(当partition以后的将数据写入到内存缓冲区的时候，达到内存缓冲区的80%的时候就会spill到disk,此时disk是做为硬盘缓存的，因此咱们的数据在硬盘上能够sort排序，并且在map执行完任务以后数据就不见了)，那么当程序执行到reduce以后，reduce端shuf

>>阅读原文<<