Hadoop整个MR的过程源码解析(三)-reduce端任务的执行

刚刚又从头至尾的看了一下reduce的源码,我的感受有几个重点,shuffle、sort、以及reduce,其中shuffle和sort阶段是并行发生的,当内存中的数据到达默认的内存峰值时,会自动触发文件的落地操做。相对于前两个阶段,reduce就更为直接,重要的东西由这几个,底层迭代器,封装的二次迭代器,nextKeyValue的方法,nextKeyIsSame的用处以及赋值。接下来仔细看代码h
相关文章
相关标签/搜索