Shuffle流程

它要规划一个任务,是不是就是规划下有多少个map,有多少个reduce任务,然后在那些机器上再去启动,所以它事先肯定先去规划,要规划它肯定就得去计算用多少个切片,其实在源码里面就可以看到它在哪里计算,拿了多少个切片。 map输出的数据到reduce之间,我们说框架做了很多的事,缓存,分组,排序,转发,这一部分细节其实是很重要的,这个叫作MapReduce里面的Shuffle机制。 1)这幅图是不是
相关文章
相关标签/搜索