计算层优化之数据倾斜

在MapReduce执行的过程中,会把任务的原始数据分片到多个Task中执行。想象以下场景,当任务的多数Task都在短时间内完成,只有个别Task执行的时间特别长,从而拖慢了整个任务的执行速度,浪费了资源。表现形式就是任务进度卡在99%,这种现象就是数据倾斜。 MapReduce流程: ① 文件分片,一个分片交由一个map task执行 ② map task首先把数据从磁盘读入内存环形缓冲区,在缓
相关文章
相关标签/搜索