Hadoop/Spark的shuffle面试题集合(一)

因为shuffle阶段涉及磁盘的读写和网络IO,所以shuffle性能的高低直接影响整个程序的性能和吞吐量。 【注:毕竟有些东西我没有实际应用、经历,因此文中不免有错,还请各路大神多多指正!】html 1. spark的shuffle 是什么?过程? 怎么调优? 在MapReduce过程当中须要将各个节点上的同一类数据聚集到一个节点进行计算。把这些分布在不一样节点的数据按照必定规则汇集到一块儿的过
相关文章
相关标签/搜索