《Spark技术内幕》第七章Shuffle模块详解

Shuffle模块详解 Shuffle翻译成中文就是洗牌,之所以需要Shuffle,还是因为具有某种共同特征的一类数据需要最终汇聚(aggregate)到一个计算节点上进行计算。这些数据分布在各个存储节点上,并且由不同节点的计算单元处理。 一般来说,每个Task处理的数据可以完全载入内存(如果不能,可以减小每个Partition的大小),因此Task可以做到在内存中计算。 除非非常复杂的计算逻辑,
相关文章
相关标签/搜索