Spark Hash Shuffle笔记

一、Shuffle的含义 Hadoop中,Shuffle产生于Map和Reduce之间。 需要Shuffle的关键原因是某种具有共同特征的数据需要最终汇聚到一个计算节点上进行计算。 二、Shuffle操作可能面临的问题(运行Task时才会产生Shuffle操作): 数据量可能较大,不同节点间网络传输问题; 数据如何分类,即如何Partition:Hash、Sort、Spark钨丝计划; 负载均衡(
相关文章
相关标签/搜索