spark之shuffle

shuffle:groupByKey、reduceByKey、countByKey、部分join 遇到宽依赖就会产生shuffle,切分出新的stage。 数据倾斜:相同key的数据会分发到同一个task中执行。 调优:代码、资源、skew、shuffle shuffle的类型 hash:HashShuffleManager ( < spark1.2) sort:SortShuffleManage
相关文章
相关标签/搜索