Spark core算子aggregateByKey实例

groupbykey、reducebykey以及aggregateByKey groupbykey是全局聚合算子,将全部map task中的数据都拉取到shuffle中将key相同的数据进行聚合,它存在不少弊端,例如:将大量的数据进行网络传输,浪费大量的资源,最重要的是若是数据量太大还会出现GC和OutOfMemoryError的错误,若是数据某个key的数据量远大于其余key的数据,在进行全局聚
相关文章
相关标签/搜索