【Spark】Spark Core 高级特性

一、Spark优化 (1)代码优化 1)若是一个RDD只使用一次,那么不赋值,直接转换操做,这叫作链式编程。 2)对于屡次使用的RDD,须要对rdd进行cache操做(使用完成后,须要释放)。 3)优先选择reduceByKey和aggregateByKey替代groupByKey,缘由是:groupByKey可能致使OOM异常,性能没有前两个API好(前两个API存在combiner操做)。 (
相关文章
相关标签/搜索