揭秘Spark应用性能调优

引言:在多台机器上分布数据以及处理数据是Spark的核心能力,即咱们所说的大规模的数据集处理。为了充分利用Spark特性,应该考虑一些调优技术。本文每一小节都是关于调优技术的,并给出了如何实现调优的必要步骤。 本文选自《Spark GraphX实战》。算法 1 用缓存和持久化来加速 Spark   咱们知道Spark 能够经过 RDD 实现计算链的原理 :转换函数包含在 RDD 链中,但仅在调用
相关文章
相关标签/搜索