Spark 性能调优

由于大多数Spark计算的内存性质,Spark程序可能会受到群集中任何资源(CPU,网络带宽或内存)的瓶颈。通常,如果数据适合内存,则瓶颈是网络带宽,但是有时,您还需要进行一些调整,例如 以序列化形式存储RDD,以减少内存使用量。对于大多数程序,切换到Kryo序列化并以序列化形式保留数据将解决大多数常见的性能问题(官网提示)。 1. 常规性能调优 一:最优资源配置 Spark性能调优的第一步,就是
相关文章
相关标签/搜索