Spark官方调优文档翻译

Spark调优 因为大部分Spark计算都是在内存中完成的,因此Spark程序的瓶颈可能由集群中任意一种资源致使,如:CPU、网络带宽、或者内存等。最多见的状况是,数据能装进内存,而瓶颈是网络带宽;固然,有时候咱们也须要作一些优化调整来减小内存占用,例如将RDD以序列化格式保存(storing RDDs in serialized form)。本文将主要涵盖两个主题:1.数据序列化(这对于优化网络
相关文章
相关标签/搜索