Tuning Spark( 内存管理和数据序列化)

因为大多数spark计算的内存特性,spark程序可能会受到集群中任何资源的瓶颈:CPU、网络带宽或内存。大多数状况下,若是数据适合内存,瓶颈是网络带宽,但有时还须要进行一些调整,例如以序列化形式存储RDD,以减小内存使用。web 数据序列化 序列化在任何分布式应用程序的性能中起着重要的做用。 很慢的将对象序列化或消费大量字节的格式将会大大减慢计算速度。 这多是优化 Spark 应用程序的第一件事
相关文章
相关标签/搜索