Spark的一些优化点

由于spark的计算都是基于内存的,他的瓶颈有:cpu,带宽(network bandwidth),memory。一般状况下,若是数据是在内存里面的,瓶颈就在带宽上面,你也能够作一些其余优化,如RDD序列化(减小内存的使用)。html Data Serialization数据序列化 序列化在咱们的分布式应用中扮演了一个很是重要的角色。 默认使用JAVA serialization,比较灵活可是比较
相关文章
相关标签/搜索