spark的性能优化的方式

spark提供了两种序列化机制,Java的序列化和kryo序列化,使用kryo序列化占用更小的内存,可是kryo的缺点是:不是全部都能序列化,并且须要注册 优化数据结构,好比优先使用数组和字符串,而不是集合 对屡次使用的rdd进行持久化和checkpoint() Java虚拟机的垃圾回收机制的调优,主要是调节新生代和老年代的大小和比例,经过配置参数来进行调节 提升并行度 spark.default
相关文章
相关标签/搜索