spark性能调优之核心参数调优-->spark大数据商业实战三部曲读书笔记

num-executors 该参数必定被设置, 为当前Application生产指定个数的Executors 实际生产环境分配80个左右的Executors
executor-memory 与JVM OOM紧密相关,不少时候甚至决定了spark运行的性能 实际生产环境下建议8GB左右 若运行在yarn上,内存占用量不超过yarn的内存资源的50%
excutor-cores 决定了在Executor中可以并行执行的Task的个数 实际生产环境建议4个左右 不超过yarn队列中Cores总数的50%
driver-memory 做为驱动,默认是1GB 生产环境通常设置4GB
spark.default.parallelism 建议至少设置100个,最好是700个左右
spark.storage.memoryFraction 默认占用60%,若是计算比较依赖于历史数据,则能够适当调高该参数,若是计算严重依赖于shuffle,则须要下降该比例
spark.shuffle.memoryFraction 默认占用20% 若是计算严重依赖于shuffle,则须要提升该比例
supervise 配置这个参数,当Driver运行在Cluster集群,若是出问题了,可自动从新启动性能

附上spa

原博客地址.net

相关文章
相关标签/搜索