spark 集群优化

前言 最近公司有一个生产的小集群,专门用于运行spark作业。但是偶尔会因为nn或dn压力过大而导致作业checkpoint操作失败进而导致spark 流任务失败。本篇记录从应用层面对spark作业进行优化,进而达到优化集群的作用。 集群使用情况 有数据的目录以及使用情况如下: 目录 说明 大小 文件数量 数据数量占比 数据大小占比 /user/root/.sparkStaging/applica
相关文章
相关标签/搜索