实际工做中的Spark程序优化

本篇博客要点以下:html 一.Spark编程优化java RDD复用web 避免建立重复的RDD 尽量复用RDD RDD持久化数据库 对常用的RDD进行持久化 选择合适的持久化策略 使用Kryo优化序列化性能apache 使用广播变量编程 合适的算子选择缓存 尽可能避免使用shuffle算子 在Map端进行预聚合 选用更高性能的算子 二.参数调优网络 Executor参数设置 Driver参数设
相关文章
相关标签/搜索