Spark架构及原理

开发角度 原则一:避免建立重复的RDD 原则二:尽量用同一个RDD 原则三:对屡次使用的RDD进行持久化 如何选择一种最合适的持久化策略 MEMORY_ONLY MEMORY_ONLY_SER MEMORY_AND_DISK_SER 不考虑:DISK_ONLY和_2后缀 原则四:尽可能避免使用shuffle类算子 能不用就不用 能不能用非shuffle类的算子去替代非shuffle类的join -
相关文章
相关标签/搜索