spark性能优化指南

原则六:使用高性能的算子 除了shuffle相关的算子有优化原则以外,其余的算子也都有着相应的优化原则。web 使用reduceByKey/aggregateByKey替代groupByKey数据库 详情见“原则五:使用map-side预聚合的shuffle操做”。apache 使用mapPartitions替代普通map数组 mapPartitions类的算子,一次函数调用会处理一个partit
相关文章
相关标签/搜索