Spark项目实战-实际项目中常见的优化点-算子调优之MapPartitions

首先咱们应该知道在Spark中,最基本的原则就是每一个task处理一个RDD的partition。在mapToPair算子里,partition中的数据以此传递到算子里进行处理。假设一个partition里有100条数据,那么就须要处理100次。可是mapPartitionsToPair算子是将partitions中全部的数据一次性处理,这就大大提高了新能。性能 1、MapPartitions操做
相关文章
相关标签/搜索