RDD-Partitioner

概要 Spark RDD主要由Dependency、Partition、Partitioner组成,这篇介绍最后一部分Partitioner。Partition记录了数据split的逻辑,Dependency记录的是transformation操作过程中Partition的演化,Partitioner是shuffle过程中key重分区时的策略,即计算key决定k-v属于哪个分区。 Partitio
相关文章
相关标签/搜索
本站公众号
   欢迎关注本站公众号,获取更多信息