《Spark快速大数据分析》笔记Ch4 键值对操做

  键值对 RDD 是 Spark 中许多操做所须要的常见数据类型。本章就来介绍如何操做键值对RDD。键值对 RDD 一般用来进行聚合计算。咱们通常要先经过一些初始 ETL(抽取、转化、装载)操做来将数据转化为键值对形式。   本章也会讨论用来让用户控制键值对 RDD 在各节点上分布状况的高级特性: 分区。有时,使用可控的分区方式把常被一块儿访问的数据放到同一个节点上, 能够大大减小应用的通讯开销
相关文章
相关标签/搜索