Spark快速大数据分析之RDD基础

RDD基础 Spark 中的RDD 就是一个不可变的分布式对象集合。每一个RDD 都被分为多个分区,这些分区运行在集群中的不一样节点上。RDD 能够包含Python、Java、Scala中任意类型的对象,甚至能够包含用户自定义的对象。 python 用户可使用两种方法建立RDD:读取一个外部数据集,或在驱动器程序里分发驱动器程序中的对象集合(好比list 和set)。web RDD支持两种类型的操
相关文章
相关标签/搜索