Spark—RDD(弹性分布式数据集-Rdsilient Distributed Dataset)编程

RDD编程 RDD基础 创建RDD RDD操作 转化操作(transformation) 行动操作(action) 惰性求值 向Spark传递函数 常见的转化操作和行动操作 基本RDD 持久化(缓存) RDD基础 RDD,分布式对象集合。每个RDD被分为多个分区,这些分区运行在集群的不同节点上。 创建RDD 从外部读取一个数据集。 lines = sc.textFile('file:///G:\s
相关文章
相关标签/搜索