spark 基础(一)RDD

RDD resilient distributed dataset  弹性分布式数据集 在spark 中对数据的所有操作均可归类为:创建RDD,转化已有RDD,调用RDD操作求值。 每个RDD可以被分为多个分区,这些分区运行在集群的不同节点上,RDD可以包含python,scala,java等任意类型的对象。 创建RDD方法; 1 读取外部数据集 SparkContext.textFile 2 在
相关文章
相关标签/搜索