Spark RDD基础(一)

spark对数据的核心抽象—弹性分布式数据集(Resilient Distributed Dataset)即RDD,RDD是一个不可变的分布式对象集合,每一个RDD被分为多个分区。 在spark中,对数据的全部操做不外乎建立RDD,转化已有RDD以及调用RDD操做进行求值python RDD基础 #建立RDD lines=sc.textFile("README.md") #转化操做由一个RDD生成
相关文章
相关标签/搜索