Spark RDD经常使用算子学习笔记详解(python版)

官网连接: http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDDphp RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD能够简单当作是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不一样分区的数据就能够分布在不一样的机器上,同时能够被并行
相关文章
相关标签/搜索