Pyspark- pairRDD

一.键值对RDD-pairRDD数据库 键值对RDD是Spark操做中最经常使用的RDD,它是不少程序的构成要素,由于他们提供了并行操做各个键或跨界点从新进行数据分组的操做接口。缓存 >>> lines=sc.textFile("file:///usr/local/spark/mycode/pairrdd/test.txt") >>> pairRDD =lines.flatMap(lambda l
相关文章
相关标签/搜索