python语言spark基础方法总结(Spark快速大数据分析)(下)

(4)二元组操做(key-value键值对操做)函数 开始:建立Pair RDD。就是(key,value)这样的二元组。测试 (以键值对集合[(1,2),(3,4),(3,6)]为例)spa reduceByKey():合并具备相同键的值。传入一个有两个形参的函数,处理过程:进入一条数据,根据key值hash()到一个分区内,分区内若是有其它或以前合并后的元素,调用函数处理两个元素的value值
相关文章
相关标签/搜索