【Spark系列2】reduceByKey和groupByKey区别与用法

在spark中,咱们知道一切的操做都是基于RDD的。在使用中,RDD有一种很是特殊也是很是实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。html 针对pair RDD这样的特殊形式,spark中定义了许多方便的操做,今天主要介绍一下reduceByKey和groupByKey,由于在接下来说
相关文章
相关标签/搜索