[pyspark] 尽量用reduceByKey而不用groupByKey

  最近工作的时候写了一小段用python操作spark的代码,主要流程是先读取一个较大的数据表,然后根据部分字段分组,统计每组的行数。简而言之就是一个word count的工作。但是写的代码单机跑很慢,即使放到集群上在10个节点上跑也花了1小时。   代码给老大一看就发现写的不行。一个关键问题就是用在分组的时候用了groupByKey, 然后再count。老大推荐我用reduceByKey。改完
相关文章
相关标签/搜索