Spark取TopN问题

数据处理中, 常常会遇到取TopN的问题. 在Spark中,取TopN有以下的方法:java 生成rdd 分布式 读取数据源的数据并转为rdd.code val rdd = sc.textFile() 分区ci 将rdd划分分区,分区的个数根据实际的数据量和计算集群机器的数量以及核心数肯定.rem val partitionedRDD = rdd.coalesce(partitions) kv变换
相关文章
相关标签/搜索