Spark Core 和 Spark SQL 实现分组取Top N(基于scala)

时间 2021-01-18

标签大数据 spark spark core spark sql 分组Top N 栏目 Spark 繁體版

原文原文链接

分组取Top N在日常需求中很多见：每个班级分数前三名同学的名字以及分数各省指标数量前三的市的名字等等需求，主要思想就是在某一个分区（班级，省）中取出该分区Top N的数据测试数据格式：如上图，字段含义为，班级，学生姓名，分数下面我们通过一个Demo来实现各班级分数前三的学生姓名以及分数 1、通过Spark core 实现： //读取测试数据保存为rdd val rddtext =

>>阅读原文<<