大数据实战:基于Spark SQL统计分析函数求分组TopN

作大数据分析时,常常遇到求分组TopN的问题,如:求每一学科成绩前5的学生;求今日头条各个领域指数Top 30%的头条号等等。Spark SQL提供了四个排名相关的统计分析函数:函数 dense_rank() 返回分区内每一行的排名,排名是连续的。大数据 rank() 返回分区内每一行的排名,排名可能不连续。blog percent_rank() 返回相对百分比排名。数据分析 row_number
相关文章
相关标签/搜索