凉了呀，面试官叫我设计一个排行榜。

时间 2021-03-03

标签前端面试 redis 算法 sql 数据库微信数据结构函数工具栏目快乐工作繁體版

原文原文链接

这是why哥的第89篇原创文章前端

前两天，有一个读者给我发了一张图片。面试

我问：发什么肾么事了？redis

因而有了这样的对话：算法

.png)sql

他发的图，就是微信运动步数排行榜的截图：数据库

其实扯了这么多，这就是个常见的面试场景题：如何设计一个排行榜？微信

这个题吧，其实就是考你面试准备范围的广度，见过就会答，没见过...就难说了。数据结构

固然，若是你在实际业务中作过排行榜，那么这题正中下怀，你也不要笑出声来，场景题面试官是会给你思考时间的。函数

因此你不要张口就来，你只须要眉头稍稍一皱，给面试官说：这题我想一想啊。工具

而后稍微组织一下语言，说出来就行。

此次的文章，就带着你们分析一下“排行榜”这个场景题，到底应该怎么作。

基于数据库

这个题，若是是真的以前没有碰见过，可能最容易进入你们视野的就是平时接触的最多的数据库了。

由于一想到“排行榜”，就想到了 order by。

一想了 order by，就想到了数据库。

一想到了数据库...

兄弟，你路就走窄了。

虽然我曾经就基于 MySQL 作过排行榜，由于当时是为了一个比赛临时搭建的服务，根本就没有引入 Redis。我评估了一下搭建 Redis 的时间和用 MySQL 直接开发的时间。

因而选择了 MySQL。

而让我选择 MySQL 的根本缘由仍是我已经知道进入决赛的队伍只有 10 支，也就是说个人排行榜表里面从始至终也只有 10 条数据。

选手提交代码以后，系统实时算分，而后更新排行榜表。

而后接口返回给前端页面下面这些数据，而下面这些数据都在一个表里面：

队伍按照历史最高分数排名

队伍名称

历史最高分数

最近一次提交得分

最近一次提交时间

前端每隔一分钟调用个人接口，相同分数，名次相同，因此我在接口里面用一条比较复杂的 sql 去查询数据库，上面的这些字段就都有了。

你看，排行榜确实是能够用 MySQL 来作的。

不必定非得上 Redis，记住一句话：脱离业务场景的方案设计，都是耍流氓。

可是这玩意和“万物皆对象”同样，别对着面试官说，这必定不是面试官想要听到的答案。

或者说，这只是想要听到的一部分回答。

这个回答能用的缘由是我给了一个具体的场景，用户量很是的小，怎么玩均可以。

甚至咱们不借助 MySQL 的排序，把数据查出来，在内存里面排序均可以。

可是若是，这是一个游戏排行榜，随着游戏玩家的增长，达到千万用户级别的话，这个方案确定是不行了。

固然，也许你会给我扯什么查询慢就加索引，数据量大就分库分表的方案。

怎么说呢，上面这句话是没有错的。

可是一旦数据量大起来了，这个方案其实就不是一个特别好的方案。

这问题，得从根上治理。

基于 Redis

这个场景其实就是在考察你对于 Redis 的 sorted set 数据结构的掌握。

sorted set，见名知意，就是有序集合的意思。

在 Redis 中它大概是长这样的：

前面的 sport:ranking:20210227 是 Redis 中的 key。

value 是一个集合，且能够看出这个集合是有序的。集合中的每个 member 都有一个 score，而后按照这个 score 进行降序排序。

须要注意的是，图片中的 score/member 不是我随便写的，官网上就是这样定义的：

https://redis.io/commands/zadd#sorted-sets-101

并且官网上说的是： score / member pairs。

因此我画图的时候，score 在前，member 在后。这可不是随便画的，虽然谁前谁后好像也不影响什么玩意。

另外一个须要注意的点是，虽然个人示意图中没有体现出来，可是在有序集合中，元素即 member 是不能够重复的，可是 score 是能够重复的。

这个很好理解，就好比 20210227 这一天的微信步数，我能够走 6666 步，你也能够走 6666 步，这个是不冲突：

可是，问题就随之而来了：当 member 的 score 同样的时候，member 是怎么排序的呢？

看一下来自官网的答案：

当多个元素具备相同的分数时，它们按照 lexicographically 进行排序。

哎呀，lexicographically 这个单词不认识。

不慌，你知道的 why哥还兼职教英文：

当分数同样的时候，按照字典序排序，因此上面的示意图 jay 在 why 以前。

接下来，看一下有序集合的操做函数，一共有 32 个：

我这里就不一个个的作 API 教学了，官网上已经写的很清楚了，若是对于不熟悉的命令，能够去官网上查看，都是有示例代码的。

https://redis.io/commands/zadd#sorted-sets-101

好比这个 ZADD 方法：

为了后面分享的顺利进行，我这里只讲几个须要用到的操做：

添加 member 命令格式：zadd key score member [score member ...]

增长 member 的 score 命令格式：zincrby key increment member

获取 member 排名命令格式：zrank/zrevrank key member

返回指定排名范围内的 member 命令格式：zrange/zrevrange key start end [withscores]

先看第一个：添加 member。

好比咱们把示意图中的数据添加到到有序集合里面去，语法是这样的：

zadd key score member [score member ...]

意思是能够一次添加一对或者多对 score-member，好比下面这两个命令：

zadd sport:ranking:20210227 10026 why

zadd sport:ranking:20210227 10158 mx 30169 les 48858 skr 66079 jay

执行以后，返回的数字表明添加成功的 member 个数。

我用专门操做 Redis 的 RDM 可视化工具来查看插入的数据，和我本身画的示意图相差无几：

接着看第二个：增长 member 的 score

微信运动排行榜的数据是实时更新的。

目前 member 为 why 的步数是 10268，假设我吃完晚饭出门跑步去了，又跑了 5000 步。

这时得更新个人步数，就用 zincrby 命令，语法是这样的：

zincrby key increment member

对应上面场景的执行命令是这样的：

zincrby sport:ranking:20210227 5000 why

执行完成后，会返回 why 的步数，能够看到从 10026 变成了 15026 ：

同时因为个人步数增长，按照 score 倒序，也致使了排序的变化：

因此咱们只须要更新 score 就好了，至于排名的变化，Redis 会帮忙保证的。

而后看第三个命令：获取 member 排名

语法是这样的：

获取 member 排名：zrank key member

获取 member 排名：zrevrank key member

首先，排名都是 0 开始计算的。

zrank 是按照分数从低到高返回 member 排名。

zrevrank 是按照分数从高到低返回 member 排名。

好比如今要获取 jay 的排名，用 zrank 返回结果就是 4。

zrank sport:ranking:20210227 jay

当用 zrevrank 时，jay 的排名就是 0：

zrevrank sport:ranking:20210227 jay

因此，在微信步数排行榜的这个需求中，步数越多排名越靠前，咱们应该用 zrevrank。

第四个须要掌握的命令是：返回指定排名范围内的 member。

zrange/zrevrange key start end [withscores] 返回指定排名范围内的 member

这个命令就很关键了。

zrange 是按照 score 从低到高返回指定排名范围内的 member。

zrevrange 是按照 score 从高到低返回指定排名范围内的 member。

在这里，我只演示 zrevrange 的命令。

好比我要获取步数排名前三的 member：

zrevrange sport:ranking:20210227 0 2

这个命令有个可选参数：withscores

当带上这个参数以后，会返回对应 member 的 score：

你想，这不就是排行榜 top N 的场景吗？

假设我如今要获取全部用户的排名，怎么写呢？

以下：

zrevrange sport:ranking:20210227 0 -1

这就是当前的微信步数排行榜，jay 步数最多，mx 步数最少。

咦，怎么回事，排行榜很久就出来了呢？

你想一想，讲完几个 API 操做，好像功能就实现了呢？

是的，确实是这样的，甚至咱们只须要这两个 API 就能完成排行榜的需求：

zadd key score member [score member ...] 添加 member

zrange/zrevrange key start end [withscores] 返回指定排名范围内的 member

好了，若是你们喜欢的话，感谢你们一键三连。本次的文章就到这里了...

那是不可能的。

索然无味的 API 文章多没有意思啊。

虽然前面的部分咱们已经能够基于 Redis 的有序集合加上几个简单的命令，就能够实现排行榜需求了。

可是前面只是铺垫，接下来，好戏才刚刚开始。

再次审视排行榜

上面的微信步数排行榜有个问题，你发现了吗？

就上面这个场景而言，全部人来看，看到的都是这样的排序：

而真实状况是，每一个人看见的数据排行数据来源本身的微信好友，而微信好友各不相同，因此看到的排行榜也各不相同。

这个特性，咱们并无体现出来。

咱们上面的场景更加相似于游戏排行榜，全部的人看到的全服排行榜都是同样的。

那么怎么保证咱们每一个人看到的各不相同呢？

你思考一下，该从什么角度去解决这个问题呢？

有序集合的 key 不一样，就获取到不一样的 value 集合。

咱们当前的 key 是 sport:ranking:20210227，里面只包含了某一天的信息。

只要咱们在 key 里面加上用户的属性就能够了，假设个人微信号是 why。

那么 key 能够设计为这样 sport:ranking:why:20210227。

这样，因为 key 里面多了用户信息，每一个人的 key 都各不相同，就像这样的：

对应的命令以下：

zadd sport:ranking:why:20210227 10026 why 10158 mx 30169 les 48858 skr 66079 jay

zadd sport:ranking:mx:20210227 7688 赵四 9688 刘能 10026 why 10158 mx 54367 大脚

why 和 mx 看到的都是各自好友某一天的微信步数排行榜。

只要把 key 设计好了，这个问题就迎刃而解了。

可是你仔细思考一下，真的就迎刃而解了吗？

这个问题，我在写初版的时候多是被猪油蒙蔽了双眼，没发现。

有种“只缘身在此山中”的味道，一心想着 Redis 了。

你想，若是每一个用户都有在redis有一个本身的排行榜，一个用户的分数更新的时候就须要对全部好友的zset更新，这多大的代价啊，对吧？

当以用户为纬度作排行榜的时候，就会出现排行榜巨多的状况，致使维护成本升高。

Redis能作，但不是最佳方案。

那么用什么方案去作呢？

我提个思路吧：

每一个用户看到的排行榜不同，咱们其实不用时时刻刻帮用户维护好排行榜。

维护好了，用户还不必定来看，出力不讨好的节奏。

因此还不如延迟到用户请求的阶段。

当用户请求查看排行榜的时候，再去根据用户的好友关系，循环获取好友的步数，生成排行榜。

具体方案，你们本身思考一下吧。

另外多说一嘴，前段时间不是微信支持了修改微信号吗，赢得一大片叫好声。

其实我当时认真的想了一下，从技术上的实现来讲这个需求到底有多难。

我不知道有没有历史技术债务在里面。

可是就说当前这个场景，key 里面包含了微信号，注意是微信号，不是微信昵称。

由于在设计之初，产品打包票说：放心，微信号绝对全局惟一，一旦肯定，不可变动。

结果呢，如今要变化了。

产品屁颠屁颠的说：怎么实现我无论，这个需求用户呼吁很大，赶忙上线。

你说，对这些相似场景的冲击有多大？

其实冲击也不算特别大，一个字段的变化而已。

可是，微信 14 亿用户啊。

一个简单的需求，涉及到这个体量以后，就一句话：

量变引发质变。

好了，好了，扯远了。说回来。

当我把目光再次放到微信排行榜上的时候，我发现，其实我只是给了一个阉割版的排行榜。

是的，咱们如今能够获取到 why 的当前步数是 1680 步，当前排名是 814 名。

好比仍是沿用上面的例子，假设如今要获取个人微信好友 jay 的微信步数排行榜状况。

先获取 jay 的名次：

zrevrank sport:ranking:why:20210227 jay

名次为 0，程序里面能够对其进行加一操做。就是第一名了。

接着获取 jay 的今日步数：

zscore sport:ranking:why:20210227 jay

66079，步数也有了。

如今咱们知道了：why 的好友 jay 今日运动步数 66079 步，在 why 的微信好友中排第一名。

可是你仔细看，这上面我还漏了两个字段：

微信头像

朋友点赞个数

两个字段应该怎么放呢？

放数据库里面固然能够，可是咱们主要仍是说一下 Redis 的解决方案。

这个时候其实咱们想要存储的是 User 对象，对象里面有这几个字段：昵称、头像图片连接、点赞数、步数。

你说，这个用 Redis 的啥数据结构来存？

可不就得用 Hash 结构了吗。

Hash 结构一样涉及到 key 和 value，那么它们分别是什么呢？

key 就是咱们的有序集合的 key 后面再加上好友昵称，好比这样的：

对应的命令是这样的：

hmset sport:ranking:why:20210227:jay nickName jay headPhoto xxx likeNum 520 walkNum 66079

执行完成以后，在 RDM 里面看起来是这样的：

当后续有更多的赞的时候，须要调用更新命令更新 likeNum：

hincrby sport:ranking:why:20210227:jay likeNum 500

执行完成以后点赞数就会变成 1020：

这样，排行榜上的全部字段咱们都能获取到了，微信排行榜就说完了。

呃......

怎么感受仍是 API 教学呢？

不得劲，换个其余的。

最近七天排行榜怎么弄？

前面咱们说的都是每日排行榜。

假设面试官要求咱们提供一个最近七天、上一周、上一月、上个季度、这一年排行榜啥的，又该怎么搞呢？

其实这仍是在考察你对于 Redis 有序集合 API 的掌握程度。

也就是这个 API：

zinterstore/zunionstore destination numkeys key [key ...] [weights weight [weight ...]] [aggregate sum|min|max] 获取交集/并集

这个 API 看起来有点复杂，不要怕，一个个的讲：

zinterstore/zunionstore其实就是交集/并集

destination 将交集/并集的结果保存到这个键中

numkeys 须要作交集/并集的集合的个数

key [key ...] 具体参与交集/并集的集合

weights weight [weight ...] 每一个参与计算的集合的权重。在作交集/并集计算时，每一个集合中的 member 会把本身的 score 乘以这个权重，默认为 1。

aggregate sum|min|max 对于各个集合中的相同元素是 sum(求和)、min(取最小值)仍是max(取最大值)，默认为 sum。

拿最近七天举例，咱们随便搞点数据进来，你能够直接粘过去玩：

zadd sport:ranking:why:20210222 43243 why 2341 mx 8764 les 42321 skr

zadd sport:ranking:why:20210223 57632 why 24354 mx 4231 les 43512 skr 5341 jay

zadd sport:ranking:why:20210224 10026 why 12344 mx 54312 les 34531 skr 43512 jay

zadd sport:ranking:why:20210225 54312 why 32451 mx 23412 les 21341 skr 56321 jay

zadd sport:ranking:why:20210226 3212 why 63421 mx 53652 les 45621 skr 5723 jay

zadd sport:ranking:why:20210227 5462 why 10158 mx 30169 les 48858 skr 66079 jay

zadd sport:ranking:why:20210228 43553 why 4451 mx 7431 les 9563 skr 8232 jay

能够看到咱们一共有 7 天的数据：

并且须要注意的是 20210222 这一天是没有 jay 的数据的。

如今咱们要求出最近 7 天的排行榜，就用下面这行命令，命令有点复杂，可是对着命令格式看，仍是很清晰的：

zunionstore sport:ranking:why:last_seven_day 7 sport:ranking:why:20210222 sport:ranking:why:20210223 sport:ranking:why:20210224 sport:ranking:why:20210225 sport:ranking:why:20210226 sport:ranking:why:20210227 sport:ranking:why:20210228 weights 1 1 1 1 1 1 1 aggregate sum

这条命令后面的 weights 和 aggregate 都是能够不用写的，有默认值，我这里为了避免隐藏数据，都写了出来。

执行完成后，能够看到多了一个 key，里面放的就是最近 7 天的数据汇总：

上面用的是并集，若是咱们的要求是对最近 7 天，天天都上传运动数据的人进行排序，就用交集来算。

命令和上面的一致，只是把 zunionstore 修改成 zinterstore 便可。

另外为了有对比，合并以后的队列名称也修改一下，命令以下：

zinterstore sport:ranking:why:last_seven_day_zinterstore 7 sport:ranking:why:20210222 sport:ranking:why:20210223 sport:ranking:why:20210224 sport:ranking:why:20210225 sport:ranking:why:20210226 sport:ranking:why:20210227 sport:ranking:why:20210228 weights 1 1 1 1 1 1 1 aggregate sum

从执行结果能够看出来，因为 jay 同窗在 20210222 这一天没有上传运动数据，因此取交集的时候没有他了：

知道最近 7 天的作法了，咱们又有每一天数据，上一周、上一月、上个季度、这一年排行榜啥的不都是这个套路吗？

呃......

怎么感受仍是 API 教学呢？

仍是不得劲，再换个其余的。

亿级用户排行榜

王者荣耀，妥妥的亿级用户吧。好比我想看看我在亿级用户中排多少名，因而我打开了游戏，二十多分钟（玩了一局）以后我终于找到排行榜的位置。

结果，未上榜：

我这个千年老夫子，固然是未上榜了。

就算真的有排名了，排名好几千万，8 位数字，在页面上也很差放呀。

可是假设如今的需求就是要查询用户的全服排名，怎么查？

我瞎说一个我能想到的基于 Redis 的第一版方案，注意是我瞎想的，实际作起来确定是异常复杂的方案。

我是怎么想的呢？

我就寻思，通常面试遇到什么千万条数据、几个 G 文件、上亿的数据啥的，首先想到的方案就是分而治之。

这个亿级用户排行榜的需求也得用分治的思想。

王者一共 8 个段位：

一、倔强青铜

二、秩序白银

三、荣耀黄金

四、尊贵铂金

五、永恒钻石

六、至尊星耀

七、最强王者

八、荣耀王者

因此咱们能够有 8 个桶。

这个桶能够是一个 Redis 里面的 8 个不一样的 key，甚至能够是 8 个 Redis 里面各一个 key，看面试官给你的经费是多少，钱多就可劲造。

以下图所示：

解释一下上面的图片中 score 为 8588 是怎么来的。

首先咱们用 Redis 的有序集合，那么咱们就得给每一个 member 一个 score。

因此，每一个用户在桶里面都一个通过公式计算后得出的积分。

好比why哥如今的段位就是星耀，假设计算出来的分数是 8588。

那么如今要算why哥在全服的排名就很好算了：

写程序的时候是能够知道我如今的段位是星耀，那么直接去星耀的桶里面，用 zrevrank 计算出当前桶里面的排名，假设为 n。

而后再经过 zcard 这个 O(1) 的命令获取到，前面的桶，也就是最强王者和荣耀王者这两个桶的集合大小，分别为 y 和 x。

那么why哥的全服排名就是 n+y+x。

因此获取任何一个用户的全服排名，就是看他在本身的桶里面的排名加上前面桶里面的元素个数便可。

并且如今要计算全服 top 100 就很容易了嘛。

直接取最前面的桶，也就是荣耀王者里面的前 100 个就完事了。

搞定。

等等，真的搞定了吗？

思路是对了，可是对于亿级用户只分 8 个桶未免太少了吧？

那就继续分桶呗，别忘了，每一个段位里面还有小段位的。

好比星耀，里面就有星耀五到星耀一五个小段位，青铜三到青铜一三个小段位。

所有算上就是 27 个桶。

可是，27 个桶也少。

那么星耀二到星耀一还须要五颗星、青铜三到青铜二要三颗星才行呢。

这样算下来，就是 160 个桶。

160 个桶仍是不够？

额。。。

推翻重来，直接把段位加上各类其余条件换算成积分，而后按照积分来拆分：

这样，想怎么拆分数段都行、拆多细都行。

完美。

等等，真的完美吗？

你看个人积分范围，都划分的很是的均匀。

按照段位拆分，有些菜鸡选手，打了两把以为没意思，骂骂咧咧的退出游戏，就一直留在了青铜段位。

因此青铜段位的选手确定是远大于荣耀王者的。

因此，实际状况下，用户的落点其实并非均匀的。

怎么办？

这个时候就须要进行数据分析，经过一系列的高数、几率、离散等知识去作个桶大小的预估。

啊，这玩意就超纲了啊。

那就告辞，收工。

技术以外的考虑

作一个排行榜好像是一个很简单的事情。

可是其实否则，特别是推荐类的排行榜，须要避免马太效应：

好比做者推荐榜单，被推荐到前面的做者，曝光度很高。即便输出质量降低，可是仍是很容易得到更多的关注。

位于榜单尾部的做者就很没有参与感。

因而两极分化就出现了，马太效应就来了。

对于这种状况怎么处理呢？

里面就涉及到一个复杂的计算公式了，好比掘金社区的掘力值，用于消息流推荐和做者榜单：

https://juejin.cn/book/6844733795329900551/section/6844733795380232206

因此千万不要错误的觉得排行榜是一个很是简单的需求，这里面涉及到一些很是复杂的算法。

最后说一句

感谢你们的阅读。

才疏学浅，不免会有纰漏，若是你发现了错误的地方，能够在后台提出来，我对其加以修改。