redis 实现搜索热词统计

时间 2020-06-08

标签 redis 实现搜索统计栏目 Redis 繁體版

原文原文链接

核心需求

一个项目中，遇到了搜索热词统计的需求，我使用了 Redis 的五大数据类型之一 Sorted Set 实现。目前有两项数据须要统计：“当日搜索热词 top10”和“当周搜索热词 top10”。html

关于这两项数据的统计方法，目前想到了两种实现方法：java

两个 Redis 的 Sorted Set 实现，一个 Sorted Set A 统计当天，0 点 top10 记录进 MySQL，Sorted Set 清零。一个 Sorted Set B 统计当周，每周日 top10 记录进 MySQL，Sorted Set B 清零。
只使用用一个 Sorted Set 记录当天搜索热词，0 点 top10 记录进 MySQL，Sorted Set 清零。到周日时，会有 7 * 10 行记录。把这 7 * 10 行遍历，每次便利都记录进 Sorted Set，所有遍历结束后，再从 Sorted Set 中取出 top10 记录进 MySQL 的周热词统计表中。

Sorted Set 是 Redis 的数据结构，方法 1 会占用两分内存，一份当天的，一份当周的。方法 2 会提升系统的复杂度，而且在统计周表时，可能会出现短期内大量的计算（固然可使用定时任务,把周表的统计放到凌晨进行）。redis

最后选择了方案1，分开维护清晰明了。数据结构

至于内存占用问题，1MB = 1048576 字节，按两个字节存一个字算，理论上1MB 能存 1048576/2/8 = 65,536 个不重复的搜索关键词（固然使用Sorted Set确定比纯字更多占用一些空间）。多投入一些内存，能存下的数量仍是很大的，一般能够撑到每周结束清理内存。通常的 CRUD 项目不用怎么考虑内存占用。app

问题中涉及的相关知识

一个项目中，遇到了搜索热词统计的需求。我使用了 Redis 的五大数据类型之一 Sorted Set 实现。ide

Redis 有序集合(sorted set)post

Redis 有序集合和集合同样也是 string 类型元素的集合，且不容许重复的成员。测试

不一样的是每一个元素都会关联一个 double 类型的分数。Redis 正是经过分数来为集合中的成员进行从小到大的排序。大数据

有序集合的成员是惟一的，但分数(score)却能够重复。集合是经过哈希表实现的，因此添加，删除，查找的复杂度都是 O(1)。集合中最大的成员数为 232 - 1 (4294967295, 每一个集合可存储 40 多亿个成员)。定义出自：菜鸟教程spa

如上图，Redis 的 Sorted Set 自带排序功能。

操做方法也比较简单，在本项目中，核心是两个方法：

zincrby，对于一个 Sorted Set，存在的就把分数加 x (x 可自行设定)，不存在就建立一个分数为 1 的成员。

zrevrange，查询Sorted Set中指定范围的值。返回的有序集合中，score 大的在前面。此方法无需担忧用于指定范围的start和end出现越界报错问题。

在StringRedisTemplate中，Sorted Set被称为ZSet。更多redis (java客户端) 的Soeted Set使用方法请见：Redis之ZSet数据结构使用姿式

代码

service示例代码：

@Service("redisService")
public class RedisServiceImpl implements RedisService {
    @Autowired
    private StringRedisTemplate redisTemplate;
    
    /** * 使用Sorted Set记录keyword * zincrby命令，对于一个Sorted Set，存在的就把分数加x(x可自行设定)，不存在就建立一个分数为1的成员 * * @param keyword 搜索关键词 */
    @Override
    public void searchZincrby(String keyword) {
        // 名为sortedSetName的Sorted Set不用预先建立，不存在会自动建立，存在则向里添加数据
        String sortedSetName = "searchHotWord";
        // x 的含义请见本方法的注释
        double x = 1.0;
        redisTemplate.opsForZSet().incrementScore(sortedSetName, keyword, x);
    }

    /** * zrevrange命令, 查询Sorted Set中指定范围的值 * 返回的有序集合中，score大的在前面 * zrevrange方法无需担忧用于指定范围的start和end出现越界报错问题 * * @param start 查询范围开始位置 * @param end 查询范围结束位置 * @return */
    @Override
    public Set<ZSetOperations.TypedTuple<String>> queryTopSearchHotWord(Integer start, Integer end) {
        String sortedSetName = "searchHotWord";
        Set<ZSetOperations.TypedTuple<String>> resultSet =  redisTemplate.opsForZSet().reverseRange(sortedSetName, start, end);
        return resultSet;
    }
}
复制代码

controller示例代码

@RestController
@RequestMapping("/redis")
public class RedisController {
    @Autowired
    private RedisService redisService;
    
    /** * 测试redis记录keyword * * @param keyword 搜索关键词 * @return */
    @GetMapping("/test_search")
    public ResultVO testSearch(@RequestParam("keyword") String keyword) {
        redisService.searchZincrby(keyword);
        // ResultVO和ResultVOUtil是自定义的class，为了方便展现结果，阅读时忽略便可
        return ResultVOUtil.success(1, "test-return");
    }

    /** * 测试redis查询指定范围的热词 * * @param start 查询范围开始位置 * @param end 查询范围结束位置 * @return */
    @GetMapping("/test_query_top_search_hot_word")
    public ResultVO testQueryTopSearchHotWord(@RequestParam("start") Integer start, @RequestParam("end") Integer end) {
        Set<ZSetOperations.TypedTuple<String>> resultSet =  redisService.queryTopSearchHotWord(start, end);
        // ResultVO和ResultVOUtil是自定义的class，为了方便展现结果，阅读时忽略便可
        return ResultVOUtil.success(1, "success", resultSet);
    }
}
复制代码

测试代码的运行效果

模拟搜索一些keyword:

使用rdm查看reids的存储状况，搜索热词已经存在redis一个名为searchHotWord的Sorted Set中:

查询结果：

One more thing

zrevrange方法无需担忧用于指定范围的 start 和 end 出现越界报错问题。

测试用的Sorted Set总共有8个数据，故意指定 start 和 end 在此长度范围以外：

经测试，在保证 start 和 end 均 >=0 的前提下，start 和 end 均无越界报错问题。