Redis应用-HyperLogLog

时间 2019-11-08

原文原文链接

系列文章算法

Redis应用-分布式锁

Redis应用-异步消息队列与延时队列

Redis应用-位图

Redis应用-HyperLogLog

Redis应用-布隆过滤器

Redis应用-限流

Redis应用-Geo

若是你要统计网站的PV，你可使用Redis计数器就行了，每来一个请求，调用一次incrby便可。可是若是要统计UV就没那么简单呢，它须要去重，固然你确定想到了Redis中的去重的Set集合，当一个请求过来使用sadd添加用户ID,经过scard取出集合的大小。可是若是上千万的UV，使用集合来统计，就很是浪费空间了。而Redis提供的HyperLogLog数据结构正是来解决这类统计问题的，固然在数据量很大的状况下，他会有必定的偏差。微信

HyperLogLog算法是一种很是巧妙的近似统计海量去重元素数量的算法。它内部维护了 16384 个桶（bucket）来记录各自桶的元素数量。当一个元素到来时，它会散列到其中一个桶，以必定的几率影响这个桶的计数值。由于是几率算法，因此单个桶的计数值并不许确，可是将全部的桶计数值进行调合均值累加起来，结果就会很是接近真实的计数值。数据结构

具体的原理解析可参考探索HyperLogLog算法异步

使用方法

HyperLogLog 使用比较简单，主要提供提供了两个指令分布式

pfadd 增长计数
pfcount 获取计数

HyperLogLog还提供了第三个指令 pfmerge，用于将多个 pf 计数值累加在一块儿造成一个新的 pf 值。post

好比在网站中咱们有两个内容差很少的页面，运营须要将两个页面的数据进行合并。其中页面的 UV 访问量也须要合并，这时候就可使用pfmerge。网站

pf 的内存只有12k

HyperLogLog 实现中用到的是 16384 个桶，也就是 2^14，每一个桶的 maxbits 须要 6 个 bits 来存储，最大能够表示 maxbits=63，因而总共占用内存就是2^14 * 6 / 8 = 12k字节code

本文亦在微信公众号【小道资讯】发布，欢迎扫码关注！ cdn