快手HBase在千亿级用户特征数据分析中的应用与实践

声明:本文的原文是来自Hbase技术社区的一个PPT分享,我的作了整理和提炼。
你们注意哈,这种会议PPT类的东西能学习到的更多的是技术方案和他人在实践过程当中的经验。但愿对你们有帮助。面试

背景

快手天天产生数百亿用户特征数据,分析师须要在跨30-90天的数千亿特征数据中,任意选择多维度组合(如:城市=北京&性别=男),秒级分析用户行为。针对这一需求, 快手基于HBase自主研发了支持bitmap转化、存储、索引、快速计算的分析服务--BitBase,并成功应用于留存分析、用户增加、广告营销、ABTest 等多个业务场景。segmentfault

业务需求及挑战

快手在实际业务中遇到的需求,须要用的业务场景:在千亿级别的日志中,选择任意的维度,计算7-90日用户留存,秒级返回。架构

file

技术选型

为此,快手调研了包含Hive、ES、clickhouse在内的多种技术方案。学习

file

技术方案

最后造成了基于bitmap和Hbase的BitBase解决方案。大数据

file

对bitmap不熟悉的同窗看这里:https://www.jianshu.com/p/bf9...url

所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key便是该元素。因为采用了Bit为单位来存储数据,能够大大节省存储空间。

多维计算最后被设计成在bitmap之间作与、或、非、异或、count、list计算。spa

整个BitBase设计

总体架构:

file

存储模块:

file
这里全部table的原信息会存在一个bitmap中,具体数据存在不一样的bitmap中,bitmap的位数根据表数据量大小进行肯定。3d

计算模块:

file

deviceId问题

file

在实际问题中,复杂的deviceId会被转换成一个index(long)值。而且须要有如下特性:连续、一致、反解、转换速度快。日志

file

连续、一致、反解技术方案

file

如何实现快速转化

file

业务效果

在实践延迟方面,90天留存的时间也能够在10秒内返回。
file

服务现状:
file

将来规划

将来规划包括:

  • 离线bitmap可以在5min导入
  • SQL支持
  • 开源

file

声明:本号全部文章除特殊注明,都为原创,公众号读者拥有优先阅读权,未经做者本人容许不得转载,不然追究侵权责任。

关注个人公众号,后台回复【JAVAPDF】获取200页面试题!
5万人关注的大数据成神之路,不来了解一下吗?
5万人关注的大数据成神之路,真的不来了解一下吗?
5万人关注的大数据成神之路,肯定真的不来了解一下吗?

欢迎您关注《大数据成神之路》

大数据技术与架构

备注:全部内容首发公众号,这里不保证明时性和完整性,你们扫描文末二维码关注哦~

相关文章
相关标签/搜索