每日生产万亿消息数据入库,腾讯如何突破大数据分析架构瓶颈

作者 | 彭渊 编辑 | 小智 背景介绍 对于腾讯庞大的大数据分析业务,几千台的 Hadoop 集群近百 P 级的存储总量,每日产生万亿的消息数据入库,需要针对几十亿 imei 手机设备去重,并关联数千亿的历史全表,进行曝光、点击、PV、UV、日活、新增、留存等统计指标分析,当前所有业务的 ETL 清洗、统计计算、用户画像都全部依赖离线 m/r 和 Hive SQL,给集群造成很大压力,系统负载高
相关文章
相关标签/搜索