单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例

背景介绍 国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题: 1、详单采用Parquet格式存储,数据表使用时间+MSISDN号码做分区,使用Impala查询,利用不上分区的查询场景,则查询性能比较差。 2、在使用Impala过程中,遇到很多性能问题(比如catalog元数据膨胀导致元数据同步慢等),
相关文章
相关标签/搜索