Spark+Hbase 亿级流量分析实战（小巧高性能的ETL）

时间 2021-01-18

原文原文链接

在上一篇文章大猪已经介绍了日志存储设计方案，我们数据已经落地到数据中心上了，那接下来如何ETL呢？毕竟可是生产环境级别的，可不能乱来。其实只要解决几个问题即可，不必要引入很大级别的组件来做，当然了各有各的千秋，本文主要从易懂、小巧、简洁、高性能这三个方面去设计出发点，顺便还实现了一个精巧的 Filebeat。设计 loghub功能要实现的功能就是扫描每天的增量日志并写入Hbase

>>阅读原文<<