基于Hadoop生态SparkStreaming的大数据实时流处理平台的搭建

时间 2021-01-05

标签大数据 hadoop flink spark yarn 栏目 Hadoop 繁體版

原文原文链接

随着公司业务发展，对大数据的获取和实时处理的要求就会越来越高，日志处理、用户行为分析、场景业务分析等等，传统的写日志方式根本满足不了业务的实时处理需求，所以本人准备开始着手改造原系统中的数据处理方式，重新搭建一个实时流处理平台，主要是基于hadoop生态，利用Kafka作为中转，SparkStreaming框架实时获取数据并清洗，将结果多维度的存储进HBase数据库。整个平台大致的框架如下：

>>阅读原文<<