数据仓库架构的技术选型

目前主流公司应用比较广泛的大数据数据仓库架构: 增加了以下内容: 数据采集:采用Flume收集日志,采用Sqoop将RDBMS以及NoSQL中的数据同步到HDFS上 消息系统:可以加入Kafka防止数据丢失 实时计算:实时计算使用Spark Streaming消费Kafka中收集的日志数据,实时计算结果大多保存在Redis中 机器学习:使用了Spark MLlib提供的机器学习算法 多维分析OLA
相关文章
相关标签/搜索