基于某电商离线处理项目架构和实现一(处理流程)

1.涉及的基本组件技术 Hadoop:HDFS MapReduce(清洗) YARN、需要部署Hadoop集群 Hive:外部表、SQL 、解决数据倾斜 、sql优化、基于元数据管理、SQL 到MR过程 Flume:将数据抽取到hdfs 调度:crontab、shell、Azkaban HUE:可视化的notebook,CM自带 ,排查数据 2.处理流程 大数据开发:关注的是2、3、4步骤。1,2
相关文章
相关标签/搜索