数据仓库(Data WareHouse),简写为DW或DWH,为企业决策制定过程,提供全部系统数据支持的战略集合,经过对数据仓库中的数据分析,帮助企业改进业务流程,控制成本,提升产品质量sql
数据仓里不是数据的最终目的地,而是为数据最终目的地作好准备,这些准备对数据:清洗,转义,分类,重组,合并,拆分,统计服务器
1.数据采集平台搭建markdown
2.用户行为数据仓库的分层搭建架构
3.实现业务数据仓库的分层搭建框架
4.针对数据仓库中的数据进行留存,转化率,CMV,复购率,活跃等报表分析ide
数据采集传输 : Flume,Kafka,Logstash,DataX,Sqoopoop
数据存储: Hive.Mysql,HDFS,HBase,S3spa
数据计算:spark,Hive,Tez,Flink,Storm架构设计
数据查询 : Presto,Impala,Kylin设计
产品 | 版本 |
---|---|
Hadoop | 2.7.2 |
Flume | 1.7.0 |
Kafka | 0.11.0.2 |
Kafka Manager | 1.3.3.22 |
Hive | 1.2.1 |
Sqoop | 1.4.6 |
MySQL | 5.6.24 |
Azkaban | 2.5.0 |
Java | 1.8 |
Zookeeper | 3.4.10 |
Presto | 0.189 |
注意: 框架选择最近半年左右稳定版
服务器hadoop102 | 服务器hadoop103 | 服务器hadoop104 | |
---|---|---|---|
HDFS | NameNode DataNode | DataNode | DataNode SecondaryNameNode |
Yarn | NodeManager | Resourcemanager NodeManager | NodeManager |
Zookeeper | Zookeeper | Zookeeper | Zookeeper |
Flume(采集日志) | Flume | Flume | |
Kafka | Kafka | Kafka | Kafka |
Flume(消费Kafka) | Flume | ||
Hive | Hive | ||
MySQL | MySQL | ||
Presto | Presto |