数据仓库,英文名称为 Data Warehouse,可简写为DW或DWH。数据仓库,是为企业全部级别的决策制定过程,提供全部类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而建立。 为须要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库并非数据的最终目的地,而是为数据最终的目的地最好准备。这些准备包括对数据的清洗、转义、分类、重组、合并、拆分、统计等等。
实验需三台虚拟机,其中一台要8G内存,其余两台最低要4G内存。
本次实验涉及到大数据生态组件中的 hadoop-2.7.2, zookeeper-3.4.10, flume-1.7.0, kafka_2.11-0.11.0.2, hive-1.2.1, tez-0.9.1, MySQL-5.6.24, sqoop-1.4.6等。服务器
服务器名称 | 子服务 | 服务器hadoop151 | 服务器hadoop152 | 服务器hadoop153 |
---|---|---|---|---|
HDFS | NameNode | √ | ||
DataNode | √ | √ | √ | |
SecondaryNameNode | √ | |||
Yarn | NodeManager | √ | √ | √ |
ResourceManager | √ | |||
Zookeeper | Zookeeper server | √ | √ | √ |
Flume(采集日志) | Flume | √ | √ | |
Kafka | Kafka | √ | √ | √ |
Flume(消费kafka) | Flume | √ | ||
Hive | Hive | √ | ||
MySQL | MySQL | √ | ||
Sqoop | Sqoop | √ |