1. 数据仓库简介

    数据仓库,英文名称为 Data Warehouse,可简写为DW或DWH。数据仓库,是为企业全部级别的决策制定过程,提供全部类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而建立。 为须要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
    数据仓库并非数据的最终目的地,而是为数据最终的目的地最好准备。这些准备包括对数据的清洗、转义、分类、重组、合并、拆分、统计等等。

    实验需三台虚拟机,其中一台要8G内存,其余两台最低要4G内存。
    本次实验涉及到大数据生态组件中的 hadoop-2.7.2, zookeeper-3.4.10, flume-1.7.0, kafka_2.11-0.11.0.2, hive-1.2.1, tez-0.9.1, MySQL-5.6.24, sqoop-1.4.6等。服务器

集群规划


服务器名称 子服务 服务器hadoop151 服务器hadoop152 服务器hadoop153
HDFS NameNode
DataNode
SecondaryNameNode
Yarn NodeManager
ResourceManager
Zookeeper Zookeeper server
Flume(采集日志) Flume
Kafka Kafka
Flume(消费kafka) Flume
Hive Hive
MySQL MySQL
Sqoop Sqoop
相关文章
相关标签/搜索