基于Hadoop的数据仓库

时间 2021-08-14

标签 nginx 算法数据库 bash markdown 架构 echarts dom 工具 oop 栏目 Hadoop 繁體版

原文原文链接

1 什么是数据仓库

数据仓库是面向主题的、集成的、具备时间特征的、稳定的数据集合，用以支持经营管理中的决策制定过程nginx

典型应用:算法
- 报表生成
- 数据分析
- 数据挖掘
数据仓库其余特征数据库
- 数据量很是大（TB以上）
- 是数据库的一种新型应用
- 使用人员较少
商用数据仓库bash
- 典型表明: db2, teradata, vertica
- 价格昂贵，支持数据量一般TB或如下
大数据时代数据仓库markdown
- 数据量很是大
- 扩展性和容错性很重要
- 成本考量

不了解的数据仓库基本概念的，能够参考以前《了解一下数据仓库》这篇文章。架构

2 基于Hadoop数据仓库的基本架构

技术手段echarts
- 一般使用Hive做为数据仓库
  - 超大数据集设计的计算扩展能力
  - 支持HQL查询 — 简单，学习代价低
  - 统一的元数据管理
基本特色dom
- 支持海量数据
- 多维数据分析
- 使用人员较少
- 数据延迟较高

2.1 基于Hadoop的数据仓库:初版

优势工具
- 知足了数据仓库的基本要求
- 可以处理海量数据
- 系统扩展性和容错性极好
缺点oop
- 性能较低，实时性很差

2.2 基于Hadoop的数据仓库:第二版

改进
- 使用MPP(Presto)系统提升查询性能
优势
- 知足了数据仓库的基本要求
- 可以处理海量数据
- 系统扩展性和容错性极好
- 实时性较好
缺点
- 数据延迟高（数据从产生到入库，再到查询，整个周期长）

2.3 基于Hadoop的数据仓库:第三版（增长实时pipeline）

改进
- 使用Spark Streaming系统下降数据延迟
优势
- 知足了数据仓库的基本要求
- 可以处理海量数据
- 系统扩展性和容错性极好
- 实时性较好
- 数据延迟低

3 数据仓库具体实例

网站报表系统

基本做用
- 按照业务要求生成报表
- 报表可实时产生或按天产生
数据规模
- 数据量: TB级
- 表数目: 100+
用户量
- 约几十个

3.1 收集数据

3.2 ETL

ETL
- Extract, Transform, Load
- 可以使用MapReduce/Spark/Pig实现
- 存储格式: 行式存储与列式存储
行存储与列存储

如何建立带压缩的ORC表

ETL后日志格式（文本格式）以下:

临时表（文本格式）定义以下:

CREATE EXTERNAL TABLE tmp_logs (
		domain_id INT,
		log_time STRING,
		log_date STRING,
		log_type INT,
		uin BIGINT
	)
	ROW FORMAT DELIMITED
	FIELDS TERMINATED BY ','
	STORED AS TEXTFILE
	LOCATION '/user/hivetest/logs';
复制代码

将数据导入临时表tmp_logs: LOAD DATA INPATH '/nginx/logs/2016011206' OVERWRITE INTO TABLE tmp_logs;
将临时表中数据导入到orc格式的表中:

CREATE TABLE logs (
		domain_id INT,
		log_time STRING,
		log_date STRING,
		log_type INT,
		uin BIGINT
	)
	PARTITION BY(log_time STRING)
	STORED AS ORC
	tblproperties("orc.compress"="SNAPPY");

	INSERT INTO TABLE logs PARTITION(dt='2016-01-12-06') SELECT * FROM tmp_logs;
复制代码

压缩算法

查询

SELECT domain_id, sum(log_type) FROM logs WHERE
	log_time>'2016-01-12-06' GROUP BY domain_id;
复制代码

3.3 参数化报表与可视化

参数化报表
- 根据用户定制的数据要求，生成SQL
可视化工具
- Echarts: echarts.baidu.com/
- D3.js: d3js.org/
- Tableau: 商用可视化软件

4 Summary

基于Hadoop构建数据仓库的好处
- 开源免费
- 支持海量数据
- 周边工具成熟
基于Hadoop构建数据仓库的流程
- 数据收集
- 数据ETL
- 参数化报表与可视化

相关文章

相关标签/搜索

数据库与数据仓库

数据库基础

大数据-Hadoop

大数据 hadoop

漫谈数据仓库

数据仓库工具箱

大数据之数据仓库

Oracle数据库

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<