数据仓库是面向主题的、集成的、具备时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程nginx
典型应用:算法
数据仓库其余特征数据库
商用数据仓库bash
大数据时代数据仓库架构
不了解的数据仓库基本概念的,能够参考以前《了解一下数据仓库》这篇文章。echarts
技术手段dom
基本特色工具
优势oop
缺点post
改进
优势
缺点
改进
优势
网站报表系统
基本做用
数据规模
用户量
ETL
行存储与列存储
如何建立带压缩的ORC表
CREATE EXTERNAL TABLE tmp_logs (
domain_id INT,
log_time STRING,
log_date STRING,
log_type INT,
uin BIGINT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/user/hivetest/logs';
复制代码
将数据导入临时表tmp_logs: LOAD DATA INPATH '/nginx/logs/2016011206' OVERWRITE INTO TABLE tmp_logs;
将临时表中数据导入到orc格式的表中:
CREATE TABLE logs (
domain_id INT,
log_time STRING,
log_date STRING,
log_type INT,
uin BIGINT
)
PARTITION BY(log_time STRING)
STORED AS ORC
tblproperties("orc.compress"="SNAPPY");
INSERT INTO TABLE logs PARTITION(dt='2016-01-12-06') SELECT * FROM tmp_logs;
复制代码
SELECT domain_id, sum(log_type) FROM logs WHERE
log_time>'2016-01-12-06' GROUP BY domain_id;
复制代码
参数化报表
可视化工具
基于Hadoop构建数据仓库的好处
基于Hadoop构建数据仓库的流程