数据仓库是面向主题的、集成的、具备时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程nginx
典型应用:算法
数据仓库其余特征数据库
商用数据仓库bash
大数据时代数据仓库markdown
不了解的数据仓库基本概念的,能够参考以前《了解一下数据仓库》这篇文章。架构
技术手段echarts
基本特色dom
优势工具
缺点oop
改进
优势
缺点
改进
优势
网站报表系统
基本做用
数据规模
用户量
ETL
行存储与列存储
如何建立带压缩的ORC表
CREATE EXTERNAL TABLE tmp_logs ( domain_id INT, log_time STRING, log_date STRING, log_type INT, uin BIGINT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION '/user/hivetest/logs'; 复制代码
将数据导入临时表tmp_logs: LOAD DATA INPATH '/nginx/logs/2016011206' OVERWRITE INTO TABLE tmp_logs;
将临时表中数据导入到orc格式的表中:
CREATE TABLE logs ( domain_id INT, log_time STRING, log_date STRING, log_type INT, uin BIGINT ) PARTITION BY(log_time STRING) STORED AS ORC tblproperties("orc.compress"="SNAPPY"); INSERT INTO TABLE logs PARTITION(dt='2016-01-12-06') SELECT * FROM tmp_logs; 复制代码
SELECT domain_id, sum(log_type) FROM logs WHERE log_time>'2016-01-12-06' GROUP BY domain_id; 复制代码
参数化报表
可视化工具
基于Hadoop构建数据仓库的好处
基于Hadoop构建数据仓库的流程