项目讲解2

问题一:预处理是什么意思?web

问题二:获取时间是在哪里输出的?这个是在hive中写的吗?oop

问题三:log.preprocess.sh这个预处理文件是用来作什么的?须要详细解释一下spa

问题四:log_click.sh点击流脚本设计

雪花模型与星型模型:blog

星型表:一个事实表,关联多个维度表hadoop

3.雪花模型,一个事实表关联过个维度表,维度表在关联其余的表,维度表是按3F式设计,开发

模块开发-ETL

start-dfs.shit

strat-yarnshio

starthive.shtable

startbeeline.sh   是什么东西?

1.建立原始数据表

show databases ;

use shizhan;

show tables;

shows tables;

desc  ods_weblog_origin

在建立点击流模型pageviews表 ods_click_pageviews、点击流visit模型表   click_stream_visit

要导入数据,已经在本地生成了,按理说应该生成到hdfs上取‘

2.向hive中导入数据:

load data local inpath '/home/hadoop/wash-part-m-0000' into tabales ods_weblog_origin partition(datestr='2013-1-1');

导入不一样的数据做用是什么?3个数据的来源与前面的preprocess预处理有啥关系?

相关文章
相关标签/搜索