问题一:预处理是什么意思?web
问题二:获取时间是在哪里输出的?这个是在hive中写的吗?oop
问题三:log.preprocess.sh这个预处理文件是用来作什么的?须要详细解释一下spa
问题四:log_click.sh点击流脚本设计
雪花模型与星型模型:blog
星型表:一个事实表,关联多个维度表hadoop
3.雪花模型,一个事实表关联过个维度表,维度表在关联其余的表,维度表是按3F式设计,开发
start-dfs.shit
strat-yarnshio
starthive.shtable
startbeeline.sh 是什么东西?
1.建立原始数据表
show databases ;
use shizhan;
show tables;
shows tables;
desc ods_weblog_origin
在建立点击流模型pageviews表 ods_click_pageviews、点击流visit模型表 click_stream_visit
要导入数据,已经在本地生成了,按理说应该生成到hdfs上取‘
2.向hive中导入数据:
load data local inpath '/home/hadoop/wash-part-m-0000' into tabales ods_weblog_origin partition(datestr='2013-1-1');
导入不一样的数据做用是什么?3个数据的来源与前面的preprocess预处理有啥关系?