tableau为一个数据分析软件,其优点是分析数据表中的数据,效果比较好。从简介中说到能够对日志也能够进行分析。因而咱们用来作日志分析,主要是分为如下的几个步骤:shell
1、Hortonworks Hadoop Hive服务器的搭建数据库
在分析日志的时候须要的是对日志实时的分析,咱们将源数据存储在s3服务器上,设计的思路是只能从s3上get过来以后,而后导入到所要使用的数据库中,而后实时的更新到tableau的客户端上面。服务器
tableau商家没有给出服务器去怎么搭建,这一部分折腾了好久。刚开始用的是hadoop1.2.1 和 hive1.2.1进行搭建,最后的结果过是在客户端能够链接上服务器。这里主要使用的hiveserver2数据库,连接的时候使用beeline进行连接,连接以后不hiveserver2中不能建表,提示有个版本过低,like this:app
在折腾了好久以后,开始升级了hadoop的版本,将hadoop的版本升级到2.6.4,终因而能够正常的进行建库建表了。须要记住如下的几个命令oop
后台运行hiveserver2: /xxx/xxx/hive/bin/hiveserver2 &ui
客户端登录hiveserver2: /xxx/xxx/hive/bin/beelinethis
连接库: beeline>!connect jdbc:hive2://127.0.0.1:10000 hadoop设计
2、服务器搭建完成后,须要hiveserver2自动的把数据加载进去日志
我这里是先将s3的日志获取到本地,利用shell直接能登录而且导入数据到hiveserver2的命令 like this:视频
tar -zxvf $ACTIVE_END_LOG_GZ
sleep 1
rm -rf $ruifenglog$ACTIVE_END_LOG_GZ
/data/hive/bin/beeline -u jdbc:hive2://localhost:10000/ruifengapplog << EOF
LOAD DATA LOCAL INPATH '$ruifenglog$ACTIVE_END_LOG_FILE' overwrite into table ruifengapplog.wrf_all_log PARTITION(dt='$dateYMDS',hour='$dateCHOUR');
EOF
这句就能够搞定把数据直接load到hiveserver2对应的数据表中去,而后将当前的操做直接写成定时的操做。
3、客户端公式规则的使用。
这部分只是实现了一部分,不懂得话看官网的文档和视频就应该能搞定。