在远程服务器上的数据库中有两张表,user 和order,现须要对表中的数据作分析,将分析后的结果再存到mysql中。两张表的结构以下图所示html
现须要分析每一天user和,oder的新增数量。python
在远程的日志服务器上存放有用户浏览网站所留下的apache日志数据,如今须要对日志文件进行ETL处理,并分析用户的行为。mysql
日志文件的格式以下sql
221.204.14.33 - - [11/Jul/2014:01:23:22 +0800] "GET /static/image/common/pic-next.png HTTP/1.0" 200 1496 "http://www.aboutyun.com/thread-7977-1-1.html" "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko"数据库
因为这是一个学习项目,没有用户的真实数据,因此咱们在本机windows上安装mysql数据,在虚拟机中用Python脚本模拟用户注册信息,向数据库中插入数据。而后在写一个python脚本,利用sqoop工具向虚拟机中的HIVE中导入数据,第一导入为全量导入,之后为增量导入。而后利用HIVE作大数据分析,分析完成后再利用sqoop工具把分析结果存入mysql中。apache
在日志文件处理方面,咱们先在网上下载好离线的apache日志数据,利用python脚本天天定时向HDFS中导入日志数据,而后利用mapreduce对日志数据进行清洗,清洗完之后的数据再导入到HIVE中,而后在HIVE中对日志文件进行分析。分析完成后利用sqoop工具将分析结果导入到Mysql中。windows
这就是这个项目的的主要工做类容及工做流程。服务器