mapReduce:网站日志分析项目案例:数据清洗

一、数据情况分析 1.1 数据情况回顾   该论坛数据有两部分:   (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。   (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。   图1展示了该日志数据的记录格式,其中每
相关文章
相关标签/搜索