Hadoop实战学习(2)-日志清洗

转载自:Hadoop日志清洗 1.1 数据状况回顾   该论坛数据有两部分:html   (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29以前,日志文件都在一个文件里边,采用了追加写入的方式。java   (2)自2013-05-30起,天天生成一个数据文件,约150MB左右。这也说明,从2013-05-30以后,日志文件再也不是在一个文件里边。web   图
相关文章
相关标签/搜索