大数据离线web网站日志分析

1、背景 1.1 黑马论坛日志,数据分为两部分组成,原来是一个大文件,是56GB;以后每天生成一个文件,大约是150-200MB之间; 1.2 日志格式是apache common日志格式; 1.3 分析一些核心指标,供运营决策者使用; 1.4 开发该系统的目的是分了获取一些业务相关的指标,这些指标在第三方工具中无法获得的;   2、开发大致流程: 2.1 把日志数据上传到HDFS中进行处理 如果
相关文章
相关标签/搜索