【网站点击流数据分析】04-数据预处理

1、主要目的 过滤“不合规”数据 格式转换和规整 根据后续的统计需求,过滤分离出各种不同主题(不同栏目path)的基础数据 2、实现方式 开发一个mr程序WeblogPreProcess。 package com.learn.bigdata.hive.mr.pre; import java.io.IOException; import java.util.HashSet; import java
相关文章
相关标签/搜索