大数据技术笔记之数据采集和预处理

1.大数据采集 大数据采集包含:系统日志采集方法、网络数据采集方法(通过网络爬虫实现)、其他数据采集(通过特定的接口) 1.1 系统日志采集方法 Flume: 分布式日志收集系统,最初由Cloudera 开发,现是Apache的一个开源项目 Chukwa:开源分布式数据收集系统,是Hadoop 的组成部分,构建在 hdfs 和 map/reduce 框架之上 Scrible:Scribe是face
相关文章
相关标签/搜索