flume+hadoop+hive 大数据采集处理

时间 2020-05-15

标签 flume+hadoop+hive flume hadoop hive 数据采集处理栏目日志分析繁體版

原文原文链接

介绍：整个离线分析的整体架构就是使用Flume从FTP服务器上采集日志文件，并存储在Hadoop HDFS文件系统上，再接着用Hadoop的mapreduce清洗日志文件，最后使用HIVE构建数据仓库作离线分析。大概怎么部署画了张图，我是一共使用了四台服务器，若是不须要这么多能够本身简化一下，将flume和数据处理都部署到hadoop-master上面，这样只须要两台便可 1、hadoop部署准

>>阅读原文<<