flume+hadoop+hive 大数据采集处理

介绍:整个离线分析的整体架构就是使用Flume从FTP服务器上采集日志文件,并存储在Hadoop HDFS文件系统上,再接着用Hadoop的mapreduce清洗日志文件,最后使用HIVE构建数据仓库作离线分析。 大概怎么部署画了张图,我是一共使用了四台服务器,若是不须要这么多能够本身简化一下,将flume和数据处理都部署到hadoop-master上面,这样只须要两台便可 1、hadoop部署准
相关文章
相关标签/搜索