Flume对文件夹进行监控,实时收集新增文件到HDFS

- 背景 由于项目要求,需要实时将指定文件夹中新增的文件上传到HDFS中,本文中使用flume采集数据并保存到HDFS中,一方面可以减轻本地的存储压力,另一方面数据集中保存到HDFS也为后续数据分析工作打下基础。 - 实现流程 flume中的source组件选用spooling directory类型,此类型能对文件目录进行监控并实时收集目录中新增的文件。本文中采用此种类型对本地存储相关数据的目录
相关文章
相关标签/搜索