flume安装:apache
https://blog.csdn.net/u011254180/article/details/80000763分布式
1 运行机制oop
一、 Flume分布式系统中最核心的角色是agent,flume采集系统就是由一个个agent所链接起来造成.net
二、每个agent至关于一个数据传递员,内部有三个组件:日志
a) Source:采集源,用于跟数据源对接,以获取数据blog
b) Sink:下沉地,采集数据的传送目的,用于往下一级agent传递数据或者往最终存储系统传递数据队列
c) Channel:angent内部的数据传输通道,用于从source将数据传递到sinkhadoop
2.Flume采集系统结构图it
2.1 简单结构: 单个agent采集数据io
2.2 复杂结构: 多级agent之间串联
3 Flume实战案例
一、Flume的安装很是简单,只须要解压便可,固然,前提是已有hadoop环境
上传安装包到数据源所在节点上
而后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz
而后进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME
二、根据数据采集的需求配置采集方案,描述在配置文件中(文件名可任意自定义)
三、指定采集方案配置文件,在相应的节点上启动flume agent
注:
Source——日志来源,其中包括:Avro Source、Thrift Source、Exec Source、JMS Source、Spooling Directory Source、Kafka Source、NetCat Source、Sequence Generator Source、Syslog Source、HTTP Source、Stress Source、Legacy Source、Custom Source、Scribe Source以及Twitter 1% firehose Source。
Channel——日志管道,全部从Source过来的日志数据都会以队列的形式存放在里面,它包括:Memory Channel、JDBC Channel、Kafka Channel、File Channel、Spillable Memory Channel、Pseudo Transaction Channel、Custom Channel。
Sink——日志出口,日志将经过Sink向外发射,它包括:HDFS Sink、Hive Sink、Logger Sink、Avro Sink、Thrift Sink、IRC Sink、File Roll Sink、Null Sink、HBase Sink、Async HBase Sink、Morphline Solr Sink、Elastic Search Sink、Kite Dataset Sink、Kafka Sink、Custom Sink。