Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。安全
1. 能够和任意集中式存储进程集成。架构
2. 输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减少hdfs的压力。分布式
3. flume中的事务基于channel,使用了两个事务模型(sender + receiver),确保消息被可靠发送。spa
Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel到sink的事件传递。一旦事务中全部的数据所有成功提交到channel,那么source才认为该数据读取完成。同理,只有成功被sink写出去的数据,才会从channel中移除。线程
Agent是一个JVM进程,它以事件的形式将数据从源头送至目的,是Flume数据传输的基本单元。3d
Agent主要有3个部分组成,Source、Channel、Sink。日志
Source是负责接收数据到Flume Agent的组件。Source组件能够处理各类类型、各类格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。blog
Channel是位于Source和Sink之间的缓冲区。所以,Channel容许Source和Sink运做在不一样的速率上。Channel是线程安全的,能够同时处理几个Source的写入操做和几个Sink的读取操做。索引
Flume自带两种Channel:Memory Channel和File Channel。队列
Memory Channel是内存中的队列。Memory Channel在不须要关心数据丢失的情景下适用。若是须要关心数据丢失,那么Memory Channel就不该该使用,由于程序死亡、机器宕机或者重启都会致使数据丢失。
File Channel将全部事件写到磁盘。所以在程序关闭或机器宕机的状况下不会丢失数据。
Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另外一个Flume Agent。
Sink是彻底事务性的。在从Channel批量删除数据以前,每一个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent,Sink就利用Channel提交事务。事务一旦被提交,该Channel从本身的内部缓冲区删除事件。
Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。
传输单元,Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。 Event由可选的header和载有数据的一个byte array 构成。Header是容纳了key-value字符串对的HashMap。