Flume(1)-概述与组成架构

一. 定义

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。安全

二. 优势

1. 能够和任意集中式存储进程集成。架构

2. 输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减少hdfs的压力。分布式

3. flume中的事务基于channel,使用了两个事务模型(sender + receiver),确保消息被可靠发送。spa

Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel到sink的事件传递。一旦事务中全部的数据所有成功提交到channel,那么source才认为该数据读取完成。同理,只有成功被sink写出去的数据,才会从channel中移除。线程

三. 组成架构

1. Agent

Agent是一个JVM进程,它以事件的形式将数据从源头送至目的,是Flume数据传输的基本单元。3d

Agent主要有3个部分组成,Source、Channel、Sink。日志

2. Source

Source是负责接收数据到Flume Agent的组件。Source组件能够处理各类类型、各类格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。blog

3. Channel

Channel是位于Source和Sink之间的缓冲区。所以,Channel容许Source和Sink运做在不一样的速率上。Channel是线程安全的,能够同时处理几个Source的写入操做和几个Sink的读取操做。索引

Flume自带两种Channel:Memory Channel和File Channel。队列

Memory Channel是内存中的队列。Memory Channel在不须要关心数据丢失的情景下适用。若是须要关心数据丢失,那么Memory Channel就不该该使用,由于程序死亡、机器宕机或者重启都会致使数据丢失。

File Channel将全部事件写到磁盘。所以在程序关闭或机器宕机的状况下不会丢失数据。

4. Sink

Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另外一个Flume Agent。

Sink是彻底事务性的。在从Channel批量删除数据以前,每一个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent,Sink就利用Channel提交事务。事务一旦被提交,该Channel从本身的内部缓冲区删除事件。

Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。

5. Event

传输单元,Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。  Event由可选的header和载有数据的一个byte array 构成。Header是容纳了key-value字符串对的HashMap。

 

相关文章
相关标签/搜索