Cloudera Flume简介

时间 2019-11-07

原文原文链接

Flume是Cloudera提供的日志收集系统，Flume支持在日志系统中定制各种数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各类数据接受方(可定制)的能力。分布式

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。编码

上图的Flume的Architecture，在Flume中，最重要的抽象是data flow(数据流)，data flow描述了数据从产生，传输、处理并最终写入目标的一条路径。在上图中，实线描述了data flow。spa

其中，Agent用于采集数据，agent是flume中产生数据流的地方，同时，agent会将产生的数据流传输到collector。对应的，collector用于对数据进行聚合，每每会产生一个更大的流。日志

Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统，支持TCP和UDP等2种模式)，exec(命令执行)等数据源上收集数据的能力。同时，Flume的数据接受方，能够是console(控制台)、text(文件)、dfs(HDFS文件)、RPC(Thrift-RPC)和syslogTCP(TCP syslog日志系统)等。继承

其中，收集数据有2种主要工做模式，以下：进程

Push Sources：外部系统会主动地将数据推送到Flume中，如RPC、syslog。事件

Polling Sources：Flume到外部系统中获取数据，通常使用轮询的方式，如text和exec。ip

注意，在Flume中，agent和collector对应，而source和sink对应。Source和sink强调发送、接受方的特性(如数据格式、编码等)，而agent和collector关注功能。同步

Flume Master用于管理数据流的配置，以下图。it

为了保证可扩展性，Flume采用了多Master的方式。为了保证配置数据的一致性，Flume引入了ZooKeeper，用于保存配置数据，ZooKeeper自己可保证配置数据的一致性和高可用，另外，在配置数据发生变化时，ZooKeeper能够通知Flume Master节点。

Flume Master间使用gossip协议同步数据。

下面简要分析Flume如何支持Reliability、Scalability、Manageability和Extensibility。

Reliability：Flume提供3中数据可靠性选项，包括End-to-end、Store on failure和Best effort。其中End-to-end使用了磁盘日志和接受端Ack的方式，保证Flume接受到的数据会最终到达目的。Store on failure在目的不可用的时候，数据会保持在本地硬盘。和End-to-end不一样的是，若是是进程出现问题，Store on failure可能会丢失部分数据。Best effort不作任何QoS保证。

Scalability：Flume的3大组件：collector、master和storage tier都是可伸缩的。须要注意的是，Flume中对事件的处理不须要带状态，它的Scalability能够很容易实现。

Manageability：Flume利用ZooKeeper和gossip，保证配置数据的一致性、高可用。同时，多Master，保证Master能够管理大量的节点。

Extensibility：基于Java，用户能够为Flume添加各类新的功能，如经过继承Source，用户能够实现本身的数据接入方式，实现Sink的子类，用户能够将数据写往特定目标，同时，经过SinkDecorator，用户能够对数据进行必定的预处理。

1. 【Flume简介】
2. Apache Flume简介
3. Flume简介
4. flume简介
5. 【Flume 1.6.0】1、简介
6. Cloudera Manager简介
7. 1.Apache Flume 简介
8. Flume简单介绍
9. 随笔1-FLUME简介
10. 【Flume】Flume简单介绍
更多相关文章...
• Scala 简介 - Scala教程
• AJAX 简介 - PHP教程
• Github 简明教程
• Java Agent入门实战（一）-Instrumentation介绍与使用