Flueme学习之路（一）Flume的基础介绍

时间 2019-11-16

标签 flueme 学习之路 flume 基础介绍栏目日志分析繁體版

原文原文链接

背景

Hadoop业务的总体开发流程：node

从Hadoop的业务开发流程中能够看出，在大数据的业务处理流程中，对于数据的采集是十分重要的一步，也是不可避免的一步。apache

许多公司的平台天天会产生大量的日志（通常为流式数据，如搜索引擎的pv,查询等），处理这些日志须要特定的日志系统。通常而言，这些系统须要具备以下的特征：数组

构建应用系统的和分析系统的桥梁，并将它们之间的关系解耦；
支持近实时的在线分析系统和相似于Hadoop的离线分析系统；
具备高可扩展性。即当数据量增长时，能够经过增长节点进行水平扩展。

开源的日志系统，包括facebook的scribe，apache的chukwa,linkedin的kafka和cloudera的flume等。bash

Flume的特色

2.1Flume特色

flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各种数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理、并写入到各类数据接收方（好比文本、HDFS、Hbase等）的能力。服务器

flume的数据流由事件（Event）贯穿始终。事件是Flume的基本数据单位，它携带日志数据（字节数组形式）而且携带有头信息。这些Event由Agent外部的Source生成。当Source捕获事件后会进行特定的格式化，而后source会把事件推入（单个活多个）Channel中。能够把Channel看做是一个缓冲区，它将保存事件直到slink处理完该事件。Sink负责持久化日志或者把事件推向另外一个Source.app

Flume的可靠性框架

当节点出现故障时，日志可以被传送到其余节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别为：end-end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；若是数据发送失败，能够从新发送），store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送），Besteffort(数据发送到接收方后，不会进行确认)。分布式
Flume的可恢复性工具

仍是靠Channel。推荐使用FileChannel，事件持久化在本地文件系统里（性能较差）。oop

2.2 Flume的一些核心

Client：clinet生产数据，运行在一个独立的线程。

Event：一个数据单元，消息头和消息体组成。（Event能够是日志记录，avro对象等。）

Flow:Event从源头到达目的地的迁移的抽象

Agent：一个独立的Flume进程，包含组件Source、Channel、Sink。（Agent使用JVM运行Flume。每台机器运行一个agent,可是能够在一个agent中包含多个sources和sinks）

Source:数据收集组件。（Source从Client收集数据，传递给Channel）

sink:从Channel中读取并移除Event，将Event传递到FlowPipeLine中的下一个Agent（若是有的话）（Sink从channel收集数据，运行在一个独立线程。）

2.3 Flume NG 的体系结构

Flume运行的核心是Agent。Flume以Agent为最小的独立运行单位。一个Agent就是一个JVM。它是一个完整的数据收集工具，包含三个核心组件，分别是source、channel、sink。经过这些组件，Event能够从一个地方流向另外一个地方，以下图所示：

3. Flume的安装

3.1 Flume的下载

下载地址：

http://mirrors.hust.edu.cn.apace

3.2 Flume的安装

Flume框架对hadoop和zookeeper的依赖只是在jar包上，并不要求flume启动时必须将hadoop和zookeeper服务也启动。

（1）将安装包上传到服务器并解压

tar -zxvf apache-flume-1.7.0-bin.tar.gz -C /home/app/

（2）修改配置文件

[root@node01 conf]# cp flume-env.sh.template flume-env.sh

（3）配置环境变量

vi /etc/profile

保存使其生效

source /etc/profile

（4）查看版本信息

flume-ng version