KubeCon 2018 参会记录 —— FluentBit Deep Dive

时间 2019-11-13

标签 kubecon 记录 fluentbit deep dive 繁體版

原文原文链接

在最近的上海和北美KubeCon大会上，来自于Treasure Data的Eduardo Silva（Fluentd Maintainer）带来了最期待的关于容器日志采集工具FluentBit的最新进展以及深刻解析的分享；咱们知道Fluentd是在2016年末正式加入CNCF，成为CNCF项目家族的一员，其被普遍用于容器集群中进行应用日志的采集、处理和聚合，但今天主要是跟你们分享一下一样来自于Treasure Data新开源的日志采集工具——FluentBit。git

FluentBit vs Fluentd

既然已经有了Fluentd，那么为何还要开发一个FluentBit呢？咱们知道，Fluentd是基于Ruby语言的，在一些应用日志量较大或者单节点日志量较大的场景下，经过Fluentd采集日志的速率会远落后于应用日志的产生速率，进而致使日志采集的延迟时间较大，这对于一些实时性要求较高的业务系统或者监控系统来讲是不可接受的；另一方面，也是因为Fluentd自身的日志处理逻辑愈来愈复杂，所有放置在一个组件里来完成会致使愈来愈臃肿，所以Treasure Data在基于Fluentd优秀的架构和设计理念上从新开发了一个更加轻量级、更加高性能的日志采集工具——FluentBit，其主要采用C语言进行开发。github

从上面咱们能够清晰地看到FluentBit自己占用的内存资源会比Fluentd少不少，且基本没有其余额外的环境依赖，可是支持的插件数相较于Fluentd会少不少，须要时间来慢慢丰富。正则表达式

FluentBit Workflow

FluentBit 内置了一个Service Engine，其每采集到一条日志时都会执行从Input到Output的整个Action Chain：算法

- Input

日志数据入口，FluentBit支持多种不一样数据来源类型的Input Plugin，不只能采集容器日志、内核日志、syslog、systemd日志，还支持经过TCP监听接收远程客户端的日志，同时还可以采集系统的CPU、内存和DISK的使用率状况以及本机Network流量日志。后端

- Parser

经过状况下咱们的应用日志都是非结构化的，那么Parser主要是负责将采集到的非结构化日志解析成结构化的日志数据，通常为JSON格式；FluentBit 默认已经预置了下面几种Parser：安全

JSON：按照JSON格式来进行日志数据解析；
Regex：依据配置的正则表达式来进行日志数据解析；
Apache：遵循Apache日志格式来进行解析；
Nginx：遵循Nginx日志格式来进行解析；
Docker：遵循Docker标准输出日志格式进行解析；
Syslog rfc5424：按照syslog rfc5424规范格式进行日志解析；
Syslog rfc3164：按照syslog rfc3164规范格式进行日志解析；

- Filter

在实际的生产应用中，咱们一般须要对采集到的应用日志记录进行修改或者添加一些关键信息，这均可以Filter Plugin来完成；目前FluentBit也已预置了多种Filter插件：网络

Grep：容许匹配或者过滤掉符合特定正则表达式的日志记录；
Record Modifier：容许对日志数据进行修改或者添加新的KV数据，经过此能够方便咱们对日志数据进行打标；
Throttle：支持采用漏桶和滑动窗口算法进行日志采集速率控制；
Kubernetes：自动提取容器或者POD相关信息并添加到日志数据中；
Modify：基于设置的规则来对日志数据进行修改；
Standard Output：容许将日志数据直接打印到标准输出；
Lua：支持经过嵌入Lua Script来修改添加日志数据；

- Buffer

FluentBit 内部自己提供了Buffer机制，会将采集到的日志数据暂存在Memory中直到该日志数据被成功路由转发到指定的目标存储后端。架构

- Routing

路由是FluentBit的一个核心功能，它容许咱们配置不一样的路由规则来将同一条日志数据记录转发到一个或多个不一样的接收后端，其内部主要是基于每条日志数据的Tag来进行路由转发，同时支持正则匹配方式；以下面配置则表示但愿将Tag知足正则表达式my_*的日志直接打印到标准输出中：异步

[INPUT]
    Name cpu
    Tag  my_cpu

[INPUT]
    Name mem
    Tag  my_mem

[OUTPUT]
    Name   stdout
    Match  my_*

- Output

Output 主要是用来配置采集到的日志数据将要被转发到哪些日志存储服务中，目前已支持多种主流的存储服务，如ElasticSearch、NATS、InfluxDB、Kafka、Splunk、File、Console等，一样也支持将日志数据继续经过HTTP(S)协议将其传输到其余服务接口中；另外这里有一个比较特殊的Output就是Fluentd，可能你们会比较奇怪，其实在将来的日志架构模型中，FluentBit主要是在采集端专职负责日志的高性能采集，而后能够将采集到的日志在Fluentd中进行较复杂的聚合处理（同Filebeat和Logstash）：工具

Other Features

Event Driven
内置的Service Engine采用彻底异步的事件驱动模型来进行日志的采集和分发。
Configuration
简单灵活的、高可读性的配置方式，FluentBit的Workflow模型可彻底经过配置文件的方式清晰制定。
Upstream Manager
采用统一的日志上游服务的网络链接管理，包括Keepalive和IO Error处理。
TLSv1.2 / Security
对于安全敏感的日志数据，支持经过TLS加密通道进行日志传输。

Upcoming Features

Filesystem buffering mode
当前FluentBit只支持Memory的buffer方式，但考虑到内存的易失性，将来也将会支持基于Filesystem的buffer机制。
Optional plugins as shared libraries
将来会将一些已内置的但又不是必需的插件以共享连接库的方式来进行动态加载。
Kubernetes Filter improvements
将来会继续深度整合Kubernetes，经过API获取更多POD关键信息并自动添加到日志数据记录中。

Summary

这两次的KubeCon大会上Eduardo Silva对日志采集工具FluentBit都进行了深度的解析分享，不只介绍了FluentBit的整个架构模型，并且还分享了将来的发展方向，从整个分享来看FluentBit会侧重在日志的高性能采集方面；而阿里云容器服务在2017年初开源的Log-Pilot：https://github.com/AliyunContainerService/log-pilot ，其不只可以采集容器的标准输出日志，并且还能动态地发现采集容器内文件日志，同时支持简单高效的日志声明式配置、支持日志路由、日志数据打标以及多种日志采集插件，将来咱们将进一步与社区紧密结合，整合FluentBit的高性能采集特性以及Log-Pilot的动态发现和声明式配置优点来进一步加强容器化应用日志的配置采集效率。

原文连接