日志收集十大技术细节

时间 2019-11-08

标签日志收集十大技术细节繁體版

原文原文链接

本文探讨在大规模日志数据收集过程当中，针对日志文件的处理须要注意的技术细节。html

1. 通配符和目录递归搜索

大多数场景下，日志每每被分散在不一样的目录中，好比以日期为名的目录。所以，工具必需支持对目录的递归搜索和某种模式匹配。java

POSIX标准定义了一组用于通配的特殊符号(Pattern Matching Notation)：node

*：匹配一个或多个字符linux
?：匹配一个字符shell
[]：匹配一个在范围内的字符apache
[!]：匹配一个不在范围内的字符后端

在shell中不少常见命令均可以应用这种模式匹配规则，好比：函数

find / -name "*.so"

做为日志收集工具，也须要可以作到这种匹配，从而对日志进行初步筛选。在Unix系统中，可使用fnmatch函数实现。工具

2. 热日志分析

日志的其中一个特色是：每每同时只有少数的日志文件正在写入，大部分日志文件都不是正在写入状态。那么在收集日志的时候，为了下降资源的消耗，须要有一种机制来判断哪些是“热更新”的日志，只对热更新日志进行读取。咱们采用的方式是，若是在若干次采样周期内，发现读取文件都是EOF，那么认为这个文件属于冷日志，并将其剔除出热日志队列，并加入一个新的日志文件做为热日志文件，循环往复。这样，大多数状况下，即保证了实时性，又下降了资源的无效损耗。性能

3. 新文件检测

对于采集一个目录下的文件这种需求，必须要考虑到新文件增长的状况。一般设置一个间隔时间（好比2s），对目录进行一个遍历，而后对比当前已经被纳管的文件，看是否是新文件。若是是新文件，应马上加入到热文件队列，由于新的文件每每会马上被写入数据。这里采用hashmap能提升对比性能。

4. 采集点保存

程序总会由于某种缘由退出，可是采集任务每每并无结束，这个时候，程序就须要有能力记录下一些信息，以便下一次继续从结束的点开始工做，以防止重复采集。针对每一个文件，记录当前读取到的offset，并在程序退出时，及时刷写进磁盘。

5. log rotate的探测

log rotate是经常使用的一种日志策略。当达到rotate的条件时，当前正在写入的文件会重命名，而且再也不写入数据；而后建立一个新的文件来继续写入。当文件数量超过必定量时，将最先产生的文件删除，这样能防止日志无限制暴涨形成文件系统空间浪费。

基于log rotate的特色（会产生重命名文件的状况），日志工具能够经过记录并对比inode来判断文件是不是重命名的。

6. 归档模式采集

遍历和watch一个拥有百万级文件个数的目录，是件十分浪费资源的事情。由于，实际状况下，这种目录的数据都是历史数据，并且不会发生变化。所以，日志工具应当可以支持咱们称为归档模式的工做模式，这种模式下，遍历和watch目录将采用极低的频次，这样不会浪费资源。

7. 文件状态异常

文件状态异常是指下列可能的状况：

读取文件的权限发生变化
读取文件时发生某种错误

程序应避免对这种文件“一刀切”，由于可能过一段时间文件又变成正常状态了。因此，应当按期把有问题的文件再尝试读取，这样不会遗漏。

8. 字符集的探测和转化

在一些老的系统中，日志的编码格式依旧会采用本地编码。典型的是GBK编码的日志。在日志上报的过程当中，应采用统一的编码格式。几乎全部的系统都支持libiconv库，这是一个可进行编码转化的经常使用库。

9. 多行合并

日志数据由应用程序生成，许多应用程序在写入日志的时候，一条逻辑日志包含多行。好比下面的java异常日志，打印出了堆栈的信息：

11 五月 2016 11:35:52,602 ERROR java.lang.IllegalArgumentException: No bean specified
    at org.apache.commons.beanutils.PropertyUtilsBean.getNestedProperty(PropertyUtilsBean.java:632)
    at org.apache.commons.beanutils.PropertyUtilsBean.getProperty(PropertyUtilsBean.java:715)
    at org.apache.commons.beanutils.PropertyUtils.getProperty(PropertyUtils.java:290)
    at lib.util.BeanUtil.getBeanProperty(BeanUtil.java:184)
    at lib.comm.services.CommWebService.getResponse(CommWebService.java:173)
    at lib.comm.services.CommWebService.SendSimplePack(CommWebService.java:307)
    at lib.comm.services.CommWebService.exchange(CommWebService.java:40)
    at lib.comm.CommunicationUtil.exchange(CommunicationUtil.java:46)
    at lib.comm.CommunicationUtil.exchangeFull(CommunicationUtil.java:105)
    at lib.helper.TradeHelper.tellerBasicInfoQuery(TradeHelper.java:1520)

从日志收集程序的角度，这里有不少行，可是，此时若是按行来分割是彻底不行的。所以，应当提供一种能够合并多行日志为一行日志的能力。注意到这个日志以一个时间为开始（一般都是这样），那么咱们就能够设置一个正则匹配规则，匹配到就认为是一个逻辑日志行的开始：

/\d{2} \S+ \d{4} \d{2}:\d{2}:\d{2},\d{3}/

这样收集上来的日志才便于处理和分析。经过灵活的设置正则，极大的下降了后端处理日志的难度。

10. Follow Symbolic Link

采集器可以支持一个开关，用于设置是否对连接进行跟踪，即读取连接实际指向的文件或目录。

其实，此外还有不少亮点功能值得探讨，好比：

对历史的归档日志(tar包)，直接读取归档压缩文件，从而避免先解压再读取的麻烦。
在通配模式下，排除(exclude)或包含(include)某些特殊日志