在以前的一篇文章中(一次鞭辟入里的 Log4j2 异步日志输出阻塞问题的定位),咱们详细分析了一个经典的 Log4j2 异步日志阻塞问题的定位,主要缘由仍是日志文件写入慢了。而且比较深刻的分析了 Log4j2 异步日志的原理,最后给出了一些解决方案。java
以前提出的解决方案仅仅是针对以前定位的问题的优化,可是随着业务发展,日志量确定会更多,大量的日志可能致使写入日志成为新的性能瓶颈。对于这种状况,咱们须要监控。git
首先想到的是进程外部采集系统指标监控:如今服务都提倡上云,并实现云原生服务。对于云服务,存储日志极可能使用 NFS(Network File System),例如 AWS 的 EFS。这种 NFS 一动均可以动态的控制 IO 最大承载,可是服务的增加是很难预估完美的,而且高并发业务流量基本都是一瞬间到达,仅经过 IO 定时采集很难评估到真正的流量尖峰(例如 IO 定时采集是 5s 一次,可是在某一秒内忽然到达不少流量,致使进程内大多线程阻塞,这以后采集 IO 看到 IO 压力貌似不大的样子)。而且,因为线程的阻塞,致使可能咱们看到的 CPU 占用貌似也不高的样子。因此,外部定时采集指标,很难真正定位到日志流量问题。github
而后咱们考虑进程本身监控,暴露接口给外部监控定时检查,例如 K8s 的 pod 健康检查等等。在进程的日志写入压力过大的时候,新扩容一个实例;启动完成后,在注册中心将这个日志压力大的进程的状态设置为暂时下线(例如 Eureka 置为 OUT_OF_SERVICE
,Nacos 置为 PAUSED
),让流量转发到其余实例。待日志压力小以后,再修改状态为 UP,继续服务。spring
那么如何实现这种监控呢?apache
根据以前咱们分析 Log4j2 异步日志的原理,咱们知道其核心是 RingBuffer 这个数据结构做为缓存。咱们能够监控其剩余大小的变化来判断当前日志压力。那么怎么能拿到呢?缓存
Log4j2 对于每个 AsyncLogger 配置,都会建立一个独立的 RingBuffer,例以下面的 Log4j2 配置:数据结构
<!--省略了除了 loggers 之外的其余配置--> <loggers> <!--default logger --> <Asyncroot level="info" includeLocation="true"> <appender-ref ref="console"/> </Asyncroot> <AsyncLogger name="RocketmqClient" level="error" additivity="false" includeLocation="true"> <appender-ref ref="console"/> </AsyncLogger> <AsyncLogger name="com.alibaba.druid.pool.DruidDataSourceStatLoggerImpl" level="error" additivity="false" includeLocation="true"> <appender-ref ref="console"/> </AsyncLogger> <AsyncLogger name="org.mybatis" level="error" additivity="false" includeLocation="true"> <appender-ref ref="console"/> </AsyncLogger> </loggers>
这个配置包含 4 个 AsyncLogger,对于每一个 AsyncLogger 都会建立一个 RingBuffer。Log4j2 也考虑到了监控 AsyncLogger 这种状况,因此将 AsyncLogger 的监控暴露成为一个 MBean(JMX Managed Bean)。mybatis
相关源码以下:多线程
private static void registerLoggerConfigs(final LoggerContext ctx, final MBeanServer mbs, final Executor executor) throws InstanceAlreadyExistsException, MBeanRegistrationException, NotCompliantMBeanException { //获取 log4j2.xml 配置中的 loggers 标签下的全部配置值 final Map<String, LoggerConfig> map = ctx.getConfiguration().getLoggers(); //遍历每一个 key,其实就是 logger 的 name for (final String name : map.keySet()) { final LoggerConfig cfg = map.get(name); final LoggerConfigAdmin mbean = new LoggerConfigAdmin(ctx, cfg); //对于每一个 logger 注册一个 LoggerConfigAdmin register(mbs, mbean, mbean.getObjectName()); //若是是异步日志配置,则注册一个 RingBufferAdmin if (cfg instanceof AsyncLoggerConfig) { final AsyncLoggerConfig async = (AsyncLoggerConfig) cfg; final RingBufferAdmin rbmbean = async.createRingBufferAdmin(ctx.getName()); register(mbs, rbmbean, rbmbean.getObjectName()); } } }
建立的 MBean 的类源码:RingBufferAdmin.java
public class RingBufferAdmin implements RingBufferAdminMBean { private final RingBuffer<?> ringBuffer; private final ObjectName objectName; //... 省略其余咱们不关心的代码 public static final String DOMAIN = "org.apache.logging.log4j2"; String PATTERN_ASYNC_LOGGER_CONFIG = DOMAIN + ":type=%s,component=Loggers,name=%s,subtype=RingBuffer"; //建立 RingBufferAdmin,名称格式符合 Mbean 的名称格式 public static RingBufferAdmin forAsyncLoggerConfig(final RingBuffer<?> ringBuffer, final String contextName, final String configName) { final String ctxName = Server.escape(contextName); //对于 RootLogger,这里 cfgName 为空字符串 final String cfgName = Server.escape(configName); final String name = String.format(PATTERN_ASYNC_LOGGER_CONFIG, ctxName, cfgName); return new RingBufferAdmin(ringBuffer, name); } //获取 RingBuffer 的大小 @Override public long getBufferSize() { return ringBuffer == null ? 0 : ringBuffer.getBufferSize(); } //获取 RingBuffer 剩余的大小 @Override public long getRemainingCapacity() { return ringBuffer == null ? 0 : ringBuffer.remainingCapacity(); } public ObjectName getObjectName() { return objectName; } }
咱们能够经过 JConsole 查看对应的 MBean:
其中 2f0e140b
为 LoggerContext 的 name。
咱们的微服务项目中使用了 spring boot,而且集成了 prometheus。咱们能够经过将 Log4j2 RingBuffer 大小做为指标暴露到 prometheus 中,经过以下代码:
import io.micrometer.core.instrument.Gauge; import io.micrometer.prometheus.PrometheusMeterRegistry; import lombok.extern.log4j.Log4j2; import org.apache.commons.lang3.StringUtils; import org.apache.logging.log4j.LogManager; import org.apache.logging.log4j.core.LoggerContext; import org.apache.logging.log4j.core.jmx.RingBufferAdminMBean; import org.springframework.beans.factory.ObjectProvider; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.boot.actuate.autoconfigure.metrics.export.ConditionalOnEnabledMetricsExport; import org.springframework.context.annotation.Configuration; import org.springframework.context.event.ContextRefreshedEvent; import org.springframework.context.event.EventListener; import javax.annotation.PostConstruct; import javax.management.ObjectName; import java.lang.management.ManagementFactory; @Log4j2 @Configuration(proxyBeanMethods = false) //须要在引入了 prometheus 而且 actuator 暴露了 prometheus 端口的状况下才加载 @ConditionalOnEnabledMetricsExport("prometheus") public class Log4j2Configuration { @Autowired private ObjectProvider<PrometheusMeterRegistry> meterRegistry; //只初始化一次 private volatile boolean isInitialized = false; //须要在 ApplicationContext 刷新以后进行注册 //在加载 ApplicationContext 以前,日志配置就已经初始化好了 //可是 prometheus 的相关 Bean 加载比较复杂,而且随着版本更迭改动比较多,因此就直接偷懒,在整个 ApplicationContext 刷新以后再注册 // ApplicationContext 可能 refresh 屡次,例如调用 /actuator/refresh,还有就是多 ApplicationContext 的场景 // 这里为了简单,经过一个简单的 isInitialized 判断是不是第一次初始化,保证只初始化一次 @EventListener(ContextRefreshedEvent.class) public synchronized void init() { if (!isInitialized) { //经过 LogManager 获取 LoggerContext,从而获取配置 LoggerContext loggerContext = (LoggerContext) LogManager.getContext(false); org.apache.logging.log4j.core.config.Configuration configuration = loggerContext.getConfiguration(); //获取 LoggerContext 的名称,由于 Mbean 的名称包含这个 String ctxName = loggerContext.getName(); configuration.getLoggers().keySet().forEach(k -> { try { //针对 RootLogger,它的 cfgName 是空字符串,为了显示好看,咱们在 prometheus 中将它命名为 root String cfgName = StringUtils.isBlank(k) ? "" : k; String gaugeName = StringUtils.isBlank(k) ? "root" : k; Gauge.builder(gaugeName + "_logger_ring_buffer_remaining_capacity", () -> { try { return (Number) ManagementFactory.getPlatformMBeanServer() .getAttribute(new ObjectName( //按照 Log4j2 源码中的命名方式组装名称 String.format(RingBufferAdminMBean.PATTERN_ASYNC_LOGGER_CONFIG, ctxName, cfgName) //获取剩余大小,注意这个是严格区分大小写的 ), "RemainingCapacity"); } catch (Exception e) { log.error("get {} ring buffer remaining size error", k, e); } return -1; }).register(meterRegistry.getIfAvailable()); } catch (Exception e) { log.error("Log4j2Configuration-init error: {}", e.getMessage(), e); } }); isInitialized = true; } } }
增长这个代码以后,请求 /actuator/prometheus
以后,能够看到对应的返回:
//省略其余的 # HELP root_logger_ring_buffer_remaining_capacity # TYPE root_logger_ring_buffer_remaining_capacity gauge root_logger_ring_buffer_remaining_capacity 262144.0 # HELP org_mybatis_logger_ring_buffer_remaining_capacity # TYPE org_mybatis_logger_ring_buffer_remaining_capacity gauge org_mybatis_logger_ring_buffer_remaining_capacity 262144.0 # HELP com_alibaba_druid_pool_DruidDataSourceStatLoggerImpl_logger_ring_buffer_remaining_capacity # TYPE com_alibaba_druid_pool_DruidDataSourceStatLoggerImpl_logger_ring_buffer_remaining_capacity gauge com_alibaba_druid_pool_DruidDataSourceStatLoggerImpl_logger_ring_buffer_remaining_capacity 262144.0 # HELP RocketmqClient_logger_ring_buffer_remaining_capacity # TYPE RocketmqClient_logger_ring_buffer_remaining_capacity gauge RocketmqClient_logger_ring_buffer_remaining_capacity 262144.0
这样,当这个值为 0 持续一段时间后(就表明 RingBuffer 满了,日志生成速度已经远大于消费写入 Appender 的速度了),咱们就认为这个应用日志负载太高了。