一文让你明白平均负载

1. 什么是平均负载

首先,咱们先理解下什么是平均负载。编程

平均负载是指单位时间内,系统处于可运行状态不可中断状态的平均进程数,也就是平均活跃进程数,它和 CPU 使用率并无直接关系。(为何和 CPU 使用率没直接关系,这个我后面说明)设计模式

那么问题来了,可运行状态和不可中断状态又是什么东西呢?性能优化

所谓可运行状态的进程,是指正在使用 CPU 或者正在等待 CPU 的进程,也就是咱们经常使用 ps 命令看到的,处于 R 状态(Running 或 Runnable)的进程。bash

而不可中断状态的进程,则是正处于内核态关键流程中的进程,而且这些流程是不可打断的,好比最多见的是等待硬件设备的 I/O 响应,也就是咱们在 ps 命令中看到的 D 状态(Uninterruptible Sleep,也称为 Disk Sleep)的进程。微信

好比,当一个进程向磁盘读写数据时,为了保证数据的一致性,在获得磁盘回复前,它是不能被其余进程或者中断打断的,这个时候的进程就处于不可中断状态。若是此时的进程被打断了,就容易出现磁盘数据与进程数据不一致的问题。数据结构

因此,不可中断状态其实是系统对进程和硬件设备的一种保护机制。架构

明白了什么是平均负载后,那么天然就是要知道怎么用了。性能

2. 如何查看平均负载

当咱们使用 uptime 命令时,会出现如下结果(这是我本机的结果,每一个人的机器状况不同)优化

$ uptime
02:34:03 up 2 days, 20:14,  1 user,  load average: 0.63, 0.83, 0.88
复制代码

对应解释:spa

02:34:03              // 当前时间
up 2 days, 20:14      // 系统运行时间
1 user                // 正在登陆用户数

最后三个数字呢,依次则是过去 1 分钟、5 分钟、15 分钟的平均负载(Load Average)。
复制代码

明白了怎么看平均负载后,那么平均负载究竟是多少才是合理的呢?

3. 平均负载的合理值

当平均负载高于 CPU 数量 70% 的时候。就应该分析排查负载高的问题了。一旦负载太高,就可能致使进程响应变慢,进而影响服务的正常功能。

但 70% 这个数字并非绝对的,最推荐的方法,仍是把系统的平均负载监控起来,而后根据更多的历史数据,判断负载的变化趋势(可从 uptime 获得的三个数字分析)。当发现负载有明显升高趋势时,好比说负载翻倍了,你再去作分析和调查。

平均负载在最理想的状况下,就是每一个 CPU 上都恰好运行着一个进程,这样每一个 CPU 都获得了充分利用。

好比当平均负载为 2 时,意味着什么呢?

  • 在只有 2 个 CPU 的系统上,意味着全部的 CPU 都恰好被彻底占用。
  • 在 4 个 CPU 的系统上,意味着 CPU 有 50% 的空闲。
  • 而在只有 1 个 CPU 的系统中,则意味着有一半的进程竞争不到 CPU。

好了,关于平均负载的基本知识差很少就是这样。如今,我来填下开头的坑 —— 为何和 CPU 使用率没直接关系呢?

4. 平均负载与 CPU 使用率

在文章最开始的时候就有提到,平均负载是指单位时间内,处于可运行状态和不可中断状态的平均进程数。因此,它不只包括了正在使用 CPU的进程,还包括等待 CPU等待 IO的进程。

而 CPU 使用率,是单位时间内 CPU 繁忙状况的统计,跟平均负载并不必定彻底对应。好比:

  • CPU 密集型进程,使用大量 CPU 会致使平均负载升高,此时这二者是一致的。
  • I/O 密集型进程,等待 I/O 也会致使平均负载升高,但 CPU 使用率不必定很高。
  • 大量等待 CPU 的进程调度也会致使平均负载升高,此时的 CPU 使用率也会比较高

以上,就是文章的所有内容了,若是以为有帮助的话,那就点个赞吧

本文整理自极客时间:《Linux性能优化实战》

PS:本文原创发布于微信公众号「不仅Java」,后台回复如下关键字获取经典必读书籍: Java、MySQL、Redis、Linux、mq、数据结构、设计模式、编程思想、架构。

公众号专一分享 Java 干货、读书笔记、成长思考。