单位时间内,系统处于可运行状态和不可终端状态的平均进程数也就是平均活跃进程数,它和cpu使用率并无直接关系,linux
正在使用的cpu或者正在等待cpu的进程bash
进程是正处于内核关键流程中的进程,而且这些流程是不可打断的,好比最多见的是等待硬件设备I/O响应,也就是咱们在ps命令中看到的D状态的状态网络
或者中断打断的 ,这个时候的 进程处于不可终端状态,若是此时的进程被打断了 ,就容易出现磁盘数据与进程不一致的 问题工具
因此,不可中断状态其实是系统对进程和硬件的一种保护机制测试
既然是平均的活跃进程数,那么最理想的,就是每一个cpu上都恰好运行着一个进程,这样每一个cpu都获得了充分利用,好比当平均负载2时,意味着什么呢?ui
一、在只有2个CPU的系统上,意味着全部的CPU都恰好被彻底占用spa
二、在4个CPU的系统上,意味着CPU有50%的空闲操作系统
三、而在只有1个CPU的系统上,则意味着有一半的进程竞争不到CPU.net
平均负载最理想的状况等于CPU的个数blog
# 关于 grep 和 wc 的用法请查询它们的手册或者网络搜索
$ grep 'model name' /proc/cpuinfo | wc -l 2
当平均负载高于 CPU 数量 70% 排查负载高的问题了。一旦负载太高,就可能致使进程响应变慢,进而影响服务的正常功能。
一、正在使用 CPU 的进程,
二、等待 CPU
三、等待 I/O 的进程。
是单位时间内CPU繁忙状况的 统计,跟平均负载并不必定彻底对应
一、CPU 密集型进程,使用大量 CPU 会致使平均负载升高,此时这二者一直的
二、I/O 密集型进程,等待 I/O 也会致使平均负载升高,但 CPU 使用率不必定很高;
三、大量等待 CPU 的进程调度也会致使平均负载升高,此时的CPU 使用率也会比较高
一、操做系统
[root@luoahong ~]# cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core)
二、测试工具
yum install stress-ng sysstat -y wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo
三、升级sysstat版本到11.5以上
rpm -qa|grep sysstat wget http://www.rpmfind.net/linux/mageia/distrib/cauldron/x86_64/media/core/release/sysstat-12.1.3-1.mga7.x86_64.rpm rpm -Uvh sysstat-12.1.3-1.x86_64.rpm rpm -qa|grep sysstat
一、窗口1
[root@luoahong ~]# stress --cpu 1 --timeout 600 stress: info: [1307] dispatching hogs: 1 cpu, 0 io, 0 vm, 0 hdd
二、窗口2
[root@luoahong ~]# stress --cpu 1 --timeout 600 stress: info: [1307] dispatching hogs: 1 cpu, 0 io, 0 vm, 0 hdd
1 分钟的平均负载会慢慢增长到 1.00
三、窗口3
#-P ALL 表示监控全部 CPU,后面数字 5 表示间隔 5 秒后输出一组数据 [root@luoahong ~]# mpstat -P ALL 5 03:47:20 PM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle 03:47:25 PM all 25.29 0.00 0.05 0.05 0.00 0.05 0.00 0.00 0.00 74.55 03:47:25 PM 0 99.80 0.00 0.00 0.00 0.00 0.20 0.00 0.00 0.00 0.00 03:47:25 PM 1 0.00 0.00 0.20 0.20 0.00 0.00 0.00 0.00 0.00 99.59 03:47:25 PM 2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00 03:47:25 PM 3 0.21 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 99.79 03:47:25 PM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle 03:47:30 PM all 24.94 0.00 0.10 0.00 0.00 0.05 0.00 0.00 0.00 74.91 03:47:30 PM 0 99.80 0.00 0.00 0.00 0.00 0.20 0.00 0.00 0.00 0.00 03:47:30 PM 1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00 03:47:30 PM 2 0.00 0.00 0.20 0.00 0.00 0.00 0.00 0.00 0.00 99.80 03:47:30 PM 3 0.00 0.00 0.20 0.00 0.00 0.00 0.00 0.00 0.00 99.80
正好有一个 CPU 的使用率为 100%,但它的只有 0。这说明,平均负载的升高正是因为 CPU 使用率为 100% 。
那么,究竟是哪一个进程致使了 CPU 使用率为 100% 呢?你可使用 pidstat 来查询
[root@luoahong ~]# pidstat -u 5 1 Linux 3.10.0-693.el7.x86_64 (luoahong) 02/05/2019 _x86_64_ (4 CPU) 03:51:51 PM UID PID %usr %system %guest %wait %CPU CPU Command 03:51:56 PM 0 79 0.00 0.59 0.00 0.20 0.59 2 kworker/2:2 03:51:56 PM 0 309 0.00 0.20 0.00 0.00 0.20 0 xfsaild/sda2 03:51:56 PM 0 738 0.40 0.00 0.00 0.20 0.40 1 vmtoolsd 03:51:56 PM 0 1308 99.80 0.20 0.00 0.00 100.00 3 stress 03:51:56 PM 0 1501 0.20 0.20 0.00 0.00 0.40 0 watch 03:51:56 PM 0 1752 0.00 0.40 0.00 0.00 0.40 1 pidstat Average: UID PID %usr %system %guest %wait %CPU CPU Command Average: 0 79 0.00 0.59 0.00 0.20 0.59 - kworker/2:2 Average: 0 309 0.00 0.20 0.00 0.00 0.20 - xfsaild/sda2 Average: 0 738 0.40 0.00 0.00 0.20 0.40 - vmtoolsd Average: 0 1308 99.80 0.20 0.00 0.00 100.00 - stress Average: 0 1501 0.20 0.20 0.00 0.00 0.40 - watch Average: 0 1752 0.00 0.40 0.00 0.00 0.40 - pidstat
从这里能够明显看到,stress 进程的 CPU 使用率为 99.80
一、窗口1
stress-ng -i 1 --hdd 1 --timeout 600
二、窗口2
# -d 参数表示高亮显示变化的区域 $ watch -d uptime ..., load average: 2.17, 0.84, 0.40
三、窗口3
[root@luoahong ~]# mpstat -P ALL 5 1 Linux 3.10.0-693.el7.x86_64 (luoahong) 02/05/2019 _x86_64_ (2 CPU) 08:58:00 PM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle 08:58:05 PM all 0.32 0.00 54.64 40.51 0.00 1.79 0.00 0.00 0.00 2.74 08:58:05 PM 0 0.43 0.00 27.55 66.59 0.00 3.47 0.00 0.00 0.00 1.95 08:58:05 PM 1 0.21 0.00 80.29 15.81 0.00 0.21 0.00 0.00 0.00 3.49 Average: CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle Average: all 0.32 0.00 54.64 40.51 0.00 1.79 0.00 0.00 0.00 2.74 Average: 0 0.43 0.00 27.55 66.59 0.00 3.47 0.00 0.00 0.00 1.95 Average: 1 0.21 0.00 80.29 15.81 0.00 0.21 0.00 0.00 0.00 3.49
1 分钟的平均负载会慢慢增长到 1.00
其中一个 CPU 的系统 CPU 使用率升高到了 27.55,而 iowait 高达 66.59%。这说明,平均负载的升高是因为 iowait 的升高。
那么,究竟是哪一个进程致使了 CPU 使用率为 100% 呢?
[root@luoahong ~]# pidstat -u 5 1 Linux 3.10.0-693.el7.x86_64 (luoahong) 02/05/2019 _x86_64_ (2 CPU) 09:02:14 PM UID PID %usr %system %guest %wait %CPU CPU Command 09:02:19 PM 0 3 0.00 2.17 0.00 0.79 2.17 0 ksoftirqd/0 09:02:19 PM 0 9 0.00 0.40 0.00 3.36 0.40 0 rcu_sched 09:02:19 PM 0 13 0.00 0.20 0.00 1.19 0.20 1 ksoftirqd/1 09:02:19 PM 0 291 0.00 0.20 0.00 0.99 0.20 0 xfsaild/sda2 09:02:19 PM 0 683 0.20 0.20 0.00 0.59 0.40 0 vmtoolsd 09:02:19 PM 0 3732 0.00 1.78 0.00 1.78 1.78 0 kworker/0:0 09:02:19 PM 0 4492 0.59 72.33 0.00 0.79 72.92 0 stress-ng-hdd 09:02:19 PM 0 4493 0.00 3.75 0.00 0.79 3.75 0 stress-ng-io 09:02:19 PM 0 4496 0.00 6.13 0.00 0.20 6.13 0 kworker/u256:1 09:02:19 PM 0 4589 0.00 0.40 0.00 0.40 0.40 1 kworker/1:2 09:02:19 PM 0 4621 0.00 0.40 0.00 0.00 0.40 1 pidstat Average: UID PID %usr %system %guest %wait %CPU CPU Command Average: 0 3 0.00 2.17 0.00 0.79 2.17 - ksoftirqd/0 Average: 0 9 0.00 0.40 0.00 3.36 0.40 - rcu_sched Average: 0 13 0.00 0.20 0.00 1.19 0.20 - ksoftirqd/1 Average: 0 291 0.00 0.20 0.00 0.99 0.20 - xfsaild/sda2 Average: 0 683 0.20 0.20 0.00 0.59 0.40 - vmtoolsd Average: 0 3732 0.00 1.78 0.00 1.78 1.78 - kworker/0:0 Average: 0 4492 0.59 72.33 0.00 0.79 72.92 - stress-ng-hdd Average: 0 4493 0.00 3.75 0.00 0.79 3.75 - stress-ng-io Average: 0 4496 0.00 6.13 0.00 0.20 6.13 - kworker/u256:1 Average: 0 4589 0.00 0.40 0.00 0.40 0.40 - kworker/1:2 Average: 0 4621 0.00 0.40 0.00 0.00 0.40 - pidstat
当系统中运行进程超出CPU运行能力时,就会出现等待CPU的进程。
好比,咱们仍是使用stress,但此次模拟的 是8个进程:
一、窗口1
[root@luoahong ~]# stress -c 8 --timeout 600 stress: info: [5270] dispatching hogs: 8 cpu, 0 io, 0 vm, 0 hdd
二、窗口2
[root@luoahong ~]# uptime 21:16:07 up 1:43, 3 users, load average: 5.98, 2.14, 1.19
三、窗口3
[root@luoahong ~]# pidstat -u 5 1 Linux 3.10.0-693.el7.x86_64 (luoahong) 02/05/2019 _x86_64_ (2 CPU) 09:15:30 PM UID PID %usr %system %guest %wait %CPU CPU Command 09:15:35 PM 0 683 0.20 0.00 0.00 1.37 0.20 0 vmtoolsd 09:15:35 PM 0 1049 0.00 0.20 0.00 0.00 0.20 0 tuned 09:15:35 PM 0 4622 0.00 0.39 0.00 0.39 0.39 1 kworker/1:0 09:15:35 PM 0 4624 0.20 0.20 0.00 0.59 0.39 0 watch 09:15:35 PM 0 5271 24.31 0.00 0.00 74.31 24.31 1 stress 09:15:35 PM 0 5272 24.51 0.00 0.00 74.12 24.51 0 stress 09:15:35 PM 0 5273 24.31 0.00 0.00 73.92 24.31 1 stress 09:15:35 PM 0 5274 24.12 0.00 0.00 74.12 24.12 0 stress 09:15:35 PM 0 5275 24.31 0.00 0.00 74.12 24.31 1 stress 09:15:35 PM 0 5276 24.31 0.20 0.00 73.73 24.51 0 stress 09:15:35 PM 0 5277 24.31 0.20 0.00 74.31 24.51 1 stress 09:15:35 PM 0 5278 24.31 0.20 0.00 74.71 24.51 0 stress 09:15:35 PM 0 5326 0.00 0.20 0.00 0.39 0.20 0 pidstat Average: UID PID %usr %system %guest %wait %CPU CPU Command Average: 0 683 0.20 0.00 0.00 1.37 0.20 - vmtoolsd Average: 0 1049 0.00 0.20 0.00 0.00 0.20 - tuned Average: 0 4622 0.00 0.39 0.00 0.39 0.39 - kworker/1:0 Average: 0 4624 0.20 0.20 0.00 0.59 0.39 - watch Average: 0 5271 24.31 0.00 0.00 74.31 24.31 - stress Average: 0 5272 24.51 0.00 0.00 74.12 24.51 - stress Average: 0 5273 24.31 0.00 0.00 73.92 24.31 - stress Average: 0 5274 24.12 0.00 0.00 74.12 24.12 - stress Average: 0 5275 24.31 0.00 0.00 74.12 24.31 - stress Average: 0 5276 24.31 0.20 0.00 73.73 24.51 - stress Average: 0 5277 24.31 0.20 0.00 74.31 24.51 - stress Average: 0 5278 24.31 0.20 0.00 74.71 24.51 - stress Average: 0 5326 0.00 0.20 0.00 0.39 0.20 - pidstat
能够看出,8 个进程在争抢 2 个 CPU,每一个进程等待CPU 的时间(也就是代码块中的 %wait 列)高达 75%这些超出 CPU 计算能力的进程,最终致使 CPU 过载。
一、平均负载高有多是 CPU 密集型进程致使的; 二、平均负载负载高并不必定表明 CPU 使用率高,还有多是 I/O I/O 更繁忙了三、当发现负载高的时候,你可使用 mpstat、pidstat等工具,辅助分析负载的来源