Linux系统性能10条命令监控

时间 2019-12-20

标签 linux 系统性能命令监控栏目 Linux 繁體版

原文原文链接

Linux系统性能10条命令监控

概述前端

经过执行如下命令，能够在1分钟内对系统资源使用状况有个大体的了解。java

uptime
dmesg | tail
vmstat 1
mpstat -P ALL 1
pidstat 1
iostat -xz 1
free -m
sar -n DEV 1
sar -n TCP,ETCP 1
top

其中一些命令须要安装sysstat包，有一些由procps包提供。这些命令的输出，有助于快速定位性能瓶颈，检查出全部资源（CPU、内存、磁盘IO 等）的利用率（utilization）、饱和度（saturation）和错误（error）度量，也就是所谓的USE方法。ios

下面咱们来逐一介绍下这些命令，有关这些命令更多的参数和说明，请参照命令的手册。docker

uptime后端

$ uptime
23:51:26 up 21:31,  1 user,  load average: 30.02, 26.43, 19.02

这个命令能够快速查看机器的负载状况。缓存

在Linux系统中，这些数据表示等待CPU资源的进程和阻塞在不可中断IO进程（进程状态为D）的数量。这些数据可让咱们对系统资源使用有一个宏观的了解。服务器

命令的输出分别表示1分钟、5分钟、15分钟的平均负载状况。经过这三个数据，能够了解服务器负载是在趋于紧张仍是区域缓解。若是1分钟平均负载很高，而 15分钟平均负载很低，说明服务器正在命令高负载状况，须要进一步排查CPU资源都消耗在了哪里。反之，若是15分钟平均负载很高，1分钟平均负载较低，则有多是CPU资源紧张时刻已通过去。网络

上面例子中的输出，能够看见最近1分钟的平均负载很是高，且远高于最近15分钟负载，所以咱们须要继续排查当前系统中有什么进程消耗了大量的资源。能够经过下文将会介绍的vmstat、mpstat等命令进一步排查。工具

dmesg | tail性能

$ dmesg | tail
[1880957.563150] perl invoked oom-killer: gfp_mask=0x280da, order=0, oom_score_adj=0
[...]
[1880957.563400] Out of memory: Kill process 18694 (perl) score 246 or sacrifice child
[1880957.563408] Killed process 18694 (perl) total-vm:1972392kB, anon-rss:1953348kB, 
file-rss:0kB
[2320864.954447] TCP: Possible SYN flooding on port 7001. Dropping request. 
 Check SNMP counters.

该命令会输出系统日志的最后10行。示例中的输出，能够看见一次内核的oom kill和一次TCP丢包。这些日志能够帮助排查性能问题。千万不要忘了这一步。

vmstat 1

$ vmstat 1
procs ---------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
34  0    0 200889792  73708 591828    0    0     0     5    6   10 96  1  3  0  0
32  0    0 200889920  73708 591860    0    0     0   592 13284 4282 98  1  1  0  0
32  0    0 200890112  73708 591860    0    0     0     0 9501 2154 99  1  0  0  0
32  0    0 200889568  73712 591856    0    0     0    48 11900 2459 99  0  0  0  0
32  0    0 200890208  73712 591860    0    0     0     0 15898 4840 98  1  1  0  0

vmstat命令，每行会输出一些系统核心指标，这些指标可让咱们更详细的了解系统状态。后面跟的参数1，表示每秒输出一次统计信息，表头提示了每一列的含义，这几介绍一些和性能调优相关的列：

r：等待在CPU资源的进程数。这个数据比平均负载更加可以体现CPU负载状况，数据中不包含等待IO的进程。若是这个数值大于机器CPU核数，那么机器的 CPU资源已经饱和。 free：系统可用内存数（以千字节为单位），若是剩余内存不足，也会致使系统性能问题。下文介绍到的free命令，能够更详细的了解系统内存的使用情况。

si, so：交换区写入和读取的数量。若是这个数据不为0，说明系统已经在使用交换区（swap），机器物理内存已经不足。

us, sy, id, wa, st：这些都表明了CPU时间的消耗，它们分别表示用户时间（user）、系统（内核）时间（sys）、空闲时间（idle）、IO等待时间（wait）和被偷走的时间（stolen，通常被其余虚拟机消耗）。

上述这些CPU时间，可让咱们很快了解CPU是否出于繁忙状态。通常状况下，若是用户时间和系统时间相加很是大，CPU出于忙于执行指令。若是IO等待时间很长，那么系统的瓶颈可能在磁盘IO。

示例命令的输出能够看见，大量CPU时间消耗在用户态，也就是用户应用程序消耗了CPU时间。这不必定是性能问题，须要结合r队列，一块儿分析。

　　procs
r 列表示运行和等待cpu时间片的进程数，若是长期大于1，说明cpu不足，须要增长cpu。
b 列表示在等待资源的进程数，好比正在等待I/O、或者内存交换等。

memory
swpd 切换到内存交换区的内存数量(k表示)。若是swpd的值不为0，或者比较大，好比超过了100m，只要si、so的值长期为0，系统性能仍是正常
free 当前的空闲页面列表中内存数量(k表示)
buff 做为buffer cache的内存数量，通常对块设备的读写才须要缓冲。
cache: 做为page cache的内存数量，通常做为文件系统的cache，若是cache较大，说明用到cache的文件较多，若是此时IO中bi比较小，说明文件系统效率比较好。

swap
si 由内存进入内存交换区数量。
so由内存交换区进入内存数量。

IO
bi 从块设备读入数据的总量（读磁盘）（每秒kb）。
bo 块设备写入数据的总量（写磁盘）（每秒kb）
这里咱们设置的bi+bo参考值为1000，若是超过1000，并且wa值较大应该考虑均衡磁盘负载，能够结合iostat输出来分析。

system 显示采集间隔内发生的中断数
in 列表示在某一时间间隔中观测到的每秒设备中断数。
cs列表示每秒产生的上下文切换次数，如当 cs 比磁盘 I/O 和网络信息包速率高得多，都应进行进一步调查。

cpu 表示cpu的使用状态
us 列显示了用户方式下所花费 CPU 时间的百分比。us的值比较高时，说明用户进程消耗的cpu时间多，可是若是长期大于50%，须要考虑优化用户的程序。
sy 列显示了内核进程所花费的cpu时间的百分比。这里us + sy的参考值为80%，若是us+sy 大于 80%说明可能存在CPU不足。
wa 列显示了IO等待所占用的CPU时间的百分比。这里wa的参考值为30%，若是wa超过30%，说明IO等待严重，这多是磁盘大量随机访问形成的，也可能磁盘或者磁盘访问控制器的带宽瓶颈形成的(主要是块操做)。
id 列显示了cpu处在空闲状态的时间百分比

mpstat -P ALL 1

$ mpstat -P ALL 1
Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015  _x86_64_ (32 CPU)
07:38:49 PM  CPU   %usr  %nice   %sys %iowait   %irq  %soft  %steal  %guest  %gnice  %idle
07:38:50 PM  all  98.47   0.00   0.75    0.00   0.00   0.00    0.00    0.00    0.00   0.78
07:38:50 PM    0  96.04   0.00   2.97    0.00   0.00   0.00    0.00    0.00    0.00   0.99
07:38:50 PM    1  97.00   0.00   1.00    0.00   0.00   0.00    0.00    0.00    0.00   2.00
07:38:50 PM    2  98.00   0.00   1.00    0.00   0.00   0.00    0.00    0.00    0.00   1.00
07:38:50 PM    3  96.97   0.00   0.00    0.00   0.00   0.00    0.00    0.00    0.00   3.03

该命令能够显示每一个CPU的占用状况，若是有一个CPU占用率特别高，那么有多是一个单线程应用程序引发的。

pidstat 1

$ pidstat 1
Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015    _x86_64_    (32 CPU)
07:41:02 PM   UID       PID    %usr %system  %guest    %CPU   CPU  Command
07:41:03 PM     0         9    0.00    0.94    0.00    0.94     1  rcuos/0
07:41:03 PM     0      4214    5.66    5.66    0.00   11.32    15  mesos-slave
07:41:03 PM     0      4354    0.94    0.94    0.00    1.89     8  java
07:41:03 PM     0      6521 1596.23    1.89    0.00 1598.11    27  java
07:41:03 PM     0      6564 1571.70    7.55    0.00 1579.25    28  java
07:41:03 PM 60004     60154    0.94    4.72    0.00    5.66     9  pidstat

07:41:03 PM   UID       PID    %usr %system  %guest    %CPU   CPU  Command
07:41:04 PM     0      4214    6.00    2.00    0.00    8.00    15  mesos-slave
07:41:04 PM     0      6521 1590.00    1.00    0.00 1591.00    27  java
07:41:04 PM     0      6564 1573.00   10.00    0.00 1583.00    28  java
07:41:04 PM   108      6718    1.00    0.00    0.00    1.00     0  snmp-pass
07:41:04 PM 60004     60154    1.00    4.00    0.00    5.00     9  pidstat

pidstat命令输出进程的CPU占用率，该命令会持续输出，而且不会覆盖以前的数据，能够方便观察系统动态。如上的输出，能够看见两个JAVA进程占用了将近1600%的CPU时间，既消耗了大约16个CPU核心的运算资源。

iostat -xz 1

输入iostat -x 1 10命令，表示开始监控输入输出状态，-x表示显示全部参数信息，1表示每隔1秒监控一次，10表示共监控10次。

其中rsec/s表示读入，wsec/s表示每秒写入，这两个参数某一个特别高的时候就表示磁盘IO有很大压力，util表示IO使用率，若是接近100%，说明IO满负荷运转

$ iostat -xz 1
Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015  _x86_64_ (32 CPU)
avg-cpu:  %user  %nice %system %iowait  %steal   %idle
          73.96   0.00   3.73    0.03    0.06    22.21
Device:   rrqm/s   wrqm/s   r/s   w/s    rkB/s    wkB/s  avgrq-sz  avgqu-sz  await r_await w_await svctm %util xvda 0.00 0.23 0.21 0.18 4.52 2.08 34.37 0.00 9.98 13.80 5.42 2.44 0.09 xvdb 0.01 0.00 1.02 8.94 127.97 598.53 145.79 0.00 0.43 1.78 0

iostat命令主要用于查看机器磁盘IO状况。该命令输出的列，主要含义是：

r/s, w/s, rkB/s, wkB/s：分别表示每秒读写次数和每秒读写数据量（千字节）。读写量过大，可能会引发性能问题。

await：IO操做的平均等待时间，单位是毫秒。这是应用程序在和磁盘交互时，须要消耗的时间，包括IO等待和实际操做的耗时。若是这个数值过大，多是硬件设备遇到了瓶颈或者出现故障。

avgqu-sz：向设备发出的请求平均数量。若是这个数值大于1，多是硬件设备已经饱和（部分前端硬件设备支持并行写入）。

%util：设备利用率。这个数值表示设备的繁忙程度，经验值是若是超过60，可能会影响IO性能（能够参照IO操做平均等待时间）。若是到达100%，说明硬件设备已经饱和。

在第2行系统发行版本下面的第四、5行，能够看到与top命令中CPU使用状况相似的信息，

　　第7行，能够看到一些IO指标：

　　　　tps: 每秒I/O传输请求量；

　　　　kB_read/s：每秒读取多少KB；

　　　　kB_wrtn/s：每秒写多少KB；

　　　　kB_read：一共读了多少KB；

　　　　kB_wrtn：一共写了多少KB。

　　iostat命令属于sysstat工具包，因为咱们的机器只挂载了一块硬盘，所以不能体现不一样设备的I/O区别。

若是显示的是逻辑设备的数据，那么设备利用率不表明后端实际的硬件设备已经饱和。值得注意的是，即便IO性能不理想，也不必定意味这应用程序性能会很差，能够利用诸如预读取、写缓存等策略提高应用性能。

free –m

$ free -m
             total       used       free     shared    buffers     cached
Mem:        245998      24545     221453         83         59        541
-/+ buffers/cache:      23944     222053
Swap:            0          0          0

free 命令能够查看系统内存的使用状况，-m参数表示按照兆字节展现。最后两列分别表示用于IO缓存的内存数，和用于文件系统页缓存的内存数。须要注意的是，第二行-/+ buffers/cache，看上去缓存占用了大量内存空间。这是Linux系统的内存使用策略，尽量的利用内存，若是应用程序须要内存，这部份内存会当即被回收并分配给应用程序。所以，这部份内存通常也被当成是可用内存。

若是可用内存很是少，系统可能会动用交换区（若是配置了的话），这样会增长IO开销（能够在iostat命令中提现），下降系统性能。

sar -n DEV 1

$ sar -n DEV 1
Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015     _x86_64_    (32 CPU)
12:16:48 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
12:16:49 AM      eth0  18763.00   5032.00  20686.42    478.30      0.00      0.00      0.00      0.00
12:16:49 AM        lo     14.00     14.00      1.36      1.36      0.00      0.00      0.00      0.00
12:16:49 AM   docker0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
12:16:49 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
12:16:50 AM      eth0  19763.00   5101.00  21999.10    482.56      0.00      0.00      0.00      0.00
12:16:50 AM        lo     20.00     20.00      3.25      3.25      0.00      0.00      0.00      0.00
12:16:50 AM   docker0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00

sar命令在这里能够查看网络设备的吞吐率。在排查性能问题时，能够经过网络设备的吞吐量，判断网络设备是否已经饱和。如示例输出中，eth0网卡设备，吞吐率大概在22 Mbytes/s，既176 Mbits/sec，没有达到1Gbit/sec的硬件上限。

sar -b 1

sar命令查看当天IO统计记录

sar -n TCP,ETCP 1

sar命令在这里用于查看TCP链接状态，其中包括：

active/s：每秒本地发起的TCP链接数，既经过connect调用建立的TCP链接；

passive/s：每秒远程发起的TCP链接数，即经过accept调用建立的TCP链接；

retrans/s：每秒TCP重传数量；

TCP链接数能够用来判断性能问题是否因为创建了过多的链接，进一步能够判断是主动发起的链接，仍是被动接受的链接。TCP重传多是由于网络环境恶劣，或者服务器压力过大致使丢包。

iotop

iotop命令相似于top命令，可是显示的是各个进程的I/O状况，对于定位I/O操做较重的进程有比较大的做用。

例5. iotop命令与进程的IO情况

top

top命令下按数字"1"

dstat

top命令包含了前面好几个命令的检查的内容。好比系统负载状况（uptime）、系统内存使用状况（free）、系统CPU使用状况（vmstat）等。所以经过这个命令，能够相对全面的查看系统负载的来源。同时，top命令支持排序，能够按照不一样的列排序，方便查找出诸如内存占用最多的进程、CPU占用率最高的进程等。

可是，top命令相对于前面一些命令，输出是一个瞬间值，若是不持续盯着，可能会错过一些线索。这时可能须要暂停top命令刷新，来记录和比对数据。

总结

排查Linux服务器性能问题还有不少工具，上面介绍的一些命令，能够帮助咱们快速的定位问题。例如前面的示例输出，多个证据证实有JAVA进程占用了大量CPU资源，以后的性能调优就能够针对应用程序进行。