用十条命令在一分钟内检查Linux服务器性能[转]

时间 2020-02-15

原文原文链接

概述html

经过执行如下命令，能够在1分钟内对系统资源使用状况有个大体的了解。前端

uptimejava
dmesg | tailios
vmstat 1docker
mpstat -P ALL 1后端
pidstat 1缓存
iostat -xz 1服务器
free -m网络
sar -n DEV 1ide
sar -n TCP,ETCP 1
top

其中一些命令须要安装sysstat包，有一些由procps包提供。这些命令的输出，有助于快速定位性能瓶颈，检查出全部资源（CPU、内存、磁盘IO等）的利用率（utilization）、饱和度（saturation）和错误（error）度量，也就是所谓的USE方法。

下面咱们来逐一介绍下这些命令，有关这些命令更多的参数和说明，请参照命令的手册。

dmesg | tail

该命令会输出系统日志的最后10行。示例中的输出，能够看见一次内核的oom kill和一次TCP丢包。这些日志能够帮助排查性能问题。千万不要忘了这一步。

vmstat 1

$ vmstat 1procs ---------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st34  0    0 200889792  73708 591828    0    0     0     5    6   10 96  1  3  0  032  0    0 200889920  73708 591860    0    0     0   592 13284 4282 98  1  1  0  032  0    0 200890112  73708 591860    0    0     0     0 9501 2154 99  1  0  0  032  0    0 200889568  73712 591856    0    0     0    48 11900 2459 99  0  0  0  032  0    0 200890208  73712 591860    0    0     0     0 15898 4840 98  1  1  0  0^C

vmstat(8) 命令，每行会输出一些系统核心指标，这些指标可让咱们更详细的了解系统状态。后面跟的参数1，表示每秒输出一次统计信息，表头提示了每一列的含义，这几介绍一些和性能调优相关的列：

r：等待在CPU资源的进程数。这个数据比平均负载更加可以体现CPU负载状况，数据中不包含等待IO的进程。若是这个数值大于机器CPU核数，那么机器的CPU资源已经饱和。
free：系统可用内存数（以千字节为单位），若是剩余内存不足，也会致使系统性能问题。下文介绍到的free命令，能够更详细的了解系统内存的使用状况。
si, so：交换区写入和读取的数量。若是这个数据不为0，说明系统已经在使用交换区（swap），机器物理内存已经不足。
us, sy, id, wa, st：这些都表明了CPU时间的消耗，它们分别表示用户时间（user）、系统（内核）时间（sys）、空闲时间（idle）、IO等待时间（wait）和被偷走的时间（stolen，通常被其余虚拟机消耗）。

上述这些CPU时间，可让咱们很快了解CPU是否出于繁忙状态。通常状况下，若是用户时间和系统时间相加很是大，CPU出于忙于执行指令。若是IO等待时间很长，那么系统的瓶颈可能在磁盘IO。

示例命令的输出能够看见，大量CPU时间消耗在用户态，也就是用户应用程序消耗了CPU时间。这不必定是性能问题，须要结合r队列，一块儿分析。

mpstat -P ALL 1

$ mpstat -P ALL 1Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015  _x86_64_ (32 CPU)07:38:49 PM  CPU   %usr  %nice   %sys %iowait   %irq  %soft  %steal  %guest  %gnice  %idle07:38:50 PM  all  98.47   0.00   0.75    0.00   0.00   0.00    0.00    0.00    0.00   0.7807:38:50 PM    0  96.04   0.00   2.97    0.00   0.00   0.00    0.00    0.00    0.00   0.9907:38:50 PM    1  97.00   0.00   1.00    0.00   0.00   0.00    0.00    0.00    0.00   2.0007:38:50 PM    2  98.00   0.00   1.00    0.00   0.00   0.00    0.00    0.00    0.00   1.0007:38:50 PM    3  96.97   0.00   0.00    0.00   0.00   0.00    0.00    0.00    0.00   3.03[...]

该命令能够显示每一个CPU的占用状况，若是有一个CPU占用率特别高，那么有多是一个单线程应用程序引发的。

pidstat 1

$ pidstat 1Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015    _x86_64_    (32 CPU)07:41:02 PM   UID       PID    %usr %system  %guest    %CPU   CPU  Command07:41:03 PM     0         9    0.00    0.94    0.00    0.94     1  rcuos/007:41:03 PM     0      4214    5.66    5.66    0.00   11.32    15  mesos-slave07:41:03 PM     0      4354    0.94    0.94    0.00    1.89     8  java07:41:03 PM     0      6521 1596.23    1.89    0.00 1598.11    27  java07:41:03 PM     0      6564 1571.70    7.55    0.00 1579.25    28  java07:41:03 PM 60004     60154    0.94    4.72    0.00    5.66     9  pidstat07:41:03 PM   UID       PID    %usr %system  %guest    %CPU   CPU  Command07:41:04 PM     0      4214    6.00    2.00    0.00    8.00    15  mesos-slave07:41:04 PM     0      6521 1590.00    1.00    0.00 1591.00    27  java07:41:04 PM     0      6564 1573.00   10.00    0.00 1583.00    28  java07:41:04 PM   108      6718    1.00    0.00    0.00    1.00     0  snmp-pass07:41:04 PM 60004     60154    1.00    4.00    0.00    5.00     9  pidstat^C

pidstat命令输出进程的CPU占用率，该命令会持续输出，而且不会覆盖以前的数据，能够方便观察系统动态。如上的输出，能够看见两个JAVA进程占用了将近1600%的CPU时间，既消耗了大约16个CPU核心的运算资源。

iostat -xz 1

$ iostat -xz 1Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015  _x86_64_ (32 CPU)
avg-cpu:  %user   %nice %system %iowait  %steal   %idle          73.96    0.00    3.73    0.03    0.06   22.21Device:   rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
xvda        0.00     0.23    0.21    0.18     4.52     2.08    34.37     0.00    9.98   13.80    5.42   2.44   0.09xvdb        0.01     0.00    1.02    8.94   127.97   598.53   145.79     0.00    0.43    1.78    0.28   0.25   0.25xvdc        0.01     0.00    1.02    8.86   127.79   595.94   146.50     0.00    0.45    1.82    0.30   0.27   0.26dm-0        0.00     0.00    0.69    2.32    10.47    31.69    28.01     0.01    3.23    0.71    3.98   0.13   0.04dm-1        0.00     0.00    0.00    0.94     0.01     3.78     8.00     0.33  345.84    0.04  346.81   0.01   0.00dm-2        0.00     0.00    0.09    0.07     1.35     0.36    22.50     0.00    2.55    0.23    5.62   1.78   0.03[...]^C

iostat命令主要用于查看机器磁盘IO状况。该命令输出的列，主要含义是：

r/s, w/s, rkB/s, wkB/s：分别表示每秒读写次数和每秒读写数据量（千字节）。读写量过大，可能会引发性能问题。
await：IO操做的平均等待时间，单位是毫秒。这是应用程序在和磁盘交互时，须要消耗的时间，包括IO等待和实际操做的耗时。若是这个数值过大，多是硬件设备遇到了瓶颈或者出现故障。
avgqu-sz：向设备发出的请求平均数量。若是这个数值大于1，多是硬件设备已经饱和（部分前端硬件设备支持并行写入）。
%util：设备利用率。这个数值表示设备的繁忙程度，经验值是若是超过60，可能会影响IO性能（能够参照IO操做平均等待时间）。若是到达100%，说明硬件设备已经饱和。

若是显示的是逻辑设备的数据，那么设备利用率不表明后端实际的硬件设备已经饱和。值得注意的是，即便IO性能不理想，也不必定意味这应用程序性能会很差，能够利用诸如预读取、写缓存等策略提高应用性能。

sar -n DEV 1

$ sar -n DEV 1Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015     _x86_64_    (32 CPU)12:16:48 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil12:16:49 AM      eth0  18763.00   5032.00  20686.42    478.30      0.00      0.00      0.00      0.0012:16:49 AM        lo     14.00     14.00      1.36      1.36      0.00      0.00      0.00      0.0012:16:49 AM   docker0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.0012:16:49 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil12:16:50 AM      eth0  19763.00   5101.00  21999.10    482.56      0.00      0.00      0.00      0.0012:16:50 AM        lo     20.00     20.00      3.25      3.25      0.00      0.00      0.00      0.0012:16:50 AM   docker0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00^C

sar命令在这里能够查看网络设备的吞吐率。在排查性能问题时，能够经过网络设备的吞吐量，判断网络设备是否已经饱和。如示例输出中，eth0网卡设备，吞吐率大概在22 Mbytes/s，既176 Mbits/sec，没有达到1Gbit/sec的硬件上限。

sar -n TCP,ETCP 1

$ sar -n TCP,ETCP 1Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015    _x86_64_    (32 CPU)12:17:19 AM  active/s passive/s    iseg/s    oseg/s12:17:20 AM      1.00      0.00  10233.00  18846.0012:17:19 AM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s12:17:20 AM      0.00      0.00      0.00      0.00      0.0012:17:20 AM  active/s passive/s    iseg/s    oseg/s12:17:21 AM      1.00      0.00   8359.00   6039.0012:17:20 AM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s12:17:21 AM      0.00      0.00      0.00      0.00      0.00^C

sar命令在这里用于查看TCP链接状态，其中包括：

active/s：每秒本地发起的TCP链接数，既经过connect调用建立的TCP链接；
passive/s：每秒远程发起的TCP链接数，即经过accept调用建立的TCP链接；
retrans/s：每秒TCP重传数量；

TCP链接数能够用来判断性能问题是否因为创建了过多的链接，进一步能够判断是主动发起的链接，仍是被动接受的链接。TCP重传多是由于网络环境恶劣，或者服务器压力过大致使丢包。