linux实时监控命令

时间 2019-12-01

标签 linux 实时监控命令栏目 Linux 繁體版

原文原文链接

一、查看磁盘IO iostat -x 1 10 查看设备使用率（%util）、响应时间（await） ios

avg-cpu: %user   %nice %system %iowait %steal   %idle
           27.13    0.00   21.90    3.71    0.00   47.26

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await svctm %util
sdd               0.00     0.00   18.00 117.00 1524.00 12667.50   210.24     0.36    2.65   2.09 28.20
sdj               0.00     0.00   15.00 209.00   536.00 14855.00   137.42     0.74    3.38   1.70 38.00 nginx

rrqm/s：每秒这个设备相关的读取请求有多少被Merge了（当系统调用须要读取数据的时候，VFS将请求发到各个FS，若是FS发现不一样的读取请求读取的是相同Block的数据，FS会将这个请求合并Merge）；

wrqm/s：每秒这个设备相关的写入请求有多少被Merge了。

rsec/s：每秒读取的扇区数；

wsec/：每秒写入的扇区数。

rKB/s：The number of read requests that were issued to the device per second；

wKB/s：The number of write requests that were issued to the device per second；

avgrq-sz 平均请求扇区的大小 avgqu-sz 是平均请求队列的长度。毫无疑问，队列长度越短越好。

await：每个IO请求的处理的平均时间（单位是微秒毫秒）。这里能够理解为IO的响应时间，通常地系统IO响应时间应该低于5ms，若是大于10ms就比较大了。这个时间包括了队列时间和服务时间，也就是说，通常状况下，await大于svctm，它们的差值越小，则说明队列时间越短，反之差值越大，队列时间越长，说明系统出了问题。

svctm 表示平均每次设备I/O操做的服务时间（以毫秒为单位）。若是svctm的值与await很接近，表示几乎没有I/O等待，磁盘性能很好，若是await的值远高于svctm的值，则表示I/O队列等待太长，系统上运行的应用程序将变慢。

%util：在统计时间内全部处理IO时间，除以总共统计时间。例如，若是统计间隔1秒，该设备有0.8秒在处理IO，而0.2秒闲置，那么该设备的%util = 0.8/1 = 80%，因此该参数暗示了设备的繁忙程度。通常地，若是该参数是100%表示设备已经接近满负荷运行了（固然若是是多磁盘，即便%util是100%，由于磁盘的并发能力，因此磁盘使用未必就到了瓶颈）。

二、查看内存CPU，使用状况vmstat 2 10 web

r 表示运行队列(就是说多少个进程真的分配到CPU)，我测试的服务器目前CPU比较空闲，没什么程序在跑，当这个值超过了CPU数目，就会出现CPU瓶颈了。这个也和top的负载有关系，通常负载超过了3就比较高，超过了5就高，超过了10就不正常了，服务器的状态很危险。top的负载相似每秒的运行队列。若是运行队列过大，表示你的CPU很繁忙，通常会形成CPU使用率很高。 apache

b 表示阻塞的进程,这个很少说，进程阻塞，你们懂的。缓存

swpd 虚拟内存已使用的大小，若是大于0，表示你的机器物理内存不足了，若是不是程序内存泄露的缘由，那么你该升级内存了或者把耗内存的任务迁移到其余机器。 bash

free 空闲的物理内存的大小，个人机器内存总共8G，剩余3415M。服务器

buff Linux/Unix系统是用来存储，目录里面有什么内容，权限等的缓存，我本机大概占用300多M 网络

cache cache直接用来记忆咱们打开的文件,给文件作缓冲，我本机大概占用300多M(这里是Linux/Unix的聪明之处，把空闲的物理内存的一部分拿来作文件和目录的缓存，是为了提升程序执行的性能，当程序使用内存时，buffer/cached会很快地被使用。) 并发

si 每秒从磁盘读入虚拟内存的大小，若是这个值大于0，表示物理内存不够用或者内存泄露了，要查找耗内存进程解决掉。个人机器内存充裕，一切正常。函数

so 每秒虚拟内存写入磁盘的大小，若是这个值大于0，同上。

bi 块设备每秒接收的块数量，这里的块设备是指系统上全部的磁盘和其余块设备，默认块大小是1024byte，我本机上没什么IO操做，因此一直是0，可是我曾在处理拷贝大量数据(2-3T)的机器上看过能够达到140000/s，磁盘写入速度差很少140M每秒

bo 块设备每秒发送的块数量，例如咱们读取文件，bo就要大于0。bi和bo通常都要接近0，否则就是IO过于频繁，须要调整。

in 每秒CPU的中断次数，包括时间中断

cs 每秒上下文切换次数，例如咱们调用系统函数，就要进行上下文切换，线程的切换，也要进程上下文切换，这个值要越小越好，太大了，要考虑调低线程或者进程的数目,例如在apache和nginx这种web服务器中，咱们通常作性能测试时会进行几千并发甚至几万并发的测试，选择web服务器的进程能够由进程或者线程的峰值一直下调，压测，直到cs到一个比较小的值，这个进程和线程数就是比较合适的值了。系统调用也是，每次调用系统函数，咱们的代码就会进入内核空间，致使上下文切换，这个是很耗资源，也要尽可能避免频繁调用系统函数。上下文切换次数过多表示你的CPU大部分浪费在上下文切换，致使CPU干正经事的时间少了，CPU没有充分利用，是不可取的。

us 用户CPU时间，我曾经在一个作加密解密很频繁的服务器上，能够看到us接近100,r运行队列达到80(机器在作压力测试，性能表现不佳)。

sy 系统CPU时间，若是过高，表示系统调用时间长，例如是IO操做频繁。

id 空闲 CPU时间，通常来讲，id + us + sy = 100,通常我认为id是空闲CPU使用率，us是用户CPU使用率，sy是系统CPU使用率。

wt 等待IO CPU时间。

三、网络状况ifstat / iftop / dstat

四、安装

#yum install dstat

使用yum，如何安装iostat
sysstat 使用yum安装
#yum install sysstat

sysstat的安装包是：sysstat-5.0.5-1.i386.rpm，装完了sysstat-5.0.5-1.i386.rpm
后就会有iostat、mpstat、sar、sa的功能，sysstat-5.0.5-1.i386.rpm

启动sysstat
/etc/init.d/sysstat start

设置sysstat自启动
#checkfig sysstat on

五、统计平均值

取样CPU、网络IO dstat| awk -F "[ |]+" 'BEGIN{max=0;count=0;curr=100}{if(match($0, "total")<=1 && match($0, "idl")<=1){gsub("M","");count++;sysc+=$1+$2;max=(($1+$2) >max ?($1+$2):max);if($10<1000)recv+=$10;if($11<1000)send+=$11;};if(count%curr==0){{print "sysc=",sysc/curr,"Max=",max,"recv=",recv/curr,"send=",send/curr};sysc=0;max=0;recv=0;send=0 }}'

取样磁盘IO iostat -dx 3 50|awk 'BEGIN{max=0;count=0}{if($1=="sdb"){count++;await+=$10;util+=$12;max=($10 >max ?$10:max)} } {print $0}END {print "await=",await/count,"utilavg=",util/(count-1),"Max=",max}'

awk时间使用样例vmstat | awk '{if(match($0, "proc")==1)print substr($0, 1,1),strftime("%m-%d %H:%M:%S")}'

取样cpu,网络脚本

#!/bin/bash
dstat| awk -F "[ |]+" 'BEGIN{max=0;count=0;curr=300}{ \
if(match($0, "total")<=1 && match($0, "idl")<=1){gsub("M","");count++;sysc+=$1+$2;max=(($1+$2) >max ?($1+$2):max);if($10<1000)recv+=$10;if($11<1000)send+=$11;};if(count%curr==0){ \
{now=strftime("%y-%m-%d %T",systime());}{print now,"sysc=",sysc/curr,"Max=",max,"recv=",recv/curr,"send=",send/curr >> "/usr/local/nds/log/dstat2015.log";fflush(stdout)};sysc=0;max=0;recv=0;send=0 }}'

六、查看进程内存

ps -e -o 'pid,comm,args,pcpu,rsz,vsz,stime,user,uid' |grep ceph 其中rsz是是实际内存