三种系统监控工具对比：top vs Htop vs Glances

下面是一些挑战：

A.交互仍是批处理模式？

默认状况下，Top 被调用时使用交互模式。在此模式下，Top 无限期运行，并能够经过按键从新定义 Top 的运行方式。可是，有时你须要对 Top 的输出进行后续处理，但这在此模式下难以实现。解决方法？使用批处理模式。

$ top -b

你将得到相似下面的输出：

top - 15:22:45 up  4:19,  5 users,  load average: 0.00, 0.03, 0.00 Tasks: 60 total, 1 running, 59 sleeping, 0 stopped, 0 zombie Cpu(s): 3.8% us, 2.9% sy, 0.0% ni, 89.6% id, 3.3% wa, 0.4% hi, 0.0% si Mem: 515896k total, 495572k used, 20324k free, 13936k buffers Swap: 909676k total, 4k used, 909672k free, 377608k cached PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 1 root 16 0 1544 476 404 S 0.0 0.1 0:01.35 init 2 root 34 19 0 0 0 S 0.0 0.0 0:00.02 ksoftirqd/0 3 root 10 -5 0 0 0 S 0.0 0.0 0:00.11 events/0

哈，等等，它是不断重复运行的，同交互模式同样。不用担忧，你可使用 -n 限制重复数量。因此，若是你但愿得到一次性结果，键入：

$ top -b -n 1

这一模式的真正优点在于你能够很容易的与 at 或 cron 命令结合。它们的结合，使得 Top 能够在特定时间对资源使用状态进行快照。例如，使用 at ，咱们能够设定 top 在一分钟以后运行。

$ cat ./test.at TERM=linux top -b -n 1 >/tmp/top-report.txt $ at -f ./test.at now+1minutes

细心的读者可能会问“在建立新任务时，为何我须要在调用 Top 以前设置环境变量 TERM？”。答案是，Top 运行时须要此变量，但“at”在定时调用时并不会保留它。同上面那样简单的设置能够确保 Top 正常运行。

翻译于 2013/04/10 14:00

顶

4

B.如何监控制定进程？

有时，咱们只对几个进程感兴趣，可能只是所有进程中的4个或5个。例如，若是你想要监测进程标识（PID）为4360和4358的进程，你须要键入：

$ top -p 4360,4358

或

$ top -p 4360 -p 4358

看起来很简单，只须要使用 -p 列出全部须要的 PID，并使用逗号间隔或简单的屡次使用 -p便可。
另外一种多是监测拥有特定用户标识（UID）的进程。应对此需求，你可使用 -u 或 -U 选项。假设用户“johndoe”的 UID 为500，键入：

$ top -u johndoe

OR

$ top -u 500

或

$ top -U johndoe

结论是，你既能够纯使用用户名，也可以使用数字 UID。“-u，-U？这二者不一样？”是的。同多数其它 GNU 工具同样，选项是大小写敏感的。-U 意味着 Top 将会搜索有效的、真实的、被保存的以及文件系统的 UID 进行匹配，而 -u 仅匹配有效的用户id。要知道，每个 *nix 进程在运行时都是用有效用户标识（effective UID），而其中有些并不等同真实用户标识。多数状况是，对相似文件系统权限或操做系统功能这项的有效用户标识感兴趣的人将会检查它，而不是 UID。
不一样于 -p 仅用于命令行选项，-U 和 -u 均可以在交互模式中使用。同你猜想的同样，键入‘U’或‘u’能够依据用户名过滤进程。一样的规则依然适用，‘u’为有效用户标识，‘U’为真实/有效/保存/文件系统用户名。你将被要求键入用户名或数字 UID。

翻译于 2013/04/10 14:25

顶

3

C.快熟仍是缓慢更新？

在回答这个问题以前，让咱们先简单介绍一下，Top 是如何运行的。这里，Strace 可以帮助你：

$ strace -o /tmp/trace.txt top -b -n 1

使用你偏心的文本编辑器打开 /tmp/trace.txt。你怎么想？一次调用有太多的活要作了，反正我是这么想的。Top 在每次遍历中必作的工做之一就是打开不少文件，并解析其内容，能够看看次数：

$ grep open( /tmp/hasil.txt | wc -l

举例而言，个人 Linux 中，这个数量是304.仔细观察就会发现，Top 遍历 /proc 文件夹，以收集进程信息。/proc 自己是一个虚拟文件系统，意味着它并不是存在于真实硬盘之中，而是由 Linux 内核凭空建立，保存在内存中的。在文件夹中，如/proc/2097（2097为 PID），Linux 内核将与之关联的信息打印到此文件中，而这里就是 Top 的消息来源。

同时试一下：

$ time top -b -n 1

这样你就能了解到 Top 单轮工做有多快了。在个人系统中，大约为0.5-0.6秒。看“real”字段，不是“user”或“system”字段，由于“real”字段反应了 Top 工做须要的总时间。

翻译于 2013/04/10 14:42

顶

3

因此，有了这个认知以后，使用适度的更新间隔是明智的。基于文件系统访问内存也是须要时间的。经验法则是，对于多数用户来讲，1到3秒的间隔就足够了。在命令行中使用-d，或在交互模式下按下“s”以设置。你可使用相似2.5,4.1这样的小树。

何时咱们须要快于1秒的更新？

时间段内须要更多的样本。应对这点要求，最好使用批处理模式，并将标准输出重定向到文件中，以便更好的分析。
你并不在乎 Top 消耗的额外CPU负荷。是的，虽然它很小，它依然须要负荷。若是你的 Linux 系统相对比较空闲，随意使用短间隔，若是不是，最好为重要的任务保留你的 CPU 时间。

一个减小 Top 工做的办法是只监测特定的几个 PID。这样，Top 无需遍历 /proc 下全部的子文件夹。用户名过滤呢？并不会变得更好。用户名过滤会给Top带来额外工做量，所以将其与短间隔联合将会增长 CPU 负荷。

固然，当你须要强制更新时，按下 Space 键，Top 将会刷新统计。

翻译于 2013/04/10 14:55

顶

3

D.咱们须要的字段

默认时，Top 启动后会显示下面的任务属性：

字段	描述
PID :	进程 ID
USER :	有效用户 ID
PR :	动态优先值
NI :	良好值，也被称为基本优先级
VIRT :	任务虚拟大小。包括进程的可执行二进制文件大小，数据区大小以及全部已加载的共享库的大小。
RES :	目前任务内存消耗。存入交换分区的部分并不包含。
SHR :	一些内存区域可能由两个或多个任务分享，此字段反应这些共享区域。例如共享库以及 Sysv 共享内存。
S :	任务状态
%CPU :	Top 屏幕更新时专用于运行任务的CPU 时间百分比。
%MEM :	任务当前内存消耗的百分比
TIME+ :	在任务启动后消耗的总CPU时间。"+" sign means it is displayed with hundreth of a second granularity. 默认时，TIME/TIME+ 不会计入已经关闭的任务子进程。
COMMAND :	显示程序名。

翻译于 2013/04/10 15:19

顶

3

不止这些。下面我介绍一些你可能会用到的列：

列	描述
nFLT ('u'键)	进程启动以来重大页面错误(page fault)的个数。准确地说，页面错误是因为进程访问它的地址空间内不存在的页面引发的。“重大”的页面错误是指内核须要访问磁盘来使得该页面有效。相反，小型页面错误是指内核只须要在内存中分配页面而不用读磁盘。例如，假设程序ABC的大小为8KB，页面大小为4KB。当程序读进内存的时候，发生了两次重大的页面错误（2*4KB）。程序自己分配了8KB空间看成临时数据。所以，还会有两次小型页面错误。 nFLT太高可能意味着：进程从磁盘读取大量资源。The task is aggressively load some portions of its executable or library from the disk. 进程访问了一个已经交换到磁盘的页面。当进程第一次运行时，看到大量重大页面错误很正常。下次运行的时候，因为缓存已经分配好了，你极可能看到"0"次或者很小的 nFLT。可是，若是一个程序频繁地触发重大页面错误，颇有多是你目前安装的内存不够那个程序使用。
nDRT ('v'键)	上次页面写入磁盘以来，脏页面的数目。什么是脏页面？先看一点背景知识。你们都知道，Linux使用了缓存系统，因此从磁盘读取的数据也会被缓存到内存中。这样作的优势是，后续的对这个磁盘块的读操做能够直接从内存中取数据，于是速度更快。但这也是有代价的。若是缓冲区的内容被修改了，那么就须要进行同步。所以，被更改的缓冲区（脏页面）必需写回到磁盘中。同步失败则可能致使磁盘上的数据不一致。在负载不重的系统中，nDRT 一般小于10（大约估计）或者为0。若是你的系统一般大于10，则有可能：进程正在往磁盘写入大量数据。磁盘I/O常常跟不上缓冲区的速度。磁盘I/O拥塞，所以即便进程修改了很小部分文件，也必需等待一段时间才能完成同步。拥塞出如今不少进程同时访问磁盘而缓存命中率低的状况下（译者注：FTP服务的典型状况）。如今的话，(1) 不太可能出现，由于I/O速度愈来愈快，须要更少的CPU（DMA技术的出现）。因此 (2) 出现的几率更高。注意：在 2.6.x 内核中, 不知道为何，这个列的值老是0。
P ('j'键)	上次使用的CPU。这个列只在SMP环境中有意义。这里的SMP指超线程，多核或者多CPU架构。若是你只有一个CPU（不是多核，没有超线程），这个列老是显示0。在SMP系统中，即便这个列有几回改变，也不要吃惊。这意味着，Linux 内核尝试将你的进程移到另外一个负载更少的CPU。
CODE ('r'键) 和 DATA ('s'键)	CODE 只是反映了你程序代码的大小，DATA反映了你数据段(栈，堆，变量，不包含共享库) 的大小。单位都是KB。 DATA能够显示你的程序分配了多少内存。有时，也能够用来协助分析内存泄漏。固然，你须要更好的工具，如使用 valgrind 来查看每次的内存分配。若是DATA不断增加，则颇有可能出现了内存泄漏。注意：DATA, CODE, SHR, SWAP, VIRT, RES 都是使用页面大小（Intel架构上为4KB）来衡量。只读数据段也包含在CODE的大小中，于是有时候CODE比实现的段要大。
SWAP ('p'键)	已经进行交换的进程内存映像大小。这个列有时很让人疑惑：逻辑上，你可能指望这个列显示你的程序其实是彻底进行交换，仍是部分交换了，交换了多少。可是事实上不是。即便"Swap used" 列显示为0，你仍然能够很吃惊地发现全部进程的SWAP列都大于0。究竟是为何呢？这是因为 top 命令使用以下的计算公式： VIRT = SWAP + RES or equal SWAP = VIRT - RES 前面说过，VIRT 包含了进程的地址空间里面的全部东西：内存中的，已经进行交换的，还没有从磁盘读取的。RES 表明了进程占用的所有内存大小。因此，这里的SWAP表明了已经进行交换的所有数据，以及还没有从磁盘读取的数据。不要被SWAP这个名字迷惑了，它表明的不仅是已经交换的数据。

翻译于 2013/04/10 20:33

顶

3

要显示以上的列，在交互模式下按 'f' 键，而后再按相应的键。按一下显示指定的列，再按一下隐藏该列。要肯定当前显示的是哪些列，只需看第一行的字母（在"Current Fields"的右边）。大写字母表示显示了该列，小写表示隐藏。你选好之后，按回车便可。

排序使用了相似的方法。按 'O' （大写），而后再按相应的键。即便记不住那些按键也不要紧，top 会显示出来。新的排序键将标上星号，相应的字母会变成大写，很直观。选好之后，记得按回车。

翻译于 2013/04/10 20:41

顶

3

E.多视图比单个视图更好吗？

在不一样的状况下，有时候咱们想监视不一样的系统属性。例如，你想同时监控CPU的百分比和CPU被全部任务消耗的时间。在另外一段时间，你想监控常驻内存和全部任务的总页面故障。快速按‘F’键而后切换界面？我想这也太不明智了吧。

为何不试试多视图窗口模式呢？按‘A’(大写)切换到多窗口界面。默认的，你将会看到4个不一样的系列的字段组。每一个字段组有默认的标签/名称：

第一字段组: Def

第二字段组: Job

第三字段组: Mem

第四字段组: Usr

第一字段组就是你在单一视图窗口所常见的组，而其他的组会被隐藏。内置多视图窗口模式，全部可用的窗口经过按‘a’或者‘w’循环。注意，切换到其余窗口时会改变活动窗口（也称为当前窗口）。假如你不肯定哪个是活动窗口的话，只须要看一下top展现的第一行（在当前时间字段的左边）。另外一个改变活动窗口的方法是经过按‘G’紧跟着输入数字（1到4）。

活动窗口是针对用户输入的，所以在开始干活以前肯定选好了你偏好的界面。而后，你能够在单一窗口模式下爱干吗干吗。在这种状况你通常想自定义字段展现，那么你只须要按‘f’而后开始自定义。

假如你认为第四字段组太多的话，你只须要切换到字段组而后按‘-’隐藏。请注意，即便你隐藏了当前的字段组，那并不以意味着你同时改变了活动组。再次按‘-’的话，当前组就可见了。

若是你想操做多视图窗口模式，再次按‘A’键。那样也将使得活动组成为了单一视图窗口模式的新的字段组。

翻译于 2013/04/11 22:53

顶

4

F. "个人Linux主机上怎么会只有不多的空闲内存?"

有一样的问题? 无论你在主板上增长多少内存，你都会很快发现空闲内存减小的很是迅速. 空闲内存算错了? 不!

在回答这个以前, 先查看一下top命令顶部显示的内存概要 (有可能你须要按 'm'来显示出来). 在这里，你能够看到两个区域: 缓冲（buffers）和缓存（cached）。 "缓冲（Buffers）" 表明有多少内存用来缓存磁盘块 "缓存（Cached）" 有一点相似 "缓冲（Buffers）", 只是仅仅从文件读取缓存页面. 想透彻了解这部分,建议读一下Linux内核的书好比Robert M.Love写的《Linux Kernel Development》。

这足够了解缓冲（buffers）和缓存（cached)表明系统缓存. 他们会根据linux内核机制动态增长或减小。

除去被缓存的消耗，程序和代码一样要占据RAM. 因此，最终空闲内存显示的是RAM中不被缓存和程序/代码占用的部分通常来讲，你也能够考虑缓存区域为另外一部分“空闲”RAM，若是程序须要更多内存它会减小

从进程的角度来看，你可能想知道哪一个区域表明真实的内存消耗，VIRT（virtual memory usage ）区域? 固然不是! 回顾一下，这个区域表明了进程地址空间里一切，包括相关的库。阅读top命令的源代码和proc.txt (在内核代码树中的Documentation/filesystem 文件夹内), 个人结论是RSS字段是进程内存消耗的最好的描述.我说“最好的”是由于你能够考虑它是近似而不是全部时间100%准确。