Python监控Linux系统（1）

时间 2020-05-01

原文原文链接

使用Python监控Linux系统

Linux下有许多使用Python语言编写的监控工具，如inotify-sync, dstat和glances. 此外，若是要根据业务编写简单的监控脚本，不少工程师也会选择Python语言。Python语言是一门简单易学/语法清晰/表达能力强的编程语言,很是适合于编写监控程序的场景。使用Python语言编写监控程序具备如下几个优点:html

Python语言开发效率高。 Python语言有自己的优点与劣势，使用Python开发监控程序是一个充分发挥Python优点，避免Python劣势的领域。对于监控程序来讲，可以利用Python语言开发效率高的优点尽快完成程序的编写工做。同时，监控程序也不要求性能，所以避免了Python语言性能不如C、C++和Java的劣势。
Python语言表达能力强。相信任何-个学习Linux的工程师都使用过shel脚本编写过监控程序。虽然Linux下有不少监控工具,也有不少文本处理程序，可是获取监控与解析结果是彻底不一样的工具。解析监控结果的程序不理解监控程序输出结果的具体含义。Python语言中有很是丰富的数据结构，能够用各类方式保存监控结果，以便后续处理。
利用第三方库开发监控程序。Python的标准库自己很是强大,被称为”连电池都包含在内”。对于-个问题,若是标准库没有提供相应的工具,那么也会有开源的项目来填补这个空白。监控程序正式这样一种状况，在Python语言中，具备很是成熟的第三方库帮助开发者简化监控程序的编写工做。

1、Python编写的监控工具

咱们将介绍两个Python语言编写的监控工具，分别是dstat和glances。node

一、多功能系统资源统计工具dstat

dstat是一个用Python语言实现的多功能系统资源统计工具，用来取代Linux下的vmstat、iostat、netstat和ifstat等命令。而且，dstat克服了这些命令的限制，增长了额外的功能、以及更多的计数器与更好的灵活性。dstat能够在一个界面上展现很是全面的监控信息，所以，在系统监控、基准测试和故障排除等应用场景下特别有用。python

咱们可使用dstat监控全部系统资源的使用状况，而且能够结合不一样的场景定制监控的资源。例如，在同一时间段以相同的时间频率比较网络带宽与磁盘的吞吐率。ios

dstat将以列表的形式显示监控信息，而且用不一样的颜色进行输出，以可读性较强的单位展现监控数值。例如，对于字节数值，dstat自动根据数值的大小，以K、M、G等单位进行显示，避免了开发者使用其余命令时由于数值太大形成的困惑和错误。此外，使用dstat还能够很是方便地编写插件用来收集默认状况下没有收集的监控信息。dstat是专门为人们实时查看监控信息设计的，所以，默认将监控结果输出到屏幕终端。咱们也能够将监控信息以CSV格式输出到文件，以便后续处理。git

二、dstat介绍

做为一个多功能系统资源统计工具， dstat具备如下特性:web

结合了 vmstat, iostat, ifstat, netstat 等监控工具的功能，而且提供了更多的监控信息；
实时显示监控数据；
在问题分析和故障排查时，能够监视最重要的计数器，也能够对计数器进行排序；
模块化设计；
使用 Python 语言编写，更方便扩展示有的工做任务；
容易扩展，便于添加自定义的计数器；
包含的许多扩展插件充分说明了增长新的监控项目是很方便的；
能够分组统计块设备/网络设备，并给出、汇总信息；
能够显示每台设备中断信息；
很是准确的时间精度，即使是系统负荷较高也不会延迟显示；
准确显示单位，限制转换偏差范围；
用不一样的颜色显示不一样的单位，增长可读性；
显示中间结果延时小于1秒
支持 csv 格式输出，便于将监控信息导人 Gnumeric 和 Excel 以生成图形。

三、安装使用

若是操做系统默认没有安装dstat.那么须要咱们手动进行安装。以下所示:shell

[root@python ~]# yum -y install dstat

<1>dstat命令的--version选项，除了显示出tat的版本之外，还会显示操做系统的版本、Python语言的版本、cpu的个数，以及dstat支持的插件列表等详细信息。以下所示：编程

[root@python ~]# dstat --version

<2>dstat --list获取dstat的插件列表vim

dstat --list

<3>直接在终端输入dstat命令，dstat将以默认参数运行。默认状况下，dstat会收集cpu、磁盘、网络、换页和系统信息，并以一秒钟一次的频率进行输出，直到咱们按 ctrl+c 结束。windows

[root@python ~]# dstat

四、经常使用选项以下: .

直接跟数字，表示#秒收集一次数据，默认为1秒; dstat 5表示5秒更新一次

-c,--cpu  统计CPU状态，包括system, user, idle, wait, hardware interrupt, software interrupt等；
-d, --disk 统计磁盘读写状态
-D total,sda 统计指定磁盘或汇总信息
-l, --load 统计系统负载状况，包括1分钟、5分钟、15分钟平均值
-m, --mem 统计系统物理内存使用状况，包括used, buffers, cache, free
-s, --swap 统计swap已使用和剩余量
-n, --net 统计网络使用状况，包括接收和发送数据
-N eth1,total  统计eth1接口汇总流量
-r, --io 统计I/O请求，包括读写请求
-p, --proc 统计进程信息，包括runnable、uninterruptible、new
-y, --sys 统计系统信息，包括中断、上下文切换
-t 显示统计时时间，对分析历史数据很是有用
--fs 统计文件打开数和inodes数

除了前面介绍的与监控相关的参数之外，dstat还能够像vmstat和iostat- 样使用参数控制报告的时间间隔，或者同时指定时间间隔与报告次数。

例如，下面的命令表示以默认的选项运行dstat,每2秒钟输出1条监控信息，并在输出10条监控信息之后退出dstat。以下所示:

[root@python ~]# dstat 2 10
You did not select any stats, using -cdngy by default.
Terminal width too small, trimming output.
----total-cpu-usage---- -dsk/total- -net/total- ---paging-->
usr sys idl wai hiq siq| read  writ| recv  send|  in   out >
  2   1  96   0   0   0| 270k  233k|   0     0 |  75B 1812B>
  0   0 100   0   0   0|   0     0 |  60B  510B|   0     0 >
  0   0 100   0   0   0|   0     0 |  60B  294B|   0     0 >
  0   1 100   0   0   0|   0     0 |  60B  294B|   0     0 >
  0   0 100   0   0   0|   0     0 | 182B  294B|   0     0 >
  1   0 100   0   0   0|   0     0 |  60B  294B|   0     0 >
  0   1  99   0   0   0|   0     0 |  60B  294B|   0     0 >
  0   1 100   0   0   0|   0     0 |  60B  294B|   0     0 >
  0   0 100   0   0   0|   0     0 |  60B  294B|   0     0 >
  1   0 100   0   0   0|   0     0 |  60B  294B|   0     0 >
  0   0 100   0   0   0|   0    25k|  60B  298B|   0     0 >

dstat命令中有不少参数可选，你能够经过man dstat命令查看，大多数经常使用的参数有这些：

-l ：显示负载统计量
-m ：显示内存使用率（包括used，buffer，cache，free值）
-r ：显示I/O统计
-s ：显示交换分区使用状况
-t ：将当前时间显示在第一行
–fs ：显示文件系通通计数据（包括文件总数量和inodes值）
–nocolor ：不显示颜色（有时候有用）
–socket ：显示网络统计数据
–tcp ：显示经常使用的TCP统计
–udp ：显示监听的UDP接口及其当前用量的一些动态数据

dstat附带了一些插件很大程度地扩展了它的功能。你能够经过查看/usr/share/dstat目录来查看它们的一些使用方法，经常使用的有这些：

-–disk-util ：显示某一时间磁盘的忙碌情况
-–freespace ：显示当前磁盘空间使用率
-–proc-count ：显示正在运行的程序数量
-–top-bio ：指出块I/O最大的进程
-–top-cpu ：图形化显示CPU占用最大的进程
-–top-io ：显示正常I/O最大的进程
-–top-mem ：显示占用最多内存的进程

五、 dstat高级用法

dstat的强大之处不只仅是由于它聚合了多种工具的监控结果，还由于它能经过附带的插件事项一些更高级功能。

如:找出磁盘重占用资源最高的进程和用户。

dstat -cdlmnpsyt 5 能够获得较全面的系统性能数据。

[root@python scripts]# dstat --top-mem --top-io --top-cpu
//查看当前占用I/O、CPU、内存等最高的进程信息

--most-expensive- ----most-expensive---- -most-expensive-
  memory process |     i/o process      |  cpu process   
gnome-shell 53.0M|bash        420k  119k|vmtoolsd     0.1
gnome-shell 53.0M|BT-Task    1026B    0 |                
gnome-shell 53.0M|gnome-shell 352B   82k|kworker/0:0  1.0
gnome-shell 53.0M|sshd: root@ 230B  196B|                
gnome-shell 53.0M|sshd: root@ 155B  196B|                
gnome-shell 53.0M|sshd: root@ 155B  196B|                
gnome-shell 53.0M|sshd: root@ 155B  196B|                
gnome-shell 53.0M|BT-Task    1406B    0 |

dstat的插件保存在/usr/share/dstat目录下，咱们能够参考它们的实现，编写本身的插件。

六、将结果输出到CSV文件

dstat还能够将监控信息保存到CSV文件中，以便后续进行处理。经过--output选项指定监控数据输出的文件。以下所示:

[root@python ~]# dstat -a --output dstat_output.csv
Terminal width too small, trimming output.
----total-cpu-usage---- -dsk/total- -net/total- ---paging-->
usr sys idl wai hiq siq| read  writ| recv  send|  in   out >
  2   1  97   0   0   0| 175k  158k|   0     0 |  59B 1973B>
  0   0 100   0   0   0|   0     0 | 150B  822B|   0     0 >
  0   0 100   0   0   0|   0     0 |  60B  298B|   0     0 >
  0   0 100   0   0   0|   0     0 |  60B  298B|   0     0 >
  0   0 100   0   0   0|   0     0 |  60B  298B|   0     0 >
  0   1  99   0   0   0|   0     0 |  60B  298B|   0     0 >
  0   0 100   0   0   0|   0     0 | 210B  448B|   0     0 >
  1   0  99   0   0   0|   0    49k|  60B  298B|   0     0 >
  0   0 100   0   0   0|   0     0 | 210B  396B|   0     0 >
  0   0 100   0   0   0|   0     0 |  60B  298B|   0     0 >^C

用excel查看信息

[root@python ~]# sz dstat_output.csv
//导出本地文件到windows指定位置

2、交互性监控工具glances

一、glances简介

glances是一款使用Python语言开发、基于psutil的跨平台系统监控工具。在全部的Linux命令行工具中，它与top命令最类似，都是命令行交互式监控工具。可是，glances实现了比top命令更齐全的监控，提供了更加丰富的功能。

在紧急状况下，工程师须要在尽量短的时间内查看尽量多的信息。此时，glances是一个不错的选择。 glances的设计初衷就是在当前窗口中尽量多地显示系统消息。

glances能够在用户终端上实时显示重要的系统信息，并动态刷新内容。glances每隔3秒钟对其进行刷新，咱们也可使用命令行参数修改刷新的频率。与dstat相同的是，glances能够将捕获到的数据保存到文件中；而不一样的是glances提供了API接口以便应用程序从glances中获取数据。

二、glances 提供的系统信息

CPU使用率；
内存使用状况；
内核统计信息和运行队列信息；
磁盘I/O速度、传输和读/写比率；
文件系统中的可用空间；
磁盘适配器；
网络I/O速度、传输和读/写比率；
页面空间和页面速度；
消耗资源最多的进程；
计算机信息和系统资源。

glances 工具能够在用户的终端上实时显示重要的系统信息，并动态地对其进行更新。这个高效的工具能够工做于任何终端屏幕。另外它并不会消耗大量的 CPU 资源，一般低于百分之二。glances 在屏幕上对数据进行显示，而且每隔2秒钟对其进行更新。您也能够本身将这个时间间隔更改成更长或更短的数值。

glances 工具还能够将相同的数据捕获到一个文件，便于之后对报告进行分析和绘制图形。输出文件能够是电子表格的格式 (.csv) 或者 html 格式。

三、Linux下安装glances

#须要epel-release 
yum -y install epel-release 
yum -y install glances

或

#须要python-devel
yum -y install python-devel -y
pip install glances

四、glances的使用

（1）glances的默认输出

glances的使用很是简单，直接输入glances命令便进入了一个相似于top命令的交互式界面。在这个界面中，显示了比top更加全面，更加具备可读性的信息。

为了增长可读性，glances会以不一样的颜色表示不一样的状态。其中，绿色：性能xingnenglaingh良好，元须作任何额外工做；蓝色表示系统性能有一些小问题，用户应当开始关注系统性能；紫色：性能报警，应当采起措施；红色：性能问题严重，应当当即处理。

lances是一个交互式的工具．所以，咱们也能够输入命令来控制glances的行为。

[root@python ~]# glances

glances 工做界面的说明 :

在图 1 的上部是 CPU 、Load（负载）、Mem（内存使用）、 Swap（交换分区）的使用状况。在图 1 的中上部是网络接口、Processes（进程）的使用状况。一般包括以下字段：

VIRT: 虚拟内存大小
RES: 进程占用的物理内存值
%CPU：该进程占用的 CPU 使用率
%MEM：该进程占用的物理内存和总内存的百分比
PID: 进程 ID 号
USER: 进程全部者的用户名
TIME+: 该进程启动后占用的总的 CPU 时间
IO_R 和 IO_W: 进程的读写 I/O 速率
NAME: 进程名称
NI: 进程优先级
S: 进程状态，其中 S 表示休眠，R 表示正在运行，Z 表示僵死状态。

（2）glances的可读性

对比能够发现，glances对屏幕的利用率比top明显高不少，信息量很大，有许多top所没有显示的数据。并且，glances的实时变更比top颜值高太多了。

Glances 会用一下几种颜色来表明状态，以下所示：

绿色：OK（一切正常）
蓝色：CAREFUL（须要注意）
紫色：WARNING（警告）
红色：CRITICAL（严重）

（3）glances中常见的命令

h：显示帮助信息
q：离开程序退出
c：按照 CPU 实时负载对系统进程进行排序
m：按照内存使用情况对系统进程排序
i：按照 I/O 使用情况对系统进程排序
p：按照进程名称排序
d：显示磁盘读写情况
w：删除日志文件
l：显示日志
s：显示传感器信息
f：显示系统信息
1：轮流显示每一个 CPU 内核的使用状况（次选项仅仅使用在多核 CPU 系统）

glances还支持将采集的数据导入到其余服务中心，包括InfluxDB、 Cassandra. CouchDB、 OpenTSDB、Prometheus. StatsD、 ElasticSearch, RabbitMQ/ActiveMQ、ZeroMQ、 Kafaka和Riemann.

（4）若是咱们安装了 Bottle 这个 web 框架，还可以经过 web 浏览器显示和命令行终端相同的监控界面。

glances还支持将采集的数据导人到其余服务中心，包括InfluxDB，Cassandra，CouchDB，OpenTSDB，Prometheus，StatsD，ElasticSearch，RabbitMQ/ActiveMQ，ZeroMQ，Kafka和Riemann。

[root@python ~]# pip install bottle
//安装Bottle框架
[root@python ~]#  glances -w              ##默认端口是61208，访问地址没有限制
Glances Web User Interface started on http://0.0.0.0:61208/

web访问以下图：

3、Python监控Linux

shell查看磁盘的监控信息，以下所示：

[root@python proc]# cat /proc/diskstats 
   8       0 sda 85935 21845 10913707 101067 3119 81257 743486 15647 0 31410 109079
   8       1 sda1 1822 0 12456 397 4 0 4096 74 0 457 462
   8       2 sda2 84082 21845 10897907 100659 3115 81257 739390 15573 0 30950 108604
  11       0 sr0 0 0 0 0 0 0 0 0 0 0 0
 253       0 dm-0 80726 0 10688467 99971 2275 0 82606 10224 0 27927 110196
 253       1 dm-1 25123 0 205184 7367 82098 0 656784 616558 0 5167 623924

一、使用shell脚本监控

（1）安装转换工具

dos2unix 和 unix2dos 命令将纯文本文件从 DOS 或 Mac 格式转换为 Unix，反之亦然。

[root@python scripts]# yum -y install dos2unix
//下载dos2unix

（2）编写shell脚本

[root@python scripts]# vim monitor.sh
#/bin/sh
cpu_idle=$(top -n2 | grep 'Cpu' | tail -n 1 | awk '{print $8}')
cpu_usage=$(printf "%.2f" `echo "scale=2; 100 - $cpu_idle" | bc`)
mem_free=$(free -m | awk '/Mem:/{print $4 + $6 +$7}')
mem_total=$(free -m | awk '/Mem:/{print $2}')
mem_used=$(echo "$mem_total - $mem_free" | bc)
mem_rate=$(echo "$mem_used * 100 / $mem_total" | bc)
disk_usage=$(df -h / | tail -n 1 | awk '{print $5}')
disk_used=$(df -h / | tail -n 1 | awk '{print $3}')
echo "CPU利用率：$cpu_usage %"
echo "内存使用量: $mem_used M"
echo "内存利用率：$mem_rate %"
echo "磁盘空间使用量：$disk_used"
echo "磁盘空间利用率：$disk_usage"

（3）转换并执行

[root@python scripts]# dos2unix monitor.sh
//转换为格式为Unix
[root@python scripts]# cat monitor.sh
#/bin/sh
cpu_idle=$(top -n2 | grep 'Cpu' | tail -n 1 | awk '{print $8}')
cpu_usage=$(printf "%.2f" `echo "scale=2; 100 - $cpu_idle" | bc`)
mem_free=$(free -m | awk '/Mem:/{print $4 + $6 +$7}')
mem_total=$(free -m | awk '/Mem:/{print $2}')
mem_used=$(echo "$mem_total - $mem_free" | bc)
mem_rate=$(echo "$mem_used * 100 / $mem_total" | bc)
disk_usage=$(df -h / | tail -n 1 | awk '{print $5}')
disk_used=$(df -h / | tail -n 1 | awk '{print $3}')
echo "CPU利用率：$cpu_usage %"
echo "内存使用量: $mem_used M"
echo "内存利用率：$mem_rate %"
echo "磁盘空间使用量：$disk_used"
echo "磁盘空间利用率：$disk_usage"
[root@python scripts]# sh monitor.sh
//执行编写好的脚本

二、使用python脚本监控

编写一个Python脚本，监控磁盘信息，以下所示：

（1）查看服务启动状况

[root@python scripts]# vim proc_count.py 

import os

n = 0
for item in os.listdir('/proc'):
    if item.isdigit():
        n = n+1
        # print(len(item))
print(n)

执行结果以下:

[root@python scripts]# python3 proc_count.py 
175

（2）简易版

[root@python scripts]# vim monitor_dick.py
# coding=utf-8
# !/usr/bin/python

from __future__ import print_function
from collections import namedtuple

disk = namedtuple('Disk', 'major_number minor_number device_name'
                          ' read_count read_merged_count read_sections'
                          ' time_spent_reading write_count write_merged_count'
                          ' write_sections time_spent_write io_requests'
                          ' time_spent_doing_io weighted_time_spent_dong_io')

def get_disk_info(device):
    with open('/proc/diskstats') as f:
        for line in f:
            if line.split()[2] == device:
                return disk(*(line.split()))
    raise RuntimeError('设备({0})没找到。。。'.format(device))

def main():
    disk_info = get_disk_info('sda1')

    print(disk_info)

if __name__ == '__main__':
    main()

执行脚本：

[root@python scripts]# python3 monitor_dick.py

（3）直观图

# coding=utf-8
# !/usr/bin/python

from __future__ import print_function
from collections import namedtuple

disk = namedtuple('Disk', 'major_number minor_number device_name'
                          ' read_count read_merged_count read_sections'
                          ' time_spent_reading write_count write_merged_count'
                          ' write_sections time_spent_write io_requests'
                          ' time_spent_doing_io weighted_time_spent_dong_io')

def get_disk_info(device):
    with open('/proc/diskstats') as f:
        for line in f:
            if line.split()[2] == device:
                return disk(*(line.split()))
    raise RuntimeError('设备({0})没找到。。。'.format(device))

def main(device):
    disk_info = get_disk_info(device)
    print(disk_info)
    print("磁盘写入次数:{0}".format(disk_info.write_count))
    print("磁盘写入的字节数:{0}".format(float(disk_info.write_sections) * 512))
    print("磁盘写入的延时:{0}".format(disk_info.time_spent_write))

if __name__ == '__main__':
    main('sda1')

执行脚本：

[root@python scripts]# python3 monitor_dick.py