作服务器端开发的同窗应该都对进程监控不会陌生,最近刚好要更换 uwsgi 为 gunicorn,而gunicorn又刚好有这么一章讲进程监控,因此多研究了下。python
结合以前在腾讯工做的经验,也会讲讲腾讯的服务器监控是怎么作的。同时也会讲下小团队又该怎么敏捷的解决。web
下面按照监控的方法依次介绍。shell
1、按照进程名监控服务器
在腾讯内部全部server都是要打包发布的,而在打包过程当中是须要填写要监控的进程名,而后在crontab中定时经过ps查询进程是否存在。app
这种方法是比较简单的方法,可是考虑到不少进程会在启动以后更名,以及进程名存在各类特殊字符,多个进程同时存在的问题,实际操做起来并非很舒服。socket
举个简单的例子,gunicorn启动以后的进程名相似这样 master: [wsgi:app],其中的方括号在grep时要记得转义,不然就会出问题。tcp
不过无论怎么说,这种方法在不少其余方式用不了的时候反而是最简单的方法。this
下面是用python的实现:阿里云
def monitor_process(key_word, cmd): p1 = subprocess.Popen(['ps', '-ef'], stdout=subprocess.PIPE) p2 = subprocess.Popen(['grep', key_word], stdin=p1.stdout, stdout=subprocess.PIPE) p3 = subprocess.Popen(['grep', '-v', 'grep'], stdin=p2.stdout, stdout=subprocess.PIPE) lines = p3.stdout.readlines() if len(lines) > 0: return sys.stderr.write('process[%s] is lost, run [%s]\n' % (key_word, cmd)) subprocess.call(cmd, shell=True)
2、按照端口监控url
这种方式以前在腾讯打包的时候也有用,可是多是进程名更直观的缘由吧,貌似一直没怎么用起来。
不过如今本身在作包部署的时候,反而以为端口监控是个最靠谱的事情了。这个也没什么好多说的,直接上刚写完的python代码:
def monitor_port(protocol, port, cmd): address = ('127.0.0.1', port) socket_type = socket.SOCK_STREAM if protocol == 'tcp' else socket.SOCK_DGRAM client = socket.socket(socket.AF_INET, socket_type) try: client.bind(address) except Exception, e: pass else: sys.stderr.write('port[%s-%s] is lost, run [%s]\n' % (protocol, port, cmd)) subprocess.call(cmd, shell=True) finally: client.close()
有的朋友可能说对于tcp端口检查,其实以client的方式来connect()看是否成功会不会更好?其实我以为这种方式也挺好的,而且对于不一样的协议能够再深刻处理一下,好比对http协议能够用urllib2.urlopen确保返回正确的包才算正常。不过若是这么作的话,就有点偏黑盒监控 了,好比监控宝、阿里云监控之类的服务了。
3、经过监控server启动进程,并以监控子进程的方式监控
这个也是在gunicorn页面上看到的,提及来gunicorn很不厚道的把gaffer放到第一个,让我还觉得是个很成熟的产品,结果发现连启动都是个问题。
相反排在后面的supervisor反而至关的好用,下面是截图:
supervisor能够很方便的管理进程,包括重启,中止等等,并且提供了web界面和用户验证,能够很方便的在线管理。
可是有好处就有坏处,用了supervisor以后,就不能本身随便的去本身重启服务了,不然会影响supervisor的监控,这对我这种喜欢本身执行 xx.sh restart 的人实在有点太痛苦了。固然,其实要是习惯了去supervisorctl 里面start/stop/reload 以后也就还好了。
用supervisor配置gunicorn的配置项以下:
[program:yuanzhaopin] environment=PYTHON_EGG_CACHE=/tmp/.python-eggs/,PYTHONPATH=/data/release/yuanzhaopin command=/usr/local/bin/gunicorn --debug --log-level debug --log-file /tmp/g.log wsgi:app user=zny2008 autorestart=true redirect_stderr=true
ok,目前本身经常使用的就是这几种模式了,你们若是有其余选择欢迎留言讨论。
完整代码以下:
#!/usr/bin/env python # -*- coding: utf-8 -*- #*/1 * * * * python /xxx/monitor.py >> /xxx/logs/monitor.log 2>&1 & import sys import subprocess import os.path as op import socket def this_abs_path(script_name): return op.abspath(op.join(op.dirname(__file__), script_name)) def monitor_process(key_word, cmd): p1 = subprocess.Popen(['ps', '-ef'], stdout=subprocess.PIPE) p2 = subprocess.Popen(['grep', key_word], stdin=p1.stdout, stdout=subprocess.PIPE) p3 = subprocess.Popen(['grep', '-v', 'grep'], stdin=p2.stdout, stdout=subprocess.PIPE) lines = p3.stdout.readlines() if len(lines) > 0: return sys.stderr.write('process[%s] is lost, run [%s]\n' % (key_word, cmd)) subprocess.call(cmd, shell=True) def monitor_port(protocol, port, cmd): address = ('127.0.0.1', port) socket_type = socket.SOCK_STREAM if protocol == 'tcp' else socket.SOCK_DGRAM client = socket.socket(socket.AF_INET, socket_type) try: client.bind(address) except Exception, e: pass else: sys.stderr.write('port[%s-%s] is lost, run [%s]\n' % (protocol, port, cmd)) subprocess.call(cmd, shell=True) finally: client.close() #============================================================================= def yuanzhaopin(): cmd = '%s start' % this_abs_path('gun.sh') #monitor_process('\[yuanzhaopin\]', cmd) monitor_port('tcp', 8635, cmd) def main(): yuanzhaopin() if __name__ == '__main__': main()