在日常的工做中几乎有一半的功能模块都须要定时任务来推进,例如项目中有一个定时统计程序,定时爬出网站的URL程序,定时检测钓鱼网站的程序等等,都涉及到了关于定时任务的问题,第一时间想到的是利用time模块的time.sleep()方法使程序休眠来达到定时任务的目的,虽然这样也能够,可是总以为不是那么的专业,^_^因此就找到了python的定时任务模块APScheduler:python
APScheduler基于Quartz的一个Python定时任务框架,实现了Quartz的全部功能,使用起来十分方便。提供了基于日期、固定时间间隔以及crontab类型的任务,而且能够持久化任务。基于这些功能,咱们能够很方便的实现一个python定时任务系统。git
$ pip install apscheduler
$ python setup.py install
触发器(trigger)包含调度逻辑,每个做业有它本身的触发器,用于决定接下来哪个做业会运行。除了他们本身初始配置意外,触发器彻底是无状态的。数据库
做业存储(job store)存储被调度的做业,默认的做业存储是简单地把做业保存在内存中,其余的做业存储是将做业保存在数据库中。一个做业的数据讲在保存在持久化做业存储时被序列化,并在加载时被反序列化。调度器不能分享同一个做业存储。框架
执行器(executor)处理做业的运行,他们一般经过在做业中提交制定的可调用对象到一个线程或者进城池来进行。看成业完成时,执行器将会通知调度器。函数
调度器(scheduler)是其余的组成部分。你一般在应用只有一个调度器,应用的开发者一般不会直接处理做业存储、调度器和触发器,相反,调度器提供了处理这些的合适的接口。配置做业存储和执行器能够在调度器中完成,例如添加、修改和移除做业。 网站
import time from apscheduler.schedulers.blocking import BlockingScheduler def my_job(): print time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())) sched = BlockingScheduler() sched.add_job(my_job, 'interval', seconds=5) sched.start()
上面的例子表示每隔5s执行一次my_job函数,输出当前时间信息spa
上面是经过add_job()来添加做业,另外还有一种方式是经过scheduled_job()修饰器来修饰函数线程
import time from apscheduler.schedulers.blocking import BlockingScheduler sched = BlockingScheduler() @sched.scheduled_job('interval', seconds=5) def my_job(): print time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())) sched.start()
job = scheduler.add_job(myfunc, 'interval', minutes=2) job.remove() #若是有多个任务序列的话能够给每一个任务设置ID号,能够根据ID号选择清除对象,且remove放到start前才有效 sched.add_job(myfunc, 'interval', minutes=2, id='my_job_id') sched.remove_job('my_job_id')
暂停做业:3d
apsched.job.Job.pause() apsched.schedulers.base.BaseScheduler.pause_job()
恢复做业:code
apsched.job.Job.resume() apsched.schedulers.base.BaseScheduler.resume_job()
得到调度做业的列表,可使用get_jobs()
来完成,它会返回全部的job实例。或者使用print_jobs()
来输出全部格式化的做业列表。也能够利用get_job(任务ID)获取指定任务的做业列表
job = sched.add_job(my_job, 'interval', seconds=2 ,id='123') print sched.get_job(job_id='123') print sched.get_jobs()
默认状况下调度器会等待全部正在运行的做业完成后,关闭全部的调度器和做业存储。若是你不想等待,能够将wait选项设置为False。
sched.shutdown() sched.shutdown(wait=False)
add_job的第二个参数是trigger,它管理着做业的调度方式。它能够为date, interval或者cron。对于不一样的trigger,对应的参数也相同。
(int|str) 表示参数既能够是int类型,也能够是str类型 (datetime | str) 表示参数既能够是datetime类型,也能够是str类型 year (int|str) – 4-digit year -(表示四位数的年份,如2008年) month (int|str) – month (1-12) -(表示取值范围为1-12月) day (int|str) – day of the (1-31) -(表示取值范围为1-31日) week (int|str) – ISO week (1-53) -(格里历2006年12月31日能够写成2006年-W52-7(扩展形式)或2006W527(紧凑形式)) day_of_week (int|str) – number or name of weekday (0-6 or mon,tue,wed,thu,fri,sat,sun) - (表示一周中的第几天,既能够用0-6表示也能够用其英语缩写表示) hour (int|str) – hour (0-23) - (表示取值范围为0-23时) minute (int|str) – minute (0-59) - (表示取值范围为0-59分) second (int|str) – second (0-59) - (表示取值范围为0-59秒) start_date (datetime|str) – earliest possible date/time to trigger on (inclusive) - (表示开始时间) end_date (datetime|str) – latest possible date/time to trigger on (inclusive) - (表示结束时间) timezone (datetime.tzinfo|str) – time zone to use for the date/time calculations (defaults to scheduler timezone) -(表示时区取值)
#表示2017年3月22日17时19分07秒执行该程序 sched.add_job(my_job, 'cron', year=2017,month = 03,day = 22,hour = 17,minute = 19,second = 07) #表示任务在6,7,8,11,12月份的第三个星期五的00:00,01:00,02:00,03:00 执行该程序 sched.add_job(my_job, 'cron', month='6-8,11-12', day='3rd fri', hour='0-3') #表示从星期一到星期五5:30(AM)直到2014-05-30 00:00:00 sched.add_job(my_job(), 'cron', day_of_week='mon-fri', hour=5, minute=30,end_date='2014-05-30') #表示每5秒执行该程序一次,至关于interval 间隔调度中seconds = 5 sched.add_job(my_job, 'cron',second = '*/5')
weeks (int) – number of weeks to wait days (int) – number of days to wait hours (int) – number of hours to wait minutes (int) – number of minutes to wait seconds (int) – number of seconds to wait start_date (datetime|str) – starting point for the interval calculation end_date (datetime|str) – latest possible date/time to trigger on timezone (datetime.tzinfo|str) – time zone to use for the date/time calculations
#表示每隔3天17时19分07秒执行一次任务 sched.add_job(my_job, 'interval',days = 03,hours = 17,minutes = 19,seconds = 07)
run_date (datetime|str) – the date/time to run the job at -(任务开始的时间) timezone (datetime.tzinfo|str) – time zone for run_date if it doesn’t have one already
# The job will be executed on November 6th, 2009 sched.add_job(my_job, 'date', run_date=date(2009, 11, 6), args=['text']) # The job will be executed on November 6th, 2009 at 16:30:05 sched.add_job(my_job, 'date', run_date=datetime(2009, 11, 6, 16, 30, 5), args=['text'])