Python定时任务框架：APScheduler源码剖析(一)

时间 2019-12-21

标签 python 定时任务框架 apscheduler 源码剖析栏目 Python 繁體版

原文原文链接

前言

APScheduler是Python中知名的定时任务框架，能够很方面的知足定时执行或周期性执行程序任务等需求，相似于Linux上的crontab，但比crontab要更增强大，该框架不只能够添加、删除定时任务，还提供多种持久化任务的功能。python

APScheduler弱分布式的框架，由于每一个任务对象都存储在当前节点中，只能经过人肉的形式实现分布式，如利用Redis来作。redis

第一次接触APScheduler会发它有不少概念，我当年第一次接触时就是由于概念太多，直接用crontab多舒服，但如今公司项目不少都基于APScheduler实现，因此来简单扒一扒的它的源码。mongodb

前置概念

用最简单的语言提一下APScheduler中的关键概念。后端

Job：任务对象，就是你要执行的任务
JobStores：任务存储方式，默认是存储在内存中，还能够支持redis、mongodb等
Executors：执行器，就是执行任务的东西
Trigger：触发器，到达某个条件触发相应的调用逻辑
Scheduler：调度器，将上面几个部分链接起来的东西

APScheduler提供多个Scheduler，不一样Scheduler适用于不一样的情景，目前我最多见的就是BackgroundScheduler后台调度器，该调度器适合要求在后台运行程序的调度。app

还有多种其余调度器：框架

BlockingScheduler：适合于只在进程中运行单个任务的状况，一般在调度器是你惟一要运行的东西时使用。async

AsyncIOScheduler：适合于使用 asyncio 框架的状况分布式

GeventScheduler: 适合于使用 gevent 框架的状况模块化

TornadoScheduler: 适合于使用 Tornado 框架的应用函数

TwistedScheduler: 适合使用 Twisted 框架的应用

QtScheduler: 适合使用 QT 的状况

本文只剖析 BackgroundScheduler 相关的逻辑，先简单看看官方example，而后以此为入口逐层剖析。

剖析BackgroundScheduler

官方example代码以下。

from datetime import datetime
import time
import os
from apscheduler.schedulers.background import BackgroundScheduler

def tick():
    print('Tick! The time is: %s' % datetime.now())

if __name__ == '__main__':
    scheduler = BackgroundScheduler()
    scheduler.add_job(tick, 'interval', seconds=3) # 添加一个任务，3秒后运行
    scheduler.start()
    print('Press Ctrl+{0} to exit'.format('Break' if os.name == 'nt' else 'C'))

    try:
        # 这是在这里模拟应用程序活动（使主线程保持活动状态）。
        while True:
            time.sleep(2)
    except (KeyboardInterrupt, SystemExit):
        # 关闭调度器
        scheduler.shutdown()

上述代码很是简单，先经过BackgroundScheduler方法实例化一个调度器，而后调用add_job方法，将须要执行的任务添加到JobStores中，默认就是存到内存中，更具体点，就是存到一个dict中，最后经过start方法启动调度器，APScheduler就会每隔3秒，触发名为interval的触发器，从而让调度器调度默认的执行器执行tick方法中的逻辑。

当程序所有执行完后，调用shutdown方法关闭调度器。

BackgroundScheduler实际上是基于线程形式构成的，而线程就有守护线程的概念，若是启动了守护线程模式，调度器不必定要关闭。

先看一下BackgroundScheduler类的源码。

# apscheduler/schedulers/background.py

class BackgroundScheduler(BlockingScheduler):

    _thread = None

    def _configure(self, config):
        self._daemon = asbool(config.pop('daemon', True))
        super()._configure(config)

    def start(self, *args, **kwargs):
        # 建立事件通知
        # 多个线程能够等待某个事件的发生，在事件发生后，全部的线程都会被激活。
        self._event = Event() 
        BaseScheduler.start(self, *args, **kwargs)
        self._thread = Thread(target=self._main_loop, name='APScheduler')
        # 设置为守护线程，Python主线程运行完后，直接结束不会理会守护线程的状况，
        # 若是是非守护线程，Python主线程会在运行完后，等待其余非守护线程运行完后，再结束
        self._thread.daemon = self._daemon # daemon 是否为守护线程
        self._thread.start() # 启动线程

    def shutdown(self, *args, **kwargs):
        super().shutdown(*args, **kwargs)
        self._thread.join()
        del self._thread

上述代码中，给出了详细的注释，简单解释一下。

_configure方法主要用于参数设置，这里定义了self._daemon 这个参数，而后经过super方法调用父类的_configure方法。

start方法就是其启动方法，逻辑也很是简单，建立了线程事件Event，线程事件是一种线程同步机制，你扒开看其源码，会发现线程事件是基于条件锁来实现的，线程事件提供了set()、wait()、clear()这3个主要方法。

set()方法会将事件标志状态设置为true。
clear()方法将事件标志状态设置为false
wait()方法会阻塞线程，直到事件标志状态为true。

建立了线程事件后，调用了其父类的start()方法，该方法才是真正的启动方法，暂时放放，启动完后，经过Thread方法建立一个线程，线程的目标函数为self._main_loop，它是调度器的主训练，调度器不关闭，就会一直执行主循环中的逻辑，从而实现APScheduler各类功能，是很是重要方法，一样，暂时放放。建立完后，启动线程就ok了。

线程建立完后，定义线程的daemon，若是daemon为True，则表示当前线程为守护线程，反之为非守护线程。

简单提一下，若是线程为守护线程，那么Python主线程逻辑执行完后，会直接退出，不会理会守护线程，若是为非守护线程，Python主线程执行完后，要等其余全部非守护线程都执行完才会退出。

shutdown方法先调用父类的shutdown方法，而后调用join方法，最后将线程对象直接del删除。

BackgroundScheduler类的代码看完了，回看一开始的example代码，经过BackgroundScheduler实例化调度器后，接着调用的是add_job方法，向add_job方法中添加了3个参数，分别是想要定时执行的tick方法，触发器trigger的名称，叫interval，而这个触发器的参数为seconds=3。

是否能够将触发器trigger的名称改为任意字符呢？这是不能够的，APScheduler在这里其实使用了Python中的entry point技巧，若是你通过过作个Python包并将其打包上传到PYPI的过程，你对entry point应该有印象。其实entry point不止可能永远打包，还能够用于模块化插件体系结构，这个内容较多，放到后面再聊。

简单而言，add_job()方法要传入相应触发器名称，interval会对应到apscheduler.triggers.interval.IntervalTrigger类上，seconds参数就是该类的参数。

剖析add_job方法

add_job方法源码以下。

# apscheduler/schedulers/base.py/BaseScheduler

    def add_job(self, func, trigger=None, args=None, kwargs=None, id=None, name=None,
                misfire_grace_time=undefined, coalesce=undefined, max_instances=undefined,
                next_run_time=undefined, jobstore='default', executor='default',
                replace_existing=False, **trigger_args):
        job_kwargs = {
            'trigger': self._create_trigger(trigger, trigger_args),
            'executor': executor,
            'func': func,
            'args': tuple(args) if args is not None else (),
            'kwargs': dict(kwargs) if kwargs is not None else {},
            'id': id,
            'name': name,
            'misfire_grace_time': misfire_grace_time,
            'coalesce': coalesce,
            'max_instances': max_instances,
            'next_run_time': next_run_time
        }
        # 过滤
        job_kwargs = dict((key, value) for key, value in six.iteritems(job_kwargs) if
                          value is not undefined)
        # 实例化具体的任务对象
        job = Job(self, **job_kwargs)

        # Don't really add jobs to job stores before the scheduler is up and running
        with self._jobstores_lock:
            if self.state == STATE_STOPPED:
                self._pending_jobs.append((job, jobstore, replace_existing))
                self._logger.info('Adding job tentatively -- it will be properly scheduled when '
                                  'the scheduler starts')
            else:
                self._real_add_job(job, jobstore, replace_existing)

        return job

add_job方法代码很少，一开始，建立了job_kwargs字典，其中含有触发器、执行器等，简单理一理。

trigger触发器，经过self._create_trigger()方法建立，该方法须要两个参数，代码中的trigger其实就是interval字符串，trigger_args则为对应的参数。
exectuor执行器目前为default，这个后面再聊。
func回调方法，就是咱们本身真正但愿被执行的逻辑，触发器会触发调度器，调度器会调用执行器去执行的具体逻辑。
misfire_grace_time：其注释解释为「指定运行时间后几秒仍运行该任务运行」，阅读相关文档才能够理解，好比一个任务，本来12:00运行，但12:00因为某些缘由没有被调度，如今12:30分了，此时调度时会判断当前时间与预调度时间的差值，若是misfire_grace_time设置为20，则不会调度执行这个此前调度失败的任务，若是misfire_grace_time设置为60，则会调度。
coalesce：若是某个任务由于某些缘由没有实际运行，从而形成了任务堆积，好比堆积了10个相同的人，coalesce为True，则只执行最后一层，若是coalesce为False，则尝试连续执行10次。
max_instances：经过任务同一时间最多能够有几个实例在运行
next_run_time：任务下次运行时间

接着作了一个过滤，而后将参数传入Job类，完成任务对象的实例化。

随后的逻辑比较简单，先判断是否能够拿到self._jobstores_lock锁，它实际上是一个可重入锁，Python中，可重入锁的实现基于普通互斥锁，只是多了一个变量用于计数，每加一次锁，该变量加一，每解一次锁该变量减一，只有在该变量为0时，才真正去释放互斥锁。

获取到锁后，先判断当前调度器的状态，若是是STATE_STOPPED(中止状态)则将任务添加到_pending_jobs待定列表中，若是不是中止状态，则调用_real_add_job方法，随后返回job对象。

其实_real_add_job方法才是真正的将任务对象job添加到指定存储后端的方法。

当任务对象添加到指定存储后端后(默认直接存到内存中)，调度器就会去取来执行。

回到example代码中，执行完调度器的add_job方法后，紧接着便执行调度器的start方法。

结尾

考虑字数，本文就先到这里，后面会继续剖析APScheduler。

若是文章对你有所帮助，点击「在看」支持二两，下篇文章见。