Tenacity——Exception Retry 今后无比简单

Python 装饰器装饰类中的方法这篇文章,使用了装饰器来捕获代码异常。这种方式可让代码变得更加简洁和Pythonic。

在写代码的过程当中,处理异常并重试是一个很是常见的需求。可是如何把捕获异常并重试写得简洁高效,这就是一个技术活了。

以爬虫开发为例,因为网页返回的源代码有各类不一样的状况,所以捕获异常并重试是很常见的要求。下面这几段代码是我多年之前,在刚开始学习爬虫的时候,因为捕获异常并重试致使代码混乱化过程。

代码一开始的逻辑很是简单,获取网页后台API返回的JSON字符串,转化成字典,提取出里面data的数据,而后传递给save()函数:

def extract(url):
    info_json = requests.get(url).content.decode()
    info_dict = json.loads(info_json)
    data = info_dict['data']
    save(data)
代码运行一段时间,发现有时候JSON会随机出现解析错误。因而添加捕获异常并重试的功能:

def extract(url):
    info_json = requests.get(url).text
    try:
        info_dict = json.loads(info_json)
    except Exception:
        print('网页返回的不是有效的JSON格式字符串,重试!')
        extract(url)
        return
    data = info_dict['data']
    save(data)
后来又发现,有部份的URL会致使递归深度超过最大值。这是由于有一些URL返回的是数据始终是错误的,而有些URL,重试几回又能返回正常的JSON数据,因而限制只重试3次:

def extract(url):
    info_json = requests.get(url).text
    try:
        info_dict = json.loads(info_json)
    except Exception:
        print('网页返回的不是有效的JSON格式字符串,重试!')
        for i in range(3):
            if extract(url):
                break
    data = info_dict['data']
    save(data)
    return True
后来又发现,不能马上重试,重试要有时间间隔,而且时间间隔逐次增大……

从上面的例子中能够看到,对于异常的捕获和处理,一不当心就让整个代码变得很难看很难维护。为了解决这个问题,就须要经过装饰器来完成处理异常并重试的功能。

Python 有一个第三方库,叫作Tenacity,它实现了一种优雅的重试功能。

以上面爬虫最初的无限重试版本为例,若是想实现遇到异常就重试。只须要添加两行代码,爬虫的主体函数彻底不须要作修改:

from tenacity import retry
@retry
def extract(url):
    info_json = requests.get(url).content.decode()
    info_dict = json.loads(info_json)
    data = info_dict['data']
    save(data)
如今要限制重试次数为3次,代码总行数不须要新增一行就能实现:

from tenacity import retry, stop_after_attempt
@retry(stop=stop_after_attempt(3))
def extract(url):
    info_json = requests.get(url).content.decode()
    info_dict = json.loads(info_json)
    data = info_dict['data']
    save(data)
如今想每5秒钟重试一次,代码行数也不须要增长:

from tenacity import retry, wait_fixed
@retry(wait=wait_fixed(5))
def extract(url):
    info_json = requests.get(url).content.decode()
    info_dict = json.loads(info_json)
    data = info_dict['data']
    save(data)
甚至重试的时间间隔想指数级递增,代码行数也不须要增长:

from tenacity import retry, wait_exponential
@retry(wait=wait_exponential(multiplier=1, max=10)) # 重试时间间隔知足:2^n * multiplier, n为重试次数,但最多间隔10秒
def extract(url):
    info_json = requests.get(url).content.decode()
    info_dict = json.loads(info_json)
    data = info_dict['data']
    save(data)
重试不只能够限制次数和间隔时间,还能够针对特定的异常进行重试。在爬虫主体中,其实有三个地方可能出现异常:

requests获取网页出错
解析JSON出错
info_dict字典里面没有data这个key
若是只须要在JSON解析错误时重试,因为异常类型为json.decoder.JSONDecodeError,因此就能够经过参数来进行限制:

from tenacity import retry, retry_if_exception_type
from json.decoder import JSONDecodeError
@retry(retry=retry_if_exception_type(JSONDecodeError))
def extract(url):
    info_json = requests.get(url).content.decode()
    info_dict = json.loads(info_json)
    data = info_dict['data']
    save(data)
固然,这些特性均可以进行组合,例如只对JSONDecodeError 进行重试,每次间隔5秒,重试三次,那就写成:

from tenacity import retry, retry_if_exception_type, wait_fixed, stop_after_attempt
from json.decoder import JSONDecodeError
@retry(retry=retry_if_exception_type(JSONDecodeError), wait=wait_fixed(5), stop=stop_after_attempt(3))
def extract(url):
    info_json = requests.get(url).content.decode()
    info_dict = json.loads(info_json)
    data = info_dict['data']
    save(data)
自始至终,爬虫主体的代码彻底不须要作任何修改。

Tenacity是我见过的,最 Pythonic ,最优雅的第三方库。

  

原文连接:https://kingname.info/2017/06/18/easy-retry/
相关文章
相关标签/搜索