一日一技：使用二分法排查正则表达式的异常

时间 2020-12-03

标签 web 正则表达式 ide code blog utf-8 产品栏目应用数学繁體版

原文原文链接

一日一技：使用二分法排查正则表达式的异常

摄影：产品经理
下厨：kingname
如今我有10亿条微博正文，并从同事手上拿到了15000条须要过滤的垃圾信息正则表达式，只要微博正文符合任何一条正则表达式，就删除这条微博。web

正则表达式的格式为：正则表达式

^你成功领取
|^感谢您的积
|^在第\d+次抽奖.
|^只有帮主才
|^目标有相应
|^宝宝#G.
|^提交失败，
|^您已领取过
|^破军争夺战
|^首席大弟子
|数第\d+个丫环
|你的店铺
|恭喜.*?投中了
|<web
|你将该物品拆解成
|^你身上没有
|欢迎参加微博抽奖
|蔡徐坤
|王一博
|朱一龙
...

存放在一个名为trash.txt的文本文件中，每一个正则表达式一行。ide

通常状况下，我只须要使用以下几行代码就能实现这个功能：code

import re

with open('trash.txt', encoding='utf-8') as f:
    lines = [x.strip() for x in f]
    pattern = re.compile(''.join(lines))

for weibo in weibo_list:
    if pattern.search(weibo):
        print('垃圾信息，过滤！')

可是当个人代码运行到re.compile这一行时，报错了，以下图所示：blog

而且，即便你在 Google 上面搜索：re.error: multiple repeat at position，截至2019年12月30日，你能找到的都是对这个报错的讨论，但没有一个讨论能解决本文描述的问题。ip

那咱们自食其力，来试着解决一下这个问题。它报错报的是position 167，那么咱们来看看第167个字符有什么问题。在 PyCharm 中，能够在右下角查看你选中了多少个字符，以下图所示：utf-8

从截图中能够看到，第167个字符所在的这一行正则表达式为：|张三丰.?张翠山.?张无忌，可是我彻底看不出这一行正则表达式有什么问题。产品

因为报错了，那么确定至少有一行正则表达式有问题，咱们假设有问题的正则表达式有且只有一行。如今咱们有15000行正则表达式，如何找出有问题的这一行呢？it

这个时候，咱们就可使用二分查找来解决这个问题，，咱们最多查找14次就能找到有问题的这一行正则表达式。io

因为正则表达式一共有15000行，咱们就先看0-7500行在编译时是否会报错，若是报错，在看0-3750行是否报错，若是不报错，在看3750-7500行是否报错……如此分割下去，直到找到报错的这一行正则表达式。

二分查找的代码以下：

import re

with open('trash.txt', encoding='utf-8') as f:
    lines = [x.strip() for x in f]

def is_compile_success(regex):
    try:
        re.compile(regex)
        return True
    except Exception:
        return False

def search(regex_list):
    if len(regex_list) == 1:
        print(regex_list[0])
        return
    mid = len(regex_list) // 2
    part_1 = ''.join(regex_list[: mid])
    part_2 = ''.join(regex_list[mid: ])
    if not is_compile_success(part_1):
        search(regex_list[: mid])
        return
    if not is_compile_success(part_2):
        search(regex_list[mid:])
        return

search(lines)

运行结果以下图所示：

原来出问题的地方在：.??，这里多写了一个问号。把这一行改为|赵大.?包之后，编译成功经过。

思考题

若是要把出问题的这一行所在的行号打印出来，应该如何修改代码？
若是有问题的正则表达式不止一行，应该如何修改代码，从而打印全部有问题的正则表达式？