[译] 正则表达式要跑 5 天，因此我作了个工具，只跑 15 分钟。

时间 2019-11-17

原文原文链接

原文地址：Regex was taking 5 days to run. So I built a tool that did it in 15 minutes.

原文做者：Vikash Singh

译文出自：掘金翻译计划

本文永久连接：github.com/xitu/gold-m…

译者：cf020031308

校对者：StellaBauhinia, Park

dia057 | Unsplash前端

当开发人员使用文本时，他们一般须要先清理它。有时是替换关键词，就像用“JavaScript”替换“Javascript”同样。其它时候，咱们只想知道文档中是否提到了“JavaScript”。python

像这样的数据清理是大多数处理文本的数据科学项目的标准任务。android

数据科学始于数据清理。

最近我有一项很是相似的工做。我在 Belong.co 担任数据科学家，其中有一半工做是在作天然语言处理。ios

当我在咱们的文档语料库中训练 Word2Vec 模型时，它最初会把同义词当成近似术语给出。好比“Javascripting”变成了“JavaScript”的近似术语。git

为了解决这事，我编写了一个正则表达式（Regex）来用标准化名称替换全部已知的同义词。好比将“JavaScripting”替换成“Javascript”。正则表达式解决了这一个问题，但创造了另外一个问题。github

有些人在面对一个问题时会想
“知道了，我该使用正则表达式。”如今他们有两个问题了。正则表达式

以上引用来自 stack-exchange 的问题，说的就是我这种。算法

事实证实，若是要搜索和替换的关键词数量在 100 个之内，正则表达式会很快。但个人语料库有超过 2 万个关键词和 300 万个文件。后端

当我对个人正则表达式代码进行基准测试时，我发现它跑一次要花 5 天。bash

哦，恐怖

天然的解决方案是并行运行。可是，当咱们的数量级达到文档千万、关键词十万时，这将无济于事。**必须有更好的方法！**我开始寻找......

我在办公室和 Stack Overflow 上问了问 —— 收获了一些建议。Vinay Pandey，Suresh Lakshmanan 和 Stack Overflow 指出了称为 Aho-Corasick 算法的美妙算法，以及 Trie 数据结构方法。我寻找已有的解决方案，但找不到多少。

因此我编写了本身的实现，FlashText 诞生了。

在咱们了解什么是 FlashText 以及它是如何工做的以前，让咱们看看它的搜索性能：

底部的红线是 FlashText 搜索所花费的时间

上面显示的图表是 1 个文档时编译过的正则表达式与 FlashText 的比较。随着关键词数量的增长，正则表达式所用的时间几乎呈线性增加，但 FlashText 对此并不敏感。

FlashText 将运行时间从 5 天减小到 15 分钟!!

这个好 :)

这是 FlashText 作替换时的计时：

底部的红线是 FlashText 用于替换的时间

用于上述基准测试的代码连接在此，结果连接在此。

那么什么是 FlashText？

FlashText 是我在 GitHub 上开源的一个 Python 库。它在提取关键词和替换上都很高效。

要使用 FlashText，首先必须传入一个关键词列表。此列表将在内部用于构建 Trie 字典。而后传入一个字符串，并说明是要替换仍是搜索。

**替换**会建立一个替换了关键词的新字符串。**搜索**会返回字符串中找到的关键词列表。在运行过程当中，输入的字符串只会被扫描一遍。

如下是一位满意的用户对这库的见解：

@RadimRehurek 是 @gensim_py 的建立者。

为何 FlashText 这么快？

咱们试着用一个例子来理解这部分。假设咱们有一个句子，其中包含 3 个单词 I like Python，以及一个包含 4 个单词 {Python，Java，J2ee，Ruby} 的语料库。

若是咱们从语料库中取出每一个单词，并检查它是否存在于句子中，则须要 4 次尝试。

'Python' 在句子中吗？
'Java' 在句子中吗？
...
复制代码

若是语料库有 n 个词，它就会重复 n 次。每一个搜索步骤 <word> 在句子中吗？ 都要独自花费时间。这就是正则表达式匹配中发生的事情。

还有另外一种方法与第一种方法相反：对于句子中的每一个单词，检查它是否存在于语料库中。

'I' 在语料库中吗？
'like' 在语料库中吗？
'Python' 在语料库中吗？
复制代码

若是句子中有 m 个词，它就会重复 m 次。在这种状况下，它所花费的时间仅取决于句子中的单词数量。而 <word> 在语料库中吗？ 这一步可使用字典查找快速完成。

FlashText 算法基于第二种方法。其灵感来自 Aho-Corasick 算法和 Trie 数据结构。

它的工做方式是：
首先，使用语料库建立 Trie 词典。看起来有点像这样：

Trie 词典的语料库。

用 start 和 EOT（End Of Term）表示像 空格，标点 和 换行 这样的单词边界。关键词只有在其两侧都有单词边界时才匹配。这样能够防止 pineapple 匹配到 apple。

接下来咱们将输入一个输入字符串 I like Python 并逐个字符地搜索它。

第 1 步：<start>I<EOT> 在字典中吗？不在。
第 2 步：<start>like<EOT> 在字典中吗？不在。
第 3 步：<start>Python<EOT> 在字典中吗？在。
复制代码

<Start>Python<EOT> 在字典中。

由于这是逐个字符的匹配，因此咱们能够很容易地在 <start>l 处就跳过 <start>like<EOT>，由于词典的 <start> 后面没有 l 这个字母。这样能够快速跳过不在语料库中的单词。

FlashText 算法只遍历输入字符串 'I like Python' 的每一个字符。字典哪怕有高达百万个关键词，对运行时也没有影响。这就是 FlashText 算法的真正力量。

那么何时应该使用 FlashText？

简单的答案：当关键词数 > 500 时

对于搜索，FlashText 在大约超过 500 个关键词后性能优于正则表达式。

复杂的答案：正则表达式能够基于特殊字符搜索关键词，如 ^,$,*,\d,.，FlashText 不支持这个。

所以，若是您想像 word\dvec 这样匹配部分词，最好不要用 FlashText。但像 word2vec 这样提取完整的单词，就很是适合了。

用 FlashText 查找关键词

# pip install flashtext
from flashtext.keyword import KeywordProcessor
keyword_processor = KeywordProcessor()
keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('Bay Area')
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')
keywords_found
# ['New York', 'Bay Area']
复制代码

使用 FlashText 的简单提取示例

用 FlashText 替换关键词

您也能够替换句子中的关键词，而不是提取它。咱们用这做为数据处理流程中的数据清理步骤。

from flashtext.keyword import KeywordProcessor
keyword_processor = KeywordProcessor()
keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('New Delhi', 'NCR region')
new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')
new_sentence
# 'I love New York and NCR region.'
复制代码

使用 FlashText 的简单替换示例

若是您认识谁在用文本数据、实体识别、天然语言处理或 Word2vec，请考虑与他们共享此博文。

这个库对咱们很是有用，我相信它对其余人也颇有用。

终于讲完了，感谢捧场 😊

若是发现译文存在错误或其余须要改进的地方，欢迎到掘金翻译计划对译文进行修改并 PR，也可得到相应奖励积分。文章开头的 本文永久连接 即为本文在 GitHub 上的 MarkDown 连接。

掘金翻译计划是一个翻译优质互联网技术文章的社区，文章来源为掘金上的英文分享文章。内容覆盖 Android、iOS、前端、后端、区块链、产品、设计、人工智能等领域，想要查看更多优质译文请持续关注掘金翻译计划、官方微博、知乎专栏。