Python实用技法第31篇：文本过滤和清理

时间 2019-12-06

原文原文链接

上一篇文章： Python实用技法第30篇：从字符串中去掉不须要的字符
下一篇文章： Python实用技法第32篇：对齐文本字符串

　问题

某些无聊的脚本小子在Web页面表单中填入了“pýtĥöñ”这样的文本，咱们想以某种方式将其清理掉。python

　解决方案

文本过滤和清理所涵盖的范围很是普遍，涉及文本解析和数据处理方面的问题。在很是简单的层次上，咱们可能会用基本的字符串函数（例如str.upper()和str.lower()）将文本转换为标准形式。简单的替换操做可经过str.replace()或re.sub()来完成，它们把重点放在移除或修改特定的字符序列上。也能够利用unicodedata.normalize()来规范化文本。git

然而咱们可能想更进一步。比方说也许想清除整个范围内的字符，或者去掉音符标志。要完成这些任务，可使用常被忽视的str.translate()方法。为了说明其用法，假设有以下这段混乱的字符串：正则表达式

>>> s = 'pytĥon\fis\tawesome\r\n'
>>> s
'pytĥon\x0cis\tawesome\r\n'
>>>

第一步是清理空格。要作到这步，先创建一个小型的转换表，而后使用translate()方法：segmentfault

>>> remap = {
...      ord('\t') : ' ',
...      ord('\f') : ' ',
...      ord('\r') : None        # Deleted
... }
>>> a = s.translate(remap)
>>> a
'pytĥon is awesome\n'

能够看到，相似t和f这样的空格符已经被从新映射成一个单独的空格。回车符r已经彻底被删除掉了。函数

能够利用这种从新映射的思想进一步构建出更加庞大的转换表。例如，咱们把全部的Unicode组合字符都去掉：性能

>>> import unicodedata
>>> import sys
>>> cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) if unicodedata.combining(chr(c)))
...
>>> b = unicodedata.normalize('NFD', a)
>>> b
'pytĥon is awesome\n'
>>> b.translate(cmb_chrs)
'python is awesome\n'
>>>

在这个例子中，咱们使用dict.fromkeys()方法构建了一个将每一个Unicode组合字符都映射为None的字典。编码

原始输入会经过unicodedata.normalize()方法转换为分离形式，而后再经过translate()方法删除全部的重音符号。咱们也能够利用类似的技术来去掉其余类型的字符（例如控制字符）。spa

下面来看另外一个例子。这里有一张转换表将全部的Unicode十进制数字字符映射为它们对应的ASCII版本：翻译

>>> digitmap = { c: ord('0') + unicodedata.digit(chr(c))
...               for c in range(sys.maxunicode)
...               if unicodedata.category(chr(c)) == 'Nd' }
...
>>> len(digitmap)
460
>>> # Arabic digits
>>> x = '\u0661\u0662\u0663'
>>> x.translate(digitmap)
'123'
>>>

另外一种用来清理文本的技术涉及I/O解码和编码函数。大体思路是首先对文本作初步的清理，而后经过结合encode()和decode()操做来修改或清理文本。示例以下：code

>>> a
'pytĥon is awesome\n'
>>> b = unicodedata.normalize('NFD', a)
>>> b.encode('ascii', 'ignore').decode('ascii')
'python is awesome\n'
>>>

这里的normalize()方法先对原始文本作分解操做。后续的ASCII编码/解码只是简单地一次性丢弃全部不须要的字符。很显然，这种方法只有当咱们的最终目标就是ASCII形式的文本时才有用。

　讨论

文本过滤和清理的一个主要问题就是运行时的性能。通常来讲操做越简单，运行得就越快。对于简单的替换操做，用str.replace()一般是最快的方式——即便必须屡次调用它也是如此。比方说若是要清理掉空格符，能够编写以下的代码：

def clean_spaces(s):
    s = s.replace('\r', '')
    s = s.replace('\t', ' ')
    s = s.replace('\f', ' ')
return s

若是试着调用它，就会发现这比使用translate()或者正则表达式的方法要快得多。

另外一方面，若是须要作任何高级的操做，好比字符到字符的重映射或删除，那么translate()方法仍是很是快的。

从总体来看，咱们应该在具体的应用中去进一步揣摩性能方面的问题。不幸的是，想在技术上给出一条“放之四海而皆准”的建议是不可能的，因此应该尝试多种不一样的方法，而后作性能统计分析。

尽管本节的内容主要关注的是文本，但相似的技术也一样适用于字节对象（byte），这包括简单的替换、翻译和正则表达式。

上一篇文章： Python实用技法第30篇：从字符串中去掉不须要的字符
下一篇文章： Python实用技法第32篇：对齐文本字符串