Python3 如何优雅地使用正则表达式（详解六）

时间 2019-11-08

标签 python3 python 如何优雅使用正则表达式详解栏目 Python 繁體版

原文原文链接

修改字符串

咱们已经介绍完如何对字符进行搜索，接下来咱们讲讲正则表达式如何修改字符串。

正则表达式使用如下方法修改字符串：

正则表达式

方法	用途
split()	在正则表达式匹配的地方进行分割，并返回一个列表
sub()	找到全部匹配的子字符串，并替换为新的内容
subn()	跟 sub() 干同样的勾当，但返回新的字符串以及替换的数目

分割字符串

正则表达式的 split() 方法将字符串在匹配的地方进行分割，并将分割后的结果做为列表返回。它的作法其实很像字符串的 split() 方法，但这个可使用更加普遍的分隔符。你猜的没错，它同时提供了一个模块级别的函数：re.split()

.split(string[, maxsplit=0])函数

经过正则表达式匹配来分割字符串。若是在 RE 中，你使用了捕获组，那么它们的内容会做为一个列表返回。你能够经过传入一个 maxsplit 参数来设置分割的数量。若是 maxsplit 的值是非 0，表示至多有 maxsplit 个分割会被处理，剩下的内容做为列表的最后一个元素返回。spa

下边例子中，分隔符是任何非字母数字字符：

code

>>> p = re.compile(r'\W+')
>>> p.split('This is a test, short and sweet, of split().')
['This', 'is', 'a', 'test', 'short', 'and', 'sweet', 'of', 'split', '']
>>> p.split('This is a test, short and sweet, of split().', 3)
['This', 'is', 'a', 'test, short and sweet, of split().']

复制代码

有时候你可能不只对分隔符之间的内容感兴趣，你可能对分隔符自己（就是正则表达式匹配的内容）也一样感兴趣。若是使用了捕获组，那么做为分隔符的值也会被返回：

对象

>>> p = re.compile(r'\W+')
>>> p2 = re.compile(r'(\W+)')
>>> p.split('This... is a test.')
['This', 'is', 'a', 'test', '']
>>> p2.split('This... is a test.')
['This', '... ', 'is', ' ', 'a', ' ', 'test', '.', '']

复制代码

模块级别的函数 re.split() 除了将 RE 做为第一个参数外，其余参数是同样的：

ci

>>> re.split('[\W]+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split('([\W]+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split('[\W]+', 'Words, words, words.', 1)
['Words', 'words, words.']

复制代码

搜索和替换

另外一个常见的任务就是找到全部的匹配部分，并替换成不一样的字符串。sub 方法能够帮你实现这个愿望！sub 方法有一个replacement 参数，它能够是一个待替换的字符串，或者一个处理字符串的函数。

.sub(replacement, string[, count=0])字符串

返回一个字符串，这个字符串从最左边开始，全部 RE 匹配的地方都替换成 replacement。若是没有找到任何匹配，那么返回原字符串。string

可选参数 count 指定最多替换的次数，必须是一个非负值。默认值是 0，意思是替换全部找到的匹配。it

下边是使用 sub() 方法的例子，它会将全部的颜色替换成 color：

io

>>> p = re.compile( '(blue|white|red)')
>>> p.sub( 'colour', 'blue socks and red shoes')
'colour socks and colour shoes'
>>> p.sub( 'colour', 'blue socks and red shoes', count=1)
'colour socks and red shoes'

复制代码

subn() 方法跟 sub() 方法干一样的勾当，但区别是返回值为一个包含有两个元素的元组：一个是替换后的字符串，一个是替换的数目。

>>> p = re.compile( '(blue|white|red)')
>>> p.subn( 'colour', 'blue socks and red shoes')
('colour socks and colour shoes', 2)
>>> p.subn( 'colour', 'no colours at all')
('no colours at all', 0)

复制代码

空匹配只有在它们没有紧挨着前一个匹配时才会被替换掉：

>>> p = re.compile('x*')
>>> p.sub('-', 'abxd')
'-a-b-d-'

复制代码

若是 replacement 参数是一个字符串，那么里边的反斜杠都会被处理。好比 \n 将会被转换成一个换行符，\r 转换成回车，等等。未知的转义如 \j 保持原样。逆向引用如 \6，则被 RE 中相应的捕获组匹配的内容所替换。这使你能够在替换后的字符串中插入一部分原字符串。

下边例子中，将匹配被 { 和 } 括起来的单词 section，并将 section 替换成 subsection：

>>> p = re.compile('section{ ( [^}]* ) }', re.VERBOSE)
>>> p.sub(r'subsection{\1}','section{First} section{second}')
'subsection{First} subsection{second}'

复制代码

小甲鱼解释：1. 你们还记得吗？这里开启了 re.VERBOSE，空格将被忽略。由于这里一堆符号，用空格隔开看着才不会乱糟糟的......2. 这里 r'subsection{\1}' 使用 \1 引用匹配模式中的 ([^}]*) 匹配的字符串内容。

还可使用 Python 的扩展语法 (?P<name>...) 指定命名组，引用命名组的语法是 \g<name>。\g<name> 会将名字为name 的组匹配的字符串替换进去。另外，\g<数字> 是经过组的序号进行引用。\g<2> 其实就至关于 \2，但咱们更提倡使用 \g<2>，由于这样能够避免歧义。例如，\g<2>0 的含义是引用序号为 2 的组，而后后边匹配一个字符 '0'，而你写成\20 就会被认为是引用序号为 20 的组了。

>>> p = re.compile('section{ (?P<name> [^}]* ) }', re.VERBOSE)
>>> p.sub(r'subsection{\1}','section{First}')
'subsection{First}'
>>> p.sub(r'subsection{\g<1>}','section{First}')
'subsection{First}'
>>> p.sub(r'subsection{\g<name>}','section{First}')
'subsection{First}'

复制代码

有时候你可能不知足简单的字符串替换，你可能须要在替换的过程当中动点“手脚”......不要紧，同样能够知足你！replacement 参数还能够是一个函数，该函数将会在正则表达式模式每次不重复匹配的时候被调用。在每次调用时，函数会收到一个匹配对象的参数，所以你就能够利用这个对象去计算出新的字符串并返回它。

下边的例子中，替换函数将十进制数替换为十六进制数：

>>> def hexrepl(match):
... "Return the hex string for a decimal number"
... value = int(match.group())
... return hex(value)
...
>>> p = re.compile(r'\d+')
>>> p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.')
'Call 0xffd2 for printing, 0xc000 for user code.'

复制代码

当使用模块级的 re.sub() 函数时，正则表达式模式做为第一个参数。该模式能够是一个字符串或一个编译好的对象。若是你须要指定正则表达式标志，那么你必须使用后者；或者使用模式内嵌修正器，例如 sub("(?i)b+", "x", "bbbb BBBB") 返回 'x x'。