Python入门进阶教程-正则表达式

时间 2019-12-08

标签 python 入门进阶教程正则表达式栏目 Python 繁體版

原文原文链接

「关注我，和我一块儿放下灵魂，让灵魂去搬砖。」git

Python正则表达式

Python版本3.8.0，开发工具：Pycharm正则表达式

Python正则表达式

正则表达式（英语：Regular Expression，在代码中常简写为 regex、regexp 或 RE）正则表达式一般被用来检索、替换那些符合某个模式的文本编程

将Regular Expression（正则表达式）理解成规则表达式更好， 一个规则表达式（Regular Expression）一般被称为一个规则（Pattern），即咱们须要找到与规则一致的文本。api

总结bash

正则表达式（Regular Expressions，一般缩写为 Regex）是最强大且不可或缺的文本处理工具 —— 它的用处就是在文本中扫描/搜索与某一规则匹配的全部实例，而且还能够按照规则捕获其中的部分或者所有，对它们进行替换。微信

正则表达式介绍

在正则表达式中，存在操做符和操做元，操做符存在优先级，操做元被称作原子多线程

操做符优先级（由高到低）

（先不用在乎操做符的名称，虽然也看不太懂）函数

1. 转义符号 (Escaping Symbol)：
    \
2. 分组、捕获 (Grouping or Capturing)：
    (...) (?:...) (?=...) (?!...) (?<=...) (?<!...)
3. 数量 (Quantifiers)
    a* a+ a? a{n, m}
4. 序列与定位（Sequence and Anchor）
    abc ^ $ \b \B
5. 或（Alternation）
    a|b|c
6. 原子 (Atoms)
    a [^abc] \t \r \n \d \D \s \S \w \W .

复制代码

1. 本义字符工具

表明的就是它们的字面值，包括从 a 到 z，A 到 Z，0 到 9，还有 _post

注：非本义字符：\ + * . ? - ^ $ | ( ) [ ] { } < >，建议都直接加上转义符号 \ 来表示

2. 集合原子

标示集合原子，使用方括号 []。

即[abc] 的意思是说，“a or b or c”，即，abc 中的任意一个字符。

在方括号中，咱们能够使用两个操做符：-（区间）和 ^（非）。

- [a-z] 表示从小写字母 a 到小写字母 z 中的任意一个字符。
- [^abc] 表示 abc 之外的其它任意字符，即，非 [abc]。

举：beg[iau]n 可以表明 begin、began，以及 begun。
复制代码

注：一个集合原子中，^ 符号只能用一次，只能紧跟在 [ 以后。不然不起做用。

3. 类别原子

可以表明 “一类字符” 的原子，它们都得使用转义符号再加上另一个符号表达

\d 任意数字；等价于 [0-9]
\D 任意非数字；等价于 [^0-9]
\w 任意本义字符；等价于 [a-zA-Z0-9_]
\W 任意非本义字符；等价于 [^a-zA-Z0-9_]
\s 任意空白；至关于 [ \f\n\r\t\v]（注意，方括号内第一个字符是空格符号）
\S 任意非空白；至关于 [^ \f\n\r\t\v]（注意，紧随 ^ 以后的是一个空格符号）
.  除 \r \n 以外的任意字符；至关于 [^\r\n]
复制代码

小技巧：d 是 digits；w 是 word characters；s 是 spaces

# 举例
import re

str = '<dl>(843) 542-4256</dl> <dl>(431) 270-9664</dl>'
# 找到字符串中全部"数字-数字"格式的字符，其中第一个数字是三位数，第二个数字是四位数
pttn = r'\d\d\d\-\d\d\d\d'
print(re.findall(pttn, str))

# 输出
['542-4256', '270-9664']
复制代码

4. 边界原子

用边界原子指定边界。也能够称做 “定位操做符”。

^ 匹配被搜索字符串的开始位置；
$ 匹配被搜索字符串的结束位置；
\b 匹配单词的边界；er\b，能匹配 coder 中的 er，却不能匹配 error 中的 er；
\B 匹配非单词边界；er\B，能匹配 error 中的 er，却不能匹配 coder 中的 er。
复制代码

注：^ 和 $ 在 Python 语言中被 \A 和 \Z 替代。

# 举例
import re

str = 'never ever verb however everest'
pttn = r'er\b'
print(re.findall(pttn, str))
pttn = r'er\B'
print(re.findall(pttn, str))

# 输出
['er', 'er', 'er']
['er', 'er']
复制代码

5. 组合原子

用圆括号 () 将多个单字符原子组合成一个原子，() 内的字符串将被看成一整个原子

注意：
er 是两个原子，'e' 和紧随其后的 'r'
[er] 是一个原子，或者 'e' 或者 'r'；
(er) 是一个原子，'er'
复制代码

6. 数量操做符

数量操做符有：+ ? * {n, m}。用来限定位于它们以前的原子容许出现的个数，不加数量限定则表明出现一次且仅出现一次

+ 表明前面的原子必须至少出现一次，即： 出现次数 ≧ 1
? 表明前面的原子最多只能够出现一次，即：0 ≦ 出现次数 ≦ 1
* 表明前面的原子能够不出现，也能够出现一次或者屡次，即： 出现次数 ≧ 0
{n} 表明以前的原子出现肯定的 n 次；
{n,} 表明以前的原子出现至少 n 次；
{n, m} 表明以前的原子出现至少 n 次，至多 m 次

复制代码

# 匹配字符串
str = ['google', 'gooogle', 'goooogle', 'goooooogle']

# 遍历字符串
for str_per in str:
    # o最少出现一次 
    pttn = r'go+gle'
    print(re.findall(pttn, str_per))
    
    # o最多出现一次 
    pttn = r'go?gle'
    print(re.findall(pttn, str_per))

    # o出现次数≧ 0
    pttn = r'go?gle'
    print(re.findall(pttn, str_per))
    
    # o出现至少2次，至多5次
    pttn = r'go{2,5}gle'
    print(re.findall(pttn, str_per))
    
    # 进阶：联立组合原子
    # g 或者 o 最少出现一次
    pttn = r'[go]+gle'
    
    # go 最少出现一次
    pttn = r'(go)+gle'
    print(re.findall(pttn, str_per))
复制代码

7. 或操做符 |

或操做符 | 是全部操做符中优先级最低的

import re

str = 'begin began begun begins beginn'
pttn = r'begin|began|begun'
print(re.findall(pttn, str))

# 输出
['begin', 'began', 'begun', 'begin', 'begin']
复制代码

注：方括号的 | 不被看成特殊符号，而是被看成 | 这个符号自己。在方括号中的圆括号，也被看成圆括号 () 自己，而无分组含义。

Python正则表达式

Python 语言经过导入re 模块使用正则表达式全部功能。

1. re.match函数

re.match 尝试从字符串的起始位置匹配一个模式，若是不是起始位置匹配成功的话，match()就返回none。

# 函数语法：
# pattern：匹配的正则表达式
# string：要匹配的字符串。
# flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。
re.match(pattern, string, flags=0)

复制代码

# 匹配字符串，re.I表示对大小写不敏感
print(re.match('Www', 'www.runoob.com', flags=re.I).span())

# 输出
(0, 3)
复制代码

2. re.search函数

扫描整个字符串并返回第一个成功的匹配。

# 函数语法：
# 参数使用同 match 函数
re.search(pattern, string, flags=0)
复制代码

# 匹配字符串，re.I表示对大小写不敏感
print(re.search('Www', 'www.runoob.com', flags=re.I).span())

# 输出
(0, 3)
复制代码

注：re.match只匹配字符串的开始，而re.search匹配整个字符串，直到找到一个匹配。

3. re.findall函数

在字符串中找到正则表达式所匹配的全部子串，并返回一个列表，若是没有找到匹配的，则返回空列表。

# 函数语法：
# string 待匹配的字符串。
# pos 可选参数，指定字符串的起始位置，默认为 0。
# endpos 可选参数，指定字符串的结束位置，默认为字符串的长度。
re.findall(string[, pos[, endpos]])
复制代码

注：match 和 search 是匹配一次结果，findall 匹配全部结果。

import re
# 查找数字
pattern = re.compile(r'\d+') 
# 查找字符串中全部的数字
print(pattern.findall('zhiqiu 123 xiaomeng 456'))
# 查找字符串中0-10位的全部数字
print(pattern.findall('zhiqiu88zhiqiu123xiaomeng456', 0, 10))

# 输出
['123', '456']
['88']
复制代码

4. re.split函数

split 方法按照可以匹配的子串将字符串分割后返回列表

# 函数语法：
# pattern：匹配的正则表达式
# string：要匹配的字符串。
# maxsplit：分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。
# flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。
re.split(pattern, string[, maxsplit=0, flags=0])
复制代码

# 经过数字做为分隔符对字符串进行分割
print(re.split('\d+', 'zhiqiu88zhiqiu123xiaomeng456'))

# 输出：
['zhiqiu', 'zhiqiu', 'xiaomeng', '']
复制代码

补充：正则表达式修饰符

re.I	使匹配对大小写不敏感
re.L	作本地化识别（locale-aware）匹配
re.M	多行匹配，影响 ^ 和 $
re.S	使 . 匹配包括换行在内的全部字符
re.U	根据Unicode字符集解析字符。
re.X	该标志经过给予你更灵活的格式以便你将正则表达式写得更易于理解。
复制代码

正则表达式是Python中一个超级实用的一个知识点，不管是在爬虫的网页解析仍是在数据清洗中，都很实用，且很是高效，建议掌握！

下节将介绍Python 多线程VS多进程

系列文章传送门

Python入门进阶教程-面向对象

Python入门基础汇总

Python系列

Python系列会持续更新，从基础入门到进阶技巧，从编程语法到项目实战。若您在阅读的过程当中发现文章存在错误，烦请指正，很是感谢；若您在阅读的过程当中能有所收获，欢迎一块儿分享交流。

若是你也想和我一块儿学习Python，能够关注个人微信公众号

学习Python，咱们不仅是说说而已