Python re 模块

时间 2019-11-11

标签 python 模块栏目 Python 繁體版

原文原文链接

目录python

RE模块

RE模块

Jamie Zawinski said:
Some people,when confronted with a problem,think,"I know,I'll use regular expressions."
Now they have two problem!正则表达式

当人们遇到一个问题，想到用正则表达式解决时。他们的问题立刻就变成了两个问题
调侃正则表达式很差学。express

功能

python支持正则表达式是经过re模块
Regular Expressions 也叫 REs,regex,regexp,regex patterns。看见这些名字就知道是正则表达式
Regex本质是一个小型的，高度专业的编程语言。不少高级语言都嵌入了Regex,Python只是经过re模块来让python能够支持Regex。
re模块提供Perl风格的正则表达式模式。
For advanced use ,it may be necessary to pay careful attention to how the engine will execute a given RE, and write the RE in a certain way in order to produce bytecode that runs faster.
正则表达式不是全能的，也有一些处理不了的字符任务。
正则表达式是对某种字符串的表示。一个字符串符合一个正则表达式规则，咱们就说这个字符串匹配该正则表达式。（注意：区分部分匹配和全匹配，都叫匹配，根据具体场景上下文环境理解匹配是部分仍是全匹配。）
匹配事后就能够作不少事情了。正则经常使用于处理：
- 替换：将字符串中匹配到正则表达式的进行替换
- 截取：将匹配的从字符串截取掉。根据start,end索引截取
- 匹配逻辑判断：匹配search ，match等
- 计数：使用finditer迭代记性迭代计数，其它方式也行
- 过滤：经过匹配结果bool进行过滤
- 包含：search
- 全匹配：fullmatch
- 分隔：split

注意：编程

Python中的字符串是支持转义符的，因此要特别注意正则表达式在python中也是用字符串标识而正则表达式也是支持转移字符的，因此避免python字符串将转移解析，就须要给python指示出正则表达式字符串中的转移字符是正则用的，而不是python字符串所用，就须要这样作r'partten'，这样正则表达式中的字符都是没有特殊功能。如：r'\n'是两个字符，'\n'是一个字符，表明换行符。
正则和须要匹配的字符串，都是要Unicode string 或 8-bit string。两种是不能混合使用。

正则表达式语法

表达式串表达式
复杂表达式能够由简单表达式构成
正则表达式的贪婪greedy和非贪婪non-greedy
- 是说'+' '*' '?'等多态数量指定的是贪婪匹配，会去匹配尽量大的范围。
- 给这三个加上'?'，就是非贪婪，回去匹配尽量小的范围。
正则表达式包含特殊字符和普通字符
- 普通字符
  - 什么'A' 'B' 'c' 'd';什么'last' 'next' 'hello' 由普通字符串连起来的。
- 特殊字符
  - 像 '.' '()' '|' 等

special character	means	comments
'.'	点号，表明全部字符除了newline换行符	若是设置了DOTALL flag标识，那就会包含newline
'^'	表明字符串的开始,The start of the string	In MULTLINE mode在多行模式也匹配每一个newline的结尾处
'$'	匹配the end of the string or just befor the newline at the end of the string	In MULTILINE mode also matches before a newline.
'\b'	不匹配任何字符串，匹配单词的开头或结尾	如r'\bfoo\b' 能匹配 'foo','foo.','(foo)','bar foo bar'，可是不能匹配'foobar'
'\B'	不匹配任何字符串，是\b的反义
__'*'__	匹配 0个或屡次重复这个符号前面的RE	贪婪
'+'	匹配 1个或屡次重复这个符号前面的RE	贪婪，注意是前面的一个RE，一个普通字符就是一个RE不是全部，是最小单位的一个RE.如 ab+ 匹配的是ab or abbb... 而不是ababab
'?'	匹配 0个或 1次重复这个符号前面的RE	贪婪
__'*?,??,+?'__	禁掉*,?,+的贪婪，取他们能匹配的最小范围	非贪婪
'{m}'	指定数量重复这个符号前面的RE	非贪婪
'{m,n}'	指定m到n数量重复这个符号前面的RE	贪婪，n若是不指定的话，至少m个重复RE
'{m,n}?'	指定m到n数量重复这个符号前面的RE，可是至匹配最小数量	非贪婪
''	转义特殊字符	即然特殊字符表示其字面义
'[]'	Used to indicate a set of characters	特殊字符在[]中会没有特殊意义；可是^符号在[]中若是是第一个字符，那么^是有意义的，这里不是表示字符串的开头，而是取反取补集 .而且在[]除了开头的^恶化]符号是有各自的意义
'\|'	两边是RE，匹配左边或者右边，或关系	非贪婪，从左到右匹配
'\w'	匹配字母+数字+下划线
'\W'	匹配非字母数字下划线，\w的补集
'\d'	匹配任意数字	等价于[0-9]
'\D'	匹配任意非数字
'\s'	匹配任意空白字符	等价[\t\n\r\f]
'\num'	数字表示引用的分组
'(?P=name)	name表示引用的分组名

等等等等。。。。api

分组

使用分组能够将分组中匹配的子串提取出来。这就是分组最大的好处了吧。这样的话若是只是想提取某个字符串，可是又要根据其上下文才能肯定这个匹配。那么就使用分组再将上下文内容写到partten中，最后从math对象中能够获得分组中的内容。
因此正则分组和Python re模块的match对象是一块儿工做的。编程语言

以下，若是想提取for 后面的城市，这里例子是Beijing，for后面城市是可变的，那么要提取就须要匹配城市先后的for和，号，要获得城市就将城市的放到分组中：函数

<title>
Conditions for Beijing, Beijing, CN at 09:00 AM CST
</title>

提取代码：spa

import re
xml_str = '''<title>
Conditions for Beijing, Beijing, CN at 09:00 AM CST
</title>'''

prog = re.compile(r'Conditions for\s(?P<city>\w+),')  # 将regex编译
city_match = prog.search(xml_str)  # 获得match对象
city_name = city_match.group('city')  # 从match对象中获取组中的匹配字符串
print(city_name)

运行结果：code

Beijingregexp

上面的例子分组使用了命名分组表示法，也能够直接用()表示，这样在后面match的group调用时就会使用分组偏移量来做为参数了,上面的代码使用非命名分组表示，代码能够改成:

import re
xml_str = '''<title>
Conditions for Beijing, Beijing, CN at 09:00 AM CST
</title>'''

prog = re.compile(r'Conditions for\s(\w+),')  # 这里使用了普通分组表示
city_match = prog.search(xml_str)  # 获得match对象
city_name = city_match.group(1)  # 使用分组的偏移量来做为参数，这里是1
print(city_name)

总结一下分组

分组能够表示使用命名分组和非命名分组(普通分组)
- 普通表示：(pattern) 命名表示：(?P< groupname>partten)
分组还能够引用
- 普通引用: \num 命名引用： (?P=groupname)
match对命名分组的访问，使用非命名方式访问也是支持的。

re 模块提供的API

re.compile(partten,flag) 返回一个regex对象，regex对象支持不少模块级的函数相同功能的方法,如prog.search(str),prog.match(str)...等等。->返回一个regular expression 对象
re.search(partten,string,flag) 扫描字符串，找到第一个符合正则表达式匹配的字符，匹配到并返回match对象，一个都没匹配到返回None。
re.match(partten,string,flag) 从字符串开始匹配partten，若是匹配到返回match对象，不然返回None。
re.split(partten,string,maxsplite=0,flag=0) 将string中全部匹配的上partten的做为字符串的分隔符进行分隔字符串。若是一个没匹配上返回列表中只有string一个字符串。若是匹配上就分隔返回分隔后元素组成的列表。maxsplit指定字符串最多能够分割的次数。还要特别注意，若是partten中是用了分组，那么分组将出如今最后分隔列表中，每一个元素之间。就是将分组中匹配到的也添加到列表中。
re.findall(partten,string,flag=0) 返回一个列表，将字符串总全部匹配上模式的都出道列表中。
re.sub(pattern, repl, string , count=0, flags=0) 将 string中匹配到partten的替换为repl。count指定匹配多少个。返回替换后的字符串。repl也能够是一个函数，接受一个字符串，返回一个字符串。函数是很是有用的，能够添加逻辑判断。这个颇有用的！！！
re.escape(str) 将str中处在在正则表达式中有特殊意义的字符进行转移。返回转移后的字符串。
re.fullmatch(partten, string, flags=0) 整个字符串都匹配partten,就返回re对象，不然返回None。
re.finditer(partten, string, flags=0) 返回一个生成器，生成器每次next()返回的是一个match对象，这个match对象是依次正则匹配上的。

正则表达式对象 Regular Expression Object

正则表达式对象：

就是经过re.compile(partte)返回的对象
若是一个正则表达式在代码中屡次被使用，那么最好将其编译成正则对象，这样代码运行效率更快。
正则对象拥有re模块全部的的函数对应的方法
这这表达式还有属性prog.groups 是正则对象包含的分组数
prog.groupindex 是命名分组名和组id的一个字典

正则匹配后的 Match Object

匹配对象的API：

re模块search,match,fullmatch以及finditer的生成器返回的，这些将匹配上的都做为一个match对象返回
match对象存储了匹配上的字符串。而且若是正则表达式有分组的话，那么还会按照分组进行逻辑上的分组存储，提供group()方法进行分组访问。
match.group([group1,...]) 参数为组的偏移值，第一个组那么是1，第二个组那么是2，依次类推。若是不带参数或者参数偏移为0，那么返回整个正则匹配的字符串。若是是单个组的偏移量，那么就是某个组的字符串。若是是多个组的偏移，那么就将多个组匹配的字符串组成的元组返回。
match.group() 若是正则表达式是命名组，那么也支持名字访问组值。也支持索引。
若是group是贪婪的，那么已最后一次匹配为该组的值。
match.groups() 返回全部的组所构成的元组，这个方法的参数是默认值，用在某个主没匹配上任何字符。
match.groupdict() 返回命名组字典，也是能够传入一个默认值参数，当某个组没有匹配上。
注意group()返回匹配的字符串，就算没有分组。而groups()必须有分组才会有值，否则是空元组，groupdict()返回空字典
match.start() 匹配上字符串的开始位置
match.end() 匹配上字符串的结束位置
match.span() 返回起始位置构成的元组

re模块使用例子

参考官方手册re模块例子

手机格式 1\d{10}
邮箱格式 r"^\w+(.?\w+)@(\w+.)\w+$"
带名字邮箱地址格式
IPv4地址

注意

正则表达式，在有可变长的贪婪配置时，必定要考虑好后面的匹配会影响可变长表达式所能匹配到的范围。
正则表达式中反斜杠字符的表示。因为字符要进行转义，转移的字符又要进行转义，因此转义一个反斜杠须要四个反斜杠或者r"\" r加三个反斜杠。