元字符python
\w \s \d \W \S \D \n \t
\b ^ $
|
()
[][^]
量词正则表达式
* + ?
{n} {n,} {n,m}
findall:从文件中选取须要的内容算法
返回一个列表,全部匹配 的项,没有匹配到就返回一个空列表
spa
若是遇到分组,finall会优先显示分组中的内容
code
(?:正则表达式)取消分组优先
对象
import re ret = re.findall("www.(baidu|oldboy).com","www.baidu.com") print(ret) #['baidu'] 这是由于findall会优先显示分组中的内容 ret = re.findall("www.(?:baidu|oldboy).com","www.baidu.com") print(ret) #['www.baidu.com'] 能够同过?:取消分组的优先级
(?P<组名>正则表达式) 表示个这个组起一个名
索引
(?P=组名)表示引用以前组的名字,引用部分匹配的内容必须和以前那个组名的内容相同内存
pattern = "<(?P<tag>.*?)>.*?</(?P=tag)>" #pattern = r'<(.*?)>.*?</\1>'与上面用法同样 ret = re.search(pattern,"<alex>afjsh</alex>") print(ret) #<_sre.SRE_Match object; span=(0, 18), match='<alex>afjsh</alex>'> ret = re.search(pattern,"<alex>afjsh</egon>") print(ret) #None
search: 验证用户输入内容“正则规则$”字符串
返回一个对象,经过.grop()取值
没有匹配到会返回None,没有.grou()方法
因此一般先判断,再取值
if ret:
ret.gout()
若是遇到分组,经过索引能够去各分组的内容
grouo(0) #==group()永远是完整的匹配内容
match 验证用户输入内容it
与search功能类型至关于
`search("^\d","134afdksj") #==》match("\d","134afdksj") 做用是同样的
import re ret = re.match("\d+","213asflk32") if ret: print(ret.group()) #213 #等同与 ret = re.search("^\d+","213asflk32") if ret: print(ret.group()) #213
切割split
经常使用来
s1 = "alex8123egon1120boss_jin" ret = re.split("\d+",s1) print(ret) #['alex', 'egon', 'boss_jin'] #若是须要保留以什么进行分割的,须要用的分组 ret = re.split("(\d+)",s1) print(ret) #['alex', '8123', 'egon', '1120', 'boss_jin']
ret = re.split("[ab]","afsdabcd") print(ret) #['', 'fsd', '', 'cd']这里对字符串分割了俩次,先用a分割后再用b来进行分割
替换sub 和subn
#替换sub s = "alex|egon|boss_jin" print(s.replace("|","-")) #alex-egon-boss_jin s1 = "alex8123egon1120boss_jin" ret = re.sub("\d+","-",s1) #内部接受四个参数,能够选择替换次数,默认所有替换 print(ret) #alex-egon-boss_jin ret1 = re.subn("\d+","-",s1) print(ret1) #('alex-egon-boss_jin', 2) #subn会返回一个元组,显示替换后的字符串和替换次数
compile 编译正则规则,
运用场景:编译正则规则,对多个字符串进行相同数据查找,节省时间,内存
obj = re.compile("\d{3}") #将正则表达式编译成一个正则表达式对象, ret = obj.search("afskj234afjk") print(ret.group()) #234 ret1 = obj.search("afs2155fahfj") print(ret1.group()) #215
finditer #节省空间的方法,能够和compile配合使用
ret = re.finditer("\d+","fsa213fajks24fjs243") print(ret)#<callable_iterator object at 0x000002703FFA9390> 一个迭代器 for i in ret: print(i.group()) #213 24 243