re 模块

时间 2019-12-14

标签模块繁體版

原文原文链接

正则表达式

元字符python
- \w \s \d \W \S \D \n \t
- \b ^ $
- |
- ()
- [][^]
量词正则表达式
- * + ?
- {n} {n,} {n,m}
贪婪和惰性匹配
- 默认贪婪：尽量多的匹配 ---回溯算法
- 惰性匹配：尽量少的匹配 ----量词？
- .*?x
re 模块

findall：从文件中选取须要的内容算法

返回一个列表，全部匹配的项，没有匹配到就返回一个空列表spa
若是遇到分组，finall会优先显示分组中的内容code
（？：正则表达式）取消分组优先对象

import re
ret = re.findall("www.(baidu|oldboy).com","www.baidu.com")
print(ret)  #['baidu'] 这是由于findall会优先显示分组中的内容
ret = re.findall("www.(?:baidu|oldboy).com","www.baidu.com")
print(ret)  #['www.baidu.com']  能够同过?:取消分组的优先级

(?P<组名>正则表达式) 表示个这个组起一个名索引

(?P=组名)表示引用以前组的名字，引用部分匹配的内容必须和以前那个组名的内容相同内存

pattern = "<(?P<tag>.*?)>.*?</(?P=tag)>"
#pattern = r'<(.*?)>.*?</\1>'与上面用法同样
ret = re.search(pattern,"<alex>afjsh</alex>")
print(ret)  #<_sre.SRE_Match object; span=(0, 18), match='<alex>afjsh</alex>'>
ret = re.search(pattern,"<alex>afjsh</egon>")
print(ret)  #None

search: 验证用户输入内容“正则规则$”字符串
- 返回一个对象，经过.grop()取值
- 没有匹配到会返回None，没有.grou()方法
  - 因此一般先判断，再取值
  - if ret:
    - ret.gout()
- 若是遇到分组，经过索引能够去各分组的内容
- grouo(0) #==group()永远是完整的匹配内容

match 验证用户输入内容it

与search功能类型至关于
`search("^\d","134afdksj") #==》match("\d","134afdksj") 做用是同样的

import re
ret = re.match("\d+","213asflk32")
if ret:
    print(ret.group())  #213
#等同与
ret = re.search("^\d+","213asflk32")
if ret:
    print(ret.group())  #213

切割split

经常使用来

s1 = "alex8123egon1120boss_jin"
ret = re.split("\d+",s1)
print(ret)      #['alex', 'egon', 'boss_jin']
#若是须要保留以什么进行分割的，须要用的分组
ret = re.split("(\d+)",s1)
print(ret)      #['alex', '8123', 'egon', '1120', 'boss_jin']

ret = re.split("[ab]","afsdabcd")
print(ret)  #['', 'fsd', '', 'cd']这里对字符串分割了俩次，先用a分割后再用b来进行分割

替换sub 和subn

#替换sub
  s = "alex|egon|boss_jin"
  print(s.replace("|","-"))   #alex-egon-boss_jin
  s1 = "alex8123egon1120boss_jin"
  ret = re.sub("\d+","-",s1)  #内部接受四个参数,能够选择替换次数,默认所有替换
  print(ret)  #alex-egon-boss_jin
  ret1 = re.subn("\d+","-",s1)
  print(ret1) #('alex-egon-boss_jin', 2) #subn会返回一个元组，显示替换后的字符串和替换次数

compile 编译正则规则，

运用场景：编译正则规则，对多个字符串进行相同数据查找，节省时间，内存

obj = re.compile("\d{3}")  #将正则表达式编译成一个正则表达式对象，
ret = obj.search("afskj234afjk")
print(ret.group())  #234
ret1 = obj.search("afs2155fahfj")
print(ret1.group()) #215

finditer #节省空间的方法，能够和compile配合使用

ret = re.finditer("\d+","fsa213fajks24fjs243")
print(ret)#<callable_iterator object at 0x000002703FFA9390>  一个迭代器
for i in ret:
    print(i.group())    #213   24   243

re 模块

正则表达式

贪婪和惰性匹配

re 模块