🍖re 模块

时间 2021-01-13

标签 python 正则表达式编程编程语言函数工具 spa .net code htm 栏目 Python 繁體版

原文原文链接

引入

正则表达式是匹配字符串的强大工具, 在每一个编程语言中都有正则表达式的概念, 利用正则表达式, 咱们从返回的页面内容中提取想要的内容就变的比较方便了python

1.什么是 re 模块

re 模块是 Python 内置的模块

2.什么是正则

正则表达式是对字符串操做的一种逻辑 (规则), 就是事先定义好一些特定的字符组合, 组成一个"规则字符串", 而后使用这个 "规则字符串" 来对字符串进行过滤
在 Python 中经过内置的 re 模块来使用正则表达式, 它提供了全部正则表达式的功能

3.正则表达式的大体匹配过程

定义一个"规则字符串", 而后依次与文本中的字符进行对比
若是每个字符都能匹配, 那么就匹配成功, 不然匹配失败
若是表达式中有量词或者边界, 这个过程会稍微有一些不一样

4.正则小示例

好比咱们描述四条腿的东西 (规则字符串), 咱们可能会想到的有四条腿的动物, 桌子和椅子等等
好比咱们描述两条腿的东西而且是活的, 咱们可能会想到人类, 猴子, 鸟, 袋鼠, 鸡么等等

5.经常使用正则表达式表

模式	描述
\w	匹配字母数字及下划线
\W	匹配非字母数字下划线
\s	匹配任意空白字符，等价于[\t,\n,\r,\f]
\S	匹配任意非空字符
\d	匹配任意数字，等价于[0-9]
\D	匹配任意非数字
\A	匹配以xx字符串开始
\Z	匹配xx字符串结束，若是是存在换行，只匹配到换行前的结束字符串
\z	匹配xx字符串结束
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配字符串的开头
$	匹配字符串的末尾
.	匹配任意字符, 除了换行符, 当 re.DOTALL 标记被指定时, 则能够匹配包括换行符的任意字符
[...]	用来表示一组字符，单独列出：[amk] 匹配 'a'，'m' 或 'k'
[^...]	不在 [ ] 中的字符：[^abc] 匹配除了a， b， c以外的字符
*	匹配0个或多个的表达式
+	匹配1个或多个的表达式
?	匹配0个或1个由前面的正则表达式定义的片断，非贪婪方式
{n}	精确匹配n个前面表达式。
{n，m}	匹配n到m次由前面的正则表达式定义的片断，贪婪方式
alb	匹配a或b
()	匹配括号内的表达式，也表示一个组

ps : [...] 讲解 : [ ]全部的特殊字符在字符集中都失去其原有的特殊含义,在字符集中若是要使用]、-或^，能够在前面加上反斜杠，或把]、-放在第一个字符，把^放在非第一个字符正则表达式

一.普通字符和元字符

正则表达式就是由一些普通字符和元字符组成的编程语言

普通字符就是字母和数字
元字符就是具备特殊意义的字符, 经常使用于表单验证

二.正则边界(定位字符)

^ : 会匹配字符串或者行的起始位置, 在 [ ] 中表示 ''非''(!)
$ : 会匹配字符串或行的结束位置 (在 \n 以前)
^,$ 一块儿则表示精确匹配包裹在两个符号之间的字符串
\A : 指定匹配必须出如今字符串的开头（忽略 Multiline 选项）
\Z : 指定匹配必须出如今字符串的结尾或字符串结尾的 \n 以前（忽略 Multiline 选项）

三.量词

✳ : 重复零次或更多（>=0）函数
✚ : 重复一次或更屡次（ >=1）工具
❔ : 重复零次或一次（0 || 1）spa
{} : 重复多少次的意思能够有多少个.net

四.经常使用的功能函数

函数	说明
re.match( )	从字符串的起始位置匹配, 匹配成功, 返回一个匹配的对象, 不然返回None
re.search( )	扫描整个字符串并返回第一个成功的匹配
re.findall( )	在字符串中找到正则表达式所匹配的全部子串, 并返回一个列表, 若是没有找到匹配的, 则返回空列表
re.split( )	将一个字符串按照正则表达式匹配结果进行分割, 返回列表类型
re.finditer( )	在字符串中找到正则表达式所匹配的全部子串, 并把它们做为一个迭代器返回
re.sub( )	把字符串中全部匹配正则表达式的地方替换成新的字符串
re.complie( )	将正则表达式传入, 返回一个匹配对象, 通常与其余方法组合使用

五.正则使用示例

💠一对一匹配

print("hello".replace("llo","ooo"))  # heooo
print("hello".find("abcd"))  # -1 (找不到返回 -1)
print("hello".find("he"))    # 0

💠正则匹配

\w 和 \W

import re

print(re.findall("\w","ab* 12$ _"))  # ['a', 'b', '1', '2', '_']
print(re.findall("\W","ab* 12$ _"))  # ['*', ' ', '$', ' ']

\s 和 \S

print(re.findall("\s","ab* 12$ _ "))  # [' ', ' ', ' ']
print(re.findall("\S","ab* 12$ _ "))  # ['a', 'b', '*', '1', '2', '$', '_']

\d 和 \D

print(re.findall("\d","ab* 12$ _"))  # ['1', '2']
print(re.findall("\D","ab* 12$ _"))  # ['a', 'b', '*', ' ', '$', ' ', '_']

\A 和 \Z

print(re.findall("\Aab","ab* 12$ _"))  # ['ab']
print(re.findall("\Aaa","ab* 12$ _"))  # [] 没匹配到为空
print(re.findall("_\Z","ab* 12$ _"))   # ['_']
print(re.findall("0\Z","ab* 12$ _"))   # [] 没匹配到为空

\t 和 \n

print(re.findall("\t","ab* 12$ \t_"))    # ['\t']
print(re.findall("\n","ab* 12$ \n_"))    # ['\n']

🔰"\s" 能够匹配"\t"和"\n"
print(re.findall("\s","ab* \t12$ _\n"))  # [' ', '\t', ' ', '\n']

^ 和 \$

print(re.findall("^ab","ab* 12$ _"))   # ['ab']
print(re.findall("_$","ab* 12$ _\n"))  # ['_']

💠重复匹配

▪ : 匹配一个任意字符

print(re.findall("a.b","a&b"))  # ['a&b']
print(re.findall("a.b","a2b"))  # ['a2b']
print(re.findall("a.b","acb"))  # ['acb']
print(re.findall("a.b","a b"))  # ['a b']
print(re.findall("a.b","a\tb")) # ['\t']
print(re.findall("a.b","a\nb")) # [] (换行符匹配不到,匹配为空)
print(re.findall("a.b","a b a*b abb a_b"))  # ['a b', 'a*b', 'abb', 'a_b']
print(re.findall("a.b","a\nb",re.S))        # ['a\nb'] (加入参数, 包含换行)
print(re.findall("a.b","a\nb",re.DOTALL))   # ['a\nb'] (同上效果同样)

✳ : 匹配零个或多个

print(re.findall("a*","aaaa aa"))        # ['aaaa', '', 'aa', ''] (零个或多个a)
print(re.findall("ab*","abab aa"))       # ['ab', 'ab', 'a', 'a'] (一个a零个或多个b)
print(re.findall("a*b","ababaaaba aa"))  # ['ab', 'ab', 'aaab'] (零个或多个a一个b)
print(re.findall("ab*","bbbbbbbb"))      # [] (没有匹配到一个a零个或多个b)

❔ : 匹配零个或一个

print(re.findall("ab?","a"))     # ['a']
print(re.findall("ab?","abbb"))  # ['ab']

✚ : 匹配一个或多个

print(re.findall("a+","bbb"))    # []
print(re.findall("a+","ab"))     # ['a']
print(re.findall("ab+","ab"))    # ['ab']
print(re.findall("ab+","abbb"))  # ['abbb']

{n,m} : 匹配 n~m 之间个

print(re.findall("a{9}","aaaa"))     # [] (匹配9个b,没有)
print(re.findall("a{3}","aaaa"))     # ['aaa']
print(re.findall("a{2}","aaaa"))     # ['aa', 'aa']
print(re.findall("ab{2}","aabbb"))   # ['abb']
print(re.findall("ab{2,6}","abbb"))  # ['abbb'] (一个a,2~6个b)
print(re.findall("ab{1,}","abbb"))   # ['abbb'] (至关于 ab+)
print(re.findall("ab{0,}","abbb"))   # ['abbb'] (至关于 ab*)

[ ] : 放一组字符,逐个匹配

print(re.findall("a[*1_c-]b","a*ba1b a_baaba-b"))     # ['a*b', 'a1b', 'a_b', 'a-b']
print(re.findall("a[^*1c-]b","a*ba1b a_baab"))        # ['a_b', 'aab'] (匹配非 [] 内的字符)
print(re.findall("a[0-9]b","a*ba1b a3baa2b"))         # ['a1b', 'a3b', 'a2b'] (0~9)
print(re.findall("a[a-z]b","a*banb apbaaob"))         # ['anb', 'apb', 'aob'] (a~z)
print(re.findall("a[a-zA-Z0-9]b","a*banb aPbaa7b"))   # ['anb', 'aPb', 'a7b']
print(re.findall("a[^a-zA-Z0-9]b","a*banb aPbaa7b"))  # ['a*b'] (非a~z,A~Z,0~9)

( ) : 分组

print(re.findall('ab+','ababab123')) 
# ['ab', 'ab', 'ab']
print(re.findall('(ab)+123','ababab123')) 
# ['ab']，匹配到末尾的 ab123 中的 ab
print(re.findall('(?:ab)+123','ababab123')) 
# findall的结果不是匹配的所有内容，而是组内的内容, ?: 可让结果为匹配的所有内容
print(re.findall('href="(.*?)"','<a href="http://www.baidu.com">点击</a>'))
# ['http://www.baidu.com']
print(re.findall('href="(?:.*?)"','<a href="http://www.baidu.com">点击</a><a href="http://www.aiqiyi.com">点击2</a>'))
# ['href="http://www.baidu.com"', 'href="http://www.aiqiyi.com"']

a|b : 左右两边都匹配

print(re.findall("shawn|song","shawn is man song is shawn"))  # ['shawn', 'song', 'shawn'] (不加括号全局匹配)
print(re.findall("A(?:abc|cba)A","AabcA"))  # ['AabcA']
print(re.findall("com(?:puter|e)","come on! Here is a computer "))  # ['come', 'computer']

\ : 转义字符

# 转义字符，使后一个字符改变原来的意思。
# 若是字符串中有字符 * 须要匹配，可使用 \* 或者字符集 [*]
print(re.findall("a.b","a1b a.b"))   # ['a1b', 'a.b']
print(re.findall("a\.b","a1b a.b"))  # ['a.b']

💠匹配全部数字类型示例

print(re.findall("\d+\.?\d*","12as3.45qw2k7"))  # ['12', '3.45', '2', '7']

💠`.*` 贪婪匹配示例

匹配更多的字符

print(re.findall("a.*b","a11b22222b33"))  # ['a11b22222b']

💠`.*?` 非贪婪匹配示例

尽量少的匹配

print(re.findall("a.*?b","a11b22222b3"))  # ['a11b']

六. re 模块经常使用方法示例

一、re.findall( pattern,string)

返回全部知足匹配的结果, 按照顺序依次放入列表中, 若是没有匹配结果, 返回一个空列表

print(re.findall("abc","112abc333"))  # ['abc']
print(re.findall("abcd","12abc333"))  # []

二、re.search( pattern,string)

匹配整个字符串, 只到找到第一个匹配而后返回一个包含匹配信息的对象(re.Match对象)
该对象能够经过调用 group( ) 方法获得匹配的字符串,若是字符串没有匹配，则返回None
若是没有匹配到值就调用 group( ) 方法, 抛出异常

print(re.search("abc","112abc333abc"))  
# <re.Match object; span=(3, 6), match='abc'>
print(re.search("abc","112abc333abc").group())  # abc

print(re.search("abcd","12abc333abc"))          # None
print(re.search("abcd","12abc333abc").group()) 
# 报错 "AttributeError" (由于没拿到这个对象,因此没有group()属性

三、re.match( pattern,string)

与 re.search 功能相同, 但必须匹配起始位置, 否则返回 None
可使用上尖号 ^ : re.search("^abc","abc") 实现 re.match() 功能?

print(re.match("abc","abc22abc"))  # <re.Match object; span=(0, 3), match='abc'>
print(re.match("abc","abc22abc").group())  # abc

print(re.match("abc","1abc22abc"))  # None
print(re.search("^abc","1abcabc"))  # None  (re.search)

四、re.split( pattern,string)

以规定字符做为分隔符对字符串进行切分, 切分结果放入列表, 没匹配到返回原字符串列表
将规定字符放入 [ ] 则是逐个匹配

print(re.split("o","abcoabcoabc"))   # ['abc', 'abc', 'abc']
print(re.split("ab","abcoabcoabc"))  # ['', 'co', 'co', 'c']

print(re.split("d","abcoabcoabc"))  # ['abcoabcoabc'] (没匹配到返回原字符串)

print(re.split("[o]","abcoabcoabc"))  # ['abc', 'abc', 'abc']
print(re.split("[ob]","abcoabcoabc"))   # ['a', 'c', 'a', 'c', 'a', 'c']
print(re.split("[oba]","abcoabcoabc"))  # ['', '', 'c', '', '', 'c', '', '', 'c']
# 先使用"o"匹配进行分隔, 获得结果"['abc', 'abc', 'abc']", 在使用"b"进行匹配分隔,获得结果后再使用"a"匹配进行分隔

五、re.sub( ) 和 re.subn( )

匹配"规则字符", 并将其该成指定字符, 返回改变后的字符串, 后面可跟个数参数, 不指定默认替换全部
re.subn( ) 返回一个元组, 第二个元素返回的是替换的个数

print(re.sub("a","A","i am a man"))   # i Am A mAn
print(re.sub("a","b","i am a man"))   # i bm b mbn
print(re.sub("am","b","i am a man"))  # i b a man
print(re.sub("a","AA","i am a man"))  # i AAm AA mAAn

print(re.sub("a","A","i am a man",1))  # i Am a man
print(re.sub("a","A","i am a man",2))  # i Am A man
print(re.sub("a","A","i am a man",3))  # i Am A mAn
print(re.sub("a","A","i am a man",9))  # i Am A mAn (超出字符串中最大的个数不会报错,而是替换全部)

print(re.subn("a","A","i am a man"))    # ('i Am A mAn', 3) (显示替换的个数)
print(re.subn("a","A","i am a man",2))  # ('i Am A man', 2)

六、re.compile( )

在该函数中传入"规则字符", 返回一个对象, 它单独使用没有任何意义, 须要和 findall( ), search( ), match( ) 组合使用

obj = re.compile("\d{2}")
print(obj)  # re.compile('\\d{2}')

print(obj.findall("ab12c33b44"))         # ['12', '33', '44']
print(obj.search("ab12c33b44").group())  # 12
print(obj.match("12c33b44").group())     # 12 (注意,必须在开头就匹配到,否则group会报错)

七.补充非捕获模式 : ?: ?! ?=

字符	描述
(?：pattern)	匹配pattern，但不捕获匹配结果。
(?=pattern)	零宽度正向预查，不捕获匹配结果。
(?!pattern)	零宽度负向预查，不捕获匹配结果。
(?<=pattern)	零宽度正向回查，不捕获匹配结果。
(?<!pattern)	零宽度负向回查，不捕获匹配结果。

一、?! 示例

?! pattern,表示在没有配到pattern的字符串的前提下，再进行后续的正则表达式匹配，后续匹配仍然从被匹配字符串的头开始

🍓 匹配密码，密码必须是由6位数字与字母组成，而且不能是纯数字也不能是纯字母
while 1:
    passwd = input(">>").strip()
    res = re.match("(?![\d]+$)(?![a-zA-Z]+$)[\da-zA-Z]{6}$",passwd)
    if res:
        print(f"密码:{res.group()}")
    else:
        print("密码不符合规则")

二、?= 示例

?= pattern,表示在配到pattern的字符串的前提下，再进行后续的正则表达式匹配，后续匹配仍然从被匹配字符串的头开始

🍓 匹配密码，必须包含大写，小写和数字,和特殊字符(!,@,#,%,&),且大于6位
while 1:
    passwd = input("请输入密码>>").strip()
    res = re.search("(?=.*[\d])(?=.*[a-z])(?=.*[A-Z])(?=.*)(?=.*[!@#%&])^([\da-zA-Z!@#%&]{7,})$",passwd)
    if res:
        print(res.group())
    else:
        print("密码强度不够")