标签: pythonpython
符号 | 描述 | 示例 |
---|---|---|
literral | 匹配文本的字面值literal | foo |
re1|re2 | 匹配正则表达式re1或re2 | foo|bar |
. | 匹配任何字符(除了\n之外) | b.b |
^ | 匹配字符串起始部分 | ^Dear |
$ | 匹配字符串终止部分 | /bin/*sh$ |
* | 匹配0次或者屡次前面出现的正则表达式 | [A-Za-z0-9]* |
+ | 匹配1次或者屡次前面出现的正则表达式 | [a-z]+\.com |
? | 匹配0次或1次前面出现的正则表达式 | goo? |
{N} | 匹配N次前面出现的正则表达式 | [0-9]{3} |
{M,N} | 匹配M~N次前面出现的正则表达式 | [0-9]{5,9} |
[...] | 匹配来自字符集的任意单一字符 | [aeiou] |
[..x-y..] | 匹配x-y范围中的任意单一字符 | [0-9],[A-Za-z] |
[^...] | 不匹配此字符集中出现的任何一个字符,包括每一范围的字符(若是则此字符集中出现) | [^aeiou],[^A-Za-z0-9] |
(*|+|?|{})? | 用于匹配上面频繁出现、重复出现符号的非贪婪版本(*、+、?、{}) | .*?[a-z] |
(...) | 匹配封闭的正则表达式,而后另存为子组 | ([0-9]{3})?,f(oo|)bar |
\d | 匹配任何十进制数字,与[0-9]一致(\D与\d相反,不匹配任何非数值型的数字) | data\d+.txt |
\w | 匹配任何字母数字字符,与[A-Za-z0-9]相同(\W与之相反) | [A-Za-z]w+ |
\s | 匹配任何空格字符,与[\n\t\r\v\f]相同(\S与之相反) | of\sthe |
\b | 匹配任何单词边界(\B与之相反) | \bThe\b |
\N | 匹配已保存的子组N(参见上面的(...)) | price:\16 |
\c | 逐字匹配任何特殊字符c(即,仅按照字面意义匹配,不匹配特殊含义) | \.\\,\* |
\A(\Z) | 匹配字符串的起始(结束)(另见扇面介绍的^和$) | \ADear |
扩展表示法 | ||
(?iLmsux) | 在正则表达式中嵌入一个或者多个特殊“标记”参数(或者经过函数/方法) | (?x),(? im) |
(?:...) | 表示一个匹配不用保存的分组 | (?:\w+\.)* |
(?P<name>...) | 向一个仅由name标识而不是数字ID标识的正则分组分配 | (?P<data>) |
()?P=name | 在同一字符串中匹配由(?P=name)分组的以前文本 | (?P=data) |
(?#...) | 表示注释,虽有内容都被忽略 | (?#comment) |
(?=...) | 匹配条件是若是...出如今以后的位置,而不使用输入字符串;称做正向前视断言 | (?=.com) |
(?!...) | 匹配条件是若是...不出如今以后的位置,而不使用输入字符串;称做负向前视断言 | |
(?<=...) | 匹配条件是若是...出如今以前的位置,而不使用输入字符串;称做正向后视断言 | |
(?<!...) | 匹配条件是若是...不出如今以前的位置,而不使用输入字符串;称做负向后视断言 | |
(?(id/name)Y/N) | 若是分组所提供id或者name(名称)存在就返回正则表达式的条件匹配Y,若是不存在,就返回N;|N是可选项 | (?(1)y|x) |
函数/方法 | 描述 |
---|---|
仅仅是re模块函数 | |
compile(pattern,flags=0) | 使用任何可选的标记来编译正则表达式的模式,而后返回一个正则表达式对象 |
re模块函数和正则表达式对象的方法 | |
match(pattern,string,flags=0) | 尝试使用带有可选的标记的正则表达式的模式来匹配字符串。若是匹配成功,就返回匹配对象;若是失败,就返回None |
search(pattern,string,flags=0) | 使用可选标记搜索字符串中第一次出现的正则表达式模式。若是匹配成功,就返回匹配对象;若是失败,就返回None |
findall(pattern,string[,flags]) | 查找字符串中全部(非重复)出现的正则表达式模式,并返回一个匹配列表 |
finditer(pattern,string[,flags]) | 与findall函数相同,但返回的不是一个列表,而是一个迭代器。对于每一次匹配,迭代器都返回一个匹配对象 |
split(pattern,string,nax=0) | 根据正则表达式的模式分隔符,split函数将字符串分割为列表,而后返回成功匹配的列表,分割最多操做max次(默认分割全部匹配成功的位置) |
re 模块函数和正则表达式对象方法 | |
sub(pattern,repl,string,count=0) | 使用repl替换全部正则表达式的模式在字符串中出现的位置,除非定义count,不然就将替换全部出现的位置(另见subn()函数,该函数返回替换操做的数目) |
purge() | 清除隐式编译的正则表达式模式 |
经常使用的匹配对象方法(查看文档以获取更多信息) | |
group(num=0) | 返回整个匹配对象,或者编号为num的特定子组 |
groups(default=None) | 返回一个包含全部匹配子组的元组(若是没有成功匹配,则返回一个空元组) |
groupdict(default=None) | 返回一个包含全部匹配的命名子组的字典,全部的子组名称做为字典的键(若是没有成功匹配,则返回一个空字典) |
经常使用的模块属性(用于大多数正则表达式函数的标记) | |
re.I、re.IGNORECASE | 不区分大小写的匹配 |
re.L、re.LOCALE | 根据所使用的本地语言环境经过\w、\W、\b、\B、\s、\S实现匹配 |
re.M、re.MULTILINE | ^和&分别匹配目标字符串行的起始和结尾,而不是严格匹配整个字符串自己的起始和结尾 |
re.S、re.DOTALL | “.”(点号)一般匹配除了\n(换行符)以外的全部单个字符;该标记表示“.”(点号)可以匹配所有字符 |
re.X、re.VERBOSE | 经过反斜线转义,不然全部空格加上#(以及在该行中全部后续文字)都被忽略,除非在一个字符类中或者容许注释而且提升可读性 |