一.经常使用方法正则表达式
re.compile(pattern,flags=0) 编译正则表达式,返回regexobject对象,而后能够经过regexobject对象调用match()和search()方法. 能够实现正则代码的重用.编程
re.serch(pattern,string,flags=0) 在正则表达式中查找,是否匹配正则表达式.返回_sre.SRE_Match对象,若是不能匹配返回None.缓存
re.match(pattern,string,flags=0) 字符串的开头是否能匹配正则表达式.返回_sre.SRE_Match对象,若是不能匹配返回None.函数
re.split(pattern,string,maxsplit=0) 经过正则表达式将字符串分离.若是用括号将正则表达式阔起来,那么匹配的字符串也会被列入list中返回.maxsplit是分离的次数,maxsplit=1分离一次,默认为0,不限制.spa
若是字符串的开始或结尾就能匹配,返回list将会以空串开始或结尾.对象
若是字符串不能匹配,将会返回整个字符串的list.字符串
re.finditer(pattern,string,flags=0) 找到 RE 匹配的全部子串,并把它们做为一个迭代器返回. 这个匹配是从左到右有序地返回. 若是无匹配,返回空列表.string
re.sub(pattern,real,string,count=0,flags=0) 找到 RE 匹配的全部子串, 并将其用一个不一样的字符串替换. 可选参数 count 是模式匹配後替换的最大次数; count 必须是非负整数. 缺省值是 0 表示替换全部的匹配. 若是无匹配,字符串将会无改变地返回.it
re.subn(pattern,real,string,count=0,flags=0) 与re.sub方法做用同样,但返回的是包含新字符串和替换执行次数的两元组。编译
re.escape(string) 对字符串中的非字母数字进行转义
re.purge() 清空缓存中的正则表达式
备注:. match和search的区别 1.match 是从字符串的起点开始作匹配,只有且仅当被匹配的字符串开头就能匹配或从poss参数的位置开始就能匹配时才会成功. 2. search 是从字符串作任意匹配(perl默认).
二. 正则表达式对象
re.RegexObject re.compile()返回RegexObject对象
re.MatchObject group()返回被 RE 匹配的字符串 start()返回匹配开始的位置 end()返回匹配结束的位置 span()返回一个元组包含匹配 (开始,结束) 的位置
三. 编译标志 编译标志让你能够修改正则表达式的一些运行方式。在 re 模块中标志可使用两个名字,一个是全名如 IGNORECASE,一个是缩写,一字母形式如 I。(若是你熟悉 Perl 的模式修改,一字母形式使用一样的字母;例如 re.VERBOSE的缩写形式是 re.X。)多个标志能够经过按位 OR-ing 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志:
I IGNORECASE
使匹配对大小写不敏感;字符类和字符串匹配字母时忽略大小写。举个例子,[A-Z]也能够匹配小写字母,Spam 能够匹配 "Spam", "spam", 或 "spAM"。这个小写字母并不考虑当前位置。
L LOCALE
影响 "w, "W, "b, 和 "B,这取决于当前的本地化设置。
locales 是 C 语言库中的一项功能,是用来为须要考虑不一样语言的编程提供帮助的。举个例子,若是你正在处理法文文本,你想用 "w+ 来匹配文字,但 "w 只匹配字符类 [A-Za-z];它并不能匹配 "é" 或 "?"。若是你的系统配置适当且本地化设置为法语,那么内部的 C 函数将告诉程序 "é" 也应该被认为是一个字母。当在编译正则表达式时使用 LOCALE 标志会获得用这些 C 函数来处理 "w 後的编译对象;这会更慢,但也会象你但愿的那样能够用 "w+ 来匹配法文文本。
M MULTILINE
(此时 ^ 和 $ 不会被解释; 它们将在 4.1 节被介绍.)
使用 "^" 只匹配字符串的开始,而 $ 则只匹配字符串的结尾和直接在换行前(若是有的话)的字符串结尾。当本标志指定後, "^" 匹配字符串的开始和字符串中每行的开始。一样的, $ 元字符匹配字符串结尾和字符串中每行的结尾(直接在每一个换行以前)。
S DOTALL
使 "." 特殊字符彻底匹配任何字符,包括换行;没有这个标志, "." 匹配除了换行外的任何字符。
X VERBOSE
该标志经过给予你更灵活的格式以便你将正则表达式写得更易于理解。当该标志被指定时,在 RE 字符串中的空白符被忽略,除非该空白符在字符类中或在反斜杠之後;这可让你更清晰地组织和缩进 RE。它也能够容许你将注释写入 RE,这些注释会被引擎忽略;注释用 "#"号 来标识,不过该符号不能在字符串或反斜杠之後。