Python学习之正则

Python学习目录python

  1. 在Mac下使用Python3
  2. Python学习之数据类型
  3. Python学习之函数
  4. Python学习之高级特性
  5. Python学习之函数式编程
  6. Python学习之模块
  7. Python学习之面向对象编程
  8. Python学习之面向对象高级编程
  9. Python学习之错误调试和测试
  10. Python学习之IO编程
  11. Python学习之进程和线程
  12. Python学习之正则
  13. Python学习之经常使用模块
  14. Python学习之网络编程

正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,咱们就认为它“匹配”了,不然,该字符串就是不合法的。正则表达式

正则

基本

在正则表达式中,若是直接给出字符,就是精确匹配。用\d能够匹配一个数字,\w能够匹配一个字母或数字,因此:编程

  • '00\d'能够匹配'007',但没法匹配'00A'
  • '\d\d\d'能够匹配'010'
  • '\w\w\d'能够匹配'py3'

.能够匹配任意字符,因此:bash

  • 'py.'能够匹配'pyc''pyo''py!'等等。

要匹配变长的字符,在正则表达式中,用*表示任意个字符(包括0个),用+表示至少一个字符,用?表示0个或1个字符,用{n}表示n个字符,用{n,m}表示n-m个字符:网络

来看一个复杂的例子:\d{3}\s+\d{3,8}函数式编程

咱们来从左到右解读一下:函数

  1. \d{3}表示匹配3个数字,例如'010'
  2. \s能够匹配一个空格(也包括Tab等空白符),因此\s+表示至少有一个空格,例如匹配' '' '等;
  3. \d{3,8}表示3-8个数字,例如'1234567'

综合起来,上面的正则表达式能够匹配以任意个空格隔开的带区号的电话号码。post

若是要匹配'010-12345'这样的号码呢?因为'-'是特殊字符,在正则表达式中,要用'\'转义,因此,上面的正则是\d{3}\-\d{3,8}学习

可是,仍然没法匹配'010 - 12345',由于带有空格。因此咱们须要更复杂的匹配方式。测试

进阶

要作更精确地匹配,能够用[]表示范围,好比:

  • [0-9a-zA-Z\_]能够匹配一个数字、字母或者下划线;
  • [0-9a-zA-Z\_]+能够匹配至少由一个数字、字母或者下划线组成的字符串,好比'a100''0_Z''Py3000'等等;
  • [a-zA-Z\_][0-9a-zA-Z\_]*能够匹配由字母或下划线开头,后接任意个由一个数字、字母或者下划线组成的字符串,也就是Python合法的变量;
  • [a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精确地限制了变量的长度是1-20个字符(前面1个字符+后面最多19个字符)。

A|B能够匹配A或B,因此(P|p)ython能够匹配'Python'或者'python'

^表示行的开头,^\d表示必须以数字开头。

$表示行的结束,\d$表示必须以数字结束。

你可能注意到了,py也能够匹配'python',可是加上^py$就变成了整行匹配,就只能匹配'py'了。

re模块

有了准备知识,咱们就能够在Python中使用正则表达式了。Python提供re模块,包含全部正则表达式的功能。因为Python的字符串自己也用\转义,因此要特别注意:

s = 'ABC\\-001' # Python的字符串
# 对应的正则表达式字符串变成:
# 'ABC\-001'
复制代码

所以咱们强烈建议使用Python的r前缀,就不用考虑转义的问题了:

s = r'ABC\-001' # Python的字符串
# 对应的正则表达式字符串不变:
# 'ABC\-001'
复制代码

先看看如何判断正则表达式是否匹配:

>>> import re
>>> re.match(r'^\d{3}\-\d{3,8}$', '010-12345')
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
>>> re.match(r'^\d{3}\-\d{3,8}$', '010 12345')
>>>
复制代码

match()方法判断是否匹配,若是匹配成功,返回一个Match对象,不然返回None。常见的判断方法就是:

test = '用户输入的字符串'
if re.match(r'正则表达式', test):
    print('ok')
else:
    print('failed')
复制代码

分组

除了简单地判断是否匹配以外,正则表达式还有提取子串的强大功能。用()表示的就是要提取的分组(Group)。好比:

^(\d{3})-(\d{3,8})$分别定义了两个组,能够直接从匹配的字符串中提取出区号和本地号码:

>>> m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
>>> m
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
>>> m.group(0)
'010-12345'
>>> m.group(1)
'010'
>>> m.group(2)
'12345'
复制代码

若是正则表达式中定义了组,就能够在Match对象上用group()方法提取出子串来。

注意到group(0)永远是原始字符串,group(1)group(2)……表示第一、二、……个子串。

提取子串很是有用。来看一个更凶残的例子:

>>> t = '19:05:30'
>>> m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t)
>>> m.groups()
('19', '05', '30')
复制代码

这个正则表达式能够直接识别合法的时间。可是有些时候,用正则表达式也没法作到彻底验证,好比识别日期:

'^(0[1-9]|1[0-2]|[0-9])-(0[1-9]|1[0-9]|2[0-9]|3[0-1]|[0-9])$'
复制代码

对于'2-30''4-31'这样的非法日期,用正则仍是识别不了,或者说写出来很是困难,这时就须要程序配合识别了。

贪婪匹配

最后须要特别指出的是,正则匹配默认是贪婪匹配,也就是匹配尽量多的字符。举例以下,匹配出数字后面的0

>>> re.match(r'^(\d+)(0*)$', '102300').groups()
('102300', '')
复制代码

因为\d+采用贪婪匹配,直接把后面的0所有匹配了,结果0*只能匹配空字符串了。

必须让\d+采用非贪婪匹配(也就是尽量少匹配),才能把后面的0匹配出来,加个?就可让\d+采用非贪婪匹配:

>>> re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023', '00')
复制代码

编译

当咱们在Python中使用正则表达式时,re模块内部会干两件事情:

  1. 编译正则表达式,若是正则表达式的字符串自己不合法,会报错;
  2. 用编译后的正则表达式去匹配字符串。

若是一个正则表达式要重复使用几千次,出于效率的考虑,咱们能够预编译该正则表达式,接下来重复使用时就不须要编译这个步骤了,直接匹配:

>>> import re
# 编译:
>>> re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
# 使用:
>>> re_telephone.match('010-12345').groups()
('010', '12345')
>>> re_telephone.match('010-8086').groups()
('010', '8086')
复制代码

编译后生成Regular Expression对象,因为该对象本身包含了正则表达式,因此调用对应的方法时不用给出正则字符串。

下一篇:Python学习之经常使用模块

相关文章
相关标签/搜索