【转】 正则表达式(入门篇)

原文转自 :https://blog.csdn.net/Ruger00...html

简介:

正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在不少文本编辑器里,正则表达式一般被用来检索、替换那些匹配某个模式的文本。java

许多程序设计语言都支持利用正则表达式进行字符串操做。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式一般缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。python

干货开始

import re

key = r"<html><body><h1>hello world<h1></body></html>"//这段是你要匹配的文本
p1 = r"(?<=<h1>).+?(?=<h1>)"//这是咱们写的正则表达式规则,你如今能够不理解啥意思
pattern1 = re.compile(p1)//咱们在编译这段正则表达式
matcher1 = re.search(pattern1,key)//在源文本中搜索符合正则表达式的部分
print matcher1.group(0)//打印出来

你能够尝试运行上面的代码,看看是否是和咱们想象的同样(博主是在python2.7环境下)发现代码挺少挺简单?往下看。并且正则表达式实际上要比看起来的那种奇形怪状要简单得多。ios

首先,从最基础的正则表达式提及。
假设咱们的想法是把一个字符串中的全部”python”给匹配到。咱们试一试怎么作程序员

import re

key = r"javapythonhtmlvhdl"#这是源文本
p1 = r"python"#这是咱们写的正则表达式
pattern1 = re.compile(p1)#一样是编译
matcher1 = re.search(pattern1,key)#一样是查询
print matcher1.group(0)

看完这段代码,你是否是以为:卧槽?这就是正则表达式?直接写上去就行?正则表达式

确实,正则表达式并不像它表面上那么奇葩,若是不是咱们故意改变一些符号的含义时,你看到的就是想要匹配的。编程

因此,先把大脑清空,先认为正则表达式就是和想要匹配的字符串长得同样。在以后的练习中咱们会逐步进化python2.7

初级

不管是python仍是正则表达式都是区分大小写的,因此当你在上面那个例子上把”python”换成了”Python”,那就匹配不到你心爱的python了。编辑器

从新回到第一个例子中那个< h1 >hello world< h1 >匹配。假如我像这么写,会怎么样?工具

import re

key = r"<h1>hello world<h1>"#源文本
p1 = r"< h1 >.+< h1 >"#咱们写的正则表达式,下面会将为何
pattern1 = re.compile(p1)
print pattern1.findall(key)#发没发现,我怎么写成findall了?咋变了呢?

有了入门级的经验,咱们知道那两个< h1 >就是普普统统的字符,可是中间的是什么鬼?
.字符在正则表达式表明着能够表明任何一个字符(包括它自己)
findall返回的是全部符合要求的元素列表,包括仅有一个元素时,它仍是给你返回的列表。

机智如你可能会忽然问:那我若是就只是想匹配”.”呢?结果啥都给我返回了咋整?在正则表达式中有一个字符,其实若是你编程经验较多的话,你就会发现这是好多地方的“转义符”。在正则表达式里,这个符号一般用来把特殊的符号转成普通的,把普通的转成特殊的23333(并非特殊的“2333”,写完才发现会不会有脑洞大的想歪了)。
举个栗子,你真的想匹配”chuxiuhong@hit.edu.cn”这个邮箱(个人邮箱),你能够把正则表达式写成下面这个样子:

import re

key = r"afiouwehrfuichuxiuhong@hit.edu.cnaskdjhfiosueh"
p1 = r"chuxiuhong@hit\.edu\.cn"
pattern1 = re.compile(p1)
print pattern1.findall(key)

发现了吧,咱们在.的前面加上了转义符,可是并非表明匹配“.”的意思,而是只匹配“.”的意思!
不知道你细不细心,有没有发现咱们第一次用.时,后面还跟了一个+?那这个加号是干什么的呢?
其实不难想,咱们说了“.字符在正则表达式表明着能够表明任何一个字符(包括它自己)”,可是”hello world”可不是一个字符啊。
+的做用是将前面一个字符或一个子表达式重复一遍或者多遍。
比方说表达式“ab+”那么它能匹配到“abbbbb”,可是不能匹配到”a”,它要求你必须得有个b,多了不限,少了不行。你若是问我有没有那种“有没有都行,有多少都行的表达方式”,回答是有的。
*跟在其余符号后面表达能够匹配到它0次或屡次
比方说咱们在网页内遇到了连接,可能既有http://开头的,又有https://开头的,咱们怎么处理?

import re

key = r"http://www.nsfbuhwe.com and https://www.auhfisna.com"#胡编乱造的网址,别在乎
p1 = r"https*://"#看那个星号!
pattern1 = re.compile(p1)
print pattern1.findall(key)
输出
['http://', 'https://']

比方说咱们有这么一个字符串”cat hat mat qat”,你会发现前面三个是实际的单词,最后那个是我胡编乱造的(上百度查完是昆士兰英语学院的缩写= =)。若是你原本就知道”at”前面是c、h、m其中之一时这才构成单词,你想把这样的匹配出来。根据已经学到的知识是否是会想到写出来三个正则表达式进行匹配?实际上不须要。由于有一种多字符匹方式
[]表明匹配里面的字符中的任意一个
仍是举个栗子,咱们发现啊,有的程序员比较过度,,在这对标签上,大小写混用,老害得咱们抓不到想要的东西,咱们该怎么应对?是写16*16种正则表达式挨个匹配?no

import re

key = r"lalala<hTml>hello</Html>heiheihei"
p1 = r"<[Hh][Tt][Mm][Ll]>.+?</[Hh][Tt][Mm][Ll]>"
pattern1 = re.compile(p1)
print pattern1.findall(key)
输出
['<hTml>hello</Html>']

咱们既然有了范围性的匹配,天然有范围性的排除。
[^]表明除了内部包含的字符之外都能匹配
仍是cat,hat,mat,qat这个例子,咱们想匹配除了qat之外的,那么就应该这么写:

import re

key = r"mat cat hat pat"
p1 = r"[^p]at"#这表明除了p之外都匹配
pattern1 = re.compile(p1)
print pattern1.findall(key)

为了方便咱们写简洁的正则表达式,它自己还提供下面这样的写法

clipboard.png
介绍到这里,咱们可能已经掌握了大体的正则表达式的构造方式,可是咱们经常会在实战中遇到一些匹配的不许确的问题。比方说:

import re

key = r"chuxiuhong@hit.edu.cn"
p1 = r"@.+\."#我想匹配到@后面一直到“.”之间的,在这里是hit
pattern1 = re.compile(p1)
print pattern1.findall(key)
输出
['@hit.edu.']

呦呵!你咋能多了呢?我理想的结果是@hit.,你咋还给我加量了呢?这是由于正则表达式默认是“贪婪”的,咱们以前讲过,“+”表明是字符重复一次或屡次。可是咱们没有细说这个屡次究竟是多少次。因此它会尽量“贪婪”地多给咱们匹配字符,在这个例子里也就是匹配到最后一个“.”。
咱们怎么解决这种问题呢?只要在“+”后面加一个“?”就行了。

import re

key = r"chuxiuhong@hit.edu.cn"
p1 = r"@.+?\."#我想匹配到@后面一直到“.”之间的,在这里是hit
pattern1 = re.compile(p1)
print pattern1.findall(key)
输出结果
['@hit.']

加了一个“?”咱们就将贪婪的“+”改为了懒惰的“+”。这对于[abc]+,w*之类的一样适用

我的建议:在你使用”+”,”*”的时候,必定先想好究竟是用贪婪型仍是懒惰型,尤为是当你用到范围较大的项目上时,由于颇有可能它就多匹配字符回来给你!!!

为了可以准确的控制重复次数,正则表达式还提供
{a,b}(表明a<=匹配次数<=b)

仍是举个栗子,咱们有sas,saas,saaas,咱们想要sas和saas,咱们怎么处理呢?

import re

key = r"saas and sas and saaas"
p1 = r"sa{1,2}s"
pattern1 = re.compile(p1)
print pattern1.findall(key)

若是你省略掉{1,2}中的2,那么就表明至少匹配一次,那么就等价于?
若是你省略掉{1,2}中的1,那么就表明至多匹配2次。
下面列举一些正则表达式里的元字符及其做用

clipboard.png

相关文章
相关标签/搜索