在平常工做中常常碰见在文本中提取特定位置字符串的需求.python的正则性能好,很适合作这类字符串的提取,这里讲一下提取的技巧,正则表达式的基础知识就不说了,有兴趣的能够看re的教程. 提取通常分两种状况,一种是提取在文本中提取单个位置的字符串,另外一种是提取连续多个位置的字符串.日志分析会遇到这种状况.下面我会分别讲一下对应的方法:python
这种状况咱们可使用(.+?)
这个正则表达式来提取. 举例,一个字符串"a123b"
,若是咱们想提取ab之间的值123,可使用findall
配合正则表达式,这样会返回一个包含因此符合状况的list,代码以下:web
import re str = "a123b" print re.findall(r"a(.+?)b",str)# 输出['123']
若是咱们有一个字符串”a123b456b”,若是咱们想匹配a和最后一个b之间的全部值而非a和第一个出现的b之间的值,能够用?
来控制正则贪婪和非贪婪匹配的状况. 代码以下:正则表达式
import re str = "a123b456b" print re.findall(r"a(.+?)b", str) #输出['123']#?控制只匹配0或1个,因此只会输出和最近的b之间的匹配状况 print re.findall(r"a(.+)b", str) #输出['123b456'] print re.findall(r"a(.*)b", str) #输出['123b456']
若是你要多行匹配,那么须要加上re.S
和re.M
标志. 加上re.S
后, .
将会匹配换行符,默认.
不会匹配换行符. 代码以下:api
str = "a23b\na34b" re.findall(r"a(\d+)b.+a(\d+)b", str) #输出[] #由于不能处理str中间有\n换行的状况 re.findall(r"a(\d+)b.+a(\d+)b", str, re.S) #s输出[('23', '34')]
加上re.M
后,^$
标志将会匹配每一行,默认^
和$
只会匹配第一行. 代码以下:性能
str = "a23b\na34b" re.findall(r"^a(\d+)b", str) #输出['23'] re.findall(r"^a(\d+)b", str, re.M) #输出['23', '34']
这种状况咱们可使用(?P<name>…)
这个正则表达式来提取. 举例,若是咱们有一行webserver的access日志:'192.168.0.1 25/Oct/2012:14:46:34 "GET /api HTTP/1.1" 200 44 "http://abc.com/search" "Mozilla/5.0"'
,咱们想提取这行日志里面全部的内容,能够写多个(?P<name>expr)
来提取,其中name能够更改成你为该位置字符串命名的变量,expr改为提取位置的正则便可. 代码以下:spa
import re line ='192.168.0.1 25/Oct/2012:14:46:34 "GET /api HTTP/1.1" 200 44 "http://abc.com/search" "Mozilla/5.0"' reg = re.compile('^(?P<remote_ip>[^ ]*) (?P<date>[^ ]*) "(?P<request>[^"]*)" (?P<status>[^ ]*) (?P<size>[^ ]*) "(?P<referrer>[^"]*)" "(?P<user_agent>[^"]*)"') regMatch = reg.match(line) linebits = regMatch.groupdict() print linebits for k, v in linebits.items() : print k+": "+v
输出的结果为:日志
status: 200
referrer:
request: GET /api HTTP/1.1
user_agent: Mozilla/5.0
date: 25/Oct/2012:14:46:34size: 44
remote_ip: 192.168.0.1