架构思惟案例:速学正则

 

前言

本文的目的不只是教会读者怎么使用正则表达式。更但愿经过学习正则表达式的案例,让读者感觉一种不一样的思惟方式。鱼亦渔亦水,谁知道呢,我在扯淡,你要不要看?正则表达式

正文

正则表达式是描述一组字符串特征的模式,用来匹配特定的字符串。--Ken Thompson架构

这句话中提到了两点:学习

  1. 正则表达式是描述一组字符串特征的模式;
  2. 正则表达式是用来匹配特定的字符串的。

匹配特定字符串就是正则表达式要解决的问题域。
怎么解决的呢?经过描述一组字符串特征的方式来匹配。spa

举个例子:code

www.ly.com

咱们一般是这样去描述的:3w.ly.com
这里咱们把连续的多个w,用位数简述了(对应位区间的概念,后面会详细讲解)。这就是正则表达式解决问题的思路。blog

正则表达式:字符串

w{3}.ly.com

再好比,怎么描述一个正整数呢?
首位是1-9的数字,其他位为0到9。其他位位数是0到无穷。
这里咱们把首位字符的可能性罗列了出来。把其他位位数用一个可能性区间描述。string

正则表达式:class

[1-9][0-9]{0,}

至此,咱们感性认识了正则表达式。下面将正式带领你们认识这个“描述字符串特征的模式”。object

什么是字符串呢?一串字符呗。本着化繁为简的常规架构手法(分而治之),能够想到描述一组字符串特征的问题,能够拆解为:

  1. 描述一个字符特征的问题;
  2. 描述一个字符位区间的问题。

好比,上面正整数的例子[1-9]描述了字符特征,{0,}描述了0到无穷的一个位区间。

这里咱们须要声明或重申几个概念:

  • 正则表达式:描述一组字符串特征的模式
  • 值特征:描述一个字符特征(可能性)的模式
  • 位区间:描述一个字符位区间的模式

1、值特征符

咱们使用[ ]表示。以下:
[Aa]:描述一个字符多是A或a中的一个。

  1. 简写法
    • A=[A]
      当描述的字符取值只有一种可能时,咱们一般用字面量A代替。

    • [1-5]=[1,2,3,4,5]
      当描述的字符取值的可能性是连续时,咱们一般用-简写。

  1. 逻辑符号

    • |
      逻辑“或”

    • ^
      逻辑“取反”

  2. 抽象

    • 数字
    \d=[0123456789]
    • 字母或数字或下划线
    \w=[A-Za-z0-9_]
    • 空白字符
    \s=[ \f\n\r\t\v]
    • 大写字母是小写字符表征值的取反
    \D=^\d \W=^\w \S=^\s
    • 任意字符
    .

    正则中的object

2、位区间符

咱们使用{}标识。以下:

{3,5}:描述35位。
{2,}:描述2到无穷位。
{0,3}:描述03位。

简写

  • {3}={3,3}
  • *={0,}
  • +={1,}
  • ?={0,1}

3、边界符

边界符不描述字符,而是描述字符串中的位置。

  • 行首:^
  • 行尾:$
  • 单词边界:\b

4、分组符

分组符是解决另外一个问题。在咱们选择出某个字符串后,咱们在替换结果里使用其中的一部分(子模式)。
咱们把这种,先选择后使用的过程叫作后引用。
其中分组符,就是用来解决子模式切割的。

  • 捕获分组:()
  • 非捕获分组:(?:)

替换时,$0:是匹配的整个字符串。
$1:是捕获的第一个子模式(从前到后遇到的第一个捕获分组起始符)
依次类推,$n:是捕获的第n个子模式。

下面给三个例子:
例1:

例2:

例3:

5、转义符

\

怎么描述被正则表达式占用的关键字符呢?
转义。

例如:\.描述.

 

 

 


 关注公众号“架构思惟修炼”,输入关键字“正则表达式图解”,获取高清脑图。

相关文章
相关标签/搜索