Boyer-Moore algorithm

Boyer-Moore算法不只效率高,并且构思巧妙,容易理解。1977年,德克萨斯大学的Robert S. Boyer教授和J Strother Moore教授发明了这种算法。 html

下面,我根据Moore教授本身的例子来解释这种算法。 算法

1. ide

字符串匹配的Boyer-Moore算法

假定字符串为”HERE IS A SIMPLE EXAMPLE”,搜索词为”EXAMPLE”。 idea

2. htm

字符串匹配的Boyer-Moore算法

首先,”字符串”与”搜索词”头部对齐,从尾部开始比较。 blog

这是一个很聪明的想法,由于若是尾部字符不匹配,那么只要一次比较,就能够知道前7个字符确定不是要找的结果。 字符串

咱们看到,”S”与”E”不匹配。这时,“S”就被称为”坏字符”(bad character),即不匹配的字符。咱们还发现,”S”不包含在搜索词”EXAMPLE”之中,这意味着能够把搜索词直接移到”S”的后一位。 get

3. string

字符串匹配的Boyer-Moore算法

依然从尾部开始比较,发现”P”与”E”不匹配,因此”P”是”坏字符”。可是,”P”包含在搜索词”EXAMPLE”之中。因此,将搜索词后移两位,两个”P”对齐。 it

4.

字符串匹配的Boyer-Moore算法

咱们由此总结出“坏字符规则”

  后移位数 = 坏字符的位置 – 搜索词中的上一次出现位置

若是”坏字符”不包含在搜索词之中,则上一次出现位置为 -1。

以”P”为例,它做为”坏字符”,出如今搜索词的第6位(从0开始编号),在搜索词中的上一次出现位置为4,因此后移 6 – 4 = 2位。再之前面第二步的”S”为例,它出如今第6位,上一次出现位置是 -1(即未出现),则整个搜索词后移 6 – (-1) = 7位。

5.

字符串匹配的Boyer-Moore算法

依然从尾部开始比较,”E”与”E”匹配。

6.

字符串匹配的Boyer-Moore算法

比较前面一位,”LE”与”LE”匹配。

7.

字符串匹配的Boyer-Moore算法

比较前面一位,”PLE”与”PLE”匹配。

8.

字符串匹配的Boyer-Moore算法

比较前面一位,”MPLE”与”MPLE”匹配。咱们把这种状况称为”好后缀”(good suffix),即全部尾部匹配的字符串。注意,”MPLE”、”PLE”、”LE”、”E”都是好后缀。

9.

字符串匹配的Boyer-Moore算法

比较前一位,发现”I”与”A”不匹配。因此,”I”是”坏字符”。

10.

字符串匹配的Boyer-Moore算法

根据”坏字符规则”,此时搜索词应该后移 2 – (-1)= 3 位。问题是,此时有没有更好的移法?

11.

字符串匹配的Boyer-Moore算法

咱们知道,此时存在”好后缀”。因此,能够采用“好后缀规则”

  后移位数 = 好后缀的位置 – 搜索词中的上一次出现位置

计算时,位置的取值以”好后缀”的最后一个字符为准。若是”好后缀”在搜索词中没有重复出现,则它的上一次出现位置为 -1。

全部的”好后缀”(MPLE、PLE、LE、E)之中,只有”E”在”EXAMPLE”之中出现两次,因此后移 6 – 0 = 6位。

12.

字符串匹配的Boyer-Moore算法

能够看到,”坏字符规则”只能移3位,”好后缀规则”能够移6位。因此,Boyer-Moore算法的基本思想是,每次后移这两个规则之中的较大值。

更巧妙的是,这两个规则的移动位数,只与搜索词有关,与原字符串无关。所以,能够预先计算生成《坏字符规则表》和《好后缀规则表》。使用时,只要查表比较一下就能够了。

13.

字符串匹配的Boyer-Moore算法

继续从尾部开始比较,”P”与”E”不匹配,所以”P”是”坏字符”。根据”坏字符规则”,后移 6 – 4 = 2位。

14.

字符串匹配的Boyer-Moore算法

从尾部开始逐位比较,发现所有匹配,因而搜索结束。若是还要继续查找(即找出所有匹配),则根据”好后缀规则”,后移 6 – 0 = 6位,即头部的”E”移到尾部的”E”的位置。

相关文章
相关标签/搜索