【重学数据结构与算法(JS)】字符串匹配算法(三)——BM算法

时间 2020-01-21

标签重学数据结构与算法(JS) 字符串匹配算法栏目 JavaScript 繁體版

原文原文链接

前言

文章的一开头，仍是要强调下字符串匹配的思路：html

将模式串和主串进行比较算法
- 从前日后比较
- 从后往前比较
匹配时，比较主串和模式串的下一个位置
失配时,segmentfault
- 在模式串中寻找一个合适的位置数组
  - 若是找到，从这个位置开始与主串当前失配位置进行比较
  - 若是未找到，从模式串的头部与主串失配位置的下一个位置进行比较
- 在主串中找到一个合适的位置，从新与模式串进行比较

前面的 BF 和 KMP 算法，都是属于规规矩矩从前向后的操做，后者仅在寻找模式串的合适位置上进行了优化，而 BM 算法的操做就显得骚了不少，它的优化点在于：数据结构

从后往前比较
失配时，寻找的是主串中合适的位置

算法介绍与分析

关于算法的介绍和分析，网上有不少解释，这里推荐一下阮一峰的字符串匹配的Boyer-Moore算法，很清楚的讲解了整个优化的思路，能够先看完理解了再往下看，由于下面主要介绍一下坏字符规则和好后缀规则须要的数据结构的手工求法以及代码实现。框架

坏字符规则

运用坏字符规则，在算法里主要体如今生成一张散列表，表的key值是字符集里每一个字符的ASCII码值，value值是模式串中该字符的位置，举个栗子：函数

假设字符串的字符集不是很大，用长度为256的数组来存储，而且初值赋值为-1。数组的下标对应字符的 ASCII 码值，数组中存储这个字符在模式串中出现的位置。这里要特别说明一点，若是坏字符在模式串里多处出现，选择最靠后的那个，由于这样不会让模式串滑动过多，致使原本可能匹配的状况被滑动略过。优化

好后缀规则

好后缀规则体如今如何求出 suffix 和 prefix 两个数组以及移动规则。spa

suffix 数组

key值表示的是后缀子串的长度，value值表示的是在模式串中跟好后缀 S 相匹配的最后一个子串 S^' 的首字母在模式串中的key值，以下图：3d

prefix 数组

一样的，key值表示的是后缀子串的长度，而value值表示的是模式串中，是否有和该长度下后缀子串相同的前缀子串，是的话为 true，不然为 false，以下图：

移动规则

移动规则总结以下：

在模式串中寻找跟好后缀 S 相匹配的最后一个子串 S^'
- 若是找到，将模式串移动到使得 S^' 和主串对齐的位置
- 若是找不到，再寻找模式串的前缀子串中是否有和 好后缀 S 的后缀子串匹配的位置，滑动模式串以对齐。
- 若是仍然找不到，则将模式串移动至主串与模式串末尾对齐的下一个位置

下图分别对应三种状况：

代码实现

总体逻辑框架

参考字符串匹配的思路

仍然须要进行主串和模式串的字符对比，因此须要两个指针 i ，j 分别指向主串和模式串，记录位置
须要一个循环来重复进行匹配操做，此时思考终止条件：
- i 指向主串每次匹配的合适位置，从前日后扫描；j 指向模式串的尾部，从后往前扫描。考虑极端状况：主串和模式串对比完，仍然没法匹配。此时，i 的位置必定小于等于 主串长度 n 与模式串长度 m 的差值。具体可看下图。
每次模式串从后往前与主串进行匹配，这也须要一个内层循环来驱动指针j
若是匹配，只须要继续移动匹配位置便可
若是失配，分别根据坏字符规则和好后缀规则计算出 i 须要移动的位置，选择两个值当中最大的，从新计算 i 的值，重复进行匹配。

根据以上分析能够写出整个的逻辑框架代码：

框架写好后，接下来就是完善三个辅助函数便可

求坏字符散列表

这个就没有什么能够多说的了，只要参考上面分析的，一步一步写出代便可：

求好后缀记录数组 `suffix` 和 `prefix`

拿下标从 0 到 i 的子串（i 能够是 0 到 m-2）与整个模式串，求公共后缀子串。若是公共后缀子串的长度是 k，那就记录 suffix[k]=j（j 表示公共后缀子串的起始下标）。若是 j 等于 0，也就是说，公共后缀子串也是模式串的前缀子串，就记录 prefix[k]=true。能够本身动下手，模拟下代码的运行，尤为注意中k值的运用，很巧妙。

求好后缀移动步数

根据上面此步的算法分析，也能够写出：

总结

总的来讲，BM算法另辟蹊径，经过从后往前的匹配的思路，加上坏字符规则和好后缀规则来优化移动的步数，从而提升算法的匹配效率。

后记

“字符串匹配算法”是“重学数据结构与算法”系列笔记：