字符串匹配算法--KMP搜索(Knuth–Morris–Pratt string-searching)C语言实现与讲解

时间 2020-01-26

标签字符串匹配算法 kmp 搜索 knuth morris pratt string searching c语言实现讲解繁體版

原文原文链接

1、前言

在计算机科学中，Knuth-Morris-Pratt字符串查找算法（简称为KMP算法）可在一个主文本字符串S内查找一个词W的出现位置。此算法经过运用对这个词在不匹配时自己就包含足够的信息来肯定下一个匹配将在哪里开始的发现，从而避免从新检查先前匹配的字符。这个算法是由高德纳和沃恩·普拉特在1974年构思，同年詹姆斯·H·莫里斯也独立地设计出该算法，最终由三人于1977年联合发表。(from:wikipedia)算法

KMP搜索(Knuth–Morris–Pratt string-searching)是字符串匹配算法中较为高效的算法，它弥补了暴力匹配算法的一些缺点，经过回溯避免了在字符串匹配时没必要要的步骤，缩短了匹配时间，它的时间复杂度只有O(m+n)，适合在有时间要求的状况下使用，同时也是某些比赛的考点，仍是比较有用。但此方法本质上是AC自动机的一种特殊状况，存在必定的理解难度。本文只讲解如何理解和实现kmp算法，有关数学上的说明能够参考《算法导论》字符串匹配相关章节。数组

2、代码

如下为实现代码，可先浏览，以后再作分析。函数

#include <stdio.h>
#include <string.h>
void getnext(char *t);        //计算子串的状态转移数组的函数
int kmp(char *s,char *t);     //kmp算法的主要匹配搜索函数
int next[255];                //全局next数组更方便调用，大小根据实际状况更改
int main(void)
{
    int n;
    char s[255],t[255];
    printf("母串：");
    scanf("%s",s);
    printf("子串：");
    scanf("%s",t);
    n=kmp(s,t);
    if(n==0)
        printf("匹配失败\n");
    else
        printf("在第%d位匹配成功",n);
    return 0;
}

void getnext(char *t)
{
    int i=0,j=-1,l=strlen(t);       //j初始化为-1只是方便计算，更易于理解，无特殊含义。
    next[0]=-1;                     //这里若是用next[i]=j后续有可能出现死循环，故单独赋值。
    while(i<l)
    {
        if(j==-1||t[i]==t[j])       //t[i],t[j]分别表示前缀子串单个字符和后缀子串单个字符，若匹配成功则以一种累加
        {                           //的方式继续向后匹配，因此每次比较一个字符，能够动手尝试分步理解
            ++i,++j;                
            if(t[i]!=t[j])          //这里是针对原先方法的一些优化，后续会将
                next[i]=j;
            else
                next[i]=next[j];
        }
        else
            j=next[j];              //字符不相同时进行回溯
    }
}

int kmp(char *s,char *t)
{
    int i=0,j=0;
    int sl=strlen(s),tl=strlen(t);
    getnext(t);            
    while(i<sl&&j<tl)
    {
        if(j==-1||s[i]==t[j])
            ++i,++j;
        else
            j=next[j];        //字符串失配时回溯到正确位置再次匹配
    }
    if(j==tl)
        return i-tl+1;
    else
        return 0;
}

3、具体分析

1.求转移数组next的方法与分析

如今有母串s和子串t优化

s="abcdefgab"
t="abcdex"。设计

咱们能够看出，两个串前五位字符分别对应相等，只在第六位失配。若是按照暴力匹配是须要依次匹配一遍。但咱们经过观察能够看出，子串中六个字母各不相同，s串的首字母和t串的首字母相同，那么就意味着子串t的首字符不可能与母串2-5之间的字符匹配成功，那么这时，暴力匹配中就有一些步骤是彻底能够省略的，以后的字符同理可知都能直接跳过。因为就算咱们知道了s[5]!=t[5]，t[0]!=t[5]，咱们也没法肯定t[0]必定不等于s[5]，因此须要保留它们两个匹配的那一次。code

t[i]==s[i] (i=0,1,2,3,4)
t[0]!=t[j] (j=1,2,3,4)
能够推出：t[0]!=s[j] (j=1,2,3,4)blog

经过以上的例子，咱们能够看出kmp算法具体是根据什么回溯的，咱们也能够看出这样的回溯方式比暴力匹配好在哪里。咱们既然是拿子串去匹配母串，那么确定是指向子串的数字的回溯，也就是说，串中每一个对应的next值与母串无关。咱们如今能够继续验证字符重复的状况，如今咱们有子串tip

t="abcabx"字符串

咱们首先须要了解两个概念：“前缀”和“后缀”。“前缀”指除了最后一个字符以外，一个字符串的所有头部组合。“后缀”指除了第一个字符以外，一个字符串的所有尾部组合。最大公共值就是“前缀”和“后缀”的最长的共有元素的长度。其次，next数组的下标j指向第n位的时候，计算的是前n-1个字符所组成的字符串的最大公共值，由于next数组描述的是字符串在第n位失配时的转移情况，故不考虑第n位。咱们能够发现“ab”出现了重复，故x处对应next数组的值为2，即为最大公共值，这也是设next[0]=-1带来的好处，更容易理解，更形象。以后若在x处失配，咱们能够把总体向后挪动使得挪动以后的第一个ab对应挪动以前第二个ab的位置，继续从c开始日后匹配。
继续思考，咱们会发现刚才的t串中含有两个a，两个b，其实这时若是用首位的值去取代后续相同的字符的next值，能够再避免以前求next数组方法某些状况下的重复匹配的缺陷，这个缺陷在一些连续出现同一字母的串中会出现。缘由就不展开讲了，能够用以前的方法来分析串“aaaabcde”和“aaaaax”来获得结论。最后t串的next数组以下图，能够尝试本身去求。

至此，咱们就获得了子串的转移数组next。get

2.kmp匹配函数的分析

kmp搜索函数就比较简单了，难点主要在next函数的理解上，结合next数组把子串与母串进行匹配就好了。若是匹配失败返回0，匹配成功则返回匹配成功的位置。此外，这只是kmp最简单的用法，能够根据须要对他的功能进行增长，例如求最小子串，求子串在母串的哪些地方出现等。

4、结尾

其实还有不少其它的字符串匹配算法，例如Sunday算法等较为优秀的字符串模式匹配算法，且有些效率比kmp要高，但理解kmp算法也能帮助咱们更好的理解其它算法。