KMP算法是模式匹配专用算法。html
它是在已知模式串的next或nextval数组的基础上执行的。若是不知道它们两者之一,就无法使用KMP算法,所以咱们须要计算它们。算法
KMP算法由两部分组成:数组
第一部分,计算模式串的next或nextval数组。设计
第二部分,利用计算好的模式串的nextval数组,进行模式匹配。htm
KMP算法中有next数组和nextval数组之分。 他们表明的意义和做用彻底同样,彻底能够混用。 惟一不一样的是,next数组在一些状况下有些缺陷,而nextval是为了弥补这个缺陷而产生的。字符串
1、求解next程序设计
步骤:next数组值的程序设计求解方法:首先能够确定的是第一位的next值为0,第二位的next值为1,后面求解每一位的next值时,根据前一位 进行比较。首先将前一位与其next值对应的内容进行比较,若是相等,则该位的next值就是前一位的next值加上1;若是不等,向前继续寻找next值对应的内容来与前一位进行比较,直到找到某个位上内容的next值对应的内容与前一位相等为止,则这个位对应的值加上1即为需求的next值;若是找到 第一位都没有找到与前一位相等的内容,那么需求的位上的next值即为1。基础
举例:
模式串 a b a a b c a c
next值 0 1 1 2 2 3 1 2
1.前两位必为0,1。
2.计算第三位的时候,看第二位b的next值,为1,则把b和1对应的a进行比较,不一样,则第三位a的next的值为1,由于一直比到最前一位,都没有发生比较相同的现象。
3.计算第四位的时候,看第三位a的next值,为1,则把a和1对应的a进行比较,相同,则第四位a的next的值为第三位a的next值加上1,为2。由于是在第三位实现了其next值对应
的值与第三位的值相同。
4.计算第五位的时候,看第四位a的next值,为2,则把a和2对应的b进行比较,不一样,则再将b对应的next值1对应的a与第四位的a进行比较,相同,则第五位的next值为第二位b的
next值加上1,为2。由于是在第二位实现了其next值对应的值与第四位的值相同。
5.计算第六位的时候,看第五位b的next值,为2,则把b和2对应的b进行比较,相同,则第六位c的next值为第五位b的next值加上1,为3,由于是在第五位实现了其next值对应的
值与第五位相
6.计算第七位的时候,看第六位c的next值,为3,则把c和3对应的a进行比较,不一样,则再把第3位a的next值1对应的a与第六位c比较,仍然不一样,则第七位的next值为1。
7.计算第八位的时候,看第七位a的next值,为1,则把a和1对应的a进行比较,相同,则第八位c的next值为第七位a的next值加上1,为2,由于是在第七位和实现了其next值对应的值与第七位相同。程序
2、求解nextval:方法
求nextval数组值有两种方法,一种是不依赖next数组值直接用观察法求得,一种方法是根据next数组值进行推理,两种方法都可使用,视更喜欢哪一种方法而定。
本文主要分析nextval数组值的第二种方法:
模式串 a b a a b c a c
next值 0 1 1 2 2 3 1 2
nextval值 0 1 0 2 1 3 0 2
1.第一位的nextval值一定为0,第二位若是于第一位相同则为0,若是不一样则为1。
2.第三位的next值为1,那么将第三位和第一位进行比较,均为a,相同,则,第三位的nextval值为0。
3.第四位的next值为2,那么将第四位和第二位进行比较,不一样,则第四位的nextval值为其next值,为2。
4.第五位的next值为2,那么将第五位和第二位进行比较,相同,第二位的next值为1,则继续将第二位与第一位进行比较,不一样,则第五位的nextval值为第二位的next值,为1。
5.第六位的next值为3,那么将第六位和第三位进行比较,不一样,则第六位的nextval值为其next值,为3。
6.第七位的next值为1,那么将第七位和第一位进行比较,相同,则第七位的nextval值为0。
7.第八位的next值为2,那么将第八位和第二位进行比较,不一样,则第八位的nextval值为其next值,为2。
3、next和nextval比较
Next数组的缺陷举例以下:
好比主串是“aab…..” 省略号表明后面还有字符。
模式串“aac”
经过计算aac的next数组为012(另外,任何字符串的第二位字符的next老是1,所以你能够认为他固定为1)
当模式串在字符c上失配时,会跳到第2个字符,而后再和主串当前失配的字符从新比较,即此处用模式串的第二个a和主串的b比较
即 aab aac
显然a也不等于b。而后 会跳到1,接着比,而后又失配,直到最后才使主串后移一位。
而“aac”的nextval数组为002 当在c失配时会跳到2,若还失配就直接跳到0,比next数组少比较了1次。
在若是模式串很长的话,那能够省去不少比较,所以你应该使用nextval数组。
4、严蔚敏
上:http://v.youku.com/v_show/id_XODYxNjExODQ=.html 第 34分钟开始
下:http://www.56.com/u28/v_NjAwMzA0ODA.html