AC自动机讲解+[HDU2222]Keywords Search（AC自动机）

时间 2019-12-05

标签自动机讲解 hdu2222 hdu keywords search 栏目 Microsoft Office 繁體版

原文原文链接

首先，有这样一道题：php

给你一个单词W和一个文章T，问W在T中出现了几回（原题见POJ3461）。html

OK，so easy~c++

HASH or KMP 轻松解决。算法

那么还有一道例题：数组

给定n优化

spa

指针

htm

若是你能看到这里，说明你已经熟练掌握了Trie和KMP。

那么如今可爱的动动扔给你了一道题：

给定n

那么这个时候须要引入一个新的算法：AC自动机。

想必在所得诸位大佬必定有人听过这个名词。

首先简要介绍一下AC自动机(Aho-Corasick automation)(不是Accepted)。
就像当初我前队友gzh老师同样（状压 or 撞鸭？）。

该算法在1975年产生于贝尔实验室，是著名的多模匹配算法之一。

要搞懂AC自动机，先得有模式树（字典树）Trie和KMP模式匹配算法的基础知识。

KMP算法和AC自动机算法的区别在于，前者为单模式串匹配，然后者为多模式串匹配。

你能够感性的理解为，单模式串匹配就是只有一个子串，而多模式串匹配是指有不止一个子串。

主要步骤：

三步走：

①将全部的模式串构成一颗Trie树。

②对Trie上全部的节点构造前缀指针。

③利用前缀指针Fail对主串进行匹配。

实际上这个前缀指针Fail与KMP算法中的nxt数组很是类似，所以AC自动机能够看做是Trie与KMP算法的结合（Trie上的KMP算法）。

第一步：字典树的构建想必你们都会了（若是不会的话你也不会读到这里），在此就不作过多的赘述。

第二步：

找Fail指针：

你们都知道，在KMP算法当中，当字符串发生失配时有nxt数组用来找到下一个匹配的位置，那么AC自动机中相似nxt数组的东西就是fail指针，当发现失配的

字符失配的时候，跳转到Fail指针指向的位置，而后再次进行匹配操做，AC自动机之因此能实现多模式匹配，就归功于Fail指针的创建。

那么咱们应该如何求Fail指针呢？

运用广度优先搜索（BFS）来求得。

对于与根节点直接相连的点来讲，若是这些节点失配，他们的Fail指针直接指向root便可。

其余节点其Fail指针求法以下：
设当前节点为father，其子节点为children。

求child的Fail指针时，首先咱们要找到其father的Fail指针所指向的节点设为F，看F的孩子中有没有和child节点所表示的字母相同的节点，若是有的话，这个节

点就是child的fail指针，若是没有，则须要再找到F的Fail指针所指向的节点，若是一直找都找不到，则child的Fail指针就要指向root。

例（帮助理解）：

如图所示，首先root最初会进队，而后root,出队，咱们把root的孩子的失败指针都指向root。所以图中h,s的失败指针都指向root,如红色线条所示，同时h,s进队。
接下来该h出队，咱们就找h的孩子的fail指针，首先咱们发现h这个节点其fail指针指向root,而root又没有字符为e的孩子，则e的fail指针是空的，若是为空，则也要指向root,如图中蓝色线所示。而且e进队，此时s要出队，咱们再找s的孩子a,h的fail指针，咱们发现s的fail指针指向root,而root没有字符为a的孩子，故a的fail指针指向root，a入队，而后找h的fail指针，一样的先看s的fail指针是root，发现root又字符为h的孩子，因此h的fail指针就指向了第二层的h节点。e，a , h 的fail指针的指向如图蓝色线所示。
此时队列中有e,a,h，e先出队，找e的孩子r的失败指针，咱们先看e的失败指针，发现找到了root,root没有字符为r的孩子，则r的失败指针指向了root,而且r进队，而后a出队，咱们也是先看a的失败指针，发现是root,则y的fail指针就会指向root.而且y进队。而后h出队，考虑h的孩子e,则咱们看h的失败指针，指向第二层的h节点，看这个节点发现有字符值为e的节点，最后一行的节点e的失败指针就指向第三层的e。最后找r的指针，一样看第二层的h节点，其孩子节点不含有字符r，则会继续往前找h的失败指针找到了根，根下面的孩子节点也不存在有字符r，则最后r就指向根节点，最后一行节点的fail指针如绿色虚线所示。
第三步：

文本串的匹配：

匹配过程分两种状况：

(1)当前字符匹配，从当前节点沿着树边有一条路径能够到达目标字符，若是当前匹配的字符是一个单词的结尾，就沿着当前字符的Fail指针，一直遍历到根，若是这些节点末尾有标记（当前节点单词末尾的标记），这些节点全都是能够匹配上的节点。统计完毕后，并将那些节点标记。此时只需沿该路径走向下一个节点继续匹配便可，目标字符串指针移向下个字符继续匹配；

(2)当前字符不匹配，则去当前节点失败指针所指向的字符继续匹配，当指针指向root时结束。

重复这2个过程当中的任意一个，直到模式串走到结尾为止。

例：

仍是刚才那张图：

假设其模式串为yasherhs。对于i=0,1。Trie中没有对应的路径，故不作任何操做；i=2,3,4时，指针p走到左下节点e。由于节点e的count信息为1，因此cnt+1，而且讲节点e的count值设置为-1，表示改单词已经出现过了，防止重复计数，最后temp指向e节点的失败指针所指向的节点继续查找，以此类推，最后temp指向root，退出while循环，这个过程当中count增长了2。表示找到了2个单词she和he。当i=5时，程序进入第5行，p指向其失败指针的节点，也就是右边那个e节点，随后在第6行指向r节点，r节点的count值为1，从而count+1，循环直到temp指向root为止。最后i=6,7时，找不到任何匹配，匹配过程结束。

总结：

三步：构造一棵Trie树，构造失败指针和模式匹配过程。

Fail指针≈nxt数组。

例题：

「一本通 2.4 例 1」Keywords Search
「一本通 2.4 练习 1」玄武密码
「一本通 2.4 练习 3」单词
「一本通 2.4 练习 5」病毒
「一本通 2.4 练习 4」最短母串
「一本通 2.4 练习 6」文本生成器

例题1讲解：

那么下面我来说一下AC自动机的第一道例题Keywords Search。

题目传送门

这是一道板子题，其实上面的内容就是根据这道题来说的，我在此就不作过多的赘述，主要讲一下代码。

#include<bits/stdc++.h>
using namespace std;
int n;
char s[2000001];
int trie[1000001][30];
int que[1000001],end[1000001],nxt[1000001];
int ans,cnt;
void insert(char *str)//Trie树构建过程 
{
	int p=1;
	int len=strlen(str);
	for(int i=0;i<len;i++)
	{
		int ch=str[i]-'a';
		if(!trie[p][ch])
		{
			trie[p][ch]=++cnt;
			memset(trie[cnt],0,sizeof(trie[cnt]));//每次只须要清空咱们会用获得的行 
		}
		p=trie[p][ch];
	}
	end[p]++;//由于有可能会有重复的单词，故在此end统计在此有多少个单词结束，而不是有没有单词结束 
}
void build()//BFS构建Fail指针 
{
	for(int i=0;i<26;i++)//为了方便将0的全部转一遍都设为根节点1 
		trie[0][i]=1;
	nxt[1]=0;//若在根节点失配， 则没法匹配字符 
	que[1]=1;
	int head=1,tail=1;
	while(head<=tail)
	{
		for(int i=0;i<26;i++)
			if(!trie[que[head]][i])trie[que[head]][i]=trie[nxt[que[head]]][i];//注意这里，下面会有详细解释 
			else
			{
				que[++tail]=trie[que[head]][i];
				int flag=nxt[que[head]];
				while(flag&&!trie[flag][i])flag=nxt[flag];//循环往前找 
				nxt[trie[que[head]][i]]=trie[nxt[que[head]]][i];
			}
		head++;//注意队头++ 
	}
}
void find(char *str)//匹配 
{
	int p=1;
	int len=strlen(str);
	for(int i=0;i<len;i++)
	{
		int flag=p=trie[p][str[i]-'a'];
		while(end[flag]!=-1&&flag)
		{
			ans+=end[flag];
			end[flag]=-1;//标记这个点已经访问过，之后再也不访问 
			flag=nxt[flag];
		}
	}
}
int main()
{
	int T;
	scanf("%d",&T);
	while(T--)
	{
		memset(end,0,sizeof(end));//多测不清空，爆零两行泪（宝宝别哭） 
		cnt=1;
		ans=0;
		for(int i=0;i<26;i++)
			trie[0][i]=1,trie[1][i]=0;//亦是清空 
		scanf("%d",&n);
		for(int i=1;i<=n;i++)
		{
			scanf("%s",s);
			insert(s);//读入子串并插入Trie树 
		}
		build();
		scanf("%s",s);
		find(s);//匹配 
		printf("%d\n",ans);
	}
	return 0;
}

下面我来解释上面那个问题：

当发现不存在que[head]（下面用u代替）的转移边i时，令trie[u][i]等于trie[nxt[u]][i]，这并不符合Trie树的构造，可是在代码中倒是正确的，那么这是为何呢？

其实这是为了优化时间，若不存在trie[u][i]的转移边则指向trie[nxt[u]][i]。由于在具体问题中，若不存在trie[u][i]的转移边，每每须要沿que[head]的Fail指针走到第一个知足存在字符i的转移边的点v，获得trie[v][i]，那么就直接将trie[u][i]赋值为trie[v][i]，即trie[nxt[u]][i]，这是求解的一类问题的时间优化。也正是这个缘由，在构建Fail指针是，并无处理v的转移边i不存在的状况，而是直接nxt[trie[u][i]]=trie[v][i]（其中trie[v][i]也在以前就处理好了）。

rp++

1. AC自动机
2. AC 自动机
3. $AC自动机$
4. ac自动机
5. AC自动机详解（附加可持久化AC自动机）
6. poj2778 AC自动机
7. hods2896(AC自动机）
8. hdu3065(AC自动机）
9. 伪AC自动机
10. AC自动机讲解超详细
更多相关文章...
• Spring自动装配Bean - Spring教程
• SQLite Autoincrement（自动递增） - SQLite教程
• SpringBoot中properties文件不能自动提示解决方法
• IntelliJ IDEA中SpringBoot properties文件不能自动提示问题解决