一、基本概念
当我们遍历到 某个 节点的时候,由于存在这个节点,我们就让他的fail指针 指向 他父亲节点的fail指针指向的那个节点的具有相同字母的子节点。
在trie上加入fail边,一个节点fail边指向这个节点所代表的前缀的最长后缀节点(除开自身的后缀)。
简单来说,AC自动机是用来进行多模式匹配(单个主串,多个模式串)的高效算法。
使用Aho-Corasick算法需要三步:
建立模式串的Trie
给Trie添加失败路径
根据AC自动机,搜索待处理的文本
注意fail指针形成一棵树,每个节点指向自己的父节点,自己的父节点表示的含义:当前trie树上该前缀的最长后缀。
fail树的每个节点都指向自己的父节点,是一棵拓扑序已知的树(祖孙关系已知的树),可以利用队列获得拓扑关系。
二、例题:P5357 【模板】AC 自动机(二次加强版)
题目链接
题面:
代码:
这里要注意根节点是从0号节点开始的,与字典树的根节点不一致。字典树根节点0号或者1号无所谓,但是这里根节点需要0号(或者全部初始化为1号也可以从1号开始)。
void getfail(void)
{
queueq;
for(int i=0;i<26;i++)
{
if(t[root][i])
{
fail[t[root][i]]=root;
in[fail[t[root][i]]]++;
q.push(t[root][i]);
}
}
while(q.size())
{
int now=q.front();
q.pop();
int p;
for(int i=0;i<26;i++)
{
p=t[now][i];
if(p)
{
fail[p]=t[fail[now]][i];
in[fail[p]]++;
q.push(p);
}
else t[now][i]=t[fail[now]][i];
}
}
}
因为AC自动机中失配后会指向根节点重新匹配,为了初始化方便,使得根节点从0号节点开始。
#include#include #include #include #include #include #include using namespace std; const int maxn=2000010; //trie树 int t[maxn][26]; //fail树 int fail[maxn]; //ed[i]表示第i个串在trie树上的节点 int ed[maxn]; int tot=0,root=0; char str[maxn]; int d[maxn]; //获得拓扑序,入度数组 int in[maxn]; void _insert(int a) { int p=root,k,len=strlen(str+1); for(int i=1;i<=len;i++) { k=str[i]-'a'; if(!t[p][k]) t[p][k]=++tot; p=t[p][k]; } ed[a]=p; } void getfail(void) { queue q; for(int i=0;i<26;i++) { if(t[root][i]) { fail[t[root][i]]=root; in[fail[t[root][i]]]++; q.push(t[root][i]); } } while(q.size()) { int now=q.front(); q.pop(); int p; for(int i=0;i<26;i++) { p=t[now][i]; if(p) { fail[p]=t[fail[now]][i]; in[fail[p]]++; q.push(p); } else t[now][i]=t[fail[now]][i]; } } } void _search(void) { int p=root,k,len=strlen(str+1); for(int i=1;i<=len;i++) { k=str[i]-'a'; p=t[p][k]; d[p]++; } return ; } void get(void) { queue q; for(int i=0;i<=tot;i++) if(in[i]==0) q.push(i); while(q.size()) { int x=q.front(); q.pop(); d[fail[x]]+=d[x]; in[fail[x]]--; if(in[fail[x]]==0) q.push(fail[x]); } } int main(void) { int n; scanf("%d",&n); for(int i=1;i<=n;i++) { scanf("%s",str+1); _insert(i); } getfail(); scanf("%s",str+1); _search(); get(); for(int i=1;i<=n;i++) printf("%dn",d[ed[i]]); return 0; }



