WO2009097756A1

WO2009097756A1 - 建立模式匹配状态机的方法及装置

Info

Publication number: WO2009097756A1
Application number: PCT/CN2009/070076
Authority: WO
Inventors: Jian Chen; Qikun Wei; Guohai Chen
Original assignee: Huawei Technologies Co., Ltd.
Priority date: 2008-02-01
Filing date: 2009-01-08
Publication date: 2009-08-13
Also published as: CN101499064A; US20100229040A1; US8583961B2

Description

建立模式匹配状态机的方法及装置

本申请要求于 2008 年 2 月 1 日提交中国专利局、申请号为 200810006076.X,发明名称为"建立模式匹配状态机的方法及装置 "的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及模式匹配技术，具体涉及一种建立模式匹配状态机的方法及装置。

背景技术

模式匹配一般是指在文本数据中搜索预定义的关键字。模式匹配问题是计算机科学中的一个基本问题，其研究内容在信息检索、模式识别等众多领域均有重要价值，在拼写检查、语言翻译、数据压缩、搜索引擎、入侵检测、内容过滤、计算机病毒特征码匹配以及基因序列比较等应用中起着重要的作用。比如，在一些信息获取、文本编辑应用中，用户会指定一些关键字，需要在文本中快速定位关键字的位置。

Aho-Corasick (阿霍 -克若思克）算法描述了一种简单有效的算法，能够在任意的文本中定位有限数目的关键字的所有位置。其原理是：首先根据这一系列关键字定义一个有限状态模式匹配机，然后把文本作为模式匹配机的输入。只要匹配到关键字，就会通报本关键字匹配成功。

以用户指定关键字集合 {he, she, his, hers}为例，用户希望在文本搜索中出现任一个关键字，就输出搜索结果，通知用户。如图 1所示，利用 Aho-Corasick 进行模式匹配的过程如下：根据关键字集合 {he, she, his, hers}生成 Goto函数、 Failure , Output 函数，包括两个步骤：第一步确定状态和 Goto函数，第二步计算 Failure函数。 Output函数的构建在第一步开始，在第二步完成。

如图 1 ( a )所示，根据关键字集合生成 Goto函数（在算式中以 g代表 Goto 函数）。

Goto函数 g根据当前状态和输入符号决定迁移状态。例如，在 0状态输入 h 会迁移到 1状态，表示为 g(0, h)=l ; 在状态 3输入 h会迁移到状态 4, 表示为 g(3, h)=4。如果在某状态输入某个符号无法迁移成功，则意味着 Goto函数失败，结果以 fail表示，如在状态 3输入 e导致 Goto函数失败，则表示为 g(3, e)=fail。 Output函数表示在某状态匹配成功，可以输出的结果，如 Output(2) = "he，，。为了构建 Goto函数，要构建一个 goto有向图。有向图以一个代表初始状态

0的顶点开始，然后输入关键字到有向图中，添加一个从初始状态开始的路径。在添加路径的过程中，新的顶点和边被添加到了有向图中，所以从初始状态开始一条路径能拼出一个完整的关键字。这条路径在某个状态终止，这个状态被添加到了 Output函数中。

假设 {he, she, his, hers}是关键字集合，生成有限状态机的过程如图 2所示：添加第一个关键字" he"到有向图中，得到图 2 ( a )所示。从状态 0到状态 2 拼出关键字" he"; 将输出 "he"关联到状态 2上，即 0utput(2)={he}。

将第二个关键字" she"添加到有向图中，得到图 2 ( b )所示。将输出 "she" 关联到状态 5 , 即 0utput(5)={she}。

将第三个关键字" his"添加到有向图中，得到如图 2 ( c )所示。

需要注意的是，当添加关键字 "his"时，已经有一个标记为 h的边，从状态 0 到状态 1 ,所以不需要再添加其他标记 h的边从状态 0到状态 1。将输出 "his"关联到状态 7 , 即 0utput(7)={his}。

添加最后一个关键字 "hers", 得到如图 2 ( d ) 所示。输出" hers"关联到状态 9, 即 0utput(9)={hers}。在添加过程中，可以使用已经存在的标记 h的边（从状态 0到状态 1 )和标记 e的边（从状态 1到状态 2 )。

为了完成 Goto函数的构建，还需要添加一个循环，该循环从状态 0到状态 0, 对应于除了 h和 s外的其他输入符号。得到结果如图 1 ( a ) 所示。

Failure函数（在算式中以 f 代表）表示在某个状态 Goto函数失败时，应该跳转到哪一个状态继续进行匹配。如图 1 ( b ) 所示，在状态 5 , 当输入一个 r 符号时， g(5, r)= fail, 就要调用 f(5)=2处理，即先跳转到状态 2, 然后再调用 g(2, r) 处理。因为 Failure函数代表着一个状态向另一个状态的迁移，相当于增加了一条链在两个状态之间，一般也可以将某状态 Failure函数的指向称为本状态的 Failure链。

Failure函数基于 Goto函数构建。首先定义一个状态 s在 goto有向图中的深度，即从初始状态到 s的最短路径的长度。在图 1 ( a ), 初始状态的深度为 0 , 状态 1和 3的深度为 1 , 状态 2、 4、 6的深度为 2, 依此类推。计算一个状态的 Failure函数 f的算法如下：先计算所有深度为 1 的状态的 Failure状态，然后是计算所有深度为 2的状态的 Failure状态，一直到所有状态的 Failure状态都被计算，则本状态机的 Failure函数构建完成。

置所有深度为 1的状态的 Failure状态为 0 ,现在 H没已经计算出了深度小于 d的所有状态的 Failure状态，则深度为 d的状态 s的 Failure状态可以由深度为 d-1 状态的 Goto函数的非 fail值推导出来，具体过程如下：

首先，考虑深度为 d-1的每个状态 r并执行以下处理：

1. 如果对所有的输入符号 a, 都是 g(r, a)=fail, 则结束状态 r的处理。

2. 否则，对每个输入符号 a产生输出 8(1~, )=8的情况，执行以下操作： (a)设置状态变量 state=f(r);

(b)执行算式 state— f(state) (即将 f(state)赋值给状态变量 state )零到多次，直到 state的值满足 g(state, a)≠fail (因为 g(0, a)≠fail, 所以适合的 state值总能被发现）；

(c)设置 f(s)=g(state, a) 。

例如，为了计算图 1 ( a ) 中的 Failure函数，应该首先设置 f(l)=f(3)=0 , 因为 1和 3是深度为 1的状态。然后计算深度 2的状态 2、 4、 6的 Failure函数。

为了计算 f(2), 设置 state=f(l)=0; 因为 g(0, e)=0, 所以 f(2)=0。

为了计算 f(6), 设置 state=f(l)=0; 因为 g(0, i)=0, 所以 f(6)=0。

为了计算 f(4), 设置 state=f(3)=0; 因为 g(0, h)=l , 所以 f(4)=l。

依照这种思路计算，就得到完整的 Failure函数，如图 1 ( b ) 所示。

在 Failure函数的计算过程中，同时更新 Output函数。当确定 f(s)=s'，而状态 s和 s'同时是 Output状态时，则将 s'的输出集合并到 s的输出集中。例如，从图 1 ( a ) 中，可以确定 f(5)=2。在这个点上，合并状态 2的输出集 {he}到状态 5 , 从而得到新的输出集 {he, she}。最终的 Output函数如图 1 ( c )所示。

下面举例进一步说明状态机的匹配过程。

以输入文本" sshe"进行搜索为例，当输入第一个 s时， g(0, s)=3 , 所以迁移到状态 3;输入第二个 s, Goto函数失败， g(3, s)=fail,则调用 Failure函数， f(3)=0 表示跳转到状态 0 ,然后 g(0, s)=3 ,所以当前状态仍然是状态 3;输入 h, g(3, h)=4, 迁移到状态 4; 输入 e, g(4, e)=5 , 迁移到状态 5; 因为 Output(5)={she, he} , 所以本次搜索发现了 {she, he}两个用户预定义关键字。

在实现本发明的过程中，发明人发现，现有的 Aho-Corasick算法至少存在以下问题：即有时 Failure到某一状态后， Goto函数仍然失败，需要继续 Failure 跳转到其他状态，也就是说，现有的 Aho-Corasick算法在 Failure链处理方面效率低，存在很多低效的 Failure链。

以图 3所示的复杂状态机为例，其中虚线代表 Failure链， q0表示初始状态。如在 ql4状态下， _g(ql4, e)=fail, 只得根据 f(ql4)=q27跳转到状态 q27; 但是到了状态 q27 ,同样是 _g(q27, e)=fail,只得跳转到 f(q27)=ql9;但仍然是 _g(ql9, e)=fail, 只得跳转到 f(ql9)=q0,即经历了 _g(ql4, e)->f(ql4)->g(q27, e)->f(q27)-> g(ql9_; e)->f(ql9), 才跳转到 qO 状态。

再参照图 4所示的低效 Failure链， f(q6)=q0, f(q5)=q4, f(q4)=q3 , f(q3)=q2, f(q2)=ql , f(ql)=q0。如果在状态 q4下输入符号 c, g(q4, c)=fail,则按 f(q4)=q3 跳转到状态 q3; 但仍然是 _g(q3, c)=fail, 则按照 f(q3)=q2跳转到状态 q2; 但仍然是 g(q2, c)=fail , 则按照 f(q2)=ql, 跳转到状态 ql ; 但仍然是 g(ql, c)=fail, 则按 f(ql)=q0跳转到初始状态 qO , 至此才算 Failure链跳转结束，即先后经过了 _g(q4, _£—> 93)—>8(93, 一> 92)—>8(92, 一> 91)一>8(91, 一>90,才跳转到 qO 状态。

可见， Aho-Corasick算法在 Failure链处理方面是相当低效率的，存在着很多低效的 Failure链。

发明内容

本发明实施例提供一种建立模式匹配状态机的方法及装置，以减少模式匹配过程中低效的 Failure链 , 提高模式匹配处理效率。

本发明实施例提供的一种建立模式匹配状态机的方法，包括：

获取预定义的关键字集合；

根据生成的 Goto函数构建失败 Failure函数，并使各状态的 Failure状态的可接受输入集不是本状态的可接受输入集的子集，所述状态的可接受输入集表示在所述状态下输入本符号集合内任意符号时，该状态的 Goto函数不会失败；根据 Goto函数和 Failure函数生成输出 Output函数。

本发明实施例提供的一种建立模式匹配状态机的装置，包括：

获取单元，用于获取预定义的关键字集合；

Goto函数生成单元，用于根据所述关键字集合生成 Goto函数；

Failure函数生成单元，用于根据生成的 Goto函数构建失败 Failure函数，并使各状态的 Failure状态的可接受输入集不是本状态的可接受输入集的子集，所述状态的可接受输入集表示在所述状态下输入所述输入符号集内任意符号时，该状态的 Goto函数不会失败；

Output函数生成单元，用于根据 Goto函数和 Failure函数生成 Output函数。

由以上本发明实施例提供的技术方案可以看出，本发明实施例的建立模式匹配状态机的方法及装置，在构建 Failure函数时，通过判断某状态的 Failure 状态的可接受输入集是否是本状态可接受输入集的子集，如果是，则不将该 Failure状态作为本状态的 Failure状态，而是继续寻找该 Failure状态的 Failure 状态进行判断，直到找到一个适合的状态作为本状态的 Failure状态，从而消除了依照现有技术建立的模式匹配状态机中低效的 Failure链，提高了模式匹配的处理效率。

附图说明

图 1是现有技术中根据关键字构建 Goto、 Failure, Output 函数示意图；图 2是现有技术中有限状态机生成过程示意图；

图 3是现有技术中的复杂状态机示意图；

图 4是现有技术中的低效 Failure链示意图；

图 5是本发明实施例建立模式匹配状态机的方法的流程图；

图 6是本发明实施例中生成 Failure 函数的流程图；

图 7是根据本发明实施例的方法生成的对应于图 4的 Failure链示意图；图 8是本发明实施例建立模式匹配状态机的装置的原理框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。参照图 5 , 图 5示出了本发明实施例建立模式匹配状态机的方法的流程，包括以下步骤：

步骤 501 , 获取预定义的关键字集合；

步骤 502 , 根据所述关键字集合生成 Goto函数；

生成 Goto函数的过程与现有技术相同，在此不再赘述；

步骤 503 , 根据生成的 Goto函数构建 Failure函数，并使各状态的 Failure 状态的可接受输入集不是本状态的可接受输入集的子集，所述状态的可接受输入集表示在所述状态下输入本符号集合内任意符号时，该状态的 Goto函数不会失败；

也就是说，在构建 Failure函数时，如果 f(s)=s'，但是状态 s'的可接受输入集是状态 s可接受输入集的子集，则状态 s'不能作为状态 s的 Failure状态，应该继续寻找状态 s'的 Failure状态来做判断，直到找到一个适合的状态作为态 s的 Failure 态；

在具体实现时，要判断状态 s'的可接受输入集是否是状态 s的可接受输入集的子集，只要看是否存在一个符号 b , 能使得 g(s', b )≠ΐ \,但是 g(s, b)=fail。如果存在符号 b, 则说明不是子集；否则说明是子集；

步骤 504 , 根据 Goto函数和 Failure函数生成 Output函数；

生成 Goto函数的过程与现有技术相同，在此不再赘述。

在具体实现时，可以按照以下过程根据生成的 Goto函数构建 Failure函数：先直接设置所有深度为 1的状态的 Failure状态为初始状态 0 ,然后根据深度为 1的状态的 Failure状态计算所有深度为 2的状态的 Failure状态，接着根据深度为 2的状态的 Failure状态计算深度为 3状态的 Failure状态，依此类推，一直到所有状态的 Failure状态都被计算（除了初始状态 0的 Failure状态没有定义），则 Failure函数构建完成。

首先置所有深度为 1的状态的 Failure状态为 0。现在 H没已经计算出了深度小于 d的所有状态的 Failure状态，则深度为 d的状态的 Failure状态可以由深度为 d-1状态的 Goto函数的非 fail值推导出来。

为了计算深度 d的状态 s的 Failure函数，先考虑深度为 d-1的每个状态 r 并执行以下动作： 1. 如果对所有的输入符号 a, 都是 g(r, a)=fail, 则结束状态 r的处理。

2. 否则，对每个输入符号 a产生输出 8(1~, )=8的情况，执行以下操作：

(a)设置状态变量 state=f(r);

(b)执行算式 state— f(state)零到多次，直到 state的值满足以下两个条件之一：

(i) s'=0 ( s'— g(state, a), 0代表初始状态）；

(ii) s'^fail (因为 g(0, a)≠fail, 所以适合的 state值总能被发现），并且存在一个输入符号 b使得 g(s'， b )≠ fail和 g(s, b) =fail (因为 g(0, b)≠fail, 所以适合的 state值总能被发现）；或者 s'≠fail, state=0, 则直接设置 s' = 0;

(c)设置 f(s)= s'，即将 s'作为深度 d的状态 s的 Failure函数值。

通过上述步骤 (b),可以保证 s'的可接受输入集不是 s的可接受输入集的子集，从而在构建 Failure 函数时避免了产生低效的 Failure链。

下面以一个具体编程实现 Failure函数的过程来说明，将状态集合以队列的方式来逐个计算各状态的 Failure 状态，通过图 6所示流程来完成，主要包括以下步骤：

步骤 601 , 定义一个状态集合 queue, 并将其清空。

步骤 602, 遍历输入符号集，所述输入符号集包含本模式匹配状态机可以使用的所有输入符号。该输入符号可以是包含单个字符的符号，也可以是包含多个字符的符号。为了便于清楚说明，本实施例以单个字符的符号为例。比如，对于输入符号集中的一个符号 a,如果存在 g(0, a)=s≠0,则将此状态放入状态集合 queue中，并置状态 s的 Failure值为 0。本步骤是一个循环的过程，通过遍历输入符号集，可以将深度为 1的状态全部找出来，将它们全部放入状态集合 queue中，并将它们的 Failure状态都置为状态 0。

步骤 603 , 循环遍历状态集合 queue。如果此时 queue为空，则执行步骤 614; 否则执行步骤 604。

步骤 604, 从状态集合 queue中取出第一个状态处理，并将此状态从状态集合 queue中删除，下面以取出状态 r为例。

步骤 605 , 遍历输入符号集来发现状态 r的下联状态，如果输入符号集已经对状态 r遍历完毕，则返回步骤 603 ; 否则执行步骤 606。步骤 606, 对于符号集中的一个符号 a, 如果存在 g(r, a)=s≠fail, 表明在状态机中 r状态的下联状态为 s, 则将状态 s放入状态集合 queue中，用于后续处理状态 s的下联状态；状态 r的 Failure状态在以前的处理中已经生成，用变量 state来己录^ 态 r的 Failure 态。

步骤 607 , 判断在状态 state输入符号 a时 Goto函数是否为 0; 如果是，则执行步骤 613; 否则，执行步骤 608。

步骤 608, 判断在状态 state输入符号 a时 Goto函数是否失败。

因为 f(s)=g(state, a), f(s)的值应该是一个有意义的状态，不能是 fail, 所以要预先判断 g(state, a) 是否为 fail。如果是 fail, 即迁移失败，则执行步骤 611 ; 否则执行步骤 609。

步骤 609, 判断状态 s'的可接受输入集是否是状态 s的可接受输入集的子集；如果是，则某符号在状态 s下迁移失败，在状态 s'下迁移也肯定失败，所以状态 s'不能作为状态 s的 Failure状态，则执行步骤 610; 否则，执行步骤 613。

上述 s'= g(state, a), 可以按照以下方式判断状态 s'的可接受输入集是否是状态 s的可接受输入集的子集：

遍历输入符号集，看是否存在一个符号 b, W g(g (state, a), b )≠ fail, 但是 g(s, b) =fail。如果存在符号 b, 说明状态 s'的可接受输入集不是状态 s的可接受输入集的子集，否则说明子集存在。

步骤 610 , 判断状态 state是否为 0; 如果是，则执行步骤 612; 否则，执行步骤 611。

步骤 611 ,如果某一状态不能作为另一状态的 Failure状态，应该跳转到这一状态的 Failure状态继续尝试，即以 state的 Failure状态作为新的 state状态来做尝试，然后返回步骤 607继续进行判断。

步骤 612 , 直接设置状态 s的 Failure状态为 0, 即 f(s)=0; 然后返回步骤

605 , 搜索状态 r下的其他下联状态。

步骤 613 , 得出状态 s的 Failure状态，即 f(s) — g(state, a); 然后返回步骤 605 , 搜索状态 r下的其他下联状态。

步骤 614, 状态集合 queue队列为空，表明本状态机所有状态已经处理完毕， Failure函数已经构建完成。

需要说明的是，在上述流程中，输入符号、 b表示输入符号集中的任意一个符号，而不特指其本身所表示的符号、 b。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如： ROM/RAM、磁碟、光盘等。

下面以图 4所示的 Failure链为例，对利用现有技术及本发明方法生成的 Failure结果进行比较，进一步说明利用本发明方法减少低效的 Failure链的效果。

计算结果如下表 1所示:

步骤原有算法 Failure 结果本专利算法 Failure 结果

1.置所有深 f(ql)=q0 f(ql)=q0

度为 1 的状

态的 Failure

狀态为初始

状态

2.生成深度 state=f(ql)=qO, state=f(ql)=qO, s'=g(state, 为 2 的状态 f(q2) = _g(q0, a) = ql。 a) =ql≠fail, 因为 ql和 q2的可接的 Failure 状受输入集都是 {a}，所以不存在一木个 b使得 g(s'， b)≠fail和 g(s, b) =fail, 而且 state=f(ql)=qO所以直接设置 s'=q0 , 得到 f(q2)=q0。

3. 生成深度 state=f(q2)=ql , state=f(q2)=ql ,

为 3 的状态 f(q3)=g(ql, a)=q2。不满足 (i)、（ii)任意条件，所以执的 Failure 状行 state— f(state)=f(ql)=qO。

木从步骤 2 可以看出因为 ql满足条件 (ii), 所以直接设置 s'=0, 得到 f(q3)= s'=0。

4. 生成深度 state=f(q3)=q2, state=f(q3)=q2, 为 4 的状态 f(q4)=_g(q2, a)=q3。不满足 (i)、（ii)任意条件，所以执的 Failure 状行 state— f(state)=f(q2)=ql , 木参考步骤 3 , 得出 f(q4)=q0。

5. 生成深度 state=f(q4)=q3 , state=f(q4)=q3 ,

为 5 的状态 f(q5)=g(q3, a)=q4。 s'=g(state, a)=q4≠fail, 存在输入的 Failure 状符号 a使得 g(q4, a)≠fail, 但是木 g(q5, a)=fail, 满足条件 (ii), 所以 f(q5)=q4。

6. 生成深度 state=f(q5)=q4 , state=f(q5)=q4 ,

为 6 的状态因为 g(q4, b)=fail,所以执行因为 g(q4, b)=fail , 所以执行的 Failure 状 state=f(state)=f(q4)=q3。 state=f(state)=f(q4)=q3。

木因为 g(q3, b)=fail,所以执行因为 g(q3, b)=fail, 所以执行

state=f(state)=f(q3 )=q2。 state=f(state)=f(q3 )=q2。

因为 g(q2, b)=fail,所以执行因为 g(q2, b)=fail , 所以执行 state=f(state)=f(q2)=q 1。 state=f(state)=f(q2)=q 1。

因为 g(ql, b)=fail,所以执行因为 g(ql , b)=fail , 所以执行 state=f(state)=f(q 1 )=q0。 state=f(state)=f(q 1 )=q0。

f(q6)=g(state, b)=g(qO, f(q6)=g(state, b)=g(q0, b)=q0。 b)=qO。

表 1

按照现有技术生成的 Failure链如图 4所示，对应于图 4 ,按照本发明方法生成的 Failure链如图 7所示。

在上述实施例中，以单个字符的符号为例详细说明了实现 Failure函数的过程，本发明实施例并不限于这种情况，同样可以适用于输入多个字符组成的符号的情况。

可见，利用本发明实施例的方法建立模式匹配状态机时，可以大大减少低效的 Failure链，提高模式匹配处理效率。

本发明实施例还提供了一种建立模式匹配状态机的装置，如图 8所示，该装置包括：获取单元 81、 Goto函数生成单元 82、 Failure函数生成单元 83和 Output函数生成单元 84。其中，获取单元 81用于获取预定义的关键字集合； Goto函数生成单元 82用于根据所述关键字集合生成 Goto函数； Failure函数生成单元 83用于根据生成的 Goto函数构建失败 Failure函数，并使各状态的 Failure状态的可接受输入集不是本状态的可接受输入集的子集，所述状态的可接受输入集表示在所述状态下输入本符号集合内任意符号时，该状态的 Goto 函数不会失败； Output函数生成单元 84用于根据 Goto函数和 Failure函数生成 Output函数。

如图 8所示，在本发明的一种实施例中， Failure函数生成单元 83包括：设置子单元 831、状态获取子单元 832和 Failure状态生成子单元 833。其中，设置子单元 831用于设置所有深度为 1的状态的 Failure 状态为初始状态；状态获取子单元 832用于依次获取前一深度 d-1的状态 r的 Failure状态作为当前状态 state; Failure状态生成子单元 833用于遍历输入符号集，判断在所述当前状态 state输入所述输入符号时 Goto函数是否失败，和所述当前状态 state 输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集是否是状态 s的可接受输入集的子集；并在所述当前状态 state输入所述输入符号时 Goto 函数失败，或者所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集是当前深度 d的状态 s的可接受输入集的子集时，将所述当前状态 state的 Failure状态作为新的所述当前状态继续上述判断；在所述当前状态 state输入所述输入符号时 Goto 函数不是失败，并且所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集不是状态 s的可接受输入集的子集时，将所述当前状态 state输入所述输入符号时 Goto 函数值作为深度为 d的状态 s的 Failure状态；在状态 r输入所有的输入符号， Goto函数均为失败时，结束对状态 r的处理。

Failure状态生成子单元 833可以按照以下过程判断所述当前状态 state输入所述输入符号时的 Goto 函数得到的迁移状态的可接受输入集是否是状态 s 的可接受输入集的子集：

遍历输入符号集，如果存在满足以下条件的符号 b: g(g (state, a), b )≠fail, 并且 g(s, b) = fail, 其中 a是在深度为 d-1的状态 r时的输入符号，则确定所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集不是状态 s的可接受输入集的子集；否则，确定所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集是状态 s的可接受输入集的子集。

如图 8所示，在该实施例的建立模式匹配状态机的装置中，还可以包括第一判断单元 85 ,用于判断所述当前状态 state输入所述输入符号时 Goto函数为 0时，将所述当前状态 state输入所述输入符号时的 Goto函数值作为深度为 d 的状态 s的 Failure状态，除此之外，还可以包括第二判断单元 86, 用于判断在所述当前状态 state输入所述输入符号时 Goto函数不是失败，并且所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集是状态 s的可接受输入集的子集，并且所述当前状态 state为 0时，直接设置深度为 d的状态 s的 Failure状态为 0。

利用本发明实施例的装置建立模式匹配状态机的具体过程与前面对本发明方法的描述类似，在此不再赘述。

利用本发明实施例的装置建立的模式匹配状态机，可以消除模式匹配状态机中低效的 Failure链，提高模式匹配的处理效率。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的装置及方法；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

权利要求

1、一种建立模式匹配状态机的方法，其特征在于，包括：

获取预定义的关键字集合；

根据所述关键字集合生成迁移 Goto函数；

根据生成的 Goto函数构建失败 Failure函数，并使各状态的 Failure状态的可接受输入集不是本状态的可接受输入集的子集，所述状态的可接受输入集表示在所述状态下输入本符号集合内任意符号时，该状态的 Goto函数不会失败；

根据 Goto函数和 Failure函数生成输出 Output函数。

2、根据权利要求 1所述的方法，其特征在于，所述根据生成的 Goto函数构建 Failure函数包括：

设置所有深度为 1的状态的 Failure 状态为初始状态，并用状态 0表示所述初始状态；

依次对深度为 d-1 的状态 r执行以下步骤，以确定深度为 d的状态 s的 Failure状态：

获取深度为 d-1的状态 r的 Failure状态作为当前状态 state,并执行以下步骤：

遍历输入符号集，判断在所述当前状态 state输入所述输入符号时 Goto函数是否失败，和所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集是否是状态 s的可接受输入集的子集，所述输入符号集包含本模式匹配状态机可以使用的所有输入符号；

如果在所述当前状态 state输入所述输入符号时 Goto函数失败，或者所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集是状态 s的可接受输入集的子集，则将所述当前状态 state的 Failure状态作为新的所述当前状态继续上述判断步骤；

如果在所述当前状态 state输入所述输入符号时 Goto函数不是失败，并且所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集不是状态 s的可接受输入集的子集，则将所述当前状态 state输入所述输入符号时 Goto函数值作为深度为 d的状态 s的 Failure状态；如果在状态 r输入所有的输入符号时， Goto函数均为失败，则结束状态 r 的处理。

3、根据权利要求 2所述的方法，其特征在于，所述判断所述当前状态 state 输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集是否是状态 s的可接受输入集的子集的过程包括：

遍历所述输入符号集，如果存在满足以下条件的符号 b: g(g (state, a), b )≠fail, 并且 g(s, b) = fail, 其中 a是在深度为 d-1的状态 r时的输入符号，则确定所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集不是状态 s的可接受输入集的子集；否则，确定所述当前状态 state 输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集是状态 s的可接受输入集的子集。

4、根据权利要求 2或 3所述的方法，其特征在于，所述方法还包括：如果在所述当前状态 state输入所述输入符号时 Goto函数值为 0 , 则将所述当前状态 state输入所述输入符号时的 Goto函数值作为深度为 d的状态 s的 Failure状态。

5、根据权利要求 2或 3所述的方法，其特征在于，所述方法还包括：如果在所述当前状态 state输入所述输入符号时 Goto函数不是失败，并且所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集是状态 s的可接受输入集的子集，并且当前状态 state为 0, 则直接设置深度为 d的状态 s的 Failure状态为 0。

6、一种建立模式匹配状态机的装置，其特征在于，包括：

获取单元，用于获取预定义的关键字集合；

Goto函数生成单元，用于根据所述关键字集合生成 Goto函数；

7、根据权利要求 6所述的装置，其特征在于，所述 Failure函数生成单元包括：

设置子单元，用于设置所有深度为 1的状态的 Failure 状态为初始状态；状态获取子单元，用于依次获取前一深度 d-1的状态 r的 Failure状态作为当前状态 state;

Failure状态生成子单元，用于遍历所述输入符号集，判断在所述当前状态 state输入所述输入符号时 Goto函数是否失败，和所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集是否是状态 s的可接受输入集的子集；并在所述当前状态 state输入所述输入符号时 Goto函数失败，或者所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集是当前深度 d的状态 s的可接受输入集的子集时，将所述当前状态 state的 Failure状态作为新的所述当前状态继续上述判断；在所述当前状态 state 输入所述输入符号时 Goto函数不是失败，并且所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集不是状态 s的可接受输入集的子集时，将所述当前状态 state输入所述输入符号时 Goto函数值作为深度为 d的状态 s的 Failure状态；在状态 r输入所有的输入符号， Goto函数均为失败时，结束对状态 r的处理。

8、根据权利要求 7所述的装置，其特征在于，所述 Failure状态生成子单元按照以下过程判断所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集是否是状态 s的可接受输入集的子集：

遍历所述输入符号集号，如果存在满足以下条件的符号 b: g(g (state, a), b )≠fail, 并且 g(s, b) = fail, 其中 a是在深度为 d-1的状态 r时的输入符号，则确定所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集不是状态 s的可接受输入集的子集；否则，确定所述当前状态 state 输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集是状态 s的可接受输入集的子集。

9、根据权利要求 7或 8所述的装置，其特征在于，所述装置还包括：第一判断单元，用于判断所述当前状态 state输入所述输入符号时 Goto函数为 0时，将所述当前状态 state输入所述输入符号时的 Goto函数值作为深度为 d的状态 s的 Failure状态。

10、根据权利要求 7或 8所述的装置，其特征在于，所述装置还包括：第二判断单元，用于判断在所述当前状态 state输入所述输入符号时 Goto 函数不是失败，并且所述当前状态 state输入所述输入符号时的 Goto函数得到的迁移状态的可接受输入集不是状态 s的可接受输入集的子集，并且所述当前状态 state为 0时，直接设置深度为 d的状态 s的 Failure状态为 0。