WO2016082503A1

WO2016082503A1 - 基于自动机的模式匹配的方法及装置

Info

Publication number: WO2016082503A1
Application number: PCT/CN2015/080174
Authority: WO
Inventors: 李文; 陈娟; 刘青海
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-11-24
Filing date: 2015-05-29
Publication date: 2016-06-02
Also published as: CN105701093A

Abstract

本发明提供了一种基于自动机的模式匹配的方法及装置，方法包括：根据当前输入内容查找SHIFT地址表，得到SHIFT地址值；判断得到的SHIFT地址值是否为零；若SHIFT地址值为零，则根据当前输入内容的前缀计算HASH值，并以HASH值作为索引进入实际匹配的模式子分组，对模式子分组通过蛮力算法或自动机算法进行匹配查找，并且在模式子分组查找完成后，将当前输入内容向前偏移一个长度单位；若SHIFT地址值不为零，则将当前输入内容向后偏移SHIFT地址值个长度单位；判断当前输入内容是否全部扫描完成，若是，则输出匹配结果集；否则跳到根据当前输入内容查找SHIFT地址表的步骤，在保证效率和正确性的前提下，使优化后的算法有一个稳定的匹配性能。

Description

基于自动机的模式匹配的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于自动机的模式匹配的方法及装置。

背景技术

Wu-Manber算法(简称WM算法)由吴升和Udi Manber在九十年代提出，它基于单模匹配算法BM演化而来。WM算法采用块字符(SHIFT)、HASH、前缀表(PREFIX)等技术，达到了比较好的匹配效率。图1为Wu-Manber算法的数据模型，该数据模型包括三个部分，SHIFT地址表、HASH-PATTERNS表(前缀列表)和PREFIX表，其中SHIFT地址表中记录有偏移地址，HASH-PATTERNS表记录有HASH值与模式子分组的对应关系。按照原有技术，模式子分组中的模式链abcde、bcbde会被散列到同一个HASH桶内，这样在匹配的最坏情况下需要扫描长度＝{length(abcde)+length(bcbde)}，最好情况下需要扫描长度＝{模式个数，即每个模式扫描一个字节}，同时还需查找PREFIX表。其中length(abcde)表示模式链abcde的长度。

然而，由于HASH的不稳定性，随着模式数量的增加，HASH冲突加剧，它的匹配效率会发生不同程度的退化，无法满足商用需求。

发明内容

为了解决上述技术问题，发明的实施例提供了一种基于自动机的模式匹配的方法及装置，在保证效率和正确性的前提下，使优化后的算法有一个稳定的匹配性能。

依据本发明的一个方面，提供了一种基于自动机的模式匹配的方法，所述方法包括：根据当前输入内容查找SHIFT地址表，得到SHIFT地址值；判断得到的所述SHIFT地址值是否为零；若所述SHIFT地址值为零，则根据所述当前输入内容的前缀计算HASH值，并以所述HASH值作为索引进入实际匹配的模式子分组，对所述模式子分组按照预设的方式进行匹配查找，并且在所述模式子分组查找完成后，将当前输入内容向前偏移一个长度单位；若所述SHIFT地址值不为零，则将当前输入内容向后偏移所述SHIFT地址值个长度单位；判断所述当前输入内容是否全部扫描完成，若是，则输出匹配结果集；否则跳到所述根据当前输入内容查找SHIFT地址表的步骤。

在本发明实施例中，在所述根据当前输入内容查找SHIFT地址表之前，所述方法还包括：构建跳转用的SHIFT地址表；将一个或多个模式链散列到各个HASH桶中，以链式存储；以HASH桶中的每个模式链作为输入，若模式子分组中仅有一条所述模式链，则使用蛮力算法完成所述模式链的预处理；若模式子分组中的所述模式链的模式数大于1，则使用自动机算法完成所述模式链的预处理。

在本发明实施例中，若需要将多个模式链散列到同一个HASH桶内时，所述将一个或多个模式链散列到各个HASH桶中，以链式存储，包括：将多个模式链散列到同一个HASH桶内；将同一个HASH桶内的模式子分组中多个模式链编译为自动机的图形。

在本发明实施例中，若所述模式子分组为空，则退出当前的所述模式子分组的匹配过程。

在本发明实施例中，所述对所述模式子分组按照预设的方式进行匹配查找，包括：使用蛮力算法对所述模式子分组进行匹配查找当前输入内容；如果匹配成功，则将当前匹配结果加入匹配结果集；否则，退出本次所述模式子分组匹配查找。

在本发明实施例中，所述对所述模式子分组按照预设的方式进行匹配查找，包括：使用自动机算法对当前的所述模式子分组进行匹配查找，如果自动机状态中存在输出，则将当前所有匹配结果加入匹配结果集；如果遇到失效的自动机状态，则退出本次所述模式子分组匹配查找。

依据本发明的另一个方面，还提供了一种基于自动机的模式匹配的装置，所述装置包括：第一匹配模块，设置为根据当前输入内容查找SHIFT地址表，得到SHIFT地址值；第一检测模块，设置为判断得到的所述SHIFT地址值是否为零；第二匹配模块，设置为若所述SHIFT地址值为零，则根据所述当前输入内容的前缀计算HASH值，并以所述HASH值作为索引进入实际匹配的模式子分组，对所述模式子分组通过蛮力算法或自动机算法进行匹配查找，并且在所述模式子分组查找完成后，将当前输入内容向前偏移一个长度单位；若所述SHIFT地址值不为零，则将当前输入内容向后偏移所述SHIFT地址值个长度单位；第二检测模块，设置为判断所述当前输入内容是否全部扫描完成，若是，则输出匹配结果集；否则触发所述第一匹配模块根据当前输入内容查找SHIFT地址表。

在本发明实施例中，所述装置还包括：预处理模块，设置为构建跳转用的SHIFT地址表；将一个或多个模式链散列到各个HASH桶中，以链式存储；以HASH桶中的每个模式链作为输入，若模式子分组中仅有一条所述模式链，则使用蛮力算法完成所述模式链的预处理；若模式子分组中的所述模式链的模式数大于1，则使用自动机算法完成所述模式链的预处理。

在本发明实施例中，所述第二匹配模块设置为使用蛮力算法对所述模式子分组进行匹配查找当前输入内容；如果匹配成功，则将当前匹配结果加入匹配结果集；否则，退出本次所述模式子分组匹配查找。

在本发明实施例中，所述第二匹配模块设置为使用自动机算法对当前的所述模式子分组进行匹配查找，如果自动机状态中存在输出，则将当前所有匹配结果加入匹配结果集；如果遇到失效的自动机状态，则退出本次所述模式子分组匹配查找。

通过本发明的实施例，将HASH桶内的冲突链模式编译为基于自动机算法的图形结构，并省略前缀表的查询，在保证效率和正确性的前提下，使优化后的算法有一个稳定的匹配性能，可以使冲突链中的模式匹配时间复杂度达到线性，而与冲突链中模式条数无关。

附图说明

图1为Wu-Manber算法的数据模型；

图2为本发明的实施例中基于自动机的模式匹配的方法的流程图；

图3为本发明的实施例中改进后的算法数据模型；

图4为本发明的实施例中算法对模式链的预处理过程；

图5为本发明的实施例中子分组模式为蛮力类型时的扫描过程；

图6为本发明的实施例中子分组模式为自动机类型时的扫描过程；以及

图7为本发明的实施例中基于自动机的模式匹配的装置的结构示意图。

具体实施方式

在现有技术中，WM算法采用块字符(SHIFT)、HASH、前缀表(PREFIX)等技术，达到了比较好的匹配效率。但由于HASH的不稳定性，随着模式数量的增加，HASH冲突加剧，它的匹配效率会发生不同程度的退化，无法满足商用需求。例如：当SHIFT地址为零时，HASH桶中冲突链的每个节点都需要查找一次PREFIX表，性能上存在消耗。当模式数量增大到一定程度，如达到万条级规模后，模式的HASH冲突会加剧，造成匹配性能下降明显。由于上述的原因，WM算法在真实的商用场景下，不能展现稳定的匹配性能。

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图2所示，为本发明的实施例中基于自动机的模式匹配的方法的流程图，具体步骤如下：

步骤S201、根据当前输入内容查找SHIFT地址表，得到SHIFT地址值；

在本实施例中，SHIFT地址表(偏移地址表)中记录有SHIFT地址值(偏移地址值)，用于表示当前输入内容的偏移地址。如图3所示，若当前输入内容为“ab”，则在SHIFT地址表中对应查找到的SHIFT地址值为“0”。

步骤S203、判断得到的SHIFT地址值是否为零；若SHIFT地址值为零，进入步骤S205；否则，进入步骤S207；

步骤S205、根据当前输入内容的前缀计算HASH值，并以HASH值作为索引进入实际匹配的模式子分组，按照预设的方式对模式子分组进行匹配查找，然后进入步骤S209；

具体地，在步骤S205中，可以通过蛮力算法或自动机算法对模式子分组进行匹配查找。如图3所示，若当前输入内容为“ab”，则根据当前输入内容的前缀计算得到的HASH值为“oxab”，则可以通过蛮力算法对该模式子分组(abcabe)进行匹配查找；若当前输入内容为“de”，则根据当前输入内容的前缀计算得到的HASH值为“oxde”，由于该模式子分组(abcde和bcbde)被编译为自动机的图形，因此可以通过自动机算法对该模式子分组(abcde和bcbde)进行匹配查找。

在本发明的实施例中，若模式子分组为空，则说明内容不可能发生匹配，则不做任何处理，直接退出当前模式子分组的匹配过程。如图3所示，HASH值为oxfffe对应的模式子分组为空。

步骤S207、将当前输入内容向后偏移SHIFT地址值个长度单位，然后进入后步骤S211；

步骤S209、在模式子分组扫描完成后，将当前输入内容向前偏移一个长度单位，然后进入后步骤S211；

步骤S211、判断当前输入内容是否全部扫描完成，若是，进入步骤S213；否则，进入步骤S201；

步骤S213、输出匹配结果集。

如图3所示，为本发明的实施例中改进后的算法数据模型，可选地，在本实施例中，模式链(abcde、bcbde)被散列到同一个HASH桶内后进一步编译为自动机的图形，这样在匹配的最坏情况下扫描长度＝MAX{length(abcde)，length(bcbde)}，最好情况下需扫描长度＝1。其中MAX{length(abcde)，length(bcbde)}表示最大的模式长度。由此可以看出，改进后的算法，对于冲突链的比较具有良好的稳定性，不会随着冲突链的增加而导致扫描长度的增长。

如图4所示，为本发明的实施例中算法对模式链的预处理过程；

步骤S401，构建跳转用的SHIFT地址表。

具体地，可以使用现有块字符技术，构建跳转用的SHIFT地址表。

步骤S403，将模式链以前缀方式散列到各个HASH桶中，以链式存储。

可选地，可以使用现有HASH技术，将模式链以前缀方式散列到各个HASH桶中，以链式存储。

HASH桶(Hash Bucket):哈希表中同一个位置可能存有多个元素，以应对哈希冲突问题。这样，哈希表中的每个位置表示一个HASH桶(哈希桶)。

步骤S405，以HASH桶中的每个模式链作为输入，若冲突链中仅有一条模式，那么使用蛮力算法完成模式预处理，若冲突链中的模式数大于1，那么以自动机算法完成模式链预处理。如图3所示，HASH值为0xde对应的子分组模式中的冲突链的数量为2个。

在本发明的实施例中，通过改变WM算法对HASH桶中模式冲突链的处理方式，由简单的链式方式修改为基于自动机的图形结构，而对于桶内只存在单条模式的情况，仍然采用蛮力算法，以节省存储空间。

如图5所示，为本发明的实施例中子分组模式为蛮力类型时的扫描过程，步骤如下：

步骤S501，使用蛮力算法对模式子分组进行匹配查找当前输入内容，如果扫描到模式尾，则说明匹配成功，执行步骤S503，如果遇到不匹配字符则说明匹配失败，终止当前扫描，执行步骤S507。

步骤S505，此次匹配成功，则将当前匹配结果加入匹配结果集。

步骤S507，此次匹配结束，退出本次模式子分组扫描。

如图6所示，为本发明的实施例中子分组模式为自动机类型时的扫描过程，具体步骤如下：

步骤S601，使用自动机算法对当前的所述模式子分组进行匹配查找，如果自动机状态中存在输出，则说明有匹配成功的模式，执行步骤S603，如果遇到失效的自动机状态则说明匹配失败，终止当前扫描，执行步骤S605。

步骤S603，有匹配的模式，将当前所有匹配结果加入匹配结果集。

步骤S605，此次匹配结束，退出本次模式子分组匹配查找。

如图7所示，为本发明的实施例中基于自动机的模式匹配的装置的结构示意图，该装置700包括：

第一匹配模块701，设置为根据当前输入内容查找SHIFT地址表，得到SHIFT地址值；

第一检测模块703，设置为判断得到的所述SHIFT地址值是否为零；

第二匹配模块705，设置为若所述SHIFT地址值为零，则根据所述当前输入内容的前缀计算HASH值，并以所述HASH值作为索引进入实际匹配的模式子分组，对所述模式子分组按照预设的方式进行匹配查找，并且在所述模式子分组查找完成后，将当前输入内容向前偏移一个长度单位；若所述SHIFT地址值不为零，则将当前输入内容向后偏移所述SHIFT地址值个长度单位；

第二检测模块707，设置为判断所述当前输入内容是否全部扫描完成，若是，则输出匹配结果集；否则触发所述第一匹配模块根据当前输入内容查找SHIFT地址表。

可选地，在本发明的另一个实施例中，装置还包括：

预处理模块，设置为构建跳转用的SHIFT地址表；将一个或多个模式链散列到各个HASH桶中，以链式存储；以HASH桶中的每个模式链作为输入，若模式子分组中仅有一条所述模式链，则使用蛮力算法完成所述模式链的预处理；若模式子分组中的所述模式链的模式数大于1，则使用自动机算法完成所述模式链的预处理。

可选地，在本发明的另一个实施例中，所述第二匹配模块进一步设置为使用蛮力算法对所述模式子分组进行匹配查找当前输入内容；如果匹配成功，则将当前匹配结果加入匹配结果集；否则，退出本次所述模式子分组匹配查找。

可选地，在本发明的另一个实施例中，所述第二匹配模块设置为使用自动机算法对当前的所述模式子分组进行匹配查找，如果自动机状态中存在输出，则将当前所有匹配结果加入匹配结果集；如果遇到失效的自动机状态，则退出本次所述模式子分组匹配查找。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

工业实用性

如上所述，通过上述实施例及优选实施方式，将HASH桶内的冲突链模式编译为基于自动机算法的图形结构，并省略前缀表的查询，在保证效率和正确性的前提下，使优化后的算法有一个稳定的匹配性能，可以使冲突链中的模式匹配时间复杂度达到线性，而与冲突链中模式条数无关。

Claims

一种基于自动机的模式匹配的方法，所述方法包括：

根据当前输入内容查找SHIFT偏移地址表，得到SHIFT偏移地址值；

判断得到的所述SHIFT地址值是否为零；

若所述SHIFT地址值为零，则根据所述当前输入内容的前缀计算HASH哈希值，并以所述HASH值作为索引进入实际匹配的模式子分组，按照预设的方式进行匹配查找，并且在所述模式子分组查找完成后，将当前输入内容向前偏移一个长度单位；

若所述SHIFT地址值不为零，则将当前输入内容向后偏移所述SHIFT地址值个长度单位；

判断所述当前输入内容是否全部扫描完成，若是，则输出匹配结果集；否则跳到所述根据当前输入内容查找SHIFT地址表的步骤。
如权利要求1所述的方法，其中，在所述根据当前输入内容查找SHIFT地址表之前，所述方法还包括：

构建跳转用的SHIFT地址表；

将一个或多个模式链散列到各个HASH桶中，以链式存储；

以HASH桶中的每个模式链作为输入，若模式子分组中仅有一条所述模式链，则使用蛮力算法完成所述模式链的预处理；若模式子分组中的所述模式链的模式数大于1，则使用自动机算法完成所述模式链的预处理。
如权利要求2所述的方法，其中，所述将一个或多个模式链散列到各个HASH桶中，以链式存储，包括：

将多个模式链散列到同一个HASH桶内；

将同一个HASH桶内的模式子分组中多个模式链编译为自动机的图形。
如权利要求1所述的方法，其中，若所述模式子分组为空，则退出当前的所述模式子分组的匹配过程。
如权利要求1所述的方法，其中，所述对所述模式子分组按照预设的方式进行匹配查找，包括：

使用蛮力算法对所述模式子分组进行匹配查找当前输入内容；

如果匹配成功，则将当前匹配结果加入匹配结果集；否则，退出本次所述模式子分组匹配查找。
如权利要求1所述的方法，其中，按照预设的方式进行匹配查找，包括：

使用自动机算法对当前的所述模式子分组进行匹配查找；

如果自动机状态中存在输出，则将当前所有匹配结果加入匹配结果集；如果遇到失效的自动机状态，则退出本次所述模式子分组匹配查找。
一种基于自动机的模式匹配的装置，所述装置包括：

第一匹配模块，设置为根据当前输入内容查找SHIFT地址表，得到SHIFT地址值；

第一检测模块，设置为判断得到的所述SHIFT地址值是否为零；

第二匹配模块，设置为若所述SHIFT地址值为零，则根据所述当前输入内容的前缀计算HASH值，并以所述HASH值作为索引进入实际匹配的模式子分组，对所述模式子分组按照预设的方式进行匹配查找，并且在所述模式子分组查找完成后，将当前输入内容向前偏移一个长度单位；若所述SHIFT地址值不为零，则将当前输入内容向后偏移所述SHIFT地址值个长度单位；

第二检测模块，设置为判断所述当前输入内容是否全部扫描完成，若是，则输出匹配结果集；否则触发所述第一匹配模块根据当前输入内容查找SHIFT地址表。
如权利要求7所述的装置，其中，所述装置还包括：

预处理模块，设置为构建跳转用的SHIFT地址表；将一个或多个模式链散列到各个HASH桶中，以链式存储；以HASH桶中的每个模式链作为输入，若模式子分组中仅有一条所述模式链，则使用蛮力算法完成所述模式链的预处理；若模式子分组中的所述模式链的模式数大于1，则使用自动机算法完成所述模式链的预处理。
如权利要求7所述的装置，其中，所述第二匹配模块设置为使用蛮力算法对所述模式子分组进行匹配查找当前输入内容；如果匹配成功，则将当前匹配结果加入匹配结果集；否则，退出本次所述模式子分组匹配查找。
如权利要求7所述的装置，其中，所述第二匹配模块设置为使用自动机算法对当前的所述模式子分组进行匹配查找，如果自动机状态中存在输出，则将当前所有匹配结果加入匹配结果集；如果遇到失效的自动机状态，则退出本次所述模式子分组匹配查找。