WO2011085577A1

WO2011085577A1 - 对报文进行分类的方法及装置

Info

Publication number: WO2011085577A1
Application number: PCT/CN2010/074575
Authority: WO
Inventors: 张文勇; 龚钧; 刘淑英; 陈洪飞
Original assignee: 华为技术有限公司
Priority date: 2010-06-28
Filing date: 2010-06-28
Publication date: 2011-07-21
Also published as: EP2582096A4; CN102308533B; US8732110B2; EP2582096B1; CN102308533A; EP2582096A1; US20130166491A1

Description

对报文进行分类的方法及装置技术领域

本发明涉及通信技术领域，尤其涉及一种对报文进行分类的方法及装置。背景技术

流分类，即对接收到的报文进行分类，是路由器的关键功能之一；它为路由器的网络安全、 QoS ( Quality of Service, 服务质量）、负载平衡、流量计数等复杂的增值服务提供技术保障。

基于决策树的流分类方法，其基本思想是：采用某种切分策略递归地将规则集分开，直到每个子规则集中的规则数都小于预先设定的 Bucket Size (桶深）；通过切分可以建立一棵决策树，决策树的中间结点保存切分规则集所使用的方法，叶子结点保存子规则集，也就是说，叶子结点中保存着所有可能的匹配规则。

在对接收到的报文进行分类时，首先从报文头中抽出相关的域组成关键字，然后使用关键字遍历已经建立好的决策树，将关键字跟叶子结点中的规则进行比较，最终可以得到与报文匹配且优先级最高的规则。基于决策树的算法有 HiCuts (一维切分）、 HyperCuts (多维切分）和 Modular (选位切分）等。

然而在以上这些基于决策树的流分类方法中，由于规则中通配符的存在，导致规则的复制很难避免，进而造成内存占用量增加、切分效率较低等问题。

针对上述问题，现有技术中存在如下对基于决策树的流分类方法进行改进的方案：首先将原始规则集划分成若干个互相不重叠的子规则集，然后再对得到的子规则集构建决策树。

上述将原始规则集划分成若干子规则集的过程可以通过如下方式实现： 1 )才艮据前缀对规则集进行分类；例如，在对标准 Ipv4五元組规则进行分类时，就可以考虑依据其中的源 IP和 /或目的 IP地址的前缀对规则进行分类； 2 )根据范围对规则进行分类；例如，在对标准 Ipv4五元组规则进行分类时，可以依据源端口和 /或目的端口的范围对规则进行分类；

如果仅针对一个域对原始规则集进行划分，则上述 1 )和 2 ) 中得到的子类即为所需要的子规则集。而如果原始规则集中存在多个域，例如上述 Ipv4 五元组规则可能就需要针对 5个域进行划分；此时，可以根据交叉积方法将根据不同分类方法所得到的子类进行不同的组合，得到多个互不重叠的子规则集。假设要根据一个地址域和一个端口域对原始规则集进行划分，首先可以用上面 1 )和 2 ) 中介绍的方法将原始规则集分别划分为 si和 s2个子类，然后用交叉积的方法就可以将原始规则集划分为 si * s2个子规则集。

通过上述改进后的基于决策树的流分类算法，可以将原始规则集划分为 "完全"不重叠的子规则集，从一定程序上減少规则的复制；不过，在利用上述改进后的流分类算法进行报文分类的过程中，发明人发现现有技术中至少还存在如下问题：

规则是否出现复制取决于，在切分时规则在用于切分的位中是否存在通配符' *，，并不是取决于规则的域之间是否重叠；因此，上述方案仅适用于完全按照域进行切分的流分类算法中。

发明内容

本发明的实施例提供一种对报文进行分类的方法及装置 , 用以減少分类过程中的规则复制，提高分类效率。

为达到上述目的 , 本发明的实施例采用如下技术方案：

一种对报文进行分类的方法，包括：

接收报文；

在已创建的至少一个决策树中查找与所述报文相匹配的规则，所述决策树为基于分段码对原始规则集进行划分后进而创建的决策树；

根据查找到的所述规则对所述报文进行分类处理。一种对报文进行分类的装置，包括：

接收单元，用于接收报文；

查找单元，用于在已创建的至少一个决策树中查找与所述 #艮文相匹配的规则，所述决策树为基于分段码对原始规则集进行划分后进而创建的决策树；分类单元，用于根据查找到的所述规则对所述报文进行分类处理。

本发明实施例提供的对报文进行分类的方法及装置，由于其在进行规则查找过程中所利用的决策树是基于分段码对原始规则集进行划分后进而创建的决策树，而使用分段码对规则集进行划分不仅可以减少规则的复制，而且可以使决策树的深度、内存占用量和建树时间都大大降低；因此，利用本发明实施例中提供的方案进行规则查找时，可以在保持查找带宽不变的前提下，大大提高查找、分类等处理过程的速度。与现有技术相比，本发明实施例中提供的方法及装置，可以减少分类过程中的规则复制，提高分类效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1为规则集切分示意图；

图 2为本发明实施例一中的对报文进行分类的方法的流程图；

图 3为本发明实施例二中的对报文进行分类的方法的流程图；

图 4为本发明实施例二中的对规则集进行划分的流程图；

图 5为本发明实施例四中的对报文进行分类的装置的结构示意图；图 6为本发明实施例五中的对报文进行分类的装置的结构示意图；图 Ί为本发明实施例五中的划分单元的结构示意图。

具体实施方式

在基于决策树的流分类过程中，规则中通配符 (指某一个二进制位为 '*，）的数量和位置决定了在构建决策树过程中，是否容易导致规则复制。由于通配符 '*，的数量不同导致规则复制的情况在前述部分中已有描述，这里再解释一下的位置对规则复制的影响。在表 1、表 2所示的两个例子中， '*' 的个数完全相同，只是在规则中出现的位置不同。对于表 1中的 4 条规则出现的位置完全相同，因此在对表 1中的规则集进行切分时，只需要选择第一维（Diml ) 的前两位将规则集切分为 4个子规则集；每个子规则集包含一条规则，并且没有规则复制，如图 1 (a)所示。对于表 2中的规则， '*，的位置交叉出现；这时，无论选择哪一位进行切分都会导致规则的复制。例如，选择第一维（Diml ) 的第一位和第二维（Dim2 ) 的第一位进行切分，可以将表 2中的规则集切分为 4个子规则集，而每个子规则集中都有 2条规则，如图 1(b)所示。由上可知，虽然在表 1和表 2所示的两个例子中的个数都完全相同，但规则复制的程度却相差甚远。

对于一个规则集，如果选择某些位进行切分时不会导致复制，我们就称这个规则集中的规则是匹配的；如果无论选择哪一位进行切分都会导致复制，就称该规则集中的规则是不匹配的。在图 1所对应的示例中，表 1中的 4条规则就是匹配的；表 2中的 4条规则就是不匹配的。而且，对于匹配规则，切分时不会导致复制的可选位越多，则相互匹配的程度越高，在创建决策树的过程中越不容易导致复制。

为了更好地描述规则之间的匹配性，下面我们引入规则分段的思想。首先，我们将每条规则可以看作一个由 '0，， '1 ', 和' *，组成的三值位串。如果将每条规则对应的位串分为 N ( N > 2 )段，并统计每一段中' *，的个数，则该段中 '*，的数量主导着在使用该段中的位进行切分时，该规则是否容易被复制。当一条规则的某一段中 '*，的个数超过某个阔值 t时 (比如一段规则中包含 16位字符，当' *，的个数超过 8时)，就可以认为该段中的位对于该规则是 "坏" 的，即用该段中的位进行切分时，该规则容易被复制，或者说有较大的被复制的趋势；否则就认为该段中的位对于该规则是 "好" 的。通过统计每条规则中哪些段是 "好" 的，哪些段是 "坏" 的，可以对每条规则中的个数和位置有一个大概的了解，并依此作为划分规则集的依据。

具体地，每条规则都是由 '0，、 '1，和' *'组成的三值位串，即在每条规则中包含有多位字符' 0，、 '1，和' *，；以其中至少两位字符为一段，将每条规则对应的位串分为 N段，当某一段中' *'的个数超过某个阈值 t时，称该段为 "坏" 的，将其编码为 0; 否则，称该段为 "好" 的，编码为 1。这样，每条规则就对应一个 N位的二进制码，称为分段码。下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

如图 2所示，本发明实施例提供的对报文进行分类的方法，包括：

201、接收报文。

路由器可以接收来自网络的多个报文，然后由流分类器对报文中的多个域进行检查，以便查找与所述 4艮文相匹配的规则。

202、在已创建的至少一个决策树中查找与所述文相匹配的规则，所述决策树为基于分段码对原始规则集进行划分后进而创建的决策树。

基于分段码对原始规则集进行划分后进而创建的决策树在创建时，同时考虑通配符 '*，的数量和位置，相比于通过现有方法创建的决策树，其出现规则复制的情况更少，且决策树的深度较现有的决策树要小，因此利用本实施例中的基于分段码对原始规则集进行划分后进而创建的决策树可以缩短查找与所述报文相匹配的规则的时间，提高分类效率。

203、根据查找到的所述规则对所述报文进行分类处理。

在步骤 203 中，可以认为与同一条规则相匹配的所有报文属于一类，而针对不同类的报文其处理方式可能是不一样的，例如所述处理可以是丢弃、接受、计数等。

在本实施例中，上述各步骤的执行主体可以是路由器、或者集成在路由器内部的流分类引擎。

本发明实施例提供的对报文进行分类的方法，由于其在进行规则查找过程中所利用的决策树是基于分段码对原始规则集进行划分后进而创建的决策树，而使用分段码对规则集进行划分不仅可以减少规则的复制，而且可以使决策树的深度、内存占用量和建树时间都大大降低；因此，利用本发明实施例中提供的方案进行规则查找时，可以在保持查找带宽不变的前提下，大大提高查找、分类等处理过程的速度。

实施例二：

下面将以一具体实施例来对本发明实施例中提供的对报文进行分类的方法进行详细描述。不过在对所述方法的实现过程进行详述之前，可以先介绍以下几个 f既念：

1 )通过上面的描述可知，分段码是根据规则中的数量和位置而确定的 N位二进制码。具体地，在每条规则中包含有多位字符' 0，、 T和' *，；以其中至少两位字符为一段，将每条规则对应的位串分为 N段，当某一段中' *，的个数超过某个阔值 t时，称该段为 "坏"的，将其编码为 0; 否则，称该段为 "好" 的，编码为 1。这样，每条规则就对应一个 N位的二进制码，称为分段码。

在实际的规则中 , 比如 Ipv4标准 5元组规则，各个域都可以用前缀或范围来表示。源 IP和目的 IP地址自然就用前缀表示；对于协议号，可以看作掩码长度为 0 (该域为 '*' )或 8的前缀；端口号用范围表示。

对于前缀，通过掩码长度就可以判断对应的字符段是 "好" 的还是 "坏" 的。比如，对于包含 32位二进制码的 IP地址来说，以 16位作为一段，则源 IP可以分为 2段，对应 2个二进制位来作为其分段码；当一段中 '*，的个数超过 8 时，就认为该段为 "坏" 的。这样，当某条规则的源 IP 的掩码长度 maskLen < 8时，源 IP对应的分段码中的两个二进制位为 00; 当 8 maskLen < 24时，编码为 10; 当 maskLen > 24时，编码为 11。

对于范围，可以用范围的长度判断某一段是 "好" 的，还是 "坏" 的。范围（如协议号）的上下限一般都是 16位的二进制数。我们可以将一个范围域作为一段，如果某个范围的长度大于阈值 L, 则称该段是 "坏" 的，编码为 0；否则，称其为 "好" 的，编码为 1。 L优选地跟前缀中的个数的阔值 t相对应，其关系为 t = log₂L。这样，有利于后面计算子规则集的最低匹配级别。

分段时，各段的长度及阈值也不一定相同。比如对于 Ipv4标准 5元组规则 ,可以将源 IP和目的 IP中每 16位分为一段，从而分别将源 IP和目的 IP分为两段，的个数的阈值为 8; 源端口和目的端口用范围表示，各作为一个段，范围长度阈值为 256; 协议号用 8位二进制表示，作为一个段， '*' 的个数的阔值为小于 8 的正整数（对应特定的协议号和 '*，两种情况）。这样，规则就被分为 7段，分段码用 7位二进制数表示。

2 )如果两个分段码进行按位与运算（AND操作 )之后的结果为 0, 表示两个分段码不匹配；否则表示匹配。相互匹配的分段码称为匹配分段码。

两个匹配分段码进行按位与操作后，结果的二进制表示中 1 的个数定义为该两个分段码的匹配级别。

例如，任取两个分段码 A和 B , 如果（ A&B ) == 0 , 则 A和 B不匹配；否则 A和 B匹配，且匹配级别 = ( A&B )的二进制表示中 1的个数。对于不匹配的分段码，我们也说其匹配级别为 0。如果分段码 A和 B匹配，则称 A 是 B的匹配分段码，同时 B也是 A的匹配分段码。分段码之间的匹配级别越高，与这些分段码关联的规则在一起时越容易切分，也就是说利用这些分段码进行规则切分时出现复制的趋势越小。

3 )在使用分段码进行规则集划分时，需要先选定一个分段码，然后计算所有的分段码跟该分段码的匹配级别，并将分段码按照匹配级别分类。在此，被选定的分段码称为种子分段码。

选定种子分段码之后，可以计算其它分段码跟种子分段码的匹配级别。在计算匹配级别之后，可以为各个分段码设定优先级次序。方式如下：

( 1 ) 匹配级别越高，优先级越高；

( 2 )如果匹配级别相同，对应的规则数越多，优先级越高。

4 )多个分段码依次连续按位与之后的结果称为这些分段码的公共匹配分段码。

例如，存在多个分段码 A、 B、 C、 D, 则计算这四个分段码的公共匹配分段码时，需要先将 A和 B进行按位与运算，然后将 A和 B的按位与结果与 C进行按位与运算，后面依次类推，从而得到 A、 B、 C、 D的公共匹配分段码。

假设跟 N个分段码相对应的规则组成的子规则集为 S , 则这 N个分段码的公共匹配分段码反映了 S 中的规则之间的匹配程度。公共匹配分段码中 1 的个数越多，说明 S中的规则之间的匹配程度越高；在对 S进行切分时，就有越多的位可以选择而不容易导致规则的复制。

同时，公共匹配分段码反映了对子规则集创建决策树时，选择哪些位进行切分不易导致规则复制。如果分段码中的某一位为 1，且跟该位对应的段中包含 k位字符，而判断该段是 "好" 的还是 "坏" 的所用的的数量的阈值为 t，则使用该段中的前（k - t )位对规则集进行切分时，不易导致规则复制。在 Modular算法中，我们可以使用公共匹配分段码中为 1的位所对应的段中的前（k-t )位建立更有效的 jump table (跳转表）。在选位时，也可以优先选择这些不易导致规则复制的位。在 HiCuts和 HyperCuts算法中，可以根据公共匹配分段码优先选择那些不易导致规则复制的维（对应某些分段 ) 中的位进行切分，从而使切分更高效。

下面将以上述基本概念为基础 , 详细介绍本实施例中提供的对报文进行分类的方法。

在本实施例中，所述对文进行分类的方法，如图 3 所示，具体包括以下步驟：

301、根据分段码将原始规则集划分成至少两个子规则集。

为了能够減少复制，同时使决策树的深度减小、缩短建树时间，需要对原始规则集进行划分，使其分成多个子规则集；然后，再对所述多个子规则集分别构建决策树。

具体地，所述根据分段码将原始规则集划分成至少两个子规则集的过程，如图 4所示，可以通过以下步骤来实现：

S 11、以至少两位字符为一段对所述原始规则集中的每条规则进行分段，并计算每条规则对应的分段码。

如果将所述原始规则集中的一条规则分成了 N ( N > 2 )段，则这条规则对应的分段码就是一个 N位的二进制码。

512、在得到了每条规则对应的分段码之后，统计相同的分段码对应的规则数量，并按照所述规则数量从高到低的次序对所述分段码进行排序。

在本步骤中，当然还可以是按照所述分段码对应的规则的数量从低到高的次序对所述分段码进行排序；具体的排序方式可以根据实际执行过程中的需要来确定。

513、在所述按照规则数量进行排序后的分段码中选应规则数量最多的分段码作为种子分段码，与按照规则数量排序后的其它分段码两两进行按位与操作；统计按位与结果中 1的个数，按照所述按位与结杲中 1的个数的多少对所述分段码进行分类排序。

在步骤 S13 中，之所以选对应规则数量最多的分段码作为种子分段码，是为了尽快地把大部分的规则分离出来。这样，种子分段码不仅仅本身对应的规则数多，而且一般情况下跟它匹配的分段码也较多。

通过前面的描述可知，两个分段码进行按位与运算后得到的二进制结果中， 1的个数即为这两个分段码之间的匹配级别。那么，在步骤 S 13中，就是以其他分段码与所述种子分段码之间的匹配级别对所得到的全部分段码进行排序。所述分段码之间的匹配级别反映了规则切分时的复制的趋势，即当所述的匹配级别越高，则规则切分时的复制的趋势越小，反之亦然。

S 14、将所述按照匹配级别排序后的、且匹配级别不为 0的分段码依次进行连续按位与操作，并在连续按位与的结杲中 1的个数小于最低匹配级别时，将最后一个参与连续按位与的分段码归入到匹配级别为 0的类别中。

其中，将匹配级别不为 0的分段码依次进行连续按位与操作，指的是：依次将所述匹配级别不为 0 的分段码中、前面所有分段码的按位与结果与后面一个分段码进行按位与运算 , 直至得到全部分段码相按位与后的结果。

在所述依次进行连续按位与操作的过程中，所有可能使按位与结果中 1 的个数、于最低匹配级别的分段码都被归入到了与种子分段码的匹配级别为

0 的类别中；那么剩余的分段码进行连续按位与操作后得到的最终结果也就是，与种子分段码之间的匹配级别大于 0的类别中所有分段码的公共匹配分段码。

此外，还应该将计算得到的所述匹配级别大于 0的分段码的公共匹配分段码进行保存。

在步骤 S14中，所述最低匹配级别可以通过如下公式计算得到：

其中，符号 "「，" 代表向上取整； k为分段码的每个二进制位对应的字符数； t为分段后可用于规则切分的字符段中包含的通配符的最大值，也就是一段字符中 '*，的数量的阈值； num ules为划分前原始规则集中的规则数； bucketSize为所述决策树的叶子结点中保存的最大规则数； f为所述决策树中平均每个叶子结点的利用效率，该值在决策树创建之前很难得到精确的结果，因此可以根据经验值来设定。

一个规则集的最低匹配级别反映了该规则集中，可以用于切分而不易导致复制的位的多少。当规则数较少时，只需要较少的位就可以将它们分开，这时可以将最低匹配级别设得'、一些；当规则数很多时，需要用很多位才能切分开，这时需要把最低匹配级别设得高一些。比如，设定一段中' *，的个数超过 8时，该段对应的位为' 0，。假设在一个规则集中，规则之间的最低匹配级别是 1 , 那么这些规则在用不超过 8位进行切分时规则的复制程度较小，但当需要用更多的位进行切分时，还是可能导致较多复制。这种情况可以通过提高规则集的最低匹配級别来解决。

515、将所述匹配级别大于 0的分段码对应的规则归入到第一子规则集。同时，可以将步骤 S14中得到的所有匹配级别大于 0的分段码的公共匹配分段码和最低匹配级别作为所述第一子规则集的属性进行保存。

516、在所述匹配级别为 0的分段码所对应的规则数小于等于第一阔值时，将所述匹配级别为 0的分段码对应的规则归入到第二子规则集，并结束规则集的继续划分；在所述匹配级别为 0 的分段码所对应的规则数大于所述第一阈值时，从所述匹配级别为 0的多个分段码中重新选取对应规则数量最多的一个分段码，返回步骤 S13 , 以对所述匹配级别为 0的所有分段码继续划分。

其中，所述第一阔值可以是但不限于每个叶子结点中可容纳的规则数的倍数，例如 n*bucketSize， n > 2; 在所述匹配级别为 0的分段码所对应的规则数小于等于 n*bucketSize时，可以认为此时剩余的规则数较少，可以不必要进一步对规则集进行划分。

如果在判断规则划分是否可以结束时，涉及到两个阔值的话，则可以通过以下方式来确定剩余的匹配级别为 0 的分段码应该归入的子规则集。具体地，

在所述匹配级别为 0的分段码所对应的规则数小于等于第一阈值且大于笫二阁值时，这里的第二阈值要小于所述第一阈值，其可以是但不限于每个叶子结点中可容纳的规则数，此时可以将所述匹配级别为 0的分段码对应的规则归入到第二子规则集，以针对不同的子规则集构建不同的决策树，减低每个决策树的深度；

而在所述匹配级别为 0的分段码所对应的规则数小于等于所述第二阈值时，由于剩余的匹配级别为 0的分段码所对应的规则数很小，因此可以将所述匹配级别为 0 的分段码对应的规则归入到所述第一子规则集中；这种划分方案适用于原始规则集本身就比较小的情况，根据所述第一子规则集构建的决策树的深度不会很大，对分类过程中的查找速率影响不大。

通过上述方法，对于一些规则之间匹配很好的规则集，不必划分或划分的子规则集数 I较少；而对于匹配不好的规则集，可以划分成较多的子规则集。这样，可以实现规则集的按需划分。

另外，也可以事先设定要产生的子规则集的数目；比如，可以设置将原始规则集划分成 2个子规则集。这样，在步骤 S16中，即使在所述匹配级别为 0的分段码所对应的规则数大于所述第一阈值时，只要

已经产生的子规则集数 =预先设定的子规则集数 - 1

那么，就可以结束规则集划分，将匹配级别为 0的规则直接作为一个新的子规则集。

在完成了步骤 S11至 S16之后，基本上可以将所述原始规则集划分成至少两个子规则集。

在上述根据分段码将原始规则集划分成至少两个子规则集的过程中，还可以将步骤 S13和步骤 S14进行合并，即：以步骤 S13中得到的按位与结果中 1的个数与最低匹配级别进行比较，具体地，当步骤 S13中的当按位与结果中 1 的个数小于最低匹配级别时，则将当前与种子分段码进行按位与操作的分段码归入到匹配级别为 0的类别中。此时相当于仅以其他分段码与所述种子分段码之间的匹配级别作为判断标准，来对规则集进行划分。

302、针对步骤 301中得到的至少两个子规则集分别构建决策树，并对其进行保存。

在路由器对报文进行分类的过程中，上述步骤 301和 302不必要在每次进行分类时都执行；只要在路由器中已经保存有所述基于分段码对原始规则集进行划分后进而创建的决策树，则在后续的分类过程中可以直接将上述两个步驟跳过。

303、接收报文。

路由器可以接收来自网络的多个报文，然后由流分类器对报文中的多个域进行检查，以便查找与所述报文相匹配的规则。

304、在已创建的至少一个决策树中查找与所述报文相匹配的规则，所述决策树为步骤 302中基于分段码对原始规则集进行划分后进而创建的决策树。

305、根据查找到的所述规则对所述报文进行分类处理。

在步骤 305 中，可以认为与同一条规则相匹配的所有报文属于一类，而针对不同类的报文其处理方式是不一样的，例如所述处理可以是丟弃、接受、计数等。

本发明实施例中提供的对报文进行分类的方法，通过确定不同的规则对应的分段码，并从其中选取出种子分段码，继而根据其他分段码与所述种子分段码之间的匹配级别以及预先设定的最低匹配分段码来对分段码进行分类，以实现原始规则集的划分，从而得到至少两个子规则集并构建至少两个决策树；之后，就可以根据所述已构建的决策树对接收到的报文进行分类处理。使用本实施例中提供的方法，尤其是利用分段码对原始规则集进行划分的过程，不仅可以减少规则的复制，在进行规则集切分时准确地选位，从而使决策树的深度、内存占用量和建树时间都大大降低，提高划分规则集的处理速度，而且在对报文进行分类时，也可以降低规则查找时间，提高分类效率。

实施例三：

为了更好地理解上述实施例二中描述的对原始规则集进行划分的过程，在本实施例中将给出一个具体的实例来加以说明。

如表 3中所示，原始规则集中有 10条 2维规则，每条规则的位数是 8。所述规则由 '0，、 T和' *，组成的三值位串表示。设置每 8位为一段，当每段中' *，的个数大于 4时，所述段的编码为' 0' , 否则所述段的编码为' Γ。

表 3

在本实施例中 , 所述原始规则集划分的结束条件设置如下：

i)将所述原始规则集最多划分为 2个子规则集；

ii) 当所述子规则集中的匹配级别为 0的规则数小于等于 2时，无须继续划分；

iii)当匹配级别为 0的规则数大于 2且小于等于 4时，则可以直接把所述子规则集中的匹配级别为 0的规则作为一个新的子规则集。

由于表 3中所示的规则数较少，因此，可以设置最低匹配级别为 1。在设置好所述结束条件后，规则集的划分方法如下所示： 521、计算表 3中所示的每条规则的分段码；结果如表 3的最后一列所示。

522、将所述分段码按规则数从高到低的次序排序（如表 4所示）。

表 4

S23、由于所述分段码中规则数最多的分段码为 'Ι Γ , 因此将分段码 '11，作为种子分段码，并找出与所述分段码 '11' 相匹配的所有分段码，同时根据所述其他每个分段码与种子分段码 '11，之间的匹配级别进行分类 (如表 5 所示）。

表 5

S24、将表 5中的匹配级别不为 0的分段码依次进行连续按位与操作，在连续按位与结果中 1 的个数小于最低匹配级别时，将最后参与连续按位与操作的分段码移到匹配级别为 0的类别中。如表 6所示，分段码 01和 10不匹配，而分段码 01对应的规则数较多 , 因此分段码 01先与分段码 11进行按位与操作，得到结果 01 , 进而以结果 01与分段码 10进行按位与操作，在进行了第二次按位与后的结果中 1 的个数小于最低匹配级别 1; 因此，将分段码 10移到匹配级别为 0的类别中。

表 6

S25、将匹配级别大于 0的分段码（ 11和 01 )对应的规则归入到一个子规则集；同时记录下它们的公共匹配分段码为 01。

S26、如表 6所示，匹配级别为 0的规则数为 3 , 满足条件 iii), 即当匹配级别为 0的规则数大于 2且小于等于 4时，则可以直接把所述子规则集中的匹配级别为 0的规则作为一个新的子规则集；所以将匹配级别为 0的规则归入到一个新的子规则集。

根据所述以上步骤对原始规则集进行划分，则可以把原始规则集分为两个子规则集；并根据公共匹配分段码（01 )可知，当用第二维的前 4位对第一个子规则集进行切分时，则不会有规则复制。

本发明实施例提供的方案，根据分段码来对规则集进行划分进而创建决策树，能够同时考虑每条规则中通配符 '*，的数量和位置对规则划分的影响，使得构建决策树的时候可以选取适当的位对规则进行切分，这样可以有效地减少规则的复制，缩短了建树时间，提高内存的利用率。

实施例四：

对应于上述实施例一中的对报文进行分类的方法，本发明实施例提供了一种用于对报文进行分类的装置，如图 5所示，该装置包括：

接收单元 51，用于接收报文，所述报文可以是来自网络的多个报文；查找单元 52, 用于在已创建的至少一个决策树中查找与所述报文相匹配的规则，所述决策树为基于分段码对原始规则集进行划分后进而创建的决策树；

分类单元 53 , 用于根据查找到的所述规则对所述报文进行分类处理；这里所说的处理，可以是针对不同类别的报文需执行的操作，例如丟弃、接受、计数等。

本实施例中的对报文进行分类的装置，可以是路由器，也可以是集成在路由器中的流分类引擎。

本发明实施例提供的对报文进行分类的装置，由于其在进行规则查找过程中所利用的决策树是基于分段码对原始规则集进行划分后进而创建的决策树，而使用分段码对规则集进行划分不仅可以减少规则的复制，而且可以使决策树的深度、内存占用量和建树时间都大大降低；因此，利用本发明实施例中提供的方案进行规则查找时，可以在保持查找带宽不变的前提下，大大提高查找、分类等处理过程的速度。

实施例五：

下面将以一具体实施例来对本发明实施例中提供的对报文进行分类的装置进行详细描述。

在本实施例中，所述对报文进行分类的装置，如图 6所示，包括：接收单元 61、查找单元 62和分类单元 63，以及划分单元 64和建树单元 65;其中，划分单元 64, 用于根据分段码将原始规则集划分成至少两个子规则集；其中，所述分段码指的是将一条规则分成 Ν ( Ν > 2 )段后，根据每一段中通配符 '*' 的数量确定的代表所述规则的 Ν位二进制码，其具体的确定方式参见实施例二中的描述，这里不再详述。

建树单元 65，用于针对所述划分单元 64划分得到的至少两个子规则集中的每个子规则集创建决策树，以便在进行报文分类时所述查找单元 62进行规则查找。

此外，所述接收单元 61 , 用于接收报文；所述报文可以是路由器接收到的来自网络的多个报文；

查找单元 62, 用于在已创建的至少一个决策树中查找与所述艮文相匹配的规则，所述决策树为基于分段码对原始规则集进行划分后进而创建的决策树；

分类单元 63，用于根据查找到的所述规则对所述报文进行分类处理；这里所说的处理，可以是针对不同类别的报文需执行的操作，例如丢弃、接受、计数等。

在本实施例中，如图 7所示，所述划分单元 64可以通过如下方式来实现：具体地，划分单元 64包括：分段模块 641、排序模块 642、分类模块 643、归类模块 644、第一分集模块 645、第二分集模块 646、第三分集模块 647、计算模块 648、保存模块 649; 其中，

分段模块 641 ,用于以至少两位字符为一段对所述原始规则集中的每条规则进行分段，并计算每条规则对应的分段码；

排序模块 642，用于统计相同的分段码对应的规则数量，并按照所述规则数量从高到低对所述分段码进行排序；

分类模块 643 , 用于选取对应规则数量最多的分段码，与按照规则数量排序后的其它分段码两两进行按位与操作，并将按位与结果中 1 的个数作为匹配级别对所述分段码按匹配级别从高到低的次序进行排序；

归类模块 644 , 用于将所述按照匹配级别排序后的、且匹配级别不为 0的分段码依次进行连续按位与操作，并在连续按位与的结果中 1 的个数小于最低匹配级别时，将最后一个参与连续按位与操作的分段码归入到匹配级别为 0 的类别中；

第一分集模块 645，用于将所述匹配级别大于 0的分段码对应的规则归入到第一子规则集；

第二分集模块 646,用于在所述匹配级别为 0的分段码所对应的规则数小于等于第一阔值时，将所述匹配级别为 0的分段码对应的规则归入到第二子规则集；而如果所述匹配级别为 0的分段码所对应的规则数大于第一阁值，则需要通过划分单元 64 ,尤其是划分单元 64中的分类模块 643、归类模块 644、第一分集模块 645和第二分集模块 646,从所述匹配级别为 0的多个分段码中重新选取对应规则数量最多的一个分段码，以完成所述匹配级别为 0 的分段码的继续划分。

如果需要对子规则集的划分做更细致的限定，那么可以引入一个小于所述第一阈值的第二阈值；此时，所述第二分集模块 646, 具体用于在所述匹配级别为 0 的分段码所对应的规则数小于等于第一阔值、大于第二阈值时，将所述匹配级别为 0的分段码对应的规则归入到第二子规则集；此时，所述划分单元 64还包括第三分集模块 647, 该第三分集模块 647 用于在所述匹配级别为 0的分段码所对应的规则数小于等于所述第二阈值时，将所述匹配级别为 0的分段码对应的规则归入到所述第一子规则集中。

进一步地，所述归类模块 644在进行分段码的归类时所利用到的最低匹配级别可以通过计算模块 648来计算得到；具体地，计算模块 648用于根据如下公式计算得到所述匹配级别：

其中，为所述最低匹配级别；符号 "「，"代表向上取整； k为分段码的每个二进制位对应的字符数； t为分段后可用于规则切分的字符段中包含的通配符的最大值； numRules为划分前原始规则集中的规则数； bucketSize为所述决策树的叶子结点中保存的最大规则数； f为所述决策树中平均每个叶子结点的利用效率。

此外，所述划分单元 64还包括保存模块 649, 该保存模块 649用于计算并保存经所述归类模块 644进行归类处理后的匹配级别大于 0的分段码依次进行连续按位与操作后的按位与结果，即经所述归类模块 644进行归类处理后的匹配级别大于 0的分段码的公共匹配分段码。

利用本实施例中的装置进行报文分类的过程，可以参看实施例二中的描述，此处不再赞述。

本发明实施例提供的对报文进行分类的装置，通过确定不同的规则对应的分段码，并从其中选取出种子分段码，继而根据其他分段码与所述种子分段码之间的匹配级别以及预先设定的最低匹配分段码来对分段码进行分类，以实现原始规则集的划分，从而得到至少两个子规则集并构建至少两个决策树；之后，就可以根据所述已构建的决策树对接收到的报文进行分类处理。使用本实施例中提供的装置，尤其是利用分段码对原始规则集进行划分，不仅可以减少规则的复制，在进行规则集切分时准确地选位，从而使决策树的深度、内存占用量和建树时间都大大降低，提高划分规则集的处理速度，而且在对报文进行分类时，也可以降低规则查找时间，提高分类效率。此外，本发明实施例中提供的对报文进行分类的方法及装置，还可以支持增量更新。此处所涉及的增量更新指的是，在对原始规则集进行划分为多个子规则集后，当需要再增加或删除一些规则时，利用基于分段码的方法无需对已划分好的子规则集进行重新划分，只需要将新增的规则分到合适的子规则集中，或者将旧的规则从某个子规则集中删除。

当新增一个规则时，首先计算所述规则的分段码，并按照所述多个子规则集的产生顺序计算分段码跟各子规则集的公共匹配分段码的匹配级别。当所述新增规则的分段码跟某个子规则集的公共匹配分段码的匹配级别大于或等于该子规则集的最低匹配级别时，将所述新增规则添加到该子规则集中。

当删除一个规则时，首先计算所述规则的分段码，根据各子规则集的公共匹配分段码和最低匹配级别判断所述规则属于哪一个子规则集，并把所述规则从所述的子规则集中删除。当某个子规则集中的规则删除后，其包含的规则数量小于某个阈值时，则将该子规则集跟其它子规则集合并；所述闹值在实际过程中可以根据实际需要来设置„

通过分段码的方法对规则集进行划分，可以很灵活的对子规则集进行更新，所述更新包括所述子规则集中新规则的增加或所述子规则集中旧规则的删除等。与现有技术相比，所述分段码的方法大大降低了更新的时间和所述更新活动带来的内存占有量。当规则数较多且难以切分时，可以采用软硬件结合的解决方案。将容易切分的规则通过软件方式来处理，而不容易切分的规则放在 TCAM ( Ternary Content Addressable Memory, 三态内容寻址存储器）中进行处理。然而，由于 TCAM的集成和存储效率低、功耗大，因此应当将尽量少且跟其它规则不匹配的规则放在 TCAM中处理，以减少 TCAM的使用。在本发明实施例提供的方案中，基于分段码对原始规则集进行划分可以尽快地将大部分规则分离出来；而且，由于分段码方法保证了规则之间的匹配性，这些分离出来的规则很容易通过软件方式来进行切分，剩余的不容易切分的少量规则可以放在 TCAM中。这样，既可以提高算法的性能，又能节省 TCAM的空间。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

权利要求书

1、一种对报文进行分类的方法，其特征在于，包括：

接收报文；

根据查找到的所述规则对所述报文进行分类处理。

2、根据权利要求 1所述的对报文进行分类的方法，其特征在于，在所述在已创建的至少一个决策树中查找与所述 4艮文相匹配的规则之前，还包括：

根据分段码将原始规则集划分成至少两个子规则集；

针对每个所述子规则集创建决策树。

3、根据权利要求 2所述的对报文进行分类的方法，其特征在于，所述根据分段码将原始规则集划分成至少两个子规则集，包括：

以至少两位字符为一段对所述原始规则集中的每条规则进行分段，并计算每条规则对应的分段码；

统计相同的分段码对应的规则数量，并按照所述规则数量从高到低对所述分段码进行排序；

选取对应规则数量最多的分段码，顺次与按照规则数量排序后的其他分段码两两进行按位与操作，并将按位与结果中 1 的个数作为匹配级别对所述分段码进行分类排序；

将所述按照匹配级别排序后的、且匹配级别不为 0的分段码依次进行连续按位与操作，并在连续按位与的结杲中 1 的个数小于最低匹配级别时，将最后一个参与连续按位与操作的分段码归入到匹配级别为 0的类别中；

将所述匹配级别大于 0的分段码对应的规则归入到第一子规则集；在所述匹配级别为 0的分段码所对应的规则数小于等于第一阈值时，将所述匹配级别为 0的分段码对应的规则归入到第二子规则集；在所述匹配级别为 0 的分段码所对应的规则数大于所述第一阔值时，从所述匹配级别为 0 的多个分段码中重新选取对应规则数量最多的一个分段码，并重复上述步驟以对所述匹配级别为 0的分段码继续划分。

4、根据权利要求 3所述的对报文进行分类的方法，其特征在于，在所述将所述按照匹配级别排序后的、且匹配级别不为 0 的分段码依次进行连续按位与操作之后，还包括：

计算并保存所述匹配级别大于 0 的分段码依次进行连续按位与操作后的按位与结果。

5、根据权利要求 3所述的对报文进行分类的方法，其特征在于，所述在所述匹配级别为 0的分段码所对应的规则数小于等于第一阈值时，将所述匹配级别为 0的分段码对应的规则归入到第二子规则集，为：在所述匹配级别为 0 的分段码所对应的规则数小于等于第一阁值、大于第二阔值时，将所述匹配级别为 0 的分段码对应的规则归入到第二子规则集；其中，所述笫一阈值大于所述第二阈值；贝' J ,

所述根据分段码将原始规则集划分成至少两个子规则集，还包括：在所述匹配级别为 0的分段码所对应的规则数小于等于所述第二阈值时，将所述匹配级别为 0的分段码对应的规则归入到所述第一子规则集中。

6、根据权利要求 3所述的对报文进行分类的方法，其特征在于，所述最低匹配级别可以通过如下公式计得到：

其中，为所述最低匹配级别； k为分段码的每个二进制位对应的字符数； t为分段后可用于规则切分的字符段中包含的通配符的最大值； numRules为划分前原始规则集中的规则数； bucketSize为所述决策树的叶子结点中保存的最大规则数； f为所述决策树中平均每个叶子结点的利用效率。

7、一种对报文进行分类的装置，其特征在于，包括：

接收单元，用于接收报文；查找单元，用于在已创建的至少一个决策树中查找与所述报文相匹配的规则，所述决策树为基于分段码对原始规则集进行划分后进而创建的决策树；分类单元，用于 ^艮据查找到的所述规则对所述报文进行分类处理。

8、根据权利要求 7所述的对报文进行分类的装置，其特征在于，还包括：划分单元，用于根据分段码将原始规则集划分成至少两个子规则集；建树单元，用于针对每个所述子规则集创建决策树，以便所述查找单元进行规则查找。

9、根据权利要求 8所述的对报文进行分类的装置，其特征在于，所述划分单元，包括：

分段模块，用于以至少两位字符为一段对所述原始规则集中的每条规则进行分段，并计算每条规则对应的分段码；

排序模块，用于统计相同的分段码对应的规则数量，并按照所述规则数量从高到低对所述分段码进行排序；

分类模块，用于选取对应规则数量最多的分段码，顺次与按照规则数量排序后的其他分段码两两进行按位与操作，并将按位与结果中 1 的个数作为匹配级别对所述分段码进行分类排序；

归类模块，用于将所述按照匹配级别排序后的、且匹配级别不为 0 的分段码依次进行连续按位与操作，并在连续按位与的结果中 1 的个数小于最低匹配级别时，将最后一个参与连续按位与操作的分段码归入到匹配级别为 0 的类别中；

第一分集模块，用于将所述匹配级别大于 0 的分段码对应的规则归入到第一子规则集；

第二分集模块，用于在所述匹配级别为 0 的分段码所对应的规则数小于等于第一阈值时，将所述匹配级别为 0的分段码对应的规则归入到第二子规则集。

10、根据权利要求 9所述的对报文进行分类的装置，其特征在于，所述划分单元，还用于在所述匹配级别为 0 的分段码所对应的规则数大于所述第一阈值时，从所述匹配级别为 0 的多个分段码中重新选取对应规则数量最多的一个分段码，以对所述匹配级别为 0的分段码继续划分。

11、根据权利要求 9所述的对报文进行分类的装置，其特征在于，还包括：保存模块，用于计算并保存经所述归类模块进行归类处理后的匹配级别大于 0的分段码依次进行连续按位与操作后的按位与结果。

12、根据权利要求 9所述的对报文进行分类的装置，其特征在于，所述第二分集模块，具体用于在所述匹配级别为 0的分段码所对应的规则数小于等于第一阈值、大于第二阈值时，将所述匹配级别为 0的分段码对应的规则归入到第二子规则集；其中，所述第一阈值大于所述第二阈值；且，

所述划分单元还包括：

第三分集模块，用于在所述匹配级别为 0 的分段码所对应的规则数小于等于所述第二阈值时，将所述匹配级别为 0 的分段码对应的规则归入到所述笫一子规则集中。

13、根据权利要求 9所述的对报文进行分类的装置，其特征在于，还包括；计算模块，用于根据如下公式计算得到所述最低匹配级别：