WO2011110003A1

WO2011110003A1 - 二叉树建立、压缩和查找的方法和装置

Info

Publication number: WO2011110003A1
Application number: PCT/CN2010/076299
Authority: WO
Inventors: 张文勇; 王慧
Original assignee: 华为技术有限公司
Priority date: 2010-08-24
Filing date: 2010-08-24
Publication date: 2011-09-15
Also published as: CN102405622B; US9521082B2; US8711014B2; CN102405622A; US20140198807A1; EP2477363A4; EP2477363A1; US20120119927A1

Description

二叉树建立、压缩和查找的方法和装置技术领域

本发明涉及流分类领域，特别涉及一种二叉树建立、压缩和查找的方法和装置。背景技术

说

流分类根据预先定义的规则对报文头中的多个域进行检查，并根据匹配情况进行相应的处理。流分类所使用的规则的集合称为流分类器。流分类器中的每一条规则跟报文头中的若干个域有关。比如标准 IPv4五元组规则包括源 IP地址、目的 IP地址、协议类型、源端口号和目的端口号五个域。不同域的匹配方式也可能不同。 IP地址使用前缀匹配，协议书

类型使用精确匹配，端口号使用范围匹配。

基于决策树的流分类算法是一种规则集切分算法，它采用某种切分策略递归地将规则集分开，直到每个子规则集中的规则数都小于预先设定的 bucket size (桶深）为止。通过切分可以建立一棵二叉决策树，简称二叉树，二叉树的中间结点保存切分规则集所使用的方法，叶子结点保存所有可能匹配的子规则集。查找时，从报文头中抽出相关域组成关键字，然后使用关键字遍历已经建立好的决策树，直到找到对应的叶子结点为止。将关键字跟叶子结点中的规则进行比较，最终可以得到跟报文匹配且优先级最高的规则。

目前有一种基于决策树的分阶段选位切分流分类算法 Modular算法。 Modular算法将规则看成由 '0'、 ' 和 '*' 组成的三值位串，没有维的概念，其中， '*' 表示通配符，其二进制位可以是 0或 1。切分时，计算某一位为 '0'， ' 或 '*' 所对应的规则数，并根据优先度量值公式选择最合适的位进行切分。当选择某一位进行切分时，该位的值为 '0' 的规则被放入一个子规则集，为 ' 的规则放入另一个子规则集，为 '*' 的规则同时出现在两个子规则集中。这样，原始规则集就被分为两个子规则集。对于范围规则，可以先转化为前缀，然后再采用上述方法进行切分。采用这种方法递归地对原始规则集进行切分，直到每个子规则集中的规则数小于预先设定的叶子结点允许的最大规则数为止。这样，可以建立一棵二叉决策树。同时，为了减少规则复制， modular算法根据源 IP和目的 IP都不是 '*'、只有源 IP是 '*'、只有目的 IP是 '*'、源 IP和目的 IP都是 '*'，将规则集分成四个子规则集。针对四个子规则集分别建立不同的二叉决策树。查找时，对多个二叉决策树并行查找。在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

当选一位进行切分时，最终建立的是一棵二叉决策树，树的深度较大，影响决策效率; 二叉树建立过程中，如果将范围扩展为前缀，一个任意的范围在最坏的情况下可以转化为 30个前缀。以标准的 IPv4五元组为例，每条规则包括源端口号和目的端口号两个范围，最坏的情况下，一条规则被扩展成 900 条规则，大大增加了内存占用量。另外，二叉树建立过程中减少规则复制的方法比较粗略，当子规则集中存在多个 '*' 时，规则复制仍然很多。发明内容

为了降低二叉树的深度，本发明实施例提供了二叉树压缩的方法，所述方法包括：确定压缩参数，所述压缩参数为压缩层次 n或中间结点数量 K;

根据所述压缩参数对二叉树进行压缩，形成至少一个压缩结点；

建立所述压缩结点的位图。

为了在二叉树建立过程中避免范围规则转化为前缀造成的规则膨胀，本实施例提供了二叉树建立的方法，所述方法包括：

采用选位切分算法对规则集中的非范围规则进行切分；

当切分效率低于预先设定的阈值时，将所述规则集中的范围规则转换为前缀，保持所述前缀对应规则的标识与所述范围规则对应的标识不变；

采用所述选位切分算法对所述转换后的规则集进行切分；

根据所有切分结果，建立所述规则集对应的二叉树。

为了在二叉树建立过程中减少规则复制，本实施例提供了二叉树建立的方法，所述方法包括：

采用选位切分算法对规则集进行切分；

提取切分过程中需要复制规则，放置到另一个子规则集中；

分别建立所述规则集和所述另一子规则集对应的二叉树。

为了降低查找深度，提高查找速度，本实施例提供了二叉树查找的方法，所述方法包括：

获取查找的关键字；

判断二叉树的各个结点是叶子结点、还是压缩结点；

当是压缩结点时，解析所述压缩结点；

当是叶子结点时，遍历所述叶子结点对应的线性表，查找与所述关键字匹配的规则。为了降低二叉树的深度，本发明实施例提供了二叉树压缩的装置，所述装置包括：确定模块，用于确定压缩参数，所述压缩参数为压缩层次 n或中间结点数量 K;

压缩模块，用于根据所述压缩参数对二叉树进行压缩，形成至少一个压缩结点；位图模块，用于建立所述压缩结点的位图。

为了在二叉树建立过程中避免范围规则转化为前缀造成的规则膨胀，本实施例提供了二叉树建立的装置，所述装置包括：

第一切分模块，用于采用选位切分算法对规则集中的非范围规则进行切分；转换模块，用于当切分效率低于预先设定的阈值时，将所述规则集中的范围规则转换为前缀；

第二切分模块，用于采用所述选位切分算法对所述前缀进行切分。

为了在二叉树建立过程中减少规则复制，本实施例提供了二叉树建立的装置，所述装置包括：

切分模块，用于采用选位切分算法对规则集进行切分；

提取模块，用于提取需要复制规则，放置到另一个子规则集中。

为了降低查找深度，提高查找速度，本实施例提供了二叉树查找的装置，所述装置包括：

获取模块，用于获取查找的关键字；

判断模块，用于判断二叉树的各个结点是叶子结点、还是压缩结点；

处理模块，用于当是压缩结点时，解析所述压缩结点；当是叶子结点时，遍历所述叶子结点对应的线性表，查找与所述关键字匹配的规则。

本发明实施例提供的技术方案的有益效果是：

通过确定并根据压缩层次或中间结点数量，将多个结点压缩为一个结点，大大的降低了决策树的深度，提高了查找速度；

通过首先采用选位切分算法对规则集中的非范围规则进行切分，当切分效率低于预先设定的阈值时，再将规则集中的范围规则转换为前缀，这种在 "必要时"将范围转化为前缀的方法，有效的避免了二叉树建立过程中将所有范围转化为前缀所产生的规则膨胀；通过将需要复制规则提取出来，放置到另一个子规则集，也即通过创建多棵决策树的方法，有效的减少了二叉树建立过程中的规则复制；

通过判断二叉树的各个结点是叶子结点、还是压缩结点，当是压缩结点时，解析压缩结点；当是叶子结点时，遍历叶子结点对应的线性表，查找与关键字匹配的规则，降低二叉树的查找深度，提高了查找速度。附图说明

图 1是本发明实施例 1提供的二叉树压缩的方法流程图；

图 2是本发明实施例 2提供的形状压缩方法流程图；

图 3是本发明实施例 2提供的二叉树片段示意图；

图 4是本发明实施例 2提供的更新后的二叉树片段示意图；

图 5是本发明实施例 2提供的二叉树查找流程图；

图 6是本发明实施例 2提供的形状压缩的压缩结点的解析流程图；

图 7是本发明实施例 3提供的自适应压缩方法流程图；

图 8是本发明实施例 3提供的二叉树片段示意图；

图 9是本发明实施例 3提供的另一二叉树片段进行自适应压缩的示意图；

图 10是本发明实施例 3提供的另一二叉树片段进行宽度优先剪除的示意图；图 11是本发明实施例 3提供的自适应压缩的压缩结点的解析流程图；

图 12是本发明实施例 4提供的二叉树建立的方法流程图；

图 13是本发明实施例 4提供的规则覆盖的示意图；

图 14是本发明实施例 5提供的二叉树建立的方法流程图；

图 15是本发明实施例 6提供的二叉树压缩的装置结构示意图；

图 16是本发明实施例 7提供的二叉树建立的装置结构示意图；

图 17是本发明实施例 8提供的二叉树建立的装置结构示意图；

图 18是本发明实施例 9提供的二叉树查找的装置结构示意图。具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例 1

参见图 1，本实施例提供了一种二叉树压缩的方法，包括：

101：确定压缩参数，该压缩参数为压缩层次 n或中间结点数量 K;

102：根据该压缩参数对二叉树进行压缩，形成至少一个压缩结点；

103：建立该压缩结点的位图；

本实施例提供的方法，通过确定并根据压缩层次或中间结点数量，将多个结点压缩为一个结点，大大的降低了决策树的深度，提高了查找速度。实施例 2

本实施例提供了一种二叉树压缩的方法，该方法根据压缩层次对二叉树进行压缩，也称为形状压缩方法。

参见图 2，形状压缩方法具体包括：

201：根据一次内存访问读入数据的位数 Nb、每个中间结点的位索引使用的位数 Ni、压缩结点的子结点的起始地址使用的位数 Na、压缩结点类型使用的位数 Nt和位图使用的位数，确定压缩层次 n;

其中，压缩结点的子结点也称孩子结点，是指该压缩结点下挂的结点。

具体的，根据（2"— 1)χ^ + (2"— 1) + 。+ ≤^，确定 w≤ Log₂ (^Nb ~ ^N' + l) ，其中，（2" - 1)表示位图使用的位数。

例如，设 Na = 32， Nt = 2， Ni = 9则当 Nb=128时， n = 3，即可以将 3层压缩为 1 层；当 Nb = 256时， n = 4，即可以将 4层压缩为 1层。

202：根据压缩层次 n对二叉树进行压缩，形成至少一个压缩结点；

具体的，从二叉树的根结点或叶子结点开始，将层数小于等于压缩层次 n 的结点作为一个压缩结点；然后，从压缩结点的子结点开始，采用与压缩结点相同的压缩方法，对二叉树继续进行压缩，直至遍历完二叉树。

例如，参见图 3，当压缩层次为 3时，从二叉树的根结点开始，将三层二叉树压缩为一层，形成大的压缩结点 1，然后，再从压缩结点 1的子结点处继续压缩，形成大的压缩结点 2禾口 3。

另外，当根结点为叶子结点时，无须压缩，此时，没有压缩结点。

203：建立每个压缩结点的位图；

其中，对于形状压缩方法，位图是指形状位图。具体的，按照宽度优先的次序遍历压缩结点，依次对其中的每个结点的类型进行标识，例如，将中间结点标识为 1，叶子结点或空结点标识为 0，并将标识结果作为压缩结点的形状位图。其中， "宽度优先的次序"是指按照从上到下，从左到右的顺序。

以图 3所示的二叉树片段为例，空心圆为中间结点，实心圆为叶子结点，用 1表示中间结点，用 0表示叶子结点和空结点，按照宽度优先的次序遍历压缩结点 1，则压缩结点 1 的形状位图为 1100100，其中最后两位 0为空结点。

进一步的，当压缩结点增量更新时，直接更新形状位图。例如，参见图 4，为更新后的二叉树片段，则更新后的压缩结点 1的形状位图为 1110100。 204：将一个压缩结点的所有子结点连续存储，并将起始地址保存在压缩结点；进一步的，在查找时，根据起始地址和子结点的索引，确定子结点的地址。

上述形状压缩，结点查找过程包括：获取查找的关键字；判断二叉树的各个结点是叶子结点、还是压缩结点；当是压缩结点时，解析压缩结点；当是叶子结点时，遍历叶子结点对应的线性表，查找与关键字匹配的规则。具体的，参见图 5，二叉树查找过程具体如下： A1 : 获取查找的关键字；

A2 : 判断决策二叉树的根结点是否为叶子结点；

具体的，如果不是叶子结点，则该根结点对应一个压缩结点，将其作为当前压缩结点，执行步骤 A3，如果是叶子结点，执行步骤 A5。

例如，图 3的根结点不是叶子结点，其对应一个压缩结点，执行步骤 A3。

A3：解析当前压缩结点；

A4: 判断当前压缩结点的子结点是否为叶子结点；

具体的，如果不是叶子结点，则该子结点对应一个压缩结点，将其作为当前压缩结点，执行步骤 A3，如果是叶子结点，执行步骤 A5。

A5 : 遍历该叶子结点对应的线性表，查找与关键字匹配的规则，流程结束。

基于图 5的查找过程，对于形状压缩可以按层解析，将压缩结点的根结点作为第一层，根据压缩结点的形状位图，判断压缩结点的各个结点是否是叶子结点，参见图 6，压缩结点解析过程为：

B1 : 进入压缩结点；

B2 : 从查找关键字中提取第一个位索引对应的位；

B3 : 进入下一层；

B4: 判断当前层数是否大于压缩层数 n;

具体的，如果否，执行步骤 B5，如果是，执行步骤 B7。

B5 : 计算当前结点（即当前二叉树结点）在形状位图中的位置，并从形状位图中提取该位置对应的位；

B6 : 判断当前结点对应的形状位图是否为 0 ;

具体的，如果为 0，执行步骤 B9，如果不为 0，执行步骤 B3。

B7 : 进入子结点，并读取子结点的类型；

B8 : 判断子结点是否为叶子结点；

具体的，如果是，执行步骤 B9，如果否，执行步骤 B10。

B9 : 为叶子结点，流程结束； BIO: 子结点为压缩结点，流程结束。

该查找方法，通过判断二叉树的各个结点是叶子结点、还是压缩结点，当是压缩结点时，解析压缩结点；当是叶子结点时，遍历叶子结点对应的线性表，查找与关键字匹配的规则，降低二叉树的查找深度，提高了查找速度。

本实施例提供的方法，通过根据一次内存访问读入数据的位数、每个中间结点的位索引使用的位数、起始地址使用的位数、压缩结点类型使用的位数和位图使用的位数，确定压缩层次，并根据压缩层次将多个结点压缩为一个结点，大大的降低了决策树的深度，提高了查找速度。实施例 3

本实施例提供了二叉树压缩的方法，该方法根据中间结点数量对二叉树进行压缩，也称为自适应压缩方法。

首先，介绍本实施例应用的一个定理：对于每个中间结点都有两个子结点的二叉树，以一个中间结点为根且连接在一起的 N个中间结点，必然有（N+1) 个子结点。证明：

1) 如果只考虑一个中间结点，它必然有两个子结点，所以满足上面的定理。

2) 考虑以一个中间结点为根且连接在一起的 K个中间结点，假设这个 K个中间结点有 (K+1) 个子结点。则当考虑以相同的中间结点为根且连接在一起的中间结点的数目变为 (K+1) 时，必然是将原来的一个子结点变为被考虑的中间结点，而且由于该子结点是中间结点，所以它肯定有 2个子结点，所以子结点的数目变为（K+1) - 1 + 2 = (K+1) + 1个。

综合 1) 和 2)，定理得证。

参见图 7，自适应压缩方法具体包括：

301：根据一次内存访问读入数据的位数 Nb、每个中间结点的位索引使用的位数 Ni、压缩结点的子结点的起始地址使用的位数 Na、压缩结点类型使用的位数 Nt和位图使用的位数，确定中间结点数量 K;

其中，对于自适应压缩方法，位图是指形状位图和外部位图。形状位图用于表示压缩结点中的每个结点的类型。外部位图用于表示压缩结点的每个子结点的类型。

具体的，根据 xN +2( — l) + + l + N。+N,≤N_fc，聰定 K<^{N Na}_^{Nt +i}。

' ^b N_t +3

其中， 2 (K-l) 为形状位图使用的位数。因为一个压缩结点共涉及 2K+1个结点，被压缩二叉树片段的第一个结点肯定是中间结点，所以形状位图的第 1位肯定是 1; 而最后两个结点肯定是未被压缩的结点，所以形状位图的最后两位肯定是 '00'。所以形状位图用 2K+l-3=2 (K-l ) 表示。因为共有 Κ+1个外部结点，所以外部位图用 K+1位表示。

302：根据中间结点数量 Κ对二叉树进行压缩，形成至少一个压缩结点；

具体的，从二叉树的根结点开始，将个数小于等于中间结点数量 Κ 的结点作为一个压缩结点；从该压缩结点的子结点开始，采用与压缩结点相同的压缩方法，对二叉树继续进行压缩，直至遍历完二叉树。

例如，设 Na = 32， Nt = 2， Ni = 9，则当 Nb=128时，中间结点数量 K=8，压缩层次 η=3。参见图 8所示的二叉树片段，如果采用实施例 2中的形状压缩方法，则每 3层压缩为一个大结点（即压缩结点），需要压缩成三个大结点。按照本实施例提供的自适应压缩方法，每 8个中间结点压缩为一个大结点，则只需要压缩为一个大结点，压缩效率更高。

303：为了进一步提高压缩效率，采用宽度优先剪除算法进行优化；

具体的，统计每个中间结点包括自身在内的所有子中间结点的数目；从二叉树的根结点开始，判断中间结点对应的包括自身在内的所有子中间结点的数目是否小于等于中间结点数量 Κ;当压缩结点中的每一中间结点对应的包括自身在内的所有子中间结点的数目都大于中间结点数量 Κ 时，保持压缩结点不变；当压缩结点中的中间结点对应的包括自身在内的所有子中间结点的数目小于等于该中间结点数量 κ 时，将该中间结点及其所有子结点剪除下来，作为一个新的压缩结点。剪除之后，将压缩结点中除该中间结点之外的其他结点仍保留在该压缩结点中，也即调整与该剪除形成的压缩结点关联的压缩结点的中间结点的数目。

例如，如果计算的中间结点数量 Κ=7，图 9所示的二叉树片段空心圆为中间结点，实心圆为叶子结点，采用自适应压缩方法需要压缩为 9 个压缩结点。采用宽度优先剪除算法，计算第一个中间结点的包括自身在内的所有子中间结点的数目为 15， 15 > ^ , 则不剪除，计算第二个中间结点的包括自身在内的所有子中间结点的数目为 7， 7≤Κ , 则将该第二个中间结点及其所有子结点剪除下来，作为一个压缩结点，同理，计算第三个中间结点的包括自身在内的所有子中间结点的数目为 7， Ί≤Κ , 则将该第三中间结点及其所有子结点剪除下来，作为一个压缩结点。剪除之后，将与剪除形成的两个压缩结点关联的压缩结点的中间结点的数目调整为 1。最后，只形成 3个压缩结点，具体参见图 10所示，大大提高了压缩效率。

304：建立压缩结点的位图，包括形状位图和外部位图；

对于形状位图，按照宽度优先的次序遍历压缩结点，依次对其中的每个结点的类型进行标识，并将标识结果作为该压缩结点的形状位图。对于外部位图，按照宽度优先的次序遍历压缩结点，依次对每个子结点的类型进行标识，并将标识结果作为该压缩结点的外部位图。

仍以图 8为例，忽略第一个结点和最后两个结点的形状位图共需 2 (K-1 ) =12位，为 010101010101；外部位图共需 K+1位，为 00000000。

进一步的，通过使用形状位图和外部位图可以实现增量更新，也即当压缩结点的子结点的类型改变时，调整外部位图中类型改变的子结点对应的位，形状位图不变，以实现增量更新。例如，图 8 中的第一个叶子结点下挂叶子结点后变为中间结点，外部位图中的相应位由 0变为 1，其他子结点的类型不变，则外部位图更新为 10000000，形状位图不变。

上述自适应压缩后，基于图 5 的查找过程，对于自适应压缩可以按层解析，将压缩结点的根结点作为第一层，根据压缩结点的形状位图，当压缩结点中的结点在形状位图中为 0 时，判断结点在外部位图是否为 0，根据判断结果确定压缩结点中结点对应的子结点是否为叶子结点，参见图 11，压缩结点解析过程具体如下：

C1 : 进入压缩结点；

C2: 从查找关键字中提取第一个位索引对应的位；

C3: 进入下一层；

C4: 判断当前结点（即当前二叉树结点）在形状位图中的位置是否大于 2 (K-1) ;

具体的，如果否，执行步骤 C5，如果是， SP> 2 (K-1)时，执行步骤 C6。

C5: 从形状位图中提取当前结点对应的位，执行步骤 C7;

C6: 当前结点对应的形状位图为 0;

C7: 判断当前结点对应的形状位图是否为 0 ；

具体的，如果否，执行步骤 C3，如果是，即为 0 时，执行步骤 C8。

C8: 从外部位图中提取当前结点对应的位；

C9: 判断当前结点对应的外部位图是否为 0 ；

具体的，如果不为 0，执行步骤 C10，如果为 0，执行步骤 Cl l。

C10: 子结点为压缩结点，流程结束；

C11 : 子结点为叶子结点，流程结束。

本实施例提供的方法，通过根据一次内存访问读入数据的位数、每个中间结点的位索引使用的位数、起始地址使用的位数、压缩结点类型使用的位数和位图使用的位数，确定中间结点数量，并根据中间结点数量将多个结点压缩为一个结点，大大的降低了决策树的深度，提高了查找速度，并且采用宽度剪除方法进一步提高了压缩效率、降低了决策树的深度。实施例 4

参见图 12，本实施例提供了一种二叉树建立的方法，包括：

401：采用选位切分算法对规则集中的非范围规则进行切分；

具体的，每次选取切分效率最高、且复制次数最少的位进行切分。另外，本实施例并不限定具体的切分方法。

402：当切分效率低于预先设定的阈值时，将该规则集中的范围规则转换为前缀；转换时，保持前缀对应规则的标识与范围对应规则的标识不变。

转换后，规则之间可能会重叠，去掉被完全覆盖且优先级低的规则。例如，参见图 13，如果规则 R1的优先级比规则 R2高，同时 R1又完全覆盖 R2，这时， R2永远不会被命中，可以从规则集中去掉。另外，叶子结点中，如果多个规则的标识相同，则只保留一个该标识对应的规则。

403：采用该选位切分算法对转换后的规则集进行切分；

404：根据所有切分结果，建立规则集对应的二叉树。

其中，所有切分结果包括对规则集中的非范围规则的切分结果和对转换后的规则集的切分结果。

进一步的，为了解决规则复制问题，在上述采用选位切分算法切分的过程中，提取需要复制规则，放置到另一个子规则集中，也即另外创建一棵决策树。

另外，对范围进行转换后，扩展后的多条规则跟原始规则具有相同的标识，因此，提取时，需要将标识相同的所有需要复制规则都提取出来，放置到该另一个子规则集中。

本实施例提供的方法，通过首先采用选位切分算法对规则集中的非范围规则进行切分，当切分效率低于预先设定的阈值时，再将规则集中的范围规则转换为前缀，这种在 "必要时"将范围转化为前缀的方法，有效的避免了将所有范围转化为前缀所产生的规则膨胀。另外，通过将需要复制规则提取出来，放置到另一个子规则集，也即通过创建多棵决策树的方法，有效的减少了规则复制。实施例 5

参见图 14，本实施例提供了一种二叉树建立的方法，包括: 501：采用选位切分算法对规则集进行切分；

具体与步骤 401相同，这里不再赘述。

502：提取切分过程中需要复制规则，放置到另一个子规则集中；

503：分别建立规则集和另一子规则集对应的二叉树。

进一步的，对范围进行转换后，扩展后的多条规则跟原始规则具有相同的标识，因此，提取时，需要将标识相同的所有需要复制规则都提取出来，放置到该另一个子规则集中。

本实施例提供的方法，通过将需要复制规则提取出来，放置到另一个子规则集，也即通过创建多棵决策树的方法，有效的减少了规则复制。实施例 6

参见图 15，本实施例提供了一种二叉树压缩的装置，包括：

确定模块 601，用于确定压缩参数，压缩参数为压缩层次 n或中间结点数量 K;

压缩模块 602，用于根据压缩参数对二叉树进行压缩，形成至少一个压缩结点；位图模块 603，用于建立压缩结点的位图。

确定模块 601，具体用于根据一次内存访问读入数据的位数 Nb、每个中间结点的位索引使用的位数 Ni、压缩结点的子结点的起始地址使用的位数 Na、压缩结点类型使用的位数 Nt和位图使用的位数，确定压缩参数。

当压缩参数为压缩层次 n时，

确定模块 601，具体用于

根据（2"— l)xN! + (2"— 1) + N。+ N,≤N₆，确定 w≤ Log₂(^Nb ~^Nt + l) ，其中， Nb表示一次内存访问读入数据的位数， Ni表示每个中间结点的位索引使用的位数， Na表示所述压缩结点的子结点的起始地址使用的位数、 Nt表示压缩结点类型使用的位数，（2" - 1)表示位图使用的位数。

压缩模块 602，具体用于

从二叉树的根结点或叶子结点开始，将层数小于等于压缩层次 n 的结点作为一个压缩结点；

从压缩结点的子结点开始，采用与压缩结点相同的压缩方法，对二叉树继续进行压缩，直至遍历完二叉树。

位图模块 603，具体用于

按照宽度优先的次序遍历压缩结点，依次对每个结点的类型进行标识，并将标识结果作为压缩结点的形状位图。

当压缩参数为中间结点数量 κ时，

确定模块 601，具体用于

根据 xN + 2( — l) + ( + l) + N。 + N_t < N_h , 确定 ≤ ^¾—^Na ~ ^{Nt + l} .

^{1 a 1 b} N_r + 3

其中， Nb表示一次内存访问读入数据的位数， Ni表示每个中间结点的位索引使用的位数， Na表示所述压缩结点的子结点的起始地址使用的位数、 Nt表示压缩结点类型使用的位数， 2(^ - 1)为忽略第一个结点和最后两个结点的形状位图使用的位数，（f + l) 为外部位图使用的位数。

压缩模块 602，具体用于

从二叉树的根结点开始，将个数小于等于中间结点数量 κ的结点作为一个压缩结点；从压缩结点的子结点开始，采用与压缩结点相同的压缩方法，对二叉树继续进行压缩，直至遍历完二叉树。

进一步的，压缩模块 602，还用于在直至遍历完二叉树之后，

统计每个中间结点包括自身在内的所有子中间结点的数目；

从二叉树的根结点开始，判断中间结点对应的包括自身在内的所有子中间结点的数目是否小于等于中间结点数量 K;

当压缩结点中的每一中间结点对应的包括自身在内的所有子中间结点的数目都大于中间结点数量 κ时，保持压缩结点不变；

当压缩结点中的中间结点对应的包括自身在内的所有子中间结点的数目小于等于中间结点数量 K 时，将中间结点及其所有子结点作为一个新的压缩结点，将压缩结点中除该中间结点之外的其他结点仍保留在该压缩结点中。

位图模块 603，具体用于

按照宽度优先的次序遍历压缩结点，依次对每个结点的类型进行标识，并将标识结果作为压缩结点的形状位图；

按照宽度优先的次序遍历压缩结点，依次对每个子结点的类型进行标识，并将标识结果作为压缩结点的外部位图。

进一步的，该装置还包括：

增量更新模块，用于建立所述压缩结点的位图之后，当所述压缩结点的子结点的类型改变时，调整所述外部位图中所述类型改变的子结点对应的位，所述形状位图不变，以实现增量更新。本实施例提供的装置，通过确定并根据压缩层次或中间结点数量，将多个结点压缩为一个结点，大大的降低了决策树的深度，提高了查找速度。实施例 7

参见图 16，本实施例提供了一种二叉树建立的装置，包括：

第一切分模块 701，用于采用选位切分算法对规则集中的非范围规则进行切分；转换模块 702，用于当切分效率低于预先设定的阈值时，将规则集中的范围规则转换为前缀，保持该前缀对应规则的标识与该范围规则对应的标识不变；

具体的，当切分效率低于预先设定的阈值时，将规则集中的范围转换为前缀，保持前缀对应规则的标识与范围对应规则的标识不变。

进一步的，将规则集中的范围转换为前缀之后，去掉被覆盖且优先级低的规则。

第二切分模块 703，用于采用选位切分算法对转换后的规则集进行切分；

建立模块 704，用于根据所有切分结果，建立规则集对应的二叉树。

进一步的，该装置还包括：

提取模块，用于提取切分过程中需要复制规则，放置到另一个子规则集中。

具体的，提取标识相同的所有需要复制规则，放置到该另一个子规则集中。

本实施例提供的装置，通过首先采用选位切分算法对规则集进行切分，当切分效率低于预先设定的阈值时，再将规则集中的范围转换为前缀，这种在 "必要时"将范围转化为前缀的方法，有效的避免了将所有范围转化为前缀所产生的规则膨胀。另外，通过将需要复制规则提取出来，放置到另一个子规则集，也即通过创建多棵决策树的方法，有效的减少了规则复制。实施例 8

参见图 17，本实施例提供了一种二叉树建立的装置，包括：

切分模块 801，用于采用选位切分算法对规则集进行切分；

提取模块 802，用于提取切分过程中需要复制规则，放置到另一个子规则集中；建立模块 803，用于分别建立规则集和另一子规则集对应的二叉树。

本实施例提供的装置，通过将需要复制规则提取出来，放置到另一个子规则集，也即通过创建多棵决策树的方法，有效的减少了规则复制。实施例 9

参见图 18，本实施例提供了一种二叉树查找的装置，包括：

获取模块 901，用于获取查找的关键字；

判断模块 902，用于判断二叉树的各个结点是叶子结点、还是压缩结点；

处理模块 903，用于当是压缩结点时，解析压缩结点；当是叶子结点时，遍历叶子结点对应的线性表，查找与关键字匹配的规则。

其中，处理模块 903包括第一解析单元 903a，用于根据压缩结点的形状位图，判断压缩结点的各个结点是否是叶子结点。具体流程参见图 6所示，这里不再赘述。

其中，处理模块 903包括第二解析单元 903b，用于根据压缩结点的形状位图，当压缩结点中的结点在形状位图中为 0时，判断结点在外部位图是否为 0，根据判断结果确定压缩结点中结点对应的子结点是否为叶子结点。具体流程参见图 11所示，这里不再赘述。

本实施例提供的装置，通过判断二叉树的各个结点是叶子结点、还是压缩结点，当是压缩结点时，解析压缩结点；当是叶子结点时，遍历叶子结点对应的线性表，查找与关键字匹配的规则，降低二叉树的查找深度，提高了查找速度。本发明实施例可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，例如，计算机的硬盘、缓存或光盘中。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种二叉树压缩的方法，其特征在于，所述方法包括：

确定压缩参数，所述压缩参数为压缩层次 n或中间结点数量 K;

建立所述压缩结点的位图。

2、如权利要求 1所述的方法，其特征在于，确定压缩参数包括：

根据一次内存访问读入数据的位数 Nb、每个中间结点的位索引使用的位数 Ni、所述压缩结点的子结点的起始地址使用的位数 Na、压缩结点类型使用的位数 Nt和所述位图使用的位数，确定压缩参数。

3、如权利要求 1或 2所述的方法，其特征在于，所述压缩参数为压缩层次 n时，确定压缩参数，具体包括：

根据（2"— l)xN! + (2"— 1) + N。+ N,≤N₆，确定 w≤ Log₂(^Nb ~^Nt + l) ，其中， Nb表示一次内存访问读入数据的位数， Ni表示每个中间结点的位索引使用的位数， Na表示所述压缩结点的子结点的起始地址使用的位数、 Nt 表示压缩结点类型使用的位数， (2" - 1)表示位图使用的位数。

4、如权利要求 1所述的方法，其特征在于，所述压缩参数为压缩层次 n时，

根据所述压缩参数对二叉树进行压缩，形成至少一个压缩结点，具体包括：

从所述二叉树的根结点或叶子结点开始，将层数小于等于所述压缩层次 n的结点作为一个压缩结点；

从所述压缩结点的子结点开始，采用与所述压缩结点相同的压缩方法，对所述二叉树继续进行压缩，直至遍历完所述二叉树。

5、如权利要求 1所述的方法，其特征在于，所述压缩参数为压缩层次 n时，

建立所述压缩结点的位图，具体包括：

按照宽度优先的次序遍历所述压缩结点，依次对每个结点的类型进行标识，并将标识结果作为所述压缩结点的形状位图。

6、如权利要求 1或 2所述的方法，其特征在于，所述压缩参数为中间结点数量 K时，确定压缩参数，具体包括：

K N^ liK - j + iK + j + N^ N^ N, , 确定 ≤ ^¾—^Na ~ ^N' ^{+ l}；其中， Nb表示一次内存访问读入数据的位数， Ni表示每个中间结点的位索引使用的位数， Na表示所述压缩结点的子结点的起始地址使用的位数、 Nt 表示压缩结点类型使用的位数， 2(^ -1)是忽略第一个结点和最后两个结点的形状位图使用的位数，（f + l) 是外部位图使用的位数。

7、如权利要求 1所述的方法，其特征在于，所述压缩参数为中间结点数量 K时，根据所述压缩参数对二叉树进行压缩，形成至少一个压缩结点，具体包括：

从所述二叉树的根结点开始，将个数小于等于所述中间结点数量 K的结点作为一个压缩结点；

8、如权利要求 7所述的方法，其特征在于，所述直至遍历完所述二叉树之后包括：统计每个中间结点包括自身在内的所有子中间结点的数目；

从所述二叉树的根结点开始，判断中间结点对应的包括自身在内的所有子中间结点的数目是否小于等于所述中间结点数量 K;

当压缩结点中的每一中间结点对应的包括自身在内的所有子中间结点的数目都大于所述中间结点数量 K时，保持所述压缩结点不变；

当压缩结点中的中间结点对应的包括自身在内的所有子中间结点的数目小于等于所述中间结点数量 κ时，将所述中间结点及其所有子结点作为一个新的压缩结点，将所述压缩结点中除所述中间结点之外的其他结点仍保留在所述压缩结点中。

9、如权利要求 1所述的方法，其特征在于，所述压缩参数为中间结点数量 K时，建立所述压缩结点的位图，具体包括：

按照宽度优先的次序遍历所述压缩结点，依次对每个结点的类型进行标识，并将标识结果作为所述压缩结点的形状位图；

按照宽度优先的次序遍历所述压缩结点，依次对每个子结点的类型进行标识，并将标识结果作为所述压缩结点的外部位图。

10、如权利要求 9所述的方法，其特征在于，所述建立所述压缩结点的位图之后还包括: 当所述压缩结点的子结点的类型改变时，调整所述外部位图中所述类型改变的子结点对应的位，所述形状位图不变，以实现增量更新。

11、一种二叉树建立的方法，其特征在于，所述方法包括：

采用选位切分算法对规则集中的非范围规则进行切分；当切分效率低于预先设定的阈值时，将所述规则集中的范围规则转换为前缀，保持所述前缀对应规则的标识与所述范围规则对应的标识不变；

采用所述选位切分算法对所述转换后的规则集进行切分；

根据所有切分结果，建立所述规则集对应的二叉树。

12、如权利要求 11所述的方法，其特征在于，所述方法还包括：

提取切分过程中标识相同的所有需要复制规则，放置到另一个子规则集中；

建立所述另一子规则集对应的二叉树。

13、如权利要求 11所述的方法，其特征在于，所述当切分效率低于预先设定的阈值时，将所述规则集中的范围规则转换为前缀，之后包括：

去掉被覆盖且优先级低的规则。

14、一种二叉树建立的方法，其特征在于，所述方法包括：

采用选位切分算法对规则集进行切分；

提取切分过程中需要复制规则，放置到另一个子规则集中；

分别建立所述规则集和所述另一子规则集对应的二叉树。

15、如权利要求 14所述的方法，其特征在于，所述提取需要复制规则，放置到另一个子规则集中包括：

提取标识相同的所有需要复制规则，放置到所述另一个子规则集中。

16、一种二叉树压缩的装置，其特征在于，所述装置包括：

确定模块，用于确定压缩参数，所述压缩参数为压缩层次 n或中间结点数量 K;

17、如权利要求 16所述的装置，其特征在于，所述压缩参数为压缩层次 n时，所述压缩模块，具体用于

18、如权利要求 16所述的装置，其特征在于，所述压缩参数为压缩层次 n时，所述位图模块，具体用于

19、如权利要求 16所述的装置，其特征在于，所述压缩参数为中间结点数量 K时，所述压缩模块，具体用于

20、如权利要求 19所述的装置，其特征在于，所述压缩模块，还用于在直至遍历完所述二叉树之后，

统计每个中间结点包括自身在内的所有子中间结点的数目；

当压缩结点中的每一中间结点对应的包括自身在内的所有子中间结点的数目都大于所述中间结点数量 κ时，保持所述压缩结点不变；

21、如权利要求 16所述的装置，其特征在于，所述压缩参数为中间结点数量 K时，所述位图模块，具体用于

22、如权利要求 21所述的装置，其特征在于，所述装置还包括：

增量更新模块，用于建立所述压缩结点的位图之后，当所述压缩结点的子结点的类型改变时，调整所述外部位图中所述类型改变的子结点对应的位，所述形状位图不变，以实现增量更新。

23、一种二叉树建立的装置，其特征在于，所述装置包括：

第一切分模块，用于采用选位切分算法对规则集中的非范围规则进行切分；

转换模块，用于当切分效率低于预先设定的阈值时，将所述规则集中的范围规则转换为前缀，保持所述前缀对应规则的标识与所述范围规则对应的标识不变；

第二切分模块，用于采用所述选位切分算法对所述转换后的规则集进行切分；建立模块，用于根据所有切分结果，建立所述规则集对应的二叉树。

24、如权利要求 23所述的装置，其特征在于，所述装置还包括：

提取模块，用于提取切分过程中标识相同的所有需要复制规则，放置到另一个子规则集中。

25、一种二叉树建立的装置，其特征在于，所述装置包括：

切分模块，用于采用选位切分算法对规则集进行切分；

建立模块，用于分别建立所述规则集和所述另一子规则集对应的二叉树。

26、一种二叉树查找的方法，其特征在于，所述方法包括：

获取查找的关键字；

判断二叉树的各个结点是叶子结点、还是压缩结点；

当是压缩结点时，解析所述压缩结点；

当是叶子结点时，遍历所述叶子结点对应的线性表，查找与所述关键字匹配的规则。

27、如权利要求 26所述的方法，其特征在于，所述解析所述压缩结点，具体包括：根据所述压缩结点的形状位图，判断所述压缩结点的各个结点是否是叶子结点。

28、如权利要求 26所述的方法，其特征在于，所述解析所述压缩结点，具体包括：根据所述压缩结点的形状位图，当所述压缩结点中的结点在所述形状位图中为 0时，判断所述结点在外部位图是否为 0，根据判断结果确定所述压缩结点中所述结点对应的子结点是否为叶子结点。

29、一种二叉树查找的装置，其特征在于，所述装置包括：

获取模块，用于获取查找的关键字；

30、如权利要求 29所述的装置，其特征在于，所述处理模块包括第一解析单元，用于根据所述压缩结点的形状位图，判断所述压缩结点的各个结点是否是叶子结点。

31、如权利要求 29所述的装置，其特征在于，所述处理模块包括第二解析单元，用于根据所述压缩结点的形状位图，当所述压缩结点中的结点在所述形状位图中为 0时，判断所述结点在外部位图是否为 0，根据判断结果确定所述压缩结点中所述结点对应的子结点是否为叶子结点。