WO2013040730A1

WO2013040730A1 - Ip查找方法和装置以及路由更新方法和装置

Info

Publication number: WO2013040730A1
Application number: PCT/CN2011/001725
Authority: WO
Inventors: 罗腊咏; 谢高岗; 谢应科
Original assignee: 中国科学院计算技术研究所
Priority date: 2011-09-23
Filing date: 2011-10-14
Publication date: 2013-03-28
Also published as: CN102307149B; CN102307149A

Abstract

本发明提供一种IP查找装置，其包括基于TCAM的IP查找引擎和基于SRAM的IP查找流水线，可以同时在这两个查找引擎中进行IP查找。在基于TCAM的IP查找引擎中，存储的是根据路由器的转发信息库构造的1比特特里树的所有叶子节点所对应的前缀，而在基于SRAM的IP查找流水线中，存储的是该特里树的中间节点对应的所有前缀。该装置在实现快速IP查找的同时，支持快速的增量路由更新。而且提高了TCAM的利用率，并缓解了基于FPGA片内SRAM的IP查找流水线存储空间不足的问题。

Description

IP查找方法和装置以及路由更新方法和装置

技术领域

本发明涉及基于 IP的网络路由器，尤其涉及 IP查找方法和路由更新方法。背景技术

IP查找是网络路由器的核心组成部分。自从 1993年采用 CIDR (无类别域间路由）以来， IP查找问题变成了最长前缀匹配（LPM, Longest Prefix Matching ) 问题。给定一个目的 IP地址，路由表中多个 IP前缀可能匹配该地址。在这些匹配的前缀中，最长前缀对应的下一跳信息将正确决定数据包的下一跳。随着网络链路速率朝 40Gbps及其以上发展，基于最长前缀匹配的 IP查找成为路由器中的一个主要瓶颈。为了达到 40Gbps的吞吐量，一个 40字节的网络数据包需要在 8纳秒之内完成 IP查找，这在传统的基于软件的 IP 查找方法中难以实现。有两种硬件平台常用于实现高吞吐量：三态内容可寻址存储器（ TCAM )和静态随机存取存储器（ SRAM )。

TCAM是一种专用的高速查找器件，一个给定搜索关键字可以在 ⁰( 的时间内与 TCAM中存储的所有条目同时进行比较，并输出匹配条目所在的地址。由于 TCAM中的每个存储单元都可以被指定为三种状态（ "0" "1" 和 "X" (随意））之一， TCAM非常适用于最长前缀匹配。然而，一个给定的目的 IP地址，可能匹配 TCAM中存储的多条前缀， TCAM输出地址最小的匹配前缀的地址。因此，为了保证正确的最长前缀匹配， IP前缀在 TCAM中的存储必须遵循一定的顺序限制。这种前缀之间的顺序限制导致路由更新时可能需要大量的前缀移动，从而影响转发性能，导致丟包。

为了解决基于 TCAM的路由更新问题， Devavrat Shah等人提出了两种具体的方法： PLO_OPT 和 CAO_OPT (请参考文献： Fast updating algorithms for TCAMs , Micro 2001 )。在 PLO_OPT方法中，所有的 IP前缀按照前缀长度降序存储在 TCAM中，同时将 TCAM中的空闲空间维护在 TCAM中央位置。在 CAO_OPT方法中，前缀长度顺序限制只应用于同一条链上的 IP前缀（在用 1比特特里树（ 1-bit trie )结构表示的 IP前缀中，一条链指从该特里树的根节点出发的任意一条路径）。上述两种方法都降低了每次路由更新可能导致的前缀移动次数。然而，由于前缀长度顺序限制依然存在，一次路由更新仍然可能导致多次前缀移动。在 Gesan Wang 等人提出的 MIPS ( Minimum Independent Prefix Set, 最小独立前缀集）方法中 (请参考文献： TCAM-Based Forwarding Engine with Minimum Independent Prefix Set (MIPS) for Fast Updating , ICC 2006 ), 使用了一种叶推技术（ leaf pushing ), 将整个前缀集转换为一个不相交的前缀集，从而彻底地避免了前缀顺序。然而，叶推技术可能导致前缀复制。当更新一条被复制的前缀时，与该前缀对应的多条复制前缀都需要更新。因此，在最坏情况下，一次路由更新仍然需要多次 TCAM写操作。

另一个常见的快速查找硬件技术是基于 SRAM 的 IP查找流水线。 1 比特特里树数据结构常用于实现 IP查找流水线。 IP查找流水线的一种筒单实现方式是将特里树的每个层次的节点分别存储到流水线中的一个流水级。每个流水级都有独立的 SRAM来存储特里树节点，因此，多个流水级可以并行查找，从而实现高吞吐量（一个时钟周期输出一个 IP查找结果）。然而， IP查找流水线中流水级的个数跟特里树的层数有直接关系 (对 ipv4来说是 32个），在 IP查找流水线中需要大量的 SRAM。现场可编程逻辑门阵列（ FPGA ) 内部有大量的小 SRAM, 因此， FPGA常用于实现基于 SRAM的 IP查找流水线。在基于 SRAM的 IP查找流水线中，快速的路由更新可以使用 Anindya Basu等人提出的写气泡 (write bubble) 方法实现 (请参考文献： Fast incremental updates for pipelined forwarding engines, INFOCOM 2003 )。

然而， FPGA片内的 SRAM是相对稀缺的资源，对其的合理分配和有效利用尤为重要。最近几年研究学者提出了大量的存储均衡方法，虽然很好的利用了片内的 SRAM资源，但是，从总体上讲，片内的 SRAM资源还是很难满足目前大的路由表对 SRAM容量的需求。片内 SRAM存储容量的不足，成为基于 FPGA片内 SRAM的 IP查找流水线的一个瓶颈，从而降^ 了基于 FPGA片内 SRAM的 IP查找流水线的实用性。发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种 IP 查找装置，在保证快速查找的同时，支持快速的路由更新。本发明的目的是通过以下技术方案实现的：

根据本发明的一个方面，提供了一种 IP查找装置，所述装置包括：基于 TCAM的 IP查找引擎，其用于存储第一前缀集，所述第一前缀集包括根据路由器的转发信息库（FIB )构造的 1 比特特里树的所有叶子节点对应的前缀；

基于 SRAM的 IP查找流水线，其用于存储第二前缀集，所述第二前缀集包括所述特里树的所有中间节点对应的前缀；

优先级仲裁模块，其用于对基于 TCAM的 IP查找引擎和基于 SRAM 的 IP查找流水线的输出结果进行仲裁，以输出下一跳信息。

上述 IP查找装置中，所述第二前缀集以 1 比特特里树的数据结构存储在基于 SRAM的 IP查找流水线中。

上述 IP查找装置中，基于 TCAM的 IP查找引擎的输出结果比基于 SRAM的 IP查找流水线的输出结果具有更高的优先级。

上述 IP查找装置中，当基于 TCAM的 IP查找引擎和基于 SRAM的 IP查找流水线只有一个输出结果时，优先级仲裁模块直接选择该输出结果作为下一跳信息，否则，选择基于 TCAM的 IP查找引擎的输出结果作为下一跳信息。

上述 IP查找装置中，基于 SRAM的 IP查找流水线中的每个流水级都采用独立的双口 SRAM,所述双口 SRAM的一个端口只进行读操作，另一个端口只进行写操作。

根据本发明的另一个方面，提供了基于上述 IP查找装置的 IP查找方法，所述方法包括：

步骤 1 )在接收到待查询的数据包的目的 IP地址后，同时将其送入基于 TCAM的查找引擎和基于 SRAM的查找流水线中进行查找；

步骤 2 ) 当步骤 1 ) 只得到一个查找结果时，直接将该结果作为下一跳信息；当步骤 1 )得到两个查找结果时，选择基于 TCAM的查找引擎所输出的查找结果作为下一跳信息。

根据本发明的又一个方面，提供了基于上述 IP 查找装置的路由更新方法，所述方法包括：

步骤 1 )基于路由器的转发信息库的路由更新，完成对路由器控制平面中辅助的 1比特特里树的更新，得到对第一前缀集和第二前缀集的更新操作序列；步骤 2 )根据所述更新操作序列，针对基于 TCAM的查找引擎和基于 SRAM的查找流水线，在数据平面中分别执行相应的更新操作。

上述路由更新方法中，所述步骤 1 ) 中对路由器控制平面中辅助的 1 比特特里树的更新包括（a ) 插入一条新前缀，（b ) 删除一条已存在的前缀，以及（C )修改一条已存在的前缀。

上述路由更新方法中，所述插入一条新前缀的更新包括以下步骤：步骤 101 )将前缀 P插入原特里树 T中，得到新的特里树 τ，；步骤 102 )在新特里树 Τ，中，找到前缀 Ρ的最长前缀 Q, 所述最长前缀 Q是在新特里树 Τ，中离前缀 Ρ所处节点最近的祖先节点所对应的前缀；

步骤 103 )如果前缀 Ρ是特里树 Τ，中的非叶子前缀，则将前缀 Ρ插入第二前缀集；

步骤 104 )如果 Ρ是特里树 Τ，中的叶子前缀，则判断 Q是否是原特里树 Τ中的非叶子前缀；如果是，则将 Ρ插入第一前缀集，否则将 Q插入第二前缀集并从第一前缀集中删除 Q, 然后将 Ρ插入第一前缀集。

上述路由更新方法中，所述删除一条已存在的前缀的更新包括以下步骤：

步骤 111 )将前缀 Ρ从原特里树 Τ中删除，得到新的特里树 τ，；步骤 112 )在原特里树 Τ中找到前缀 Ρ的最长前缀 Q, 所述最长前缀 Q是在原特里树 Τ中离前缀 Ρ所处节点最近的祖先节点所对应的前缀；步骤 113 )如果前缀 Ρ在特里树 Τ中是非叶子前缀，则从第二前缀集中删除 Ρ;

步骤 114 )如果前缀 Ρ在特里树 Τ中是叶子前缀，则判断 Q 在特里树 Τ，中是否是非叶子前缀，如果是，则从第一前缀集中删除 Ρ ; 否则，从第一前缀集中删除 Ρ, 然后将 Q插入第一前缀集，并从第二前缀集中删除0。

上述路由更新方法中，所述步骤 2) 根据所述更新操作序列，在数据平面中相应地对基于 TCAM的查找引擎进行写操作，对基于 SRAM的查找流水线以写气泡的方式执行更新操作。

根据本发明的又一个方面，还提供了一种路由更新装置，所述装置包括：

基于 TCAM的 IP查找引擎，其用于存储第一前缀集，所述第一前缀集包括根据路由器的转发信息库构造的 1比特特里树的所有叶子节点对应的前缀；

更新控制单元，其用于根据路由器的转发信息库的路由更新，完成对路由器控制平面中辅助的 1比特特里树的更新，以得到对第一前缀集和第二前缀集的更新操作序列；以及用于根据所述更新操作序列，在数据平面中分别对基于 TCAM的查找引擎中的第一前缀集和基于 SRAM的查找流水线中的第二前缀集进行更新。

上述的路由更新装置中，在基于 SRAM的 IP查找流水线中以 1比特特里树的数据结构存储第二前缀集。

上述的路由更新装置中，基于 SRAM的 IP查找流水线中的每个流水级都采用独立的双口 SRAM, 所述双口 SRAM的一个端口只进行读操作，另一个端口只进行写操作。

上述的路由更新装置中，所述更新控制单元主要用于根据路由器的转发信息库的路由更新，采用如上所述的路由更新方法对完成对基于 TCAM 的查找引擎中的第一前缀集和基于 SRAM 的查找流水线中的第二前缀集进行更新。

与现有技术相比，本发明的优点在于：

1、在实现快速 IP查找的同时，支持快速的增量路由更新。通过结合 TCAM和 SRAM的特点，针对其特点分别存储不同类型的前缀，可以实现很高的吞吐量，并同时支持快速的路由更新。在最坏情况下，一次路由更新只需要暂停 IP查找过程 1次 TCAM写操作的时间。

2、提高了 TCAM的利用率，并緩解了基于 SRAM的查找流水线存储空间的不足的问题。由于在本发明中，在基于 TCAM的查找引擎中存储的前缀是不相交的叶子前缀，叶子前缀之间不需要遵循任何顺序限制，因此，叶子前缀可以以任意顺序存储在 TCAM中的任意位置。灵活的存储方式保证了 TCAM的利用率可以接近 100% (仍然需要预留适当的空间供进一步路由更新使用）。而实际存储在基于 SRAM的 IP查找流水线中的重叠前缀集所需的空间也非常小，緩解了 FPGA片内 SRAM存储空间不足的问题。附图说明以下参照附图对本发明实施例作进一步说明，其中：

图 1为根据本发明实施例的 IP查找装置的结构示意图；

图 2 ( a ) 为本发明实施例中所使用的 1比特特里树示意图；图 2 ( b ) 为图 2 ( a ) 所示的特里树的叶子节点对应的不相交前缀集示意图；

图 2 ( c ) 为对应于重叠前缀集的剩余特里树的示意图；

图 3 ( a ) 为根据本发明实施例的基于 SRAM的 IP查找流水线的结构示意图；

图 3 ( b ) 为图 3 ( a ) 所示的 IP查找流水线的每个流水级的细节示意图；

图 4为在图 2 ( a )所示的特里树中插入一条叶子前缀给不相交前缀集和重叠前缀集的带来的变化的示意图；

图 5为在图 2 ( a )所示的特里树中删除一条叶子前缀给不相交前缀集和重叠前缀集的带来的变化的示意图；

图 6为根据本发明的实施例的 IP查找装置的理论吞吐量和实际吞吐量对比示意图；

图 7为用实际路由表仿真的多种基于 TCAM的查找引擎的更新开销对比图。具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图 1示出了 IP查找装置的一个实施例的架构示意图。该 IP查找装置包括两个并行的 IP查找引擎：一个基于 TCAM的 IP查找引擎和一个基于 SRAM的 IP查找流水线。在基于 TCAM的 IP查找引擎中，存储的是根据路由器的转发信息库构造的 1比特特里树的所有叶子前缀，所述叶子前缀为特里树的叶子节点所对应的前缀。在基于 SRAM的 IP查找流水线中存储的是根据路由器的转发信息库构造的 1比特特里树的所有非叶子前缀，所述非叶子前缀为特里树的中间节点所对应的前缀。应指出，根据路由器的转发信息库构造的 1比特特里树的中间节点可能对应前缀，也有可能不对应任何前缀。为了描述方便，下文将 1比特特里树筒称为特里树。其中，可以使用本领域普通技术人员所熟知的构造 1比特特里树的方法来根据路由器的转发信息库构造特里树。在本实施例中，为了直观地显示特里树构造过程，选取了一个筒单的示例前缀集合 P1-P6, 分别对应于 P1: 0*, P2: 00*, P3: 11*, P4: 100*, P5: 101*, P6: 111*。图 2 (a)示出了根据该示例前缀集合构造的 1比特特里树。在该特里树中以及后续所有附图的特里树中，灰色节点代表前缀节点（即，该节点对应一个前缀），有对应的下一跳信息；白色节点代表非前缀节点，没有对应的下一跳信息。值得注意的是，转发信息库中的条目不仅包括前缀，还包括对应的下一跳信息。下一跳信息的管理对于路由更新的影响不大，因此，为了描述的方便，本发明中忽略下一跳信息的管理，转发信息库和前缀集合这两个术语不加以区分。在图 2 (a) 所示的特里树中，前缀 P2、 P4、 P5和 P6均为叶子前缀，将这些叶子前缀收集到一个叶子前缀集合中。图 2 ( b )所示的是图 2 (a)的特里树的叶子前缀集合。由于叶子前缀集合中的前缀两两不相交，所以也可以称之为不相交前缀集。将不相交前缀集存储到 IP查找装置的基于 TCAM的 IP查找引擎中。

在所有的叶子前缀已经被收集到一个单独的叶子前缀集合之后，图 2 (a)所示的原始特里树中的所有叶子节点可以删除。删除掉节点 4、 7、 8 和 9之后，剩下的特里树可能包含非前缀的叶子节点，如图 2 (a) 中所示的节点 5。这些非前缀的叶子节点不存储任何前缀信息，也不继续导向有效的前缀，因此，所有的非前缀的叶子节点都可以递归的删除，直到剩下的特里树中，所有的叶子节点都是前缀节点。最后裁剪后的特里树如图 2 (c)所示。图 2 (c)所示的特里树中对应的前缀（其中， P1对应 0*, P3 对应 11*), 与图 2 ( b ) 中所示的前缀表示的地址范围有重叠，例如 P1表示的地址范围覆盖了 P2表示的地址范围。同时，裁剪过的特里树中前缀之间本身也有可能存在重叠，因此，也可以将图 2 ( C ) 中所示的特里树对应的前缀集合称之为重叠前缀集。这个重叠前缀集中的前缀是不相交前缀集中的前缀的子前缀，例如 P1是 P2的子前缀， P3是 P6的子前缀。在本实施例中，将这个重叠前缀集以 1 比特特里树数据结构存储到 IP查找装置的基于 SRAM的 IP查找流水线中。在其他实施例中，也可以以其他的特里树数据结构将重叠前缀集存储到 IP查找装置的基于 SRAM的 IP查找流水线中。在本实施例中，可以采用基于 FPGA片内 SRAM的 IP查找流水线。对于一个给定的数据包，其数据包头部送入包头解析模块进行解析，抽取出目的 IP 地址。同时，数据包緩存在数据包緩沖区中等待查询的下一跳信息。抽取出目的 IP地址之后，目的 IP地址被同时送入基于 TCAM 的 IP查找引擎和基于 SRAM的 IP查找流水线进行同时查找。由于基于 SRAM的查找流水线中存储的前缀为基于 TCAM的查找引擎中存储的前缀的子前缀， TCAM查找引擎输出的结果具有更高的优先级（代表更长的前缀）。优先级仲裁模块对 TCAM查找引擎和 SRAM查找流水线的输出结果进行仲裁。当只有一个查找引擎输出查找结果时，优先级仲裁模块直接输出该结果作为最终的下一跳信息；当两个查找引擎均输出查找结果时，优先级仲裁模块选择 TCAM查找引擎输出的结果作为下一跳信息。最后，一旦优先级仲裁模块输出下一跳信息，数据包修改模块从数据包緩沖区中读取一个数据包，根据下一跳信息对数据包头部进行相应的修改，然后将数据包发送到下一跳信息指定的物理接口。

由于基于 TCAM的 IP查找引擎和基于 SRAM的 IP查找流水线都可以实现快速查找，因此本实施例中的 IP查找装置同样能够实现快速的 IP 查找。而且本实施例中的 IP 查找装置还有效的緩解了现有的基于 FPGA 片内 SRAM的 IP查找流水线中的存储空间不足的问题。这是因为在该 IP 查找装置的基于 SRAM的 IP查找流水线中，只存储了重叠前缀集。在上文为了方便描述而使用的是一个筒单的示例前缀集合 Pl-P6。但在使用真实的骨干网路由器的转发信息库构造特里树并进行划分后，可以发现，大约 90%的前缀为不相交的叶子前缀，重叠前缀集很小，其对应的裁剪过的特里树的节点数为原始特里树节点数的 12%左右（请参考下文中的表 1的分析结果）。因此，实际存储在基于 SRAM的 IP查找流水线中的重叠前缀集所需的空间非常小。

更重要的是，本实施例中的 IP 查找装置能够支持快速的增量更新，因为在该 IP查找装置的基于 TCAM的 IP查找引擎中，只存储了如图 2( b ) 所示的叶子前缀集合（不相交前缀集）。由于叶子前缀集合中的前缀两两不相交，对于一个给定的目的 IP 地址，最多只能匹配其中的一个前缀。该不相交前缀集在基于 TCAM的 IP查找引擎中的存储不需要考虑任何顺序限制，一条新的前缀可以插入在基于 TCAM的 IP查找引擎中任意可用的位置，而不会导致不正确的最长前缀匹配。可见，在本发明的实施例中，在基于 TCAM的 IP查找引擎中的路由更新，不会导致任何前缀移动；另夕卜，由于该不相交前缀集中的所有前缀天然不相交的，没有任何前缀被复制，因此，对于一次路由更新，最坏情况下只需要一次 TCAM写操作即可完成。

在现有的基于 SRAM的 IP查找流水线中，写气泡常用于实现增量更新 (请参考文献： Fast incremental updates for pipelined forwarding engines , INFOCOM 2003 以及文献： Dynamic pipelining: Making IP lookup truly scalable, SIGCOMM 2005 )。但是在上述现有的方法中，流水线中使用的是单口 SRAM, 写气泡有可能导致 IP查找流水线的停顿，因为 IP查找执行的是读操作，路由更新执行的是写操作，而读、写操作不可能同时在 SRAM的同一个端口进行。目前 FPGA中 SRAM普遍具有双口特性，如 Xilinx公司的 FPGA中的 Block RAM就是双口的。现有的基于双口 SRAM 的 IP流水线设计 (请参考文献： Memory-efficient and scalable virtual routers using FPGA, FPGA 2011 ) , 设计了两条独立的 IP查找流水线，但是这两条流水线均进行 IP 查找和路由更新，虽然提高了性能，但是每个端口仍然是同时既做更新又做查找，并没有解决路由更新对查找的影响。

但是，在根据本发明实施例的 IP查找装置中，整体的 IP查找性能取决于 TCAM的查找性能（因为一般情况下，基于 SRAM的查找流水线的查找性能高于基于 TCAM的查找引擎）。因此，在又一个实施例中，在不影响整体查找性能的情况下，为了保证了在基于 SRAM的查找流水线中，路由更新对 IP查找没有任何影响，在 IP查找装置中采用了基于双口 SRAM 的、具有独立查找和更新通路的 IP查找流水线。

图 3 ( a ) 示出了基于双口 SRAM的、具有独立查找和更新通道通路的 IP查找流水线的一个实施例的结构示意图。其中，双口 SRAM的一个端口专用于 IP 查找，另一个端口专用于路由更新。这样，虽然仍是采用一条流水线，但是路由更新和 IP查找互不影响。图 3 ( b )描述了图 3 ( a ) 所示的每个流水级的具体细节。在如图 3 ( b )所示的流水级中，双口 SRAM 的一个端口只进行读操作，即在 IP 查找时根据节点地址读出节点内容；另外一个端口只进行写操作，即在路由更新时在对应地址处添加或修改节点内容。因此，读、写操作可以无沖突地同时进行。这样，在如图 3 ( a ) 所示的 IP查找流水线中， IP查找和路由更新使用两条不同的数据通路进行，从而解决了路由更新对 IP查找的影响。

更具体地，在该实施例中，当重叠前缀集对应的特里树存储到基于 SRAM的 IP查找流水线时，不同层次的节点存储在不同的流水级中。当进行 IP查找时，目的 IP地址从图 3 ( a )所示的第一个流水级开始依次往后遍历。在每个流水级中，根据上一级输出的节点地址（第一个流水级直接访问地址 0 ), 读出当前流水级中访问的节点信息。如果当前节点为前缀节点，则更新最长前缀的内容。然后，根据目的 IP 地址对应比特的取值 ( 0或 1 ), 以及当前访问节点的左、右孩子指针情况，判断应该遍历的当前节点的孩子节点在下一流水级中的地址。然后，使用孩子节点的地址访问下一个流水级。当 IP 查找从最后一个流水级退出时，记录的最长前缀即为该目的 IP 地址匹配的最长前缀。当进行路由更新时，路由器控制平面的软件中会计算实现当前更新的写气泡。值得注意的是，写气泡本身并不包含任何数据。在写气泡注入流水线之前，路由更新导致的在各个流水级中需要修改的数据及其地址事先由控制平面的软件计算好，然后存储在每个流水级对应的存储写气泡数据的先进先出存储器（ Write Bubble FIFO ) 中（如图 3 ( b )所示）。一个写气泡注入流水级后，依次访问每个流水级。当访问一个具体的流水级时，如果 Write Bubble FIFO中当前内容的有效标志为 1 , 则将当前内容中的数据写入其对应的地址。通过这种方法，写气泡不需要等待数据，访问每个流水级只需要一个时钟周期，这意味着写气泡遍历流水级的速度和 IP 查找遍历流水级的速度相同。因此，可以支持快速的 IP查找和路由更新。

另外，当使用基于 1 比特特里树作为 IP查找流水线的数据结构时，在最坏情况下，一次路由更新只需要一个写气泡（请参考文献： Dynamic pipelining: Making IP lookup truly scalable, SIGCOMM 2005 ), 因此， IP查找和路由更新同时进行时， IP查找不会访问到一个不一致的特里树状态。即使某个 IP查找和写气泡同时访问同一个流水级的同一个节点时， IP查找总是读出修改前的节点内容（请参考 Xilinx公司 FPGA片内 SRAM的 READ_FIRST特性），并且，这种读优先的特性在整个遍历的过程中一直保持。因此，即使路由更新和 IP查找同时进行， IP查找总是访问一棵完整的特里树，不会发生错误的最长前缀匹配。

由此可见，在该实施例中 IP 查找装置中的路由更新的开销非常小，因为基于 SRAM的 IP查找流水线中的路由更新对 IP查找在性能上没有任何影响；而在基于 TCAM的 IP查找引擎中，一次路由更新在最坏情况下只需要进行一次 TCAM写操作。而且与现有的基于双口 SRAM的两条流水线结构相比，本实施例中具有独立查找和更新通路的流水线结构筒单、实现方便。

在又一个实施例中，还提供了一种基于上述 IP查找装置的 IP查找方法，该方法首先将根据路由器的转发信息库所构造的特里树分割成一个不相交的叶子前缀集合和一个重叠的前缀集合；将不相交的叶子前缀集合存储在基于 TCAM的查找引擎中，将重叠的前缀集合以特里树的数据结构存储在基于 SRAM的查找流水线中；同时在基于 TCAM的查找引擎和基于 SRAM的查找流水线中进行 IP查找。主要包括以下步骤：

步骤 1 , 分割根据路由器的转发信息库所构造的特里树。

首先，将所构造的特里树的所有叶子前缀收集到一个集合（即不相交前缀集）。接着将原始特里树中的所有叶子节点删除，并从剩下的特里树中递归删除所有的非前缀叶子节点，直到裁剪后的特里树中，所有的叶子节点都是前缀节点。最后将裁剪后的特里树对应的所有前缀收集到另一个集合（即重叠前缀集）

步骤 2, 将不相交前缀集存储到基于 TCAM的查找引擎中，将重叠前缀集以特里树的数据结构存储到基于 SRAM的查找流水线中。

步骤 3 , 同时在基于 TCAM的查找引擎和基于 SRAM的查找流水线中进行 IP查找，当在基于 TCAM的查找引擎和基于 SRAM的查找流水线中只得到一个查找结果时，直接将该查找结果作为最终的下一跳信息；当在基于 TCAM的查找引擎和基于 SRAM的查找流水线中均得到查找结果时，选择基于 TCAM的查找引擎中的查找结果作为下一跳信息。

在又一个实施例中，还提出了一种用于上述 IP 查找装置的路由更新方法。在上述 IP 查找装置的实例中，一次针对原始的转发信息库的路由更新，可能导致基于 TCAM的查找引擎和基于 SRAM的查找流水线中都产生路由更新。一次路由更新可以分为三类：（1 )插入一条新前缀；（2 ) 删除一条已存在的前缀；（3 )修改一条已存在的前缀。第三类更新的实现非常筒单，因为该类更新仅仅是对已有前缀的下一跳信息的修改，不会改变原始特里树的性质。然而，前面两类更新相对复杂，插入或者删除一条前缀均可能导致原始特里树形状的改变，从而同时影响不相交前缀集和重叠前缀集。

通常，在路由器的控制平面维护一个辅助的 1比特特里树，用于记录前缀存储在上述 IP查找装置中的位置。应指出这个 1 比特特里树是在路由器的控制平面中（比如： CPU中）进行维护的，用于辅助路由更新。针对这个辅助 1比特特里树的任何操作，都不会影响转发过程，因为转发引擎是在数据平面中。

在该实施例中，一次完整的路由更新操作包括两个阶段。第一个阶段完成对路由器控制平面中辅助的特里树的更新。该阶段的主要目的是找到该路由更新对不相交前缀集和重叠前缀集的影响。根据第一个阶段的结果，第二个阶段主要分别针对基于 TCAM的查找引擎和基于 SRAM的查找流水线，在数据平面中具体实施更新操作（针对 TCAM的写操作以及针对 SRAM的写气泡）。下面结合图 4和图 5来更清楚地介绍上述路由更新过程。

图 4所示的是在图 2 ( a ) 所示的特里树中插入一条新叶子前缀 P7的场景。在前缀 P7插入之前，前缀 P2、 P4、 P5和 P6为叶子前缀，属于不相交前缀集，应该存储在基于 TCAM的查找引擎中；前缀 P1和 P3为中间节点存储的前缀，属于重叠前缀集，应该以特里树的方式存储到基于 SRAM的 IP查找流水线中。在前缀 P7插入之后， P7所在的节点为一个新的叶子节点，因此，前缀 P7在更新后的特里树中变成一个新的叶子前缀。另外，由于前缀 P7的插入，之前的叶子前缀 P2变成了非叶子前缀。前缀 P7的插入给不相交前缀集和重叠前缀集带来的改变可以归纳为：（ 1 )前缀 P2应该插入到重叠前缀集中；（2 ) 前缀 P2应该从不相交前缀集中删除； ( 3 )前缀 P7应该插入到不相交前缀集。在这些改变在控制平面中被发现后，前缀 P2应该以写气泡的方式插入到基于 SRAM的 IP查找流水线中，前缀 P7应该覆盖基于 TCAM的查找引擎中已经存储的前缀 P2。叶子前缀在基于 TCAM的查找引擎中的存储位置，可以记录在控制平面的辅助的 1 比特特里树的叶子节点中。

图 5所示的是在图 2 ) 所示的特里树中删除一条已存在的前缀 P2 的场景。在删除前缀 P2之前，前缀 P2、 P4、 P5和 P6为叶子前缀，属于不相交前缀集，应该存储在基于 TCAM的查找引擎中；前缀 P1和 P3为中间节点存储的前缀，属于重叠前缀集，应该以特里树的方式存储到基于 SRAM的 IP查找流水线中。在删除前缀 P2之后，之前的非叶子前缀 P1 变成了叶子前缀。前缀 P2 的删除给不相交前缀集和重叠前缀集带来的改变可以归纳为：（ 1 )前缀 P2应该从不相交前缀集中删除；（2 )前缀 P1应该插入到不相交前缀集；（3 ) 前缀 P1应该从重叠前缀集中删除。在这些改变在控制平面中被发现后，前缀 P1应该覆盖基于 TCAM的查找引擎中已经存储的前缀 P2。叶子前缀在基于 TCAM的查找引擎中的存储位置，可以记录在控制平面的辅助的 1比特特里树的叶子节点中。另外，前缀 P1 在重叠前缀集中的删除操作，应该以写气泡的方式在基于 SRAM的 IP查找流水线中进行。

图 4和图 5所示的仅仅是两种典型的更新场景，其它类型的插入和删除操作可以类似地完成。其中，所采用的前缀插入算法为：

输入：特里树 T, 以及待插入的前缀 P

输出：插入前缀 P给不相交前缀集 S1和重叠前缀集 S2带来的变化

1 将前缀 p插入特里树 τ中，得到新的特里树 τ

2 在特里树 T中，找到前缀 P的最长前缀 Q

3 如果 P是特里树 T中的非叶子前缀

4 将 P插入集合 S2 ;

5 否则, 如果 P是特里树 T中的叶子前缀

6 如果 Q是特里树 T中的非叶子前缀

7 将 P插入集合 S1 ;

8 否则, 如果 Q是特里树 T中的叶子前缀

9 将 Q插入集合 S2 ;

10 将 Q从集合 si删除，然后将 p插入集合 si；

其中，最长前缀 Q是特里树中离 P所处节点最近的祖先节点所对应的前缀，也就是说如果 P所处节点的父节点是前缀节点，那么，其父节点对应的前缀就是最长前缀 Q; 如果其父节点不是前缀节点，那么，继续向上，找到其最近的包含前缀信息的祖先节点，该祖先节点对应的前缀就是最长前缀 Q。

所采用的前缀删除算法如下：

输入：特里树 T, 以及待删除的前缀 P

输出：删除前缀 P给不相交前缀集 S1和重叠前缀集

S2带来的变化 1 将前缀 p从特里树 τ中删除, 裁剪后得到新的特里树 τ

2 在特里树 Τ中找到前缀 Ρ的最长前缀 Q

3 如果 ρ在特里树 τ中是非叶子前缀

4 从集合 S2 中删除 Ρ;

5 否则, 如果前缀 Ρ在特里树 Τ中是叶子前缀

6 如果 Q在特里树 Γ中是非叶子前缀

7 从集合中删除 Ρ;

8 否则, 如果 Q在特里树 Τ中是叶子前缀

9 从集合中删除 Ρ, 然后将 Q插入集合 S1 ;

10 从集合 S2 中删除上述前缀插入和删除算法都在路由器的控制平面中完成，时间复杂度为 O( )，其中， /为待更新的前缀的长度。从上述两个算法可以得出如下结论：一次路由更新在最坏情况下对每个查找引擎只产生一次写操作（一次

TCAM写操作和一个写气泡 ),更新开销非常小（需要注意的是，在 TCAM 中插入一条前缀和删除一条可以合并成一次写操作。例如，在前缀插入算法的步骤 10中，在不相交前缀集中删除前缀 Q和插入前缀 P, 可以用一次写操作完成：将前缀 P插入到前缀 Q存储的位置（即：用前缀 P覆盖前缀 Q ) )。

另外，对上述 IP查找装置中的基于 TCAM的查找引擎和基于 SRAM 的查找流水线的写操作之间的顺序必须按照上述算法的步骤的顺序，以防止不正确的最长前缀匹配。例如，在前缀插入算法的步骤 9和步骤 10的执行顺序，必须保持算法中描述的顺序，否则，在两个写操作执行的间隙时间内，前缀 Q将会在整个 IP查找装置中消失一段时间，影响整个路由表的完整性，可能导致不正确的最长前缀匹配。

在本发明的又一个实施例中，还提供了一种路由更新装置，所述装置包括如上文所述的基于 TCAM的 IP查找引擎和基于 SRAM的 IP查找流水线以及更新控制单元。其中，更新控制单元主要用于根据路由器的转发信息库的路由更新，采用如上文所述的路由更新方法对完成对基于 TCAM 的查找引擎中的不相交前缀集和基于 SRAM 的查找流水线中的重叠前缀集的更新。

性能分析发明人设计了一系列实验来评估上述实施例所提供的 IP 查找装置的有效性，以及与相关技术相比的优越性。

实验用的路由表文件是从 RIPE RIS项目（请参考： RIS RAW Data, http://www.ripe.net/data-tools/stats/ris/ris-raw-data ) 中下载的 14个 IPv4路由表。一般情况下，所有的路由表的前缀都大致相同（因为每个骨干路由器对全网的视图基本上是一样的）。使用上文所述的特里树分割方法对这些路由表进行处理，得到的结果如表 1所示。

表 1

表 1所示的是 14个路由表的统计结果。从表 1 中可以看出，对于所有的路由表，超过 90%的前缀是叶子前缀，均被包含在不相交前缀集中。最后裁剪过的特里树的节点数为原始特里树节点数的 12%左右。基于该数据分析结果，可以得出如下结论：

( 1 ) 将根据路由器的转发信息库构造的特里树进行划分后，大部分 ( 90% )的前缀存放于基于 TCAM的查找引擎中。同时，由于这些前缀为不相交的叶子前缀，存储在基于 TCAM 的查找引擎中时没有任何顺序限制。该特性保证了基于 TCAM的查找引擎中路由前缀的快速更新；

( 2 )在删除了叶子节点之后，基于 SRAM的 IP查找流水线所需要存储的特里树节点数显著的降低（只有原始特里树节点数的 12%左右）。因此， FPGA片内 SRAM大小不足的问题得到了很大程度上的緩解。

图 6所示的是根据采用上述实施例提供的 IP查找装置在一个具有四个千兆网络接口的 PEARL平台（请参考： PEARL: A programmable virtual router platform, IEEE Communications Magazine 2011 ) 上实现的吞吐量。 PEARL平台配有一个 Xilinx公司的 Virtex-5系列 XC5VLX110T-1 FPGA, 以及一个 IDT公司的 IDT75K72100 TCAM。基于 SRAM的 IP查找流水线在 Xilinx FPGA中实现，基于 TCAM的 IP查找引擎基于 IDT的 TCAM实现。 FPGA布局布线后的时序报告显示， FPGA内部基于 SRAM的 IP查找流水线的最大时钟频率为 297MHz (意味着该流水线的最大吞吐量为 297 MLPS (百万次查找每秒））。同时，该基于 TCAM的 IP查找引擎的最大吞吐量为 250 MLPS, 因此，该实施例的最大理论吞吐为 250 MLPS, 远远超过了 100G以太网的吞吐量需求（在 100G以太网中， IP查找的最大吞吐量需求大约为 148 MLPS )。然而，由于 PEARL硬件平台只有四个千兆物理接口，受限于真实物理接口的带宽，本发明的实施例中能够测试出的最大吞吐量大约为 5.95 MLPS。图 6所示的即为基于 PEARL平台实现的 IP 查找装置的实际测试吞吐量与该平台能否获得的理论最大吞吐量（4个千兆线速）的对比图。从图 6 中可以看出，该实施例中 IP查找装置的实际吞吐量能够达到 4个千兆接口的线速。

而且，该 IP 查找装置还有一个显著的优点是支持快速的路由更新。为了全面比较本发明中 IP 查找装置的更新开销与之前其它技术 ( PLO_OPT/CAO_OPT、 MIPS以及之前基于写气泡实现路由更新的技术）的更新开销的大小，在实验中使用每次更新的 TCAM写操作次数，作为基于 TCAM的 IP查找引擎的更新开销大小的度量标准；使用每个写气泡造成的查找过程停顿的时钟周期数，作为基于 SRAM的 IP查找流水线的更新开销大小的度量标准。

表 2为各种基于 TCAM的查找引擎的更新开销（以平均每次更新所需的 TCAM写操作次数来进行表示）在理论上的对比结果。在最好情况下， PLO_OPT技术和 CAO_OPT技术的更新开销为一次更新只需要 1次 TCAM 写操作，而 MIPS方法和本发明中的 IP查找装置的更新开销为一次更新只需要 0次 TCAM写作操作。然而，在最坏情况下，各种技术更新开销的差异较大。在 PLO_OPT技术中，前缀长度顺序需要保持，并且 TCAM的空闲空间维护在 TCAM中部，因此一次更新在最坏情况下需要 W/2次 TCAM 写操作（其中， w 为前缀的最大长度，在 IPv4 的情况下， W=32 )。在 CAO_OPT技术中，前缀的链式顺序需要保持，并且 TCAM的空闲空间维护在 TCAM中部，因此一次更新在最坏情况下需要 D/2次 TCAM写操作 (其中， D为最长链的长度，在 IPv4的情况下， D理论上的最大值为 32 )。 MIPS技术使用叶推（leaf pushing )技术将原始的前缀集合转换为一个不相交的前缀集合，从而避免前缀之间的任何顺序要求。然而，叶推可能导致前缀复制。在最坏情况下，一个前缀可能被复制 f—¹次。在本发明的 IP 查找装置中，存储在 TCAM中的前缀集合是自然不相交的前缀，既不需要维护任何前缀顺序，也没有任何前缀被复制，因此最坏情况下一次路由更新也只需要 1次 TCAM写操作。

表 2

图 7为用实际路由表仿真的运行时更新开销（以平均每次更新所需的 TCAM写操作次数来进行表示）对比图，使用的路由表文件 rrcOO和一个小时的路由更新文件均从 RIPE RIS项目获取（请参考： RIS RAW Data, http://www.ripe.net/data-tools/stats/ris/ris-raw-data )» 图 7中的四条曲线分别表示四种方法的平均更新开销随着更新的前缀数目的增加而变化的情况。在本发明的 IP查找装置中，平均更新开销一直低于 1次 TCAM写操作每秒。该实验结果可以用如下事实来解释：当一次路由更新发生在一个叶子前缀上时，只需要 1次 TCAM写操作；当一次路由更新发生在一个非叶子前缀时，需要 0次 TCAM写操作。因此，一次路由更新所需的平均 TCAM 写操作一直低于 1次。从图 7所示的曲线可以看出，本发明的 IP查找装置中，一次路由更新平均需要的 TCAM写操作次数远低于其它三种方法。更为重要的是，最坏情况下一次路由更新所需的 TCAM写操作次数，直接决定了 IP查找装置中数据包緩沖区的大小（为了防止路由更新时 IP查找性能下降导致的丟包，需要用一个数据包緩沖区緩存更新时等待查找的数据包）。而本发明的 IP查找装置中，用实际路由表仿真的最坏情况下的更新开销（一次路由更新只需要 1次 TCAM写操作 )远远低于其它三种方法 (如表 3所示，表 3为用实际路由表仿真的更新开销对比结果）。

表 3

另外，在现有的基于写气泡实现路由更新的技术中（参考文献 Fast incremental updates for pipelined forwarding engines , INFOCOM 2003和文献 Dynamic pipelining: Making IP lookup truly scalable, SIGCOMM 2005 ), 每个写气泡在最坏情况下会导致路由查找停顿一个时钟周期。在本发明的实施例中，通过采用基于双口的具备独立查找和更新数据通路的 SRAM流水线，彻底消除了基于 SRAM的 IP查找流水线中路由更新对 IP查找的影响。

综上所述，本发明实施例的 IP查找装置及其 IP查找和路由更新方法，在保证快速查找的同时，实现了快速更新。一次路由更新最坏情况下只会产生一次 TCAM写操作，同时，对基于 SRAM的 IP查找流水线部分没有任何影响。路由更新开销远远低于现有相关技术。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

权利要求

1. 一种 IP查找装置，包括：

2.根据权利要求 1所述的 IP查找装置，其中，所述第二前缀集以 1比特特里树的数据结构存储在基于 SRAM的 IP查找流水线中。

3.根据权利要求 1所述的 IP查找装置，其中，对基于 TCAM的 IP查找引擎的输出结果比基于 SRAM的 IP查找流水线的输出结果具有更高的优先级。

4.根据权利要求 1所述的 IP查找装置，其中当基于 TCAM的 IP查找引擎和基于 SRAM的 IP查找流水线只有一个输出结果时，优先级仲裁模块直接选择该输出结果作为下一跳信息，否则，选择基于 TCAM的 IP查找引擎的输出结果作为下一跳信息。

5.根据权利要求 1、 2、 3或 4所述的 IP查找装置，其中基于 SRAM 的 IP 查找流水线中的每个流水级都采用独立的双口 SRAM, 所述双口 SRAM的一个端口只进行读操作，另一个端口只进行写操作。

6.—种基于如上述任一权利要求所述的 IP查找装置的 IP查找方法，所述方法包括：

7.—种基于如权利要求 1、 2、 3、 4或 5所述的 IP查找装置的路由更新方法，所述方法包括：

步骤 1 )基于路由器的转发信息库的路由更新，完成对路由器控制平面中辅助的 1比特特里树的更新，得到对第一前缀集和第二前缀集的更新操作序列；

步骤 2 )根据所述更新操作序列，针对基于 TCAM的查找引擎和基于 SRAM的查找流水线，在数据平面中分别执行相应的更新操作。

8.根据权利要求 7所述的路由更新方法，所述步骤 1 ) 中对路由器控制平面中辅助的 1 比特特里树的更新包括（a )插入一条新前缀，（b )删除一条已存在的前缀，以及（c )修改一条已存在的前缀。

9.根据权利要求 8所述的路由更新方法，所述插入一条新前缀的更新包括以下步骤：

步骤 101 )将前缀 P插入原特里树 T中，得到新的特里树 ;

步骤 102 )在新特里树 T，中，找到前缀 P的最长前缀 Q, 所述最长前缀 Q是在新特里树 T，中离前缀 P所处节点最近的祖先节点所对应的前缀；步骤 103 )如果前缀 P是特里树 T，中的非叶子前缀，则将前缀 P插入第二前缀集；

步骤 104 )如果 P是特里树 T，中的叶子前缀，则判断 Q是否是原特里树 T中的非叶子前缀；如果是，则将 P插入第一前缀集，否则将 Q插入第二前缀集并从第一前缀集中删除 Q, 然后将 P插入第一前缀集。

10.根据权利要求 8所述的路由更新方法，所述删除一条已存在的前缀的更新包括以下步骤：

步骤 111 )将前缀 P从原特里树 T中删除，得到新的特里树 ;

步骤 112 )在原特里树 T中找到前缀 P的最长前缀 Q, 所述最长前缀 Q 是在原特里树 T中离前缀 P所处节点最近的祖先节点所对应的前缀；

步骤 113 )如果前缀 P在特里树 T中是非叶子前缀，则从第二前缀集中删除 P;

步骤 114 )如果前缀 P在特里树 T中是叶子前缀，则判断 Q 在特里树 T，中是否是非叶子前缀，如果是，则从第一前缀集中删除 Ρ；否则，从第一前缀集中删除 Ρ, 然后将 Q插入第一前缀集，并从第二前缀集中删除0。

11.根据权利要求 7所述的路由更新方法，所述步骤 2) 根据所述更新操作序列，在数据平面中相应地对基于 TCAM的查找引擎进行写操作，对基于 SRAM的查找流水线以写气泡的方式执行更新操作。

12.—种路由更新装置，所述装置包括：

13.根据权利要求 12所述的路由更新装置，其中，在基于 SRAM的 IP 查找流水线中以 1比特特里树的数据结构存储第二前缀集。

14.根据权利要求 12所述的路由更新装置，其中，基于 SRAM的 IP 查找流水线中的每个流水级都采用独立的双口 SRAM ,所述双口 SRAM的一个端口只进行读操作，另一个端口只进行写操作。

15.根据权利要求 12、 13或 14所述的路由更新装置，其中所述更新控制单元对路由器控制平面中辅助的 1 比特特里树的更新包括（a )插入一条新前缀，（b ) 删除一条已存在的前缀，以及（c )修改一条已存在的前缀。

16.根据权利要求 15所述的路由更新装置，所述更新控制单元以如下方式插入一条新前缀：

( 101 )将前缀 P插入原特里树 T中，得到新的特里树 T，；

( 102 )在新特里树 Τ，中，找到前缀 Ρ的最长前缀 Q, 所述最长前缀 Q是在新特里树 Τ，中离前缀 Ρ所处节点最近的祖先节点所对应的前缀；

( 103 )如果前缀 Ρ是特里树 Τ，中的非叶子前缀，则将前缀 Ρ插入第二前缀集；

( 104 )如果 Ρ是特里树 Τ，中的叶子前缀，则判断 Q是否是原特里树 Τ中的非叶子前缀；如果是，则将 Ρ插入第一前缀集，否则将 Q插入第二前缀集并从第一前缀集中删除 Q, 然后将 Ρ插入第一前缀集。

17.根据权利要求 15所述的路由更新装置，所述更新控制单元以如下方式删除一条已存在的前缀： ( 111 )将前缀 P从原特里树 T中删除，得到新的特里树 τ，；

( 112 )在原特里树 Τ中找到前缀 Ρ的最长前缀 Q, 所述最长前缀 Q 是在原特里树 Τ中离前缀 Ρ所处节点最近的祖先节点所对应的前缀；

( 113 )如果前缀 Ρ在特里树 Τ中是非叶子前缀，则从第二前缀集中删除 Ρ;

( 114 )如果前缀 Ρ在特里树 Τ中是叶子前缀，则判断 Q 在特里树 Τ，中是否是非叶子前缀，如果是，则从第一前缀集中删除 Ρ；否则，从第一前缀集中删除 Ρ, 然后将 Q插入第一前缀集，并从第二前缀集中删除0。

18.根据权利要求 12所述的路由更新装置，其中，所述更新控制单元在数据平面中以对基于 TCAM 的查找引擎进行写操作的方式对第一前缀集进行更新；以及以写气泡的方式对基于 SRAM的查找流水线中的第二前缀集进行更新。