WO2012116655A1

WO2012116655A1 - 交换单元芯片、路由器及信元信息的发送方法

Info

Publication number: WO2012116655A1
Application number: PCT/CN2012/071845
Authority: WO
Inventors: 拉米⋅茨卡里埃; 艾利克斯⋅乌曼斯基; 熊礼霞
Original assignee: 华为技术有限公司
Priority date: 2011-03-02
Filing date: 2012-03-02
Publication date: 2012-09-07
Also published as: CN102088412B; CN102088412A

Abstract

本发明实施例提供一种交换单元芯片、路由器及信元信息的发送方法。该交换单元芯片包括具有多个输入端口的信元输入模块，缓存通过各输入端口接收到的信元信息，根据对应分配规则对信元信息中的数据信元进行分配，并根据分配结果将数据信元发送给队列引擎模块；队列引擎模块包括多个独立的数据队列引擎子模块，各数据队列引擎子模块接收信元输入模块根据对应分配规则所发送的数据信元，并将数据信元存储在数据队列引擎子模块中对应的队列中；具有多个输出端口的信元输出模块根据调度规则对数据信元进行调度，并通过对应的输出端口向外发送。本发明实施例能够满足互联网的更高流量交换需求。

Description

交换单元芯片、路由器及信元信息的发送方法本申请要求于 2011年 3月 2日提交中国专利局、申请号为 201110050100. 1、发明名称为 "交换单元芯片、路由器及信元信息的发送方法"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域本发明实施例涉及数据交换技术，尤其涉及一种交换单元芯片、路由器及信元信息的发送方法。背景技术目前大容量路由器的交换单元主要采用共享缓存结构，所有的输入和输出端口访问同一块缓存，在每个时钟周期（Clock Cycle ), 所有的输入输出端口可以同时读写，大大提高了交换单元的处理能力。但是，因为缓存读写周期（Memory access cycle ) 的限制，一个 N进 N出的交换单元可以线速处理的信元大小（cel l length) 和其链路的速

cell lensf h

Meoiorv access cycle < - ~― ~~ -——

率（l ink speed ) 存在如下关系： ' ' — ' ' ^N ' ^{mk eed} ，在主频为 400MHz双端口读写处理， l ink speed为 lOGbps , 满足纯 64Byte信元线速的条件下， N〈=20，即交换芯片的芯片之间的物理连接（Serdes ) 个数不超过 20根，这显然大大限制了交换单元芯片的物理连接数目。

将交换单元完全地从物理上分割成几个部分是现有技术解决缓存读写周期限制的一个处理方法。例如，一个 128个 Serdes的交换单元，根据缓存读写周期、链路处理速率、信元大小和链路个数的制约关系，确定链路数目限制，然后就将交换单元分成多个小单元，分别独立地进行数据交换处理。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：现有技术并不是从本质上解决问题，而是采用独立的小单元来拼凑而成交换单元，所有的小单元都完全一样，从资源利用和单元拼接处理上都不利于系统的扩展；而且，因为数据信元被需要分发到不同的小单元，还增加了分发均流和重排的代价，还可能因分发不均匀而导致性能下降。发明内容本发明实施例提供一种交换单元芯片、路由器及信元信息的发送方法，以满足互联网更高流量的交换需求。

本发明实施例提供一种交换单元芯片，包括：

具有多个输入端口的信元输入模块，用于缓存通过各输入端口接收到的信元信息，根据对应分配规则对缓存的信元信息中的数据信元进行分配，并根据分配结果将从缓存中读取的数据信元发送给队列弓 I擎模块；

所述队列引擎模块与所述信元输入模块连接，其包括多个独立的数据队列引擎子模块，各数据队列引擎子模块用于接收所述信元输入模块根据所述对应分配规则所发送的数据信元，并将所述数据信元存储在所述数据队列引擎子模块中对应的队列中；

具有多个输出端口的信元输出模块，用于根据调度规则对多个数据队列引擎子模块中所存储的数据信元进行调度，并通过对应的所述输出端口向外发送。

本发明实施例提供一种路由器，包括本发明各实施例所提供的交换单元芯片。本发明实施例还提供一种信元信息的发送方法，包括：

交换单元芯片中的、具有多个输入端口的信元输入模块缓存通过各输入端口接收到的信元信息，根据对应分配规则对缓存的信元信息中的数据信元进行分配，并根据分配结果将从缓存中读取的数据信元发送给交换单元芯片中的队列引擎模块；所述队列引擎模块与所述队列引擎模块连接，并包括多个独立的数据队列引擎子模块；

所述交换单元芯片中的各数据队列引擎子模块接收所述信元输入模块根据所述对应分配规则所发送的数据信元，并将所述数据信元存储在所述数据队列引擎子模块中对应的队列中；

所述交换单元芯片中的、具有多个输出端口的信元输出模块根据调度规则对多个数据队列引擎子模块中所存储的数据信元进行调度，并通过对应的所述输出端口向外发送。

本发明实施例提供的交换单元芯片、路由器及信元信息的发送方法中，通过将芯片分为若干个独立的数据处理单元，并通过采用性能良好的数据信元分发算法，保证不同的数据处理单元的队列状态一致性，能够满足互联网的更高流量交换需求。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明实施例交换单元芯片结构示意图；

图 2为本发明实施例交换单元芯片的结构模块示意图；

图 3为本发明实施中信元输入模块的结构示意图；

图 4为本发明实施例中交换单元芯片中 IQ信元的读取示意图；

图 5为本发明实施例中数据表示意图；

图 6为本发明实施例分发算法实施过程中的信息矩阵表示意图；

图 7为本发明实施例分发算法实施过程中的 QE选择一示意图；

图 8为本发明实施例分发算法实施过程中的 QE选择另一示意图；

图 9为本发明实施例分发算法实施过程中更新数据表一示意图；

图 10为本发明实施例分发算法实施过程中更新数据表另一示意图；

图 11为本发明实施例分发算法实施过程中更新数据表再一示意图；

图 12为本发明实施例 QE的队列调度示意图；

图 13为本发明实施例 0Q Group与 QE的配合轮询示意图；

图 14为本发明实施例采用交换单元芯片的三级交换网系统示意图。具体实肺式为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例针对现有技术中采用独立的小单元来拼凑交换单元，从资源利用和单元拼接处理上不利于系统的扩展，以及因为数据信元被需要分发到不同的小单元，增加了分发均流和重排的代价甚至导致性能下降等缺陷，提供一种解决方案即在本发明实施例交换结构的交换单元的设计中，将芯片分为若干个独立的数据处理单元，并通过采用性能良好的数据信元分发算法，保证不同的数据处理单元的状态一致性，以满足未来互联网的更高流量交换需求。本发明各实施例中交换单元芯片所采用 8QE的数据分发算法还可以应用于流分类的领域。图 1为本发明实施例交换单元芯片结构示意图，如图 1所示，该交换单元芯片包括信元输入模块 1、队列引擎模块 2和信元输出模块 3 ; 其中，信元输入模块 1具有多个输入端口，交换单元芯片通过多个输入端口接收上行芯片发送的信元信息，信元输入模块 1用于缓存通过各输入端口接收到的信元信息，根据预先设置的对应分配规则对缓存的信元信息中的数据信元进行分配，并根据分配结果将从缓存中读取的数据信元发送给队列引擎模块 2。队列引擎模块 2与信元输入模块 1连接，队列引擎模块 2中包括多个数据队列引擎子模块 21，各数据队列引擎子模块 21相互独立，且用于接收信元输入模块 1根据对应分配规则所发送的数据信元，并将接收到的数据信元存储在数据队列引擎子模块 21中对应的队列中。信元输出模块 3具有多个输出端口，用于根据设置的调度规则对多个数据队列引擎子模块 21中所存储的数据信元进行调度，并通过对应的输出端口向外发送。

具体地，本发明实施例中交换单元芯片中的信元输入模块 1通过其上的输入端口接收数据信元，缓存在其内的输入队列（Input Queue ；简称： IQ) 中；在每个时钟周期 ( Clock Cycle ) 内，根据预设的分发算法对待分发的数据信元进行分配以确定分配给队列引擎模块 2中的哪一个数据队列引擎子模块 21，并根据分配结果将数据信元发送给对应的数据队列引擎子模块 21。本实施例中所采用的分发算法需要保证不同的数据队列引擎子模块 21的队列状态一致。数据队列引擎子模块 21接收数据信元后，按照分配结果将数据信元存储在数据队列引擎子模块 21内所包括的对应的队列中；本实施例中各个数据队列引擎子模块 21内部队列设计相同，均包括多个单播队列和多个多播队列。信元输出模块 3在每个 Clock Cycle内根据调度规则将存储在各数据队列引擎子模块 21内的数据信元调度出队，向外发送给下级芯片实现信元的交换。

本发明实施例提供的交换单元芯片中，队列引擎模块 2还可以包括控制队列引擎子模块 22用于接收信元输入模块 1通过各输入端口接收到的信元信息中的控制信元，并发送给信元输出模块 3。队列弓 I擎模块 2通过其中的数据队列引擎子模块 21存储信元输入模块 1接收到的数据信元，通过其中的控制队列引擎子模块 22存储信元输入模块 1接收到的控制信元，以实现交换单元芯片内部信元交换的控制。

图 2为本发明实施例交换单元芯片的结构模块示意图，图 3为本发明实施中信元输入模块的结构示意图，该交换单元芯片以输入端口和输出端口的数量分别为 128个，数据队列引擎子模块的数量为 8个为例进行详细介绍。如图 2和图 3所示，其中 RX portO^RX port l27表示 128个输入端口， TX portiTTX port l27表示 128个输出端口， QE(T QE7表示 8个数据队列引擎子模块。具体地，在本发明实施例交换结构的交换单元芯片设计中，芯片的 Serdes个数为 128根，基于共享内存的处理公式制约，芯片分为 8个独立的处理单元，称为数据 QE(Q_UeUe Engine), 这 8个数据 QE (即为数据队列引擎子模块）用于处理数据信元。如图 3所示，信元输入模块包括信元接收单元（RX Ports Arbiter) 用于通过各输入端口接收信元信息，并缓存信元信息；信元对应单元（Cells— 2QE Arbiter) 用于根据对应分配规则，建立信元接收单元缓存的信元信息中的数据信元与数据 QE的对应分配关系。信元发送单元（Cells Data MUXs array) 用于根据信元对应单元建立的对应分配关系，将从缓存中读取到的数据信元发送给队列引擎模块中对应的数据 QE。具体地， RX Ports Arbiter单元将数据信元送给 Cells— 2QE Arbiter单元，此单元通过预设的分发算法来决定数据信元被送往哪个数据 QE中，然后数据信元被 Cells Data MUXs array单元送到对应的 QE中。

在本发明实施例的交换单元芯片中，可以包括一专门处理控制信元（如： Request/Grant, BP) 的控制队列引擎子模块，称为控制 QE，其负责转发上下行线卡流量的调度信元（如： Request/Grant ), 以及下行线卡到上行线卡的流控信元（如： BP)。

在本发明实施例的交换单元芯片中，每个数据 QE内采用完全相同的队列设计，例如每个数据 QE内都有 512个单播队列和 256个多播队列，进入数据 QE的数据信元将根据如下规则选择进入的队列（系统中每框有 16个 FIC, 交换单元芯片中识别 4种优先级）：

4框及以下系统：单播信元一根据信元的目的 FIC号和优先级入队；

多播信元一根据信元的源 FIC号和优先级入队；

4框以上系统：单播信元一根据信元的目的框号和优先级入队；（在 SE13模式下，目的地为本框 FIC的信元仍旧按着框内 FIC号和优先级入队； )

多播信元一根据信元的源框号和优先级入队。在本发明实施例的交换单元芯片中，控制队列引擎子模块即控制 QE内建立了三种 FIFO队列，包括第一先入先出队列、第二先入先出队列和第三先入先出队列，分别用于存放调度控制信元（Request/Grant ), 全局 BP信元和队列 BP信元，这三种 FIFO队列之间也采用共享缓存的方式实现。

在本发明实施例的交换单元芯片中，每根链路都对应一个 IQ和 0Q队列，每个队列由三个 FIFO组成，分别存放数据信元， Request/Grant信元和 BP信元。

本发明实施例所提供的交换单元芯片中，各个数据队列引擎子模块是同一芯片内部的数据处理单元，与现有技术通过数量较少的芯片物理拼凑成一个交换单元是完全不同的，本发明实施例的交换单元芯片中，能够基于分发算法对数据信元在整个芯片内部各数据处理单元进行均匀分配，不会带来分发均流和重排的代价，并且不影响系统性能。

以下分别介绍本发明实施例交换单元芯片实现数据信元交换的处理过程。

图 4为本发明实施例中交换单元芯片中 IQ信元的读取示意图，如图 4所示，在每个 Clock Cycle, 交换单元芯片通过其中的信元输入模块顺序地从 128个 IQ中按照顺序依次最多读取 8个数据信元，例如在 Clock CycleO, 从序号为 0到 7的 IQ上读取信元，在 Clock Cyclel , 就从序号为 8到 15的 IQ上读取信元，依次类推和循环。若缓存有控制信元，则还可以在该 Clock Cycle内读取通过各输入端口接收到的信元信息中的控制信元，例如读取 1个上下行线卡的调度控制信元（Request/Grant信元），和 1个系统的流控信元（BP 信元）。

下面介绍发明实施例交换单元芯片的数据 QE的信元分发算法。

8个数据 QE的数据结构是完全相同，由单播 V0Q和多播 MVIQ队列组成。进入数据 QE的信元根据{单播 /多播，优先级，目的地 }进入相应的队列。由于这 8个数据 QE的结构和调度处理完全相同，所以期望它们里面的队列占用状态也是相似的，这样它们就可以处于相似的工作状态，否则，如果某些队列的占用状态在 8个 QE中严重不均衡，就会出现某个 QE没有数据可调度，而某个 QE中囤积了大量的数据来不及调度，造成信元在交换单元中的延迟和抖动很大，严重影响交换单元（Switch Element, SE) 的调度性能。

其中，决定 8个数据 QE中信元分布状态的就是数据 QE的分发算法。为了实现该分发算法，本发明实施例交换单元芯片中信元输入模块可以维护两张数据表，即一包括各 QE 中每个队列占用长度的信息表（以下称为：队列占用信息表）和一包括各 QE的总缓存占用长度的信息表。图 5为本发明实施例中数据表示意图，如图 5所示，其中包括 8个 QE中每个队列的占用长度信息表和 8个 QE的总缓存占用信息表。其中，包括各数据队列引擎子模块中每个队列占用长度的信息表中记录的数值是各 QE中各队列占用长度的相对差值。表 1所表示的是队列 QE0至 QE7中各自的 V0Q0队列中所存储的数据信元数量的差值，假设 QE0、 QEK QE2、 ……、 QE7中实际存储有数据信元数量分别为 97、 98、 99和 100个 (也可以用 Byte数值来表示信元的占用深度），则表中记录的是其之间的差值 {0、 1、 2— 3}，这样操作所需要的比特数要比记录实际长度要小很多。

表 1

QE0 QE1 QE2 QE7

V0Q0 0 1 2 3 本发明实施例中所述对应分配规则包括：根据上述的两个信息表，在各 QE中为每个数据信元选择对应队列占用长度最小、且总缓存占用长度最小的 QE。例如： V0Q 0在 QE0 和 QE1中的队列长度都是 30， QE0总的队列长度是 100， QE1总的队列长度是 90，贝 Ε1被选中。这样就可以避免在相同的队列占用长度时，总是优先选择序号小的 QE。

此分发算法的具体实施过程如下：

1、在每个 Clock Cycle, 信元输入模块会收到最多 8个数据信元，因此从上述的队列占用信息表中获取相应的表项内容。这个步骤结束时，可以得到一个最大 64 (8QE X 8V0Qs ) 的信息矩阵表，如图 6所示。

2、根据信元的映射 V0Q在 8个 QE的占用信息，分发算法从第一个待分发信元开始逐一为其选择相应的 QE， "第一个待分发的信元"采用简单轮询的方法来确定，例如在 clock cycle N时顺序第一个待分发信元被设定为 "第一个待分发的信元"，那么在 clock cycle N+l时顺序第二个待分发信元被设定为 "第一个待分发的信元"。分发算法根据信元映射 V0Q的占用信息选择占用最小的 QE。如果对应的 QE已经在本 Clock Cycle被选择了，就顺序选择 V0Q占用次小的 QE，如图 7所示。

3、如果多个 QE对于同一个 V0Q占用具有相同的占用长度，那么就顺序选择总缓存占用最小的 QE。如图 8所示。

本实施例中，信元输入模块还用于在为各 QE分发完数据信元，以及从各 QE调度出数据信元后，更新上述两个信息表。

4、在每个 Clock Cycle, 完成所有数据信元的分发后，就需要更新队列占用信息表和 QE的总占用信息表，如图 9所示，如果当前 (：1₀ 〔 ( 1₆在053/4/6分别送入了1个相同

V0Q的数据信元，表格信息就做相应的更新。

5、在每个 Clock Cycle, 数据信元从 QE中调度出队后，也要对相应的信息表项内容进行修改。如图 10所示，当 QE4/7都调度了同一个 V0Q的信元出队后的表项更新。

6、如果 QE中调度出队的信元所在的队列正好是当前占用最小的，那么信元出队之后，此 QE的队列占用仍保持为 0，而其他的 QE的对应信息相应加 1。如图 11所示，若 QE3 调度一个信元出队，表项内容做如图修改。

本发明实施例所提供的交换单元芯片，能够解决小包数据的线速调度问题，对于 64Byte的信元可以做到在交换结构中的线速处理；在设计上利用 V0Q队列结构，从原理上消除了单播流量的队头阻塞现象；通过采用性能良好的数据信元分发算法，保证了不同的数据 QE的状态一致性。图 12为本发明实施例 QE的队列调度示意图，如图 12所示，本实施例中每个 QE内的队列采用三级调度方式出队，包括：根据绝对优先原则或权重轮询原则（WRR方式）选择被调度对列的优先级；在具有所选择的优先级的队列中，根据单播 /多播的权重轮询原则选择调度单播或是调度多播；采用简单轮询的方式选择本次可调度的输出队列，并将待调度的数据信元发送到该输出队列中。

具体地，首先，确定被调度队列的优先。如果是绝对优先原则即严格有限调度，就选择当前可以调度的最高的优先级作为本次调度的优先级；如果是 WRR方式，则根据优先级的当前调度权重值选择。

其次，在确定的调度优先级队列中，确定本次调度的单多播类型，根据单播和多播的调度权重值，选择调度单播或者是调度多播。

然后，可能存在多个待调度的队列，这些待调度的队列中的信元对应了多个输出队列（0Q)出口，采用简单轮询的方式选择一个 0Q，并确定此 0Q所对应的待调度队列。

最后，将待调度队列中的信元送到选择的 0Q中，并修改相应的调度参数（此处的调度参数指的是调度器的相关参数（比如对 0Q进行简单轮询的信息记录，待调度队列的状态（是否还有信元）等等），而之前 8QE分发的数据表内容是在信元进入和调度其所在队列后做相应修改。 8个 QE中的数据表和调度器的相关参数本别是不同的内容），完成本次队列调度。

以下介绍本发明实施例所提供的交换单元芯片中的 OQ Group设计。将 128根 Serdes 对应的 OQ (Output Queue) 分成 8组，即 OQ Group, 每组中的 16个 Serdes链；接下一级的不同芯片，每个 OQ Group通过下面的映射方法进行配置：

如果下级芯片个数不大于 16个，每个 OQ Group连接所有的下级芯片；

如果下级芯片个数超过 16个，就通过奇偶或其他方式分平面映射，例如， SE2的个数为 32个时， SE1芯片的 GroupO/2就连接 ID号为偶数的 SE2， SE1的 Groupl/3就连接 ID号为奇数的 SE2。

以下介绍本发明实施例所提供的交换单元芯片中 OQ Group与 QE的配合。为了避免调度多个信元到同一个 0Q中，在任意 clock cycle, 每个数据 QE都对应一个 OQ Group, 即此 QE的数据只能调度到对应的 OQ Group内的 0Q中，例如可以采用图 13所示的方式进行轮询。

图 14为本发明实施例采用交换单元芯片的三级交换网系统示意图，如图 14所示，图中所示的三级交换网系统采用了上述各实施例所提的交换单元架构设计，即 SE13 (图中从逻辑上分为了 SE1和 SE3) 和 SE2为本发明所提交换单元芯片。数据信元在每个交换单元芯片中从 IQ取出后被分发到不同的数据 QE中，在数据 QE中进入对应 V0Q/MVIQ, 最后由队列调度将数据信元调度到对应的 0Q中。控制信元在每个交换单元芯片中从 IQ取出后送入控制 QE中，然后根据流控信元的优先级进行调度，被送入对应的 0Q中。

本发明实施例还提供一种路由器，其中所用的交换单元芯片可以采用上述各实施例所提供的交换单元芯片，其结构和功能此处不再赘述。本发明实施例提供的交换单元芯片同样适用于单级和背靠背交换网结构。

本发明实施例提供的交换单元芯片和路由器，从设计上保证了 64Byte小包在交换单元芯片中的线速处理；从设计上优化了队列的调度过程，在检查队列的可调度性的同时也确定了其 0Q号，将队列的可调度性检查和调度融为一体，只需要对 0Q进行简单轮询调度即可；而且从设计上消除了单播的队列头阻塞（Head of Line blocking; HOL)。

本发明实施例还提供一种信元信息的发送方法，包括如下步骤：

进一步地，本实施例提供的信元信息的发送方法中还可以进一步包括：所述队列引擎模块中包括的控制队列引擎子模块接收所述信元输入模块通过各输入端口接收到的信元信息中的控制信元，并发送给所述信元输出模块的步骤。

本实施例提供的信元信息的发送方法中所涉及的交换单元芯片可以采用上述各交换单元芯片实施例所提供的交换单元芯片，其结构和功能可以参见上述实施例，此处不再赘述。本实施例提供的信元信息的发送方法中所包括各操作步骤也可以参见上述各实施例中提及的处理步骤，此处也不再赘述。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：醒、應、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

权利要求

1、一种交换单元芯片，其特征在于，包括：

2、根据权利要求 1所述的交换单元芯片，其特征在于，所述队列引擎模块还包括：控制队列引擎子模块，用于接收所述信元输入模块通过各输入端口接收到的信元信息中的控制信元，并发送给所述信元输出模块。

3、根据权利要求 1或 2所述的交换单元芯片，其特征在于，所述信元输入模块包括: 信元接收单元，用于通过各输入端口接收所述信元信息，并缓存所述信元信息；信元对应单元，用于根据所述对应分配规则，建立所述信元接收单元缓存的信元信息中的数据信元与所述队列引擎模块中数据队列引擎子模块的对应分配关系；

信元发送单元，用于根据所述信元对应单元建立的所述对应分配关系，将从缓存中读取到的所述数据信元发送给所述队列引擎模块中对应的数据队列引擎子模块。

4、根据权利要求 2所述的交换单元芯片，其特征在于，所述控制队列引擎子模块包括：

第一先入先出队列，用于存储所述控制信元中的调度控制信元；

第二先入先出队列，用于存储所述控制信元中的全局流控信元；

第三先入先出队列，用于存储所述控制信元中的队列流控信元。

5、根据权利要求 1或 2或 4所述的交换单元芯片，其特征在于，各所述数据队列引擎子模块均包括多个单播队列和多个多播队列。

6、根据权利要求 5所述的交换单元芯片，其特征在于，所述输入端口和输出端口的数量分别为 128个，所述数据队列引擎子模块的数量为 8个；所述数据队列引擎子模块中包括 512个单播队列和 256个多播队列。

7、根据权利要求 1或 2或 4或 6所述的交换单元芯片，其特征在于，所述信元输入模块还用于在每个时钟周期内，从缓存的多个数据信元中按照顺序依次读取其中的 8个数据信元。

8、根据权利要求 7所述的交换单元芯片，其特征在于，所述信元输入模块还用于在每个时钟周期内，读取通过各输入端口接收到的信元信息中的控制信元。

9、根据权利要求 1或 2或 4或 6或 8所述的交换单元芯片，其特征在于，所述信元输入模块还维护有一包括各数据队列引擎子模块中每个队列占用长度的信息表和一包括各数据队列引擎子模块的总缓存占用长度的信息表。

10、根据权利要求 9所述的交换单元芯片，其特征在于，所述包括各数据队列引擎子模块中每个队列占用长度的信息表中记录的数值是各数据队列引擎子模块中各队列占用长度的相对差值。

11、根据权利要求 9所述的交换单元芯片，其特征在于，所述对应分配规则包括：根据两个所述信息表，在各数据队列引擎子模块中，为每个数据信元选择对应队列占用长度最小、且总缓存占用长度最小的数据队列引擎子模块。

12、根据权利要求 11所述的交换单元芯片，其特征在于，所述对应分配规则还包括: 若在同一时钟周期内，根据所述对应分配规则所确定的数据队列引擎子模块已经被选择过，则顺序选择对应队列占用长度次小的数据队列引擎子模块。

13、根据权利要求 9所述的交换单元芯片，其特征在于，所述信元输入模块还用于在为各数据队列引擎子模块分发完数据信元，以及从各数据队列引擎子模块调度出数据信元后，更新包括各数据队列引擎子模块中每个队列占用长度的信息表和包括各数据队列引擎子模块的总缓存占用长度的信息表。

14、根据权利要求 1或 2或 4或 6或 8所述的交换单元芯片，其特征在于，所述调度规则为采用三级调度方式出队，包括：

根据绝对优先原则或权重轮询原则选择被调度对列的优先级；

在具有所选择的优先级的队列中，根据单播 /多播的权重轮询原则选择调度单播或是调度多播；

采用简单轮询的方式选择本次可调度的输出队列，并将待调度的数据信元发送到该输出队列中。

15、根据权利要求 14所述的交换单元芯片，其特征在于，包括 8组所述输出队列，每组输出队列通过如下映射方法进行配置：若下级芯片的个数不大于 16，则所述输出队列连接所有的下级芯片；

若下级芯片的个数大于 16，则 8组所述输出队列通过奇偶方式分平面映射。

16、根据权利要求 14所述的交换单元芯片，其特征在于，在任一时钟周期内，每个数据队列引擎子模块仅对应一组输出队列。

17、一种路由器，其特征在于，包括如权利要求 1至 16任一所述的交换单元芯片。

18、一种信元信息的发送方法，其特征在于，包括：

19、根据权利要求 18所述的信元信息的发送方法，其特征在于，还包括：所述队列引擎模块中包括的控制队列引擎子模块接收所述信元输入模块通过各输入端口接收到的信元信息中的控制信元，并发送给所述信元输出模块。