WO2012149867A1

WO2012149867A1 - 数据中心网络系统

Info

Publication number: WO2012149867A1
Application number: PCT/CN2012/074319
Authority: WO
Inventors: 孙延涛; 刘强; 方维维; 刘真
Original assignee: 中兴通讯股份有限公司
Priority date: 2011-05-05
Filing date: 2012-04-18
Publication date: 2012-11-08
Also published as: CN102164088B; CN102164088A

Abstract

本发明涉及一种数据中心网络系统，该系统包括行首交换机、列首交换机和呈矩阵排列的接入交换机，每行的行首至少部署一个行首交换机，每列的列首至少部署一个列首交换机，服务器与接入交换机相连接，接入交换机与其所在行的所有行首交换机及其所在列的所有列首交换机相连接。各种交换机和服务器按照一定的规则进行编址。本发明可以消除网络通信瓶颈，并且网络结构简单、灵活、容易扩展，便于网络实施和维护。另外数据中心可以采用高性价比的普通三层交换机进行组网，建网成本低。

Description

数据中心网络系统技术领域

本发明涉及一种数据中心网络系统。背景技术

数据中心是企业各种应用服务的提供中心，也是数据运算、交换和存储的中心。它结合了先进的网络技术和存储技术，承载了网络中 80%以上的服务请求和数据存储量，为客户业务体系的顺利运转提供了服务和运行平台。

数据中心最早出现在 20世纪 60年代初。随着互联网的快速建设和信息技术的迅猛发展，到 20世纪 90年代中后期，数据中心进入了蓬勃发展期，建设规模和服务器数量每年都以惊人的速度增长。互联网技术的蓬勃发展掀起了建设数据中心的高潮，不但政府机构和金融电信等大型企业扩建自己的数据中心，中小企业也纷纷构建数据中心。自 2006年 Google公司提出云计算以来，在亚马逊、微软、雅虎、 IBM等 IT公司的大力推动下，云计算技术得到长足发展，美国、韩国、日本政府都宣布了国家云计算发展战略。云计算的发展进一步带动了数据中心的迅速发展，数据中心网络规模不断扩大，目前一个大型数据中心可能包含数万台服务器。

随着数据中心规模的日益扩大，数据中心容纳的服务器数量也越来越多，因此需要巨大的上层网络带宽支持。数据中心网络的典型拓朴结构是由路由和交换单元组成的类似树形的网络结构，其上层网络为了支持大量的带宽需求不得不采用昂贵的专用设备。问题是，即使采用最高端的 IP 交换机或路由器，核心层也是只能支持到 50%的边缘网络汇集的带宽，而且需要巨大的费用开销。因此树形拓朴结构不可避免地会在上层核心网络产生通信瓶颈，从而导致网络传输延迟，在传输效率等方面性能下降。另外，在数据中心，这种非对称的网络带宽还会导致应用设计的复杂。

为了解决上层核心网络带宽不足带来的通信瓶颈问题，目前通过检索到的方法来看，一般采用 Clos网络或者胖树（Fat Tree )拓朴组成无阻塞网络，并根据拓朴结构的特点，提出相应的路由 /交换方法。另外，还有些方法利用服务器的多网卡技术，将服务器同时连接到多个交换机 /路由器上，从而增加服务器之间的连接数量，来解决上层核心网络带宽不足的问题。这些结构和传统的树形结构相比，具有较高的二分带宽（ bisection bandwidth ), 并且每一层路由 /交换设备的超额订购（Oversubscription )比例都可以达到 1 : 1 , 因此可以有效消除顶层带宽不足带来的网络瓶颈问题。

上述网络结构虽然解决了构建大规模数据中心网络的上层带宽瓶颈问题，但仍然存在如下缺点：（1 ) 由于其拓朴结构的限制，网络流量的超额订购（Oversubscription )比例很难按照实际需求进行灵活的调整，网络配置的灵活性差；（2 )其网络拓朴结构比较复杂，设备编址需要遵循严格复杂的规则，设备端口之间按照严格的顺序进行连接，这些问题导致数据中心在网络布线和设备部署方面比较繁瑣，运行过程中网络维护也会相对比较困难；（3 ) 由于拓朴结构复杂，导致其路由算法也相对比较复杂；（4 )在构建规模较小的数据中心网络时，会存在端口空余浪费的情况，网络伸缩性较差。发明内容

本发明提出了一种数据中心网络系统。该系统降低了数据中心的建网成本，同时解决了核心层链路带宽不足的问题。在该数据中心网络系统中，核心层不需要采用昂贵的高速设备，而是和接入层一样，采用高性价比的普通交换机。针对该网络系统的拓朴结构，制定了网络编址规则，并提出了一种快速的路由方法。本发明采取了如下技术方案。本发明包括交换机和服务器两类设备，所述交换机包括行首交换机、列首交换机和呈矩阵排列的接入交换机，矩阵的每行行首至少部署一个行首交换机，每列列首至少部署一个列首交换机，服务器与接入交换机相连接，每个接入交换机与其所在行的所有行首交换机及其所在列的所有列首交换机相连接。每个行首交换机和本行内的所有接入交换机相连接，每个列首交换机和本列内的所有接入交换机想连接。任意行首交换机和列首交换机之间、以及各接入交换机之间不直接相连。上述连接关系称之为交换式矩阵拓朴。

所述交换机和服务器采用内部网络 IP地址，并按照如下规则进行编址：行首交换机的 IP 地址配置为 lO.Row.O.X; 列首交换机的 IP地址配置为 lO.O.Col.X; 接入交换机的 IP地址配置为 lO.Row.Col.l ; 服务器的 IP地址配置为 10.Row.CoLX。其中 Row为交换机或服务器所在行的行号， Col为交换机或服务器所在列的列号；对于行首 /列首交换机， 0 < J≤ 255 , 对于服务器， 1 < J≤ 255。所有设备的子网掩码均设为 255.255.255.0。

与现有数据中心网络相比，本发明具有以下优点：

1 )本发明提出的交换式矩阵拓朴结构和现有的基于 Clos网络、胖树网络和以服务器为中心的网络结构相比，同样可以达到相同的二分带宽 ( bisection bandwidth ),每一层路由 /交换设备的超额订购（ Oversubscription ) 比例也同样可以达到 1 : 1。

2 )本发明提出的交换式矩阵拓朴结构更为简洁清楚，更方便网络设备的部署和网络布线。大型数据中心网络包含大量网络设备，并且设备之间连接有大量网线，因此简洁清楚的网络拓朴为网络实施和维护提供了很大的便利。

3 )本发明对设备端口之间的连接没有严格的顺序要求，这一特点同样简化了网络维护操作。 4 )本发明具有良好的伸缩性，通过增加路由 /交换设备，不需要调整已有拓朴就可以方便地对网络规模进行扩展，可以支持的网络规模可以从几十台服务器到几万台服务器。

5 )本发明具有很好的灵活性，可以根据实际应用需要通过调整行首交换机和列首交换机的数量，灵活地改变接入交换机和行首交换机及接入交换机和列首交换机之间的超额订购（ Oversubscription ) 比例。

6 )本发明采用的路由 /交换算法更为简单，便于理解和实现，此外路由算法支持等价多路径路由 ECMP ( Equal-Cost Multipath Routing )技术，具备负载均衡能力。附图说明

图 1为由 6个端口的交换机组成的数据中心网络系统。具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供的数据中心网络系统中，网络采用规则化的拓朴结构（交换式矩阵拓朴），并按照一定的规则进行编址。数据中心网络系统由一组行首交换机 10.Row.0.X、列首交换机 lO.O.Col.X,接入交换机 10.Row.CoL l和连接到接入交换机上的各种服务器 10.Row.CoLX构成。其中 Row为交换机或服务器所在行的行号， Col 为交换机或服务器所在列的列号；对于行首 / 列首交换机， 0 < J≤ 255 , 对于服务器， 1 < J≤ 255。所有设备的子网掩码均设为 255.255.255.0。

服务器之间通信通过接入交换机、行首交换机和列首交换机的路由转发功能完成。行首交换机负责将本行的所有接入交换机连接在一起，列首交换机负责将本列的所有接入交换机连接到一起。每一个接入交换机同时连接到所在行的所有行首交换机和所在列的所有列首交换机上，行首交换机和列首交换机之间、各接入交换机之间没有直接的连接关系。每个服务器都连接到一个接入交换机上。为了完成路由转发功能，在每个行首 /列首交换机和接入交换机上都维护一张路由表，数据分组根据路由表进行转发。相连的交换机通过互相交换信息（包括本机 IP地址和 MAC地址）学习之间的连接关系，并根据连接关系生成路由表。

1、交换式矩阵拓朴结构

本实施例中，数据中心网络系统由交换机和服务器两类设备组成。交换机设备提供二层（链路层）和三层（网络层）网络交换功能，服务器设备提供数据运算和存储服务。其中交换机又分为三种类型，称为行首交换机、列首交换机和接入交换机。行首交换机和列首交换机属于网络核心层，具有三层交换 /路由能力，负责将接入交换机连接在一起；接入交换机属于网络接入层，具有二层交换和三层交换 /路由能力，负责将服务器接入到网络中。本实施例中的行首交换机、列首交换机和接入交换机都可以采用高性价比的普通交换机。行首交换机、列首交换机和接入交换机连接在一起构成了交换式矩阵拓朴结构。

本发明提出的交换式矩阵拓朴结构要求行首交换机、列首交换机和接入交换机的参与交换 /路由的端口数（活动端口数）最好相同，设端口数为 N ( N > 3 )。接入交换机的端口分为三部分，其中第一部分端口用来连接服务器，第二部分端口连接行首交换机，剩下的一部分端口用来连接列首交换机。完整的拓朴结构总共有 N行 χΝ列个接入交换机，每一行的行首部署多个行首交换机，每一列的列首部署多个列首交换机。任一个接入交换机需要连接其所在行和列的全部行首交换机和列首交换机。本发明允许服务器和接入交换机之间、接入交换机和所在行首 /列首交换机之间通过任意端口进行连接。每一个接入交换机和所在行的每个行首交换机之间都有一条单独的连接，和所在列的每个列首交换机也都有一条单独的连接。图 1 是一个交换机的端口数 N = 6的交换式矩阵的例子，为清晰起见，图中没有画出服务器，并且在图中用一条虚横线表示一行内的所有接入交换机和该行的所有行首交换机之间的连接，用一条虚竖线表示一列内的所有接入交换机和该列的所有列首交换机之间的连接。

接入交换机的端口分配比例可以根据实际需要进行分配，典型分法是将端口分成 3等份， 1/3的端口用于连接行首交换机， 1/3的端口用于连接列首交换机，剩下 1/3的端口用于连接服务器设备。这样每行的行首交换机和每列的列首交换机数量为 N/3。这种配置方式可以保证每层设备的超额订购比例达到 1 : 1。如果需要行首交换机或列首交换机参与转发的通信量不是很多，也可以根据需要适当减少行首交换机和列首交换机的数量，从而降低建网成本。比如将接入交换机的 1/2端口分配给服务器， 1/4的端口连接行首交换机，剩下 1/4的端口用于连接列首交换机。这样每行的行首交换机和每列的列首交换机数量可以减少到 N/4。这种情况下，行首 /列首交换机的超额订购比例为 1:2。

上面描述的是一个完整的交换式矩阵拓朴。在某些情况下，可以针对实际需要对网络拓朴进行调整。比如对于网络规模较小，服务器数量不多的数据中心，也可以构建不完全的交换式矩阵网络。完整的交换式矩阵网络拥有 N行 χΝ列个接入交换机，如果服务器的数量达不到 Ν³/3 ,可以按照自右向左，自下向上的顺序减少接入交换机的数量。对于不完整的行或列，多余空闲端口通过端口汇聚（Trunk )技术合并到其他端口上。比如交换机的端口数为 12, 则可以构成最大为 12行 X 12列的网络拓朴。每行的行首交换机和列首交换机的数量均为 12/3=4个。如果是不完全的拓朴结构，比如只有 6行 X 12列的接入交换机，则列首交换机的数量即可减少一半，为 2 个。此时列首交换机的连接方案为：首先每个列首交换机用 6个端口连接本列内的 6个接入交换机，然后剩下的端口按照顺序逐次平均地汇聚到这些端口上。

2、网络编址方案

本数据中心网络系统内的各种交换机和服务器采用内部网络 IP地址 10.X.X.X ( 0 < X < 255 )进行编址，需要和外部网络通信时采用网络地址转换（NAT )技术转换成外部网络地址。

行首交换机的 IP地址配置为 10.Row.0.X,其中 Row为行首交换机所在的行号， Q 〈 Row ≤ N , 0 < X < 255 , 在这个规定范围内，行首交换机的地址可以任意配置（X可以任意指定）。

列首交换机的 IP地址配置为 lO.O.CoLX, 其中 Col为列首交换机所在的列号， Q 〈 Col ≤ N , 0 < X < 255 , 在这个规定范围内，列首交换机的地址可以任意配置（X可以任意指定）。

接入交换机的 IP地址配置为 10.Row.CoLl , 其中 Row为接入交换机所在的行号， Col为接入交换机所在的列号， Q 〈 Row < N , Q 〈 Col ≤ N。

服务器的 IP地址配置为 10.Row.CoLX,其中 Row为该服务器所在的行号， Col为该月良务器所在的列号， ΰ < Row ≤ N , 0 < Col ≤ N , 1 < X < 255 , 在这个规定范围内，服务器的地址可以任意配置（X可以任意指定）。

在上面的编址方案中，可以根据设备的 IP地址区分出其设备类型，以及该设备在网络中所处的位置，这有助于确定设备连接关系，简化路由方案。根据编址方案和设备连接关系，可以看出每一个接入交换机和其连接的全部服务器构成一个物理子网，子网掩码为 255.255.255.0。同一行的行首交换机或同一列的列首交换机虽然其网络地址前缀相同，但是没有直接连接关系。

3、路由方法在本实施例提出的交换式矩阵网络中，行和列是对称的结构，因此，不同行列内的服务器之间进行通信，可以先经过行首交换机再经过列首交换机，或者先经过列首交换机再经过行首交换机，比如有一台设备 10.2.2.X 和 10.4.4.X通信，先经过列首交换机的路径如下：

10.2.2.X→10.2.2.1→10.0.2.X→10.4.2.1→10A0.X→10.4.4.1→10.4AX 先经过行首交换机的路径如下：

10.2.2.X→10.2.2.1→10.2.0.X→10.2.4.1→10.0.4.X→10.4.4.1→10.4.4.X 本实施例规定：同一行内的设备之间进行通信，只通过行首交换机进行转发，同一列内的设备之间进行通信，只通过列首交换机进行转发. 不同行列之间的设备通信，采用先经过列首交换机的路径，

3.1路由表的结构

本发明提出的数据中心网络系统具有规则的拓朴结构，因此路由方法可以设计的非常简单，考虑到灵活性和扩展性，本发明采用基于路由表的路由转发方法，路由表的结构如下：

说明： ( 1 ) 时间戳用来记录本条路由表项的创建或更新时间. （2 )后面描述路由表时，省略了下一跳 IP地址、下一跳 MAC地址和时间戳信息. 行首交换机 10.ROW.0.X的路由表（采用非连续子网掩码）

目标子网 /子网掩码出端口

10.0.1.0/255.0.255.0 PI ( lO.Row.1.1对应的端口）

10.0.2.0/255.0.255.0 P2 ( 10.Row.2.1对应的端口）

10.0.3.0/255.0.255.0 P3 ( lO.Row.3.1对应的端口）

10.0.4.0/255.0.255.0 P4 ( 10.Row.41对应的端口）

10.0.5.0/255.0.255.0 P5 ( lO.Row.5.1对应的端口）

8

更正页（细则第 91条) 10.0.5.0/255.0.255.0 P5 ( 10. ow.5.1对应的端口）

10.0.6.0/255.0.255.0 P6 ( 10.Row.6.1对应的端口）

列首交换机 lO.O.Col.X的路由表

目标子网 /子网掩码出端口

10.1.0.0/255.255.0.0 PI ( lO.l.Col.l对应的端口 )

10.2.0.0/255.255.0.0 P2 ( 10.2. Col.l对应的端口）

10.3.0.0/255.255.0.0 P3 ( 10.3.Col. l对应的端口）

10.4.0.0/255.255.0.0 P4 ( lOACol.l对应的端口 )

10.5.0.0/255.255.0.0 P5 ( 10.5.Col.l对应的端口 )

10.6.0.0/255.255.0.0 P6 ( 10.6.Col.l对应的端口 )

接入交换机 10.Row.CoU的路由表

接入交换机的路由转发规则有如下三条：（ 1 )对于本子网的通信，釆用传统的二层交换进行转发，此处不作说明；（2 )对于目的地址是本行内的服务器（但位于不同子网），转发至行首交换机；（3 )对于目的地址是不同行的服务器（位于不同子网）的通信，转发至列首交换机。对于上述转发规则（2 )和（3 )，需要进行三层路由转发，路由表如下：

目标子网 /子网掩码出端口

lO.Row.0.0/255.255.0.0 lO.Row.O.X 十应的端口、

lO.Row.0.0/255.255.0.0 10.Row.0.X₂对应的端口

转发给行首交换机，共 κ个等价路径 lO.Row.0.0/255.255.0.0 IO.ROW.O.XK对应的端口^¹

10.0.0.0/255.0.0.0 lO.O.Col. Xi对应的端口

10.0.0.0/255.0.0.0 lO.O.Col. x₂对应的端口转发给列首交换机，共

M条等价路径

10.0.0.0/255.0.0.0 lO.O.Col. X_M对应的端口

说明： 1 ) lO.Row.O.X,.是第 Row行的第个行首交换机的 IP地址（ 1≤≤K, Κ 为第 Row行的行首交换机的数量）， lO.O.Col.X,是第 Col列的第 _/·个列首交换机的 IP地址（ 1≤ 7<M, M为列首交换机的数量）。

2 )对于同一目标子网，接入交换机的路由表里存在多条等价的路由路径，本发明采用等价多路径路由（ ECMP, Equal-Cost Multipath Routing )技术，实现从多条重复的等价路径中随机选择一条路径。

3.2路由表构造方法

通过自动学习行首 /列首交换机和接入交换机之间的连接关系，可以非常容易地将路由表构造出来。为了学习交换机之间的连接关系，需要所有交换机定期向所有活动端口发送协议数据单元（ PDU, Protocol Data Unit ), 包含内容为本机 IP地址和本机 MAC地址。对于任意交换机来说，每个端口最多对应一条路由表项，因此路由表的条目数最多等于交换机的端口数。

( 1 )行首交换机路由表的构造

行首交换机 10.Row.0.X按照如下规则构造路由表：

如果从端口 Port收到 10.Row.CoLl发来的 PDU, 向路由表内添加或更新路由表项：

lO.O.Col.0/255.0.255.0 /10.Row.Col.l/MAC地址 / Port/时间戳

如果规定时间内收不到更新 PDU, 则删除相应的路由条目（已过期）。 ( 2 ) 列首交换机路由表的构造

列首交换机 lO.O.Col.X按照如下规则构造路由表：

lO.Row.0.0/255.255.0.0 /10.Row.Col.l/MAC地址 / Port/时间戳

如果规定时间内收不到更新 PDU, 则删除相应的路由条目（已过期）。 ( 3 )接入交换机路由表的构造接入交换机 lO.Row.Col.l按照如下规则构造路由表：

a )从端口 Port收到本行的行首交换机 lO.Row.O.X的 PDU, 向路由表内添加或更新路由表项：

10.Row.0.0/255.255.0.0/10.Row.0.X / MAC地址 / Port/时间戳

b )从端口 Port收到本列的列首交换机 lO.O.Col.X的 PDU, 向路由表内添加或更新路由表项：

10.0.0.0/255.0.0.0 /lO.O.Col.X /MAC地址 /Port/时间戳

c )如果规定时间内收不到更新 PDU,则删除相应的路由条目（已过期）。说明：对于同一子网内的数据通信，采用传统的二层交换技术进行数据转发，二层交换的地址转发表（AFT, Address Forwarding Table )的构造此处不做说明。

3.3 路由过程举例说明

( 1 ) 同一子网内设备的数据通信。假设有两台服务器 IP地址分别为 10.1.1.2 (源）和 10.1.1.3 (目的），则二者的通信直接通过接入交换机 10.1.1.1 进行转发。

( 2 ) 同一行内设备的数据通信。假设有两台服务器 IP 地址分别为 10.1.3.2和 10.1.5.2, 数据分组要从 10.1.3.2发送到 10.1.5.2, 需要首先发往接入交换机 10.1.3.1 , 然后根据各交换机的路由表，路由过程如下：

10.1.3.2→10.1.3.1→10.1.0.X→10.1.5.1→10.1.5.2

( 3 ) 同一列内设备的数据通信。假设有两台服务器 IP 地址分别为

10.2.2.2和 10.4.2.2, 数据分组要从 10.2.2.2发送到 10.4.2.2, 需要首先发往接入交换机 10.2.2.1 , 然后根据各交换机的路由表，路由过程如下：

10.2.2.2→10.2.2.1→10.0.2.X→10.4.2.1→10.4.2.2

( 4 ) 不同行的设备的数据通信。假设有两台服务器 IP 地址分别为 10.2.2.2和 10.4.4.2, 数据分组要从 10.2.2.2发送到 10.4.4.2, 需要首先发往接入交换机 10.2.2.1 , 然后根据各交换机的路由表，路由过程如下： 10.2.2.2→10.2.2.1→10.0.2.X→10.4.2.1→10.4.0.X→10.4.4.1→10.4.4.2 以上对本发明所提供的数据中心网络系统进行详细介绍，本说明书中说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

工业实用性

通过本发明的数据中心网络系统及快速的路由方法。降低了数据中心的建网成本，同时解决了核心层链路带宽不足的问题。在该数据中心网络系统中，核心层不需要采用昂贵的高速设备，而是和接入层一样，采用高性价比的普通交换机。针对该网络系统的拓朴结构，通过制定网络编址规贝' J , 可以快速地实现路由。

Claims

权利要求书

1.一种数据中心网络系统，其中，包括交换机和服务器两类设备；所述交换机包括行首交换机、列首交换机和呈矩阵排列的接入交换机，矩阵的每行行首至少部署一个行首交换机，每列列首至少部署一个列首交换机；

所述服务器与接入交换机相连接；

所述接入交换机与其所在行的所有行首交换机相连接；

所述接入交换机与其所在列的所有列首交换机相连接。

2. 根据权利要求 1所述的一种数据中心网络系统，其中，所述交换机和服务器采用内部网络 IP地址，并按照如下规则进行编址：

所述行首交换机的 IP地址配置为 lO.Row.O.X;

所述列首交换机的 IP地址配置为 lO.O.Col.X;

所述接入交换机的 IP地址配置为 10.Row.CoLl ;

所述服务器的 IP地址配置为 10.Row.CoLX;

其中： Row为交换机或服务器所在行的行号， Col为交换机或服务器所在列的列号；对于行首 /列首交换机， 0 < ≤ ²⁵⁵ ,对于服务器， 1 < < 255；所有设备的子网掩码均设为 255.255.255.0。