WO2012149867A1 - 数据中心网络系统 - Google Patents

数据中心网络系统 Download PDF

Info

Publication number
WO2012149867A1
WO2012149867A1 PCT/CN2012/074319 CN2012074319W WO2012149867A1 WO 2012149867 A1 WO2012149867 A1 WO 2012149867A1 CN 2012074319 W CN2012074319 W CN 2012074319W WO 2012149867 A1 WO2012149867 A1 WO 2012149867A1
Authority
WO
WIPO (PCT)
Prior art keywords
switch
row
switches
network
column
Prior art date
Application number
PCT/CN2012/074319
Other languages
English (en)
French (fr)
Inventor
孙延涛
刘强
方维维
刘真
Original Assignee
中兴通讯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司 filed Critical 中兴通讯股份有限公司
Publication of WO2012149867A1 publication Critical patent/WO2012149867A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/35Switches specially adapted for specific applications
    • H04L49/356Switches specially adapted for specific applications for storage area networks

Definitions

  • the present invention relates to a data center network system. Background technique
  • the data center first appeared in the early 1960s. With the rapid construction of the Internet and the rapid development of information technology, by the mid-to-late 1990s, the data center entered a period of vigorous development, and the scale of construction and the number of servers increased at an alarming rate every year.
  • the booming Internet technology has set off a climax in building data centers. Not only do government agencies and financial telecommunications companies expand their data centers, but SMEs are also building data centers.
  • cloud computing technology has been greatly developed by IT companies such as Amazon, Microsoft, Yahoo, and IBM. The US, South Korea, and Japan governments have announced their national cloud computing development strategies. The development of cloud computing has further driven the rapid development of data centers.
  • the scale of data center networks is expanding. Currently, a large data center may contain tens of thousands of servers.
  • the typical topology of a data center network is a tree-like network structure consisting of routing and switching units.
  • the upper layer network has to use expensive dedicated equipment in order to support a large amount of bandwidth requirements.
  • the problem is that even with the highest-end IP switches or routers, the core layer can only support up to 50% of the bandwidth collected by the edge network, and it requires huge overhead. Therefore, the tree topology will inevitably be produced in the upper core network.
  • the communication bottleneck causes network transmission delay and performance degradation in terms of transmission efficiency and the like.
  • this asymmetric network bandwidth can also lead to complex application design.
  • the Clos network or the fat tree topology is generally used to form a non-blocking network, and according to the characteristics of the topology structure, Corresponding routing/switching methods.
  • some methods use the server's multi-NIC technology to connect the server to multiple switches/routers at the same time, thereby increasing the number of connections between the servers to solve the problem of insufficient bandwidth of the upper core network.
  • These structures have a higher bisection bandwidth than the traditional tree structure, and the oversubscription ratio of each layer of routing/switching equipment can reach 1:1, thus effectively eliminating the top layer bandwidth. Insufficient network bottlenecks.
  • the present invention proposes a data center network system.
  • the system reduces the network construction cost of the data center and solves the problem of insufficient bandwidth of the core layer link.
  • the core layer does not need to use expensive high-speed equipment, but uses the same cost-effective common switch as the access layer.
  • the network addressing rules are formulated and a fast routing method is proposed.
  • the present invention adopts the following technical solutions.
  • the present invention includes two types of devices: a switch and a server.
  • the switch includes a row head switch, a head switch, and an access switch arranged in a matrix. At least one row head switch is deployed in each row of the matrix, and at least one row is arranged in each column.
  • the first switch, the server is connected to the access switch, and each access switch is connected to all the head switches of the row in which it is located and all the head switches of the column in which it is located.
  • Each row head switch is connected to all access switches in the line, and each column head switch and all access switches in this column want to connect.
  • the line between the first switch and the first switch and between the access switches are not directly connected. The above connection relationship is called a switched matrix topology.
  • the switched matrix topology proposed by the present invention can achieve the same bisection bandwidth as the existing Clos network, fat tree network and server-centric network structure, each layer routing
  • the oversubscription ratio of the /switching device can also reach 1:1.
  • the switched matrix topology structure proposed by the present invention is more concise and clear, and is more convenient for network device deployment and network cabling.
  • a large data center network contains a large number of network devices, and a large number of network cables are connected between the devices. Therefore, a simple and clear network topology provides great convenience for network implementation and maintenance.
  • the present invention does not have strict sequence requirements for connections between device ports, and this feature also simplifies network maintenance operations.
  • the invention has good scalability. By adding routing/switching equipment, the network scale can be easily extended without adjusting the existing topology, and the network scale that can be supported can range from dozens of servers to tens of thousands of servers. .
  • the network adopts a regular topology (exchange matrix topology) and is addressed according to certain rules.
  • the data center network system consists of a set of row head switches 10.Row.0.X, a head switch 10O.O.Col.X, an access switch 10.Row.CoL l and various servers 10 connected to the access switch. .Row.CoLX constitutes.
  • Row is the row number of the row where the switch or server is located
  • Col is the column number of the column where the switch or server is located
  • 0 ⁇ J ⁇ 255 for the row head/column switch and 1 ⁇ J ⁇ 255 for the server.
  • the subnet mask for all devices is set to 255.255.255.0.
  • the first switch is responsible for connecting all access switches of the bank together.
  • the first switch is responsible for connecting all access switches in this column.
  • Each access switch simultaneously There is no direct connection between each row head switch and all the column head switches of the row in the row. There is no direct connection between the row head switch and the first row switch and each access switch.
  • Each server is connected to an access switch.
  • a routing table is maintained on each of the first row/column of the first switch and the access switch, and the data packets are forwarded according to the routing table.
  • the connected switches learn the connection relationship by exchanging information (including the local IP address and MAC address) with each other, and generate a routing table according to the connection relationship.
  • the data center network system is composed of two types of devices: a switch and a server.
  • the switch device provides Layer 2 (link layer) and Layer 3 (network layer) network switching functions
  • the server device provides data operation and storage services.
  • the switch is divided into three types, called the head switch, the head switch, and the access switch.
  • the first switch and the first switch belong to the core layer of the network and have Layer 3 switching/routing capability, which is responsible for connecting the access switches together.
  • the access switch belongs to the network access layer and has Layer 2 switching and Layer 3 switching/routing capabilities. Responsible for connecting the server to the network.
  • the line head switch, the head switch and the access switch in this embodiment can all adopt a cost-effective ordinary switch.
  • the head switch, the head switch and the access switch are connected together to form a switched matrix topology.
  • the switched matrix topology structure proposed by the present invention requires that the number of ports (active ports) participating in the switching/routing of the first switch, the first switch, and the access switch are preferably the same, and the number of ports is N (N > 3).
  • the port of the access switch is divided into three parts. The first part of the port is used to connect to the server, the second part is connected to the first switch, and the remaining part is used to connect to the first switch.
  • the complete topology structure has a total of N rows of access switches, each row of rows is deployed with multiple row head switches, and each column has multiple column head switches. Any access switch needs to connect all the row headers and column head switches of its row and column.
  • the invention allows connections between the server and the access switch, between the access switch and the first row/column switch of the row through any port. There is a link between each access switch and each line head switch in the row A separate connection has a separate connection to each of the first switches in the column.
  • the server is not shown, and a dashed line in the figure indicates all access switches and rows in a row.
  • the connection between all the head switches with a dotted vertical line indicating the connection between all access switches in a column and all the head switches of the column.
  • the port allocation ratio of the access switch can be allocated according to actual needs.
  • the typical method is to divide the port into 3 equal parts, 1/3 of the ports are used to connect the first switch, and 1/3 of the ports are used to connect the first switch. The lower 1/3 of the ports are used to connect to the server device.
  • the number of switches at the head of each row and the number of switches at the beginning of each column is N/3. This configuration ensures that the oversubscription ratio of each device is 1 : 1. If there is not much traffic involved in forwarding the first switch or the first switch, you can reduce the number of the first switch and the first switch as needed, thus reducing the cost of network construction.
  • the 1/2 port of the access switch is assigned to the server, the 1/4 port is connected to the first switch, and the remaining 1/4 of the port is used to connect to the first switch.
  • the number of switches at the head of each row and the number of switches at the beginning of each column can be reduced to N/4.
  • the oversubscription ratio of the first/first head switch is 1:2.
  • the connection scheme of the first switch is as follows: First, each of the first switches uses six ports to connect to the six access switches in the column, and then the remaining ports are sequentially aggregated to these ports in order.
  • the various switches and servers in the data center network system are addressed by the internal network IP address 10.XXX ( 0 ⁇ X ⁇ 255 ), and need to be converted to an external network address by using Network Address Translation (NAT) technology when communicating with the external network. .
  • NAT Network Address Translation
  • routing method In the switched matrix network proposed in this embodiment, the rows and columns are symmetric structures. Therefore, communication between servers in different rows and columns may first pass through the row head switch and then through the column head switch, or first through the column head switch. After the first switch, for example, there is a device 10.2.2.X and 10.4.4.X communication, the path through the first switch is as follows:
  • the present invention adopts Equal-Cost Multipath Routing (ECMP) technology to implement multiple repetitions, etc.
  • ECMP Equal-Cost Multipath Routing
  • the data packet shall be sent from 10.2.2.2 to 10.4.2.2, which shall be sent to the access switch 10.2.2.1 first, and then according to the routing table of each switch, the routing process is as follows:

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种数据中心网络系统,该系统包括行首交换机、列首交换机和呈矩阵排列的接入交换机,每行的行首至少部署一个行首交换机,每列的列首至少部署一个列首交换机,服务器与接入交换机相连接,接入交换机与其所在行的所有行首交换机及其所在列的所有列首交换机相连接。各种交换机和服务器按照一定的规则进行编址。本发明可以消除网络通信瓶颈,并且网络结构简单、灵活、容易扩展,便于网络实施和维护。另外数据中心可以采用高性价比的普通三层交换机进行组网,建网成本低。

Description

数据中心网络系统 技术领域
本发明涉及一种数据中心网络系统。 背景技术
数据中心是企业各种应用服务的提供中心, 也是数据运算、 交换和存 储的中心。 它结合了先进的网络技术和存储技术, 承载了网络中 80%以上 的服务请求和数据存储量, 为客户业务体系的顺利运转提供了服务和运行 平台。
数据中心最早出现在 20世纪 60年代初。 随着互联网的快速建设和信 息技术的迅猛发展, 到 20世纪 90年代中后期, 数据中心进入了蓬勃发展 期, 建设规模和服务器数量每年都以惊人的速度增长。 互联网技术的蓬勃 发展掀起了建设数据中心的高潮, 不但政府机构和金融电信等大型企业扩 建自己的数据中心, 中小企业也纷纷构建数据中心。 自 2006年 Google公 司提出云计算以来, 在亚马逊、微软、雅虎、 IBM等 IT公司的大力推动下, 云计算技术得到长足发展, 美国、 韩国、 日本政府都宣布了国家云计算发 展战略。 云计算的发展进一步带动了数据中心的迅速发展, 数据中心网络 规模不断扩大, 目前一个大型数据中心可能包含数万台服务器。
随着数据中心规模的日益扩大, 数据中心容纳的服务器数量也越来越 多, 因此需要巨大的上层网络带宽支持。 数据中心网络的典型拓朴结构是 由路由和交换单元组成的类似树形的网络结构, 其上层网络为了支持大量 的带宽需求不得不采用昂贵的专用设备。 问题是, 即使采用最高端的 IP 交 换机或路由器, 核心层也是只能支持到 50%的边缘网络汇集的带宽, 而且 需要巨大的费用开销。 因此树形拓朴结构不可避免地会在上层核心网络产 生通信瓶颈, 从而导致网络传输延迟, 在传输效率等方面性能下降。 另外, 在数据中心, 这种非对称的网络带宽还会导致应用设计的复杂。
为了解决上层核心网络带宽不足带来的通信瓶颈问题, 目前通过检索 到的方法来看, 一般采用 Clos网络或者胖树(Fat Tree )拓朴组成无阻塞网 络, 并根据拓朴结构的特点, 提出相应的路由 /交换方法。 另外, 还有些方 法利用服务器的多网卡技术, 将服务器同时连接到多个交换机 /路由器上, 从而增加服务器之间的连接数量, 来解决上层核心网络带宽不足的问题。 这些结构和传统的树形结构相比, 具有较高的二分带宽 ( bisection bandwidth ), 并且每一层路由 /交换设备的超额订购(Oversubscription )比例 都可以达到 1 : 1 , 因此可以有效消除顶层带宽不足带来的网络瓶颈问题。
上述网络结构虽然解决了构建大规模数据中心网络的上层带宽瓶颈问 题, 但仍然存在如下缺点: (1 ) 由于其拓朴结构的限制, 网络流量的超额 订购(Oversubscription )比例很难按照实际需求进行灵活的调整, 网络配置 的灵活性差; (2 )其网络拓朴结构比较复杂, 设备编址需要遵循严格复杂 的规则, 设备端口之间按照严格的顺序进行连接, 这些问题导致数据中心 在网络布线和设备部署方面比较繁瑣, 运行过程中网络维护也会相对比较 困难; (3 ) 由于拓朴结构复杂, 导致其路由算法也相对比较复杂; (4 )在 构建规模较小的数据中心网络时, 会存在端口空余浪费的情况, 网络伸缩 性较差。 发明内容
本发明提出了一种数据中心网络系统。 该系统降低了数据中心的建网 成本, 同时解决了核心层链路带宽不足的问题。 在该数据中心网络系统中, 核心层不需要采用昂贵的高速设备, 而是和接入层一样, 采用高性价比的 普通交换机。 针对该网络系统的拓朴结构, 制定了网络编址规则, 并提出 了一种快速的路由方法。 本发明采取了如下技术方案。 本发明包括交换机和服务器两类设备, 所述交换机包括行首交换机、 列首交换机和呈矩阵排列的接入交换机, 矩 阵的每行行首至少部署一个行首交换机, 每列列首至少部署一个列首交换 机, 服务器与接入交换机相连接, 每个接入交换机与其所在行的所有行首 交换机及其所在列的所有列首交换机相连接。 每个行首交换机和本行内的 所有接入交换机相连接, 每个列首交换机和本列内的所有接入交换机想连 接。 任意行首交换机和列首交换机之间、 以及各接入交换机之间不直接相 连。 上述连接关系称之为交换式矩阵拓朴。
所述交换机和服务器采用内部网络 IP地址,并按照如下规则进行编址: 行首交换机的 IP 地址配置为 lO.Row.O.X; 列首交换机的 IP地址配置为 lO.O.Col.X; 接入交换机的 IP地址配置为 lO.Row.Col.l ; 服务器的 IP地址 配置为 10.Row.CoLX。 其中 Row为交换机或服务器所在行的行号, Col为 交换机或服务器所在列的列号; 对于行首 /列首交换机, 0 < J≤ 255 , 对于 服务器, 1 < J≤ 255。 所有设备的子网掩码均设为 255.255.255.0。
与现有数据中心网络相比, 本发明具有以下优点:
1 )本发明提出的交换式矩阵拓朴结构和现有的基于 Clos网络、胖树网 络和以服务器为中心的网络结构相比, 同样可以达到相同的二分带宽 ( bisection bandwidth ),每一层路由 /交换设备的超额订购( Oversubscription ) 比例也同样可以达到 1 : 1。
2 )本发明提出的交换式矩阵拓朴结构更为简洁清楚, 更方便网络设备 的部署和网络布线。 大型数据中心网络包含大量网络设备, 并且设备之间 连接有大量网线, 因此简洁清楚的网络拓朴为网络实施和维护提供了很大 的便利。
3 )本发明对设备端口之间的连接没有严格的顺序要求, 这一特点同样 简化了网络维护操作。 4 )本发明具有良好的伸缩性, 通过增加路由 /交换设备, 不需要调整已 有拓朴就可以方便地对网络规模进行扩展, 可以支持的网络规模可以从几 十台服务器到几万台服务器。
5 )本发明具有很好的灵活性, 可以根据实际应用需要通过调整行首交 换机和列首交换机的数量, 灵活地改变接入交换机和行首交换机及接入交 换机和列首交换机之间的超额订购 ( Oversubscription ) 比例。
6 )本发明采用的路由 /交换算法更为简单, 便于理解和实现, 此外路由 算法支持等价多路径路由 ECMP ( Equal-Cost Multipath Routing )技术, 具 备负载均衡能力。 附图说明
图 1为由 6个端口的交换机组成的数据中心网络系统。 具体实施方式
为使本发明的上述目的、 特征和优点能够更加明显易懂, 下面结合附 图和具体实施方式对本发明作进一步详细的说明。
本发明提供的数据中心网络系统中, 网络采用规则化的拓朴结构 (交 换式矩阵拓朴), 并按照一定的规则进行编址。 数据中心网络系统由一组行 首交换机 10.Row.0.X、 列首交换机 lO.O.Col.X,接入交换机 10.Row.CoL l和 连接到接入交换机上的各种服务器 10.Row.CoLX构成。其中 Row为交换机 或服务器所在行的行号, Col 为交换机或服务器所在列的列号; 对于行首 / 列首交换机, 0 < J≤ 255 , 对于服务器, 1 < J≤ 255。 所有设备的子网掩 码均设为 255.255.255.0。
服务器之间通信通过接入交换机、 行首交换机和列首交换机的路由转 发功能完成。 行首交换机负责将本行的所有接入交换机连接在一起, 列首 交换机负责将本列的所有接入交换机连接到一起。 每一个接入交换机同时 连接到所在行的所有行首交换机和所在列的所有列首交换机上, 行首交换 机和列首交换机之间、 各接入交换机之间没有直接的连接关系。 每个服务 器都连接到一个接入交换机上。 为了完成路由转发功能, 在每个行首 /列首 交换机和接入交换机上都维护一张路由表, 数据分组根据路由表进行转发。 相连的交换机通过互相交换信息 (包括本机 IP地址和 MAC地址) 学习之 间的连接关系, 并根据连接关系生成路由表。
1、 交换式矩阵拓朴结构
本实施例中, 数据中心网络系统由交换机和服务器两类设备组成。 交 换机设备提供二层(链路层)和三层(网络层) 网络交换功能, 服务器设 备提供数据运算和存储服务。 其中交换机又分为三种类型, 称为行首交换 机、 列首交换机和接入交换机。 行首交换机和列首交换机属于网络核心层, 具有三层交换 /路由能力, 负责将接入交换机连接在一起; 接入交换机属于 网络接入层, 具有二层交换和三层交换 /路由能力, 负责将服务器接入到网 络中。 本实施例中的行首交换机、 列首交换机和接入交换机都可以采用高 性价比的普通交换机。 行首交换机、 列首交换机和接入交换机连接在一起 构成了交换式矩阵拓朴结构。
本发明提出的交换式矩阵拓朴结构要求行首交换机、 列首交换机和接 入交换机的参与交换 /路由的端口数(活动端口数) 最好相同, 设端口数为 N ( N > 3 )。 接入交换机的端口分为三部分, 其中第一部分端口用来连接服 务器, 第二部分端口连接行首交换机, 剩下的一部分端口用来连接列首交 换机。 完整的拓朴结构总共有 N行 χΝ列个接入交换机,每一行的行首部署 多个行首交换机, 每一列的列首部署多个列首交换机。 任一个接入交换机 需要连接其所在行和列的全部行首交换机和列首交换机。 本发明允许服务 器和接入交换机之间、 接入交换机和所在行首 /列首交换机之间通过任意端 口进行连接。 每一个接入交换机和所在行的每个行首交换机之间都有一条 单独的连接, 和所在列的每个列首交换机也都有一条单独的连接。 图 1 是 一个交换机的端口数 N = 6的交换式矩阵的例子, 为清晰起见, 图中没有画 出服务器, 并且在图中用一条虚横线表示一行内的所有接入交换机和该行 的所有行首交换机之间的连接, 用一条虚竖线表示一列内的所有接入交换 机和该列的所有列首交换机之间的连接。
接入交换机的端口分配比例可以根据实际需要进行分配, 典型分法是 将端口分成 3等份, 1/3的端口用于连接行首交换机, 1/3的端口用于连接 列首交换机, 剩下 1/3的端口用于连接服务器设备。这样每行的行首交换机 和每列的列首交换机数量为 N/3。这种配置方式可以保证每层设备的超额订 购比例达到 1 : 1。 如果需要行首交换机或列首交换机参与转发的通信量不是 很多, 也可以根据需要适当减少行首交换机和列首交换机的数量, 从而降 低建网成本。 比如将接入交换机的 1/2端口分配给服务器, 1/4的端口连接 行首交换机, 剩下 1/4的端口用于连接列首交换机。这样每行的行首交换机 和每列的列首交换机数量可以减少到 N/4。 这种情况下, 行首 /列首交换机 的超额订购比例为 1:2。
上面描述的是一个完整的交换式矩阵拓朴。 在某些情况下, 可以针对 实际需要对网络拓朴进行调整。 比如对于网络规模较小, 服务器数量不多 的数据中心, 也可以构建不完全的交换式矩阵网络。 完整的交换式矩阵网 络拥有 N行 χΝ列个接入交换机,如果服务器的数量达不到 Ν3/3 ,可以按照 自右向左, 自下向上的顺序减少接入交换机的数量。 对于不完整的行或列, 多余空闲端口通过端口汇聚(Trunk )技术合并到其他端口上。 比如交换机 的端口数为 12, 则可以构成最大为 12行 X 12列的网络拓朴。每行的行首交 换机和列首交换机的数量均为 12/3=4个。 如果是不完全的拓朴结构, 比如 只有 6行 X 12列的接入交换机, 则列首交换机的数量即可减少一半, 为 2 个。 此时列首交换机的连接方案为: 首先每个列首交换机用 6个端口连接 本列内的 6个接入交换机, 然后剩下的端口按照顺序逐次平均地汇聚到这 些端口上。
2、 网络编址方案
本数据中心网络系统内的各种交换机和服务器采用内部网络 IP地址 10.X.X.X ( 0 < X < 255 )进行编址, 需要和外部网络通信时采用网络地址 转换(NAT )技术转换成外部网络地址。
行首交换机的 IP地址配置为 10.Row.0.X,其中 Row为行首交换机所在 的行号, Q 〈 Row ≤ N , 0 < X < 255 , 在这个规定范围内, 行首交换机的地 址可以任意配置 (X可以任意指定)。
列首交换机的 IP地址配置为 lO.O.CoLX, 其中 Col为列首交换机所在 的列号, Q 〈 Col ≤ N , 0 < X < 255 , 在这个规定范围内, 列首交换机的地 址可以任意配置 (X可以任意指定)。
接入交换机的 IP地址配置为 10.Row.CoLl , 其中 Row为接入交换机所 在的行号, Col为接入交换机所在的列号, Q 〈 Row < N , Q 〈 Col ≤ N。
服务器的 IP地址配置为 10.Row.CoLX,其中 Row为该服务器所在的行 号, Col为该月良务器所在的列号, ΰ < Row ≤ N , 0 < Col ≤ N , 1 < X < 255 , 在这个规定范围内, 服务器的地址可以任意配置 (X可以任意指定)。
在上面的编址方案中, 可以根据设备的 IP地址区分出其设备类型, 以 及该设备在网络中所处的位置, 这有助于确定设备连接关系, 简化路由方 案。 根据编址方案和设备连接关系, 可以看出每一个接入交换机和其连接 的全部服务器构成一个物理子网, 子网掩码为 255.255.255.0。 同一行的行 首交换机或同一列的列首交换机虽然其网络地址前缀相同, 但是没有直接 连接关系。
3、 路由方法 在本实施例提出的交换式矩阵网络中, 行和列是对称的结构, 因此, 不同行列内的服务器之间进行通信, 可以先经过行首交换机再经过列首交 换机,或者先经过列首交换机再经过行首交换机, 比如有一台设备 10.2.2.X 和 10.4.4.X通信, 先经过列首交换机的路径如下:
10.2.2.X→10.2.2.1→10.0.2.X→10.4.2.1→10A0.X→10.4.4.1→10.4AX 先经过行首交换机的路径如下:
10.2.2.X→10.2.2.1→10.2.0.X→10.2.4.1→10.0.4.X→10.4.4.1→10.4.4.X 本实施例规定: 同一行内的设备之间进行通信, 只通过行首交换机进 行转发, 同一列内的设备之间进行通信, 只通过列首交换机进行转发. 不 同行列之间的设备通信, 采用先经过列首交换机的路径,
3.1路由表的结构
本发明提出的数据中心网络系统具有规则的拓朴结构, 因此路由方法 可以设计的非常简单, 考虑到灵活性和扩展性, 本发明采用基于路由表的 路由转发方法, 路由表的结构如下:
Figure imgf000010_0001
说明: ( 1 ) 时间戳用来记录本条路由表项的创建或更新时间. (2 )后 面描述路由表时, 省略了下一跳 IP地址、 下一跳 MAC地址和时间戳信息. 行首交换机 10.ROW.0.X的路由表(采用非连续子网掩码)
目标子网 /子网掩码 出端口
10.0.1.0/255.0.255.0 PI ( lO.Row.1.1对应的端口)
10.0.2.0/255.0.255.0 P2 ( 10.Row.2.1对应的端口)
10.0.3.0/255.0.255.0 P3 ( lO.Row.3.1对应的端口)
10.0.4.0/255.0.255.0 P4 ( 10.Row.41对应的端口)
10.0.5.0/255.0.255.0 P5 ( lO.Row.5.1对应的端口)
8
更正页 (细则第 91条) 10.0.5.0/255.0.255.0 P5 ( 10. ow.5.1对应的端口)
10.0.6.0/255.0.255.0 P6 ( 10.Row.6.1对应的端口)
列首交换机 lO.O.Col.X的路由表
目标子网 /子网掩码 出端口
10.1.0.0/255.255.0.0 PI ( lO.l.Col.l对应的端口 )
10.2.0.0/255.255.0.0 P2 ( 10.2. Col.l对应的端口)
10.3.0.0/255.255.0.0 P3 ( 10.3.Col. l对应的端口)
10.4.0.0/255.255.0.0 P4 ( lOACol.l对应的端口 )
10.5.0.0/255.255.0.0 P5 ( 10.5.Col.l对应的端口 )
10.6.0.0/255.255.0.0 P6 ( 10.6.Col.l对应的端口 )
接入交换机 10.Row.CoU的路由表
接入交换机的路由转发规则有如下三条: ( 1 )对于本子网的通信, 釆 用传统的二层交换进行转发, 此处不作说明; (2 )对于目的地址是本行内 的服务器(但位于不同子网), 转发至行首交换机; (3 )对于目的地址是不 同行的服务器 (位于不同子网) 的通信, 转发至列首交换机。 对于上述转 发规则 (2 )和(3 ), 需要进行三层路由转发, 路由表如下:
目标子网 /子网掩码 出端口
lO.Row.0.0/255.255.0.0 lO.Row.O.X 十应的端口 、
lO.Row.0.0/255.255.0.0 10.Row.0.X2对应的端口
转发给行首交换机,共 κ个等价路径 lO.Row.0.0/255.255.0.0 IO.ROW.O.XK对应的端口^1
10.0.0.0/255.0.0.0 lO.O.Col. Xi对应的端口
10.0.0.0/255.0.0.0 lO.O.Col. x2对应的端口 转发给列首交换机,共
M条等价路径
10.0.0.0/255.0.0.0 lO.O.Col. XM对应的端口
说明: 1 ) lO.Row.O.X,.是第 Row行的第 个行首交换机的 IP地址( 1≤≤K, Κ 为第 Row行的行首交换机的数量), lO.O.Col.X,是第 Col列的第 _/·个列首交 换机的 IP地址( 1≤ 7<M, M为列首交换机的数量)。
2 )对于同一目标子网, 接入交换机的路由表里存在多条等价的路由路 径, 本发明采用等价多路径路由( ECMP, Equal-Cost Multipath Routing )技 术, 实现从多条重复的等价路径中随机选择一条路径。
3.2路由表构造方法
通过自动学习行首 /列首交换机和接入交换机之间的连接关系, 可以非 常容易地将路由表构造出来。 为了学习交换机之间的连接关系, 需要所有 交换机定期向所有活动端口发送协议数据单元( PDU, Protocol Data Unit ), 包含内容为本机 IP地址和本机 MAC地址。 对于任意交换机来说, 每个端 口最多对应一条路由表项, 因此路由表的条目数最多等于交换机的端口数。
( 1 )行首交换机路由表的构造
行首交换机 10.Row.0.X按照如下规则构造路由表:
如果从端口 Port收到 10.Row.CoLl发来的 PDU, 向路由表内添加或更 新路由表项:
lO.O.Col.0/255.0.255.0 /10.Row.Col.l/MAC地址 / Port/时间戳
如果规定时间内收不到更新 PDU, 则删除相应的路由条目 (已过期)。 ( 2 ) 列首交换机路由表的构造
列首交换机 lO.O.Col.X按照如下规则构造路由表:
如果从端口 Port收到 10.Row.CoLl发来的 PDU, 向路由表内添加或更 新路由表项:
lO.Row.0.0/255.255.0.0 /10.Row.Col.l/MAC地址 / Port/时间戳
如果规定时间内收不到更新 PDU, 则删除相应的路由条目 (已过期)。 ( 3 )接入交换机路由表的构造 接入交换机 lO.Row.Col.l按照如下规则构造路由表:
a )从端口 Port收到本行的行首交换机 lO.Row.O.X的 PDU, 向路由表 内添加或更新路由表项:
10.Row.0.0/255.255.0.0/10.Row.0.X / MAC地址 / Port/时间戳
b )从端口 Port收到本列的列首交换机 lO.O.Col.X的 PDU, 向路由表内 添加或更新路由表项:
10.0.0.0/255.0.0.0 /lO.O.Col.X /MAC地址 /Port/时间戳
c )如果规定时间内收不到更新 PDU,则删除相应的路由条目(已过期)。 说明: 对于同一子网内的数据通信, 采用传统的二层交换技术进行数 据转发, 二层交换的地址转发表(AFT, Address Forwarding Table )的构造 此处不做说明。
3.3 路由过程举例说明
( 1 ) 同一子网内设备的数据通信。 假设有两台服务器 IP地址分别为 10.1.1.2 (源)和 10.1.1.3 (目的),则二者的通信直接通过接入交换机 10.1.1.1 进行转发。
( 2 ) 同一行内设备的数据通信。 假设有两台服务器 IP 地址分别为 10.1.3.2和 10.1.5.2, 数据分组要从 10.1.3.2发送到 10.1.5.2, 需要首先发往 接入交换机 10.1.3.1 , 然后根据各交换机的路由表, 路由过程如下:
10.1.3.2→10.1.3.1→10.1.0.X→10.1.5.1→10.1.5.2
( 3 ) 同一列内设备的数据通信。 假设有两台服务器 IP 地址分别为
10.2.2.2和 10.4.2.2, 数据分组要从 10.2.2.2发送到 10.4.2.2, 需要首先发往 接入交换机 10.2.2.1 , 然后根据各交换机的路由表, 路由过程如下:
10.2.2.2→10.2.2.1→10.0.2.X→10.4.2.1→10.4.2.2
( 4 ) 不同行的设备的数据通信。 假设有两台服务器 IP 地址分别为 10.2.2.2和 10.4.4.2, 数据分组要从 10.2.2.2发送到 10.4.4.2, 需要首先发往 接入交换机 10.2.2.1 , 然后根据各交换机的路由表, 路由过程如下: 10.2.2.2→10.2.2.1→10.0.2.X→10.4.2.1→10.4.0.X→10.4.4.1→10.4.4.2 以上对本发明所提供的数据中心网络系统进行详细介绍, 本说明书中 说明只是用于帮助理解本发明的方法及其核心思想; 同时, 对于本领域的 一般技术人员, 依据本发明的思想, 在具体实施方式及应用范围上均会有 改变之处。 综上所述, 本说明书内容不应理解为对本发明的限制。
工业实用性
通过本发明的数据中心网络系统及快速的路由方法。 降低了数据中心 的建网成本, 同时解决了核心层链路带宽不足的问题。 在该数据中心网络 系统中, 核心层不需要采用昂贵的高速设备, 而是和接入层一样, 采用高 性价比的普通交换机。 针对该网络系统的拓朴结构, 通过制定网络编址规 贝' J , 可以快速地实现路由。

Claims

权利要求书
1.一种数据中心网络系统, 其中, 包括交换机和服务器两类设备; 所述交换机包括行首交换机、 列首交换机和呈矩阵排列的接入交换机, 矩阵的每行行首至少部署一个行首交换机, 每列列首至少部署一个列首交 换机;
所述服务器与接入交换机相连接;
所述接入交换机与其所在行的所有行首交换机相连接;
所述接入交换机与其所在列的所有列首交换机相连接。
2. 根据权利要求 1所述的一种数据中心网络系统, 其中, 所述交换机 和服务器采用内部网络 IP地址, 并按照如下规则进行编址:
所述行首交换机的 IP地址配置为 lO.Row.O.X;
所述列首交换机的 IP地址配置为 lO.O.Col.X;
所述接入交换机的 IP地址配置为 10.Row.CoLl ;
所述服务器的 IP地址配置为 10.Row.CoLX;
其中: Row为交换机或服务器所在行的行号, Col为交换机或服务器所 在列的列号;对于行首 /列首交换机, 0 < ≤ 255 ,对于服务器, 1 < < 255; 所有设备的子网掩码均设为 255.255.255.0。
PCT/CN2012/074319 2011-05-05 2012-04-18 数据中心网络系统 WO2012149867A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110115801.9 2011-05-05
CN201110115801.9A CN102164088B (zh) 2011-05-05 2011-05-05 数据中心网络系统

Publications (1)

Publication Number Publication Date
WO2012149867A1 true WO2012149867A1 (zh) 2012-11-08

Family

ID=44465069

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/074319 WO2012149867A1 (zh) 2011-05-05 2012-04-18 数据中心网络系统

Country Status (2)

Country Link
CN (1) CN102164088B (zh)
WO (1) WO2012149867A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10328105B2 (en) 2015-05-27 2019-06-25 Rimfrost Technologies As Flowable concentrated phospholipid krill oil composition
CN108092807B (zh) * 2017-12-12 2023-04-18 长春理工大学 一种立体化多路径数据中心网络拓扑结构及构建方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102164088B (zh) * 2011-05-05 2013-10-23 北京交通大学 数据中心网络系统
CN102185772B (zh) * 2011-05-05 2013-10-23 北京交通大学 数据中心网络系统的路由方法
CN102413190A (zh) * 2011-12-19 2012-04-11 广东电子工业研究院有限公司 一种基于云计算的网络架构及其虚拟网络管理方法
CN102769569B (zh) * 2012-07-25 2018-08-10 南京中兴新软件有限责任公司 交换式矩阵数据中心网络系统及数据包转发方法
CN102917084B (zh) * 2012-10-22 2015-05-06 北京交通大学 胖树结构组网数据中心内部节点ip地址的自动分配方法
CN103281251B (zh) * 2013-06-18 2017-03-15 北京百度网讯科技有限公司 数据中心间的数据传输方法、系统及其子系统
CN106713158B (zh) 2015-07-16 2019-11-29 华为技术有限公司 Clos网络中负载均衡的方法及装置
CN111917901B (zh) * 2020-08-07 2021-03-23 苏州工业职业技术学院 一种数据中心网络bcdc中ip地址编址方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1669269A (zh) * 2002-09-06 2005-09-14 因芬奈昂技术股份有限公司 层叠多个数据交换机
CN101485156A (zh) * 2006-11-30 2009-07-15 第三级通讯公司 用于通过网络交换流量的系统和方法
CN101517981A (zh) * 2006-10-16 2009-08-26 思科技术公司 多机架仿真交换机
CN102164088A (zh) * 2011-05-05 2011-08-24 北京交通大学 数据中心网络系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE373399T1 (de) * 2005-03-04 2007-09-15 Alcatel Lucent Vermittlung für integrierte telekommunikationssnetzwerke

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1669269A (zh) * 2002-09-06 2005-09-14 因芬奈昂技术股份有限公司 层叠多个数据交换机
CN101517981A (zh) * 2006-10-16 2009-08-26 思科技术公司 多机架仿真交换机
CN101485156A (zh) * 2006-11-30 2009-07-15 第三级通讯公司 用于通过网络交换流量的系统和方法
CN102164088A (zh) * 2011-05-05 2011-08-24 北京交通大学 数据中心网络系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHEN, JUN.: "Network Construction of Intemet Data Center.", TELECOMMUNICATIONS SCIENCE., pages 55 - 57 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10328105B2 (en) 2015-05-27 2019-06-25 Rimfrost Technologies As Flowable concentrated phospholipid krill oil composition
US10525087B2 (en) 2015-05-27 2020-01-07 Rimfrost Technologies As Flowable concentrated phospholipid krill oil composition
CN108092807B (zh) * 2017-12-12 2023-04-18 长春理工大学 一种立体化多路径数据中心网络拓扑结构及构建方法

Also Published As

Publication number Publication date
CN102164088B (zh) 2013-10-23
CN102164088A (zh) 2011-08-24

Similar Documents

Publication Publication Date Title
WO2012149867A1 (zh) 数据中心网络系统
WO2012149857A1 (zh) 数据中心网络系统的路由方法
CN107819695B (zh) 一种基于sdn的分布式控制负载均衡系统与方法
Xia et al. A tale of two topologies: Exploring convertible data center network architectures with flat-tree
US8855117B2 (en) Scalable media access control protocol synchronization techniques for fabric extender based emulated switch deployments
JP5214007B2 (ja) アドレス指定方法、アドレス指定装置、ファブリックマネージャ、スイッチ、およびデータルーティング方法
US9385949B2 (en) Routing controlled by subnet managers
CN110098992A (zh) 用于在交换机之间传送对等业务的专用虚拟局域网
Sun et al. Diamond: An Improved Fat-tree Architecture for Large-scale Data Centers.
CN102255932A (zh) 负载均衡方法和负载均衡器
US8532114B2 (en) Cluster router and cluster routing method
US20200329009A1 (en) Content node selection based on classless prefix
Wang et al. SprintNet: A high performance server-centric network architecture for data centers
US20090323554A1 (en) Inter-office communication methods and devices
CN108234310A (zh) 多层次互连网络、自适应路由方法及路由设备
CN100531215C (zh) 一种多台网络设备链路聚集的实现方法
CN103297354B (zh) 服务器互连系统、服务器和数据转发方法
Alqahtani et al. Rethinking fat-tree topology design for cloud data centers
Chkirbene et al. Hyper-flatnet: A novel network architecture for data centers
US8942232B1 (en) Multi-stage switching topology
JP2020537439A (ja) 直接相互接続ゲートウェイ
CN101232510A (zh) 一种多网口设备组播的实现方法及系统
JP2015231212A (ja) データ転送システム、データ転送サーバ、データ転送方法、および、プログラム
CN103370910A (zh) 利用链路聚合进行下一跳缩放的方法、系统和计算机可读介质
Xiong et al. MTM: A reliable multiple trees multicast for data center network

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12779690

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12779690

Country of ref document: EP

Kind code of ref document: A1