WO2012149857A1 - 数据中心网络系统的路由方法 - Google Patents

数据中心网络系统的路由方法 Download PDF

Info

Publication number
WO2012149857A1
WO2012149857A1 PCT/CN2012/073735 CN2012073735W WO2012149857A1 WO 2012149857 A1 WO2012149857 A1 WO 2012149857A1 CN 2012073735 W CN2012073735 W CN 2012073735W WO 2012149857 A1 WO2012149857 A1 WO 2012149857A1
Authority
WO
WIPO (PCT)
Prior art keywords
switch
row
server
access
column
Prior art date
Application number
PCT/CN2012/073735
Other languages
English (en)
French (fr)
Inventor
孙延涛
刘真
方维维
刘强
Original Assignee
中兴通讯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司 filed Critical 中兴通讯股份有限公司
Publication of WO2012149857A1 publication Critical patent/WO2012149857A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/58Association of routers
    • H04L45/583Stackable routers

Definitions

  • the present invention relates to the field of routing technologies, and in particular, to a routing method for a data center network system. Background technique
  • the data center is the center for the application of various enterprise services and is the center of data computing, switching and storage. It combines advanced network technology and storage technology to carry more than 80% of service requests and data storage in the network, providing services and operating platforms for the healthy operation of the customer's business system.
  • the data center first appeared in the early 1960s. With the rapid construction of the Internet and the rapid development of information technology, by the mid-to-late 1990s, the data center entered a period of vigorous development, and the scale of construction and the number of servers increased at an alarming rate every year.
  • the booming Internet technology has set off a climax in building data centers. Not only do government agencies and financial telecommunications companies expand their data centers, but SMEs are also building data centers.
  • cloud computing technology has been greatly developed by IT companies such as Amazon, Microsoft, Yahoo, and IBM. The US, South Korea, and Japan governments have announced their national cloud computing development strategies. The development of cloud computing has further driven the rapid development of data centers.
  • the scale of data center networks is expanding. Currently, a large data center may contain tens of thousands of servers.
  • the typical topology of a data center network is a tree-like network structure consisting of routing and switching units.
  • the upper layer network has to use expensive dedicated equipment in order to support a large amount of bandwidth requirements.
  • the problem is that even with the highest-end IP switches or routers, the core layer can only support up to 50% of the bandwidth collected by the edge network, and it requires huge overhead. Therefore, the tree topology will inevitably be produced in the upper core network.
  • the communication bottleneck is caused, which leads to a decline in the overall performance of the network in terms of transmission delay and transmission efficiency.
  • this asymmetric network bandwidth can also bring complexity to the application design.
  • the Clos network or the fat tree topology is generally used to form a non-blocking network, and according to the characteristics of the topology structure, Corresponding routing/switching methods, such as Fat Tree structure, Clos network, multi-branch fat tree network topology.
  • Corresponding routing/switching methods such as Fat Tree structure, Clos network, multi-branch fat tree network topology.
  • server's multi-NIC technology to connect the server to multiple switches/routers at the same time, thereby increasing the number of connections between servers to solve the problem of insufficient bandwidth of the upper core network.
  • these methods have a higher bisection bandwidth, and the oversubscription ratio of each layer of routing/switching equipment can reach 1:1, thus effectively eliminating the top layer bandwidth. Insufficient network bottlenecks.
  • the present invention proposes a routing method for a data center network system, which uses a network structure called a switched matrix.
  • the method can fully exploit the characteristics and advantages of the topology of the switched matrix network and solve the communication bottleneck problem in the data center network.
  • the construction of the routing table only requires the network device to exchange a small amount of information, and the construction method is simple. Easy, the routing table constructed is small in size and fast in routing.
  • the routing method can make full use of multiple parallel links between source and destination nodes to achieve non-blocking routing and load balancing.
  • the data center network system on which the routing method in the present invention is based includes two types of devices: a switch and a server.
  • the switch includes a row head switch, a head switch, and an access switch arranged in a matrix, and each row of the matrix is at least deployed.
  • a row head switch, at least one column head switch is arranged in each column, and the server is connected to the access switch, and each access switch is not directly connected with the switch and the first switch, and between the access switches. .
  • the switch and the server use the internal network IP address and are addressed according to the following rules:
  • the IP address of the first switch is configured as lO.Row.OX;
  • the IP address of the first switch is configured as lO.O.Col .X;
  • the IP address of the access switch is configured as lO.Row.Col.l;
  • the IP address of the server is configured as 10.Row.Col.X.
  • Row is the row number of the row where the switch or server is located
  • Col is the column number of the column where the switch or server is located;
  • For the row head/column first switch 0 ⁇ J ⁇ 255, for the server, 1 ⁇ J ⁇ 255 0
  • the netmask is set to 255.255.255.0.
  • the routing method of the data center network system in the present invention is: the servers in the same subnet communicate with each other through the access switch connected thereto, and the servers of the peers of different subnets are connected through the access switch connected thereto
  • the first switch of the line communicates, and the servers in the same row communicate with the access switch connected to it and the first switch located in the column.
  • the servers in different ranks pass through the access switch, the first switch and the first column.
  • the switch communicates.
  • server A When server A and server B in the same row communicate, server A first communicates with the access switch A connected thereto, and access switch A then connects to the access switch connected to server B through the row head switch located in the row. B communicates, and access switch B communicates with server B.
  • server A When server A and server B in the same column communicate, server A is connected to it first.
  • the access switch A is connected, and the access switch A communicates with the first switch located in the column and the access switch B connected to the server B, and the access switch B communicates with the server B.
  • server A When server A and server B are located in different queues, server A first communicates with access switch A connected to it, and access switch A passes through the row head switch with its peers and is located in the same row as server B.
  • the access switch C1 communicates, and the access switch C1 communicates with the first switch of the column and the access switch B connected to the server B, and accesses the switch B to communicate with the server B.
  • server A When server A and server B are located in different queues, server A first communicates with access switch A connected to it, and access switch A passes through the column head switch in the same column as it is in the column and goes with server B.
  • the access switch C2 communicates, and the access switch C2 communicates with the row head switch of the line in which it is located and the access switch B connected to the server B, and accesses the switch B to communicate with the server B.
  • the neighboring switches only need to periodically exchange the IP and MAC address information of the local device to establish a routing table, and the amount of data exchanged is very small.
  • the routing table is small in scale and fast in routing, and can be implemented by using hardware to implement switching technology.
  • the network has high reliability. There are multiple equal-cost paths between any two terminals.
  • the routing algorithm supports Equal-Cost Multipath Routing (ECMP) technology and has load balancing capability.
  • ECMP Equal-Cost Multipath Routing
  • Figure 1 shows a data center network system consisting of six-port switches. detailed description
  • the network adopts a regular topology (exchange matrix topology) and is addressed according to certain rules.
  • the data center network system consists of a set of line head switches 10.Row.0.X, a head switch 10.0.Col.X, an access switch 10.Row.Col.l and various servers connected to the access switch.
  • the subnet mask for all devices is set to 255.255.255.0.
  • the first switch is responsible for connecting all the access switches of the bank.
  • the first switch is responsible for connecting all the access switches in this column.
  • Each access switch is connected to all the row head switches of the row and all the row head switches of the row at the same time. There is no direct connection between the row head switch and the head switch and each access switch.
  • Each server is connected to an access switch.
  • a routing table is maintained on each of the first row/column switches and the access switches, and the data packets are forwarded according to the routing table.
  • the connected switches exchange the information (including the local IP address and MAC address) with each other to learn the connection relationship, and generate a routing table according to the connection relationship.
  • the data center network system is composed of two types of devices: a switch and a server.
  • the switch device provides Layer 2 (link layer) and Layer 3 (network layer) network switching functions
  • the server device provides data operation and storage services.
  • the switch is divided into three types, called the head switch. Machine, first switch and access switch.
  • the first switch and the first switch belong to the core layer of the network and have Layer 3 switching/routing capability, which is responsible for connecting the access switches together.
  • the access switch belongs to the network access layer and has Layer 2 switching and Layer 3 switching/routing capabilities. Responsible for connecting the server to the network.
  • the line head switch, the head switch and the access switch in this embodiment can all adopt a cost-effective ordinary switch.
  • the head switch, the head switch, and the access switch are connected to form a switched matrix topology.
  • the switched matrix topology structure proposed by the present invention requires that the number of ports (active ports) participating in the switching/routing of the first switch, the first switch, and the access switch are preferably the same, and the number of ports is N (N>3).
  • the port of the access switch is divided into three parts. The first part of the port is used to connect to the server, the second part is connected to the first switch, and the remaining part is used to connect to the first switch.
  • the complete topology has a total of N rows and xN columns of access switches. Each row has multiple row head switches at the beginning of the line, and multiple column head switches are deployed at the beginning of each column. Any access switch needs to connect all the row headers and column head switches of its row and column.
  • the invention allows connections between the server and the access switch, between the access switch and the first/column switch of the row to be connected through any port. There is a separate connection between each access switch and each row head switch in the row, and each column header switch in the column also has a separate connection.
  • the server is not shown, and a dashed line in the figure indicates all access switches and rows in a row.
  • the connection between all the head switches with a dotted vertical line indicating the connection between all access switches in a column and all the head switches of the column.
  • the port allocation ratio of the access switch can be allocated according to actual needs.
  • the typical method is to divide the port into 3 equal parts, 1/3 of the ports are used to connect the first switch, and 1/3 of the ports are used to connect to the first switch. The lower 1/3 of the ports are used to connect to the server device.
  • the number of switches at the head of each row and the number of switches at the beginning of each column is N/3. This configuration ensures that the ratio of oversubscription for each device is 1:1. If you need the first switch or the first switch to participate in the forwarding traffic is not Many, you can also reduce the number of the first switch and the first switch as needed, thus reducing the cost of network construction.
  • the 1/2 port of the access switch is assigned to the server, the 1/4 port is connected to the first switch, and the remaining 1/4 of the port is used to connect to the first switch.
  • the number of switches at the beginning of each row and the number of switches at the beginning of each column can be reduced to N/4.
  • the oversubscription ratio of the first row/first column switch is 1:2.
  • Described above is a complete switched matrix topology.
  • the network topology can be adjusted to the actual needs. For example, for a data center with a small network and a small number of servers, an incomplete switched matrix network can also be constructed.
  • a complete switched matrix network has N rows and xN columns of access switches. If the number of servers does not reach N 3 /3, the number of access switches can be reduced in order from right to left and from bottom to top.
  • the connection scheme of the first switch is as follows: First, each of the first switches uses six ports to connect to the six access switches in the column, and then the remaining ports are sequentially aggregated to these ports in order.
  • 10.X.X.X ( 0 ⁇ X ⁇ 255 ) is addressed and needs to be converted to an external network address using Network Address Translation (NAT) technology when communicating with an external network.
  • NAT Network Address Translation
  • the IP address of the first switch is configured as lO.Row.OX, where Row is the line number of the switch at the beginning of the line, Q ⁇ Row ⁇ N , 0 ⁇ X ⁇ 255. Within this specified range, the address of the first switch can be arbitrary. Configuration (X can be arbitrarily specified).
  • the IP address of the first switch is configured as lO.O.Col.X, where Col is the column number where the first switch is located, Q ⁇ Col ⁇ N , 0 ⁇ X ⁇ 255. Within this specified range, the address of the first switch Can be arbitrarily configured (X can be arbitrarily specified).
  • the IP address of the access switch is configured as 10.Row.CoU, where Row is the line number of the access switch and Col is the column number where the access switch is located, ⁇ ⁇ Row ⁇ N , Q ⁇ Col ⁇ N.
  • the IP address of the server is configured as lO.Row.Col.X, where Row is the row number of the server, Col is the column number of the server, ⁇ ⁇ Row ⁇ N , 0 ⁇ Col ⁇ N , 1 ⁇ X ⁇ 255, within this specified range, the server's address can be arbitrarily configured (X can be arbitrarily specified).
  • each access switch and all servers connected to it form a physical subnet with a subnet mask of 255.255.255.0.
  • the first switch of the same row or the first switch of the same column has the same network address prefix but no direct connection.
  • the rows and columns are a symmetric structure. Therefore, communication between servers in different rows and columns may first pass through the first switch and then through the first switch, or first through the first column. The switch then goes through the first switch, for example, there is a device 10.2.2.X and 10.4.4.X communication.
  • the path through the first switch is as follows:
  • the data center network system proposed by the present invention has a regular topology structure, so the routing method can be designed very simply.
  • the present invention employs a route forwarding method based on a routing table.
  • the structure of the routing table is as follows: Description:
  • the timestamp is used to record the creation or update time of this routing entry.
  • next hop IP address When the routing table is described later, the next hop IP address, next hop MAC address, and time war information are omitted.
  • Routing table for the first switch lO.Row.O.X (using a non-contiguous subnet mask)
  • the routing and forwarding rules of the access switch are as follows: 1) For the communication of this subnet, the traditional Layer 2 switching is used for forwarding, which is not described here; 2) The destination address is the server in the line (but located in different subnets) Forward to the head switch; 3) For the server whose destination address is a different line (on a different subnet), forward it to the first switch. For cases (2) and (3), three-layer routing forwarding is required.
  • the routing table is as follows: Target subnet/subnet mask Outbound port
  • the port corresponding to X 2 is forwarded to the first switch.
  • lO.Row.OX is the IP address of the switch at the ith row of the Row row (1 ⁇ ⁇ K, K is the number of switches at the beginning of the Row row), lO.O.Col.X, It is the IP address of the first column of the first column of the Col column (1 ⁇ _ / ⁇ ⁇ ⁇ , ⁇ is the number of switches listed).
  • the present invention uses Equal-Cost Multipath Routing (ECMP) technology to implement equivalents from multiple repetitions. Randomly select a path in the path.
  • ECMP Equal-Cost Multipath Routing
  • the routing table can be constructed very easily by automatically learning the connection between the head/head switch and the access switch. In order to learn the connection between the switches, all you need The switch periodically sends PDUs (Protocol Data Units) to all active ports, including the local IP address and the local MAC address. For any switch, each port corresponds to at most one routing entry, so the number of entries in the routing table is at most equal to the number of ports on the switch.
  • PDUs Protocol Data Units
  • the first switch lO.Row.O.X constructs a routing table according to the following rules:
  • the first switch lO.O.Col.X constructs a routing table according to the following rules:
  • the access switch lO.Row.Col.l constructs a routing table according to the following rules:

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种数据中心网络系统的路由方法。该数据中心网络系统包括行首交换机、列首交换机和呈矩阵排列的接入交换机,每行的行首至少部署一个行首交换机,每列的列首至少部署一个列首交换机,服务器与接入交换机相连接,接入交换机与其所在行的所有行首交换机及其所在列的所有列首交换机相连接。在本发明中,同一子网的服务器之间通过与其相连接的接入交换机进行通信,不同子网的服务器之间需要通过接入交换机、行首交换机和列首交换机进行通信。本发明采用的路由方法更为简单、高效,便于通过硬件实现,路由速度快。

Description

数据中心网络系统的路由方法 技术领域
本发明涉及一种路由技术领域, 尤其涉及一种数据中心网络系统的路 由方法。 背景技术
数据中心是企业各种应用服务的提供中心, 是数据运算、 交换和存储 的中心。 它结合了先进的网络技术和存储技术, 承载了网络中 80%以上的 服务请求和数据存储量, 为客户业务体系的健康运转提供服务和运行平台。
数据中心最早出现在 20世纪 60年代初。 随着互联网的快速建设和信 息技术的迅猛发展, 到 20世纪 90年代中后期, 数据中心进入了蓬勃发展 期, 建设规模和服务器数量每年都以惊人的速度增长。 互联网技术的蓬勃 发展掀起了建设数据中心的高潮, 不但政府机构和金融电信等大型企业扩 建自己的数据中心, 中小企业也纷纷构建数据中心。 自 2006年 Google公 司提出云计算以来, 在亚马逊、微软、雅虎、 IBM等 IT公司的大力推动下, 云计算技术得到长足发展, 美国、 韩国、 日本政府都宣布了国家云计算发 展战略。 云计算的发展进一步带动数据中心的迅速发展, 数据中心网络规 模不断扩大, 目前一个大型数据中心可能包含数万台服务器。
随着数据中心规模的日益扩大, 数据中心容纳的服务器数量也越来越 多, 因此需要巨大的上层网络带宽支持。 数据中心网络的典型拓朴结构是 由路由和交换单元组成的类似树形的网络结构, 其上层网络为了支持大量 的带宽需求不得不采用昂贵的专用设备。 问题是, 即使采用最高端的 IP交 换机或路由器, 核心层也是只能支持到 50%的边缘网络汇集的带宽, 而且 需要巨大的费用开销。 因此树形拓朴结构不可避免地会在上层核心网络产 生通信瓶颈, 从而导致网络在传输延迟、 传输效率等方面整体性能的下降。 另外, 在数据中心, 这种非对称的网络带宽还会为应用设计带来复杂性。
为了解决上层核心网络带宽不足带来的通信瓶颈问题, 目前通过检索 到的方法来看, 一般采用 Clos网络或者胖树(Fat Tree )拓朴组成无阻塞网 络, 并根据拓朴结构的特点, 提出相应的路由 /交换方法, 比如 Fat Tree结 构、 Clos网络、 多分支胖树网络拓朴结构。 另外, 还有些方法利用服务器 的多网卡技术, 把服务器同时连接到多个交换机 /路由器上, 从而增加服务 器之间的连接数量, 来解决上层核心网络带宽不足的问题。 这些方法和传 统的树形结构相比, 具有较高的二分带宽( bisection bandwidth ), 并且每一 层路由 /交换设备的超额订购(Oversubscription )比例都可以达到 1:1 , 因此 可以有效消除顶层带宽不足带来的网络瓶颈问题。
上述网络结构虽然解决了构建大规模数据中心网络的上层带宽瓶颈问 题, 但仍然存在如下缺点: (1 ) 由于其拓朴结构的限制, 网络流量的超额 订购(Oversubscription )比例很难按照实际需求进行灵活的调整, 网络配置 的灵活性差; (2 )其网络拓朴结构比较复杂, 设备编址需要遵循严格复杂 的规则, 设备端口之间按照严格的顺序进行连接, 这些问题导致数据中心 在网络布线和设备部署方面比较繁瑣, 运行过程中网络维护也会相对比较 困难; (3 ) 由于拓朴结构复杂, 导致其路由算法也相对比较复杂; (4 )在 构建规模较小的数据中心网络时, 会存在端口空余浪费的情况, 网络伸缩 性较差。 发明内容
本发明提出了一种数据中心网络系统的路由方法, 该数据中心网络系 统采用的是称为交换式矩阵的网络结构。 该方法可以充分发挥交换式矩阵 网络拓朴结构的特点和优势, 解决数据中心网络中的通信瓶颈问题。 在该 路由方法中, 构建路由表只需要网络设备交换很少量信息, 构建方法简单 易行, 所构建的路由表规模小, 路由速度快。 此外, 该路由方法可以充分 利用源和目的节点之间的多条并行链路实现无阻塞路由和负载均衡。
实现本发明中的路由方法所基于的数据中心网络系统包括交换机和服 务器两类设备, 所述交换机包括行首交换机、 列首交换机和呈矩阵排列的 接入交换机, 矩阵的每行行首至少部署一个行首交换机, 每列列首至少部 署一个列首交换机, 服务器与接入交换机相连接, 每个接入交换机与其所 换机和列首交换机之间、 以及各接入交换机之间不直接相连。 在该网络结 构中, 交换机和服务器采用内部网络 IP地址, 并按照如下规则进行编址: 行首交换机的 IP地址配置为 lO.Row.O.X; 列首交换机的 IP地址配置为 lO.O.Col.X; 接入交换机的 IP地址配置为 lO.Row.Col.l ; 服务器的 IP地址 配置为 10.Row.Col.X。 其中 Row为交换机或服务器所在行的行号, Col为 交换机或服务器所在列的列号; 对于行首 /列首交换机, 0 < J≤ 255 , 对于 服务器, 1 < J < 255 0 所有设备的子网掩码设为 255.255.255.0。
本发明中的数据中心网络系统的路由方法为: 同一子网的服务器之间 通过与其相连接的接入交换机进行通信, 不同子网的同行的服务器之间通 过与其相连接的接入交换机和位于该行的行首交换机进行通信, 同列的服 务器之间通过与其相连接的接入交换机和位于该列的列首交换机进行通 信, 不同行列的服务器之间通过接入交换机、 行首交换机和列首交换机进 行通信。
同一行内的服务器 A和服务器 B进行通信时,服务器 A先和与其相连 接的接入交换机 A进行通信, 接入交换机 A再通过位于该行的行首交换机 与和服务器 B相连接的接入交换机 B进行通信, 接入交换机 B再与服务器 B进行通信。
同一列内的服务器 A和服务器 B进行通信时,服务器 A先和与其相连 接的接入交换机 A进行通信, 接入交换机 A再通过位于该列的列首交换机 和与服务器 B相连接的接入交换机 B进行通信, 接入交换机 B再与服务器 B进行通信。
位于不同行列的服务器 A和服务器 B进行通信时,服务器 A先和与其 相连接的接入交换机 A进行通信, 接入交换机 A再通过与其同行的行首交 换机与位于该行的且与服务器 B同列的接入交换机 C1进行通信,接入交换 机 C1再通过其所在列的列首交换机和与服务器 B相连接的接入交换机 B 进行通信, 接入交换器 B再与服务器 B进行通信。
位于不同行列的服务器 A和服务器 B进行通信时,服务器 A先和与其 相连接的接入交换机 A进行通信, 接入交换机 A再通过与其同列的列首交 换机与位于该列的且与服务器 B同行的接入交换机 C2进行通信,接入交换 机 C2再通过其所在行的行首交换机和与服务器 B相连接的接入交换机 B 进行通信, 接入交换器 B再与服务器 B进行通信。 特点和优势, 具有以下优点:
1 )相邻交换机之间只需要定期交换本机的 IP和 MAC地址信息就可以 建立构造出路由表, 交换的数据量非常少。
2 )路由表的构造方法非常简单, 构造速度快, 对链路失效的反应速度 快, 不存在路由收敛问题。
3 )路由表规模小, 路由速度快, 可以通过硬件设备利用交换技术实现 路由。
4 ) 网络可靠性高, 任意两个终端之间存在多条等价路径, 本路由算法 支持等价多路径路由 ECMP ( Equal-Cost Multipath Routing )技术, 具备负 载均衡能力。 附图说明
图 1为由 6个端口的交换机组成的数据中心网络系统。 具体实施方式
为使本发明的上述目的、 特征和优点能够更加明显易懂, 下面结合附 图和具体实施方式对本发明作进一步详细的说明。
本发明提供的数据中心网络系统中, 网络采用规则化的拓朴结构 (交 换式矩阵拓朴), 并按照一定的规则进行编址。 数据中心网络系统由一组行 首交换机 10.Row.0.X、 列首交换机 10.0.Col.X、接入交换机 lO.Row.Col.l和 连接到接入交换机上的各种服务器 lO.Row.Col.X构成。其中 Row为交换机 或服务器所在行的行号, Col 为交换机或服务器所在列的列号; 对于行首 / 列首交换机, 0 < J≤ 255 , 对于服务器, 1 < J≤ 255。 所有设备的子网掩 码均设为 255.255.255.0。
服务器之间通信通过接入交换机、 行首交换机和列首交换机的路由转 发功能完成。 行首交换机负责把本行的所有接入交换机连接在一起, 列首 交换机负责把本列的所有接入交换机连接到一起。 每一个接入交换机同时 连接到所在行的所有行首交换机和所在列的所有列首交换机上面, 行首交 换机和列首交换机之间、 各接入交换机之间没有直接的连接关系。 每个服 务器都连接到一个接入交换机上。 为了完成路由转发功能, 在每个行首 /列 首交换机和接入交换机上都维护一张路由表, 数据分组根据路由表进行转 发。 相连的交换机通过互相交换信息(包括本机 IP地址和 MAC地址 ) 学 习之间的连接关系, 并根据连接关系生成路由表。
1、 交换式矩阵拓朴结构
本实施例中, 数据中心网络系统由交换机和服务器两类设备组成。 交 换机设备提供二层(链路层)和三层(网络层) 网络交换功能, 服务器设 备提供数据运算和存储服务。 其中交换机又分为三种类型, 称为行首交换 机、 列首交换机和接入交换机。 行首交换机和列首交换机属于网络核心层, 具有三层交换 /路由能力, 负责把接入交换机连接在一起; 接入交换机属于 网络接入层, 具有二层交换和三层交换 /路由能力, 负责把服务器接入到网 络中。 本实施例中的行首交换机、 列首交换机和接入交换机都可以采用高 性价比的普通交换机。 行首交换机、 列首交换机和接入交换机连接在一起 构成了交换式矩阵拓朴结构。
本发明提出的交换式矩阵拓朴结构要求行首交换机、 列首交换机和接 入交换机的参与交换 /路由的端口数(活动端口数)最好相同, 设端口数为 N ( N〉3 )。 接入交换机的端口分为三部分, 其中第一部分端口用来连接服 务器, 第二部分端口连接行首交换机, 剩下的一部分端口用来连接列首交 换机。 完整的拓朴结构总共有 N行 xN列个接入交换机,每一行的行首部署 多个行首交换机, 每一列的列首部署多个列首交换机。 任一个接入交换机 需要连接其所在行和列的全部行首交换机和列首交换机。 本发明允许服务 器和接入交换机之间、 接入交换机和所在行首 /列首交换机之间通过任意端 口进行连接。 每一个接入交换机和所在行的每个行首交换机之间都有一条 单独的连接, 和所在列的每个列首交换机也都有一条单独的连接。 图 1是 一个交换机的端口数 N = 6的交换式矩阵的例子, 为清晰起见, 图中没有画 出服务器, 并且在图中用一条虚横线表示一行内的所有接入交换机和该行 的所有行首交换机之间的连接, 用一条虚竖线表示一列内的所有接入交换 机和该列的所有列首交换机之间的连接。
接入交换机的端口分配比例可以根据实际需要进行分配, 典型分法是 把端口分成 3等份, 1/3的端口用于连接行首交换机, 1/3的端口用于连接 列首交换机, 剩下 1/3的端口用于连接服务器设备。这样每行的行首交换机 和每列的列首交换机数量为 N/3。这种配置方式可以保证每层设备的超额订 购比例达到 1:1。 如果需要行首交换机或列首交换机参与转发的通信量不是 很多, 也可以根据需要适当减少行首交换机和列首交换机的数量, 从而降 低建网成本。 比如把接入交换机的 1/2端口分配给服务器, 1/4的端口连接 行首交换机, 剩下 1/4的端口用于连接列首交换机。这样每行的行首交换机 和每列的列首交换机数量可以减少到 N/4。 这种情况下, 行首 /列首交换机 的超额订购比例为 1:2。
上面描述的是一个完整的交换式矩阵拓朴。 在某些情况下, 可以针对 实际需要对网络拓朴进行调整。 比如对于网络规模较小, 服务器数量不多 的数据中心, 也可以构建不完全的交换式矩阵网络。 完整的交换式矩阵网 络拥有 N行 xN列个接入交换机,如果服务器的数量达不到 N3/3 ,可以按照 自右向左, 自下向上的顺序减少接入交换机的数量。 对于不完整的行或列, 多余空闲端口通过端口汇聚(Trunk )技术合并到其他端口上。 比如交换机 的端口数为 12, 则可以构成最大为 12行 * 12列的网络拓朴。每行的行首交 换机和列首交换机的数量均为 12/3=4个。 如果是不完全的拓朴结构, 比如 只有 6行 *12列的接入交换机,则列首交换机的数量即可减少一半,为 2个。 此时列首交换机的连接方案为: 首先每个列首交换机用 6个端口连接本列 内的 6个接入交换机, 然后剩下的端口按照顺序逐次平均地汇聚到这些端 口上。
2、 网络编址方案
本数据中心网络系统内的各种交换机和服务器采用内部网络 IP地址
10.X.X.X ( 0 < X < 255 )进行编址, 需要和外部网络通信时采用网络地址 转换(NAT )技术转换成外部网络地址。
行首交换机的 IP地址配置为 lO.Row.O.X,其中 Row为行首交换机所在 的行号, Q < Row ≤ N , 0 < X < 255 , 在这个规定范围内, 行首交换机的地 址可以任意配置 ( X可以任意指定)。 列首交换机的 IP地址配置为 lO.O.Col.X, 其中 Col为列首交换机所在 的列号, Q 〈 Col ≤ N , 0 < X < 255 , 在这个规定范围内, 列首交换机的地 址可以任意配置 (X可以任意指定)。
接入交换机的 IP地址配置为 10.Row.CoU , 其中 Row为接入交换机所 在的行号, Col为接入交换机所在的列号, ΰ < Row ≤ N , Q 〈 Col ≤ N。
服务器的 IP地址配置为 lO.Row.Col.X,其中 Row为该服务器所在的行 号, Col为该月良务器所在的列号, ΰ < Row ≤ N , 0 < Col ≤ N , 1 < X < 255 , 在这个规定范围内, 服务器的地址可以任意配置 (X可以任意指定)。
在上面的编址方案中,我们可以根据设备的 IP地址区分出其设备类型, 以及该设备在网络中所处的位置, 这有助于确定设备连接关系, 简化路由 方案。 根据编址方案和设备连接关系, 可以看出每一个接入交换机和其连 接的全部服务器构成一个物理子网, 子网掩码为 255.255.255.0。 同一行的 行首交换机或同一列的列首交换机虽然其网络地址前缀相同, 但是没有直 接连接关系。
3、 路由方法
在本实施例提出的交换式矩阵网络中, 行和列是一个对称的结构, 因 此, 不同行列内的服务器之间进行通信, 可以先经过行首交换机再经过列 首交换机, 或者先经过列首交换机再经过行首交换机, 比如有一台设备 10.2.2.X和 10.4.4.X通信, 先经过列首交换机的路径如下:
10.2.2.X→10.2.2.1→10.0.2.X→10.4.2.1→10.4.0.X→10.4.4.1→10.4.4.X 先经过行首交换机的路径如下:
10.2.2.X→10.2.2.1→10.2.0.X→10.2.4.1→10.0.4.X→10.4.4.1→10.4.4.X 本实施例规定: 同一行内的设备之间进行通信, 只通过行首交换机进 行转发, 同一列内的设备之间进行通信, 只通过列首交换机进行转发。 不 同行列之间的设备通信, 采用先经过列首交换机的路径。
3.1 路由表的结构 本发明提出的数据中心网络系统具有规则的拓朴结构, 因此路由方法 可以设计的非常简单。 考虑到灵活性和扩展性, 本发明采用基于路由表的 路由转发方法。 路由表的结构如下:
Figure imgf000011_0001
说明:
( 1 ) 时间戳用来记录本条路由表项的创建或更新时间。
( 2 )后面描述路由表时, 省略了下一跳 IP地址、 下一跳 MAC地址和 时间戰信息。
行首交换机 lO.Row.O.X的路由表(采用非连续子网掩码 )
目标子网 /子网掩码 出端口
10.0.1.0/255.0.255.0 Pl(10.Row.l.l对应的端口)
10.0.2.0/255.0.255.0 P2(10.Row.2.1对应的端口)
10.0.3.0/255.0.255.0 P3(10.Row.3.1对应的端口)
10.0.4.0/255.0.255.0 P4(10.Row.4.1对应的端口)
10.0.5.0/255.0.255.0 P5(10.Row.5.1对应的端口)
10.0.6.0/255.0.255.0 P6(10.Row.6.1对应的端口)
列首交换机 lO.O.Col.X的路由表
目标子网 /子网掩码 出端口
10.1.0.0/255.255.0.0 Pl(10.1.Col.l对应的端口)
10.2.0.0/255.255.0.0 P2(10.2. Col.l对应的端口)
10.3.0.0/255.255.0.0 P3(10.3.Col.l对应的端口)
10.4.0.0/255.255.0.0 P4(10.4.Col.l对应的端口)
10.5.0.0/255.255.0.0 P5(10.5.Col.l对应的端口) 10.6.0.0/255.255.0.0 P6(10.6.Col.l对应的端口)
接入交换机 lO.Row.Col.l的路由表
接入交换机的路由转发规则有如下三条: 1 )对于本子网的通信, 采 用传统的二层交换进行转发, 此处不作说明; 2 )对于目的地址是本行内 的服务器(但位于不同子网), 转发至行首交换机; 3 )对于目的地址是不 同行的服务器(位于不同子网)的通信, 转发至列首交换机。 对于情况(2 ) 和(3 ), 需要进行三层路由转发, 路由表如下: 目标子网 /子网掩码 出端口
lO.Row.0.0/255.255.0.0 lO.Row.O.Xi对应的端口
lO.Row.0.0/255.255.0.0 10.Row.0.X2对应的端口 转发给行首交换机,共
k个等价路径 lO.Row.0.0/255.255 .0.0 10.Row.0.XK对应的端口
10.0.0.0/255.0.0.0 lO.O.Col. Xi对应的端口 、
10.0.0.0/255.0.0.0 lO.O.Col. X2对应的端口 转发给列首交换机,共
M条等价路径 /255.0.0.0 lO.O.Col. XM对应的端口
1 ) lO.Row.O.X,.是第 Row行的第 i个行首交换机的 IP地址 (1≤≤K, K 为第 Row行的行首交换机的数量), lO.O.Col.X,是第 Col列的第 _ 个列首交 换机的 IP地址( 1≤_/·≤Μ, Μ为列首交换机的数量)。
2 )对于同一目标子网, 接入交换机的路由表里存在多条等价的路由路 径, 本发明采用等价多路径路由 ECMP ( Equal-Cost Multipath Routing )技 术, 实现从多条重复的等价路径中随机选择一条路径。
3.2路由表构造方法
通过自动学习行首 /列首交换机和接入交换机之间的连接关系, 可以非 常容易地把路由表构造出来。 为了学习交换机之间的连接关系, 需要所有 交换机定期向所有活动端口发送 PDU (协议数据单元), 包含内容为本机 IP 地址和本机 MAC地址。对于任意交换机来说,每个端口最多对应一条路由 表项, 因此路由表的条目数最多等于交换机的端口数。
( 1 )行首交换机路由表的构造
行首交换机 lO.Row.O.X按照如下规则构造路由表:
如果从端口 Port收到 lO.Row.Col.l发来的 PDU, 向路由表内添加或更 新路由表项:
lO.O.Col.0/255.0.255.0 /10.Row.Col.l/MAC地址 / Port/时间戳
如果规定时间内收不到更新 PDU, 则删除相应的路由条目 (已过期)。
( 2 ) 列首交换机路由表的构造
列首交换机 lO.O.Col.X按照如下规则构造路由表:
如果从端口 Port收到 lO.Row.Col.l发来的 PDU, 向路由表内添加或更 新路由表项:
lO.Row.0.0/255.255.0.0 /10.Row.Col.l/MAC地址 / Port/时间戳
如果规定时间内收不到更新 PDU, 则删除相应的路由条目 (已过期)。
( 3 )接入交换机路由表的构造
接入交换机 lO.Row.Col.l按照如下规则构造路由表:
a)从端口 Port收到本行的行首交换机 lO.Row.O.X的 PDU, 向路由表 内添加或更新路由表项:
10.Row.0.0/255.255.0.0/10.Row.0.X I MAC地址 / Port/时间戳
b)从端口 Port收到本列的列首交换机 lO.O.Col.X的 PDU,向路由表内 添加或更新路由表项:
10.0.0.0/255.0.0.0 /lO.O.Col.X /MAC地址/ Port/时间戳
c) 如果规定时间内收不到更新 PDU, 则删除相应的路由条目 (已过 期)。 说明: 对于同一子网内的数据通信, 采用传统的二层交换技术进行数 据转发, 二层交换的地址转发表(AFT, Address Forwarding Table )的构造 此处不做说明。
3.3 路由过程举例说明
( 1 ) 同一子网内设备的数据通信。 假设有两台服务器 IP地址分别为
10.1.1.2 (源)和 10.1.1.3 (目的 ),则二者的通信直接通过接入交换机 10.1.1.1 进行转发。
( 2 ) 同一行内设备的数据通信。 假设有两台服务器 IP 地址分别为 10.1.3.2和 10.1.5.2, 数据分组要从 10.1.3.2发送到 10.1.5.2, 需要首先发往 接入交换机 10.1.3.1 , 然后根据各交换机的路由表, 路由过程如下:
10.1.3.2→10.1.3.1→10.1.0.X→10.1.5.1→10.1.5.2
( 3 ) 同一列内设备的数据通信。 假设有两台服务器 IP 地址分别为 10.2.2.2和 10.4.2.2, 数据分组要从 10.2.2.2发送到 10.4.2.2, 需要首先发往 接入交换机 10.2.2.1 , 然后根据各交换机的路由表, 路由过程如下:
10.2.2.2→10.2.2.1→10.0.2.X→10.4.2.1→10.4.2.2
( 4 ) 不同行的设备的数据通信。 假设有两台服务器 IP 地址分别为 10.2.2.2和 10.4.4.2, 数据分组要从 10.2.2.2发送到 10.4.4.2, 需要首先发往 接入交换机 10.2.2.1 , 然后根据各交换机的路由表, 路由过程如下:
10.2.2.2→10.2.2.1→10.0.2.X→10.4.2.1→10.4.0.X→10.4.4.1→10.4.4.2 以上对本发明所提供的数据中心网络系统及其路由方法进行详细介 上实施例的说明只是用于帮助理解本发明的方法及其核心思想; 同时, 对 于本领域的一般技术人员, 依据本发明的思想, 在具体实施方式及应用范 围上均会有改变之处。 综上所述, 本说明书内容不应理解为对本发明的限 制。 工业实用性 数据量少、 路由表构造速度快、 路由表规模小、 路由速度快、 网络可靠性 高、 具备负载均衡能力等优点。

Claims

权利要求书
1、 一种数据中心网络系统的路由方法, 该方法包括:
同一子网的服务器之间通过与其相连接的接入交换机进行通信, 不同 子网的同行的服务器之间通过与其相连接的接入交换机和位于该行的行首 交换机进行通信, 同列的服务器之间通过与其相连接的接入交换机和位于 该列的列首交换机进行通信, 不同行列的服务器之间通过接入交换机、 行 首交换机和列首交换机进行通信。
2、 根据权利要求 1所述的一种数据中心网络系统的路由方法, 其中, 同一行内的服务器 A和服务器 B进行通信时,服务器 A先和与其相连接的 接入交换机 A进行通信, 接入交换机 A再通过位于该行的行首交换机与和 服务器 B相连接的接入交换机 B进行通信,接入交换机 B再与服务器 B进 行通信。
3、 根据权利要求 1所述的一种数据中心网络系统的路由方法, 其中, 同一列内的服务器 A和服务器 B进行通信时,服务器 A先和与其相连接的 接入交换机 A进行通信, 接入交换机 A再通过位于该列的列首交换机和与 服务器 B相连接的接入交换机 B进行通信,接入交换机 B再与服务器 B进 行通信。
4、 根据权利要求 1所述的一种数据中心网络系统的路由方法, 其中, 位于不同行列的服务器 A和服务器 B进行通信时,服务器 A先和与其相连 接的接入交换机 A进行通信, 接入交换机 A再通过与其同行的行首交换机 与位于该行的且与服务器 B 同列的接入交换机 C1进行通信, 接入交换机 C1再通过其所在列的列首交换机和与服务器 B相连接的接入交换机 B进行 通信, 接入交换器 B再与服务器 B进行通信。
5、 根据权利要求 1所述的一种数据中心网络系统的路由方法, 其中, 位于不同行列的服务器 A和服务器 B进行通信时,服务器 A先和与其相连 接的接入交换机 A进行通信, 接入交换机 A再通过与其同列的列首交换机 与位于该列的且与服务器 B 同行的接入交换机 C2进行通信, 接入交换机 C2再通过其所在行的行首交换机和与服务器 B相连接的接入交换机 B进行 通信, 接入交换器 B再与服务器 B进行通信。
PCT/CN2012/073735 2011-05-05 2012-04-10 数据中心网络系统的路由方法 WO2012149857A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2011101157942A CN102185772B (zh) 2011-05-05 2011-05-05 数据中心网络系统的路由方法
CN201110115794.2 2011-05-05

Publications (1)

Publication Number Publication Date
WO2012149857A1 true WO2012149857A1 (zh) 2012-11-08

Family

ID=44571843

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/073735 WO2012149857A1 (zh) 2011-05-05 2012-04-10 数据中心网络系统的路由方法

Country Status (2)

Country Link
CN (1) CN102185772B (zh)
WO (1) WO2012149857A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102185772B (zh) * 2011-05-05 2013-10-23 北京交通大学 数据中心网络系统的路由方法
CN102420775A (zh) * 2012-01-10 2012-04-18 西安电子科技大学 基于模块扩展的数据中心网络拓扑系统的路由方法
CN103856402B (zh) * 2012-11-30 2017-06-20 华为技术有限公司 一种数据中心网络结构及其路由方法
CN106713158B (zh) * 2015-07-16 2019-11-29 华为技术有限公司 Clos网络中负载均衡的方法及装置
CN108199977A (zh) * 2017-12-29 2018-06-22 国网湖南省电力有限公司 一种双活数据中心的多跳路由和调度方法
CN110086870A (zh) * 2019-04-28 2019-08-02 北京工业大学 面向数据中心网络的多路径并行可靠传输方法
CN111294278B (zh) * 2020-01-03 2022-02-25 腾讯科技(深圳)有限公司 路由方法、装置、电子设备及计算机可读存储介质
CN111917901B (zh) * 2020-08-07 2021-03-23 苏州工业职业技术学院 一种数据中心网络bcdc中ip地址编址方法
CN114978997B (zh) * 2022-07-28 2022-10-21 成都爱科特科技发展有限公司 一种射频中频三级clos无阻塞交换矩阵路由快速选择方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383778A (zh) * 2008-10-27 2009-03-11 杭州华三通信技术有限公司 基于网络双出口的报文传输方法和出口路由器
CN101485156A (zh) * 2006-11-30 2009-07-15 第三级通讯公司 用于通过网络交换流量的系统和方法
US20090303880A1 (en) * 2008-06-09 2009-12-10 Microsoft Corporation Data center interconnect and traffic engineering
CN102164088A (zh) * 2011-05-05 2011-08-24 北京交通大学 数据中心网络系统
CN102185772A (zh) * 2011-05-05 2011-09-14 北京交通大学 数据中心网络系统的路由方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE373399T1 (de) * 2005-03-04 2007-09-15 Alcatel Lucent Vermittlung für integrierte telekommunikationssnetzwerke

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101485156A (zh) * 2006-11-30 2009-07-15 第三级通讯公司 用于通过网络交换流量的系统和方法
US20090303880A1 (en) * 2008-06-09 2009-12-10 Microsoft Corporation Data center interconnect and traffic engineering
CN101383778A (zh) * 2008-10-27 2009-03-11 杭州华三通信技术有限公司 基于网络双出口的报文传输方法和出口路由器
CN102164088A (zh) * 2011-05-05 2011-08-24 北京交通大学 数据中心网络系统
CN102185772A (zh) * 2011-05-05 2011-09-14 北京交通大学 数据中心网络系统的路由方法

Also Published As

Publication number Publication date
CN102185772B (zh) 2013-10-23
CN102185772A (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
WO2012149857A1 (zh) 数据中心网络系统的路由方法
US11777839B2 (en) Data center network with packet spraying
US11469922B2 (en) Data center network with multiplexed communication of data packets across servers
WO2012149867A1 (zh) 数据中心网络系统
US8855117B2 (en) Scalable media access control protocol synchronization techniques for fabric extender based emulated switch deployments
Xia et al. A tale of two topologies: Exploring convertible data center network architectures with flat-tree
US8570856B2 (en) Global ports in multi-switch systems
US8259713B2 (en) Systems and methods for network routing in a multiple backbone network architecture
US10291551B2 (en) Switching fabric topology based on traversing asymmetric routes
Sun et al. Diamond: An Improved Fat-tree Architecture for Large-scale Data Centers.
US11228524B1 (en) Methods and apparatus for efficient use of link aggregation groups
US9935779B1 (en) Methods and apparatus for using virtual local area networks in a switch fabric
Wang et al. SprintNet: A high performance server-centric network architecture for data centers
CN103297354B (zh) 服务器互连系统、服务器和数据转发方法
Alqahtani et al. Rethinking fat-tree topology design for cloud data centers
Subedi et al. OpenFlow-based in-network Layer-2 adaptive multipath aggregation in data centers
Benito et al. On the use of commodity Ethernet technology in exascale HPC systems
CN102769569B (zh) 交换式矩阵数据中心网络系统及数据包转发方法
CN111371535B (zh) 一种异地主备数据中心灾备系统及切换方法
US8942232B1 (en) Multi-stage switching topology
Hu et al. GARDEN: generic addressing and routing for data center networks
Wang et al. Towards reliable and lightweight source switching for datacenter networks
Sun et al. A high performance network architecture for large-scale cloud media data centers
Sun et al. Data center network architecture
CN113630346B (zh) 分布式网络系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12779749

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12779749

Country of ref document: EP

Kind code of ref document: A1