WO2022037266A1

WO2022037266A1 - 数据中心中的通信方法、装置和系统

Info

Publication number: WO2022037266A1
Application number: PCT/CN2021/103256
Authority: WO
Inventors: 周轶刚; 卢胜文; 毛修斌; 胡中华; 李凤凯; 刘永锋
Original assignee: 华为技术有限公司
Priority date: 2020-08-17
Filing date: 2021-06-29
Publication date: 2022-02-24
Also published as: CN114079625A; EP4184937A1; EP4184937A4; US20230198896A1

Abstract

本申请实施例公开了一种数据中心中的通信方法、装置和系统，所述数据中心包括多台服务器，多个电交换机，以及至少一个光交叉设备，所述多个电交换机中的至少两个电交换机的上行端口与所述至少一个光交叉设备互连；所述方法包括：接收拓扑管理器下发的网络拓扑信息；获取数据流；根据所述网络拓扑信息为所述数据流配置路由策略，所述路由策略包括以下任意路由策略之一或组合：第一路由策略，所述第一路由策略指示通过所述至少一个光交叉设备中的光通道转发所述数据流；第二路由策略，所述第二路由策略指示将所述数据流切分为至少两个子数据流进行转发；第三路由策略，所述第三路由策略指示通过所述数据中心中的电交换机转发所述数据流。

Description

数据中心中的通信方法、装置和系统

本申请要求于2020年8月17日提交的申请号为202010826601.3、发明名称为“数据中心中的通信方法、装置和系统”的中国专利申请的优先权，以及要求于2020年12月31日提交的申请号为202011639115.7、发明名称为“数据中心中的通信方法、装置和系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明大体上涉及通信技术，尤其涉及一种数据中心中的通信方法、装置和系统。

背景技术

在传统采用电交换机的数据中心网络中，一般采用胖树(Fat-tree)方式组网，端侧服务器通过电缆或者光缆(需经过光电信号转换)连接ToR(Top of Rack)交换机，ToR交换机和Leaf、Spine、Core交换机按照一定收敛比互联,可组成一张规模最高可达几百万节点的数据中心网络(Data Center Network，DCN)。

传统DCN网络的交换机处理电信号承载的网络报文，支持报文级交换和路由，也支持在交换机上缓存报文和对流量拥塞控制等高级功能。由于传统DCN网络在通信线路基于光信号传输，而交换节点在报文交换时必须基于电信号，因此传输路径上每跳交换机都必须进行光信号到电信号再到光信号转换，也导致DCN网络能耗高、建设成本高、报文E2E传输时延高以及交换端口带宽受电信号处理能力约束受限等问题。

发明内容

本申请实施例提供了一种数据中心中通信的方法、装置和系统，以提高数据中心的通信效率或节约数据中心的能耗与成本。

第一方面，本申请提供一种数据中心中的通信方法，所述数据中心包括多台服务器，多个电交换机以及至少一个光交叉设备，所述多个电交换机中的至少两个电交换机的上行端口与所述至少一个光交叉设备互连；所述方法包括：接收网络拓扑管理器下发的网络拓扑信息，获取数据流，根据所述网络拓扑信息为该数据流配置路由策略，所配置的路由策略可以包括指示通过所述至少一个光交叉设备中的光通道转发所述数据流的第一路由策略，也可以包括指示将所述数据流切分为至少两个子数据流进行转发的第二路由策略，也可以包括指示通过所述数据中心中的电交换机转发所述数据流的第三路由策略，也可以包括对数据流的第一部分报文采取第三路由策略与对该数据流的第二部分报文采取第一路由策略的第一组合策略，也可以包括对数据流的第一部分报文采取第三路由策略与对该数据流的第二部分报文采取第二路由策略的第二组合策略。

优选地，所述方法由所述多台服务器中的至少一台服务器执行，或者，所述方法由所述多台服务器中的每台服务器执行。

优选地，所述方法由服务器中的网卡执行，例如带有网络处理器的智能网卡。

本发明实施例采用传统分组交换设备(例如电交换机)和光交叉设备混合DCN组网，并采用服务器上的源路由技术实现数据中心中的数据流的路由，把集中式算路由的工作分布到服务器上的智能网卡上独立计算，避免了SDN控制器集中式算路带来的控制器容错难以及网络故障后重路由和路由收敛慢问题。

可选地，在接收到所述数据流的第一报文时，根据所述数据流携带的地址信息和所述网络拓扑信息为所述数据流配置所述第三路由策略。

可选地，根据所述数据流的报文识别所述数据流的类型，根据所述数据流的类型为所述数据流配置更新后的路由策略，所述更新后的路由策略包括所述第一路由策略或所述第二路由策略。

可选地，为第一类型的数据流配置所述第一路由策略，为第二类型的数据流配置所述第二路由策略。

本发明实施例将分类的数据流调度到电交换机或者光交叉设备转发，以灵活利用电交换和光交叉的优势，不但可降低DCN网络建设成本，而且可大幅降低大数据流例如大象流对网络拥塞以及网络公平性的影响。对第一类型大象流直接采取光通道进行转发，减少此类大流量采用电交换机转发带来的大量的光电转换，可以提高第一类型大象流的转发效率以及减少数据中心的能耗，另外可以减少第一类型大象流在出现的时间段内对数据中心的其他流量的冲击。还例如，对于第二普通大象流采取切分转发的方式，可以提高此类大象流的转发效率。

可选地，还包括：从所述至少一个光交叉设备中选择一个目标光交叉设备，指示所述目标光交叉设备建立所述光通道。传统OxC设备上光通道是人工静态配置的，无法根据数据流量的动态变化灵活配置，本发明实施例通过服务器识别数据流量的类型或者变化，驱动光通道控制器动态配置光交叉设备动态建立光通道，可按需调度第一类型大象流到OxC的光通道，降低第一类型大象流对网络上其它流量的影响。

可选地，还包括：获得第一子路由信息，所述第一子路由信息包括将所述第一类型的数据流路由到所述目标光交叉设备的信息；根据所述第一子路由的信息转发所述第一类型的数据流的后续报文到所述目标光交叉设备。

可选地，还包括：根据所述第三路由策略获得至少两条等价子路径的路由信息。

可选地，还包括：将所述第二类型的数据流的后续报文切分为至少两个子数据流，根据所述至少两条等价路径的路由信息分别转发所述两个子数据流。对于普通大象流采取切分的方式，可以分散报文的转发，提高网络中各路径的负载均衡，从而提高通信效率。

可选地，所述第一类型的数据流为潮汐大象流，所述第二类型的数据流为普通大象流。

可选地，识别所述数据流中的报文携带的特征信息，若所述报文的特征信息与预设信息匹配，确定所述数据流为第一类型的数据流；或者，

识别所述数据流在第一时间段内的报文的数量，或第一时间段内的报文所包含的数据量，或第一时间段内的报文所需的带宽，若所述第一时间段内的报文的数量或数据量或所需带宽大于预设阈值，确定所述数据流为第二类型的数据流。

可选地，通过链路发现协议获取相邻交换机的网络连接信息，将获取到的网络连接信息上报到所述拓扑管理器。在服务器(例如智能网卡)上部署运行链路发现协议的代理，将服务器纳入网络中，在源端进行路由的分发和计算，分担了网络中交换机的负载。

第二方面，本申请提供一种数据中心，该数据中心包括多台服务器，多个电交换机，以及至少一个光交叉设备，该多个电交换机中的至少两个电交换机的上行端口与所述至少一个光交叉设备互连；所述多台服务器中的至少一台服务器，用于接收网络拓扑信息，获取数据流，根据所述网络拓扑信息为所述数据流配置路由策略，所述路由策略包括以下任意路由策略之一或组合：第一路由策略，所述第一路由策略指示通过所述至少一个光交叉设备中的光通道转发所述数据流；第二路由策略，所述第二路由策略指示将所述数据流切分为至少两个子数据流进行转发；第三路由策略，所述第三路由策略指示通过所述数据中心中的电交换机转发所述数据流。

可选地，所述多台服务器和所述多个电交换机组成多个业务集群，其中，第一业务集群包括至少两台服务器，至少两个接入交换机和至少一个汇聚交换机，所述至少两个接入交换机的第一上行端口与所述至少一个光交叉设备互连，所述至少两个接入交换机的第二上行端口与所述至少一个汇聚交换机互连。

可选地，所述多台服务器和所述多个电交换机组成多个业务集群，其中，第一业务集群包括至少两个接入交换机和至少一个汇聚交换机，所述至少一个汇聚交换机的第一上行端口与所述至少一个光交叉设备互连，所述至少一个汇聚交换机的第二上行端口与骨干交换机互连。

可选地，所述多台服务器和所述多个电交换机组成多个业务集群，其中，第一业务集群包括至少两台服务器，至少两个接入交换机和至少一个汇聚交换机，所述至少两个接入交换机的第一上行端口与所述至少一个光交叉设备中的第一光交叉设备互连，所述至少两个接入交换机的第二上行端口与所述至少一个汇聚交换机互连；所述至少一个汇聚交换机的第一上行端口与所述至少一个光交叉设备中的第二光交叉设备互连，所述至少一个汇聚交换机的第二上行端口与骨干交换机互连。

可选地，所述数据中心还包括拓扑管理器，所述拓扑管理器用于获取所述数据中心中的各个设备发送的网络连接信息，根据所述各个设备的网络连接信息获得网络拓扑信息，并将所述网络拓扑信息下发给所述多台服务器中的至少一台服务器。

可选地，所述至少一台服务器包括网卡，所述网卡获取所述拓扑管理器下发的网络拓扑信息，所述网卡根据所述网络拓扑信息配置所述路由策略。

第三方面，本申请提供一种服务器，该服务器包括用于执行第一方面所述的任一项方法的处理单元。

第四方面，本申请提供一种网卡，该网卡包括网络处理器，该网络处理器用于执行第一方面所述的任一项方法。

第五方面，本申请提供一种服务器或网卡，该服务器包括处理器和存储器，其中，所述存储器用于存储程序代码，所述处理器用于执行所述程序代码以实现第一方面所述的任一项方法。

第六方面，本申请提供一种路由处理装置，应用于第二方面所述的数据中心，该路由处理装置包括源路由控制器，该源路由控制器用于接收网络拓扑管理器下发的网络拓扑信息，获取数据流，根据所述网络拓扑信息为该数据流配置路由策略，所配置的路由策略可以包括指示通过所述至少一个光交叉设备中的光通道转发所述数据流的第一路由策略，也可以包括指示将所述数据流切分为至少两个子数据流进行转发的第二路由策略，也可以包括指示通过所述数据中心中的电交换机转发所述数据流的第三路由策略，也可以包括对数据流的第一部分报文采取第三路由策略与对该数据流的第二部分报文采取第一路由策略的第一组合策略，也可以包括对数据流的第一部分报文采取第三路由策略与对该数据流的第二部分报文采取第二路由策略的第二组合策略。

可选地，该路由处理装置为服务器中的智能网卡。

可选地，该源路由控制器包括源路由引擎和光交叉控制引擎，该源路由引擎用于根据网络拓扑信息计算路由策略，该光交叉控制引擎用于在需要建立光通道时，控制光交叉设备建立光通道。

可选地，该路由处理装置还包括识别引擎，用于识别数据流的类型，将不同类型的数据流上报给所述源路由引擎，并获得该源路由引擎提供的路由策略。

第七方面，本申请提供一种计算机可读存储介质或计算机程序产品，该计算机可读存储介质中存储了指令，该指令被处理器运行时，实现前述第二方面任意一种实现方式中提供的通信方法。该计算机可读存储介质包括但不限于只读存储器，随机访问存储器，快闪存储器、HDD或SSD。

本发明实施例突破传统数据中心的组网架构，提供新型的光电混合路由的数据中心组网架构，在数据中心网络架构中提供光交叉设备与基础交换机或边缘交换机进行互连，并采用光通道转发相关数据流，提高了网络传输效率。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1是传统的数据中心网络架构图；

图2是本发明实施例提供的数据中心网络架构图；

图3是本发明实施例提供的系统组网图；

图4是本发明实施例提供的拓扑管理方法流程图；

图5是根据本发明实施例的光通道建立与转发报文流程图；

图6是根据本发明实施例的数据中心通信方法流程图；

图7是根据本发明实施例的设备的组成示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。

如图1所示，传统的数据中心大多采用胖树结构，网络结构采用树形三层结构，网络按照核心层、汇聚层和边缘接入层划分。每一个机架中装载有多个服务器，它们通过机架顶层交换机(ToR交换机)进行连接，ToR交换机作为边缘接入交换机与汇聚层交换机(Leaf交换机)互连，形成一个PoD(Point of Delivery)集群(本发明实施例中称为业务集群)，在PoD集群中，为提高链路的可靠性，边缘交换机与汇聚交换机可以交叉全互联。三层的骨干交换机(例如Spine交换机)用于提供对外访问功能，以及提供PoD集群之间的互连，每个骨干交换机与至少一个汇聚交换机相连。上述传统数据中心中各层级的交换机包含能耗型的光-电(O-E)以及电-光(E-O)的收发器，存在着高能耗、建设成本高、报文E2E传输时延高以及交换端口带宽受电信号处理能力约束受限等问题。另外，数据中心中产生的流量的种类也越来越复杂，对流量的管理也可以提高数据中心的效率。

光交叉连接(Optical Cross-Connect，OXC)是一种用于光纤网络节点的设备,通过对光信号进行交叉连接,能够灵活有效地管理光传输网络。由于OxC在信号传送过程中无需光电转换，所以存在成本低、转发时延为零、链路带宽理论上可以无限宽等特点，在现有大规模数据中心网络中主要用于DCI(Data Center Interconnect)互联不同地域的数据中心。

本发明实施例采用传统分组交换设备(例如电交换机)和光交叉设备混合DCN组网，并采用源路由技术实现数据中心中的数据流的路由，具体地，数据中心中的服务器采用源路由技术对数据流进行路由，再具体地，可以由服务器上的智能网卡动态识别并区分物理网络中不同类型的流量，智能网卡通过源路由技术将分类的数据流调度到电交换机或者光交叉设备转发，以灵活利用电交换和光交叉的优势，不但可降低DCN网络建设成本，而且可大幅降低大数据流例如大象流对网络拥塞以及网络公平性的影响。

如图2所示为本发明实施例提供的DCN组网拓扑架构，在胖树网络的Spine及Leaf交换机层，除了传统的交换设备外，再部署至少一个光交叉设备OxC，并把Leaf和/或ToR交换机的上行端口与OxC的光交叉端口互连。如图2所示，PoD1中的Leaf层还部署光交叉设备OXC1，PoD1中的ToR1至ToRn的上行端口分别与OXC1的光交叉端口进行连接，以此类推，PoDn中的Leaf层也部署光交叉设备OXCn，PoDn中的ToR1至ToRn的上行端口分别与OXCn的光交叉端口进行连接，图2所示的PoD内部光交叉设备OXC的部署数量与连接方式只是其中一种可实现的实施例，每个PoD内部还可以部署更多数量的光交叉设备OXC，每个PoD内部的ToR交换机与PoD内部的光交叉设备OXC的连接方式可以采取全互连的方式，也可以采用其他的部分连接的方式连接，本实施例不赘述。图2中，在PoD外部还部署有光交叉设备OXC11，PoD1中的交换机Leaf1至Leafn的上行端口分别与OXC11的光交叉端口进行连接，以此类推，PoDn中的交换机Leaf1至Leafn的上行端口分别与OXC11的光交叉端口进行连接，图2所示的PoD外部光交叉设备OXC的部署数量与连接方式只是其中一种可实现的实施例，PoD外部还可以部署更多数量的光交叉设备OXC，PoD内部的Leaf交换机与PoD外部的光交叉设备OXC的连接方式可以采取全互连的方式，也可以采用其他的部分连接的方式连接，本实施例不赘述。图示中虚线连接仅用于示例电交换机与光交叉设备之间的连接与电交换机之间的连接两种连接方式，并非表示两者不存在连接关系。

基于图2所示的实施例，对于PoD内服务器之间跨ToR交换机的流量，例如PoD1中的ToR1与ToRn之间的数据交互，除了传统的上行ToR1->Leaf1->下行ToRn的转发路径外，还可以由智能网卡调度到上行ToR1->OxC1->下行ToRn的转发途径。对于跨PoD的流量，例如PoD1中的ToR1与PoDn中的ToR1之间的数据交互，除了传统的上行ToR1->上行Leaf1->Spine1->下行Leaf1>下行ToR1的转发路径外，还可以由智能网卡调度到ToR1->上行Leaf1->OxC11->下行Leaf1>下行ToR1的转发途径。

上述DCN组网中还可以包括拓扑管理器(图未示)，该拓扑管理器可以是数据中心中任意一台或多台服务器，也可以是任意一台或多台服务器上运行的拓扑管理组件，该拓扑管理器还可以是软件定义网络(Software Defined Network，SDN)控制器。该拓扑管理器用于对全网拓扑进行收集和管理，并将收集到的全网拓扑信息发送到每台服务器中的网卡。其中，电交换机的拓扑可以通过链路层发现协议(Link Layer Discovery Protocol，LLDP)收集后统一上报给拓扑管理器综合后获得，光交叉设备OxC的端口拓扑信息可以在拓扑管理器中静态配置。

上述DCN组网中还包括OXC控制器(图未示)，该OXC控制器独立的设备，也可以是每个OXC光交叉设备中的模块。该OXC控制器用于对光通道进行管理。

本发明实施例中，对服务器中的智能网卡进行改进以使得智能网卡具备源路由功能，具体地，可以对智能网卡中的可编程的网络处理器进行编程，以使得智能网卡可以实现源路由功能，源路由功能可以包括本发明实施例中的网络连接信息的发现，网络拓扑数据流的识别，以及数据流的路由等功能。本发明实施中，可以在数据中心中的每个PoD中选择至少一台服务器进行配置，使得该选择的服务器具备源路由功能，也可以选择数据中心中的每台服务器上的智能网卡进行配置，以实现分布式的源路由技术。本发明实施例以服务器上的智能网卡为例来说明，具体实现中，也可以是服务器上的其他设备来执行上述改进智能网卡所执行的功能。

在SDN网络中，SDN控制器收集全网拓扑后会集中计算全局路由并下发流转发表到电交换机中，本发明实施例采用服务器上的智能网卡实现源路由控制，把集中式算路由的工作分布到服务器上的智能网卡上独立计算，避免了SDN控制器集中式算路带来的控制器容错难以及网络故障后重路由和路由收敛慢问题。

本发明实施例中，数据中心中的服务器上的智能网卡可以从拓扑管理器获取全网的网络拓扑信息，智能网卡还可以基于统计的每条数据流已发送流量特性(如单位时间发送的报文数目、报文携带的数据量或报文占用的总带宽)，识别不同类型的网络流量，采用切分(针对普通大象流)或者旁路(潮汐大象流)的不同的路由策略。在实际数据中心网络中，导致网络拥塞的流量可能指只占10％，而这些流量占总流量大小的90％，这种流量被称为大象流(Elephant Flow)，其余流量被称为老鼠流(Mice Flow)。当前互联网应用越来越多，不同的应用由其自身的特点决定其需要不同的网络能力来匹配。在众多的应用中，视频类、智能AI业务、游戏类业务等应用在互联网流量中所占比重已经超过70％，并且未来还将越来越大，此类业务也会呈周期性或者在固定的时间段产生流量洪峰，例如人们习惯在某个时间段内进行该类业务，因此而周期性出现的大流量的数据流，在本发明实施例中将此类数据流称为潮汐大象流，其他非周期性出现或者不固定出现的大流量的数据流在本发明实施例中被称为普通大象流。本实施例中，以潮汐大象流与普通大象流为例来说明对服务器产生的大象流的区分，实际业务中，还可以是其他的分类标准或分类结果。本发明实施例智能网卡上的源路由控制面可以动态根据数据流量类型和/或网络拓扑动信息动态规划报文到达目的节点的路由策略，智能网卡可以根据不同的路由策略生成源路由转发标签栈将不同类型的大象流分流到电交换机或者光交叉设备，例如对潮汐大象流直接采取光通道进行转发，减少大流量采用电交换机转发带来的大量的光电转换，可以提高潮汐大象流的转发效率以及减少数据中心的能耗，另外可以减少潮汐大象流在出现的时间段内对数据中心的其他流量的冲击。还例如，对于普通大象流，本发明实施例可以采取切分转发的方式，可以提高大象流的转发效率。另外，传统OxC设备上光通道是人工静态配置的，无法根据数据流量的动态变化灵活配置，本发明实施例通过智能网卡识别数据流量的类型或者变化，驱动光通道控制器动态配置OxC设备动态建立光通道，可按需调度潮汐大象流到OxC的光通道，降低潮汐大象流对网络上其它流量的影响。

如图3所示，管理和调度这样一个光电混合的数据中心网络，需要在数据面和控制面两个平面进行相应的适配，其中控制平面由拓扑管理器和OxC控制器组成，而数据面由服务器上的智能网卡、ToR/Leaf/Spine等电交换机、光交叉设备OxC组成。

拓扑管理器31：负责从运行链路发现协议(Link Layer Discovery Protocol，LLDP)代理的智能网卡，以及各级电交换机上收集各个节点的网络连接信息，并综合成全网的网络拓扑信息拓扑后通过控制网络下发给服务器，优选地，可以是整网中的所有服务器上的智能网卡。

OxC控制器32：负责接收从服务器上的智能网卡的控制面发送过来的建立光通道的请求，并下发给光交叉设备36建立一条从OxC源端口和OxC目的端口之间的光通道。

智能网卡控制平面33：包括源路由控制器，用于基于拓扑管理器下发的网络拓扑信息计算从本服务器节点到达整网中其他服务器节点的路由策略(转发路径)，其中，源路由引擎331计算经过电交换机的主路径和多条可选备份路径，OxC引擎332计算经过光交叉设备OxC的光通道，也可称为快速转发路径。当接收到数据流的报文后，源路由控制器响应从智能网卡数据平面提交的数据转发请求，基于选路策略和选路算法确定该数据流的转发路径并生成转发标签栈，然后下发给数据平面。具体的，可以根据数据流的类型，生成不同的转发路径。

智能网卡数据平面34：包括识别引擎341，用于基于每条数据流(由五元组或者七元组确定)已发送流量的报文携带的特征信息或报文的统计性特征，识别出潮汐大象流或者普通大象流，并提交给智能网卡控制平面请求采用普通路径或者快速转发路径进行转发。在接收到控制平面下发的源路由标签栈后，智能网卡数据平面会根据不同数据流的标签栈信息，逐包打上标签栈后发送，并在源路由标签表342中存储源路由标签信息。

电交换机35：支持源路由标签栈的电交换机，会逐包解析报文头中的标签栈(标签栈包含了转发路径上每一跳电交换机的出端口号)，把标签栈上对应本跳交换机的出端口信息解析出来后，直接通过该出端口转发报文，而不关心下一跳是电交换机还是光交叉设备。

下表示例了几种转发路径的相关信息：

如图4所示，本发明实施例提供的DCN混合组网中拓扑发现的方法流程图包括：

4-1，拓扑管理器获取静态拓扑配置文件，该静态拓扑配置文件中包含数据中心中的电交换机与光交叉设备OxC之间的网络连接信息，具体的，可以获得数据中心中全部的电交换机与全部的光交叉设备OxC的连接关系，例如，PoD1-ToR1的上行端口->PoD1-OxC1，PoDn-ToR1的上行端口->PoDn-OxC1，PoD1-Leaf1的上行端口->OxC11，PoDn-Leaf1的上行端口->OxC11。

4-2，服务器上的智能网卡运行LLDP代理(agent)，获取邻居节点的网络连接信息(例如端口序号、IP地址或MAC地址等)，邻居节点可以是相邻交换机，具体的，可以是数据中心中全部的服务器上的智能网卡运行LLDP代理以收集邻居节点的网络连接信息，也可以是部分服务器上的智能网卡运行LLDP代理以收集邻居节点的网络连接信息，图4中仅示出其中之一。

4-3，电交换机运行LLDP代理(agent)，通过LLDP协议获取邻居节点的网络连接信息(例如端口序号、IP地址或MAC地址等)，邻居节点可以是相邻交换机也可以是相邻服务器，具体的，可以是数据中心中全部的电交换机运行LLDP代理以收集邻居节点的网络信息，也可以是部分交换机运行LLDP代理以收集邻居节点的网络连接信息(例如未激活的电交换机可以不加入网络)，图4中仅示出其中之一。

4-4，服务器上的智能网卡向拓扑管理器上报收集到的邻居节点的网络连接信息，具体的，可以是数据中心中的全部服务器上的智能网卡周期性的将自己搜集到的邻居节点的网络连接信息上报给拓扑管理器。另外，智能网卡还可以向拓扑管理器上报自己的网络连接信息。

4-5，电交换机上报收集到的邻居节点的网络连接信息，具体的，可以是数据中心中的全部电交换机周期性的将自己搜集到的邻居节点的网络连接信息上报给拓扑管理器。另外，每个电交换机还可以向拓扑管理器上报自己的网络连接信息。

4-6，拓扑管理器基于各个节点收集的信息综合获得包含全网所有智能网卡、电交换机和光交叉设备OxC的网络拓扑信息。

4-7，拓扑管理器把全网的网络拓扑信息下发给数据中心中的至少一个智能网卡，具体的，每个服务器内部的一个智能网卡用于负责本服务器内部的数据流的识别和数据流的转发，因此，拓扑管理器将全网的网络拓扑信息下发给每个服务器内部的至少一个智能网卡。

由于运行LLDP代理的电交换机或智能网卡可以周期性的交换心跳，并刷新邻居节点的网络连接信息，当数据中心中各节点的网络连接信息发生变化，全网的网络拓扑信息也会发生变化，因此拓扑管理器也会周期性地或者根据服务器上的智能网卡的请求重新下发刷新的网络拓扑信息。

在SDN网络中，SDN控制器收集全网网络拓扑信息后会集中计算全局路由并下发流转发表到各个电交换机中，本实施例中，拓扑管理器下发网络拓扑信息到各服务器上，把集中式算路由的工作分布到服务器上独立计算，避免了SDN控制器集中式算路带来的控制器容错难以及网络故障后重路由和路由收敛慢问题。

如图5所示，本发明实施例采用光电混合架构的数据中心中网络报文流量的发送流程图中，包括：

5-1，服务器生成数据流的报文，该报文到达本地的智能网卡，该服务器上的智能网卡识别服务器产生的数据流的类型。

智能网卡可以识别数据流中的报文携带的特征信息，若报文的特征信息与预设信息匹配，确定所述数据流为潮汐大象流；智能网卡可以识别数据流在第一时间段内的报文的数量，或第一时间段内的报文所包含的数据量，或第一时间段内的报文所需的带宽，若第一时间段内的报文的数量或数据量或所需带宽大于预设阈值，确定该数据流为普通大象流。智能网卡可以通过定期的采样统计流量，例如通过数据流中的数据报文的净荷大小进行判断，数据报文大小大于预设阈值的被识别为大象流，又或者，还可以计算数据流在某个时间段内的平均流量，当计算出的平均流量大于预设阈值时，将数据流识别为大象流，进一步地，根据预置的信息确定该大象流为普通大象流还是潮汐大象流。上述识别流量的方法可以任选其一，也可以任意组合已获得更精确的识别结果。智能网卡还可以内置人工智能AI的算法模型，采用数据报文流量对AI算法模型进行训练，并采用训练后的AI算法模型来识别数据报文流量并对数据报文流量进行分类。智能网卡对数据报文流量的识别，可以是实时的，也可以是非实时的。

5-2，智能网卡在识别出该数据报文为潮汐大象流后，确定将该潮汐大象流通过光通道进行转发，智能网卡上的源路由控制器可以根据网络拓扑信息从数据中心中的光交叉设备中选择目标光交叉设备，通过控制网络向目标光交叉设备所对应的光交叉控制器发送OxC光通道建立请求。

具体地，智能网卡可以根据网络拓扑信息选择一个目标光交叉设备OxC，也可以选择多个目标光交叉设备OxC。如果选择光交叉设备OxC的原则可以是发送端就近原则，选择距离发送端服务器最近的光交叉设备OxC，也可以选择距离发送端服务器所连接的ToR或Leaf交换机最近的光交叉设备OxC，也可以采用目的端就近原则，选择距离目的服务器最近的光交叉设备OxC，也可以选择距离目的端服务器所连接的ToR或Leaf交换机最近的光交叉设备OxC。

5-3，光交叉控制器发送控制命令给目标光交叉设备，指示该目标光交叉设备建立相应的光通道。

5-4，目标光交叉设备建立相应的光通道。

5-5，目标光交叉设备建立光通道后，反馈给光交叉控制器。

5-6，光交叉控制器将光通道建立成功的响应反馈到智能网卡上的源路由控制器。

5-7，智能网卡上源路由控制器根据网络拓扑信息计算该潮汐大象流从电交换机旁路到OxC光通道的第一子路由，并获得该第一子路由的信息。

5-8，智能网卡上源路由控制器根据该第一子路由信息生成新的源路由标签并下发到智能网卡数据面中对应该潮汐大象流的转发流表中。

5-9，智能网卡基于新源路由标签给该潮汐大象流的后续报文打上标签后转发。

具体地，可以根据新的源路由标签栈转发所述潮汐大象流的后续报文到目标光交叉设备。

传统OxC设备上光通道是人工静态配置的，无法根据数据流量的动态变化灵活配置，本发明实施例通过智能网卡识别网络流量的变化，驱动光通道控制器动态配置OxC设备动态建立光通道，可按需调度周期性大象流或潮汐大象流到OxC通道，降低此类大象流对网络上其余流量的影响，同时提高了此类大象流的转发效率，并因为避免了大量数据流的光电转换操作，从而降低了数据中心中的能耗，节约了成本。

如图6所示，本发明实施例采用光电混合的数据中心进行数据流转发的另一方法流程图。

本发明实施例中，智能网卡对数据流的类型进行识别和转发的其中一种实现方式如图6所示，包括：

6-1，在智能网卡上或者在服务器内部配置潮汐大象流的差分服务代码点(DifferentiatedServices Code Point，DSCP)的值的范围。

DiffServ体系规定每个传输报文将在网络中被分类到不同的类别。在遵循DiffServ体系的网络中，各交换机和路由器对包含同样分类信息的报文采取同样的传输服务策略，对包含不同分类信息的报文采取不同的传输服务策略。报文的分类信息可以被网络上的主机、交换机、路由器或者其它网络设备赋予。识别报文的内容以便为报文赋予类别信息的做法往往需要消耗网络设备的大量处理资源，本发明实施例将DSCP识别运用于服务器上，具体地，运用于服务器上的智能网卡，可以避免避免网络资源如交换机的处理开销被大量占用。服务器输出或接收的数据报文可以基于不同的应用策略或者基于报文内容的不同为报文赋予不同的类别信息。数据报文的DSCP值的不同指示了数据报文的不同的类型。

不同的DSCP值(本发明称为报文的特征信息)代表了不同类型的报文，DSCP的值可以有不同的指示方式，数据报文的DSCP值可以被包含在IP报文头中，例如使用了IP报文头中的服务类型(Type Of Service，TOS)来携带报文的DSCP值(分类信息)，或者，通过报文的第二层报文头中包含User Priority bits，来确定报文的DSCP值。还例如，通过提取报文的源MAC地址、目的MAC地址以及Ethertype域来匹配关联的接入控制列表(Access Control Lists,ACLs)，以确定报文的DSCP值。还例如，根据报文输入端口的缺省CoS值来获得报文的DSCP值。

6-2，在在智能网卡上或者在服务器内部的存储器上配置普通大象流在单位时间内的报文数量或报文携带的数据量或报文所占的带宽的预设阈值。

6-3，对于接收到的每个数据流，当接收到该数据流的第一个数据报文，根据报文中携带的地址信息，例如目的地址信息或源地址信息，生成初始的路由信息，该初始的路由信息包括初始的转发路径或初始的路由标签。

上述两个步骤之间没有固定的执行顺序，可同时执行，亦可各自先后执行。

6-4，继续接收第一数据流的报文，获取继续接收到的报文携带的DSCP值，根据该报文携带的DSCP值确定该第一数据流是否属于潮汐大象流。

6-5，对于判断为潮汐大象流的第一数据流，通知智能网卡中的源路由引擎。

6-6，源路由引擎通知OxC引擎，OxC引擎建立光通道。

6-7，源路由引擎生成该第一数据流路由到光通道的新的路由标签。

6-8，继续接收第二数据流，周期性采样获得单位时间内的第二数据流的数据报文的数量或报文流量(报文携带的数据量或报文占用的带宽)。

6-9，对于判断为普通大象流的第二数据流，通知智能网卡中的源路由引擎。

6-10，源路由引擎生成该普通大象流的多条等价转发路径，并生成相应的路由标签。源路由引擎可以根据之前为该第二数据流生成的初始路由信息生成多条等价转发路径。

6-11，源路由引擎将为该第二数据流生成的多条等价转发路径的路由标签下发到智能网卡的数据面。

6-12，智能网卡的数据面将第二数据流的后续报文切分为至少两个子数据流，根据所述至少两条等价路径的路由信息分别转发所述两个子数据流。

6-13，对于判断为一般数据流的第三数据流，继续根据该第三数据流的初始路由信息转发该第三数据流的后续报文。

图7为本发明实施例提供的一种设备700的示意图，如图所示，所述设备700包括处理器701、存储器702、通信接口703和总线704。其中，处理器701、存储器702、通信接口703通过总线704进行通信，也可以通过无线传输等其他手段实现通信。该存储器702用于存储程序代码7021，处理器701用于调用存储器702存储的程序代码7021以执行本申请实施例多介绍的各方法的操作。

处理器701可以执行本发明实施例中的方法相关的操作。

应理解，在本发明实施例中，处理器701可以是CPU，该处理器701还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、GPU、网络处理器或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

存储器702可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

总线704除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线704。

最后，应了解上述实施例仅仅用于阐释，本申请的技术方案不限于此。尽管参考上述优选实施例对本申请进行详细描述，但是应了解，所属领域的技术人员可在不脱离本申请所附权利要求书的范围的情况下，做出各种修改、变更或替换。

Claims

一种数据中心中的通信方法，其特征在于，所述数据中心包括多台服务器，多个电交换机，以及至少一个光交叉设备，所述多个电交换机中的至少两个电交换机的上行端口与所述至少一个光交叉设备互连；所述方法包括：

接收拓扑管理器下发的网络拓扑信息；

获取数据流；

根据所述网络拓扑信息为所述数据流配置路由策略，所述路由策略包括以下任意路由策略之一或组合：

第一路由策略，所述第一路由策略指示通过所述至少一个光交叉设备中的光通道转发所述数据流；

第二路由策略，所述第二路由策略指示将所述数据流切分为至少两个子数据流进行转发；

第三路由策略，所述第三路由策略指示通过所述数据中心中的电交换机转发所述数据流。
根据权利要求1所述的方法，其特征在于，所述根据所述网络拓扑信息为所述数据流配置路由策略包括：

在接收到所述数据流的第一报文时，根据所述数据流携带的地址信息和所述网络拓扑信息为所述数据流配置所述第三路由策略。
根据权利要求2所述的方法，其特征在于，所述根据所述网络拓扑信息为所述数据流配置路由策略还包括：

根据所述数据流的报文识别所述数据流的类型，根据所述数据流的类型为所述数据流配置更新后的路由策略，所述更新后的路由策略包括所述第一路由策略或所述第二路由策略。
根据权利要求3所述的方法，其特征在于，根据所述数据流的类型为所述数据流配置更新后的路由策略包括：

为第一类型的数据流配置所述第一路由策略。
根据权利要求4所述的方法，其特征在于，所述方法还包括：

从所述至少一个光交叉设备中选择一个目标光交叉设备，指示所述目标光交叉设备建立所述光通道。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

获得第一子路由信息，所述第一子路由信息包括将所述第一类型的数据流路由到所述目标光交叉设备的信息；

根据所述第一子路由的信息转发所述第一类型的数据流的后续报文到所述目标光交叉设备。
根据权利要求3所述的方法，其特征在于，根据所述数据流的类型为所述数据流配置更新后的路由策略包括：

为第二类型的数据流配置所述第二路由策略。
根据权利要求7所述的方法，其特征在于，所述方法还包括：

根据所述第三路由策略获得至少两条等价子路径的路由信息。
根据权利要求8所述的方法，其特征在于，所述方法还包括：

将所述第二类型的数据流的后续报文切分为至少两个子数据流，根据所述至少两条等价路径的路由信息分别转发所述两个子数据流。
根据权利要求4或7所述的方法，其特征在于，所述第一类型的数据流为潮汐大象流，所述第二类型的数据流为普通大象流。
根据权利要求10所述的方法，其特征在于，所述识别所述数据流的类型包括：

识别所述数据流中的报文携带的特征信息，若所述报文的特征信息与预设信息匹配，确定所述数据流为第一类型的数据流；或者，

识别所述数据流在第一时间段内的报文的数量，或第一时间段内的报文所包含的数据量，或第一时间段内的报文所需的带宽，若所述第一时间段内的报文的数量或数据量或所需带宽大于预设阈值，确定所述数据流为第二类型的数据流。
根据权利要求1-11任一项所述的方法，其特征在于，所述方法还包括：

通过链路发现协议获取相邻交换机的网络连接信息，将获取到的网络连接信息上报到所述拓扑管理器。
根据权利要求1-12任一项所述的方法，其特征在于，所述方法由所述多台服务器中的至少一台服务器执行。
根据权利要求13所述的方法，其特征在于，所述方法由所述至少一台服务器中的网卡执行。
一种数据中心，其特征在于，所述数据中心包括多台服务器，多个电交换机，以及至少一个光交叉设备，所述多个电交换机中的至少两个电交换机的上行端口与所述至少一个光交叉设备互连；

所述多台服务器中的至少一台服务器，用于接收网络拓扑信息，获取数据流，根据所述网络拓扑信息为所述数据流配置路由策略，所述路由策略包括以下任意路由策略之一或组合：

第一路由策略，所述第一路由策略指示通过所述至少一个光交叉设备中的光通道转发所述数据流；

第二路由策略，所述第二路由策略指示将所述数据流切分为至少两个子数据流进行转发；

第三路由策略，所述第三路由策略指示通过所述数据中心中的电交换机转发所述数据流。
根据权利要求15所述的数据中心，其特征在于，所述多台服务器和所述多个电交换机组成多个业务集群，其中，第一业务集群包括至少两台服务器，至少两个接入交换机和至少一个汇聚交换机，所述至少两个接入交换机的第一上行端口与所述至少一个光交叉设备互连，所述至少两个接入交换机的第二上行端口与所述至少一个汇聚交换机互连。
根据权利要求15所述的数据中心，其特征在于，所述多台服务器和所述多个电交换机组成多个业务集群，其中，第一业务集群包括至少两个接入交换机和至少一个汇聚交换机，所述至少一个汇聚交换机的第一上行端口与所述至少一个光交叉设备互连，所述至少一个汇聚交换机的第二上行端口与骨干交换机互连。
根据权利要求15所述的数据中心，其特征在于，所述多台服务器和所述多个电交换机组成多个业务集群，其中，第一业务集群包括至少两台服务器，至少两个接入交换机和至少一个汇聚交换机，所述至少两个接入交换机的第一上行端口与所述至少一个光交叉设备中的第一光交叉设备互连，所述至少两个接入交换机的第二上行端口与所述至少一个汇聚交换机互连；所述至少一个汇聚交换机的第一上行端口与所述至少一个光交叉设备中的第二光交叉设备互连，所述至少一个汇聚交换机的第二上行端口与骨干交换机互连。
根据权利要求15-18任一项所述的数据中心，其特征在于，所述数据中心还包括拓扑管理器，所述拓扑管理器用于获取所述数据中心中的各个设备发送的网络连接信息，根据所述各个设备的网络连接信息获得网络拓扑信息，并将所述网络拓扑信息下发给所述多台服务器中的至少一台服务器。
根据权利要求19所述的数据中心，其特征在于，所述至少一台服务器包括网卡，所述网卡获取所述拓扑管理器下发的网络拓扑信息，所述网卡根据所述网络拓扑信息配置所述路由策略。
根据权利要求20所述的数据中心，其特征在于，所述网卡还用于通过链路发现协议获取相邻交换机的网络连接信息，将获取到的网络连接信息上报到所述拓扑管理器。
根据权利要求20或21所述的数据中心，其特征在于，所述网卡在接收到所述数据流的第一报文时，根据所述数据流携带的地址信息和所述网络拓扑信息为所述数据流配置所述第三路由策略。
根据权利要求22所述的数据中心，其特征在于，所述网卡根据所述数据流的报文识别所述数据流的类型，根据所述数据流的类型为所述数据流配置更新后的路由策略，所述更新后的路由策略包括所述第一路由策略或所述第二路由策略。
根据权利要求23所述的数据中心，其特征在于，所述网卡为第一类型的数据流配置所述第一路由策略，或者，为第二类型的数据流配置所述第二路由策略。
根据权利要求24所述的数据中心，其特征在于，所述网卡还用于从所述至少一个光交叉设备中选择一个目标光交叉设备，指示所述目标光交叉设备建立所述光通道。
根据权利要求25所述的数据中心，其特征在于，所述网卡还用于获得第一子路由信息，所述第一子路由信息包括将所述第一类型的数据流路由到所述目标光交叉设备的信息；以及根据所述第一子路由的信息转发所述第一类型的数据流的后续报文到所述目标光交叉设备。
根据权利要求24所述的数据中心，其特征在于，所述网卡还用于根据所述第三路由策略获得至少两条等价子路径的路由信息。
根据权利要求27所述的数据中心，其特征在于，所述网卡还用于将所述第二类型的数据流的后续报文切分为至少两个子数据流，根据所述至少两条等价路径的路由信息分别转发所述两个子数据流。
一种服务器，其特征在于，所述服务器包括用于执行权利要求1-14所述的任一项方法的处理单元。
一种网卡，其特征在于，所述网卡包括网络处理器，所述网络处理器被配置为执行权利要求1-14所述的任一项方法。
一种服务器，其特征在于，所述服务器包括处理器和存储器，其中，所述存储器用于存储程序代码，所述处理器用于执行所述程序代码以实现如权利要求1-14所述的方法。
一种网卡，其特征在于，所述网卡包括网络处理器和存储器，其中，所述存储器用于存储程序代码，所述处理器用于执行所述程序代码以实现如权利要求1-14所述的方法。