WO2024001259A1

WO2024001259A1 - 一种分布式训练方法、系统及装置

Info

Publication number: WO2024001259A1
Application number: PCT/CN2023/078777
Authority: WO
Inventors: 郑潇雨; 庞西豹; 练韵文; 李亿; 戴宗宏
Original assignee: 华为云计算技术有限公司
Priority date: 2022-06-29
Filing date: 2023-02-28
Publication date: 2024-01-04
Also published as: CN117395186A

Abstract

一种分布式训练方法、系统及装置，用于解决现有技术中交换机传输链路拥塞，导致传输数据较慢的问题。方法包括：管理节点获取网络拓扑，其中，网络拓扑包括核心交换机和计算集群中的计算节点的连通关系，随后，管理节点根据网络拓扑，确定N个计算节点之间的通信规划；其中，N个计算节点是计算集群中用于分布式训练目标模型的计算节点；通信规划包括多条组间路径，对于多条组间路径中的每条组间路径：组间路径包括N个计算节点中、属于不同分组的两个计算节点，以及用于连通两个计算节点的核心交换机，组间路径用于传输组间路径中两个计算节点之间的数据；多条组间路径分别传输的数据量符合预设条件；M和N均为大于2的整数。

Description

一种分布式训练方法、系统及装置

相关申请的交叉引用

本申请要求在2022年06月29日提交中国专利局、申请号为202210756779.4、申请名称为“一种分布式训练方法、系统及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算技术领域，尤其涉及一种分布式训练方法、系统及装置。

背景技术

深度学习(deep learning)是一类基于深层次神经网络算法的机器学习技术，深度学习主要应用于人工智能(artificial intelligence，AI)领域的感知、决策等场景，例如，图像和语音识别、自然语言翻译、计算机博弈等。

分布式训练指的是多个计算节点(worker)联合训练同一个模型。任两个计算节点(即一对计算节点)可通过多层交换机连通，以使得该两个计算节点之间相互传输中间数据(如权重梯度)。其中，某层交换机在向上一层交换机传输数据时，可根据负载均衡原理从上一层的多个交换机中选择一个交换机，并将数据传输给该选择出的上一层交换机。但是该上一层的交换机若接收到其下一层的多个交换机的数据，则该上一层的交换机可能存在传输链路拥塞，如此，将会导致传输数据较慢的问题。

发明内容

本申请提供一种分布式训练方法、系统及装置，用于提高数据传输速度。

第一方面，本申请提供一种分布式训练方法，适用于包括计算集群和核心交换机的分布式训练系统中，该方法由管理节点执行。

管理节点是独立于计算集群的外部节点，该外部节点与计算集群中的多个计算节点分别连接，以用于管理计算集群中的各个计算节点。在一个具体实现中，管理节点比如是计算机，或者计算机中的模块，比如插件。

又或者，管理节点是计算集群中的计算节点，该计算节点与计算集群中其他的多个计算节点分别连接，不仅具备管理计算集群中的该其他的多个计算节点的能力，还具备其他计算节点的计算能力。在一个具体实现中，管理节点比如是物理服务器，物理服务器中包括一个或多个计算单元(或称为处理单元)，计算单元比如是图形处理器(graphics processing unit，GPU)、中央处理器(central processing unit，CPU)、神经网络加速器(neural-network processing unit，NPU)等。

又或者，管理节点中包括多个功能模块，多个功能模块中的部分功能模块部署在计算集群的计算节点中，剩余的其他功能模块部署在独立于计算集群的外部节点中。

分布式训练方法中包括：管理节点获取网络拓扑，其中，网络拓扑包括核心交换机和计算集群中的计算节点的连通关系，进一步的，计算集群中包括M个分组，每个分组中包括一个或多个计算节点。随后，管理节点根据网络拓扑，确定N个计算节点之间的通信规划；其中，N个计算节点是计算集群中用于分布式训练目标模型的计算节点；通信规划包括多条组间路径，对于多条组间路径中的每条组间路径：组间路径包括N个计算节点中、属于不同分组的两个计算节点，以及用于连通两个计算节点的核心交换机，组间路径用于传输组间路径中两个计算节点之间的数据；多条组间路径分别传输的数据量符合预设条件；M和N均为大于2的整数。

上述技术方案中，管理节点根据网络拓扑，确定N个计算节点在分布式训练的数据聚合过程中的通信规划，以实现通信规划包括的多条组间路径分别传输的数据量符合预设条件，从而避免该N个计算节点在进行数据聚合时，出现某个核心交换机在组间传输方式中需要传输较多的数据量，导致核心交换机出现传输链路拥塞的问题，如此，有助于提高数据传输速度，从而进一步提高分布式训练的速度。

在一种可能的实现方式中，管理节点根据网络拓扑，确定N个计算节点之间的通信规划，具体是：管理节点根据网络拓扑和通信算法，确定N个计算节点之间的通信规划；其中，通信算法用于在分布式训练中聚合N个计算节点分别执行训练得到的数据，以得到目标模型。通信算法比如是ring(环)算法、halving-doubling(减半-加倍，HD)算法、binary tree(二叉树)算法等。

上述技术方案中，管理节点基于不同通信算法的原理，结合网络拓扑，确定N个计算节点之间的通信规划，有助于实现N个计算节点更高效的执行分布式训练。

在一种可能的实现方式中，多条组间路径包括的多个核心交换机中，每个核心交换机包括一个或多个流量端口；多条组间路径分别传输的数据量符合预设条件，包括：多条组间路径包括的多个流量端口中，任两个流量端口的流量的差值小于阈值，其中，流量端口的流量与所属组间路径中两个计算节点之间传输数据的数据量关联。在一种可能的实现方式中，在每条组间路径包括多级核心交换机时，差值小于阈值的任两个流量端口所属的核心交换机属于同一级。

上述技术方案中，管理节点确定的通信规划用于实现多条组间路径所经过的多个核心交换机的流量端口中流量的负载均衡，从而避免某个核心交换机在数据传输时存在较为严重的流量拥堵，保证整个分布式训练中各条组间路径所传输数据的均衡。

在一种可能的实现方式中，对于多条组间路径中的任两条组间路径：两条组间路径分别包含有不同的核心交换机，或者，两条组间路径包含相同的核心交换机，且核心交换机在两条组间路径中的流量端口不同。如此，实现多条组间路径所经过的流量端口均不重叠，避免某个核心交换机的某个流量端口需要传输多条组间路径中的数据，进而避免出现流量端口的堵塞，有助于提高数据传输速度。

在一种可能的实现方式中，网络拓扑包括核心交换机、计算集群，以及接入交换机的连通关系；对于多条组间路径中的每条组间路径：组间路径中还包括两个计算节点分别对应的两个接入交换机，组间路径中每个计算节点通过计算节点对应的接入交换机与核心交换机连通。如上，提供一种计算节点与核心交换机连通的实现方式。

在一种可能的实现方式中，通信规划中还包括多条组内路径，每条组内路径中包括N个计算节点中、属于同一个分组的两个计算节点，以及分组对应的接入交换机，组内路径用于传输组内路径中两个计算节点之间的数据。在一种可能的实现方式中，组内路径中两个计算节点之间传输数据的数据量，大于组间路径中两个计算节点之间传输数据的数据量。

上述技术方案中，管理节点确定的通信规划中，不仅包括多条组间路径，还包括多条组内路径，组内路径的数据传输性能优于组间路径的数据传输性能，如此，管理节点可规划组间路径用于传输数据量较少的数据，组内路径用于传输数据量较多的数据，以实现较为高效的数据传输且避免组间路径中核心交换机端口的拥塞，提高分布式训练的速度。

在一种可能的实现方式中，M个分组分别对应于M个接入交换机；针对M个接入交换机中每个接入交换机：接入交换机包括K个第一端口、K个第一端口分别对应的K个第二端口；K个第一端口分别与K个核心交换机连接；K个第二端口分别与接入交换机对应的分组中计算节点的K个端口连接；K为大于2的整数。

如此，接入交换机不仅能够连通任一个核心交换机和该接入交换机对应分组中的任一个计算节点，还能够连通该接入交换机对应分组中的任两个计算节点，从而实现整个计算集群中任两个计算节点可以相互连通，并分布式训练目标模型。

在一种可能的实现方式中，管理节点在根据网络拓扑，确定N个计算节点之间的通信规划时，具体是，管理节点获取训练任务，其中，该训练任务包括计算节点总数N和通信算法；管理节点再根据网络拓扑、计算节点总数N和通信算法，从计算集群中处于空闲状态的多个计算节点中，确定N个计算节点和该N个计算节点之间的通信规划。上述技术方案中，用户向管理节点下发训练任务，并在训练任务中包括用户所需的参数，即计算节点总数N和通信算法，如此，能够更好地满足用户对分布式训练的需求。

在一种可能的实现方式中，管理节点在根据网络拓扑、计算节点总数N和通信算法，从计算集群中处于空闲状态的多个计算节点中，确定N个计算节点和该N个计算节点之间的通信规划时，具体是，管理节点根据网络拓扑和计算节点总数N，从计算集群中处于空闲状态的多个计算节点中，确定N个计算节点；将N个计算节点中、属于同一个分组的两个计算节点配对，以及在剩余尚未配对的多个计算节点时，将尚未配对的多个计算节点配对，以得到的N/2个节点对；根据通信算法的多轮通信和N/2个节点对，确定N个计算节点分别在多轮通信中的通信规划；对于任一轮通信中的通信规划，通信规划中两个计算节点所传输的数据量越大，通信规划包括的组间路径数越小；若确定在多轮通信中的第i轮通信中，N个计算节点的通信规划中包括多条组间路径，且多条组间路径分别传输的数据量不符合预设条件，则调整第i轮通信中N个计算节点的通信规划，i为正整数。

上述技术方案中，管理节点先从计算集群中选择N个计算节点，再对N个计算节点进行通信规划，如此，有助于降低通信规划过程中的计算量。进一步的，管理节点先对N个计算节点进行配对，然后根据配对之后的多个节点对以及通信算法的多轮通信，确定该N个计算节点在每轮通信中的通信规划，如此，有助于实现每轮通信中的多条组间路径分别传输的数据量符合预设条件，进一步提高每轮通信中数据传输的效率。

在一种可能的实现方式中，多条组间路径中包括第一组间路径，第一组间路径包括第一计算节点、第二计算节点和第一核心交换机。管理节点在确定N个计算节点之间的通信规划之后，还根据通信规划，分别向第一计算节点和第二计算节点发送第一信息；其中，第一信息指示第一组间路径用于第一计算节点向第二计算节点发送第一数据。相应的，第一计算节点和第二计算节点可分别根据该第一信息，通过第一组间路径传输第一数据。

在一种可能的实现方式中，多条组内路径中包括第一组内路径，第一组内路径包括第一计算节点、第三计算节点和第一接入交换机；管理节点在确定N个计算节点之间的通信规划之后，还根据通信规划，分别向第一计算节点和第三计算节点发送第二信息；其中，第二信息指示第一组内路径用于第一计算节点向第三计算节点发送第二数据。相应的，第一计算节点和第三计算节点可分别根据该第二信息，通过第一组内路径传输第一数据。

第二方面，本申请提供一种分布式训练系统，该分布式训练系统中包括：K个核心交换机和计算集群，其中，计算集群中包括M个分组，每个分组中包括一个或多个计算节点；

K个核心交换机，用于连通M个分组中位于不同分组的计算节点。

进一步的，分布式训练系统中包括管理节点。

管理节点是独立于计算集群的外部节点，该管理节点与计算集群中的多个计算节点分别连接，以用于管理计算集群中的各个计算节点。在一个具体实现中，管理节点比如是计算机，或者计算机中的模块，比如插件。

又或者，管理节点是计算集群中的计算节点，该计算节点与计算集群中其他的多个计算节点分别连接，不仅具备管理计算集群中的该其他的多个计算节点的能力，还具备其他计算节点的计算能力。在一个具体实现中，管理节点比如是物理服务器，物理服务器中包括一个或多个计算单元(或称为处理单元)，计算单元比如是GPU、CPU、NPU等。

管理节点，用于获取网络拓扑，根据网络拓扑，确定N个计算节点之间的通信规划，网络拓扑包括K个核心交换机和计算集群中的计算节点的连通关系，其中，该N个计算节点是计算集群中用于分布式训练目标模型的计算节点；

其中，通信规划包括多条组间路径，对于多条组间路径中的每条组间路径：组间路径包括N个计算节点中、属于不同分组的两个计算节点，以及K个核心交换机中用于连通两个计算节点的核心交换机，组间路径用于传输组间路径中两个计算节点之间的数据；

多条组间路径分别传输的数据量符合预设条件；

K、M和N均为大于2的整数。

在一种可能的实现方式中，管理节点在根据网络拓扑，确定N个计算节点之间的通信规划时，具体用于：根据网络拓扑和通信算法，确定N个计算节点之间的通信规划；通信算法用于在分布式训练中聚合N个计算节点分别执行训练得到的数据，以得到目标模型。

在一种可能的实现方式中，多条组间路径包括的多个核心交换机中，每个核心交换机包括一个或多个流量端口；多条组间路径分别传输的数据量符合预设条件，包括：多条组间路径包括的多个流量端口中，任两个流量端口的流量的差值小于阈值，其中，流量端口的流量与所属组间路径中两个计算节点之间传输数据的数据量关联。

在一种可能的实现方式中，在每条组间路径包括多级核心交换机时，差值小于阈值的任两个流量端口所属的核心交换机属于同一级。

在一种可能的实现方式中，分布式训练系统中还包括：分别与M个分组对应的M个接入交换机；M个接入交换机中任一个接入交换机用于连通接入交换机对应分组中的计算节点和K个核心交换机；网络拓扑包括K个核心交换机、M个接入交换机和计算集群中的计算节点的连通关系；对于多条组间路径中的每条组间路径：组间路径中还包括两个计算节点所属分组分别对应的两个接入交换机。

在一种可能的实现方式中，通信规划中还包括多条组内路径，每条组内路径中包括N个计算节点中、属于同一个分组的两个计算节点，以及M个接入交换机中该分组对应的接入交换机，组内路径用于传输组内路径中两个计算节点之间的数据。

在一种可能的实现方式中，组内路径中两个计算节点之间传输数据的数据量，大于组间路径中两个计算节点之间传输数据的数据量。

在一种可能的实现方式中，多条组间路径中包括第一组间路径，第一组间路径包括第一计算节点、第二计算节点和第一核心交换机；管理节点还用于：根据通信规划，分别向第一计算节点和第二计算节点发送第一信息，第一信息指示第一组间路径用于第一计算节点向第二计算节点发送第一数据；第一计算节点，用于根据第一信息，向第一核心交换机发送第一数据；第一核心交换机，用于接收来自第一计算节点的第一数据，将第一数据转发至第二计算节点；第二计算节点，用于根据第一信息，接收来自第一核心交换机的第一数据。

在一种可能的实现方式中，第一组间路径中还包括第一节点对应的第一接入交换机，和第二节点对应的第二接入交换机。其中，第一计算节点，具体用于根据第一信息，向第一接入交换机发送第一数据；第一接入交换机用于接收来自第一计算节点的第一数据，向第一核心交换机发送第一数据；第一核心交换机，具体用于接收来自第一接入交换机的第一数据，将第一数据转发至第二接入交换机；第二接入交换机用于接收来自第一核心交换机的第一数据，向第二计算节点发送第一数据；第二计算节点，具体用于根据第一信息，接收第二接入交换机的第一数据。

在一种可能的实现方式中，多条组内路径中包括第一组内路径，第一组内路径包括第一计算节点、第三计算节点和第一接入交换机；管理节点还用于：根据通信规划，分别向第一计算节点和第三计算节点发送第二信息，第二信息指示第一组内路径用于第一计算节点向第三计算节点发送第二数据；相应的，第一计算节点，用于根据第二信息，向第一接入交换机发送第二数据；第一接入交换机，用于将第二数据转发至第三计算节点；第三计算节点，用于根据第一信息，接收来自第一接入交换机的第二数据。

第三方面，本申请提供一种分布式训练装置，该装置具体是管理节点。

分布式训练装置包括：

获取模块，用于获取网络拓扑，网络拓扑包括核心交换机和计算集群中的计算节点的连通关系，计算集群中包括M个分组，每个分组中包括一个或多个计算节点；

处理模块，用于根据网络拓扑，确定N个计算节点之间的通信规划；其中，N个计算节点是计算集群中用于分布式训练目标模型的计算节点；通信规划包括多条组间路径，对于多条组间路径中的每条组间路径：组间路径包括N个计算节点中、属于不同分组的两个计算节点，以及用于连通两个计算节点的核心交换机，组间路径用于传输组间路径中两个计算节点之间的数据；多条组间路径分别传输的数据量符合预设条件；

M和N均为大于2的整数。

在一种可能的实现方式中，处理模块在根据网络拓扑，确定N个计算节点之间的通信规划时，具体用于：根据网络拓扑和通信算法，确定N个计算节点之间的通信规划；通信算法用于在分布式训练中聚合N个计算节点分别执行训练得到的数据，以得到目标模型。

在一种可能的实现方式中，对于多条组间路径中的任两条组间路径：两条组间路径分别包括有不同的核心交换机，或者，两条组间路径包含相同的核心交换机，且核心交换机在两条组间路径中的流量端口不同。

在一种可能的实现方式中，网络拓扑包括核心交换机、计算集群，以及接入交换机的连通关系；对于多条组间路径中的每条组间路径：组间路径中还包括两个计算节点分别对应的两个接入交换机，组间路径中每个计算节点通过该计算节点对应的接入交换机与核心交换机连通。

在一种可能的实现方式中，通信规划中还包括多条组内路径，每条组内路径中包括N个计算节点中、属于同一个分组的两个计算节点，以及分组对应的接入交换机，组内路径用于传输组内路径中两个计算节点之间的数据。

在一种可能的实现方式中，获取模块还用于：获取训练任务，训练任务包括计算节点总数N和通信算法；处理模块在根据网络拓扑，确定N个计算节点之间的通信规划时，具体用于：根据网络拓扑、计算节点总数N和通信算法，从计算集群中处于空闲状态的多个计算节点中，确定N个计算节点和该N个计算节点之间的通信规划。

在一种可能的实现方式中，处理模块在根据网络拓扑、计算节点总数N和通信算法，从计算集群中处于空闲状态的多个计算节点中，确定N个计算节点和N个计算节点之间的通信规划时，具体用于：根据网络拓扑和计算节点总数N，从计算集群中处于空闲状态的多个计算节点中，确定N个计算节点；将N个计算节点中、属于同一个分组的两个计算节点配对，以及在剩余尚未配对的多个计算节点时，将尚未配对的多个计算节点配对，以得到的N/2个节点对；根据通信算法的多轮通信和N/2个节点对，确定N个计算节点分别在多轮通信中的通信规划；其中，对于任一轮通信中的通信规划，通信规划中两个计算节点所传输的数据量越大，通信规划中包括的组间路径数越小；若确定在多轮通信中的第i轮通信中，N个计算节点的通信规划中包括多条组间路径，且多条组间路径分别传输的数据量不符合预设条件，则调整第i轮通信中N个计算节点的通信规划，i为正整数。

在一种可能的实现方式中，多条组间路径中包括第一组间路径，第一组间路径包括第一计算节点、第二计算节点和第一核心交换机；装置还包括发送模块；发送模块用于：分别向第一计算节点和第二计算节点发送第一信息；其中，第一信息指示第一组间路径用于第一计算节点向第二计算节点发送第一数据。

在一种可能的实现方式中，多条组内路径中包括第一组内路径，第一组内路径包括第一计算节点、第三计算节点和第一接入交换机；装置还包括发送模块；发送模块用于：分别向第一计算节点和第三计算节点发送第二信息；其中，第二信息指示第一组内路径用于第一计算节点向第三计算节点发送第二数据。

第四方面，本申请实施例提供一种计算设备，包括处理器，处理器与存储器相连，存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序，以使得计算设备执行上述第一方面或第一方面的任一种可能的实现方式中的方法。

第五方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序或指令，当计算机程序或指令被计算设备执行时，实现上述第一方面或第一方面的任一种可能的实现方式中的方法。

第六方面，本申请实施例提供一种计算机程序产品，当计算机读取并执行计算机程序产品时，使得计算机执行上述第一方面或第一方面的任一种可能的实现方式中的方法。

上述第二方面至第六方面中任一方面可以达到的技术效果还可以参照上述第一方面中有益效果的描述，此处不再重复赘述。

附图说明

图1为一种神经网络的结构示意图；

图2为一种随机梯度下降方法的示意图；

图3为一种基于HD算法进行数据聚合的示意图；

图4为本申请示例性提供的一种分布式训练系统的示意图；

图5a为本申请示例性提供的一种分布式训练系统中接口连接关系的示意图；

图5b为本申请示例性提供的再一种分布式训练系统中接口连接关系的示意图；

图6为本申请示例性提供的又一种分布式训练系统的架构示意图；

图7为本申请示例性提供的一种分布式训练方法的流程示意图；

图8为本申请示例性提供的一种管理节点确定通信规划的流程示意图；

图9为本申请示例性提供的一种基于HD算法的通信关系图；

图10为本申请示例性提供的一种管理节点的结构示意图；

图11为本申请示例性提供的一种分布式训练装置的结构示意图；

图12为本申请示例性提供的再一种分布式训练装置的结构示意图。

具体实施方式

为了更好的解释本申请实施例，先对本申请中的相关术语或技术解释：

一、神经网络

神经网络(neural networks，NN)是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型。神经网络由大量的神经元联结进行计算。一个神经网络可以包括多种不同功能的神经网络层，每层可表达为函数y＝f_w(x)，其中，f为函数的功能，w为权重，x为输入，y为输出。

图1为一种神经网络的结构示意图，该神经网络中可包括有首尾相连的m层，m为大于或等于2的整数。神经网络的第1层可表达为函数f₀，f₀的输入是x，输出是y₀，权重是w₀；神经网络的第2层可表达为函数f₁，f₁的输入是y₀，输出是y₁，权重是w₁等。

二、模型训练

假设存在数据集合{(x₀,l₀),…,(x_n-1,l_n-1)}，其中x₀,…,x_n-1是n个输入，而对应的l₀,…,l_n-1分别是这n个输入的期望输出，通常也称为标签(label)。每个(x_j,l_j)称为一个样本数据，j取遍[0,n-1]中的整数。

将该数据集合中的任一个输入(可表示为x_j)输入至如图1的神经网络中，可得到神经网络的实际输出，比如表示为y^j _m-1。根据神经网络的实际输出y^j _m-1、期望输出l_j，以及损失函数L算出损失(loss)。

模型训练的目标是，求解w₀，…，w_m-1，以使得在损失函数L下，y^j _m-1和l_j最为接近。其中，求解过程可参见图2示例性示出的随机梯度下降(stochastic gradient descent，SGD)方法，先通过loss和y_m-1确定第m-1层的梯度Δy_m-1；根据Δy_m-1和w_m-1确定第m-1层梯度Δw_m-1；再通过Δy_m-1和y_m-2确定第m-2层的梯度Δy_m-2；根据Δy_m-2和w_m-2确定第m-2层梯度Δw_m-2；以此类推，得到每一层Δy和Δw，即得到Δy₀、Δw₀，......，Δy_m-1、Δw_m-1。

三、分布式训练

在模型训练中，由于模型训练所需训练数据的数据量过大，或者模型本身的计算量较大，为了更高效地、快速地训练模型，可通过计算集群包括的多个计算节点来共同训练模型，该模型训练的方式可称为是分布式模型训练或分布式训练。

其中，计算节点可包括一个或多个计算单元，计算单元比如是GPU、CPU、NPU。

具体的，将训练数据的数据集合切分为多个计算节点分别对应的多个数据子集，其中数据子集的尺寸比如是批尺寸(batch size)，或者迷你批尺寸(mini batch size)。在分布式训练的每一轮迭代中，多个计算节点将各自对应的数据子集输入至本地的神经网络中，以得到各自神经网络的实际输出，进而根据各自神经网络的实际输出、期望输出和损失函数，确定各自神经网络的第m-1层对应的权重梯度。随后，该多个计算节点进行数据聚合，并根据聚合之后的中间数据进行下一轮的迭代，

可将对数据集合进行切分的分布式训练方式，称为是数据并行的训练方式。分布式训练方式还包括模型并行的训练方式，具体的，对模型切分得到多个子模型，该多个子模型分别由各自对应的计算节点运行。在模型并行的训练方式的每轮训练迭代中，该多个计算节点同样进行上述类似的数据聚合，以得到下一轮模型训练中的输入。

四、聚合通信(collective communication)

在分布式训练过程的每一轮迭代中，多个计算节点需要将各自执行模型训练得到的中间数据进行聚合，根据聚合之后的中间数据进行下一轮的迭代。经过多轮迭代以得到最终的模型(记为目标模型)。

中间数据可包括计算节点执行各自模型训练得到的特征(feature或activation)、梯度和模型参数中的一项或多项。其中，特征比如是经模型学习到的训练数据的特征，模型参数比如是神经网络中函数f的参数w等，梯度比如是后向传播中产生的w_j的差值Δw_j等。如下为方便描述，可将中间数据均简称为数据。

具体的，多个计算节点可通过聚合通信的方式，来完成数据聚合。其中，聚合通信所采用的聚合算法(或称为通信算法)比如是ring(环)算法、halving-doubling(减半-加倍，HD)算法、binary tree(二叉树)算法等。

如下以HD算法为例说明：

比如4个计算节点用于进行分布式训练，其中，4个计算节点分别表示为计算节点a至计算节点d。在一轮迭代中，该4个计算节点通过HD算法进行数据聚合。各计算节点将各自的数据划分为4份。具体的，计算节点a包括数据a1至a4，计算节点b包括数据b1至b4，计算节点c包括数据c1至c4，计算节点d包括数据d1至d4。

如图3为本申请示出的4个计算节点通过HD算法进行数据聚合的例子，HD算法包括reduce-scatter和allgather两个部分。

HD算法的reducescatter中包括如下步骤1和步骤2：

在步骤1中：

4个计算节点组成的2个节点对，分别是(计算节点a和计算节点b)、(计算节点c和计算节点d)。其中，节点对中两个计算节点相互交换数据。

以(计算节点a和计算节点b)为例，计算节点a与计算节点b交换数据，具体是，计算节点a向计算节点b发送数据a1和a2，计算节点b向计算节点a发送数据b3和b4。相应的，计算节点a中包括数据：a1、a2、a3+b3、a4+b4；计算节点b中包括数据：a1+b1、a2+b2、b3、b4。(计算节点c和计算节点d)交换数据的方式，与(计算节点a和计算节点b)类似，具体可参见图3中步骤1。

在步骤2中：

4个计算节点组成的2个节点对，分别是(计算节点a和计算节点c)、(计算节点b和计算节点d)。其中，节点对中两个计算节点相互交换数据。

以(计算节点a和计算节点c)为例，计算节点a与计算节点c交换数据，具体是，计算节点a向计算节点c发送数据a3+b3，计算节点c向计算节点a发送数据c4+d4。相应的，计算节点a中包括数据：a1、a2、a3+b3、a4+b4+c4+d4；计算节点c中包括数据：c1、c2、a3+b3+c3+d3、c4+d4。(计算节点b和计算节点d)交换数据的方式，与(计算节点a和计算节点c)类似，具体可参见图3中步骤2。

HD算法的allgather中包括如下步骤3和步骤4：

在步骤3中：

以(计算节点a和计算节点c)为例，计算节点a与计算节点c交换数据，具体是，计算节点a向计算节点c发送数据a4+b4+c4+d4，计算节点c向计算节点a发送数据 a3+b3+c3+d3。相应的，计算节点a中包括数据：a1、a2、a3+b3+c3+d3、a4+b4+c4+d4；计算节点c中包括数据：c1、c2、a3+b3+c3+d3、a4+b4+c4+d4。(计算节点b和计算节点d)交换数据的方式，与(计算节点a和计算节点c)类似，具体可参见图3中步骤3。

在步骤4中：

以(计算节点a和计算节点b)为例，计算节点a与计算节点b交换数据，具体是，计算节点a向计算节点b发送数据a3+b3+c3+d3、a4+b4+c4+d4，计算节点b向计算节点a发送数据a1+b1+c1+d1、a2+b2+c2+d2。相应的，计算节点a中包括数据：a1+b1+c1+d1、a2+b2+c2+d2、a3+b3+c3+d3、a4+b4+c4+d4；计算节点b中包括数据：a1+b1+c1+d1、a2+b2+c2+d2、a3+b3+c3+d3、a4+b4+c4+d4。(计算节点c和计算节点d)交换数据的方式，与(计算节点a和计算节点b)类似，具体可参见图3中步骤4。

如此，计算节点a、计算节点b、计算节点c和计算节点d中每个计算节点都获取到a1+b1+c1+d1、a2+b2+c2+d2、a3+b3+c3+d3、a4+b4+c4+d4。

在上述HD算法的每个步骤中，对所有计算节点进行配对得到多个节点对(即每个步骤对应于一次计算节点的配对)，每个节点对中的两个计算节点交换数据。进一步的，可假设计算节点a至计算节点d在实际部署中为依次排列，且任两个相邻计算节点之间的距离为固定值，即计算节点a与计算节点b，计算节点b与计算节点c，计算节点c与计算节点d之间的距离均为该固定值。也可以理解，计算节点a距离计算节点d最远，计算节点a距离计算节点b最近等。可根据该4个计算节点的距离确定每个步骤中计算节点的配对。

具体的，在reduce-scatter中，设置配对的两个计算节点之间的距离逐渐增加，而传输的数据量逐渐减少。比如在步骤1中，计算节点a和计算节点b配对，在步骤2中，计算节点a和计算节点c配对，计算节点a和计算节点b之间的距离是计算节点a和计算节点c之间的距离的一半，计算节点a和计算节点b之间传输的数据量是计算节点a和计算节点c之间传输的数据量的两倍。在allgather中，设置配对的两个计算节点之间的距离逐渐减少，而传输的数据量逐渐增大。比如在步骤3中，计算节点a和计算节点c配对，在步骤4中，计算节点a和计算节点b配对，计算节点a和计算节点c之间的距离是计算节点a和计算节点b之间的距离的两倍，计算节点a和计算节点c之间传输的数据量是计算节点a和计算节点b之间传输的数据量的一半。可以理解的是，reduce-scatter中步骤1和步骤2，与allgather中步骤3和步骤4相反，步骤1中的节点对可与步骤4中节点对相同，步骤2中的节点对可与步骤3中节点对相同。

需要指出的是，上述节点对中的两个计算节点需要交换数据，即二者需要连通。结合上述图3中的例子，计算节点a需要分别与计算节点b、计算节点c连通，计算节点b需要分别与计算节点a、计算节点d连通。而在其他的通信算法中，计算节点a还可能需要与其他计算节点连通，比如在ring算法中，计算节点a还需要与计算节点d连通等。

此外，上述以4个计算节点为例说明。当然还可以理解，在其他的通信算法中，还可包括更多的计算节点，比如8个计算节点、16个计算节点等。

本申请提供的一种分布式训练系统，该分布式训练系统包括K个核心交换机和计算集群。其中，计算集群中包括M个分组，每个分组中包括一个或多个计算节点，每个分组中计算节点的个数相同或不同。计算节点可认为是物理服务器，计算节点中包括一个或多个计算单元(或称为处理单元)，比如CPU、NPU或GPU等。M和K均为大于2的整数。

具体的，K个核心交换机用于连通M个分组中位于不同分组中的计算节点。也即，M个分组中的任两个分组分别包括的两个计算节点，能够通过该K个核心交换机中的某一个或多个核心交换机连通。核心交换机比如是脊(spine)交换机。

图4示例性示出的一种分布式训练系统的示意图，K个核心交换机分别记为核心交换机1至核心交换机K，M个分组分别记为分组1至分组M，每个分组中包括有k个计算节点，以分组1为例，分组1中k个计算节点分别记为计算节点1.1至计算节点1.k，其他分组中计算节点的标号可参见图4所示。

示例性的，位于分组1中的计算节点1.1与位于分组2中的计算节点2.1可通过核心交换机1连通，也即，计算节点1.1可通过核心交换机1与计算节点1.2传输数据。

可选的，分布式训练系统中还包括与M个分组分别对应的M个接入交换机。以M个接入交换机中的任一个接入交换机为例说明，接入交换机用于连通其对应分组中的计算节点与该计算节点所需连通的核心交换机。结合图4中例子，M个接入交换机分别记为接入交换机1至接入交换机M，其中，接入交换机1用于连通计算节点1.1与核心交换机1，或者，接入交换机1用于连通计算节点1.2与核心交换机2等；接入交换机2用于连通计算节点2.1与核心交换机1，或者，接入交换机2用于连通计算节点2.2与核心交换机2等。

其中，接入交换机比如是高性能架顶式(top-of-rack，tor)交换机。

本申请中，可认为接入交换机向上连接有核心交换机，向下连接有计算节点。相应的，计算节点向上连接有接入交换机，核心交换机向下连接有接入交换机。

进一步的，该M个接入交换机中的任一个接入交换机还向下连接其对应分组中的多个计算节点，从而实现该接入交换机连通其对应分组中多个计算节点中的任两个计算节点。仍参见图4所示，分组1中包括计算节点1.1至计算节点1.k，计算节点1.1至计算节点1.k中任两个计算节点能够通过接入交换机1连通；分组2中包括计算节点1.2至计算节点2.k，计算节点2.1至计算节点2.k中任两个计算节点能够通过接入交换机2连通等。

M个接入交换机均向上连接同一个核心交换机，从而该M个接入交换机中任两个接入交换机能够通过该核心交换机连通。结合图4中例子，M个接入交换机均向上连接有核心交换机1，从而M个接入交换机中的任两个接入交换机能够通过核心交换机1连通。

分布式训练系统中任两个计算节点之间能够传输数据，具体参见下述示例1和示例2。

示例1，接入至同一个接入交换机的两个计算节点，可通过该接入交换机传输数据。结合图4中例子，计算节点1.1和计算节点1.2均接入至接入交换机1中，计算节点1.1向计算节点1.2发送数据的路径为：计算节点1.1→接入交换机1→计算节点1.2。本申请中，“→”可表示数据的传输方向。

示例2，接入至不同接入交换机的两个计算节点，可通过各自接入的接入交换机，以及该两个接入交换机共同接入的核心交换机传输数据。结合图4中例子，计算节点1.1接入至接入交换机1，计算节点2.1接入至接入交换机2，且接入交换机1和接入交换机2均接入至核心交换机1，计算节点1.1向计算节点2.1发送数据的路径为：计算节点1.1→接入交换机1→核心交换机1→接入交换机2→计算节点2.1。

本申请中，位于同一个分组的两个计算节点可通过该分组对应的接入交换机进行组内通信，组内通信所经过的路径可称为是组内路径，该传输方式可称为是组内传输方式。相应的，位于不同分组的两个计算节点可通过该不同分组分别对应的接入交换机，以及核心交换机进行组间通信，组间通信所经过的路径可称为是组间路径，该传输方式可称为是组间传输方式。

进一步的，接入交换机包括用于向上连接核心交换机的第一端口，以及用于向下连接计算节点的第二端口。计算节点包括用于向上连接接入交换机的第三端口。核心交换机包括用于向下连接接入交换机的第四端口。

示例性的，在接入交换机和核心交换机的连接关系中：每个接入交换机中包括有K个第一端口，该K个第一端口分别向上连接于K个核心交换机中各核心交换机的一个第四端口。每个核心交换机包括有M个第四端口，该M个第四端口分别向下连接于M个接入交换机中各接入交换机的一个第一端口。

示例性的，在接入交换机和计算节点的连接关系中：每个接入交换机中还包括有K个第二端口，该K个第二端口向下连接于该接入交换机对应分组中的计算节点的第三端口。比如，每个计算节点包括有一个第三端口，接入交换机中包括有4个第二端口，接入交换机向下连接有该接入交换机对应分组中的4个计算节点；再比如，每个计算节点包括有8个第三端口，接入交换机中包括有32个第二端口，接入交换机向下连接有该接入交换机对应分组中的4个计算节点等。

如下提供两个具体实现中核心交换机、接入交换机和计算节点的端口连接方式：

方式1，图5a中的核心交换机为4个，接入交换机为32个，每个分组中的计算节点也为4个，即K、k均等于4，M等于32。相应的，每个核心交换机包括32个第四端口(记为第四端口1至第四端口32)；每个接入交换机包括4个第一端口(记为第一端口1至第一端口4)和4个第二端口(记为第二端口1至第二端口4)；每个计算节点中包括1个第三端口。分布式训练系统中包含的端口连接关系可参见图5a所示。

以接入交换机1为例，接入交换机1的4个第一端口向上分别连接核心交换机1的第四端口1，核心交换机2的第四端口1，核心交换机3的第四端口1，以及核心交换机4的第四端口1。4个第二端口向下分别连接4个计算节点，即计算节点1.1至计算节点1.4。

再以核心交换机1为例，核心交换机1的32个第四端口向下分别连接接入交换机1的第一端口1，接入交换机2的第一端口1，……，接入交换机31的第一端口1，以及接入交换机32的第一端口1。

方式2，图5b中的核心交换机为32个，接入交换机为32个，每个分组中的计算节点为4个，即K等于32，M等于32，k等于4。相应的，每个核心交换机包括32个第四端口(记为第四端口1至第四端口32)；每个接入交换机包括32个第一端口(记为第一端口1至第一端口32)和32个第二端口(记为第二端口1至第二端口32)；每个计算节点中包括8个第三端口。分布式训练系统中包含的端口连接关系可参见图5b所示。

以接入交换机1为例，接入交换机1的32个第一端口向上分别连接核心交换机1的第四端口1，核心交换机2的第四端口1，核心交换机3的第四端口1，……，核心交换机31的第四端口1，以及核心交换机32的第四端口1。32个第二端口向下分别连接4个计算节点，即计算节点1.1至计算节点1.4。

进一步的，在接入交换机内部，该K个第一端口和K个第二端口绑定，或者说，在接入交换机的内部，设置K个第一端口和K个第二端口的一一映射关系，从而实现在接入交换机中，从多个第一端口中的某个第一端口输入的数据，从多个第二端口中、该第一端口对应的第二端口输出。仍结合图5a中例子，接入交换机1中，第一端口1至第一端口4分别与第二端口1至第二端口4对应，当接入交换机1通过第一端口1接收数据时，可将该数据由第二端口1输出，当接入交换机1通过第一端口2接收数据时，可将该数据由第二端口2输出。如此，避免接入交换机基于负载均衡原理，将数据通过多个第二端口中某个不确定的第二端口输入至某个不确定的核心交换机中。

还可认为，图4或图5a或图5b示出的分布式训练系统包括一个核心层和一个接入层，其中，该一个核心层中包括核心交换机1至核心交换机K，该一个接入层中包括接入交换机1至接入交换机M。此外，本申请还可包括多个核心层，该多个核心层位于接入层之上，用于实现接入层中任两个接入交换机连通。其中，该多个核心层的任两个相邻核心层中，上一核心层中的一个或多个核心交换机，用于下一核心层中的任两个核心交换机连通。

也可以理解，多个核心层用于实现计算集群中任两个计算节点之间的连通。

图6为本申请示例性提供的再一种分布式训练系统的架构示意图，该分布式训练系统中包括两个核心层，该两个核心层可分别记为第一核心层和第二核心层。其中，第二核心层位于第一核心层之上，第一核心层位于接入层之上。

第二核心层中包括一个或多个核心交换机(图6示出两个核心交换机，分别表示为核心交换机A和核心交换机B)。第一核心层中包括K个核心交换机(图6中仍表示为核心交换机1至核心交换机K)。接入层中包括M个接入交换机(图6中仍表示为接入交换机1至接入交换机M)，且接入交换机1至接入交换机M分别对应于分组1至分组M，每个分组中仍包括一个或多个计算节点。

对于第二核心层来说，该第二核心层中的一个或多个核心交换机用于实现第一核心层中任两个核心交换机之间连通；对于第一核心层来说，该第一核心层中的K个核心交换机用于实现接入层中任两个接入交换机之间连通；对于接入层来说，该接入层中的M个接入交换机用于实现各自分组中任两个计算节点之间连通。具体连通方式可参见关于图4或图5a或图5b实施例中的论述，不再赘述。

进一步的，分布式训练系统中还包括管理节点。

在图4至图6的任一个图中，管理节点是独立于计算集群的一个节点，该节点与计算集群中的多个计算节点分别连接，以用于管理计算集群中的各个计算节点。在一个具体实现中，管理节点比如是计算机，或者是安装在计算机上的模块，比如插件。

又或者，管理节点是计算集群中的计算节点，该计算节点与计算集群中其他的多个计算节点分别连接，不仅具备管理计算集群中的该其他的多个计算节点的能力，还具备其他计算节点的计算能力。在一个具体实现中，管理节点比如是物理服务器，其中包括一个或多个计算单元(或称为处理单元)，比如CPU、NPU或GPU等。

具体的，管理节点用于从计算机群中选择出N个用于进行分布式训练的计算节点，进而根据该N个计算节点，生成通信规划。管理节点还用于将通信规划指示给该N个计算节点，以使得该N个计算节点在分布式训练过程中执行聚合算法，以得到聚合之后数据。

参照图7示例性示出的一种分布式训练方法的流程示意图说明。

步骤701，管理节点获取网络拓扑。

其中，网络拓扑包括核心交换机和计算集群中的计算节点的连通关系。结合图5a中例子，管理节点获取的网络拓扑比如包括：

拓扑1：计算节点1.1、计算节点2.1、……、计算节点32.1均与核心交换机1连通；

拓扑2：计算节点1.2、计算节点2.2、……、计算节点32.2均与核心交换机2连通等。

可选的，网络拓扑中还包括接入交换机分别与核心交换机和计算集群中的计算节点的连通关系。结合图5a中例子，管理节点获取的网络拓扑中：

拓扑1进一步包括：

拓扑1-1，计算节点1.1通过接入交换机1与核心交换机1连通；

拓扑1-2，计算节点2.1通过接入交换机2与核心交换机1连通；

拓扑1-3，计算节点3.1通过接入交换机3与核心交换机1连通等。

拓扑2进一步包括：

拓扑2-1，计算节点1.2通过接入交换机1与核心交换机2连通；

拓扑2-2，计算节点2.2通过接入交换机2与核心交换机2连通；

拓扑2-3，计算节点3.2通过接入交换机3与核心交换机2连通等。

可选的，在分布式训练系统包括多个核心层(比如图6中的第一核心层和第二核心层)时，网络拓扑中不仅包括接入交换机和计算集群中的计算节点的连通关系，以及接入交换机与第一核心层中核心交换机的连通关系，还包括第一核心层中核心交换机与第二核心层中核心交换机的连通关系。结合图6中例子，管理节点获取的网络拓扑中不仅包括上述拓扑1和拓扑2等，还包括如下拓扑A和拓扑B：

拓扑A：核心交换机1、核心交换机2、……、核心交换机K均与核心交换机A连通；

拓扑B：核心交换机1、核心交换机2、……、核心交换机K均与核心交换机B连通。

当然，上面仅是示例性示出网络拓扑的形式，管理节点获取到的网络拓扑还可以是其他形式，本申请不限定。

步骤702，管理节点根据网络拓扑，确定N个计算节点之间的通信规划。

该N个计算节点用于在分布式系统中，共同训练某个模型(称为目标模型)。

其中，通信规划包括X条组间路径(记为组间路径1至组间路径X)，其中X为大于2的整数。进一步的，每条组间路径中包括N个计算节点中、属于不同分组的两个计算节点，以及用于连通该两个计算节点的核心交换机。结合拓扑1举例，组间路径1中包括计算节点1.1、核心交换机1和计算节点2.1；结合拓扑2举例，组间路径2中包括计算节点2.2、核心交换机2和计算节点32.2。

X条组间路径中每条组间路径可用于传输该组间路径中两个计算节点之间的数据。比如，组间路径1中包括计算节点1.1和计算节点2.1，组间路径1用于传输计算节点1.1和计算节点2.1之间的数据；再比如，组间路径2中包括计算节点2.2和计算节点32.2，组间路径2用于传输计算节点2.2和计算节点32.2之间的数据。

为避免核心交换机的端口出现流量拥塞，管理节点根据网络拓扑，确定的X条组间路径中传输的数据量需要符合预设条件。

针对X条组间路径中一条组间路径来说：该组间路径在经过该组间路径所包括的核心交换机时，具体经过的是，核心交换机的一个输入端口和一个输出端口。在一个可能方式中，将组间路径所经过的核心交换机的输出端口作为流量端口，该流量端口的数据流量(或称为流量)用于衡量该组间路径中传输的数据量是否预设条件。其中，该流量端口的数据流量与该组间路径中两个计算节点之间传输数据的数据量关联。

相应的，X条组间路径分别包括Y个流量端口，其中，Y为大于2的整数。一个示例中，X条组间路径分别对应的X个流量端口中不存在相同的流量端口，也即X等于Y。再一个示例中，X条组间路径分别对应的X个流量端口中存在相同的流量端口，即X条组间路径中有两条或两条以上的组间路径对应于同一个流量端口，也即X大于Y。

X条组间路径分别传输的数据量符合预设条件，具体是，Y个流量端口中，任两个流量端口的数据流量的差值小于阈值。

举例来说，X条组间路径具体是组间路径1至组间路径10，即X等于10。组间路径1至组间路径10分别对应于流量端口1至流量端口10，即Y等于10，其中，流量端口1至流量端口10中任两个流量端口的数据流量的差值小于阈值。或者，组间路径1至组间路径6分别对应于流量端口1至流量端口6，组间路径7和组间路径8对应于同一个流量端口7，组间路径9和组间路径10对应于同一个流量端口8，即Y等于8，其中，流量端口1至流量端口8中任两个流量端口的数据流量的差值小于阈值。

结合图5a中例子解释：组间路径1中包括计算节点1.1、核心交换机1和计算节点2.1。核心交换机1通过核心交换机1的第四端口1接收计算节点1.1的数据，并通过核心交换机1的第四端口2输出至计算节点2.1。核心交换机1的第四端口2即为核心交换机1的流量端口(记为流量端口1)，其中，流量端口1的数据流量与计算节点1.1、计算节点2.1二者之间交换的数据量关联。组间路径2中包括计算节点2.2、核心交换机2和计算节点32.2。核心交换机2通过核心交换机2的第四端口2接收计算节点2.2的数据，并通过核心交换机2的第四端口32输出至计算节点32.2。核心交换机2的第四端口32即为核心交换机2的流量端口(记为流量端口2)，其中，流量端口2的数据流量与计算节点2.2、计算节点32.2二者之间交换的数据量关联。组间路径1和组间路径2符合预设条件，具体是，流量端口1的数据流量与流量端口2的数据流量的差值小于阈值。

需要说明的是，在分布式训练系统包括多个核心层时，具体是，针对同一个核心层来说，该Y个流量端口中，任两个流量端口的数据流量的差值小于阈值。不同核心层对应的阈值相同或不同。

结合图6中例子举例，X条组间路径具体是组间路径1至组间路径5，即X等于5，在第一核心层中，组间路径1至组间路径3分别对应于核心交换机1的流量端口11至流量端口13，组间路径4、组间路径5对应于核心交换机2的同一个流量端口21；在第二核心层中，组间路径1至组间路径5分别对应于核心交换机A的流量端口A1至流量端口A5。进一步的，第一核心层对应于阈值1，第二核心层对应于阈值2，那么，流量端口11至流量端口13、流量端口21中的任两个流量端口的数据流量的差值小于阈值1，流量端口A1至流量端口A5中的任两个流量端口的数据流量的差值小于阈值2。

为了更好的达到上述预设条件，管理节点在确定N个计算节点之间的通信规划时，具体可以是，确定X条组间路径中的任两条组间路径分别包含有不同的核心交换机。也可以理解，X条组间路径分别对应于X个核心交换机，从而X个不同核心交换机分别传输X条组间路径对应的数据，避免出现某个核心交换机需要同时传输多条组间路径对应的数据，从而导致流量拥塞的问题。

管理节点在确定N个计算节点之间的通信规划时，具体还可以是，在确定X条组间路径中存在某两条组间路径包含有相同核心交换机的情况下，确定该相同核心交换机在该两条组间路径中的流量端口不同，比如管理节点确定组间路径1和组间路径2均经过核心交换机1，则管理节点可进一步确定组间路径1经过核心交换机1的流量端口11，组间路径2经过核心交换机1的流量端口12。如此，即使存在某个核心交换机需要同时传输多条组间路径对应的数据，但该核心交换机可通过两个不同的流量端口来传输该两个数据，同样可避免出现流量拥塞的问题。

可选的，网络拓扑还包括接入交换机分别与核心交换机、计算集群中计算节点的连通关系，也即，网络拓扑中具体包括核心交换机、计算集群中计算节点，以及接入交换机的连通关系。管理节点根据网络拓扑，确定的组间路径中还包括该两个计算节点所属分组对应的接入交换机，其中接入交换机即用于连通核心交换机和该接入交换机下的计算节点。

仍结合拓扑1举例，组间路径1中包括计算节点1.1、接入交换机1、核心交换机1、接入交换机2和计算节点2.1，也可以将组间路径1表示为：计算节点1.1接入交换机1核心交换机1接入交换机2计算节点2.1，其中，表示双向传输，比如“计算节点1.1接入交换机1”表示，计算节点1.1能够向接入交换机1传数据，接入交换机1也能够向计算节点1.1传数据。其中，接入交换机1用于连通计算节点1.1和核心交换机1；接入交换机2用于连通计算节点2.1和核心交换机1。

此外，管理节点在确定N个计算节点之间的通信规划时，不仅能够确定X个组间路径，还能确定Z个组内路径，Z为大于2的整数。其中，对于任一条组内路径来说，该组内路径中包括N个计算节点中、属于同一个分组的两个计算节点，以及用于连通该两个计算节点的接入交换机(或者说，该分组对应的接入交换机)。结合上述拓扑1举例，管理节点确定组内路径1中包括计算节点1.1、接入交换机1和计算节点1.2，或者，将组内路径1表示为：计算节点1.1接入交换机1计算节点1.2，其中，表示双向传输。

进一步的，由于组内路径所经过的交换机层数小于组间路径所经过的交换机层数，相应的，经组内路径传输数据的速度高于经组间路径传输数据的速度；且交换机内部设置有各输入端口至各输出端口的流量路线，并不会存在多条组内路径的数据流量冲突。如此，管理节点在确定通信规划时，可确定组内路径传输的数据量，大于组间路径传输的数据量。

一种可能方式中，管理节点根据网络拓扑和通信算法，确定N个计算节点之间的通信规划。通信算法用于在该分布式训练的过程中，聚合该N个计算节点在每轮迭代中分别执行模型训练而得到的数据，从而该N个计算节点根据聚合后的数据，进行下一轮模型训练，以得到最终的目标模型。通信算法比如是ring算法、HD算法、binary tree算法等。

如图8为本申请示例性提供的一种管理节点确定通信规划的流程示意图：

步骤801，管理节点获取训练任务，训练任务中包括通信算法和计算节点总数N。

一个具体实现中，用户在准备使用计算集群训练某个目标模型时，可在前端界面中输入分布式训练所需的计算节点总数N和通信算法。相应的，前端界面基于用户输入，生成训练任务，并向管理节点发送该训练任务。

可选的，训练任务中还包括计算节点的资源类型、训练任务的参数、任务优先级等，其中资源类型包括GPU、NPU、CPU中的一项或多项；训练任务的参数比如是迭代终止条件(比如迭代次数、梯度条件等)等；任务优先级指示当前训练任务的优先级，优先级越高，则表明训练任务越重要，管理节点需要优先为优先级高的训练任务选择计算节点。

步骤802，管理节点根据网络拓扑、计算节点总数N和通信算法，从计算集群中处于空闲状态的多个计算节点中，确定N个计算节点和该N个计算节点之间的通信规划。

计算集群包括被占用的计算节点，和处于空闲状态的多个计算节点。一个可能方式中，管理节点获取当前计算集群中处于空闲状态的多个计算节点是哪些，然后根据网络拓扑、计算节点总数N和通信算法，从这些处于空闲状态的多个计算节点中选择N个计算节点，进而确定该N个计算节点之间的通信规划。该方案中，管理节点先选择出N个计算节点，再对选择出的计算节点进行通信规划，降低通信规划过程中的计算量。

管理节点在从当前计算集群中处于空闲状态的多个计算节点中选择N个计算节点时，可以基于亲和性原则选择，即，尽量选择处于同一个分组中的计算节点，以提高组内传输(组内路径)方式在每次迭代中的占比，相应的，降低组间传输方式(组间路径)在每次迭代中的占比，避免过多的组间传输方式而导致核心交换机的端口出现流量拥塞。

进一步的，管理节点在选择出N个计算节点之后，还可执行如下步骤a至步骤c，以合理规划出N个计算节点在通信算法中的通信方式(即通信规划)。

步骤a，管理节点将N个计算节点中、属于同一个分组的两个计算节点配对；在剩余尚未配对的多个计算节点时，将尚未配对的多个计算节点配对，以得到的N/2个节点对。

也即，管理节点需要先将N个计算节点进行节点配对，并尽可能地将位于同一个分组中的两个计算节点配对，若在将位于同一个分组中的两个计算节点均配对完成之后，仍存在尚未配对的、多个位于不同分组中的两个计算节点，则将该多个位于不同分组中的两个计算节点进行节点配对，从而得到N/2个节点对。

举例来说，选择出16个计算节点，分别是，

分组1中的计算节点1.1、计算节点1.2、计算节点1.3、计算节点1.4、计算节点1.5；

分组2中的计算节点2.1、计算节点2.2、计算节点2.3；

分组3中的计算节点3.1、计算节点3.2、计算节点3.5、计算节点3.6；

分组4中的计算节点4.1、计算节点4.2、计算节点4.3、计算节点4.4。

管理节点在进行节点配对时，可先将分组1中的计算节点配对得到：(计算节点1.1、计算节点1.2)、(计算节点1.3、计算节点1.4)；分组2中的计算节点配对得到：(计算节点2.1、计算节点2.2)；分组3中的计算节点配对得到：(计算节点3.1、计算节点3.2)、(计算节点3.5、计算节点3.6)；分组4中的计算节点配对得到：(计算节点4.1、计算节点4.2)、(计算节点4.3、计算节点4.4)。进一步的，剩余尚未配对的计算节点1.5和计算节点2.3，管理节点将该两个计算节点配对得到(计算节点1.5、计算节点2.3)。

步骤b，管理节点根据通信算法的多轮通信和N/2个节点对，确定N个计算节点分别在多轮通信中的通信规划。

其中，对于任一轮通信中的通信规划，通信规划中两个计算节点所传输的数据量越大，通信规划中包括的组间路径数越小。可以理解，在组内通信方式中，两个计算节点通过接入交换机进行数据传输，无需经过核心交换机，所以存在流量拥塞的可能性较小，所以管理节点在进行通信规划时，将需要传输较大数据量的步骤，采用相对较多的组内通信完成 (或者说相对较少的组间通信完成)，以避免出现流量拥塞的问题。结合图3中例子，可以理解，reduce-scatter中的步骤1需要传输的数据量大于步骤2需要传输的数据量，所以步骤1中包括的组间路径小于步骤2中包括的组间路径。

举例来说，管理节点获取到的N/2个节点对如上述步骤a中的例子，则HD算法中reduce-scatter包括4个步骤，分别表示为S1至S4，HD算法中allgather包括三个步骤，分别表示为S5至S8，也即HD算法共计有8轮通信，其中，reduce-scatter中S1至S4、allgather中S5至S8的说明可参见上述图3相关实施例中描述。管理节点可基于HD算法，确定16个计算节点分别在该8轮通信中的通信规划。

为方便描述，参见图9示例性示出的一种基于HD算法的通信关系图解释。其中，图9中(a)示出的立方体中，顶点和棱分别代表HD算法中的步骤，顶点对应于节点对，管理节点根据该顶点对应的节点对确定该各步骤对应的通信规划。

图9中(a)尚未关联立方体中顶点和节点对，管理节点可根据如下方式确定顶点和节点对的关联关系：

管理节点将任一个节点对放置在立方体的某个顶点上，比如将(计算节点1.1，计算节点1.2)放置在立方体的第一顶点处，本申请中为方便描述，将(计算节点1.1，计算节点1.2)表示为(1.1，1.2)，其他类似，不再赘述。其中，第一顶点代表reduce-scatter中的S1，与第一顶点连接的三个棱分别代表reduce-scatter中的S2、S3和S4；或者，第一顶点代表allgather中的S8，与第一顶点连接的三个棱分别代表allgather中S7、S6和S5。如下，均以reduce-scatter为例说明。

其中，S2传输的数据量比S3或S4传输的数据量大，则优先为S2对应的棱上的第二顶点确定节点对，优先选择与第一顶点上节点对中计算节点位于同一个分组中的计算节点所属的节点对，比如选择(1.3,1.4)放置到第二顶点上。

进一步的，与第一顶点连接的、剩余的两个棱分别代表S3和S4，与第二顶点连接的、剩余的两个棱分别代表S3和S4，其中，S3传输的数据量比S4传输的数据量大，则优先为S3对应棱上的顶点确定节点对，比如先为第一顶点的S3选择节点对，仍优先选择与第一顶点上节点对中计算节点位于同一个分组中的计算节点所属的节点对，比如选择(1.5,2.3)放置到第三顶点上；随后，管理节点再为第二顶点的S3选择节点对，以此类推，即可为该立方体的8个顶点分别赋予对应的节点对，以得到图9中(b)示出的对应关系。

结合图9中(b)，其中S1对应的第一顶点中对应于(1.1，1.2)，即，该计算节点1.1与计算节点1.2在S1中通信。

其中一个S2对应的棱连接有两个顶点，分别是(1.1,1.2)和(1.3，1.4)，该两个顶点中位于相对应位置的两个计算节点分别是计算节点1.1与计算节点1.3，以及计算节点1.2与计算节点1.4。相应的，该计算节点1.1与计算节点1.3在S2中通信；计算节点1.2与计算节点1.4在S2中通信。

其中一个S4对应棱连接的两个顶点，分别是(1.1，1.2)和(3.1，3.2)，该两个顶点中位于相对应位置的两个计算节点分别是计算节点1.1与计算节点3.1，以及计算节点1.2与计算节点3.2。相应的，计算节点1.1与计算节点3.1在S4中通信，计算节点1.2与计算节点3.2在S4中通信。

在另外一个S4对应棱连接的两个顶点，分别是(1.5，2.3)和(4.1，4.2)，该两个顶点中位于相对应位置的两个计算节点分别是计算节点1.5与计算节点4.1，以及计算节点 2.3与计算节点4.2。相应的，计算节点1.5与计算节点4.1在S4中通信，计算节点2.3与计算节点4.2在S4中通信。

步骤c，管理节点若确定在多轮通信中的第i轮通信中，N个计算节点的通信规划中包括多条组间路径，且多条组间路径分别传输的数据量不符合预设条件，则调整第i轮通信中N个计算节点的通信规划，i为正整数。

仍结合上述例子，在S4(即i＝4)中：

计算节点4.1在向计算节点1.5发送数据时，经过的路径是计算节点4.1→接入交换机4→核心交换机1→接入交换机1→计算节点1.5，具体的，经过核心交换机1的第四端口1；

计算节点3.1在向计算节点1.1发送数据时，经过的路径是计算节点3.1→接入交换机3→核心交换机1→接入交换机1→计算节点1.1，具体的，经过核心交换机1的第四端口1。

如此，存在该两个组间路径均经过核心交换机1的第四端口1，即核心交换机1的第四端口1存在流量拥塞，即存在该两条组间路径分别传输的数据量不符合预设条件。

为此，管理节点可通过调整该步骤中N个计算节点的通信规划，来使得多条组间路径分别传输的数据量符合预设条件。比如，调整步骤a中节点对，比如交换节点对(计算节点4.1、计算节点4.2)与节点对(计算节点4.3、计算节点4.4)的顺序，交换后的对应关系参见图9中(c)。进一步的，在S4中：

计算节点4.3向计算节点1.5发送数据，经过的路径是计算节点4.3→接入交换机4→核心交换机3→接入交换机1→计算节点1.5，具体的，经过核心交换机3的第四端口1；

计算节点3.5向计算节点1.3发送数据，经过的路径是计算节点3.5→接入交换机3→核心交换机5→接入交换机1→计算节点1.3，具体的，经过核心交换机5的第四端口1；

计算节点3.6向计算节点1.4发送数据，经过的路径是计算节点3.6→接入交换机3→核心交换机6→接入交换机1→计算节点1.4，具体的，经过核心交换机6的第四端口1；

计算节点3.1向计算节点1.1发送数据，经过的路径是计算节点3.1→接入交换机3→核心交换机1→接入交换机1→计算节点1.1，具体的，经过核心交换机1的第四端口1；

计算节点3.2向计算节点1.2发送数据，经过的路径是计算节点3.2→接入交换机3→核心交换机2→接入交换机1→计算节点1.2，具体的，经过核心交换机2的第四端口1。

依次分析，在交换后实现多条组间路径分别传输的数据量符合预设条件。

进一步的，allgather中S8、S7、S6和S5的通信规划，分别与reduce-scatter中S1、S2、S3和S4的通信规划相同，比如，在S7中，计算节点3.1与计算节点3.5通信，计算节点3.2与计算节点3.6通信等；在S6中，计算节点1.1与计算节点1.5通信，计算节点1.2与计算节点2.3通信等；在S5中，计算节点1.3与计算节点3.5通信，计算节点1.4与计算节点3.6通信等。由于S8、S7、S6和S5的通信规划，分别与S1、S2、S3和S4的通信规划相同，所以在图9中(c)未示出S8、S7、S6和S5的通信规划。

需要指出的是，管理节点还需要确定各组间路径中两个计算节点之间需要传输的数据是什么。结合图9中(c)示出的HD算法的通信关系图举例，在S1中，计算节点1.1与计算节点1.3通信，具体包括，计算节点1.1将自己的中间数据的一半发送至计算节点1.3。相应的，管理节点确定的通信规划中不仅包括组内路径“计算节点1.1接入交换机计算节点1.3”，还包括计算节点1.1向计算节点1.3待发送的数据的指示信息(比如中间数据的一半)。

管理节点在确定出通信规划之后，还可根据通信规划确定规划信息，该规划信息中包括多条组间路径分别对应的路径信息，其中，该组间路径对应的路径信息指示该组间路径用于该组间路径中的两个计算节点相互传输数据。随后管理节点分别向N个计算节点发送该规划信息，该N个计算节点中每个计算节点根据接收到的规划信息，确定需要向哪个计算节点发送什么数据，和/或，确定需要接收来自哪个计算节点什么数据。

具体的，本申请中还可以包括步骤703至步骤705：

以多条组间路径中的第一组间路径为例说明，其中，第一组间路径包括第一计算节点、第二计算节点和第一核心交换机。可选的，第一组件路径中还包括第一计算节点所属分组对应的第一接入交换机，和第二计算节点所属分组对应的第二接入交换机。

步骤703，管理节点分别向第一计算节点、第二计算节点发送第一信息。

管理节点确定的规划信息中包括第一组间路径对应的路径信息(记为第一信息)，其中第一信息指示第一组间路径用于第一计算节点与第二计算节点之间相互传输数据。

示例性的，第一信息中包括第一组间路径，或者，包括第一计算节点和第二计算节点；第一信息中还包括第一计算节点向第二计算节点待发送的数据的指示信息，和/或，第二计算节点向第一计算节点待发送的数据的指示信息。

一个具体实现中，管理节点分别向第一计算节点、第二计算节点发送规划信息，相应的，第一计算节点和第二计算节点分别接收来自管理节点的规划信息，从规划信息中获取第一信息。再一个具体实现中，管理节点直接向第一计算节点、第二计算节点发送第一信息，相应的，第一计算节点和第二计算节点接收来自管理节点的第一信息。

步骤704，第一计算节点根据第一信息确定待发送至第二计算节点的数据(记为第一数据)，并向第二计算节点发送第一数据。

相应的，第二计算节点接收来自第一计算节点的数据，并根据第一信息确定该接收到的数据是来自第一计算节点的第一数据，随后，第二计算节点将第一数据更新至本地。

步骤705，第二计算节点根据第一信息确定待发送至第一计算节点的数据(记为第1数据)，并向第一计算节点发送第1数据。

相应的，第一计算节点接收来自第二计算节点的数据，并根据第一信息确定接收到的数据是来自第二计算节点的第1数据，随后，第一计算节点将第1数据更新至本地。

其中，第一计算节点在向第二计算节点发送数据时，具体是，第一计算节点向第一接入交换机发送第一数据，第一接入交换机向第一核心交换机发送第一数据，第一核心交换机向第二接入交换机发送第一数据，第二接入交换机向第二计算节点发送第一数据。

可以理解的是，第一计算节点在发送第一数据时，直接将第一数据传输至其连接的第一接入交换机中，第一接入交换机中第一端口和第二端口相互绑定，所以第一接入交换机在接收到第一数据之后，直接将第一数据通过与接收第一数据的第一端口绑定的第二端口输出，进一步的，第一接入交换机将第一数据输出至与第二端口连接的核心交换机中。同理的，核心交换机、第二接入交换机也是根据已有的连接关系，或者内部绑定关系，确定将第一数据传输至第二计算节点中。如此，组间路径所涉及的计算节点、核心交换机、接入交换机均按照已有的路径传输数据，保障数据传输的有序性，避免在组间通信的过程中核心交换机的端口出现流量拥塞。该说明同样适用于第二计算节点向第一计算节点发送数据1的情况，不再赘述。

具体的，本申请中还可以包括步骤706至步骤708：

以多条组内路径中包括的第一组内路径为例说明，其中，第一组内路径包括第一计算节点、第三计算节点和第一接入交换机。

步骤706，管理节点分别向第一计算节点、第三计算节点发送第二信息。

管理节点确定的规划信息中包括第一组内路径对应的路径信息(记为第二信息)，其中第二信息指示第一组内路径用于第一计算节点与第三计算节点之间相互传输数据。

示例性的，第二信息中包括第一组内路径，或者，包括第一计算节点和第三计算节点；第二信息中还包括第一计算节点向第三计算节点待发送的数据的指示信息，和/或，第三计算节点向第一计算节点待发送的数据的指示信息。

一个具体实现中，管理节点分别向第一计算节点、第三计算节点发送规划信息，相应的，第一计算节点和第三计算节点分别接收来自管理节点的规划信息，从规划信息中获取第二信息。再一个具体实现中，管理节点直接向第一计算节点、第三计算节点分别发送第二信息，相应的，第一计算节点和第三计算节点接收来自管理节点的第二信息。

步骤707，第一计算节点根据第二信息确定待发送至第三计算节点的数据(记为第二数据)，并向第三计算节点发送第二数据。

相应的，第三计算节点接收来自第一计算节点的数据，并根据第二信息确定接收到的数据是来自第一计算节点的第二数据，将第二数据更新至本地。

步骤708，第三计算节点根据第二信息确定待发送至第一计算节点的数据(记为第2数据)，并向第一计算节点发送第2数据。

相应的，第一计算节点接收来自第三计算节点的数据，并根据第二信息确定接收到的数据是来自第三计算节点的第2数据，随后，第一计算节点将第2数据更新至本地。

需要指出的是，第一计算节点在向第三计算节点发送数据时，具体是，第一计算节点向第一计算节点所属的接入交换机(即第一接入交换机)发送第二数据。第一接入交换机与第三计算节点连通，第一接入交换机向第三计算节点发送第二数据。

可以理解的是，图7划分为规划阶段和训练阶段，其中，规划阶段包括：步骤701至步骤703、步骤706；训练阶段包括：步骤704、步骤705、步骤707和步骤708，其中，步骤704、步骤705是位于不用分组的两个计算节点进行数据传输的步骤；步骤707和步骤708是位于同一个分组的两个计算节点进行数据传输的步骤。

还需要指出的是，在管理节点是N个计算节点中的一个时，该管理节点分别向其他N-1计算节点发送该规划信息，如此，该N个计算节点中每个计算节点根据规划信息，确定需要向哪个计算节点发送什么数据，和/或，确定需要接收来自哪个计算节点什么数据，具体实现仍可参见上述步骤703至步骤708。

如图10为本申请示例性提供的一种管理节点的结构示意图，该管理节点中包括任务管理模块1001、资源管理模块1002和训练任务模块1003。

任务管理模块1001获取训练任务，根据训练任务中的通信算法和计算节点总数N，向资源管理模块1002申请资源，也即申请用于进行分布式训练的计算节点。具体的，任务管理模块1001向资源管理模块1002发送任务资源申请，该任务资源申请中包括通信算法和计算节点总数N。其中，任务管理模块1001的功能可参见上述步骤801中描述。

资源管理模块1002接收来自任务管理模块1001的任务资源申请，根据任务资源申请中通信算法和计算节点总数N，从计算集群中的处于空闲状态的多个计算节点中，选择N个用于进行分布式训练的计算节点，具体实现可参见步骤802中关于管理节点从当前计算集群中处于空闲状态的多个计算节点中选择N个计算节点的实现方式。

可选的，资源管理模块1002接收到多个任务资源申请，每个任务资源申请中包括各自对应的训练任务的优先级，资源管理模块1002根据多个训练任务的优先级，确定先为哪个训练任务申请资源。

资源管理模块1002在选择出该训练任务对应的N个计算节点之后，可向任务管理模块1001返回当前申请的N个计算节点的标识。任务管理模块1001指示训练任务模块1003在N个计算节点中分别启动N个计算节点分别对应的训练任务。

训练任务模块1003还可获取该N个计算节点的网络拓扑，或者获取计算集群的网络拓扑，根据获取到的网络拓扑，确定N个计算节点的通信规划，具体实现可参见步骤802中关于管理节点确定通信规划的描述。进一步的，训练任务模块1003还根据通信规划，确定规划信息，向N个计算节点分别发送规划信息。

需要补充的是，图10示出的存储模块1004用于存储计算机程序指令，当管理节点中模块在执行该存储模块1004中的计算机程序指令时，可执行该模块对应的动作。图10示出的通信模块1005用于管理节点中任两个模块之间通信，比如，任务管理模块1001通过通信模块1005，向资源管理模块1002发送任务资源申请等。

基于上述内容和相同构思，图11和图12为本申请示例性提供的一种可能的分布式训练装置的结构示意图。这些分布式训练装置可以是上述方法实施例中管理节点，用于实现上述方法实施例中管理节点的功能，因此也能实现上述方法实施例所具备的有益效果。

如图11所示，该分布式训练装置1100包括获取模块1101和处理模块1102。

具体的，获取模块1101，用于获取网络拓扑，网络拓扑包括核心交换机和计算集群中的计算节点的连通关系，计算集群中包括M个分组，每个分组中包括一个或多个计算节点；处理模块1102，用于根据网络拓扑，确定N个计算节点之间的通信规划；N个计算节点是计算集群中用于分布式训练目标模型的计算节点；通信规划包括多条组间路径，对于多条组间路径中的每条组间路径：组间路径包括N个计算节点中、属于不同分组的两个计算节点，以及用于连通两个计算节点的核心交换机，组间路径用于传输组间路径中两个计算节点之间的数据；多条组间路径分别传输的数据量符合预设条件；M和N均为大于2的整数。

在一种可能的实现方式中，处理模块1102在根据网络拓扑，确定N个计算节点之间的通信规划时，具体用于：处理模块1102根据网络拓扑和通信算法，确定N个计算节点之间的通信规划；其中，通信算法用于在分布式训练中聚合N个计算节点分别执行训练得到的数据，以得到目标模型。

在一种可能的实现方式中，获取模块1101还用于：获取训练任务，训练任务包括计算节点总数N和通信算法；处理模块1102在根据网络拓扑，确定N个计算节点之间的通信规划时，具体用于：根据网络拓扑、计算节点总数N和通信算法，从计算集群中处于空闲状态的多个计算节点中，确定N个计算节点和N个计算节点之间的通信规划。

在一种可能的实现方式中，处理模块1102在根据网络拓扑、计算节点总数N和通信算法，从计算集群中处于空闲状态的多个计算节点中，确定N个计算节点和N个计算节点之间的通信规划时，具体用于：根据网络拓扑和计算节点总数N，从计算集群中处于空闲状态的多个计算节点中，确定N个计算节点；将N个计算节点中、属于同一个分组的两个计算节点配对，以及在剩余尚未配对的多个计算节点时，将尚未配对的多个计算节点配对，以得到的N/2个节点对；根据通信算法的多轮通信和N/2个节点对，确定N个计算节点分别在多轮通信中的通信规划；其中，对于任一轮通信中的通信规划，通信规划中两个计算节点所传输的数据量越大，通信规划中包括的组间路径数越小；若确定在多轮通信中的第i轮通信中，N个计算节点的通信规划中包括多条组间路径，且多条组间路径分别传输的数据量不符合预设条件，则调整第i轮通信中N个计算节点的通信规划，i为正整数。

在一种可能的实现方式中，多条组间路径中包括第一组间路径，第一组间路径包括第一计算节点、第二计算节点和第一核心交换机；分布式训练装置1100还包括发送模块1103；发送模块1103用于：分别向第一计算节点和第二计算节点发送第一信息；其中，第一信息指示第一组间路径用于第一计算节点向第二计算节点发送第一数据。

在一种可能的实现方式中，多条组内路径中包括第一组内路径，第一组内路径包括第一计算节点、第三计算节点和第一接入交换机；分布式训练装置1100还包括发送模块1103；发送模块1103用于：分别向第一计算节点和第三计算节点发送第二信息；其中，第二信息指示第一组内路径用于第一计算节点向第三计算节点发送第二数据。

在一种可能的实现方式中，获取模块1101、处理模块1102和发送模块1103中，可能存在部分功能模块部署在计算集群的计算节点中，剩余的其他功能模块部署在独立于计算集群的外部节点中。比如，获取模块1101和发送模块1103部署在计算集群的计算节点中，处理模块1102部署在独立于计算集群的外部节点中；或者，获取模块1101部署在计算集群的计算节点中，处理模块1102和发送模块1103部署在独立于计算集群的外部节点中；或者其他方式，本申请不再一一举例。

其中，获取模块1101、处理模块1102和发送模块1103均可以通过软件实现，或者可以通过硬件实现。接下来以处理模块1102为例，介绍处理模块1102的实现方式。类似的，获取模块1101和发送模块1103的实现方式可以参考处理模块1102的实现方式。

模块作为软件功能单元的一种举例，处理模块1102可以包括运行在计算实例上的代码。其中，计算实例可以包括物理主机(计算设备)、虚拟机、容器中的至少一种。进一步地，上述计算实例可以是一台或者多台。例如，处理模块1102可以包括运行在多个主机/虚拟机/容器上的代码。

需要说明的是，用于运行该代码的多个主机/虚拟机/容器可以分布在相同的区域(region)中，也可以分布在不同的region中。进一步地，用于运行该代码的多个主机/虚拟机/容器可以分布在相同的可用区(availability zone，AZ)中，也可以分布在不同的AZ中，每个AZ包括一个数据中心或多个地理位置相近的数据中心。其中，通常一个region可以包括多个AZ。

同样，用于运行该代码的多个主机/虚拟机/容器可以分布在同一个虚拟私有云(virtual private cloud，VPC)中，也可以分布在多个VPC中。其中，通常一个VPC设置在一个region内，同一region内两个VPC之间，以及不同region的VPC之间跨区通信需在每个VPC内设置通信网关，经通信网关实现VPC之间的互连。

模块作为硬件功能单元的一种举例，处理模块1102可以包括至少一个计算设备，如服务器等。或者，处理模块1102也可以是利用专用集成电路(application-specific integrated circuit，ASIC)实现、或可编程逻辑器件(programmable logic device，PLD)实现的设备等。其中，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)、现场可编程门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合实现。

处理模块1102包括的多个计算设备可以分布在相同的region中，也可以分布在不同的region中。处理模块1102包括的多个计算设备可以分布在相同的AZ中，也可以分布在不同的AZ中。同样，处理模块1102包括的多个计算设备可以分布在同一个VPC中，也可以分布在多个VPC中。其中，所述多个计算设备可以是服务器、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。

需要说明的是，在其他实施例中，处理模块1102可以用于执行图7或图8方法中的任意步骤，获取模块1101可以用于执行图7或图8方法中的任意步骤,发送模块1103可以用于执行图7或图8方法中的任意步骤,处理模块1102、获取模块1101、以及发送模块1103负责实现的步骤可根据需要指定，通过处理模块1102、获取模块1101、以及发送模块1103分别实现图7或图8方法中不同的步骤来实现分布式训练装置1100的全部功能。

或者也可以理解，获取模块1101和发送模块1103的功能包含于图10示出的通信模块1005的功能中，也即，通信模块1005具备获取模块1101和发送模块1103的功能；处理模块1102具备图10示出的任务管理模块1001、资源管理模块1002和训练任务模块1003的功能，图10和图11之间可相互参照或引用。相应的，任务管理模块1001、资源管理模块1002、训练任务模块1003、存储模块1004、通信模块1005中的部分功能模块部署在计算集群的计算节点中，剩余的其他功能模块部署在独立于计算集群的外部节点中。

如图12所示为本申请实施例提供的分布式训练装置1200，图12所示的分布式训练装置可以为图11所示的装置的一种硬件电路的实现方式。该装置可适用于前面所示出的流程图中，执行上述方法实施例中管理节点的功能。

为了便于说明，图12仅示出了该分布式训练装置1200的主要部件。

本申请还提供一种分布式训练装置1200。如图12所示，分布式训练装置1200包括：总线102、处理器104、存储器106和通信接口108。处理器104、存储器106和通信接口108之间通过总线102通信。分布式训练装置1200可以是服务器或终端设备。应理解，本申请不限定分布式训练装置1200中的处理器、存储器的个数。

总线102可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。总线104可包括在分布式训练装置1200各个部件(例如，存储器106、处理器104、通信接口108)之间传送信息的通路。

处理器104可以包括中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、微处理器(micro processor，MP)或者数字信号处理器(digital signal processor，DSP)等处理器中的任意一种或多种。

存储器106可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。处理器104还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，机械硬盘(hard disk drive，HDD)或固态硬盘(solid state drive，SSD)。

存储器106中存储有可执行的程序代码，处理器104执行该可执行的程序代码以分别实现前述获取模块1101、处理模块1102或发送模块1103的功能，从而实现分布式训练方法。也即，存储器106上存有用于执行上述分布式训练方法的指令。

通信接口108使用例如但不限于网络接口卡、收发器一类的收发模块，来实现分布式训练装置1200与其他设备或通信网络之间的通信。

或者也可以理解，存储器106具备图10示出的存储模块1004的功能，处理器104具备图10示出的任务管理模块1001、资源管理模块1002和训练任务模块1003的功能，总线102和通信接口108具备图10示出的通信模块1005的功能，图10、图11和图12之间可相互参照或引用。

基于上述内容和相同构思，本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令，所述指令指示计算设备执行图7或图8相关实施例中的方法。

基于上述内容和相同构思，本申请实施例提供一种计算机程序产品，当计算设备读取并执行计算机程序产品时，使得计算设备实现上述图7或图8相关实施例中的方法。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的保护范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种分布式训练方法，其特征在于，包括：

获取网络拓扑，所述网络拓扑包括核心交换机和计算集群中的计算节点的连通关系，所述计算集群中包括M个分组，每个分组中包括一个或多个计算节点；

根据所述网络拓扑，确定N个计算节点之间的通信规划；

其中，所述N个计算节点是所述计算集群中用于分布式训练目标模型的计算节点；

所述通信规划包括多条组间路径，对于所述多条组间路径中的每条组间路径：所述组间路径包括所述N个计算节点中、属于不同分组的两个计算节点，以及用于连通所述两个计算节点的核心交换机，所述组间路径用于传输所述组间路径中两个计算节点之间的数据；

所述多条组间路径分别传输的数据量符合预设条件；

M和N均为大于2的整数。
如权利要求1所述的方法，其特征在于，所述根据所述网络拓扑，确定N个计算节点之间的通信规划，包括：

根据所述网络拓扑和通信算法，确定所述N个计算节点之间的通信规划；

其中，所述通信算法用于在所述分布式训练中聚合所述N个计算节点分别执行训练得到的数据，以得到所述目标模型。
如权利要求1或2所述的方法，其特征在于，所述多条组间路径包括的多个核心交换机中，每个核心交换机包括一个或多个流量端口；

所述多条组间路径分别传输的数据量符合预设条件，包括：

所述多条组间路径包括的多个流量端口中，任两个流量端口的流量的差值小于阈值，其中，流量端口的流量与所属组间路径中两个计算节点之间传输数据的数据量关联。
如权利要求3所述的方法，其特征在于，在每条组间路径包括多级核心交换机时，所述差值小于阈值的任两个流量端口所属的核心交换机属于同一级。
如权利要求1-4中任一项所述的方法，其特征在于，

对于所述多条组间路径中的任两条组间路径：

所述两条组间路径分别包含有不同的核心交换机，或者，所述两条组间路径包含相同的核心交换机，且所述核心交换机在所述两条组间路径中的流量端口不同。
如权利要求1-5中任一项所述的方法，其特征在于，所述网络拓扑包括所述核心交换机、所述计算集群中计算节点，以及接入交换机的连通关系；

对于所述多条组间路径中的每条组间路径：

所述组间路径中还包括所述两个计算节点分别对应的两个接入交换机，所述组间路径中每个计算节点通过所述计算节点对应的接入交换机与所述核心交换机连通。
如权利要求6所述的方法，其特征在于，所述通信规划中还包括多条组内路径，每条组内路径中包括所述N个计算节点中、属于同一个分组的两个计算节点，以及所述分组对应的接入交换机，所述组内路径用于传输所述组内路径中两个计算节点之间的数据。
如权利要求7所述的方法，其特征在于，所述组内路径中两个计算节点之间传输数据的数据量，大于所述组间路径中两个计算节点之间传输数据的数据量。
如权利要求1-8中任一项所述的方法，其特征在于，所述M个分组分别对应于M个接入交换机；

针对所述M个接入交换机中每个接入交换机：

所述接入交换机包括K个第一端口、所述K个第一端口分别对应的K个第二端口；

所述K个第一端口分别与K个核心交换机连接；

所述K个第二端口分别与所述接入交换机对应的分组中计算节点的K个端口连接；

K为大于2的整数。
如权利要求1-9中任一项所述的方法，其特征在于，所述根据所述网络拓扑，确定N个计算节点之间的通信规划，包括：

获取训练任务，所述训练任务包括计算节点总数N和通信算法；

根据所述网络拓扑、所述计算节点总数N和所述通信算法，从所述计算集群中处于空闲状态的多个计算节点中，确定所述N个计算节点和所述N个计算节点之间的通信规划。
如权利要求10所述的方法，其特征在于，所述根据所述网络拓扑、所述计算节点总数N和所述通信算法，从所述计算集群中处于空闲状态的多个计算节点中，确定所述N个计算节点和所述N个计算节点之间的通信规划，包括：

根据所述网络拓扑和所述计算节点总数N，从所述计算集群中处于空闲状态的多个计算节点中，确定所述N个计算节点；

将所述N个计算节点中、属于同一个分组的两个计算节点配对，以及在剩余尚未配对的多个计算节点时，将所述尚未配对的多个计算节点配对，以得到的N/2个节点对；

根据所述通信算法的多轮通信和所述N/2个节点对，确定所述N个计算节点分别在所述多轮通信中的通信规划；其中，对于任一轮通信中的通信规划，所述通信规划中两个计算节点所传输的数据量越大，所述通信规划中包括的组间路径数越小；

若确定在所述多轮通信中的第i轮通信中，所述N个计算节点的通信规划中包括多条组间路径，且所述多条组间路径分别传输的数据量不符合所述预设条件，则调整所述第i轮通信中所述N个计算节点的通信规划，i为正整数。
如权利要求1-11中任一项所述的方法，其特征在于，所述多条组间路径中包括第一组间路径，所述第一组间路径包括第一计算节点、第二计算节点和第一核心交换机；

所述根据所述网络拓扑，确定N个计算节点之间的通信规划之后，还包括：

根据所述通信规划，分别向所述第一计算节点和所述第二计算节点发送第一信息；

其中，所述第一信息指示所述第一组间路径用于所述第一计算节点向所述第二计算节点发送第一数据。
如权利要求7-12中任一项所述的方法，其特征在于，所述多条组内路径中包括第一组内路径，所述第一组内路径包括第一计算节点、第三计算节点和第一接入交换机；

所述根据所述网络拓扑，确定N个计算节点之间的通信规划之后，还包括：

根据所述通信规划，分别向所述第一计算节点和所述第三计算节点发送第二信息；

其中，所述第二信息指示所述第一组内路径用于所述第一计算节点向所述第三计算节点发送第二数据。
一种分布式训练系统，其特征在于，包括：

管理节点、K个核心交换机和计算集群，其中，所述计算集群中包括M个分组，每个分组中包括一个或多个计算节点；

所述K个核心交换机，用于连通所述M个分组中位于不同分组的计算节点；

所述管理节点，用于获取网络拓扑，根据所述网络拓扑，确定N个计算节点之间的通信规划，所述网络拓扑包括所述K个核心交换机和所述计算集群中的计算节点的连通关系，所述N个计算节点是所述计算集群中用于分布式训练目标模型的计算节点；

所述通信规划包括多条组间路径，对于所述多条组间路径中的每条组间路径：所述组间路径包括所述N个计算节点中、属于不同分组的两个计算节点，以及所述K个核心交换机中用于连通所述两个计算节点的核心交换机，所述组间路径用于传输所述组间路径中两个计算节点之间的数据；

所述多条组间路径分别传输的数据量符合预设条件；

K、M和N均为大于2的整数。
如权利要求14所述的系统，其特征在于，所述管理节点在根据所述网络拓扑，确定N个计算节点之间的通信规划时，具体用于：

根据所述网络拓扑和通信算法，确定所述N个计算节点之间的通信规划；

其中，所述通信算法用于在所述分布式训练中聚合所述N个计算节点分别执行训练得到的数据，以得到所述目标模型。
如权利要求14或15所述的系统，其特征在于，所述多条组间路径包括的多个核心交换机中，每个核心交换机包括一个或多个流量端口；

所述多条组间路径分别传输的数据量符合预设条件，包括：

所述多条组间路径包括的多个流量端口中，任两个流量端口的流量的差值小于阈值，其中，流量端口的流量与所属组间路径中两个计算节点之间传输数据的数据量关联。
如权利要求14-16中任一项所述的系统，其特征在于，还包括：分别与所述M个分组对应的M个接入交换机；所述M个接入交换机中任一个接入交换机用于连通所述接入交换机对应分组中的计算节点和所述K个核心交换机；

所述网络拓扑包括所述K个核心交换机、所述M个接入交换机和所述计算集群中的计算节点的连通关系；

对于所述多条组间路径中的每条组间路径：所述组间路径中还包括所述两个计算节点所属分组分别对应的两个接入交换机。
如权利要求17所述的系统，其特征在于，

所述通信规划中还包括多条组内路径，每条组内路径中包括所述N个计算节点中、属于同一个分组的两个计算节点，以及所述M个接入交换机中所述分组对应的接入交换机，所述组内路径用于传输所述组内路径中两个计算节点之间的数据。
如权利要求14-18中任一项所述的系统，其特征在于，所述多条组间路径中包括第一组间路径，所述第一组间路径包括第一计算节点、第二计算节点和第一核心交换机；

所述管理节点还用于：根据所述通信规划，分别向所述第一计算节点和所述第二计算节点发送第一信息，所述第一信息指示所述第一组间路径用于所述第一计算节点向所述第二计算节点发送第一数据；

所述第一计算节点，用于根据所述第一信息，向所述第一核心交换机发送所述第一数据；

所述第一核心交换机，用于将所述第一数据转发至所述第二计算节点；

所述第二计算节点，用于根据所述第一信息，接收来自所述第一核心交换机的所述第一数据。
如权利要求19所述的系统，其特征在于，所述第一组间路径中还包括所述第一节点对应的第一接入交换机，和所述第二节点对应的第二接入交换机；

所述第一计算节点，具体用于根据所述第一信息，向所述第一接入交换机发送所述第一数据，以使得所述第一接入交换机向所述第一核心交换机发送所述第一数据；

所述第二计算节点，具体用于根据所述第一信息，接收所述第二接入交换机转发的、来自所述第一核心交换机的所述第一数据。
如权利要求18-20中任一项所述的系统，其特征在于，所述多条组内路径中包括第一组内路径，所述第一组内路径包括第一计算节点、第三计算节点和第一接入交换机；

所述管理节点还用于：根据所述通信规划，分别向所述第一计算节点和所述第三计算节点发送第二信息，所述第二信息指示所述第一组内路径用于所述第一计算节点向所述第三计算节点发送第二数据；

所述第一计算节点，用于根据所述第二信息，向所述第一接入交换机发送所述第二数据；

所述第一接入交换机，用于将所述第二数据转发至所述第三计算节点；

所述第三计算节点，用于根据所述第一信息，接收来自所述第一接入交换机的所述第二数据。
一种分布式训练装置，其特征在于，包括：

获取模块，用于获取网络拓扑，所述网络拓扑包括核心交换机和计算集群中的计算节点的连通关系，所述计算集群中包括M个分组，每个分组中包括一个或多个计算节点；

处理模块，用于根据所述网络拓扑，确定N个计算节点之间的通信规划；

其中，所述N个计算节点是所述计算集群中用于分布式训练目标模型的计算节点；

所述通信规划包括多条组间路径，对于所述多条组间路径中的每条组间路径：所述组间路径包括所述N个计算节点中、属于不同分组的两个计算节点，以及用于连通所述两个计算节点的核心交换机，所述组间路径用于传输所述组间路径中两个计算节点之间的数据；

所述多条组间路径分别传输的数据量符合预设条件；

M和N均为大于2的整数。
如权利要求22中所述的装置，其特征在于，所述处理模块在根据所述网络拓扑，确定N个计算节点之间的通信规划时，具体用于：

根据所述网络拓扑和通信算法，确定所述N个计算节点之间的通信规划；

其中，所述通信算法用于在所述分布式训练中聚合所述N个计算节点分别执行训练得到的数据，以得到所述目标模型。
如权利要求22或23所述的装置，其特征在于，所述多条组间路径包括的多个核心交换机中，每个核心交换机包括一个或多个流量端口；

所述多条组间路径分别传输的数据量符合预设条件，包括：

所述多条组间路径包括的多个流量端口中，任两个流量端口的流量的差值小于阈值，其中，流量端口的流量与所属组间路径中两个计算节点之间传输数据的数据量关联。
如权利要求24所述的装置，其特征在于，在每条组间路径包括多级核心交换机时，所述差值小于阈值的任两个流量端口所属的核心交换机属于同一级。
如权利要求22-25中任一项所述的装置，其特征在于，

对于所述多条组间路径中的任两条组间路径：

所述两条组间路径分别包括有不同的核心交换机，或者，所述两条组间路径包含相同的核心交换机，且所述核心交换机在所述两条组间路径中的流量端口不同。
如权利要求22-26中任一项所述的装置，其特征在于，所述网络拓扑包括所述核心交换机、所述计算集群，以及接入交换机的连通关系；

对于所述多条组间路径中的每条组间路径：

所述组间路径中还包括所述两个计算节点分别对应的两个接入交换机，所述组间路径中每个计算节点通过所述计算节点对应的接入交换机与所述核心交换机连通。
如权利要求27所述的装置，其特征在于，所述通信规划中还包括多条组内路径，每条组内路径中包括所述N个计算节点中、属于同一个分组的两个计算节点，以及所述分组对应的接入交换机，所述组内路径用于传输所述组内路径中两个计算节点之间的数据。
如权利要求28所述的装置，其特征在于，所述组内路径中两个计算节点之间传输数据的数据量，大于所述组间路径中两个计算节点之间传输数据的数据量。
如权利要求22-29中任一项所述的装置，其特征在于，所述M个分组分别对应于M个接入交换机；

针对所述M个接入交换机中每个接入交换机：

所述接入交换机包括K个第一端口、所述K个第一端口分别对应的K个第二端口；

所述K个第一端口分别与K个核心交换机连接；

所述K个第二端口分别与所述接入交换机对应的分组中计算节点的K个端口连接；

K为大于2的整数。
如权利要求22-30中任一项所述的装置，其特征在于，所述获取模块还用于：获取训练任务，所述训练任务包括计算节点总数N和通信算法；

所述处理模块在根据所述网络拓扑，确定N个计算节点之间的通信规划时，具体用于：根据所述网络拓扑、所述计算节点总数N和所述通信算法，从所述计算集群中处于空闲状态的多个计算节点中，确定所述N个计算节点和所述N个计算节点之间的通信规划。
如权利要求31所述的装置，其特征在于，所述处理模块在根据所述网络拓扑、所述计算节点总数N和所述通信算法，从所述计算集群中处于空闲状态的多个计算节点中，确定所述N个计算节点和所述N个计算节点之间的通信规划时，具体用于：

根据所述网络拓扑和所述计算节点总数N，从所述计算集群中处于空闲状态的多个计算节点中，确定所述N个计算节点；

将所述N个计算节点中、属于同一个分组的两个计算节点配对，以及在剩余尚未配对的多个计算节点时，将所述尚未配对的多个计算节点配对，以得到的N/2个节点对；

根据所述通信算法的多轮通信和所述N/2个节点对，确定所述N个计算节点分别在所述多轮通信中的通信规划；其中，对于任一轮通信中的通信规划，所述通信规划中两个计算节点所传输的数据量越大，所述通信规划中包括的组间路径数越小；

若确定在所述多轮通信中的第i轮通信中，所述N个计算节点的通信规划中包括多条组间路径，且所述多条组间路径分别传输的数据量不符合所述预设条件，则调整所述第i轮通信中所述N个计算节点的通信规划，i为正整数。
如权利要求22-32中任一项所述的装置，其特征在于，所述多条组间路径中包括第一组间路径，所述第一组间路径包括第一计算节点、第二计算节点和第一核心交换机；

所述装置还包括发送模块；

所述发送模块用于：分别向所述第一计算节点和所述第二计算节点发送第一信息；

其中，所述第一信息指示所述第一组间路径用于所述第一计算节点向所述第二计算节点发送第一数据。
如权利要求28-33中任一项所述的装置，其特征在于，所述多条组内路径中包括第一组内路径，所述第一组内路径包括第一计算节点、第三计算节点和第一接入交换机；

所述装置还包括发送模块；

所述发送模块用于：分别向所述第一计算节点和所述第三计算节点发送第二信息；

其中，所述第二信息指示所述第一组内路径用于所述第一计算节点向所述第三计算节点发送第二数据。
一种计算设备，其特征在于，包括处理器，所述处理器与存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述计算设备执行如权利要求1至13中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序或指令，当所述计算机程序或指令被计算设备执行时，实现如权利要求1至13中任一项所述的方法。