WO2023222113A1

WO2023222113A1 - 稀疏参数的更新方法、训练节点、设备和存储介质

Info

Publication number: WO2023222113A1
Application number: PCT/CN2023/095266
Authority: WO
Inventors: 王国威; 苏磊; 刘静
Original assignee: 华为技术有限公司
Priority date: 2022-05-19
Filing date: 2023-05-19
Publication date: 2023-11-23
Also published as: EP4517591A1; CN117151184A

Abstract

本申请提供了一种稀疏参数的更新方法、训练节点、设备和存储介质，属于深度学习技术领域。该方法应用于人工智能模型训练系统，系统包括第一参数节点、第一训练节点和第二训练节点。该方法包括：第一训练节点从第一参数节点获取第一参数集，第一训练节点利用第一参数集中的参数对待训练的数据进行训练，得到第一梯度集，第一梯度集包括第一参数集的参数对应的梯度中分发至第二训练节点的第二训练卡的梯度，第一训练节点将第一梯度集和第一梯度集中的梯度对应的参数发送至第二训练卡，第二训练卡根据第一梯度集中的梯度对第一梯度集中的梯度对应的参数进行更新，第二训练卡将更新后的参数发送至第一参数节点。采用本申请的方案，能够节约传输资源。

Description

稀疏参数的更新方法、训练节点、设备和存储介质

本申请要求于2022年05月19日提交中国专利局、申请号为202210555107.7、发明名称为“稀疏参数的更新方法、训练节点、设备和存储介质”的中国专利申请的优先权，所述专利申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及深度学习技术领域，特别涉及一种稀疏参数的更新方法、训练节点、设备和存储介质。

背景技术

在一些神经网络模型中，训练数据通过独热(one-hot)编码或者多热(multi-hot)编码被处理为离散特征，需要使用嵌入参数将输入转化为连续向量再进一步处理，在一次单独的训练过程中，嵌入参数仅有部分参与计算并被更新，这种参数被称为是稀疏参数。稀疏参数总量达到10TB～30TB级别，而训练卡(训练卡也称为是训练加速卡)的内存容量不足以存储所有的稀疏参数，所以稀疏参数一般存储在服务器的内存或者服务器连接的固态硬盘(solid state disk，SSD)中。

相关技术中，稀疏参数分布式存储于多个服务器的内存或者连接的SSD中，训练卡部署在服务器上。一次更新稀疏参数的过程为：每个训练节点从内存或者SSD中获取此次训练数据对应以及此次训练数据对应的稀疏参数，每个训练节点基于获取到的训练数据，训练获得训练数据对应的稀疏参数的梯度，每个训练节点通过网络将训练得到的稀疏参数的梯度，传输给其它所有训练节点，每个训练节点对自身存储的稀疏参数的梯度进行梯度聚合，基于梯度聚合后的结果对自身存储的稀疏参数进行更新。

由于在训练节点计算出稀疏参数的梯度后，需要将所有训练节点计算得到的梯度进行互换，所以占用的网络传输资源比较多。

发明内容

本申请提供了一种稀疏参数的更新方法、训练节点、设备和存储介质，能够节约传输资源，以及提升稀疏参数的更新效率。

第一方面，本申请提供了一种稀疏参数的更新方法，该方法应用于人工智能模型训练系统，该系统包括第一参数节点、第一训练节点和第二训练节点，该第一训练节点包括第一训练卡，该第二训练节点包括第二训练卡，该方法包括：该第一训练节点从该第一参数节点获取第一参数集，该第一参数集包括多个参数；该第一训练节点利用该多个参数对待训练的数据进行训练，得到第一梯度集，该第一梯度集包括该第一参数集的多个参数对应的多个梯度中分发至该第二训练卡的梯度；该第一训练节点将该第一梯度集和该第一梯度集中的梯度对应的参数发送至该第二训练卡；该第二训练卡根据该第一梯度集中的梯度对该第一梯度集中的梯度对应的参数进行更新；该第二训练卡将更新后的参数发送至该第一参数节点。

本申请所示的方案中，使用训练卡对稀疏参数进行更新处理，使得稀疏参数的更新效率更高，进而能够提升模型的训练效率。而且训练节点是对自身获取的稀疏参数切分后传输给其它训练卡，每个稀疏参数以及对应的梯度仅会传输给一个训练卡，不需要重复传输数据，也能够节约网络传输资源。

在一种示例中，该方法还包括：该第一训练节点从N个第二参数节点分别获取一个第二参数集，每个第二参数集包括多个参数；第一训练节点利用该多个参数对待训练的数据进行训练，得到第一梯度集，包括：该第一训练节点中的多个训练卡利用该第一参数集和获取的N个第二参数集的参数对该待训练的数据进行训练，该多个训练卡包括该第一训练卡；该第一训练卡对该多个训练卡在完成训练后得到的梯度数据进行聚合；该第一训练卡对聚合后的梯度数据按照参数节点进行切分，得到该第一参数节点对应的该第一梯度集，或者，该第一训练卡对聚合后的梯度数据按照训练节点进行切分，得到该第二训练节点对应的第一梯度集，该第二训练节点对应的第一梯度集还包括该N个第二参数集的多个参数对应的多个梯度中分发至该第二训练卡的梯度。

本申请所示的方案中，第一训练节点中第一训练卡获取到第一训练节点的全部参数和对应的梯度，然后第一训练卡按照参数节点或者训练节点对梯度进行切分，分发至对应的训练卡，使得训练卡对参数进行更新。这样，使用训练卡进行稀疏参数的梯度的计算处理，以及对稀疏参数的更新处理，使得稀疏参数的更新效率更高。

在一种示例中，该方法还包括：该第一训练节点从N个第二参数节点分别获取一个第二参数集，每个第二参数集包括多个参数；第一训练节点利用该多个参数对待训练的数据进行训练后，得到第一梯度集，包括：该第一训练节点中的多个训练卡利用该第一参数集和获取的N个第二参数集的参数对该待训练的数据进行训练，该多个训练卡包括该第一训练卡；该第一训练卡对该第一训练卡在完成训练后的梯度数据按照该系统中各训练卡进行切分，得到该第二训练卡对应的该第一梯度集，该第一梯度集还包括该第一训练卡在完成训练后的梯度数据中对应该N个第二参数集的参数，且分发至该第二训练卡的梯度。

本申请所示的方案中，第一训练节点的各训练卡并行计算梯度，并且并行对梯度进行切分，能够并行更新参数，提升训练效率。

在一种示例中，该方法还包括：该第一训练节点从N个第二参数节点分别获取一个第二参数集，每个第二参数集包括多个参数；第一训练节点利用该多个参数对待训练的数据进行训练后，得到第一梯度集，包括：该第一训练节点中的多个训练卡利用该第一参数集和获取的N个第二参数集的参数对该待训练的数据进行训练，该多个训练卡包括该第一训练卡；该第一训练卡对该第一训练卡在完成训练后的梯度数据按照参数节点进行切分，得到该第二训练卡对应的该第一梯度集。

本申请所示的方案中，参数节点与训练卡建立有映射关系，第一训练节点的各训练卡并行计算梯度，并且并行按照参数节点对梯度进行切分，使得分发至同一训练卡的参数属于同一个参数节点，能够使得训练卡一起将更新后的参数更新至对应的参数节点。

在一种示例中，第二训练卡根据该第一梯度集中的梯度对该第一梯度集中的梯度对应的参数进行更新，包括：该第二训练卡对从该系统中的多个训练节点接收到的多个梯度集中的梯度进行聚合，该多个梯度集包括该第一梯度集；利用聚合后的梯度更新该第一梯度集中的梯度对应的参数。

本申请所示的方案中，使用聚合后的梯度更新参数，能够使得更新后的参数更准确。

在一种示例中，第一训练卡对聚合后的梯度数据按照参数节点进行切分，得到该第一参数节点对应的该第一梯度集，包括：根据聚合后的每个梯度数据对应的参数的特征确定索引值，一个索引值用于指示一个参数节点；将具有第一索引值的参数对应的梯度归入该第一梯度集，所述第一索引值用于指示所述第一参数节点。

第二方面，本申请提供了一种第一训练节点，该第一训练节点具有实现上述第一方面中第一训练节点所执行的功能。

第三方面，本申请提供了一种计算机设备，该计算机设备包括处理器和存储器；存储器存储有计算机指令；该处理器用于执行该计算机指令，使得该计算机设备执行上述第一方面或第一方面任一种可选方式所提供的稀疏参数的更新的部分方法。

第四方面，本申请提供了一种计算机可读存储介质，该存储介质中存储有至少一条计算机指令，该计算机指令由处理器读取以使计算机设备执行上述第一方面或第一方面任一种可选方式所提供的训练节点更新稀疏参数的部分方法。

第五方面，本申请提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面或第一方面任一种可选方式所提供的训练节点更新稀疏参数的部分方法。

附图说明

图1是本申请一个示例性实施例提供的系统架构的示意图；

图2是本申请一个示例性实施例提供的系统架构的示意图；

图3是本申请一个示例性实施例提供的设备的硬件结构示意图；

图4是本申请一个示例性实施例提供的稀疏参数的更新的方法流程示意图；

图5是本申请一个示例性实施例提供的稀疏参数的更新的方法流程示意图；

图6是本申请一个示例性实施例提供的稀疏参数的更新示例示意图；

图7是本申请一个示例性实施例提供的稀疏参数的更新的方法流程示意图；

图8是本申请一个示例性实施例提供的稀疏参数的更新示例示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面对本申请实施例涉及的一些术语概念做解释说明。

1、人工神经网络(artificial neural network，ANN)模型，是机器学习和认知科学领域中，一种模仿生物神经网络(如动物的中枢神经系统，该中枢神经系统可以是大脑等)的结构和功能的数学模型或计算模型，其用于对函数进行估计或近似。人工神经网络由大量的人工神经元联结进行计算。人工神经网络也可以简称为神经网络(neural network，NN)模型或类神经网络模型。

2、嵌入(embedding)层，是神经网络模型中将输入层的特征转换为具有固定维度的向量的层。

3、参数(parameters)，指神经网络模型中的参数，具体指每个神经网络单元的权重矩阵W和偏置向量b。在神经网络模型架构固定的情况下，神经网络模型训练的过程是通过不断调整参数的值使得神经网络模型性能最佳的过程。

4、稀疏参数，是神经网络模型中的参数的一种，稀疏参数的特点是在每一轮训练时，稀疏参数中只有部分会被激活，“激活”指参与前向计算和反向更新。例如，在推荐系统或自然语言处理等神经网络模型中，输入通过one-hot编码或者multi-hot编码被处理为离散特征，需要在嵌入层使用嵌入参数将输入转化为连续向量再进一步处理，在一次单独的训练过程中，嵌入参数仅有部分参与计算并被更新，这种参数被称为是稀疏参数。

下面描述本申请实施例中的背景。

稀疏参数的数据量比较大，而训练卡的内存容量不足以存储所有的稀疏参数，所以稀疏参数一般存储在服务器的内存或者服务器连接的SSD中。在对稀疏参数进行更新时，存下如下特点：1、数据量巨大，例如，推荐模型中的稀疏参数的量级能达到10¹²至10¹⁴，存储空间消耗为10TB～30TB级别，无法在训练卡中进行完整训练；2、参数稀疏，即对每次训练仅使用到全部稀疏参数中的很小一部分，例如，在mini-batch为10000，样本特征为1000时，使用到的稀疏参数为10⁷个；3、训练过程中存在大量的计算和数据传输，使得计算资源和网络资源容易形成瓶颈。

考虑到稀疏参数更新时的这些问题，本申请通过优化稀疏参数更新过程，减少了数据传输量，从而可以减少单轮训练时间，最终优化模型的整体训练时间。

下面，按照系统架构、系统架构中设备的硬件结构和稀疏参数的更新方法的顺序，从多个角度对本申请实施例提供的技术方案进行具体描述。

下面描述本申请实施例的系统架构。

本申请实施例提供了一种人工智能模型训练系统的架构，简称为系统架构100。系统架构100是对稀疏参数进行更新的系统架构的举例说明。系统架构100包括参数节点101和训练节点102。其中，参数节点101用于存储参数等，训练节点102用于更新参数。训练节点102可以称为是工作节点(worker)。

在一种示例中，参数节点101和训练节点102分别部署在不同的物理节点上，参数节点101与训练节点102之间通过无线网络或者有线网络连接。其中，本申请实施例不对参数节点101与训练节点102的数目与类型进行限制。例如，参见图1，系统架构100包括N个参数节点101和M个训练节点102，N和M均是整数，N和M可以相同，也可以不相同，每个训练节点102上部署有至少一个训练卡，即每个训练节点102包括至少一个训练卡，训练卡可以是神经网络处理器(neural network processing unit，NPU)或者图形处理器(graphics processing unit，GPU)，不同训练节点102上部署的训练卡的数目可以相同，也可以不相同等。在参数节点101和训练节点102分别部署在不同的物理节点上时，参数节点101也可以称为是参数服务器。

在另一种示例中，一个参数节点101和一个训练节点102部署在相同的物理节点上，参见图2，参数节点101与训练节点102之间通过物理节点内部的总线连接。

在另一种示例中，部分参数节点101和部分训练节点102部署在相同的物理节点上，且一个物理节点上部署一个参数节点101和一个训练节点102，部分参数节点101和部分训练节点102分别部署在不同的物理节点上。

在上述三种示例中，任意两个训练节点102之间通过无线网络或者有线网络连接。不同训练节点102的训练卡之间可选的通过卡间传输网络连接，也就是说不同训练节点102的训练卡之间可以直接进行通信。

下面对上述系统架构100中设备的硬件结构进行介绍。

参见图3，图3所示的设备300是对上述系统架构100中设备的硬件结构的举例说明。可选的，设备300配置为参数节点101、训练节点102或者物理节点。设备300例如是主机或服务器等。

设备300可选的由一般性的总线体系结构来实现。设备300包括至少一个处理器301、通信总线302、存储器303以及至少一个网络接口304。

处理器301例如是通用中央处理器(central processing unit，CPU)、网络处理器(network processer，NP)、GPU、NPU、数据处理单元(data processing unit，DPU)、微处理器或者一个或多个用于实现本申请方案的集成电路。例如，处理器301包括专用集成电路(application-specific integrated circuit，ASIC)、可编程逻辑器件(programmable logic device，PLD)或其组合。PLD例如是复杂可编程逻辑器件(complex programmable logic device，CPLD)、现场可编程逻辑门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合。

通信总线302用于在上述组件之间传送信息。通信总线302可以分为地址总线、数据总线、控制总线等。为便于表示，附图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器303例如是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，又如是随机存取存储器(random access memory，RAM)或者可存储信息和指令的其它类型的动态存储设备，又如是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备，或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器303例如是独立存在，并通过通信总线302与处理器301相连接。存储器303也可以和处理器301集成在一起。

可选的，存储器303用于保存设备300在稀疏参数的更新过程中获得数据等。

网络接口304使用任何收发器一类的装置，用于与其它设备或通信网络通信。网络接口304包括有线网络接口，还可以包括无线网络接口。其中，有线网络接口例如可以为以太网接口。以太网接口可以是光接口，电接口或其组合。无线网络接口可以为无线局域网(wireless local area networks，WLAN)接口，蜂窝网络网络接口或其组合等。

在具体实现中，作为一种实施例，处理器301可以包括一个或多个CPU。

在具体实现中，作为一种实施例，设备300可以包括多个处理器。这些处理器中的每一个可以是一个单核处理器(single-CPU)，也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(如计算机程序指令)的处理核。

在一些实施例中，存储器303用于存储执行本申请方案的程序代码，处理器301可以执行存储器303中存储的程序代码。也即是，设备300可以通过处理器301以及存储器303中的程序代码，来实现方法实施例提供的稀疏参数的更新方法。

在描述稀疏参数的更新方法前，首先对稀疏参数的存储有关概念进行描述。

稀疏参数分布式的存储于多个参数节点101的内存或者连接的SSD中，每个稀疏参数对应有特征，每个稀疏参数的特征也可以称为是索引。对于任一稀疏参数，基于该稀疏参数的特征可以定位到存储该稀疏参数的参数节点101以及该稀疏参数。

下面描述稀疏参数的更新的方法的流程，该方法应用于人工智能模型训练系统，该系统包括第一参数节点、第一训练节点和第二训练节点，此处仅示出该系统包括一个参数节点和两个训练节点，在实际应用中该系统可以包括多个参数节点和多个训练节点。第一参数节点用于存储稀疏参数，第一训练节点和第二训练节点用于更新稀疏参数。第一训练节点包括第一训练卡，第二训练节点包括第二训练卡。

具体的，第一训练节点从各参数节点获取稀疏参数。第一训练节点利用获取到的稀疏参数对待训练的数据进行训练，得到获取到的稀疏参数对应的梯度。然后第一训练节点确定分发至系统中各训练卡的梯度，第一训练节点将梯度和对应的稀疏参数发送至对应的训练卡。训练卡使用接收到的梯度更新接收到的稀疏参数，然后训练卡按照稀疏参数的特征，将更新后的稀疏参数发送至对应的参数节点。

例如，参见图4，第一训练节点从第一参数节点获取第一参数集，第一参数集包括多个参数，该多个参数均是稀疏参数。第一训练节点利用该多个参数对待训练的数据进行训练，得到第一梯度集，第一梯度集包括该多个参数对应的多个梯度中分发至第二训练卡的梯度。第一训练节点将第一梯度集和第一梯度集中的梯度对应的参数发送至第二训练卡。第二训练卡使用第一梯度集中的梯度，对第一梯度集中的梯度对应的参数进行更新，获得更新后的参数。第一训练卡将更新后的参数发送至第一参数节点。第一参数节点使用更新后的参数替换更新前的参数。

参见图4所示的流程，采用本申请的方案，使用训练卡对稀疏参数进行更新处理，使得稀疏参数的更新效率更高。而且训练节点对自身获取到的稀疏参数切分后传输给其它训练卡，每个稀疏参数以及对应的梯度仅会传输给一个训练卡，不需要重复传输数据，也能够节约网络传输资源。

需要说明的是，图4是以第一训练节点和第二训练节点为例进行说明，其它训练节点进行稀疏参数的更新过程参见图4，此处不再赘述。另外，在图4所示的流程中，仅示出了一次稀疏参数的更新过程。每次稀疏参数的更新过程均参见图4的所示的流程。

在图4所示的流程中，第一训练卡可以是第一训练节点中的主训练卡，也可以是第一训练节点中的任一训练卡，第二训练卡可以是第二训练节点中的主训练卡，也可以是第二训练节点中的任一训练卡，主训练卡为所属训练节点中用于对稀疏参数更新的训练卡。下面分别描述这两种情况下稀疏参数的更新过程。

第一种情况，第一训练节点包括第一训练卡和第三训练卡，第一训练卡和第三训练卡均是参与训练的训练卡，第一训练卡是第一训练节点中的主训练卡，第三训练卡的数目是一个或多个。第一训练节点上参与训练的各训练卡上运行有部分训练模型，参与训练的所有训练卡上运行的部分训练模型组成一个完整的训练模型，该完整的训练模型训练完成后，可以用于进行推理，例如，可以是推荐模型或者自然语言处理模型，本申请实施例不对模型的具体结构进行限定。同样，第二训练节点包括第二训练卡和第四训练卡，第二训练卡和第四训练卡均是参与训练的训练卡，第二训练卡是第二训练节点中的主训练卡，第四训练卡的数目是一个或多个。第二训练节点上参与训练的各训练卡上运行有部分训练模型，参与训练的所有训练卡上运行的部分训练模型组成一个完整的训练模型，该完整的训练模型与第一训练节点上的训练模型相同。稀疏参数的更新流程参见图5中步骤501至步骤510。

步骤501，第一训练节点获取本轮训练的待训练的数据。

在本实施例中，待训练的数据可以分布式的存储在参数节点上，也可以存储在其它服务器上，待训练的数据也可以称为训练数据。第一训练节点获取自身本轮训练的待训练的数据，称为是一个批量(batch)数据，该一个batch数据是第一训练节点上参与训练的训练卡所使用的待训练的数据的总和，每轮的待训练的数据的数目可以预先设置。在图5所示流程中，以待训练的数据存储在参数节点上为例进行说明。

步骤502，第一训练节点计算该待训练的数据所需的稀疏参数的特征，基于该稀疏参数的特征从对应的参数节点获取该稀疏参数。

其中，待训练的数据所需的稀疏参数为将该待训练的数据转换为固定维度向量所使用的参数。

在本实施例中，第一训练节点的处理器(如CPU等)计算该batch数据所需的稀疏参数的特征。基于该稀疏参数的特征，查询到对应的参数节点，从参数节点中获取到稀疏参数。

在步骤502中，系统架构包括第一参数节点和N个第二参数节点，N为大于或等于1的整数。第一训练节点从第一参数节点获取到的稀疏参数组成第一参数集，第一训练节点从N个第二参数节点分别获取到的稀疏参数组成第二参数集，这样，第一训练节点获取到1个第一参数集和N个第二参数集。

在一种示例中，不同待训练的数据有可能对应有相同的稀疏参数，所以可以先对稀疏参数进行去重后，然后再从参数节点获取，这样，可以节约传输资源。

步骤503，第一训练节点将待训练的数据、稀疏参数以及稀疏参数的特征传输给第一训练节点的各训练卡。

在本实施例中，第一训练节点的处理器(如CPU等)向第一训练节点的各训练卡广播batch数据、稀疏参数以及稀疏参数的特征。或者，第一训练节点通过分散(scatter)操作和全规约(all reduce)操作，将batch数据、稀疏参数以及稀疏参数的特征传输给该各训练卡。此处，该各训练卡指第一训练节点上参与训练的各训练卡。

此处通过scatter操作和all reduce操作传输给该各训练卡的处理为：假设第一训练节点的训练卡的数目为P个，第一训练节点将batch数据、稀疏参数以及稀疏参数的特征分别分为P份，将一份batch数据、一份稀疏参数以及一份稀疏参数的特征发送到一个训练卡，且不同训练卡获取到不同数据。然后各个训练卡通过all reduce操作获得全部的batch数据、稀疏参数以及稀疏参数的特征。

步骤504，第一训练节点中的各训练卡使用对应的待训练的数据，对该待训练的数据对应的稀疏参数进行训练，获得该稀疏参数对应的梯度。

在本实施例中，第一训练节点中各训练卡在batch数据中获取自身的小批量(mini-batch)数据，然后使用对mini-batch数据对应的稀疏参数进行训练，获得该稀疏参数对应的梯度。

不同训练卡的mini-batch数据不完全相同，可以存在部分相同，也可以完全不相同。

步骤505，第一训练卡对第一训练节点中多个训练卡在完成训练后得到的梯度数据进行聚合。

在本实施例中，第一训练卡获取第三训练卡上的稀疏参数以及对应的梯度，第三训练卡为第一训练节点中除第一训练卡之外的参与训练的训练卡。例如，第三训练卡训练获得自身的稀疏参数对应的梯度，第三训练卡将该稀疏参数对应的梯度、该稀疏参数的特征和该稀疏参数，发送给第一训练卡。再例如，第一训练卡与第三训练卡之间执行全规约求和(all reduce sum)操作，使得第一训练卡获取到第三训练卡上的稀疏参数的特征、稀疏参数以及对应的梯度，此处，通过all reduce sum操作，第一训练卡可以获取到第一训练节点中参与训练的所有训练卡上的各稀疏参数的梯度之和。这样，通过all reduce sum操作后，由于第一训练节点上的对应相同稀疏参数的梯度相加，所以，第一训练卡向其它训练节点的主训练卡传输的数据量减少。

步骤506，第一训练卡按照训练节点对聚合后的梯度数据进行切分。

在本实施例中，第一训练卡确定系统架构中参与训练的训练节点，使用聚合后的梯度数据对应的稀疏参数的特征，确定各稀疏参数所分发至的训练节点。由于梯度与稀疏参数一一对应，所以确定出稀疏参数所分发至的训练节点，也就确定出稀疏参数对应的梯度所分发至的训练节点。

在一种示例中，第一训练卡计算各稀疏参数的特征的哈希值。第一训练卡使用各稀疏参数的特征的哈希值，确定出各稀疏参数所分发至的训练节点。例如，每个训练节点对应有索引，确定每个训练节点的索引的哈希值，对于任一稀疏参数，确定该稀疏参数的特征的哈希值，在训练节点中选取哈希值与该稀疏参数的特征的哈希值最接近的训练节点，将选取的训练节点确定为该稀疏参数所分发至的训练节点。由于每个训练节点仅有一个主训练卡，所以确定出训练节点，即确定出主训练卡。

在图5所示的流程中，按照上述方式确定出，分发至第二训练节点的主训练卡(即第二训练卡)的梯度组成的梯度集为第一梯度集，第一梯度集包括第一参数集的多个稀疏参数对应的多个梯度中分发至第二训练卡的梯度和N个第二参数集的多个稀疏参数对应的多个梯度中分发至第二训练卡的梯度。

步骤507，第一训练节点将第一梯度集和第一梯度集中的梯度对应的稀疏参数发送至第二训练卡。

在本实施例中，在第一训练卡与第二训练卡之间不存在卡间传输网络时，第一训练节点使用第一训练节点与第二训练节点之间的网络，将第一梯度集和第一梯度集中的梯度对应的稀疏参数传输至第二训练节点，第二训练节点再将接收到的稀疏参数以及对应的梯度，下发至主训练卡。

在第一训练卡与第二训练卡之间存在卡间传输网络时，通过卡间传输网络，直接将第一梯度集和第一梯度集中的梯度对应的稀疏参数分发至第二训练卡。

在一种示例中，第一训练卡还可以向第二训练卡发送稀疏参数的特征。这样，后续可以使用稀疏参数的特征，将更新后的稀疏参数更新至参数节点。

在第一训练卡不向第二训练卡发送稀疏参数的特征时，第二训练卡可以使用稀疏参数，查表找到稀疏参数的特征。

步骤508，第二训练卡使用第一梯度集中的梯度对第一梯度集中的梯度对应的稀疏参数进行更新。

在本实施例中，第二训练卡将该任一稀疏参数对应的所有梯度相加后，计算平均值，将计算获得的平均值确定为该任一稀疏参数对应的梯度聚合结果。第二训练卡使用该任一稀疏参数对应的梯度聚合结果，使用梯度下降法朝着梯度的反方向迭代调整稀疏参数，获得该任一稀疏参数对应的更新后的稀疏参数。

步骤509，第二训练卡将更新后的稀疏参数发送至对应的参数节点。

在本实施例中，第二训练卡使用稀疏参数的特征，确定出索引值。第二训练卡使用索引值对应到参数节点，将更新后的稀疏参数发送至对应的参数节点。

步骤510，参数节点存储接收到的稀疏参数。

在图5所示的流程中，同第一训练节点一样，第二训练节点的第二训练卡也会向第一训练卡发送第二训练节点中分发至第一训练卡的稀疏参数和梯度，第二训练卡获取第二训练节点上所有训练卡(第二训练卡和第四训练卡)的稀疏参数和对应的梯度。第一训练节点接收第二训练卡发送给第一训练卡的稀疏参数以及对应的梯度。第一训练卡对第一训练卡上当前的稀疏参数对应的梯度进行聚合，获得当前的稀疏参数对应的梯度聚合结果，基于梯度聚合结果，对当前的稀疏参数进行更新，当前的稀疏参数包括第一训练卡分发至第一训练卡的稀疏参数和接收自第二训练卡的稀疏参数。

在本实施例中，在第一训练卡与第二训练卡之间不存在卡间传输网络时，第一训练节点使用第一训练节点与第二训练节点之间的网络，接收第二训练节点的第二训练卡发送给第一训练卡的稀疏参数以及对应的梯度。然后第一训练节点将接收到的稀疏参数以及对应的梯度，下发至第一训练卡。

在第一训练卡与第二训练卡之间存在卡间传输网络时，通过卡间传输网络，第一训练卡接收第二训练卡发送给自身的稀疏参数以及对应的梯度。

第一训练卡获取到第二训练卡发送给自身的稀疏参数以及对应的梯度后，第一训练卡上当前的稀疏参数包括自身分发给自身的稀疏参数和接收自第二训练卡的稀疏参数。

对于当前的稀疏参数中的任一稀疏参数，第一训练卡对该任一稀疏参数对应的梯度进行聚合，获得该任一稀疏参数对应的梯度聚合结果，使用该任一稀疏参数对应的梯度聚合结果，对该任一稀疏参数进行更新，获得该任一稀疏参数对应的更新后的稀疏参数。

第一训练卡使用稀疏参数的特征，确定出索引值。第一训练卡使用索引值对应到参数节点，将更新后的稀疏参数更新至对应的参数节点。

在一种示例中，第二训练卡还向第一训练卡发送稀疏参数的特征。第一训练卡还可以接收第二训练卡发送的稀疏参数的特征。这样，后续可以使用稀疏参数的特征，将更新后的稀疏参数更新至参数节点。

在第二训练卡不向第一训练卡发送稀疏参数的特征时，第一训练卡可以使用稀疏参数，查表找到稀疏参数的特征。

在图5所示的流程中，需要说明的是，在参数节点与训练节点部署在同一物理节点的情况下，为了减少物理节点间的数据传输量，稀疏参数分发至所存储的物理节点的主训练卡上，上述训练节点的索引即为所属物理节点的索引。这样，在主训练卡更新稀疏参数后，直接通过内部高速串行计算机扩展总线标准(peripheral component interconnect express，PCIe)总线，将更新后的稀疏参数存储至对应的参数节点，无需再通过物理节点之间的网络进行传输。

在参数节点与训练节点未部署在同一物理节点的情况下，根据训练节点的索引和稀疏参数的特征，确定稀疏参数所分发至的训练节点。在主训练卡更新稀疏参数后，训练节点通过与参数节点之间的网络，将更新后的稀疏参数存储至对应的参数节点。

在图5所示的流程中，梯度切分是按照训练节点进行切分的，在另一种示例中，步骤506中，也可以按照参数节点进行切分，确保存储在同一参数节点的稀疏参数存储切分至相同的训练节点。例如，可以预先存储参数节点与训练节点的映射关系，主训练卡使用稀疏参数的特征确定出索引值，不同索引值对应不同的参数节点，且一个索引值仅对应一个参数节点，使用一个索引值可以对应到一个参数节点，然后在该映射关系中，即可确定出该参数节点对应的训练节点。这样，对于在图5所示的流程中，可以认为是将具有第一索引值的稀疏参数对应的梯度归入第一梯度集，第一索引值对应某个参数节点。

采用这种方案，主训练卡在更新稀疏参数后，可以使用一个稀疏参数的特征，确定对应的参数节点，而无需使用每个稀疏参数的特征，确定对应的参数节点。

为了更好地理解图5所示的流程，下面以一个参数节点与一个训练节点部署在同一物理节点为例进行说明。

参见图6，系统架构100包括两个物理节点，两个物理节点分别为物理节点1和物理节点2，每个物理节点上插有两个训练卡，物理节点1上的两个训练卡为训练卡1和训练卡2，训练卡1是主训练卡，物理节点2上的两个训练卡为训练卡3和训卡练4，训练卡3是主训练卡，训练卡可以是NPU。

步骤601，物理节点1中训练节点获取本轮训练的待训练的数据，称为一个batch数据。物理节点1的CPU计算batch数据所需的稀疏参数的特征，基于该稀疏参数的特征从对应的参数节点获取该稀疏参数。

其中，稀疏参数使用W1表示，属于全量稀疏参数的一部分，假设W1包括三个子集A、B和C。

步骤602，物理节点1通过scatter操作和all reduce操作将batch数据、W1以及W1的特征传输给两个训练卡。

步骤603，物理节点1中的两个训练卡使用对应的mini-batch数据，对该mini-batch数据对应的稀疏参数进行训练，获得该稀疏参数对应的梯度，训练卡1的mini-batch数据对应的稀疏参数表示为子集A1、B1和C1，获得的梯度表示为A11、B11和C11，训练卡2的mini-batch数据对应的稀疏参数表示为子集A2、B2和C2，获得的梯度表示为A22、B22和C22。

步骤604，物理节点1中的主训练卡(训练卡1)获取物理节点1中训练卡2上的稀疏参数以及对应的梯度，当前物理节点1中的稀疏参数以及对应的梯度表示为子集A33、B33和C33，每个子集包括多个稀疏参数以及对应的梯度。

步骤605，物理节点1中的主训练卡按照稀疏参数的特征和训练节点的索引，确定分片A44和B44，分别对应的主训练卡为物理节点1的主训练卡和物理节点2的主训练卡。

步骤606，物理节点1的主训练卡向物理节点2的主训练卡发送分片B44和分片B44中稀疏参数的特征。

步骤607，物理节点1的主训练卡接收物理节点2的主训练卡发送的分片C44和分片C44中稀疏参数的特征。

步骤608，物理节点1的主训练卡对A44和C44中的梯度，进行聚合，获得梯度聚合结果A55，基于该梯度聚合结果A55，对A44和C44中的稀疏参数进行更新。

步骤609，物理节点1的主训练卡将更新后的稀疏参数，更新至对应的参数节点。

在图6中，物理节点2与物理节点1的处理类似，物理节点2获取到的稀疏参数使用W2表示，包括三个子集D、E和F，训练卡3的mini-batch数据对应的稀疏参数表示为子集D1、E1和F1，获得的梯度表示为子集D11、E11和F11，训练卡4的mini-batch数据对应的稀疏参数表示为子集D2、E2和F2，获得的梯度表示为子集D22、F22和E22。物理节点2中训练卡3和训练卡4上的稀疏参数、以及对应的梯度合并后表示为子集D33、F33和E33，每个子集包括多个稀疏参数以及对应的梯度。训练卡3根据子集D33、F33和E33中稀疏参数的特征，将子集D33、F33和E33分为分片C44和D44，训练卡3将C44以及C44中稀疏参数的特征发送给物理节点1的训练卡1。物理节点2的训练卡3对B44和D44中的梯度，进行聚合，获得梯度聚合结果B55，基于该梯度聚合结果B55，对稀疏参数进行更新。

采用图5所示的方案，使用训练卡进行梯度聚合和参数更新，相较于传统参数节点进行参数更新的方式，减少了CPU和物理节点内存占用，使得梯度聚合和参数更新的效率更高。而且在存在卡间传输网络时，数据传输可以减少对主机网络的依赖，进一步缓解主机网络瓶颈。

第二种情况，第一训练节点和第二训练节点上参与训练的每个训练卡上部署有全部的训练模型。稀疏参数的更新流程参见图7中步骤701至步骤709。图7中以系统包括的第一训练节点与第二训练节点之间的交互为例进行说明。

步骤701，第一训练节点获取各训练卡上本轮训练的待训练的数据。

在本实施例中，待训练的数据可以分布式的存储在参数节点上，也可以存储在其它服务器上，待训练的数据也可以称为是训练数据。第一训练节点获取各训练卡上本轮训练的待训练的数据，每个训练卡上本轮训练的待训练的数据称为是一个mini-batch数据，每轮训练的待训练的数据的数目可以预先设置。

步骤702，第一训练节点计算各训练卡本轮的待训练的数据所需的稀疏参数的特征，基于该稀疏参数的特征从对应的参数节点获取该稀疏参数。

在本实施例中，第一训练节点的处理器(如CPU等)计算该所需的稀疏参数的特征。基于该稀疏参数的特征，查询到对应的参数节点，从参数节点中获取到稀疏参数。

在一种示例中，由于各训练卡的待训练的数据有可能对应相同的稀疏参数，所以可以先对稀疏参数进行去重后，从参数节点获取，这样，可以节约传输资源。

步骤703，第一训练节点将各训练卡的待训练的数据、稀疏参数以及稀疏参数的特征传输给该各训练卡。

在本实施例中，第一训练节点的处理器将各训练卡的待训练的数据、稀疏参数以及稀疏参数的特征传输给该各训练卡。

步骤704，第一训练节点中的各训练卡分别使用对应的待训练的数据，对该待训练的数据对应的稀疏参数进行训练，获得该待训练的数据对应的稀疏参数的梯度。

步骤705，第一训练节点中各训练卡按照系统中各训练卡，确定自身的稀疏参数所分发至的训练节点的训练卡。

在本实施例中，第一训练节点中各训练卡确定各训练节点的训练卡，使用自身的稀疏参数的特征的哈希值，确定自身的稀疏参数所分发至的训练节点的训练卡。

在一种示例中，对于第一训练节点中的任一训练卡，该训练卡确定自身的稀疏参数的特征的哈希值。每个训练节点的训练卡对应有索引，确定每个训练卡的索引的哈希值。对于任一稀疏参数，在训练卡中选取哈希值与该稀疏参数的特征的哈希值最接近的训练节点，将选取的训练卡确定为该稀疏参数所分发至的训练卡。

在图7所示的流程中，按照上述方式确定出，分发至第二训练节点的第二训练卡的梯度组成的梯度集为第一梯度集，第一梯度集包括第一参数集的多个稀疏参数对应的多个梯度中分发至第二训练卡的梯度和第一训练卡在完成训练后的梯度数据中对应N个第二参数集的稀疏参数，且分发至第二训练卡的梯度。

步骤706，第一训练节点中各训练卡将自身的稀疏参数以及对应的梯度分发至对应的训练节点的训练卡。

在本实施例中，在图7中以发送给第二训练卡为例进行说明，在第一训练节点的各训练卡与第二训练卡之间不存在卡间传输网络时，第一训练节点使用第一训练节点与第二训练节点之间的网络，将稀疏参数以及对应的梯度分发至第二训练节点，第二训练节点再将接收到的稀疏参数以及对应的梯度，下发至第二训练卡。此种情况下，发送稀疏参数以及对应的梯度时，还会发送训练卡的标识，指示稀疏参数以及对应的梯度所发往的训练卡。

在第一训练节点的各训练卡与第二训练卡之间存在卡间传输网络时，通过卡间传输网络，将稀疏参数以及对应的梯度分发至第二训练卡。

在步骤706中存在同一个训练节点中，训练卡之间传输梯度和稀疏参数，此时可以使用总线进行传输。

在一种示例中，各训练卡还可以向第二训练卡发送稀疏参数的特征。这样，后续可以使用稀疏参数的特征，将更新后的稀疏参数更新至参数节点。

在各训练卡不向第二训练卡发送稀疏参数的特征时，第二训练卡可以使用稀疏参数，查表找到稀疏参数的特征。

步骤707，第二训练卡使用第一梯度集中的梯度对第一梯度集中的梯度对应的稀疏参数进行更新。

步骤708，第二训练卡将更新后的稀疏参数发送至对应的参数节点。

步骤707和步骤708中的详细描述参见图5所示的流程，此处不再描述。

步骤709，参数节点存储接收到的稀疏参数。

在图7所示的流程中，第一训练节点的各训练卡接收其它训练卡发送给自身的稀疏参数以及对应的梯度。其中，对于第一训练卡来说，其它训练卡包括第一训练节点中除第一训练卡之外的训练卡以及其它训练节点的训练卡。该其它训练卡包括第二训练卡。第一训练节点中各训练卡对自身当前的稀疏参数对应的梯度进行聚合，获得当前的稀疏参数对应的梯度聚合结果，基于该梯度聚合结果，对该当前的稀疏参数进行更新，该当前的稀疏参数包括自身原来的部分稀疏参数和接收到的稀疏参数。第一训练节点中各训练卡将更新后的稀疏参数，存储至对应的参数节点。

在图7所示的流程中，梯度切分是按照训练卡进行切分的，在另一种示例中，步骤705中，也可以按照参数节点进行切分，确保存储在同一参数节点的稀疏参数存储切分至相同的训练卡。例如，可以预先存储参数节点与训练卡的映射关系，在该映射关系中，参数节点可以对应一个或多个训练卡，任一训练卡使用稀疏参数的特征确定出一个索引值，该索引值可以对应到一个参数节点，在该映射关系中，即可确定出该参数节点对应的训练卡。这样，训练卡在更新稀疏参数后，可以使用一个稀疏参数的特征，确定对应的参数节点，而无需使用每个稀疏参数的特征，确定对应的参数节点。

为了更好地理解图7所示的流程，下面以一个参数节点与一个训练节点部署在同一物理节点为例进行说明。

参见图8，系统架构100包括两个物理节点，两个物理节点分别为物理节点1和物理节点2，物理节点1上插有两个训练卡，两个训练卡为训练卡1和训练卡2，物理节点2上插有一个训练卡，该一个训练卡为训练卡3，训练卡可以是NPU。

步骤801，物理节点1中训练节点获取各训练卡本轮训练的待训练的数据，每个训练卡的待训练的数据成为一个min-batch数据。物理节点1的CPU计算各训练卡的待训练的数据所需的稀疏参数的特征，基于该稀疏参数的特征从对应的参数节点获取该稀疏参数。

其中，训练卡1使用的稀疏参数使用W11表示，属于全量稀疏参数，假设W11包括三个子集G、H和I。训练卡2使用的稀疏参数使用W12表示，属于全量稀疏参数，假设W12包括三个子集M、N和O。

步骤802，物理节点1将各待训练的数据分别对应min-batch数据、稀疏参数以及稀疏参数的特征传输给两个训练卡。

步骤803，物理节点1中的各训练卡使用对应的mini-batch数据，对该mini-batch数据对应的稀疏参数进行训练，获得该稀疏参数对应的梯度。训练卡1上的稀疏参数以及获得的梯度表示为子集G1、H1和I1，训练卡2上的稀疏参数以及获得的梯度表示为子集M1、N1和O1，每个子集包括稀疏参数以及对应的梯度。

步骤804，物理节点1中训练卡1按照子集G1、H1和I1中稀疏参数的特征，确定子集G1、H1和I1，分别对应的训练卡为物理节点1中训练卡1、训练卡2和物理节点2中训练卡3。物理节点1中训练卡2按照子集M1、N1和O1中稀疏参数的特征，确定子集M1、N1和O1，分别对应的训练卡为物理节点1中训练卡2、训练卡1和物理节点2中训练卡3。

步骤805，物理节点1中训练卡1向物理节点2中训练卡3发送子集I1。物理节点1中训练卡1向物理节点1中训练卡2发送子集H1。物理节点1中训练卡2向物理节点2中训练卡3发送子集O1。物理节点1中训练卡2向物理节点1中训练卡1发送子集N1。

步骤806，物理节点1中训练卡1接收训练卡2发送的子集N1，接收物理节点2中训练卡3发送的子集J1。物理节点1中训练卡2接收训练卡1发送的子集H1，接收物理节点2中训练卡3发送子集K1。

步骤807，物理节点1中训练卡1对子集N1、G1和J1中的梯度，进行聚合，获得梯度聚合结果A66，基于该梯度聚合结果A66，对子集N1、G1和J1中的稀疏参数进行更新。物理节点1中训练卡2对子集M1、H1和K1中的梯度，进行聚合，获得梯度聚合结果A77，基于该梯度聚合结果A77，对子集M1、H1和K1中的稀疏参数进行更新。

步骤808，物理节点1中训练卡1和训练卡2将更新后的稀疏参数，更新至对应的参数节点。

前文中的第一训练卡为物理节点中的任一训练卡。

在图8中，物理节点2与物理节点1的处理类似，物理节点2获取到的稀疏参数使用W13表示，包括三个子集J、K和L，物理节点2中训练卡3计算的梯度后，获得子集J1、K1和L1，子集J1、K1和L1分别包括稀疏参数以及对应的梯度。物理节点2中训练卡3对子集L1、I1和O1中的梯度，进行聚合，获得梯度聚合结果B66，基于该梯度聚合结果B66，对子集L1、I1和O1中的稀疏参数进行更新。

采用图8所示的方案，使用训练卡进行梯度聚合和参数更新，相较于传统参数节点进行参数更新的方式，减少了CPU和物理节点内存占用，使得梯度聚合和参数更新的效率更高。而且在存在卡间传输网络时，数据传输可以减少对主机网络的依赖，进一步缓解主机网络瓶颈。

而且训练节点内部多个训练卡无需做节点内稀疏参数的同步，可以充分利用多个训练卡并行的优势。而且训练卡在计算出梯度后可以直接进行传输，无需更复杂的操作。

本申请实施例中，假设单训练卡上稀疏参数的网络数据传输量为W_k，获取稀疏参数的过程中，稀疏参数的总网络数据传输量的上限为N_worker*N_device_per_worker*W_k。在参数节点和训练节点部署在同一物理节点的场景下，获取稀疏参数的过程中，稀疏参数的网络数据传输量为(N_worker-1)*N_device_per_worker*W_k/N_worker。其中，N_worker为训练节点的数目，N_device_per_worker为每个训练节点中训练卡的数目。

在传输稀疏参数以及对应的梯度过程中，单个训练节点的网络数据传输量为(N_worker-1)*(W_k+G_k)/N_worker，其中，N_worker为训练节点的数目，G_k为单个训练节点上的稀疏参数对应的梯度，训练节点内部的数据传输不计在网络数据传输量中，在不考虑梯度压缩的情况下，W_k与G_k相等，单个训练节点的网络数据传输量也可以表示为2*(N_worker-1)*G_k/N_worker此处乘以2是由于稀疏参数也需要传输。

在完成一次batch数据的训练过程中，在参数节点和训练节点部署在同一物理节点的场景下，网络传输数据量减少至(N_worker-1)*N_device_per_worker*W_k/N_worker+(N_worker-1)*(W_k+G_k)。

另外，在参数节点和训练节点不是部署在同一物理节点的场景下，在稀疏参数更新到参数节点的过程中，网络数据传输量为(N_worker-1)*G_k/N_worker。

在一种示例中，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图4所示的流程中第一训练节点执行的部分方法。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例中描述的各方法步骤和单元，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统架构、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或模块的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

该作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件模块的形式实现。

该集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例中方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请中术语“第一”和“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”和“第二”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一和第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种示例的范围的情况下，第一稀疏参数可以被称为第二稀疏参数，并且类似地，第二稀疏参数可以被称为第一稀疏参数。第一稀疏参数和第二稀疏参数都可以是稀疏参数，并且在某些情况下，可以是单独且不同的稀疏参数。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上。

以上描述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种稀疏参数的更新方法，其特征在于，应用于人工智能模型训练系统，所述系统包括第一参数节点、第一训练节点和第二训练节点，所述第一训练节点包括第一训练卡，所述第二训练节点包括第二训练卡，所述方法包括：

所述第一训练节点从所述第一参数节点获取第一参数集，所述第一参数集包括多个参数；

所述第一训练节点利用所述多个参数对待训练的数据进行训练，得到第一梯度集，所述第一梯度集包括所述第一参数集的多个参数对应的多个梯度中分发至所述第二训练卡的梯度；

所述第一训练节点将所述第一梯度集和所述第一梯度集中的梯度对应的参数发送至所述第二训练卡；

所述第二训练卡根据所述第一梯度集中的梯度对所述第一梯度集中的梯度对应的参数进行更新；

所述第二训练卡将更新后的参数发送至所述第一参数节点。
如权利要求1所述的方法，其特征在于，所述方法还包括：

所述第一训练节点从N个第二参数节点分别获取一个第二参数集，每个第二参数集包括多个参数；

所述第一训练节点利用所述多个参数对待训练的数据进行训练，得到第一梯度集，包括：

所述第一训练节点中的多个训练卡利用所述第一参数集和获取的N个第二参数集的参数对所述待训练的数据进行训练，所述多个训练卡包括所述第一训练卡；

所述第一训练卡对所述多个训练卡在完成训练后得到的梯度数据进行聚合；

所述第一训练卡对聚合后的梯度数据按照参数节点进行切分，得到所述第一参数节点对应的所述第一梯度集，或者，所述第一训练卡对聚合后的梯度数据按照训练节点进行切分，得到所述第二训练节点对应的所述第一梯度集，所述第二训练节点对应的所述第一梯度集还包括所述N个第二参数集的多个参数对应的多个梯度中分发至所述第二训练卡的梯度。
如权利要求1所述的方法，其特征在于，所述方法还包括：

所述第一训练节点从N个第二参数节点分别获取一个第二参数集，每个第二参数集包括多个参数；

所述第一训练节点利用所述多个参数对待训练的数据进行训练后，得到第一梯度集，包括：

所述第一训练节点中的多个训练卡利用所述第一参数集和获取的N个第二参数集的参数对所述待训练的数据进行训练，所述多个训练卡包括所述第一训练卡；

所述第一训练卡对所述第一训练卡在完成训练后的梯度数据按照所述系统中各训练卡进行切分，得到所述第二训练卡对应的所述第一梯度集，所述第一梯度集还包括所述第一训练卡在完成训练后的梯度数据中对应所述N个第二参数集的参数，且分发至所述第二训练卡的梯度。
如权利要求1至3任意一项所述的方法，其特征在于，所述第二训练卡根据所述第一梯度集中的梯度对所述第一梯度集中的梯度对应的参数进行更新，包括：

所述第二训练卡对从所述系统中的多个训练节点接收到的多个梯度集中的梯度进行聚合，所述多个梯度集包括所述第一梯度集；

利用聚合后的梯度更新所述第一梯度集中的梯度对应的参数。
如权利要求2所述的方法，其特征在于，所述第一训练卡对聚合后的梯度数据按照参数节点进行切分，得到所述第一参数节点对应的所述第一梯度集，包括：

根据聚合后的每个梯度数据对应的参数的特征确定索引值，一个索引值用于指示一个参数节点；

将具有第一索引值的参数对应的梯度归入所述第一梯度集，所述第一索引值用于指示所述第一参数节点。
一种第一训练节点，其特征在于，所述第一训练节点属于人工智能模型训练系统，所述系统还包括第一参数节点和第二训练节点，所述第一训练节点包括第一训练卡，所述第二训练节点包括第二训练卡；

所述第一训练节点用于：

从所述第一参数节点获取第一参数集，所述第一参数集包括多个参数；

利用所述多个参数对待训练的数据进行训练，得到第一梯度集，所述第一梯度集包括所述第一参数集的多个参数对应的多个梯度中分发至所述第二训练卡的梯度；

将所述第一梯度集和所述第一梯度集中的梯度对应的参数发送至所述第二训练卡，以使所述第二训练卡对所述第一梯度集中的梯度对应的参数进行更新。
如权利要求6所述的第一训练节点，其特征在于，所述第一训练节点还用于：

从N个第二参数节点分别获取一个第二参数集，每个第二参数集包括多个参数；

所述第一训练节点中的多个训练卡，用于：

利用所述第一参数集和获取的N个第二参数集的参数对所述待训练的数据进行训练，所述多个训练卡包括所述第一训练卡；

所述第一训练卡，用于：

对所述多个训练卡在完成训练后得到的梯度数据进行聚合；

对聚合后的梯度数据按照参数节点进行切分，得到所述第一参数节点对应的所述第一梯度集，或者，对聚合后的梯度数据按照训练节点进行切分，得到所述第二训练节点对应的所述第一梯度集，所述第一梯度集还包括所述N个第二参数集的多个参数对应的多个梯度中分发至所述第二训练卡的梯度。
如权利要求6所述的第一训练节点，其特征在于，所述第一训练节点还用于：

从N个第二参数节点分别获取一个第二参数集，每个第二参数集包括多个参数；

所述第一训练节点中的多个训练卡，用于：

利用所述第一参数集和获取的N个第二参数集的参数对所述待训练的数据进行训练，所述多个训练卡包括所述第一训练卡；

所述第一训练卡，用于：

对所述第一训练卡在完成训练后的梯度数据按照所述系统中各训练卡进行切分，得到所述第二训练卡对应的所述第一梯度集，所述第一梯度集还包括所述第一训练卡在完成训练后的梯度数据中对应所述N个第二参数集的参数，且分发至所述第二训练卡的梯度。
一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器存储有计算机指令；

所述处理器用于执行所述计算机指令，使得所述计算机设备执行如权利要求1至5中任一项中训练节点所执行的方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条计算机指令；所述计算机指令由处理器读取以使计算机设备执行如权利要求1至5中任一项中训练节点所执行的方法。