WO2022105295A1

WO2022105295A1 - 基于nGraph的GPU后端分布式训练方法和系统

Info

Publication number: WO2022105295A1
Application number: PCT/CN2021/109206
Authority: WO
Inventors: 王丽; 曹芳; 邱志勇; 郭振华
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2020-11-19
Filing date: 2021-07-29
Publication date: 2022-05-27
Also published as: CN112465112B; US12001960B2; US20230316089A1; CN112465112A

Abstract

一种基于nGraph的GPU后端分布式训练方法、GPU后端分布式训练系统、计算机可读存储介质和电子设备，包括：接收训练请求，并获取对应的训练数据；通过nGraph框架链接的NCCL库文件的系统路径获取NCCL库文件；按照所述训练请求调用NCCL通信接口配置得到训练模型；所述NCCL通信接口为位于所述nGraph框架GPU后端、基于所述NCCL库文件的通信操作接口；利用所述训练模型对所述训练数据进行GPU后端训练。本申请能够满足用户对于基于nGraph GPU后端进行神经网络分布式训练的迫切需求，进一步提升了深度学习网络训练的性能。

Description

基于nGraph的GPU后端分布式训练方法和系统

本申请要求于2020年11月19日提交中国专利局、申请号为202011302180.0、发明名称为“基于nGraph的GPU后端分布式训练方法和系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及机器学习领域，特别涉及一种基于nGraph的GPU后端分布式训练方法、系统及相关装置。

背景技术

近年来，随着人工智能的兴起，深度神经网络(Deep Neural Networks，缩写为DNN)在图像视频分类、语音识别和语言翻译等领域得到广泛应用。随着训练数据集的增大和网络规模的日趋复杂，深度学习的巨量计算需求催生硬件架构不断创新。各深度学习框架(TensorFlow、pytorch等)致力于在各自的应用场景中对框架进行深入修改以在每一个硬件后端(CPU、GPU、FPGA和ASIC)提升训练性能。用户在对不同深度学习应用的开发过程中，不仅需要适配各种框架，还需要支持各种AI加速设备硬件，需要付出大量的精力和时间进行迁移和优化，极大的限制了人工智能应用发展效率。针对以上问题，nGraph框架作为一种面向各种设备和框架的深度神经网络模型编译器，可大大简化跨框架和硬件平台实现深度学习性能优化这类工作的复杂性，扩展了深度学习模型的适用性和可移植性。目前，nGraph已经支持或正在开发支持的前端深度学习框架有Tensorflow，MXNet，PaddlePaddle等，已经支持或正在开发支持的后端硬件加速设备有CPU，NNP(Neural Network Processor，神经网络处理器)，及各类GPU。

GPU是当前大规模神经网络模型训练的最主要加速设备，为了提高神经网络模型训练的性能，深度学习各应用场景主要使用英伟达GPU加速设备实现大规模神经网络模型的跨设备分布式并行训练。在nGraph的早期版本中提供了对CPU后端实现基于OpenMPI(open Message Passing Interface，一种信息传递接口)的多机分布式并行训练支持，然而在其后期版本更新中，为了集中优化单机单卡的训练性能，去除了对分布式训练的支持，目前版本的nGraph框架仅支持CPU、GPU等后端的单机单卡训练，大大限制了其应用范围。

发明内容

本申请的目的是提供一种基于nGraph的GPU后端分布式训练方法、系统、计算机可读存储介质和电子设备，能够提高深度学习网络训练的性能。

为解决上述技术问题，本申请提供一种基于nGraph的GPU后端分布式训练方法，具体技术方案如下：

接收训练请求，并获取对应的训练数据；

通过nGraph框架链接的NCCL库文件的系统路径获取NCCL库文件；

按照所述训练请求调用NCCL通信接口配置得到训练模型；所述NCCL通信接口为位于所述nGraph框架GPU后端、基于所述NCCL库文件的通信操作接口；

利用所述训练模型对所述训练数据进行GPU后端训练。

可选的，接收训练请求，并获取对应的训练数据之前，还包括：

在所述nGraph框架源码中添加所述NCCL库文件的系统路径；

修改nGraph框架的编译文件，在所述nGraph框架的分布式功能启用NCCL功能，并在所述NCCL功能启用时执行通过nGraph框架链接的NCCL库文件的系统路径获取NCCL库文件的步骤。

可选的，按照所述训练请求调用NCCL通信接口配置得到训练模型时，还包括：

根据所述训练请求确定所述训练模型的分布式训练类型；所述分布式训练类型包括多机分布式和单机分布式。

可选的，利用所述训练模型对训练数据进行GPU后端训练。之前，还包括：

执行环境训练初始化；

若所述训练模型的分布式训练类型为多机分布式，所述执行环境训练初始化包括：

执行MPI初始化和NCCL库初始化；

若所述训练模型的分布式训练类型为单机分布式，所述执行环境训练初始化包括：

执行NCCL库初始化。

可选的，利用所述训练模型对训练数据进行GPU后端训练。后，还包括：

释放占用的内存资源和进程资源，并结束所述NCCL通信接口的调用步骤。

可选的，按照所述训练请求调用NCCL通信接口配置得到训练模型之前，还包括：

获取通信操作函数；

对所述通信操作函数进行参数解析；

对解析得到的参数建立与NCCL库相应操作的函数调用关系，得到所述NCCL通信接口。

可选的，其特征在于，所述NCCL通信接口包括基于NCCL的聚合操作、基于NCCL的广播操作、基于NCCL的发送操作和基于NCCL的接收操作。

本申请还提供一种基于nGraph的GPU后端分布式训练系统，包括：

请求接收模块，用于接收训练请求，并获取对应的训练数据；

文件获取模块，用于通过nGraph框架链接的NCCL库文件的系统路径获取NCCL库文件；

模型生成模块，用于按照所述训练请求调用NCCL通信接口配置得到训练模型；所述NCCL通信接口为位于所述nGraph框架GPU后端、基于所述NCCL库文件的通信操作接口；

训练模块，用于利用所述训练模型对所述训练数据进行GPU后端训练。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请还提供一种电子设备，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

本申请提供一种基于nGraph的GPU后端分布式训练方法，包括：接收训练请求，并获取对应的训练数据；通过nGraph框架链接的NCCL库文件的系统路径获取NCCL库文件；按照所述训练请求调用NCCL通信接口配置得到训练模型；所述NCCL通信接口为位于所述nGraph框架GPU后端、基于所述NCCL库文件的通信操作接口；利用所述训练模型对所述训练数据进行GPU后端训练。

本申请将服务器系统中的NCCL库集成到nGraph框架中，使其不仅能够支持使用NCCL库中通信接口函数对nGraph GPU后端的通信操作进行优化，且支持用户在编译过程中自主选择分布式训练方式为NCCL。其次，实现了GPU后端对Allreduce等NCCL通信接口的支持。基于此设计实现nGraph框架GPU后端分布式训练后，能够使nGraph支持GPU后端的深度学习网络分布式训练，扩展了nGraph框架的应用范围，使得nGraph框架不仅能够支持多种深度学习框架，而且能够满足用户对于基于nGraph GPU后端进行神经网络分布式训练的迫切需求，进一步提升了深度学习网络训练的性能。

本申请还提供一种GPU后端分布式训练系统、计算机可读存储介质和电子设备，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种基于nGraph的GPU后端分布式训练方法的流程图；

图2为本申请实施例所提供的一种基于nGraph的GPU后端分布式训练系统结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

深度学习中常常需要多GPU并行训练，而Nvidia(英伟达)的NCCL库(Nvidia Collective multi-GPU Communication Library，英伟达集体通信库)在各大深度学习框架(Caffe/Tensorflow/Torch/Theano)的多卡并行中经常被使用。英伟达对NCCL库中的通信策略做了很多优化，以在PCIe、Nvlink(一种总线及其通信协议)、InfiniBand(直译为“无限带宽”技术，缩写为IB，一种计算机通信标准)上实现较高的通信速度。为了实现nGraph框架GPU后端分布式训练的目标，并充分利用NVIDIA GPU通信库NCCL的优势，本发明提出了一种GPU后端分布式训练方法，为了更清楚的描述该方法，下文先针对执行该方案前的配置步骤加以说明：

为了能在nGraph框架中应用NCCL库，需要将将服务器系统中安装的NCCL库集成到nGraph框架中，以供后续步骤中直接使用NCCL库中的通信操作。将NCCL库集成到nGraph框架中，主要分为两个过程：

①在nGraph框架源码中添加NCCL库文件的系统路径：具体的，可以在nGraph源码的cmake moudle中添加FindNCCL.cmake文件，使得nGraph框架能够自动识别系统中已经安装的NCCL库，并链接到NCCL库文件所在的系统路径。

②修改nGraph框架的编译文件，启用nGraph框架的分布式功能中的NCCL功能：

为nGraph分布式功能添加NCCL选项，使得在用户开启分布式NCCL功能时，将上述NCCL库文件路径传达给nGraph编译文件。完成NCCL 库集成后，重新cmake然后编译安装nGraph，即将NCCL库集成到nGraph源码框架中，便于nGraph中其他文件对NCCL库的使用。在修改nGraph框架的编译文件后，NCCL功能即已处于启用状态。

除了需要将NCCL库集成至nGraph框架中外，为了便于通信操作，需要配置NCCL库对应的通信操作接口。由于nGraph框架的GPU后端提供了不支持的操作列表，其中包括通信操作相关的allreduce(聚合)、send(发送)、recv(接收)等操作，因此其不能支持GPU后端的分布式网络训练。为了实现GPU后端的深度学习任务分布式训练，需要对nGraph框架的GPU后端添加通信接口支持，使得GPU后端不仅能够支持Allreduce等通信操作，还能调用到NCCL库分布式操作的实现中，因此添加的通信相关操作支持主要包括：Allreduce、Broadcast(广播)、Send和Recv等，这几个操作在NCCL库中均有优化后的操作实现，分别对应ncclAllreduce、ncclBrodcast、ncclSend、ncclRecv，即基于NCCL的聚合操作、基于NCCL的广播操作、基于NCCL的发送操作和基于NCCL的接收操作。需要注意的是，每种操作对应一个相应的接口，且本领域技术人员还可以在此基础上配置其他通信相关操作的接口，也应在本申请的保护范围内。

在此提供一种配置NCCL库对应的通信操作接口的具体过程：

步骤一、获取通信操作函数；

步骤二、对所述通信操作函数进行参数解析；

步骤三、对解析得到的参数建立与NCCL库相应操作的函数调用关系，得到所述NCCL通信接口。

步骤一中，需要获取通信操作函数，该通信操作函数包括但不限于上文所述的Allreduce、Broadcast(广播)、Send和Recv等，本领域技术人员还可以针对训练过程中所需求的操作配置相应的通信操作接口。在步骤一中，需要确定通信操作对应的操作函数，操作函数中包含通信操作的操作对象和操作方式，以函数形式定义，即得到相应的通信操作函数。此后，对该通信操作函数执行参数解析，从而得到包含操作对象、操作方式等参数，并与NCCL库中相应操作配置函数调用，使得用户在GPU后端训练时，所选择的通信操作函数可以直接作用于NCCL库中的相应操作，以在 NCCL库中实现相应的通信操作。

换句话说，配置NCCL库对应通信操作接口的过程实际也为建立nGraph GPU后端通信操作与NCCL库中相应通信操作的映射。

完成上述配置后，在用户深度学习训练程序中，如指定了使用GPU加速设备，即可实现nGraph框架下GPU后端的深度学习分布式并行训练过程。

请参考图1，图1为本申请实施例所提供的一种基于nGraph的GPU后端分布式训练方法的流程图，该方法包括：

S101：接收训练请求，并获取对应的训练数据；

本步骤旨在接收训练请求，并获取对应的训练数据。在此对于如何接收训练请求、如何获取对应的训练数据并不作具体限定。

S102：通过nGraph框架链接的NCCL库文件的系统路径获取NCCL库文件；

本步骤旨在根据NCCL库文件的系统路径获取NCCL库文件，由于在上文所述的配置过程中已经将NCCL库文件链接至nGraph框架中，此时可以直接根据记载的地址信息获取NCCL库文件。

S103：按照所述训练请求调用NCCL通信接口配置得到训练模型；

本步骤中旨在调用NCCL通信接口对训练数据加以处理。且NCCL通信接口为位于所述nGraph框架GPU后端、基于所述NCCL库文件的通信操作接口，换句话说，步骤S102中获取到的NCCL库文件是实现调用NCCL通信接口的基础，即该NCCL库文件中包含了NCCL通信接口的相应指令或代码。具体的，可以在GPU后端集成一个模块，便于执行分布式训练时直接调用模块中的NCCL通信接口。

需要注意的是，本步骤中的训练模型实际为function计算图，即该训练模型中包含了后续训练过程中的训练过程，而并非实际的数据处理过程。即在本步骤中将对训练数据调用哪些NCCL通信接口以及调用顺序等执行过程中的参数添加至训练模型中，使得训练模型被执行训练时，按照训练模型中记录的执行过程加以训练。

而在相关技术中，由于并未将NCCL库集成至nGraph框架中，其根本无法在生成训练模型的过程中调用NCCL库文件以及NCCL通信接口，自然无法实现基于NCCL库的nGraph GPU后端深度学习分布式并行训练。

作为本步骤的一种优选的执行方式，还可以在执行本步骤的过程中根据训练请求确定训练模型的分布式训练类型，该分布式训练类型包括多机分布式和单机分布式。而无论哪一种分布式训练类型，均包括环境初始化、GPU设备分配、通信操作实现和设备资源释放四个过程。其中，多机分布式的环境初始化包括MPI(Message Passing Interface，信息传递接口)的初始化和NCCL初始化两部分，而单机分布式只包括NCCL初始化。GPU设备分配过程主要实现根据分布式计算的并行数量和编号，将任务分配到不同的GPU上。通信操作实现过程需要完成nGraph GPU后端自定义的通信相关操作到NCCL库中配置好的通信操作的映射，该模块包括数据读取、数据类型处理等操作。

S104：利用所述训练模型对所述训练数据进行GPU后端训练。

在步骤S103得到训练模型后，即可利用训练模型对训练数据进行GPU后端训练。在本申请的实际应用时，可以在上文的基础上在nGraph框架的GPU后端添加NCCL库中的通信接口支持，使得分布式训练过程GPU后端能够直接支持ncclAllreduce等通信操作。

在此对于GPU后端训练的具体执行过程不作具体限定，通常包括创建GPU后端、环境初始化等过程。

作为一种优选的执行方式，对训练模型进行GPU后端训练后，还可以释放占用的内存资源和进程资源，并结束所述NCCL通信接口的调用步骤。在完成相应的通信操作后，释放占用的设备内存、MPI进程等资源，并结束所述NCCL通信接口的调用步骤，有利于降低对系统资源的占用，提高系统性能。

本申请实施例将服务器系统中的NCCL库集成到nGraph框架中，使其不仅能够支持使用NCCL库中通信接口函数对nGraph GPU后端的通信操作进行优化，且支持用户在编译过程中自主选择分布式训练方式为NCCL。其次，实现了GPU后端对Allreduce等NCCL通信接口的支持。基于此设计实现nGraph框架GPU后端分布式训练后，能够使nGraph支持 GPU后端的深度学习网络分布式训练，扩展了nGraph框架的应用范围，使得nGraph框架不仅能够支持多种深度学习框架，而且能够满足用户对于基于nGraph GPU后端进行神经网络分布式训练的迫切需求，进一步提升了深度学习网络训练的性能。

下文以一种具体的GPU后端分布式训练过程对上文所公开的基于nGraph的GPU后端分布式训练方法进行说明：

第一步、构建function计算图；

第二步、创建GPU后端；

第三步、输入数据；

第四步、为输入数据开辟存储空间；

第五步、将输入数据写入模型，按照function计算图执行分布式训练；

第六步、输出训练结果。

在实际训练过程中，需要先构建function计算图。在function计算图中包含了训练过程中的配置数据，包括训练方式，即采用多机分布式或是单机分布式，以及资源分配方式和设备分配方式等等，其中也包含获取NCCL库文件和调用NCCL通信接口等相关过程，即function计算图相当于分布式训练的“说明书”，其中包含了配置数据和训练流程，只需输入数据后执行分布式训练即可。分布式训练程序中会有聚合多节点梯度数据的Allreduce等通信操作，用户在其分布式训练程序中只需要将分布式训练代码的创建后端部分指定为GPU，即可实现GPU后端分布式训练。当然，可以将上一实施例中的训练请求作为配置数据置于function计算图中，即可根据function计算图中的信息调用NCCL通信接口配置得到训练模型对输入数据加以训练。

下面对本申请实施例提供的一种基于nGraph的GPU后端分布式训练系统进行介绍，下文描述的GPU后端分布式训练系统与上文描述的一种基于nGraph的GPU后端分布式训练方法可相互对应参照。

参见图2，本申请还提供一种基于nGraph的GPU后端分布式训练系统，包括：

请求接收模块100，用于接收训练请求，并获取对应的训练数据；

文件获取模块200，用于通过nGraph框架链接的NCCL库文件的系统路径获取NCCL库文件；

模型生成模块300，用于按照所述训练请求调用NCCL通信接口配置得到训练模型；所述NCCL通信接口为位于所述nGraph框架GPU后端、基于所述NCCL库文件的通信操作接口；

训练模块400，用于利用所述训练模型对所述训练数据进行GPU后端训练。

基于上述实施例，作为优选的实施例，还包括：

配置模块，用于在所述nGraph框架源码中添加所述NCCL库文件的系统路径；修改nGraph框架的编译文件，在所述nGraph框架的分布式功能启用NCCL功能，并在所述NCCL功能启用时允许进入所述文件获取模块。

基于上述实施例，作为优选的实施例，还包括：

类型确定模块，用于根据所述训练请求确定所述训练模型的分布式训练类型；所述分布式训练类型包括多机分布式和单机分布式。

基于上述实施例，作为优选的实施例，还包括：

环境初始化模块，用于利用所述训练模型对训练数据进行GPU后端训练。之前，执行环境训练初始化；

若所述训练模型的分布式训练类型为多机分布式，所述环境初始化模块为用于执行MPI初始化和NCCL库初始化的模块；

若所述训练模型的分布式训练类型为单机分布式，所述环境初始化模块为用于执行NCCL库初始化的模块。

基于上述实施例，作为优选的实施例，还可以包括：

资源释放模块，用于释放占用的内存资源和进程资源，并结束所述NCCL通信接口的调用步骤。

基于上述实施例，作为优选的实施例，还可以包括：

通信操作接口配置模块，用于获取通信操作函数；对所述通信操作函数进行参数解析；对解析得到的参数建立与NCCL库相应操作的函数调用关系，得到所述NCCL通信接口。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的基于nGraph的GPU后端分布式训练方法的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的基于nGraph的GPU后端分布式训练方法的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

一种基于nGraph的GPU后端分布式训练方法，其特征在于，包括：

接收训练请求，并获取对应的训练数据；

通过nGraph框架链接的NCCL库文件的系统路径获取NCCL库文件；

按照所述训练请求调用NCCL通信接口配置得到训练模型；所述NCCL通信接口为位于所述nGraph框架GPU后端、基于所述NCCL库文件的通信操作接口；

利用所述训练模型对所述训练数据进行GPU后端训练。
根据权利要求1所述的GPU后端分布式训练方法，其特征在于，接收训练请求，并获取对应的训练数据之前，还包括：

在所述nGraph框架源码中添加所述NCCL库文件的系统路径；

修改nGraph框架的编译文件，在所述nGraph框架的分布式功能启用NCCL功能，并在所述NCCL功能启用时执行通过nGraph框架链接的NCCL库文件的系统路径获取NCCL库文件的步骤。
根据权利要求1所述的GPU后端分布式训练方法，其特征在于，按照所述训练请求调用NCCL通信接口配置得到训练模型时，还包括：

根据所述训练请求确定所述训练模型的分布式训练类型；所述分布式训练类型包括多机分布式和单机分布式。
根据权利要求3所述的GPU后端分布式训练方法，其特征在于，利用所述训练模型对训练数据进行GPU后端训练之前，还包括：

执行环境训练初始化；

若所述训练模型的分布式训练类型为多机分布式，所述执行环境训练初始化包括：

执行MPI初始化和NCCL库初始化；

若所述训练模型的分布式训练类型为单机分布式，所述执行环境训练初始化包括：

执行NCCL库初始化。
根据权利要求1所述的GPU后端分布式训练方法，其特征在于，利用所述训练模型对训练数据进行GPU后端训练后，还包括：

释放占用的内存资源和进程资源，并结束所述NCCL通信接口的调用步骤。
根据权利要求1所述的GPU后端分布式训练方法，其特征在于，按照所述训练请求调用NCCL通信接口配置得到训练模型之前，还包括：

获取通信操作函数；

对所述通信操作函数进行参数解析；

对解析得到的参数建立与NCCL库相应操作的函数调用关系，得到所述NCCL通信接口。
根据权利要求1至6任一项所述的GPU后端分布式训练方法，其特征在于，所述NCCL通信接口包括基于NCCL的聚合操作、基于NCCL的广播操作、基于NCCL的发送操作和基于NCCL的接收操作。
一种基于nGraph的GPU后端分布式训练系统，其特征在于，包括：

请求接收模块，用于接收训练请求，并获取对应的训练数据；

文件获取模块，用于通过nGraph框架链接的NCCL库文件的系统路径获取NCCL库文件；

模型生成模块，用于按照所述训练请求调用NCCL通信接口配置得到训练模型；所述NCCL通信接口为位于所述nGraph框架GPU后端、基于所述NCCL库文件的通信操作接口；

训练模块，用于利用所述训练模型对所述训练数据进行GPU后端训练。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的GPU后端分布式训练方法的步骤。
一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-7任一项所述的GPU后端分布式训练方法的步骤。