WO2022001134A1

WO2022001134A1 - 模型并行训练任务负载均衡方法、装置、设备及存储介质

Info

Publication number: WO2022001134A1
Application number: PCT/CN2021/076963
Authority: WO
Inventors: 王丽; 高开; 曹芳; 郭振华
Original assignee: 浪潮电子信息产业股份有限公司
Priority date: 2020-06-28
Filing date: 2021-02-20
Publication date: 2022-01-06
Also published as: US20230195537A1; US11868817B2; CN111752713B; CN111752713A

Abstract

一种模型并行训练任务负载均衡方法、装置、设备及计算机可读存储介质，包括：获取目标模型中各个网络层的数据通信量和理论计算量；确定各个计算设备的理论算力，并根据理论算力和理论计算量得到各个计算设备对应的初始计算量；根据初始计算量，采用多种设备临界层位置划分规则进行负载均衡操作，得到多个初始均衡方案；统计初始均衡方案对应的时间性能参数，并根据时间性能参数在初始均衡方案中确定中间均衡方案；根据数据通信量对中间均衡方案进行调整，得到最终均衡方案；该方法通过理论算力得到初始均衡方案，选择中间方案并进行调整，可以使各个计算设备的负载均衡，提高效率。

Description

模型并行训练任务负载均衡方法、装置、设备及存储介质

本申请要求于2020年06月28日提交中国专利局、申请号为202010597645.3、发明名称为“模型并行训练任务负载均衡方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及并行训练技术领域，特别涉及一种模型并行训练任务负载均衡方法、模型并行训练任务负载均衡装置、模型并行训练任务负载均衡设备及计算机可读存储介质。

背景技术

近年来，随着人工智能的兴起，深度神经网络(Deep Neural Network，DNN)在图像视频分类、语音识别和语言翻译等领域得到广泛应用。随着训练数据集的增大和网络规模的日趋复杂，深度神经网络的训练成本越来越高，对计算平台提出了更高的算力需求，模型训练并行化成为增强其应用时效性的迫切需求。近年来基于分布式训练的AI(ARTIFICIAL INTELLIGENCE，人工智能)加速器(如FPGA、TPU、AI芯片等)层出不穷，为深度神经网络并行训练提供了硬件基础。

当DNN模型规模较大无法将整个模型部署在单个计算设备上时，会采用模型并行训练的方式进行训练。模型并行训练涉及在设备之间划分模型，以便每个计算设备仅评估模型参数的一部分并执行更新。相关技术一般由工作人员根据经验，采用手动划分的方式对DNN模型进行划分并训练。但是，由于手动划分无法做到较好的负载均衡，各个计算设备上需要被计算的计算量差异较大，总体训练效率较低，因此相关技术存在负载不均衡、总体训练效率较低的问题。

因此，如何解决相关技术存在的负载不均衡、总体训练效率较低的问题，是本领域技术人员需要解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种模型并行训练任务负载均衡方法、模型并行训练任务负载均衡装置、模型并行训练任务负载均衡设备及计算机可读存储介质，解决了相关技术存在的负载不均衡、总体训练效率较低的问题。

为解决上述技术问题，本发明提供了一种模型并行训练任务负载均衡方法，包括：

获取目标模型中各个网络层的数据通信量和理论计算量；

确定各个计算设备的理论算力，并根据所述理论算力和所述理论计算量得到各个所述计算设备对应的初始计算量；

根据所述初始计算量，采用多种设备临界层位置划分规则进行负载均衡操作，得到多个初始均衡方案；

统计所述初始均衡方案对应的时间性能参数，并根据所述时间性能参数在所述初始均衡方案中确定中间均衡方案；

根据所述数据通信量对所述中间均衡方案进行调整，得到最终均衡方案。

可选地，所述根据所述初始计算量，采用多种设备临界层位置划分规则进行负载均衡操作，得到多个初始均衡方案，包括：

按照网络层顺序，根据所述初始计算量为各个所述计算设备划分所述网络层，并进行设备临界层检测；

当检测到所述设备临界层时，将所述设备临界层划分给前序计算设备，得到第一均衡方案；其中，所述前序计算设备为所述设备临界层对应的前序网络层所属的所述计算设备；

当检测到所述设备临界层时，将所述设备临界层划分给后序计算设备，得到第二均衡方案；其中，所述后序计算设备为所述设备临界层对应的后序网络层所属的所述计算设备；

将所述第一均衡方案和所述第二均衡方案确定为所述初始均衡方案。

可选地，所述统计所述初始均衡方案对应的时间性能参数，并根据所述时间性能参数在所述初始均衡方案中确定中间均衡方案，包括：

统计所述初始均衡方案中各个所述计算设备对应的计算时长，并利用所述计算时长计算所述初始均衡方案对应的时间平均值和时间标准差，得到所述时间性能参数；

判断所述时间平均值是否小于第一阈值且所述时间标准差是否小于第二阈值；

若是，则将所述初始均衡方案确定为候选均衡方案；

当所述候选均衡方案的数量为一时，确定所述候选均衡方案为所述中间均衡方案；

当所述候选均衡方案的数量不为一时，按照预设选择规则在所述候选均衡方案中选择所述中间均衡方案。

可选地，所述根据所述数据通信量对所述中间均衡方案进行调整，得到最终均衡方案，包括：

根据所述数据通信量和各个所述计算设备的网络层通信速度，得到各个所述计算设备的通信时长，并利用所述通信时长和计算时长得到所述计算设备对应的总时长；

确定最大总时长，并将所述中间均衡方案中所述最大总时长对应的目标计算设备进行网络层划分优化处理，得到优化均衡方案；

将所述优化均衡方案确定为所述中间均衡方案，并更新优化次数；

当所述优化次数达到预设优化次数阈值时，将所述中间均衡方案确定为所述最终均衡方案。

可选地，所述将所述中间均衡方案中所述最大总时长对应的目标计算设备进行网络层划分优化处理，得到优化均衡方案，包括：

将所述目标计算设备对应的所述网络层减少一层，并调整其他计算设备对应的所述网络层，得到第一优化方案；

将所述目标计算设备对应的所述网络层减少两层，并调整其他计算设备对应的所述网络层，得到第二优化方案；

统计所述第一优化方案对应的第一时间性能参数和所述第二优化方案对应的第二时间性能参数；

根据所述第一时间性能参数和所述第二时间性能参数，在所述第一优化方案和所述第二优化方案中确定候选优化方案；

根据所述候选优化方案对应的候选时间性能参数和所述时间性能参数，在所述候选优化方案和所述中间均衡方案中确定所述优化均衡方案。

可选地，所述获取目标模型中各个网络层的数据通信量和理论计算量，包括：

获取各个所述网络层对应的参数信息和输入输出信息；

利用所述参数信息计算所述理论计算量，并利用所述输入输出信息计算所述数据通信量。

可选地，在得到最终均衡方案之后，还包括：

按照所述最终均衡方案对所述目标模型进行拆分，得到多个网络层组；

将各个所述网络层组发送给对应的所述计算设备进行训练。

本发明还提供了一种模型并行训练任务负载均衡装置，包括：

获取模块，用于获取目标模型中各个网络层的数据通信量和理论计算量；

初始计算量确定模块，用于确定各个计算设备的理论算力，并根据所述理论算力和所述理论计算量得到各个所述计算设备对应的初始计算量；

初始方案获取模块，用于根据所述初始计算量，采用多种设备临界层位置划分规则进行负载均衡操作，得到多个初始均衡方案；

中间方案确定模块，用于统计所述初始均衡方案对应的时间性能参数，并根据所述时间性能参数在所述初始均衡方案中确定中间均衡方案；

最终方案获取模块，用于根据所述数据通信量对所述中间均衡方案进行调整，得到最终均衡方案。

本发明还提供了一种模型并行训练任务负载均衡设备，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现上述的模型并行训练任务负载均衡方法。

本发明还提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现上述的模型并行训练任务负载均衡方法。

本发明提供的模型并行训练任务负载均衡方法，获取目标模型中各个网络层的数据通信量和理论计算量；确定各个计算设备的理论算力，并根据理论算力和理论计算量得到各个计算设备对应的初始计算量；根据初始计算量，采用多种设备临界层位置划分规则进行负载均衡操作，得到多个初始均衡方案；统计初始均衡方案对应的时间性能参数，并根据时间性能参数在初始均衡方案中确定中间均衡方案；根据数据通信量对中间均衡方案进行调整，得到最终均衡方案。

可见，该方法通过计算设备的理论算力和目标模型的理论计算量得到各个计算设备对应的初始计算量，依据该初始计算量对目标模型中的网络层采用多种设备临界层位置划分规则进行负载均衡操作，得到多种不同的均衡方案，即初始均衡方案。通过统计时间性能参数，确定多个技术方案的时间性能，并选择性能更好的初始均衡方案作为中间均衡方案。最后考虑计算设备间数据通信的影响，对中间均衡方案进行调整，得到最终均衡方案。通过理论算力得到初始计算量并根据其得到初始均衡方案，可以从各个计算设备需要计算的数据量方面达到较好的均衡；利用时间性能参数可以表示初始均衡方案中所有计算设备的整体计算效率；最终考虑数据通信过程对各个计算设备的影响并基于此对中间均衡方案进行调整，得到最终均衡方案，可以做到各个计算设备之间的负载均衡，保证整体计算效率即训练效率，解决了相关技术存在的负载不均衡、训练效率较低的问题。

此外，本发明还提供了一种模型并行训练任务负载均衡装置、模型并行训练任务负载均衡设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种模型并行训练任务负载均衡方法流程图；

图2为本发明实施例提供的一种具体的中间均衡方案调整方法流程图；

图3为本发明实施例提供的一种模型并行训练任务负载均衡装置的结构示意图；

图4为本发明实施例提供的一种模型并行训练任务负载均衡设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一种可能的实施方式中，请参考图1，图1为本发明实施例提供的一种模型并行训练任务负载均衡方法流程图。该方法包括：

S101：获取目标模型中各个网络层的数据通信量和理论计算量。

目标模型为需要在多个计算设备上进行并行训练的网络模型，其具体可以为深度学习模型或其他具有网络层的网络模型。目标模型具体可以为图像分类模型、语音识别模型、语言翻译模型等。计算设备的具体类型不做限定，例如可以异构加速设备，即基于多种以上的不同架构构建的加速设备，架构具体可以为FPGA(Field－Programmable Gate Array，现场可编程门阵列)架构、TPU(Tensor Processing Unit)架构或GPU(Graphics Processing Unit，图形处理器)架构。

在目标模型中具有多个网络层，在确定目标模型的均衡方案时，需要确定各个网络层的数据通信量和理论计算量。由于每一个网络层均具有数据输入和数据输出，因此数据通信量具体可以为网络层的数据输入量或数据输出量，可以根据实际情况进行选择。理论计算量即为该网络层完成训练所需的理论上的计算资源总量。数据通信量和理论计算量为影响目标模型训练所需时间的最大影响因素，数据通信量和理论计算量越大，对应的网络层训练所需的时间就越多。

S102：确定各个计算设备的理论算力，并根据理论算力和理论计算量得到各个计算设备对应的初始计算量。

本实施例中，计算设备为多个，各个计算设备均具有对应的理论算力。理论算力可以表示计算设备的计算速度，其具体大小与计算设备的本身相关，对此不做限定。根据理论算力可以确定各个计算设备的计算能力，因此可以根据理论算力以及各个网络层对应的理论计算量，将整个目标网络对应的负载均衡地分配给各个计算设备，得到对应的初始计算量。具体的，理论算力越强，对应的初始计算量越多，理论算力越弱，对应的初始计算量越少，因此在进行理想情况下的训练时，各个计算设备可以采用相同的时间完成各自对应的初始计算量的计算，避免有的计算设备完成计算而其他计算设备未完成因此需要等待的情况发生，保证了基本的整体计算效率。

具体的，在得到各个计算设备的理论算力后，可以构建性能模型并求解，得到初始计算量，性能模型的构建和求解过程本实施例不做限定，可以参考相关技术；或者可以将各个理论算力进行单位的归一化处理，利用同一表示形式对各个理论算力进行表示，同时利用各个网络层的理论计算量计算得到目标网络的训练负载，按照各个理论算力的比例将训练负载分配给对应的计算设备，即可确定各个计算设备对应的初始计算量。

S103：根据初始计算量，采用多种设备临界层位置划分规则进行负载均衡操作，得到多个初始均衡方案。

由于网络层为目标网络的最小划分单位，而网络层的理论计算量具有一定的下限，因此在实际划分网络层时可能并不能完美的为各个计算设备划分对应的初始计算量的负载。因此基于初始计算量，采用多种不同的设备临界层位置划分规则对网络层进行划分，即进行负载均衡操作，得到多个初始均衡方案。

需要说明的是，设备临界层为一种特殊的网络层，其对应的第一个设备已划分的负载不足对应的初始计算量，而将设备临界层划分给第一个设备时，第一个设备的负载又会超出对应的初始计算量，因此可以将其划分给第二个设备，也可以划分给第一个设备。所以设备临界层在被划分时处于两个计算设备之间，即可以被划分给这两个计算设备的任意一个。故此，设备临界层具有两个可选的位置，即第一个设备或第二个设备，基于这两个可能的位置，可以设定对应的多个设备临界层位置划分规则，例如将所有的设备临界层划分给第一个设备的规则，或者将所有的设备临界层划分给第二个设备的规则，或者将部分设备临界层划分为第一个设备，将另外的设备临界层划分给第二个设备。根据这多种设备临界层位置划分规则，可以得到多个初始划分方案。初始划分方案尽可能地保证了各个计算设备之间计算负载的均衡。

S104：统计初始均衡方案对应的时间性能参数，并根据时间性能参数在初始均衡方案中确定中间均衡方案。

由于各个计算设备实际被分配的计算负载并不一定等于初始计算量，因此基于初始均衡方案进行训练时可能会导致某些计算设备已经计算完毕，而其他计算设备未计算完毕的情况，这种情况严重时会大大影响所有计算设备的整体计算效率，即影响到了整体的训练效率。

因此，在得到初始均衡方案后，统计多个初始均衡方案对应的时间性能参数，时间性能参数用于表示初始均衡方案的时间性能，其具体可以为各个计算设备的计算时间平均值、时间标准差、时间方差或其他类似参数，时间性能参数的数量可以为一个或多个。在统计得到多个初始训练方案的时间性能参数后，根据时间性能参数的优劣在初始均衡方案中选择时间性能参数最佳的方案作为中间均衡方案。时间性能参数的评价方法本实施例不做限定，可以根据时间性能参数的数量和类型进行设定。

S105：根据数据通信量对中间均衡方案进行调整，得到最终均衡方案。

在确定中间均衡方案后，根据数据通信量和时间性能参数对中间均衡方案进行调整。由于进行数据通信同样需要一定的时间，各个网络层的数据通信量不同对应的所需时间即不同。因此需要将数据通信的影响进行考虑，并利用其对中间均衡方案进行修改，在修改后利用时间性能参数进行评估，实现对中间均衡方案的调整，即可得到最终均衡方案。最终均衡方案综合了数据传输与计算两方面的影响，实现了负载的均衡分配。

应用本发明实施例提供的模型并行训练任务负载均衡方法，通过计算设备的理论算力和目标模型的理论计算量得到各个计算设备对应的初始计算量，依据该初始计算量对目标模型中的网络层采用多种设备临界层位置划分规则进行负载均衡操作，得到多种不同的均衡方案，即初始均衡方案。通过统计时间性能参数，确定多个技术方案的时间性能，并选择性能更好的初始均衡方案作为中间均衡方案。最后考虑计算设备间数据通信的影响，对中间均衡方案进行调整，得到最终均衡方案。通过理论算力得到初始计算量并根据其得到初始均衡方案，可以从各个计算设备需要计算的数据量方面达到较好的均衡；利用时间性能参数可以表示初始均衡方案中所有计算设备的整体计算效率；最终考虑数据通信过程对各个计算设备的影响并基于此对中间均衡方案进行调整，得到最终均衡方案，可以做到各个计算设备之间的负载均衡，保证整体计算效率即训练效率，解决了相关技术存在的负载不均衡、训练效率较低的问题。

基于上述实施例，本实施例将对上述实施例中的若干步骤进行具体的阐述。其中，为了准确的得到各个网络层的数据通信量和理论计算量，可以通过网络层的参数信息和输入输出信息对其进行计算。S101步骤，可以包括：

S1011：获取各个网络层对应的参数信息和输入输出信息。

具体的，可以构建前向计算网络，利用前向计算网络获取参数信息和输入输出信息。参数信息用于表示网络层进行怎样的计算，也可以被称为算子参数信息，其具体内容本实施例不做限定，例如可以为卷积核大小信息，或者还可以包括输入输出信息。输入输出信息具体可以为输入信息或输出信息，其被提前设定好，与数据通信量的方向相同，即当数据通信量为数据输入量时，输入输出信息即为输入信息，当数据通信量为数据输出量时，输入输出信息即为输出信息。输入输出信息用于表示网络层的输入情况或输出情况，其具体内容可以为特征数量、特征大小等，对此不做限定。

S1012：利用参数信息计算理论计算量，并利用输入输出信息计算数据通信量。

根据参数信息可以计算得到理论计算量，由于参数信息表明了网络层需要进行怎样的计算，因此可以准确地确定其对应的理论计算量。同理，利用输入输出信息可以准确地计算其对应的数据通信量。

基于上述实施例，在确定初始均衡方案时，为了提高初始均衡方案的确定速度，减少所需的计算资源，进而减少得到最终均衡方案所需的计算资源，可以采用两种设备临界层位置划分规则进行负载均衡操作。具体的，S103步骤，可以包括：

S1031：按照网络层顺序，根据初始计算量为各个计算设备划分网络层，并进行设备临界层检测。

由于目标网络的训练需要按照网络层的顺序进行，因此在划分网络层时需要按照网络层顺序进行。根据各个计算设备对应的初始计算量，为对应的计算设备划分网络层，并在网络层划分时进行设备临界层检测。具体的，可以通过检测如下情况来进行设备临界层检测：

判断目标计算设备的当前负载是否小于对应初始计算量；若小于对应的初始计算量，则将目标网络层划入目标计算设备，同时判断目标计算设备的当前负载是否大于对应的初始计算量；若大于，则确定目标网络层为设备临界层，即检测到设备临界层。例如，计算设备1在先，计算设备2在后，计算设备1的初始计算量为1000，当前负载为990，当将目标网络层划入计算设备1时，计算设备1的当前负载为1010，则目标网络层即为设备临界层。

S1032：当检测到设备临界层时，将设备临界层划分给前序计算设备，得到第一均衡方案。

当检测到设备临界层时，可以将设备临界层划分给前序计算设备，即将所有的设备临界层均划分给前序计算设备，即可得到第一均衡方案。需要说明的是，前序计算设备即为设备临界层对应的前序网络层所属的计算设备，前序网络层为网络层顺序在设备临界层之前的网络层，因此前序计算设备即为S1031步骤的例子中的计算设备1，基于上述例子，则计算设备1最终的计算负载为1010。

S1033：当检测到设备临界层时，将设备临界层划分给后序计算设备，得到第二均衡方案。

在检测到设备临界层后，还可以将该设备临界层划分给后续计算设备，即将所有的设备临界层均划分给后序计算设备，即可得到第二均衡方案。需要说明的是，后续计算设备即为设备临界层对应的后续网络层所属的计算设备，后序网络层为网络层顺序在设备临界层之后的网络层，因此后续计算设备即为S1031步骤的例子中的计算设备2，基于上述例子，则计算设备1最终的计算负载为990。

需要说明的是，本实施例并不限定S1032和S1033两个步骤的执行顺序，例如，可以先执行S1032，再执行S1033；或者可以先执行S1033，再执行S1032；或者可以同时执行S1032和S1033。

S1034：将第一均衡方案和第二均衡方案确定为初始均衡方案。

在得到第一均衡方案和第二均衡方案后，将其确定为初始均衡方案，以便后续确定中间均衡方案。

基于上述实施例，为了保证选择到最佳的中间均衡方案，可以采用多个时间性能参数和阈值对初始均衡方案进行评估，并最终得到中间均衡方案。具体的，S104步骤，可以包括：

S1041：统计初始均衡方案中各个计算设备对应的计算时长，并利用计算时长计算初始均衡方案对应的时间平均值和时间标准差，得到时间性能参数。

本实施例中，利用时间平均值和时间标准差两个参数作为时间性能参数，具体的，在得到初始均衡方案后，根据计算设备的理论算力统计各个初始均衡方案中各个计算设备对应的计算时长，并利用计算时长计算各个初始均衡方案对应的时间平均值和时间标准差。时间平均值为各个计算设备所需的平均计算时长，可以体现整体计算能力，而计算标准差可以表示各个计算设备之间的计算时长的差别大小，差别越大，整体的计算效率就越低。

S1042：判断时间平均值是否小于第一阈值且时间标准差是否小于第二阈值。

第一阈值用于与时间平均值进行比对，第二阈值用于与时间标准差进行比对，第一阈值和第二阈值的具体大小本实施例不做限定，可以根据实际情况进行设定。

S1043：若是，则将初始均衡方案确定为候选均衡方案。

当某一个初始均衡方案的时间平均值小于第一阈值且时间标准差小于第二阈值时，说明该初始均衡方案的时间性能较好，因此将其确定为候选均衡方案。持续上述步骤直至对所有的初始均衡方案进行判断。

S1044：当候选均衡方案的数量为一时，确定候选均衡方案为中间均衡方案。

在所有的初始均衡方案均经过判断后，可以统计候选均衡方案的数量，当候选均衡方案仅有一个时，可以直接将其确定为中间均衡方案。

S1045：当候选均衡方案的数量不为一时，按照预设选择规则在候选均衡方案中选择中间均衡方案。

当候选均衡方案的数量不为一时，此时存在两种情况，解候选均衡方案的数量大于1，或者候选均衡方案的数量为0.

当候选均衡方案的数量大于1时，例如为两个时，可以在其按照预设选择规则在其中选择中间均衡方案。当候选均衡方案的数量为0时，可以将所有的初始均衡方案确定为候选均衡方案，并在其中按照预设选择规则确定中间均衡方案。

基于上述实施例，为了均衡各个计算设备所需的总体时长，可以通过优化具有最大总体时长的计算设备的网络层划分来减少其总体时长，提高总体计算效率。具体的，S105步骤可以包括：

S1051：根据数据通信量和各个计算设备的网络层通信速度，得到各个计算设备的通信时长，并利用通信时长和计算时长得到计算设备对应的总时长。

网络层通信速度即为在该计算设备中，网络层之间的数据传输速度，根据数据通信量和网络层通信速度，可以得到各个计算设备对应的通信时长。计算时长为计算设备计算所有负载所需的时长，通过将通信时长和计算时长相加即可得到计算设备处理负载所需的总时长。

S1052：确定最大总时长，并将中间均衡方案中最大总时长对应的目标计算设备进行网络层划分优化处理，得到优化均衡方案。

最大总时长即为所有总时长中的最大值，通过确定最大总时长确定目标计算设备，并对目标计算设备进行网络层划分优化处理。具体的，可以将目标计算设备中的最后一个网络层划分给目标计算设备的后序计算设备，并以此类推，完成网络层划分优化处理，得到优化均衡方案；或者将目标计算设备中的第一个网络层划分给目标计算设备的前序计算设备，完成网络层划分优化处理，得到优化均衡方案。

为了保证优化处理的有效性，即保证优化效果，本实施例中，可以对网络层进行两次优化并从中确定优化均衡方案，具体的：

S10521：将目标计算设备对应的网络层减少一层，并调整其他计算设备对应的网络层，得到第一优化方案。

第一次优化处理过程中，将目标计算设备对应的网络层减少一层，同时调整其他计算设备对应的网络层，即可得到第一优化方案。减少的网络层可以为最后一个网络层，也可以为第一个网络层。

S10522：将目标计算设备对应的网络层减少两层，并调整其他计算设备对应的网络层，得到第二优化方案。

在第二次优化处理过程中，可以将目标计算设备对应的网络层减少两层，得到第二优化方案。两个网络层可以为最后一个网络层和第一个网络层，或者可以为最后一个网络层和倒数第二个网络层，或者可以为第一个网络层和第二个网络层。

S10523：统计第一优化方案对应的第一时间性能参数和第二优化方案对应的第二时间性能参数。

在得到第一优化方案和第二优化方案后，分别统计第一优化方案对应的第一时间性能参数和第二优化方案对应的第二时间性能参数。第一时间性能参数和第二时间性能参数的统计过程请参考上述过程，本实施例在此不做赘述。

S10524：根据第一时间性能参数和第二时间性能参数，在第一优化方案和第二优化方案中确定候选优化方案。

根据第一时间性能参数和第二时间性能参数对第一优化方案和第二优化方案进行评估，选择时间性能更佳的方案作为候选优化方案。

S10525：根据候选优化方案对应的候选时间性能参数和时间性能参数，在候选优化方案和中间均衡方案中确定优化均衡方案。

在得到候选优化方案后，在候选优化方案和中间均衡方案中选择时间性能更优的方案作为优化均衡方案。

S1053：将优化均衡方案确定为中间均衡方案，并更新优化次数。

在本次优化处理结束后，将优化均衡方案确定为中间均衡方案，并更新优化次数。由于优化处理不可能无限制的进行，因此利用优化次数记录中间均衡方案已经经过的优化处理次数。

S1054：当优化次数达到预设优化次数阈值时，将中间均衡方案确定为最终均衡方案。

当优化次数达到预设优化次数阈值后，则将中间均衡方案确定为最终均衡方案，完成对目标模型的负载均衡处理。

请参考图2，图2为本发明实施例提供的一种具体的中间均衡方案调整方法流程图。其中，最大迭代次数MAX_ITR即为预设优化次数阈值，初始化的较优拆分策略即为split_index_before，对应的时间性能参数为t_before。i为优化次数，当i<MAX_ITR成立时，查找执行时间最长的设备，即目标计算设备，记录设备下表max_index，即目标计算设备即为max_index。通过减少max_index处理的网络层一层，得到第一优化方案split_index1，减少max_index处理的网络层两层，得到第二优化方案split_index2。统计其对应的第一时间性能参数和第二时间性能参数，并利用拆分策略对比模块对比两种拆分结果，得到时间性能更优的拆分结果split_index，即候选优化方案，其对应的时间性能参数为t_now。将候选优化方案与中间均衡方案进行平局，并得到优化均衡方案split_index_last，其对应的时间性能参数为t_last。将优化均衡方案确定为中间均衡方案，即完成split_index_before＝split_index_last的赋值以及t_before＝t_last的赋值，并将优化次数加一，重新进行i<MAX_ITR是否成立的判断，直至当i<MAX_ITR不成立时，返回split_index_before，即将中间均衡方案确定为最终均衡方案。

进一步，基于上述实施例，在得到最终均衡方案后，还可以执行其他操作，例如还可以按照对目标模型进行拆分并训练。具体的，还可以包括：

步骤11：按照最终均衡方案对目标模型进行拆分，得到多个网络层组。

由于最终均衡方案中记录了各个计算设备对应的网络层，因此可以按照其对目标网络进行拆分，得到各个计算设备对应的网络层组。

步骤12：将各个网络层组发送给对应的计算设备进行训练。

下面对本发明实施例提供的模型并行训练任务负载均衡装置进行介绍，下文描述的模型并行训练任务负载均衡装置与上文描述的模型并行训练任务负载均衡方法可相互对应参照。

请参考图3，图3为本发明实施例提供的一种模型并行训练任务负载均衡装置的结构示意图，包括：

获取模块310，用于获取目标模型中各个网络层的数据通信量和理论计算量；

初始计算量确定模块320，用于确定各个计算设备的理论算力，并根据理论算力和理论计算量得到各个计算设备对应的初始计算量；

初始方案获取模块330，用于根据初始计算量，采用多种设备临界层位置划分规则进行负载均衡操作，得到多个初始均衡方案；

中间方案确定模块340，用于统计初始均衡方案对应的时间性能参数，并根据时间性能参数在初始均衡方案中确定中间均衡方案；

最终方案获取模块350，用于根据数据通信量对中间均衡方案进行调整，得到最终均衡方案。

可选地，初始方案获取模块330，包括：

设备临界层检测单元，用于按照网络层顺序，根据初始计算量为各个计算设备划分网络层，并进行设备临界层检测；

第一均衡方案确定单元，用于当检测到设备临界层时，将设备临界层划分给前序计算设备，得到第一均衡方案；其中，前序计算设备为设备临界层对应的前序网络层所属的计算设备；

第二均衡方案确定单元，用于当检测到设备临界层时，将设备临界层划分给后序计算设备，得到第二均衡方案；其中，后序计算设备为设备临界层对应的后序网络层所属的计算设备；

初始均衡方案确定单元，用于将第一均衡方案和第二均衡方案确定为初始均衡方案。

可选地，中间方案确定模块340，包括：

时间性能参数获取单元，用于统计初始均衡方案中各个计算设备对应的计算时长，并利用计算时长计算初始均衡方案对应的时间平均值和时间标准差，得到时间性能参数；

判断单元，用于判断时间平均值是否小于第一阈值且时间标准差是否小于第二阈值；

候选均衡方案确定单元，用于若时间平均值小于第一阈值且时间标准差小于第二阈值，则将初始均衡方案确定为候选均衡方案；

第一确定单元，用于当候选均衡方案的数量为一时，确定候选均衡方案为中间均衡方案；

第二确定单元，用于当候选均衡方案的数量不为一时，按照预设选择规则在候选均衡方案中选择中间均衡方案。

可选地，最终方案获取模块350，包括：

总时长计算单元，用于根据数据通信量和各个计算设备的网络层通信速度，得到各个计算设备的通信时长，并利用通信时长和计算时长得到计算设备对应的总时长；

优化处理单元，用于确定最大总时长，并将中间均衡方案中最大总时长对应的目标计算设备进行网络层划分优化处理，得到优化均衡方案；

优化次数更新单元，用于将优化均衡方案确定为中间均衡方案，并更新优化次数；

最终均衡方案确定单元，用于当优化次数达到预设优化次数阈值时，将中间均衡方案确定为最终均衡方案。

可选地，优化处理单元，包括：

第一处理子单元，用于将目标计算设备对应的网络层减少一层，并调整其他计算设备对应的网络层，得到第一优化方案；

第二处理子单元，用于将目标计算设备对应的网络层减少两层，并调整其他计算设备对应的网络层，得到第二优化方案；

时间性能参数统计子单元，用于统计第一优化方案对应的第一时间性能参数和第二优化方案对应的第二时间性能参数；

候选优化方案确定子单元，用于根据第一时间性能参数和第二时间性能参数，在第一优化方案和第二优化方案中确定候选优化方案；

优化均衡方案确定子单元，用于根据候选优化方案对应的候选时间性能参数和时间性能参数，在候选优化方案和中间均衡方案中确定优化均衡方案。

可选地，获取模块310，包括：

信息获取单元，用于获取各个网络层对应的参数信息和输入输出信息；

计算单元，用于利用参数信息计算理论计算量，并利用输入输出信息计算的数据通信量。

可选地，还包括：

拆分模块，用于按照最终均衡方案对目标模型进行拆分，得到多个网络层组；

发送模块，用于将各个网络层组发送给对应的计算设备进行训练。

下面对本发明实施例提供的模型并行训练任务负载均衡设备进行介绍，下文描述的模型并行训练任务负载均衡设备与上文描述的模型并行训练任务负载均衡方法可相互对应参照。

请参考图4，图4为本发明实施例提供的一种模型并行训练任务负载均衡设备的结构示意图。其中模型并行训练任务负载均衡设备400可以包括处理器401和存储器402，还可以进一步包括多媒体组件403、信息输入/信息输出(I/O)接口404以及通信组件405中的一种或多种。

其中，处理器401用于控制模型并行训练任务负载均衡设备400的整体操作，以完成上述的模型并行训练任务负载均衡方法中的全部或部分步骤；存储器402用于存储各种类型的数据以支持在模型并行训练任务负载均衡设备400的操作，这些数据例如可以包括用于在该模型并行训练任务负载均衡设备400上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、只读存储器(Read-Only Memory，ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。

多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于模型并行训练任务负载均衡设备400与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件405可以包括：Wi-Fi部件，蓝牙部件，NFC部件。

模型并行训练任务负载均衡设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述实施例给出的模型并行训练任务负载均衡方法。

下面对本发明实施例提供的计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的模型并行训练任务负载均衡方法可相互对应参照。

本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的模型并行训练任务负载均衡方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上对本发明所提供的模型并行训练任务负载均衡方法、模型并行训练任务负载均衡装置、模型并行训练任务负载均衡设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种模型并行训练任务负载均衡方法，其特征在于，包括：

获取目标模型中各个网络层的数据通信量和理论计算量；

确定各个计算设备的理论算力，并根据所述理论算力和所述理论计算量得到各个所述计算设备对应的初始计算量；

根据所述初始计算量，采用多种设备临界层位置划分规则进行负载均衡操作，得到多个初始均衡方案；

统计所述初始均衡方案对应的时间性能参数，并根据所述时间性能参数在所述初始均衡方案中确定中间均衡方案；

根据所述数据通信量对所述中间均衡方案进行调整，得到最终均衡方案。
根据权利要求1所述的模型并行训练任务负载均衡方法，其特征在于，所述根据所述初始计算量，采用多种设备临界层位置划分规则进行负载均衡操作，得到多个初始均衡方案，包括：

按照网络层顺序，根据所述初始计算量为各个所述计算设备划分所述网络层，并进行设备临界层检测；

当检测到所述设备临界层时，将所述设备临界层划分给前序计算设备，得到第一均衡方案；其中，所述前序计算设备为所述设备临界层对应的前序网络层所属的所述计算设备；

当检测到所述设备临界层时，将所述设备临界层划分给后序计算设备，得到第二均衡方案；其中，所述后序计算设备为所述设备临界层对应的后序网络层所属的所述计算设备；

将所述第一均衡方案和所述第二均衡方案确定为所述初始均衡方案。
根据权利要求1所述的模型并行训练任务负载均衡方法，其特征在于，所述统计所述初始均衡方案对应的时间性能参数，并根据所述时间性能参数在所述初始均衡方案中确定中间均衡方案，包括：

统计所述初始均衡方案中各个所述计算设备对应的计算时长，并利用所述计算时长计算所述初始均衡方案对应的时间平均值和时间标准差，得到所述时间性能参数；

判断所述时间平均值是否小于第一阈值且所述时间标准差是否小于第二阈值；

若是，则将所述初始均衡方案确定为候选均衡方案；

当所述候选均衡方案的数量为一时，确定所述候选均衡方案为所述中间均衡方案；

当所述候选均衡方案的数量不为一时，按照预设选择规则在所述候选均衡方案中选择所述中间均衡方案。
根据权利要求1所述的模型并行训练任务负载均衡方法，其特征在于，所述根据所述数据通信量对所述中间均衡方案进行调整，得到最终均衡方案，包括：

根据所述数据通信量和各个所述计算设备的网络层通信速度，得到各个所述计算设备的通信时长，并利用所述通信时长和计算时长得到所述计算设备对应的总时长；

确定最大总时长，并将所述中间均衡方案中所述最大总时长对应的目标计算设备进行网络层划分优化处理，得到优化均衡方案；

将所述优化均衡方案确定为所述中间均衡方案，并更新优化次数；

当所述优化次数达到预设优化次数阈值时，将所述中间均衡方案确定为所述最终均衡方案。
根据权利要求4所述的模型并行训练任务负载均衡方法，其特征在于，所述将所述中间均衡方案中所述最大总时长对应的目标计算设备进行网络层划分优化处理，得到优化均衡方案，包括：

将所述目标计算设备对应的所述网络层减少一层，并调整其他计算设备对应的所述网络层，得到第一优化方案；

将所述目标计算设备对应的所述网络层减少两层，并调整其他计算设备对应的所述网络层，得到第二优化方案；

统计所述第一优化方案对应的第一时间性能参数和所述第二优化方案对应的第二时间性能参数；

根据所述第一时间性能参数和所述第二时间性能参数，在所述第一优化方案和所述第二优化方案中确定候选优化方案；

根据所述候选优化方案对应的候选时间性能参数和所述时间性能参数，在所述候选优化方案和所述中间均衡方案中确定所述优化均衡方案。
根据权利要求1所述的模型并行训练任务负载均衡方法，其特征在于，所述获取目标模型中各个网络层的数据通信量和理论计算量，包括：

获取各个所述网络层对应的参数信息和输入输出信息；

利用所述参数信息计算所述理论计算量，并利用所述输入输出信息计算所述数据通信量。
根据权利要求1所述的模型并行训练任务负载均衡方法，其特征在于，在得到最终均衡方案之后，还包括：

按照所述最终均衡方案对所述目标模型进行拆分，得到多个网络层组；

将各个所述网络层组发送给对应的所述计算设备进行训练。
一种模型并行训练任务负载均衡装置，其特征在于，包括：

获取模块，用于获取目标模型中各个网络层的数据通信量和理论计算量；

初始计算量确定模块，用于确定各个计算设备的理论算力，并根据所述理论算力和所述理论计算量得到各个所述计算设备对应的初始计算量；

初始方案获取模块，用于根据所述初始计算量，采用多种设备临界层位置划分规则进行负载均衡操作，得到多个初始均衡方案；

中间方案确定模块，用于统计所述初始均衡方案对应的时间性能参数，并根据所述时间性能参数在所述初始均衡方案中确定中间均衡方案；

最终方案获取模块，用于根据所述数据通信量对所述中间均衡方案进行调整，得到最终均衡方案。
一种模型并行训练任务负载均衡设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的模型并行训练任务负载均衡方法。
一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的模型并行训练任务负载均衡方法。