WO2021057465A1

WO2021057465A1 - 一种对深度学习模型进行并行处理的方法及装置

Info

Publication number: WO2021057465A1
Application number: PCT/CN2020/113982
Authority: WO
Inventors: 栗伟清
Original assignee: 中兴通讯股份有限公司
Priority date: 2019-09-26
Filing date: 2020-09-08
Publication date: 2021-04-01
Also published as: CN112561051A

Abstract

一种对深度学习模型进行并行处理的方法及装置。所述对深度学习模型进行并行处理的方法包括：确定模型中计算节点之间的依赖关系，根据所述依赖关系划分关系组（S110）；按照预定规则对关系组进行聚类，生成可并行执行集合；其中，每一个可并行执行集合内的关系组能够并行运行（S120）；将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短（S130）。

Description

一种对深度学习模型进行并行处理的方法及装置

技术领域

本公开涉及但不限于计算机技术领域。

背景技术

深度学习模型参数多，训练数据规模大，导致计算资源消耗大，一次训练耗时经常达到数天甚至数月，这对于调参的工作人员来说简直是无法忍受的。因此，对模型训练进行加速是非常有必要的，而单个设备计算力的提升非常有限，因此需要依靠分布式训练。

目前，深度学习模型的分布式训练主要有数据并行和模型并行两种方式，数据并行是指每个节点上都有一个完整模型的副本，分别取用不同的数据，各自完成前向和后向的计算得到梯度，然后更新参数。模型并行是指根据一定的规则把模型分拆到不同的节点上进行训练。

相关技术中，模型并行时，模型拆分通常是人工手动完成的，人工拆分费时费力，如果拆分的不合理，再加上节点之间的通信开销，模型并行甚至起不到任何加速的效果。

发明内容

第一方面，本公开实施例提供一种对深度学习模型进行并行处理的方法，包括：确定模型中计算节点之间的依赖关系，根据所述依赖关系划分关系组；按照预定规则对关系组进行聚类，生成可并行执行集合；其中，每一个可并行执行集合内的关系组能够并行运行；将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短。

第二方面，本公开实施例提供一种对深度学习模型进行并行处理的装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的对深度学习模型进行并行处理的程序，所述对深度学习模型进行并行处理的程序被所述处理器执行时实现本文所述对深度学习模型进行并行处理的方法的步骤。

第三方面，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有对深度学习模型进行并行处理的程序，所述对深度学习模型进行并行处理的程序被处理器执行时实现本文所述对深度学习模型进行并行处理的方法的步骤。

附图说明

图1为本公开实施例1的一种对深度学习模型进行并行处理的方法流程图；

图2为本公开实施例2的一种对深度学习模型进行并行处理的装置示意图；

图3为本公开示例1中Inception-V3模型计算图的示意图；

图4为本公开示例1中挑选耗时排名靠前的关系组的示意图；

图5为本公开示例2中按照名称作用域字段划分关系组的示意图；

图6为本公开示例2中四种汇聚节点的示意图；

图7为本公开示例2中串行运行分支的示意图。

具体实施方式

为使本公开的目的、特征和优点更加清楚明白，下文中将结合附图对本公开的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本公开的实施例，提供了一种对深度学习模型进行并行处理的方法及装置，能够自动拆分深度学习模型，提高深度学习模型采用模型并行时的分布式训练效率。

实施例1

如图1所示，本公开实施例提供了一种对深度学习模型进行并行处理的方法，包括：

步骤S110，确定模型中计算节点之间的依赖关系，根据所述依赖关系划分关系组；

步骤S120，按照预定规则对关系组进行聚类，生成可并行执行集合；其中，每一个可并行执行集合内的关系组能够并行运行；

步骤S130，将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短。

在一种实施方式中，所述确定模型中计算节点之间的依赖关系，根据所述依赖关系划分关系组，包括：

确定每一个计算节点的上游节点和下游节点，以及该计算节点的属性；

按照以下至少一种方式划分关系组；

方式一：将具有相同属性的计算节点划分为同一个关系组；

方式二：将只有一个下游节点且没有上游节点的计算节点，与该计算节点的下游节点划分为同一个关系组。

在一种实施方式中，所述按照预定规则对关系组进行聚类，生成可并行执行的集合，包括：

统计所有关系组在单个设备上运行的耗时，根据耗时从多到少对所有关系组进行排序；

挑选耗时排名靠前的多个关系组，在挑选出的关系组中搜索可并行执行的集合；

其中，所述可并行执行的集合满足以下条件：所述可并行执行的集合中任意两个关系组之间没有n级以内的上下游关系；且所述可并行执行的集合中任意两个关系组之间具有n级以内的共同上游节点或共同下游节点；其中，n为预设值。

在一种实施方式中，所述挑选耗时排名靠前的多个关系组，包括：

挑选耗时排名靠前的a个关系组；

其中，a是使得a个关系组的耗时总和与所有关系组的耗时总和的比值大于或等于预定比例值的最小整数。

在一种实施方式中，所述确定模型中计算之间的依赖关系，根据所述依赖关系划分关系组，包括：

根据计算节点的名字中的预定字段对计算节点划分关系组，具有相同预定字段的计算节点属于同一个关系组；

其中，所述预定字段包括：名称作用域字段；当所述名称作用域字段包括嵌套层级时，所述预定字段为所述最外层的名称作用域字段。

在一种实施方式中，所述按照预定规则对关系组进行聚类，生成可并行执行集合，包括：

遍历所有的关系组，搜索具有多个输入或者多个输出的汇聚节点；

以具有多个输入的汇聚节点为起点，向上游遍历所述汇聚节点的所有输入节点直至遇到另一个汇聚节点为止，由所述两个汇聚节点之间的所有串行运行分支生成一个可并行执行集合；或者

以具有多个输出的汇聚节点为起点，向下游遍历所述汇聚节点的所有输出节点直至遇到另一个汇聚节点为止，由所述两个汇聚节点之间的所有串行运行分支生成一个可并行执行集合；

其中，所述串行运行分支是两个汇聚节点之间具有上下游关系的关系组的集合。

在一种实施方式中，针对上述按照方式一和/或方式二进行关系组划分，并且在单个设备上按照耗时多少进行排序的关系组聚类方式，所述将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短，包括：

采用模拟退火算法将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短。

在一种实施方式中，针对上述按照方式一和/或方式二进行关系组划分，并且在单个设备上按照耗时多少进行排序的关系组聚类方式，所述采用模拟退火算法将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短，包括：

步骤一：初始化：设置初始温度T ₀，终止温度T _min，每个温度内的迭代次数K，降温速率α，每次更新解时的扰动比例μ；在初始温度T ₀下，随机生成初始解X ₀，并计算初始耗时E ₀；其中，初始解X ₀是指将所有关系组按照初始分配方式随机分配到目标设备；初始耗时E ₀是指在初始分配方式下执行模型运算后的总耗时；

步骤二：在当前温度T下进行K次扰动和接受过程，其中每一次扰动和接受过程包括：在当前温度T下，按照扰动比例μ随机挑选当前解X中的关系组，并对挑选出的关系组重新随机分配目标设备，并计算在新的分配方式下执行模型运算后的总耗时E _new，如果E _new小于E ₀，则接受新的分配方式，如果E _new大于或等于E ₀，则以概率p接受新的分配方式；其中，p＝exp(-(E _new-E ₀)/T)；

步骤三：更新当前温度T和扰动比例μ：T＝αT，μ＝αμ；

步骤四：判断更新后的当前温度T是否小于终止温度T _min，是则将当前的分配方式作为最终解，结束；否则跳到步骤二继续执行。

在一种实施方式中，针对上述按照名字中的预定字段进行关系组划分，并且按照汇聚节点进行聚类的关系组聚类方式，所述将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短，包括：

采用模拟退火算法将所有的可并行执行集合内的串行运行分支分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短。

在一种实施方式中，针对上述按照名字中的预定字段进行关系组划分，并且按照汇聚节点进行聚类的关系组聚类方式，所述采用模拟退火算法将所有的可并行执行集合内的串行运行分支分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短，包括：

步骤一：初始化：设置初始温度T ₀，终止温度T _min，每个温度内的迭代次数K，降温速率α，每次更新解时的扰动比例μ；在初始温度T ₀下，随机生成初始解X ₀，并计算初始耗时E ₀；其中，初始解X ₀是指将所有串行运行分支按照初始分配方式随机分配到目标设备；初始耗时E ₀是指在初始分配方式下执行模型运算后的总耗时；

步骤二：在当前温度T下进行K次扰动和接受过程，其中每一次扰动和接受过程包括：在当前温度T下，按照扰动比例μ随机挑选当前解X中的串行运行分支，并对挑选出的串行运行分支重新随机分配目标设备，并计算在新的分配方式下执行模型运算后的总耗时E _new，如果E _new小于E ₀，则接受新的分配方式，如果E _new大于或等于E ₀，则以概率p接受新的分配方式；其中，p＝exp(-(E _new-E ₀)/T)；

步骤三：更新当前温度T和扰动比例μ：T＝αT，μ＝αμ；

实施例2

如图2所示，本公开实施例提供了一种对深度学习模型进行并行处理的装置，包括：

关系组划分模块201，配置为确定模型中计算节点之间的依赖关系，根据所述依赖关系划分关系组；

集合划分模块202，配置为按照预定规则对关系组进行聚类，生成可并行执行集合；其中，每一个可并行执行集合内的关系组能够并行运行；

设备分配模块203，配置为将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短。

在一种实施方式中，关系组划分模块201，配置为采用以下方式确定模型中计算节点之间的依赖关系，根据所述依赖关系划分关系组：

按照以下至少一种方式划分关系组；

方式一：将具有相同属性的计算节点划分为同一个关系组；

在一种实施方式中，集合划分模块202，配置为采用以下方式按照预定规则对关系组进行聚类，生成可并行执行的集合：

在一种实施方式中，集合划分模块202，配置为采用以下方式挑选耗时排名靠前的多个关系组：

挑选耗时排名靠前的a个关系组；

在一种实施方式中，关系组划分模块201，配置为采用以下方式确定模型中计算之间的依赖关系，根据所述依赖关系划分关系组：

在一种实施方式中，集合划分模块202，配置为采用以下方式按照预定规则对关系组进行聚类，生成可并行执行集合：

在一种实施方式中，针对上述按照方式一和/或方式二进行关系组划分，并且在单个设备上按照耗时多少进行排序的关系组聚类方式，设备分配模块203，配置为采用以下方式将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短：

在一种实施方式中，针对上述按照方式一和/或方式二进行关系组划分，并且在单个设备上按照耗时多少进行排序的关系组聚类方式，设备分配模块203，配置为采用以下方式采用模拟退火算法将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短：

步骤三：更新当前温度T和扰动比例μ：T＝αT，μ＝αμ；

在一种实施方式中，针对上述按照名字中的预定字段进行关系组划分，并且按照汇聚节点进行聚类的关系组聚类方式，设备分配模块203，配置为采用以下方式将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短：

在一种实施方式中，针对上述按照名字中的预定字段进行关系组划分，并且按照汇聚节点进行聚类的关系组聚类方式，设备分配模块203，配置为采用以下方式采用模拟退火算法将所有的可并行执行集合内的串行运行分支分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短：

步骤三：更新当前温度T和扰动比例μ：T＝αT，μ＝αμ；

实施例3

本公开实施例提供了一种对深度学习模型进行并行处理的装置，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的对深度学习模型进行并行处理的程序，所述对深度学习模型进行并行处理的程序被所述处理器执行时实现上述实施例1中所述的对深度学习模型进行并行处理的方法的步骤。

实施例4

本公开实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有对深度学习模型进行并行处理的程序，所述对深度学习模型进行并行处理的程序被处理器执行时实现上述实施例1中所述的对深度学习模型进行并行处理的方法的步骤。

示例1

本示例提供一种对深度学习模型进行并行处理的方法。在Tensorflow中，每个深度学习的模型都对应一个计算图，也叫数据流图，是用节点和边组成的有向图来描述数学运算，每一个计算(OP)都是计算图上的一个节点，节点之间的边描述了计算之间的依赖关系，数据(Tensor)就在节点之间沿着边流动。一个复杂的深度学习模型的计算图往往包含成千上万个OP，比如本示例采用Inception-V3的计算图，所述计算图中包含了3万多个OP，模型并行就是要把这些OP进行分组，然后放到不同的设备上进行训练。

本示例中，对深度学习模型进行并行处理的方法，可以包括以下步骤：

1)确定每一个OP的上游OP和下游OP，如图3所示，为模型计算图的一部分；

2)划分关系组，即将关系紧密的OP归入同一个关系组。主要依据两个原则：一是具有相同colocation属性的OP放入同一个关系组；二是将只有一个下游节点且没有上游节点的OP，与其下游节点划分为同一个关系组。如图3所示，最底层两边的OP(用虚线表示) 可以分别与其上游OP划入一个关系组。

3)统计所有关系组在单个设备上运行的耗时，根据耗时从多到少对所有关系组进行排序；

4)挑选耗时排名靠前的多个关系组，在挑选出的关系组中搜索可并行执行集合，其中，所述可并行执行集合满足以下条件：所述可并行执行的集合中任意两个关系组之间没有n级以内的上下游关系；且所述可并行执行的集合中任意两个关系组之间具有n级以内的共同上游节点或共同下游节点；其中，n为预设值。

如图4所示，图中用虚线表示的三个关系组是耗时排名靠前的三个关系组，其中，关系组a和b之间有2级以内上下游关系，所以不能放到同一个并行执行集合内，而a和c之间完全满足上面的条件，所以可以放入同一个并行执行集合内。

5)采用模拟退火算法将所有的可并行执行集合内的关系组分配到多个目标设备上使得并行运算的耗时最短。

示例2

1)根据OP名字中的名称作用域字段对OP划分关系组，具有相同名称作用域的OP属于同一个关系组，当名称作用域包括嵌套层级时，则以最外层的名称作用域进行划分，如图5所示，有三个OP的名称作用域字段为“a”，其他4个OP的名称作用域字段为“b”，分别划分到左侧的虚线框包围的第一关系组和右侧的虚线框包围的第二关系组中。

2)遍历所有的关系组，搜索具有多个输入或者多个输出的汇聚节点。其中，图6示出了四种汇聚节点，从左到右依次是：单输入单输出，单输入多输出，多输入单输出，多输入多输出。

3)如图7所示，以具有多个输出的汇聚节点为起点，向下游遍历所述汇聚节点的所有输出节点直至遇到另一个汇聚节点为止，将所述两个汇聚节点之间的所有串行运行分支作为一个可并行执行集合。其中，所述串行运行分支是两个汇聚节点之间具有上下游关系的关系组集合；

4)采用模拟退火算法将所有的可并行执行集合内的串行运行分支分配到多个目标设备上使得并行运算的耗时最短。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

需要说明的是，本公开还可有其他多种实施例，在不背离本公开精神及其实质的情况下，熟悉本领域的技术人员可根据本公开作出各种相应的改变和变形，但这些相应的改变和变形都应属于本公开所附的权利要求的保护范围。

工业实用性

本公开实施例提供的一种对深度学习模型进行并行处理的方法及装置，确定模型中计算节点之间的依赖关系，根据所述依赖关系划分关系组；按照预定规则对关系组进行聚类，生成可并行执行集合；其中，每一个可并行执行集合内的关系组能够并行运行；将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短。本公开实施例能够自动拆分深度学习模型，提高深度学习模型采用模型并行时的分布式训练效率。

Claims

一种对深度学习模型进行并行处理的方法，包括：

确定模型中计算节点之间的依赖关系，根据所述依赖关系划分关系组；

按照预定规则对关系组进行聚类，生成可并行执行集合；其中，每一个可并行执行集合内的关系组能够并行运行；

将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短。
如权利要求1所述的方法，其中，

所述确定模型中计算节点之间的依赖关系，根据所述依赖关系划分关系组，包括：

确定每一个计算节点的上游节点和下游节点，以及该计算节点的属性；

按照以下至少一种方式划分关系组；

方式一：将具有相同属性的计算节点划分为同一个关系组；

方式二：将只有一个下游节点且没有上游节点的计算节点，与该计算节点的下游节点划分为同一个关系组。
如权利要求2所述的方法，其中，

所述按照预定规则对关系组进行聚类，生成可并行执行的集合，包括：

统计所有关系组在单个设备上运行的耗时，根据耗时从多到少对所有关系组进行排序；

挑选耗时排名靠前的多个关系组，在挑选出的关系组中搜索可并行执行的集合；

其中，所述可并行执行的集合满足以下条件：所述可并行执行的集合中任意两个关系组之间没有n级以内的上下游关系；且所述可并行执行的集合中任意两个关系组之间具有n级以内的共同上游节点或共同下游节点；其中，n为预设值。
如权利要求3所述的方法，其中，

所述挑选耗时排名靠前的多个关系组，包括：

挑选耗时排名靠前的a个关系组；

其中，a是使得a个关系组的耗时总和与所有关系组的耗时总和的比值大于或等于预定比例值的最小整数。
如权利要求1所述的方法，其中，

所述确定模型中计算之间的依赖关系，根据所述依赖关系划分关系组，包括：

根据计算节点的名字中的预定字段对计算节点划分关系组，具有相同预定字段的计算节点属于同一个关系组；

其中，所述预定字段包括：名称作用域字段；当所述名称作用域字段包括嵌套层级时，所述预定字段为所述最外层的名称作用域字段。
如权利要求5所述的方法，其中，

所述按照预定规则对关系组进行聚类，生成可并行执行集合，包括：

遍历所有的关系组，搜索具有多个输入或者多个输出的汇聚节点；

以具有多个输入的汇聚节点为起点，向上游遍历所述汇聚节点的所有输入节点直至遇到另一个汇聚节点为止，由所述两个汇聚节点之间的所有串行运行分支生成一个可并行执行集合；或者

以具有多个输出的汇聚节点为起点，向下游遍历所述汇聚节点的所有输出节点直至遇到另一个汇聚节点为止，由所述两个汇聚节点之间的所有串行运行分支生成一个可并行执行集合；

其中，所述串行运行分支是两个汇聚节点之间具有上下游关系的关系组的集合。
如权利要求3所述的方法，其中，

所述将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短，包括：

采用模拟退火算法将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短。
如权利要求7所述的方法，其中，

所述采用模拟退火算法将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短，包括：

步骤一：初始化：设置初始温度T ₀，终止温度T _min，每个温度内的迭代次数K，降温速率α，每次更新解时的扰动比例μ；在初始温度T ₀下，随机生成初始解X ₀，并计算初始耗时E ₀；其中，初始解X ₀是指将所有关系组按照初始分配方式随机分配到目标设备；初始耗时E ₀是指在初始分配方式下执行模型运算后的总耗时；

步骤二：在当前温度T下进行K次扰动和接受过程，其中每一次扰动和接受过程包括：在当前温度T下，按照扰动比例μ随机挑选当前解X中的关系组，并对挑选出的关系组重新随机分配目标设备，并计算在新的分配方式下执行模型运算后的总耗时E _new，如果E _new小于E ₀，则接受新的分配方式，如果E _new大于或等于E ₀，则以概率p接受新的分配方式；其中，p＝exp(-(E _new-E ₀)/T)；

步骤三：更新当前温度T和扰动比例μ：T＝αT，μ＝αμ；

步骤四：判断更新后的当前温度T是否小于终止温度T _min，是则将当前的分配方式作为最终解，结束；否则跳到步骤二继续执行。
如权利要求6所述的方法，其中，

所述将所有的可并行执行集合内的关系组分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短，包括：

采用模拟退火算法将所有的可并行执行集合内的串行运行分支分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短。
如权利要求9所述的方法，其中，

所述采用模拟退火算法将所有的可并行执行集合内的串行运行分支分配到多个目标设备上使得所有可并行执行集合的总并行运算的耗时最短，包括：

步骤一：初始化：设置初始温度T ₀，终止温度T _min，每个温度内的迭代次数K，降温速率α，每次更新解时的扰动比例μ；在初始温度T ₀下，随机生成初始解X ₀，并计算初始耗时E ₀；其中，初始解X ₀是指将所有串行运行分支按照初始分配方式随机分配到目标设备；初始耗时E ₀是指在初始分配方式下执行模型运算后的总耗时；

步骤二：在当前温度T下进行K次扰动和接受过程，其中每一次扰动和接受过程包括：在当前温度T下，按照扰动比例μ随机挑选当前解X中的串行运行分支，并对挑选出的串行运行分支重新随机分配目标设备，并计算在新的分配方式下执行模型运算后的总耗时E _new，如果E _new小于E ₀，则接受新的分配方式，如果E _new大于或等于E ₀，则以概率p接受新的分配方式；其中，p＝exp(-(E _new-E ₀)/T)；

步骤三：更新当前温度T和扰动比例私：T＝αT，μ＝αμ；

步骤四：判断更新后的当前温度T是否小于终止温度T _min，是则将当前的分配方式作为最终解，结束；否则跳到步骤二继续执行。
一种对深度学习模型进行并行处理的装置，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的对深度学习模型进行并行处理的程序，所述对深度学习模型进行并行处理的程序被所述处理器执行时实现上述权利要求1-10中任一项所述的对深度学习模型进行并行处理的方法的步骤。
一种计算机可读存储介质，所述计算机可读存储介质上存储有对深度学习模型进行并行处理的程序，所述对深度学习模型进行并行处理的程序被处理器执行时实现上述权利要求1-10中任一项所述的对深度学习模型进行并行处理的方法的步骤。