WO2023226284A1

WO2023226284A1 - 一种深度学习模型的训练方法、装置、设备及存储介质

Info

Publication number: WO2023226284A1
Application number: PCT/CN2022/126231
Authority: WO
Inventors: 范高俊; 曾炜; 王晖
Original assignee: 鹏城实验室
Priority date: 2022-05-26
Filing date: 2022-10-19
Publication date: 2023-11-30
Also published as: CN114676795A; CN114676795B

Abstract

本发明涉及模型训练技术领域，具体是涉及一种深度学习模型的训练方法、装置、设备及存储介质。本发明首先根据待训练的深度学习模型所需要的训练数据集的容量选择将训练数据集存储至本地节点的存储方式，之后完成训练数据集在本地节点的存储操作，最后本地节点采用训练数据集训练深度学习模型。本发明根据训练数据集的容量将训练数据集存储至本地节点，能够节省存储数据所需要的时间，进而节省了训练所需要的整体时间，从而提高了训练效率。

Description

一种深度学习模型的训练方法、装置、设备及存储介质

技术领域

本发明涉及模型训练技术领域，具体是涉及一种深度学习模型的训练方法、装置、设备及存储介质。

背景技术

深度学习是业界逐渐流行的机器学习方法，可被用于图像、语音、视频、机器翻译等多种场景。以机器翻译为例，基于神经网络的机器翻译的效果明显提升。目前在某些语种和场景下，译文质量甚至可以达到人工翻译的水平。数据并行是对深度学习模型进行分布式训练的一种形式，其把训练数据分成多份，在不同计算节点上训练。如果计算节点没有共享的公共内存，只有容量受限的本地内存，而训练数据集的规模很大，无法存储于本地内存，就需要对训练数据集进行划分，一次性全部分配到各个计算节点上，然后计算节点依据各自分配的局部数据对深度学习模型进行训练。在分布式训练过程中，各计算节点需要与其他节点进行通信，以交换梯度数据。

现有技术在将训练数据集分配至本地节点(计算节点)时并没有考虑训练数据集的容量，导致节点依据分配的训练数据集训练深度学习模型的效率较低。

综上所述，现有技术训练深度学习模型的效率较低。

因此，现有技术还有待改进和提高。

发明内容

为解决上述技术问题，本发明提供了一种深度学习模型的训练方法、装置、设备及存储介质，解决了现有技术训练深度学习模型效率较低的问题。

为实现上述目的，本发明采用了以下技术方案：

第一方面，本发明提供一种深度学习模型的训练方法，其中，包括：

获取训练数据集的数据容量；

依据所述数据容量，存储所述训练数据集至本地节点；

依据存储至所述本地节点上的所述训练数据集，完成所述深度学习模型的训练。

在一种实现方式中，所述依据所述数据容量，存储所述训练数据集至本地节点，包括：

当所述数据容量小于与所述训练数据集所对应的预设容量，得到本地存储方式；

依据所述本地存储方式，将数据库中的所述训练数据集整体下载至所述本地节点，所述数据库位于所述本地节点的外部。

在一种实现方式中，所述依据存储至所述本地节点上的所述训练数据集，完成所述深度学习模型的训练，包括：

依据所述训练数据集训练所述深度学习模型，直至训练时长达到训练预设时长时，得到预训练之后的所述深度学习模型；

计算预训练之后的所述深度学习模型的模型训练精度；

依据所述模型训练精度和与所述深度学习模型对应的模型预设训练精度，完成所述深度学习模型的训练。

在一种实现方式中，所述依据所述模型训练精度和与所述深度学习模型对应的模型预设训练精度，完成所述深度学习模型的训练，包括：

当所述模型训练精度小于所述模型预设训练精度，得到所述目标存储方式中的本地分布式存储方式，所述本地分布式存储方式所对应的节点数量大于所述本地存储方式所对应的节点数量；

依据所述本地分布式存储方式，从所述数据库中重新下载数据至所述本地节点；

依据重新下载的数据，更新所述训练数据集；

依据更新之后的所述训练数据集，继续训练预训练之后的所述深度学习模型，完成所述深度学习模型的训练。

当所述数据容量大于等于与所述训练数据集所对应的预设容量，得到本地分布式存储方式；

依据所述本地分布式存储方式，将数据库中的所述训练数据集采用并行方式按照所述深度学习模型的训练进度下载至所述本地节点。

依据所述本地分布式存储方式，得到与所述本地分布式存储方式所对应的并行训练方式；

依据所述并行训练方式，得到构成所述并行训练方式的各个加速卡，所述加速卡为训练所述深度学习模型所需的硬件设备；

统计各个所述加速卡中单次训练所述深度学习模型所需的单次训练时长，

统计所述单次训练时长大于预设计时时长所对应的所述加速卡的数量；

计算大于预设计时时长所对应的所述加速卡的数量与所述加速卡的总量之比，得到数量比值；

依据所述数量比值，得到所述训练数据集的目标更新方式；

依据所述目标更新方式，更新所述训练数据集；

依据更新之后的所述训练数据集，完成所述深度学习模型的训练。

采用所述训练数据集对所述深度学习模型进行训练，得到单次训练之后的所述深度学习模型的模型训练精度；

依据所述模型训练精度和所述深度学习模型所对应的模型预设训练精度，得到所述深度学习模型的梯度调节系数；

依据所述梯度调节系数，调整所述深度学习模型的梯度值；

依据调整之后的所述梯度值、所述训练数据集，对单次训练之后的所述深度学习模型进行继续训练，完成所述深度学习模型的训练。

在一种实现方式中，所述依据所述梯度调节系数，调整所述深度学习模型的梯度值，包括：

统计各个所述加速卡单次训练所述深度学习模型所需的各个单次训练时长；

依据各个所述单次训练时长，得到最大的所述单次训练时长；

依据最大的所述单次训练时长、所述梯度调节系数，调整所述深度学习模型的梯度值。

在一种实现方式中，所述依据最大的所述单次训练时长、所述梯度调节系数，调整所述深度学习模型的梯度值，包括：

当最大的所述单次训练时长小于等于设定时长，将所述梯度调节系数乘以预设梯度，得到乘积结果；

依据所述乘积结果，调整所述深度学习模型的梯度值；

或者，当最大的所述单次训练时长大于所述设定时长，更新所述训练数据集；

依据更新之后的所述训练数据集，训练所述深度学习模型，得到与所述深度学习模型对应的更新之后的所述模型训练精度；

依据更新之后的所述模型训练精度，得到更新之后的所述梯度调节系数；

依据更新之后的所述梯度调节系数，调整所述深度学习模型的梯度值。

在一种实现方式中，所述依据存储至所述本地节点上的所述训练数据集，完成所述深度学习模型的训练，之后还包括：

统计完成所述深度学习模型的训练所需要的总时长；

计算完成训练之后的所述深度学习模型的模型精度；

当所述总时长大于训练预设训练时长且所述模型精度小于模型预设精度，重新训练所述深度学习模型。

在一种实现方式中，所述训练方法，还包括：

获取与所述数量比值所对应的所述第一预设比值和第二预设比值，所述第二预设比值大于所述第一预设比值；

获取与所述模型预设训练精度所对应的第一预设精度调节系数和第二预设精度调节系数，所述第二预设精度调节系数大于所述第一预设精度调节系数；

当所述数量比值大于所述第一预设比值而小于所述第二预设比值，将所述模型预设训练精度乘以所述第一预设精度调节系数，得到调节之后的所述模型预设训练精度；

或者，当所述数量比值大于所述第二预设比值，将所述模型预设训练精度乘以所述第二预设精度调节系数，得到调节之后的所述模型预设训练精度。

在一种实现方式中，所述训练方法，还包括：

计算所述深度学习模型的伸缩性；

依据所述伸缩性，调整用于训练所述深度学习模型的节点数量。

在一种实现方式中，所述训练方法，还包括：

获取与所述本地分布式存储方式的数据并行权重系数所对应的预设数据并行权重系数；

获取与所述深度学习模型的模型并行权重系数所对应的预设模型并行权重系数；

采用并行训练方式训练所述深度学习模型，得到训练之后的所述深度学习模型；

计算训练之后的所述深度学习模型的训练精度；

依据所述训练精度、所述预设数据并行权重系数、所述预设模型并行权重系数，调整所述数据并行权重系数和所述模型并行权重系数。

第二方面，本发明实施例还提供一种深度学习模型的训练装置，其中，所述装置包括如下组成部分：

容量计算模块，用于获取训练数据集的数据容量；

数据存储模块，用于依据所述数据容量，存储所述训练数据集至本地节点；

训练模块，用于依据存储至所述本地节点上的所述训练数据集，完成所述深度学习模型的训练。

第三方面，本发明实施例还提供一种终端设备，其中，所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的深度学习模型的训练程序，所述处理器执行所述深度学习模型的训练程序时，实现上述所述的深度学习模型的训练方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有深度学习模型的训练程序，所述深度学习模型的训练程序被处理器执行时，实现上述所述的深度学习模型的训练方法的步骤。

有益效果：本发明首先根据待训练的深度学习模型所需要的训练数据集的容量(数据集大小)选择将训练数据集存储至本地节点的存储方式，之后完成训练数据集在本地节点的存储操作，最后本地节点采用训练数据集训练深度学习模型。本发明根据训练数据集的容量将训练数据集存储至本地节点，能够节省存储数据所需要的时间，进而节省了训练所需要的整体时间，从而提高了训练效率。

附图说明

图1为本发明的整体流程图；

[根据细则91更正 28.01.2023]
图2为本发明实施例中的流程图；

图3为本发明实施例提供的终端设备的内部结构原理框图。

具体实施方式

以下结合实施例和说明书附图，对本发明中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

经研究发现，深度学习是业界逐渐流行的机器学习方法，可被用于图像、语音、视频、机器翻译等多种场景。以机器翻译为例，基于神经网络的机器翻译的效果明显提升。目前在某些语种和场景下，译文质量甚至可以达到人工翻译的水平。数据并行是对深度学习模型进行分布式训练的一种形式，其把训练数据分成多份，在不同计算节点上训练。如果计算节点没有共享的公共内存，只有容量受限的本地内存，而训练数据集的规模很大，无法存储于本地内存，就需要对训练数据集进行划分，一次性全部分配到各个计算节点上，然后计算节点依据各自分配的局部数据对深度学习模型进行训练。在分布式训练过程中，各计算节点需要与其他节点进行通信，以交换梯度数据。现有技术在将训练数据集分配至本地节点(计算节点)时并没有考虑训练数据集的容量，导致节点依据分配的训练数据集训练深度学习模型的效率较低。

为解决上述技术问题，本发明提供了一种深度学习模型的训练方法、装置、设备及存储介质，解决了现有技术训练深度学习模型效率较低的问题。具体实施时，获取训练数据集的数据容量；依据数据容量，存储训练数据集至本地节点；依据存储至本地节点上的训练数据集，完成深度学习模型的训练。本发明能够提高模型的训练效率。

举例说明，在本地节点的外部有一个数据库用于存储所有的数据，当需要训练深度学习模型时，根据训练深度学习模型所需要的训练数据集的大小(容量)而选择不同的存储方式，根据不同的存储方式将训练数据集存储至本地节点上。比如容量为A的训练数据集对应存储方式a，容量为B的训练数据集对应存储方式b。

示例性方法

本实施例的深度学习模型的训练方法可应用于终端设备中，所述终端设备可为具有计算功能的终端产品，比如电脑等。在本实施例中，如图1中所示，所述深度学习模型的训练方法具体包括如下步骤：

S100，获取训练数据集的数据容量。

深度学习模型应用的目标不同，用于训练深度学习模型的训练数据集的数据容量也不同。比如，一种深度学习模型是用于识别图像的，另一种深度学习模型是用于识别声音的，那么这两种深度学习模型所需要的训练数据集的数据容量就不同。还有训练到不同的精度所需要的训练数据集也不同。因此可以根据深度学习模型以及训练所要达到的精度得到对应的数据容量。

S200，依据所述数据容量，存储所述训练数据集至本地节点。

步骤S200包括两种情况，第一种情况：数据容量E小于与训练数据集所对应的预设容量E0，就采用本地存储方式将训练数据集从数据库下载到本地节点。本地节点上设置了专门用于存储训练数据集的本地内存。将所有的训练数据集一次下载到本地内存中，因为训练数据集的容量小，所以即使全部一次性下载到本地节点上，也不会占用本地节点的太多内存，因此不会影响本地节点训练深度学习模型，而且由于所有的训练数据集在训练之前已经都下载到了本地节点上了，因此在训练的过程中不需要从数据库下载数据了，最终提高了训练效率。

第二种情况：数据容量E大于等于与训练数据集所对应的预设容量E0，就采用本地分布式存储方式将数据库中的数据先下载到本地存储节点上(本地存储节点不同于本地节点，本地存储节点只用于存储数据)，之后在训练的过程中再将本地存储节点上的数据转存至本地节点上，本地节点利用训练数据集完成深度学习模型的训练。由于训练数据集很大，如果将其直接放在本地节点上，就会占用本地节点很大的内容，从而降低了训练效率。而本实施例将训练数据集先放在本地存储节点上，就能够减少训练数据集对本地节点内存的占用，从而提高了训练效率。在一个实施例中，也可以直接将训练数据集直接从数据库中下载至本地节点的内存上，但是不是一次下载，而是随着训练的进行逐步下载。

S300，依据存储至所述本地节点上的所述训练数据集，完成所述深度学习模型的训练。

当步骤S200为第一种情况时，步骤S300包括如下的步骤S301至S306：

S301，依据所述训练数据集训练所述深度学习模型，直至训练时长T达到训练预设时长T0时，得到预训练之后的所述深度学习模型。

S302，计算预训练之后的所述深度学习模型的模型训练精度X。

S303，当所述模型训练精度X小于所述模型预设训练精度X0，得到所述目标存储方式中的本地分布式存储方式，所述本地分布式存储方式所对应的节点数量大于所述本地存储方式所对应的节点数量。

本发明所述方法通过设置预设容量E0、训练预设时长T0以及模型预设训练精度X0,可以判定是否进行本地分布式存储数据训练，实现了训练整体过程的预先选择处理，实现了针对深度学习模型的分布式训练方法的预先处理和优先选择以及提高了模型训练的效率。

S304，依据所述本地分布式存储方式，从所述数据库中重新下载数据至所述本地节点。

S305，依据重新下载的数据，更新所述训练数据集。

S306，依据更新之后的所述训练数据集，继续训练预训练之后的所述深度学习模型，完成所述深度学习模型的训练。

本实施例在使用本地存储方式的训练数据集训练模型时，在训练的过程中还会监控模型训练精度X，如果在训练时长T达到训练预设时长T0时，但是模型训练精度X还没有达到模型预设训练精度X0，就说明使用本地存储方式的训练数据集不能很好的训练模型，就需要采用本地分布式存储方式重新从数据库中下载数据以继续完成后续的训练。

当然若T＜T0这段时间内X＞X0，就可以认为已经完成了模型的训练，就可以通过中控模块控制本地节点停止训练模型了。

当步骤S200为第二种情况(本地分布式存储方式)时，采用本地分布式存储方式下载的训练数据集并不能完成模型训练时，就需要重新下载训练数据集以完成训练，此时步骤S300包括如下的步骤S301a至S308a：

S301a，依据所述本地分布式存储方式，得到与所述本地分布式存储方式所对应的并行训练方式。

本实施例中并行训练方式即模型并行(本地节点有多个，每个本地节点都对模型进行训练，就构成了并行训练方法)

S302a，依据所述并行训练方式，得到构成所述并行训练方式的各个加速卡，所述加速卡为训练所述深度学习模型所需的硬件设备。

加速卡是本地节点(服务器)用于训练模型所依托的硬件设备。

S303a，统计各个所述加速卡中单次训练所述深度学习模型所需的单次训练时长。

S304a，统计所述单次训练时长大于预设计时时长t0(预设计算时长)所对应的所述加速卡的数量。

S305a，计算大于预设计时时长所对应的所述加速卡的数量与所述加速卡的总量之比，得到数量比值B。

比如有10个本地节点对模型进行并行训练，10个本地节点就有10个加速卡，其中有8个加速卡的单次训练时长大于预设计时时长t0，那么数量比值(占比)B就是十分之八。

S306a，依据所述数量比值，得到所述训练数据集的目标更新方式。

中控模块设有第一预设占比B1，第二预设占比B2，其中，B1＜B2。

若B≤B1，中控模块判定采用异步更新方式训练，此时的目标更新方式为异步更新方式。

若B1＜B≤B2，中控模块判定不采用异步更新方式训练。

若B＞B2，中控模块判定继续采用同步更新的方式，此时的目标更新方式为同步更新，中控模块计算△B并根据△B降低梯度，设定△B＝B-B2。

降低梯度就是降低模型中的参数所对应的值的大小。

S307a，依据所述目标更新方式，更新所述训练数据集。

S308a，依据更新之后的所述训练数据集，完成所述深度学习模型的训练。

本实施例中，异步更新方式就是不同步更新各个本地节点上的训练数据集，同步更新方式就是同步从数据库中下载新的数据至本地节点上的训练数据集以更新训练数据集。

本实施例，设置第一预设占比B1和第二预设占比B2，可以对同步更新和异步更新的方式进行判断选择，进一步实现了针对深度学习模型的分布式训练方法的预先处理和优先选择以及提高了模型训练的效率。

在一种实施例中，步骤S306a得到数量比值B之后，会根据数量比值B调整模型预设训练精度X0，得到调整之后的模型预设训练精度X’，模型下次训练时就以X’判读模型是否完成训练，调整模型预设训练精度X0具体包括如下步骤S3061a、S3062a、S3063a：

S3061a，获取与所述数量比值所对应的所述第一预设比值B′和第二预设比值B″，所述第二预设比值B″大于所述第一预设比值B′。

在一个实施例中，中控模块在增加梯度的过程中调节训练时长，在降低梯度的过程中调节训练的精度以使精度处于合理区间，中控模块设有第一预设占比比例差值△B1(B′＝ΔB1+B2)、第二预设占比比例差值△B2(B″＝ΔB2+B2)、第一预设精度调节系数β1以及第二预设精度调节系数β2，其中，0＜△B1＜△B2，0＜β1＜β2。

S3062a，获取与所述模型预设训练精度所对应的第一预设精度调节系数β1和第二预设精度调节系数β2，所述第二预设精度调节系数大于所述第一预设精度调节系数。

S3063a，当所述数量比值B大于第一预设比值B′而小于所述第二预设比值B″，将所述模型预设训练精度乘以所述第一预设精度调节系数β1，得到调节之后的所述模型预设训练精度X’。

即在梯度降低的过程中：

若△B1＜△B＜△B2，中控模块使用β1对训练精度进行调节，调节后的训练精度记为X’，设定X’＝X0×β1。

或者，当所述数量比值大于所述第二预设比值，将所述模型预设训练精度乘以所述第二预设精度调节系数，得到调节之后的所述模型预设训练精度X’。在梯度降低过程中，中控模块使用β2对训练精度进行调节，调节后的训练精度记为X’，设定X’＝X0×β2。

本实施例通过设置第一预设占比比例差值△B1、第二预设占比比例差值△B2、第一预设精度调节系数β1以及第二预设精度调节系数β2，可以对训练时长和训练精度进行调节，进一步实现了针对深度学习模型的分布式训练方法的预先处理和优先选择以及提高了模型训练的效率。

在一种实施例中，当步骤S200为第二种情况(本地分布式存储方式)时，通过调整梯度值(模型中的参数所对应的值)以完成模型的训练。此时步骤S300包括如下的步骤S301b至S3010b：

S301b，采用所述训练数据集对所述深度学习模型进行训练，得到单次训练之后的所述深度学习模型的模型训练精度。

S302b，依据所述模型训练精度X和所述深度学习模型所对应的模型预设训练精度X0，得到所述深度学习模型的梯度调节系数α。

梯度调节系数α就是完成单次训练之后再进行下次训练时，需要将梯度值按照梯度调节系数调大多少或调小多少。比如单次训练之后，模型中的其中一个参数值(梯度值)为h，再进行下次训练之前先将该参数值调整为h×α。

本实施例中，中控模块设有预设分布式存储数据所对应的模型预设训练精度X0、本地分布式存储方式所对应的预设梯度调节系数α0、预设第一精度差值△X1以及预设第二精度差值△X2，其中，0＜△X1＜△X2，当中控模块判定需进行本地分布式存储数据训练时，在单次训练过程中，若训练精度X低于预设训练精度X0，中控模块判定需增加训练梯度，中控模块根据精度差值△X(△X＝X0-X)确定梯度调节系数α。具体过程如下：

若△X＜△X1，所述中控模块将梯度调节系数记为α1，设定α1＝α0×1.2，此时梯度调节系数α就是α1；

若△X1＜△X＜△X2，所述中控模块将梯度调节系数记为α2，设定α2＝α0×1.4，此时梯度调节系数α就是α2；

若△X＞△X2，所述中控模块将梯度调节系数记为α3，设定α3＝α0×1.6，此时梯度调节系数α就是α3。

本实施例通过设置预设训练精度、预设梯度调节系数、预设第一精度差值以及预设第二精度差值，可以确定梯度调节系数，进一步实现了针对深度学习模型的分布式训练方法的预先处理和优先选择以及提高了模型训练的效率。

S303b，依据所述本地分布式存储方式，得到与所述本地分布式存储方式所对应的并行训练方式。

S304b，依据所述并行训练方式，得到构成所述并行训练方式的各个加速卡，所述加速卡为训练所述深度学习模型所需的硬件设备。

S305b，统计各个所述加速卡单次训练所述深度学习模型所需的各个单次训练时长。

S306b，依据各个所述单次训练时长，得到最大的所述单次训练时长tmax；当最大的所述单次训练时长tmax小于等于设定时长t′，将所述梯度调节系数α乘以预设梯度S0(大于0)，得到乘积结果S＝α×S0，将乘积结果S作为调整之后的梯度值。本实施例中，设定时长t′＝t0+Δt1，△t1为第一预设时间差值。

在梯度降低过程中：

若△B＜△B1，中控模块判定不调节梯度。

若△B＞△B2，所述中控模块使用α3对梯度进行调节，调节后的梯度记为S’,设定S’＝S0×α3。

在一种实施例中，当最大的所述单次训练时长大于所述设定时长t′，步骤S306b之后包括如下的步骤S307b至S3010b：

S307b，更新所述训练数据集，依据更新之后的所述训练数据集，训练所述深度学习模型，得到与所述深度学习模型对应的更新之后的所述模型训练精度。

S308b，依据更新之后的所述模型训练精度，得到更新之后的所述梯度调节系数。

S309b，依据更新之后的所述梯度调节系数，调整所述深度学习模型的梯度值。

S3010b，依据调整之后的所述梯度值、所述训练数据集，对单次训练之后的所述深度学习模型进行继续训练，完成所述深度学习模型的训练。

S307b至S3010b：若tmax大于t′但是却小于等于另一个设定时长t″(t″＝t0+Δt2，Δt2为第二预设时间差值)，所述中控模块检测实际计算时长t0的GPU加速卡的数量与该次训练中使用的GPU加速卡的总数的占比B与预设计算时长t0的GPU加速卡的数量与该次训练中使用的GPU加速卡的总数的占比B0的关系并根据检测结果判定是否选用异步更新方式；

若tmax大于t″，中控模块选用异步更新的方式进行训练。

本实施例通过设置预设计时时长t0、第一预设时间差值△t1、第二预设时间差值Δt2以及预设梯度S0，可以根据精度差值对梯度进行调节，从而实现训练的梯度控制，进一步实现了针对深度学习模型的分布式训练方法的预先处理和优先选择以及提高了模型训练的效率。

在一种实施例方式中，步骤S300在训练模型的过程中该调整本地节点的数量，具体过程：计算所述深度学习模型的伸缩性；依据所述伸缩性，调整用于训练所述深度学习模型的节点数量。

中控模块根据模型并行的伸缩性确定节点数量，所述中控模块设有预设第一伸缩性限值H1、预设第二伸缩性限值H2和预设节点数量W0,若H<H1，所述中控模块将减少节点数量，减少后的节点数量为0.5×W0；若H1<H<H2，所述中控模块将不对节点数量进行增减；若H＞H2，所述中控模块将不对节点数量进行增加，增加后的节点数量为1.5W0。

通过设置预设第一伸缩性限值、预设第二伸缩性限值和预设节点数量,可以对节点数量进行确定和调节，进一步实现了针对深度学习模型的分布式训练方法的预先处理和优先选择以及提高了模型训练的效率。

在一种实施例方式中，步骤S300在训练模型的过程中还调整各个训练数据集的权重以及位于各个本地节点上的模型的权重。具体过程包括：获取与所述本地分布式存储方式的数据并行权重系数所对应的预设数据并行权重系数；获取与所述深度学习模型的模型并行权重系数所对应的预设模型并行权重系数；采用并行训练方式训练所述深度学习模型，得到训练之后的所述深度学习模型；计算训练之后的所述深度学习模型的训练精度；依据所述训练精度、所述预设数据并行权重系数、所述预设模型并行权重系数，调整所述数据并行权重系数和所述模型并行权重系数。

当采用数据并行和模型并行一同对数据进行训练时，采用加权求和的方式确定针对数据的实际训练精度，可以根据实际情况调节权重系数，所述中控模块设有预设数据并行权重系数D0、预设数据并行训练精度Xa、预设模型并行训练精度Xb、预设数据并行训练精度权重系数Ka0、预设模型并行训练精度权重系数Kb0以及预设模型并行权重系数A0,其中，D0+A0＝1，Ka+Kb＝1，所述数据并行和模型并行一同训练的训练精度计算公式为：X’＝Ka×Xa+Kb×Xb。

当X’＞Ka0×Xa+Kb0×Xb时，所述中控模块判定训练精度符合标准，不对权重系数进行调整。

当X’＜Ka0×Xa+Kb0×Xb时，所述中控模块判定训练精度不符合标准，中控模块对数据并行权重系数和模型并行权重系数分别进行调整，调整后的实际数据并行权重系数记为D’，设定D’＝D0-0.3D0，调整后的实际模型并行权重系数记为A’，设定A’＝A0+0.3D0。

通过设置预设数据并行权重系数、预设训练精度以及预设模型并行权重系数，可以对权重系数进行调节以实现提高训练精度，进一步实现了针对深度学习模型的分布式训练方法的预先处理和优先选择以及提高了模型训练的效率。

在一种实施例中，当进行本地分布式存储训练时，所述中控模块根据单次训练过程的精度来增加训练的梯度，当单次数据训练的精度不符合要求时，中控模块根据不同的训练节点逐步增加训练的梯度。通过根据单次训练过程的精度来增加训练的梯度，当单次训练的精度不符合要求时，所述中控模块根据不同的训练节点逐步增加训练的梯度，进一步实现了针对深度学习模型的分布式训练方法的预先处理和优先选择以及提高了模型训练的效率。

如图2所示，在采用数据并行的方式完成训练时，若所述中控模块判定训练结果不符合标准时，中控模块根据数据并行方式的训练结果对是否需要结合模型并行方式重新进行训练进行判定，中控模块设有预设训练时长T0和预设数据并行训练方式总体训练精度X’0。

综上，本发明首先根据待训练的深度学习模型所需要的训练数据集的容量(数据集大小)选择将训练数据集存储至本地节点的存储方式，之后完成训练数据集在本地节点的存储操作，最后本地节点采用训练数据集训练深度学习模型。本发明根据训练数据集的容量将训练数据集存储至本地节点，能够节省存储数据所需要的时间，进而节省了训练所需要的整体时间，从而提高了训练效率，在训练开始前，中控模块根据待训练数据集的内存、预设训练时长、预设读取精度及平台训练任务情况判定是否启动本地分布式或本地存储训练，根据单次训练过程中的训练精度来增加训练的梯度，实现了针对深度学习模型的分布式训练方法的预先处理和优先选择以及提高了模型训练的效率。

示例性装置

本实施例还提供一种深度学习模型的训练装置，所述装置包括如下组成部分：

容量计算模块，用于获取训练数据集的数据容量；

训练模块，用于依据存储至所述本地节点上的所述训练数据集，完成所述深度学习模型的训练

基于上述实施例，本发明还提供了一种终端设备，其原理框图可以如图3所示。该终端设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中，该终端设备的处理器用于提供计算和控制能力。该终端设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种深度学习模型的训练方法。该终端设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该终端设备的温度传感器是预先在终端设备内部设置，用于检测内部设备的运行温度。

本领域技术人员可以理解，图3中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端设备的限定，具体的终端设备以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端设备，终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的深度学习模型的训练程序，处理器执行深度学习模型的训练程序时，实现如下操作指令：

获取训练数据集的数据容量；

依据所述数据容量，存储所述训练数据集至本地节点；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种深度学习模型的训练方法，其特征在于，包括：

获取训练数据集的数据容量；

依据所述数据容量，存储所述训练数据集至本地节点；

依据存储至所述本地节点上的所述训练数据集，完成所述深度学习模型的训练。
如权利要求1所述的深度学习模型的训练方法，其特征在于，所述依据所述数据容量，存储所述训练数据集至本地节点，包括：

当所述数据容量小于与所述训练数据集所对应的预设容量，得到本地存储方式；

依据所述本地存储方式，将数据库中的所述训练数据集整体下载至所述本地节点，所述数据库位于所述本地节点的外部。
如权利要求2所述的深度学习模型的训练方法，其特征在于，所述依据存储至所述本地节点上的所述训练数据集，完成所述深度学习模型的训练，包括：

依据所述训练数据集训练所述深度学习模型，直至训练时长达到训练预设时长时，得到预训练之后的所述深度学习模型；

计算预训练之后的所述深度学习模型的模型训练精度；

依据所述模型训练精度和与所述深度学习模型对应的模型预设训练精度，完成所述深度学习模型的训练。
如权利要求3所述的深度学习模型的训练方法，其特征在于，所述依据所述模型训练精度和与所述深度学习模型对应的模型预设训练精度，完成所述深度学习模型的训练，包括：

当所述模型训练精度小于所述模型预设训练精度，得到本地分布式存储方式，所述本地分布式存储方式所对应的节点数量大于所述本地存储方式所对应的节点数量；

依据所述本地分布式存储方式，从所述数据库中重新下载数据至所述本地节点；

依据重新下载的数据，更新所述训练数据集；

依据更新之后的所述训练数据集，继续训练预训练之后的所述深度学习模型，完成所述深度学习模型的训练。
如权利要求1所述的深度学习模型的训练方法，其特征在于，所述依据所述数据容量，存储所述训练数据集至本地节点，包括：

当所述数据容量大于等于与所述训练数据集所对应的预设容量，得到本地分布式存储方式；

依据所述本地分布式存储方式，将数据库中的所述训练数据集采用并行方式按照所述深度学习模型的训练进度下载至本地节点。
如权利要求5所述的深度学习模型的训练方法，其特征在于，所述依据存储至所述本地节点上的所述训练数据集，完成所述深度学习模型的训练，包括：

依据所述本地分布式存储方式，得到与所述本地分布式存储方式所对应的并行训练方式；

依据所述并行训练方式，得到构成所述并行训练方式的各个加速卡，所述加速卡为训练所述深度学习模型所需的硬件设备；

统计各个所述加速卡中单次训练所述深度学习模型所需的单次训练时长；

统计所述单次训练时长大于预设计时时长所对应的所述加速卡的数量；

计算大于预设计时时长所对应的所述加速卡的数量与所述加速卡的总量之比，得到数量比值；

依据所述数量比值，得到所述训练数据集的目标更新方式；

依据所述目标更新方式，更新所述训练数据集；

依据更新之后的所述训练数据集，完成所述深度学习模型的训练。
如权利要求5所述的深度学习模型的训练方法，其特征在于，所述依据存储至所述本地节点上的所述训练数据集，完成所述深度学习模型的训练，包括：

采用所述训练数据集对所述深度学习模型进行训练，得到单次训练之后的所述深度学习模型的模型训练精度；

依据所述模型训练精度和所述深度学习模型所对应的模型预设训练精度，得到所述深度学习模型的梯度调节系数；

依据所述梯度调节系数，调整所述深度学习模型的梯度值；

依据调整之后的所述梯度值、所述训练数据集，对单次训练之后的所述深度学习模型进行继续训练，完成所述深度学习模型的训练。
如权利要求7所述的深度学习模型的训练方法，其特征在于，所述依据所述梯度调节系数，调整所述深度学习模型的梯度值，包括：

依据所述本地分布式存储方式，得到与所述本地分布式存储方式所对应的并行训练方式；

依据所述并行训练方式，得到构成所述并行训练方式的各个加速卡，所述加速卡为训练所述深度学习模型所需的硬件设备；

统计各个所述加速卡单次训练所述深度学习模型所需的各个单次训练时长；

依据各个所述单次训练时长，得到最大的所述单次训练时长；

依据最大的所述单次训练时长、所述梯度调节系数，调整所述深度学习模型的梯度值。
如权利要求8所述的深度学习模型的训练方法，其特征在于，所述依据最大的所述单次训练时长、所述梯度调节系数，调整所述深度学习模型的梯度值，包括：

当最大的所述单次训练时长小于等于设定时长，将所述梯度调节系数乘以预设梯度，得到乘积结果；

依据所述乘积结果，调整所述深度学习模型的梯度值；

或者，当最大的所述单次训练时长大于所述设定时长，更新所述训练数据集；

依据更新之后的所述训练数据集，训练所述深度学习模型，得到与所述深度学习模型对应的更新之后的所述模型训练精度；

依据更新之后的所述模型训练精度，得到更新之后的所述梯度调节系数；

依据更新之后的所述梯度调节系数，调整所述深度学习模型的梯度值。
如权利要求1所述的深度学习模型的训练方法，其特征在于，所述依据存储至所述本地节点上的所述训练数据集，完成所述深度学习模型的训练，之后还包括：

统计完成所述深度学习模型的训练所需要的总时长；

计算完成训练之后的所述深度学习模型的模型精度；

当所述总时长大于训练预设训练时长且所述模型精度小于模型预设精度，重新训练所述深度学习模型。
如权利要求6所述的深度学习模型的训练方法，其特征在于，所述训练方法，还包括：

获取与所述数量比值所对应的第一预设比值和第二预设比值，所述第二预设比值大于所述第一预设比值；

获取所述深度学习模型所对应的模型预设训练精度；

获取与所述模型预设训练精度所对应的第一预设精度调节系数和第二预设精度调节系数，所述第二预设精度调节系数大于所述第一预设精度调节系数；

当所述数量比值大于所述第一预设比值而小于所述第二预设比值，将所述模型预设训练精度乘以所述第一预设精度调节系数，得到调节之后的所述模型预设训练精度；

或者，当所述数量比值大于所述第二预设比值，将所述模型预设训练精度乘以所述第二预设精度调节系数，得到调节之后的所述模型预设训练精度。
如权利要求1所述的深度学习模型的训练方法，其特征在于，所述训练方法，还包括：

计算所述深度学习模型的伸缩性；

依据所述伸缩性，调整用于训练所述深度学习模型的节点数量。
如权利要求5所述的深度学习模型的训练方法，其特征在于，所述训练方法，还包括：

获取与所述本地分布式存储方式的数据并行权重系数所对应的预设数据并行权重系数；

获取与所述深度学习模型的模型并行权重系数所对应的预设模型并行权重系数；

采用并行训练方式训练所述深度学习模型，得到训练之后的所述深度学习模型；

计算训练之后的所述深度学习模型的训练精度；

依据所述训练精度、所述预设数据并行权重系数、所述预设模型并行权重系数，调整所述数据并行权重系数和所述模型并行权重系数。
一种深度学习模型的训练装置，其特征在于，所述装置包括如下组成部分：

容量计算模块，用于获取训练数据集的数据容量；

数据存储模块，用于依据所述数据容量，存储所述训练数据集至本地节点；

训练模块，用于依据存储至所述本地节点上的所述训练数据集，完成所述深度学习模型的训练。
一种终端设备，其特征在于，所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的深度学习模型的训练程序，所述处理器执行所述深度学习模型的训练程序时，实现如权利要求1-13任一项所述的深度学习模型的训练方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有深度学习模型的训练程序，所述深度学习模型的训练程序被处理器执行时，实现如权利要求1-13任一项所述的深度学习模型的训练方法的步骤。