WO2022057465A1

WO2022057465A1 - 一种模型的训练方法、系统、设备以及介质

Info

Publication number: WO2022057465A1
Application number: PCT/CN2021/109505
Authority: WO
Inventors: 于彤
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2020-09-18
Filing date: 2021-07-30
Publication date: 2022-03-24
Also published as: CN112232508A

Abstract

本发明公开了一种模型的训练方法，包括以下步骤：获取待调整的多种超参数；根据预设的优先级将所述多种超参数分为若干个超参数组；根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证；根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值；利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案在进行超参数采样时，根据预设的优先级将超参数分类，并按顺序依次用超参数自动调优算法调整，从而用更少的计算资源找到更优的超参数组合，提升网络训练的精度和性能。

Description

一种模型的训练方法、系统、设备以及介质

本申请要求于2020年09月18日提交中国国家知识产权局，申请号为202010987664.7，发明名称为“一种模型的训练方法、系统、设备以及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及深度学习领域，具体涉及一种模型的训练方法、系统、设备以及存储介质。

背景技术

深度学习网络的超参数(Hyper-parameters)是指模型外部的参数，和网络参数(parameters)相比，它们的数量相对较少，并且在模型训练过程中不改变它们的取值。超参数一般可以分为两类，一类是和模型结构相关的超参数，比如dropout，模型的通道数、层数等等，它们的取值对模型的结构产生影响；另一类是和模型训练相关的超参数，比如学习率(learning rate)和优化器(optimizer)等，这些参数会对模型的训练速度和精度产生影响。其中，优化器是和模型参数训练相关的最重要的超参数之一。

深度学习网络的训练本身就是一个优化(optimization)的过程，这个优化过程就是找到参数(θ)组合，以减小损失函数(loss function)的数值，最终使损失函数取值最小。在优化过程中会根据计算得到的梯度和优化算法决定如何更新参数值，这里提到的优化算法就是优化器。优化器的选择对模型训练的速度和精度都有决定性的作用，并且它的选择对其他参数的选择，比如batch size的大小、学习率、动量(momentum)等等。超参数的种类可以有很多，但他们的重要性并不等同：重要性更高的超参数对模型精度的影响更大，而重要性相对较低的超参数则影响较小，而且有些次要的超参数的取值要等更主要的超参数取值确定以后才能考虑。甚至同样是重要性很高的超参数，也需要确定优化的先后顺序。比如优化算法或者优化器就是一个必须优先确定的超参数，当它确定之后才能选择学习率、动量、每个处理批次的大小(batch size)等等。甚至每个优化器对应的超参数数量也是不同的，比如在深度学习网络训练中常用的带动量的随机梯度下降(Stochastic Gradient Descent with momentum，SGD with momentum)优化算法，可能只用再考虑动量这一个超参数；但对于自适应矩估计算法(Adaptive moment estimation,Adam)来说，除了要考虑动量以外，还有和均方根相关的超参数和一个小量，因此相关的可调节的超参数就更多些。

目前使用超参数自动调优算法时，基本都不会区分超参数的优先级，无论采用什么具体的调优算法，流程都大体如下：选定需要调整的超参数以及每一个超参数的搜索空间；用特定算法从超参数的搜索空间内采样，采样算法可以是网格搜索、随机搜索、贝叶斯优化等等，通常会把所有超参数放在同等重要的程度进行采样，并不会区分优先级；每一组超参数对应一个深度学习网络，根据早停算法的具体设计，训练若干次迭代以后对每一组超参数对应的网络进行评估评估效果最好的网络所对应的超参数组合即为最优结果。

现有的超参数调优算法几乎不会考虑到不同超参数的重要程度和优先级的问题，所有的超参数都会以相同的优先级进行采样，这样就会带来一些问题。以优化器举例，对于SGD(Stochastic Gradient Descent，随机梯度下降)来说最优的学习率，对于Adam(Adaptive Moment Estimation，自适应矩估计)不一定是最优，动量的取值可能也会有很大差异。如果将优化器、学习率和动量放在同等重要的地位进行采样，会徒劳地增加采样维度。如果不计算资源去寻找最优解的话，会明显计算资源损耗；如果计算资源有限的话，则会影响最终精度。这里的主要原因是，很多超参数的取值受到优化器的选择影响。如果某些超参数与模型结构相关，而另一些与模型训练相关，也会遇到相似的情况：如果模型结构改变，对应的和训练相关的超参数也会有所不同，把它们放在一起调整是不合适的。这里的主要原因是，需要先有一个固定的网络结构，才方便对与训练相关的参数进行调整。

发明内容

有鉴于此，为了克服上述问题的至少一个方面，本发明实施例提出一种模型的训练方法，包括以下步骤：

获取待调整的多种超参数；

根据预设的优先级将所述多种超参数分为若干个超参数组；

根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证；

根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值；

利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型。

在一些实施例中，根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证，进一步还包括：

对优先级最高的超参数组中的每一种超参数进行采样；

利用每一次采样得到的所述优先级最高的超参数组对应的超参数值以及所述待调整的多种超参数中的其他的超参数对应的默认值构建多个模型；

利用数据集分别对构建的多个模型进行训练验证。

在一些实施例中，根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值，进一步包括：

在每一个模型的训练过程中采用早停算法；

将精度最大的模型中的采样得到的超参数值作为所述优先级最高的超参数组中对应的超参数的最终的超参数值。

对优先级次高的超参数组中的每一种超参数进行采样；

利用每一次采样得到的所述优先级次高的超参数组对应的超参数值、所述优先级最高的超参数组中每一种超参数采样得到的所述最终的超参数值以及所述待调整的多种超参数中的其他的超参数对应的默认值构建多个模型；

利用数据集分别对构建的多个模型进行训练验证。

在每一个模型的训练过程中采用早停算法；

将精度最大的模型中的采样得到的超参数值作为所述优先级次高的超参数组中对应的超参数的最终的超参数值。

对优先级最低的超参数组中的每一种超参数进行采样；

利用每一次采样得到的所述优先级最低的超参数组对应的超参数值、所述优先级最高的超参数组中每一种超参数采样得到的最终的超参数值以及所述优先级次高的超参数组中每一种超参数采样得到的最终的超参数值构建多个模型；

利用数据集分别对构建的多个模型进行训练验证。

在每一个模型的训练过程中采用早停算法；

将精度最大的模型中的采样得到的超参数值作为所述优先级最低的超参数组中对应的超参数的最终的超参数值。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种模型的训练系统，包括：

获取模块，所述获取模块配置为获取待调整的多种超参数；

划分模块，所述划分模块配置为根据预设的优先级将所述多种超参数分为若干个超参数组；

采样模块，所述采样模块配置为根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证；

确定模块，所述确定模块配置为根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值；

训练模块，所述训练模块配置为利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如上所述的任一种模型的训练方法的步骤。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时执行如上所述的任一种模型的训练方法的步骤。

本发明具有以下有益技术效果之一：本发明提出的方案在进行超参数采样时，根据预设的优先级将超参数分类，并按顺序依次用超参数自动调优算法调整，从而用更少的计算资源找到更优的超参数组合，提升网络训练的精度和性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明的实施例提供的模型的训练方法的流程示意图；

图2为本发明的实施例提供的模型的训练方法的流程框图；

图3为本发明的实施例提供的模型的训练系统的结构示意图；

图4为本发明的实施例提供的计算机设备的结构示意图；

图5为本发明的实施例提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

根据本发明的一个方面，本发明的实施例提出一种模型的训练方法，如图1所示，其可以包括步骤：

S1，获取待调整的多种超参数；

S2，根据预设的优先级将所述多种超参数分为若干个超参数组；

S3，根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证；

S4，根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值；

S5，利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型。

本发明提出的方案在进行超参数采样时，根据预设的优先级将超参数分类，并按顺序依次用超参数自动调优算法调整，从而用更少的计算资源找到更优的超参数组合，提升网络训练的精度和性能。

在一些实施例中，可以将所有可供调整的超参数分为三组，按照优先级顺序排序分别为与模型结构相关的超参数、优化器和与模型训练相关的超参数，并且为所有可供调整的超参数设定默认值，当用户选定想要调整的超参数之后，自动判断这些待调整的超参数属于哪一个组，并按顺序进行采样。

对优先级最高的超参数组中的每一种超参数进行采样；

利用数据集分别对构建的多个模型进行训练验证。

在每一个模型的训练过程中采用早停算法；

具体的，如图2所示，当待调整的超参数中存在与模型结构相关的超参数，则优先对与模型结构相关的超参数进行采样。可以采用某种超参数调优算法对模型结构相关的超参数进行采样，其余待调整的超参数保持默认值。根据早停算法的具体设定，训练每一组超参数组合对应的模型若干次迭代，选出其中精度最佳的模型对应的超参数组合，从而确定最佳的和模型结构相关的超参数取值。如果用户没有选择调整和模型结构相关的超参数，则直接进行下一等级的超参数组即与优化器相关的超参数的采样。

对优先级次高的超参数组中的每一种超参数进行采样；

利用数据集分别对构建的多个模型进行训练验证。

在每一个模型的训练过程中采用早停算法；

具体的，如图2所示，当待调整的超参数中存在与优化器相关的超参数，则可以对与模型结构相关的超参数进行采样后，进行对与优化器相关的超参数的采样。可以采用网格搜索调整优化器，与模型结构相关的超参数可以采用上一步得到的最佳组合，与训练相关的待调整的超参数保持默认值，或者其余的待调整的超参数均保持默认值(即用户没有选择调整和模型结构相关的超参数)。根据早停算法的具体设定，训练每一组超参数组合对应的模型若干次迭代，选出其中精度最佳的模型对应的优化器，从而确定最佳的优化器选项。如果用户没有选择调整优化器，则直接进行下一等级的超参数组即与模型训练相关的超参数的采样。

对优先级最低的超参数组中的每一种超参数进行采样；

利用数据集分别对构建的多个模型进行训练验证。

在每一个模型的训练过程中采用早停算法；

具体的，如图2所示，当待调整的超参数中存在与模型训练相关的超参数，则可以对与优化器相关的超参数进行采样后，进行对与模型训练相关的超参数的采样。采用某种超参数调优算法对模型训练相关的超参数进行采样，其余待调整的超参数使用前两步中得到的最佳组合。根据早停算法的具体设定，训练每一组超参数组合对应的模型若干次迭代，选出其中精度最佳的模型对应的超参数组合，从而确定最佳的和模型训练相关的超参数取值。如果用户没有选择调整和模型训练相关的超参数，则跳过此步。

需要说明的是，针对不同优先级的超参数组的采样时，可以采用不同的采样算法和早停算法。在一些实施例中，可以在初始阶段用户在选择待调整的超参数时，设置对每一超参数组采样时使用的采样算法以及训练验证时所使用的早停算法。

在一些实施例中，步骤S5，利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型中，具体的，在得到最佳的超参数组合后，训练该组合对应的深度学习网络，从而得到最终的精度值。

本发明提出的方案，将所有的超参数分为与模型结构相关、优化器、与模型训练相关三组，降低了采样时的维度，从而可以节省计算资源或在相似计算资源下得到更优的结果；因为超参数之间存在关联，将它们分组后得到的结果也更加准确；从而以更优的超参数组合训练网络，可以提升深度学习网络的精度。这样将超参数分类，并且制定优先级，解决将所有超参数放在同等位置上采样的问题。同时降低超参数采样过程中的维度，减少因采样维度增加而带来的额外计算资源消耗，并提升超参数质量，从而提升深度学习网络的精度。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种模型的训练系统400，如图3所示，包括：

获取模块401，所述获取模块401配置为获取待调整的多种超参数；

划分模块402，所述划分模块402配置为根据预设的优先级将所述多种超参数分为若干个超参数组；

采样模块403，所述采样模块403配置为根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证；

确定模块404，所述确定模块404配置为根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值；

训练模块405，所述训练模块405配置为利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型。

基于同一发明构思，根据本发明的另一个方面，如图4所示，本发明的实施例还提供了一种计算机设备501，包括：

至少一个处理器520；以及

存储器510，存储器510存储有可在处理器上运行的计算机程序511，处理器520执行程序时执行如上的任一种模型的训练方法的步骤。

基于同一发明构思，根据本发明的另一个方面，如图5所示，本发明的实施例还提供了一种计算机可读存储介质601，计算机可读存储介质601存储有计算机程序指令610，计算机程序指令610被处理器执行时执行如上的任一种模型的训练方法的步骤。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。

此外，应该明白的是，本文的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

一种模型的训练方法，其特征在于，包括以下步骤：

获取待调整的多种超参数；

根据预设的优先级将所述多种超参数分为若干个超参数组；

根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证；

根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值；

利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型。
如权利要求1所述的方法，其特征在于，根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证，进一步还包括：

对优先级最高的超参数组中的每一种超参数进行采样；

利用每一次采样得到的所述优先级最高的超参数组对应的超参数值以及所述待调整的多种超参数中的其他的超参数对应的默认值构建多个模型；

利用数据集分别对构建的多个模型进行训练验证。
如权利要求2所述的方法，其特征在于，根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值，进一步包括：

在每一个模型的训练过程中采用早停算法；

将精度最大的模型中的采样得到的超参数值作为所述优先级最高的超参数组中对应的超参数的最终的超参数值。
如权利要求3所述的方法，其特征在于，根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证，进一步还包括：

对优先级次高的超参数组中的每一种超参数进行采样；

利用每一次采样得到的所述优先级次高的超参数组对应的超参数值、所述优先级最高的超参数组中每一种超参数采样得到的所述最终的超参数值以及所述待调整的多种超参数中的其他的超参数对应的默认值构建多个模型；

利用数据集分别对构建的多个模型进行训练验证。
如权利要求4所述的方法，其特征在于，根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值，进一步包括：

在每一个模型的训练过程中采用早停算法；

将精度最大的模型中的采样得到的超参数值作为所述优先级次高的超参数组中对应的超参数的最终的超参数值。
如权利要求5所述的方法，其特征在于，根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证，进一步还包括：

对优先级最低的超参数组中的每一种超参数进行采样；

利用每一次采样得到的所述优先级最低的超参数组对应的超参数值、所述优先级最高的超参数组中每一种超参数采样得到的最终的超参数值以及所述优先级次高的超参数组中每一种超参数采样得到的最终的超参数值构建多个模型；

利用数据集分别对构建的多个模型进行训练验证。
如权利要求6所述的方法，其特征在于，根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值，进一步包括：

在每一个模型的训练过程中采用早停算法；

将精度最大的模型中的采样得到的超参数值作为所述优先级最低的超参数组中对应的超参数的最终的超参数值。
一种模型的训练系统，其特征在于，包括：

获取模块，所述获取模块配置为获取待调整的多种超参数；

划分模块，所述划分模块配置为根据预设的优先级将所述多种超参数分为若干个超参数组；

采样模块，所述采样模块配置为根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证；

确定模块，所述确定模块配置为根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值；

训练模块，所述训练模块配置为利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型。
一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1-7任意一项所述的方法的步骤。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1-7任意一项所述的方法的步骤。