WO2022057465A1 - 一种模型的训练方法、系统、设备以及介质 - Google Patents
一种模型的训练方法、系统、设备以及介质 Download PDFInfo
- Publication number
- WO2022057465A1 WO2022057465A1 PCT/CN2021/109505 CN2021109505W WO2022057465A1 WO 2022057465 A1 WO2022057465 A1 WO 2022057465A1 CN 2021109505 W CN2021109505 W CN 2021109505W WO 2022057465 A1 WO2022057465 A1 WO 2022057465A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- hyperparameter
- training
- group
- hyperparameters
- model
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Definitions
- the present invention relates to the field of deep learning, in particular to a model training method, system, device and storage medium.
- the training of a deep learning network itself is an optimization process.
- This optimization process is to find a combination of parameters ( ⁇ ) to reduce the value of the loss function and finally minimize the loss function.
- ⁇ parameters
- the optimization algorithm mentioned here is the optimizer.
- the choice of optimizer has a decisive effect on the speed and accuracy of model training, and its choice on the choice of other parameters, such as the size of the batch size, learning rate, momentum (momentum) and so on.
- hyperparameters There can be many types of hyperparameters, but their importance is not equal: more important hyperparameters have a greater impact on model accuracy, while less important hyperparameters have less impact, and some are less important
- the value of the hyperparameters can only be considered after the values of the more important hyperparameters are determined. Even the hyperparameters that are also very important need to determine the order of optimization. For example, an optimization algorithm or an optimizer is a hyperparameter that must be determined first. When it is determined, the learning rate, momentum, batch size of each processing batch (batch size), etc. can be selected. Even the number of hyperparameters corresponding to each optimizer is different.
- the priority of hyperparameters is basically not distinguished.
- the process is generally as follows: select the hyperparameters to be adjusted and the search space of each hyperparameter ;Sampling from the search space of hyperparameters with a specific algorithm.
- the sampling algorithm can be grid search, random search, Bayesian optimization, etc.
- all hyperparameters are sampled at the same level of importance, and will not distinguish Priority; each set of hyperparameters corresponds to a deep learning network.
- the network corresponding to each set of hyperparameters is evaluated and the hyperparameter combination corresponding to the network with the best evaluation effect. is the optimal result.
- the several hyperparameter groups are sequentially sampled and trained and verified according to the priority order, further comprising:
- determining the final hyperparameter value corresponding to each hyperparameter in each hyperparameter group according to the training verification result further comprising:
- the hyperparameter value obtained by sampling in the model with the highest accuracy is used as the final hyperparameter value of the corresponding hyperparameter in the hyperparameter group with the highest priority.
- the early stopping algorithm is used in the training process of each model
- the hyperparameter value obtained by sampling in the model with the highest accuracy is used as the final hyperparameter value of the corresponding hyperparameter in the hyperparameter group with the second highest priority.
- the several hyperparameter groups are sequentially sampled and trained and verified according to the priority order, further comprising:
- determining the final hyperparameter value corresponding to each hyperparameter in each hyperparameter group according to the training verification result further comprising:
- the hyperparameter value sampled from the model with the highest accuracy is used as the final hyperparameter value of the corresponding hyperparameter in the hyperparameter group with the lowest priority.
- the acquisition module is configured to acquire various hyperparameters to be adjusted
- a dividing module which is configured to divide the various hyperparameters into several hyperparameter groups according to preset priorities
- a determination module the determination module is configured to determine the final hyperparameter value corresponding to each hyperparameter in each hyperparameter group according to the training verification result;
- an embodiment of the present invention further provides a computer device, including:
- a memory wherein the memory stores a computer program that can be executed on the processor, and is characterized in that, when the processor executes the program, the processor executes the steps of any one of the above-mentioned model training methods.
- the present invention has one of the following beneficial technical effects: when performing hyperparameter sampling, the solution proposed by the present invention classifies the hyperparameters according to the preset priority, and adjusts them with the hyperparameter automatic tuning algorithm in sequence, thereby using less Find a better combination of hyperparameters and improve the accuracy and performance of network training.
- FIG. 1 is a schematic flowchart of a training method for a model provided by an embodiment of the present invention
- FIG. 2 is a flowchart of a training method for a model provided by an embodiment of the present invention
- FIG. 3 is a schematic structural diagram of a model training system provided by an embodiment of the present invention.
- FIG. 4 is a schematic structural diagram of a computer device provided by an embodiment of the present invention.
- FIG. 5 is a schematic structural diagram of a computer-readable storage medium provided by an embodiment of the present invention.
- an embodiment of the present invention provides a method for training a model, as shown in FIG. 1 , which may include the steps:
- the several hyperparameter groups are sequentially sampled and trained and verified according to the priority order, further comprising:
- determining the final hyperparameter value corresponding to each hyperparameter in each hyperparameter group according to the training verification result further comprising:
- the early stopping algorithm is used in the training process of each model
- the hyperparameters related to the model structure are preferentially sampled.
- Some hyperparameter tuning algorithm can be used to sample the hyperparameters related to the model structure, and the remaining hyperparameters to be adjusted keep their default values.
- train the model corresponding to each set of hyperparameter combinations for several iterations and select the hyperparameter combination corresponding to the model with the best accuracy, so as to determine the optimal hyperparameters related to the model structure. value. If the user does not choose to adjust the hyperparameters related to the model structure, the sampling of the hyperparameters related to the optimizer is performed directly on the next level hyperparameter group.
- the several hyperparameter groups are sequentially sampled and trained and verified according to the priority order, further comprising:
- determining the final hyperparameter value corresponding to each hyperparameter in each hyperparameter group according to the training verification result further comprising:
- the early stopping algorithm is used in the training process of each model
- the hyperparameters related to the model structure can be sampled, and then the hyperparameters related to the optimizer can be sampled.
- Grid search can be used to adjust the optimizer, and the hyperparameters related to the model structure can use the best combination obtained in the previous step, and the hyperparameters related to training to be adjusted keep the default values, or the rest of the hyperparameters to be adjusted are kept at their default values. value (i.e. user did not choose to tune hyperparameters related to model structure).
- the several hyperparameter groups are sequentially sampled and trained and verified according to the priority order, further comprising:
- the hyperparameter value corresponding to the hyperparameter group with the lowest priority obtained by each sampling, the final hyperparameter value obtained by sampling each hyperparameter in the hyperparameter group with the highest priority, and the priority order The final hyperparameter values obtained by sampling each hyperparameter in the high hyperparameter group build multiple models;
- the early stopping algorithm is used in the training process of each model
- the hyperparameter value sampled from the model with the highest accuracy is used as the final hyperparameter value of the corresponding hyperparameter in the hyperparameter group with the lowest priority.
- the hyperparameters related to model training can be sampled after the hyperparameters related to the optimizer are sampled.
- a certain hyperparameter tuning algorithm is used to sample the hyperparameters related to model training, and the rest of the hyperparameters to be adjusted use the best combination obtained in the first two steps.
- train the model corresponding to each set of hyperparameter combinations for several iterations and select the hyperparameter combination corresponding to the model with the best accuracy, so as to determine the optimal hyperparameters related to model training. value. If the user did not choose to tune hyperparameters related to model training, skip this step.
- sampling algorithms and early stopping algorithms can be used for sampling of hyperparameter groups with different priorities.
- the sampling algorithm used for sampling each hyperparameter group and the early stopping algorithm used for training and verification may be set.
- step S5 the final hyperparameter value corresponding to each hyperparameter in each hyperparameter group is used to construct and train the model. Specifically, after obtaining the best hyperparameter combination, Train the deep learning network corresponding to the combination to get the final accuracy value.
- the solution proposed by the present invention divides all hyperparameters into three groups related to model structure, optimizer, and model training, which reduces the dimension of sampling, so that computing resources can be saved or better results can be obtained under similar computing resources.
- the results obtained by grouping them are also more accurate; thus training the network with a better combination of hyperparameters can improve the accuracy of the deep learning network.
- the dimension of the hyperparameter sampling process is reduced, the additional computing resource consumption caused by the increase of the sampling dimension is reduced, and the quality of the hyperparameter is improved, thereby improving the accuracy of the deep learning network.
- the acquisition module 401 is configured to acquire various hyperparameters to be adjusted;
- the dividing module 402 is configured to divide the various hyperparameters into several hyperparameter groups according to preset priorities;
- the sampling module 403 is configured to sequentially sample the several hyperparameter groups according to the priority order and perform training and verification;
- a training module 405, the training module 405 is configured to construct and train a model using the final hyperparameter value corresponding to each hyperparameter in each hyperparameter group.
- an embodiment of the present invention further provides a computer device 501, including:
- the memory 510 stores a computer program 511 that can be executed on the processor, and the processor 520 executes the steps of any of the above model training methods when executing the program.
- computer-readable storage media e.g. memory
- volatile memory e.g., memory
- non-volatile memory e.g., RAM
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种模型的训练方法,包括以下步骤:获取待调整的多种超参数;根据预设的优先级将所述多种超参数分为若干个超参数组;根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证;根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值;利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案在进行超参数采样时,根据预设的优先级将超参数分类,并按顺序依次用超参数自动调优算法调整,从而用更少的计算资源找到更优的超参数组合,提升网络训练的精度和性能。
Description
本申请要求于2020年09月18日提交中国国家知识产权局,申请号为202010987664.7,发明名称为“一种模型的训练方法、系统、设备以及介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本发明涉及深度学习领域,具体涉及一种模型的训练方法、系统、设备以及存储介质。
深度学习网络的超参数(Hyper-parameters)是指模型外部的参数,和网络参数(parameters)相比,它们的数量相对较少,并且在模型训练过程中不改变它们的取值。超参数一般可以分为两类,一类是和模型结构相关的超参数,比如dropout,模型的通道数、层数等等,它们的取值对模型的结构产生影响;另一类是和模型训练相关的超参数,比如学习率(learning rate)和优化器(optimizer)等,这些参数会对模型的训练速度和精度产生影响。其中,优化器是和模型参数训练相关的最重要的超参数之一。
深度学习网络的训练本身就是一个优化(optimization)的过程,这个优化过程就是找到参数(θ)组合,以减小损失函数(loss function)的数值,最终使损失函数取值最小。在优化过程中会根据计算得到的梯度和优化算法决定如何更新参数值,这里提到的优化算法就是优化器。优化器的选择对模型训练的速度和精度都有决定性的作用,并且它的选择对其他参 数的选择,比如batch size的大小、学习率、动量(momentum)等等。超参数的种类可以有很多,但他们的重要性并不等同:重要性更高的超参数对模型精度的影响更大,而重要性相对较低的超参数则影响较小,而且有些次要的超参数的取值要等更主要的超参数取值确定以后才能考虑。甚至同样是重要性很高的超参数,也需要确定优化的先后顺序。比如优化算法或者优化器就是一个必须优先确定的超参数,当它确定之后才能选择学习率、动量、每个处理批次的大小(batch size)等等。甚至每个优化器对应的超参数数量也是不同的,比如在深度学习网络训练中常用的带动量的随机梯度下降(Stochastic Gradient Descent with momentum,SGD with momentum)优化算法,可能只用再考虑动量这一个超参数;但对于自适应矩估计算法(Adaptive moment estimation,Adam)来说,除了要考虑动量以外,还有和均方根相关的超参数和一个小量,因此相关的可调节的超参数就更多些。
目前使用超参数自动调优算法时,基本都不会区分超参数的优先级,无论采用什么具体的调优算法,流程都大体如下:选定需要调整的超参数以及每一个超参数的搜索空间;用特定算法从超参数的搜索空间内采样,采样算法可以是网格搜索、随机搜索、贝叶斯优化等等,通常会把所有超参数放在同等重要的程度进行采样,并不会区分优先级;每一组超参数对应一个深度学习网络,根据早停算法的具体设计,训练若干次迭代以后对每一组超参数对应的网络进行评估评估效果最好的网络所对应的超参数组合即为最优结果。
现有的超参数调优算法几乎不会考虑到不同超参数的重要程度和优先级的问题,所有的超参数都会以相同的优先级进行采样,这样就会带来一些问题。以优化器举例,对于SGD(Stochastic Gradient Descent,随机梯度下降)来说最优的学习率,对于Adam(Adaptive Moment Estimation,自适 应矩估计)不一定是最优,动量的取值可能也会有很大差异。如果将优化器、学习率和动量放在同等重要的地位进行采样,会徒劳地增加采样维度。如果不计算资源去寻找最优解的话,会明显计算资源损耗;如果计算资源有限的话,则会影响最终精度。这里的主要原因是,很多超参数的取值受到优化器的选择影响。如果某些超参数与模型结构相关,而另一些与模型训练相关,也会遇到相似的情况:如果模型结构改变,对应的和训练相关的超参数也会有所不同,把它们放在一起调整是不合适的。这里的主要原因是,需要先有一个固定的网络结构,才方便对与训练相关的参数进行调整。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种模型的训练方法,包括以下步骤:
获取待调整的多种超参数;
根据预设的优先级将所述多种超参数分为若干个超参数组;
根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证;
根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值;
利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型。
在一些实施例中,根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证,进一步还包括:
对优先级最高的超参数组中的每一种超参数进行采样;
利用每一次采样得到的所述优先级最高的超参数组对应的超参数值以 及所述待调整的多种超参数中的其他的超参数对应的默认值构建多个模型;
利用数据集分别对构建的多个模型进行训练验证。
在一些实施例中,根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值,进一步包括:
在每一个模型的训练过程中采用早停算法;
将精度最大的模型中的采样得到的超参数值作为所述优先级最高的超参数组中对应的超参数的最终的超参数值。
在一些实施例中,根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证,进一步还包括:
对优先级次高的超参数组中的每一种超参数进行采样;
利用每一次采样得到的所述优先级次高的超参数组对应的超参数值、所述优先级最高的超参数组中每一种超参数采样得到的所述最终的超参数值以及所述待调整的多种超参数中的其他的超参数对应的默认值构建多个模型;
利用数据集分别对构建的多个模型进行训练验证。
在一些实施例中,根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值,进一步包括:
在每一个模型的训练过程中采用早停算法;
将精度最大的模型中的采样得到的超参数值作为所述优先级次高的超参数组中对应的超参数的最终的超参数值。
在一些实施例中,根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证,进一步还包括:
对优先级最低的超参数组中的每一种超参数进行采样;
利用每一次采样得到的所述优先级最低的超参数组对应的超参数值、所述优先级最高的超参数组中每一种超参数采样得到的最终的超参数值以及所述优先级次高的超参数组中每一种超参数采样得到的最终的超参数值构建多个模型;
利用数据集分别对构建的多个模型进行训练验证。
在一些实施例中,根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值,进一步包括:
在每一个模型的训练过程中采用早停算法;
将精度最大的模型中的采样得到的超参数值作为所述优先级最低的超参数组中对应的超参数的最终的超参数值。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种模型的训练系统,包括:
获取模块,所述获取模块配置为获取待调整的多种超参数;
划分模块,所述划分模块配置为根据预设的优先级将所述多种超参数分为若干个超参数组;
采样模块,所述采样模块配置为根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证;
确定模块,所述确定模块配置为根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值;
训练模块,所述训练模块配置为利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如上所述的任一种模型的训练方法的步骤。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如上所述的任一种模型的训练方法的步骤。
本发明具有以下有益技术效果之一:本发明提出的方案在进行超参数采样时,根据预设的优先级将超参数分类,并按顺序依次用超参数自动调优算法调整,从而用更少的计算资源找到更优的超参数组合,提升网络训练的精度和性能。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明的实施例提供的模型的训练方法的流程示意图;
图2为本发明的实施例提供的模型的训练方法的流程框图;
图3为本发明的实施例提供的模型的训练系统的结构示意图;
图4为本发明的实施例提供的计算机设备的结构示意图;
图5为本发明的实施例提供的计算机可读存储介质的结构示意图。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
根据本发明的一个方面,本发明的实施例提出一种模型的训练方法,如图1所示,其可以包括步骤:
S1,获取待调整的多种超参数;
S2,根据预设的优先级将所述多种超参数分为若干个超参数组;
S3,根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证;
S4,根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值;
S5,利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型。
本发明提出的方案在进行超参数采样时,根据预设的优先级将超参数分类,并按顺序依次用超参数自动调优算法调整,从而用更少的计算资源找到更优的超参数组合,提升网络训练的精度和性能。
在一些实施例中,可以将所有可供调整的超参数分为三组,按照优先级顺序排序分别为与模型结构相关的超参数、优化器和与模型训练相关的超参数,并且为所有可供调整的超参数设定默认值,当用户选定想要调整的超参数之后,自动判断这些待调整的超参数属于哪一个组,并按顺序进 行采样。
在一些实施例中,根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证,进一步还包括:
对优先级最高的超参数组中的每一种超参数进行采样;
利用每一次采样得到的所述优先级最高的超参数组对应的超参数值以及所述待调整的多种超参数中的其他的超参数对应的默认值构建多个模型;
利用数据集分别对构建的多个模型进行训练验证。
在一些实施例中,根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值,进一步包括:
在每一个模型的训练过程中采用早停算法;
将精度最大的模型中的采样得到的超参数值作为所述优先级最高的超参数组中对应的超参数的最终的超参数值。
具体的,如图2所示,当待调整的超参数中存在与模型结构相关的超参数,则优先对与模型结构相关的超参数进行采样。可以采用某种超参数调优算法对模型结构相关的超参数进行采样,其余待调整的超参数保持默认值。根据早停算法的具体设定,训练每一组超参数组合对应的模型若干次迭代,选出其中精度最佳的模型对应的超参数组合,从而确定最佳的和模型结构相关的超参数取值。如果用户没有选择调整和模型结构相关的超参数,则直接进行下一等级的超参数组即与优化器相关的超参数的采样。
在一些实施例中,根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证,进一步还包括:
对优先级次高的超参数组中的每一种超参数进行采样;
利用每一次采样得到的所述优先级次高的超参数组对应的超参数值、所述优先级最高的超参数组中每一种超参数采样得到的所述最终的超参数 值以及所述待调整的多种超参数中的其他的超参数对应的默认值构建多个模型;
利用数据集分别对构建的多个模型进行训练验证。
在一些实施例中,根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值,进一步包括:
在每一个模型的训练过程中采用早停算法;
将精度最大的模型中的采样得到的超参数值作为所述优先级次高的超参数组中对应的超参数的最终的超参数值。
具体的,如图2所示,当待调整的超参数中存在与优化器相关的超参数,则可以对与模型结构相关的超参数进行采样后,进行对与优化器相关的超参数的采样。可以采用网格搜索调整优化器,与模型结构相关的超参数可以采用上一步得到的最佳组合,与训练相关的待调整的超参数保持默认值,或者其余的待调整的超参数均保持默认值(即用户没有选择调整和模型结构相关的超参数)。根据早停算法的具体设定,训练每一组超参数组合对应的模型若干次迭代,选出其中精度最佳的模型对应的优化器,从而确定最佳的优化器选项。如果用户没有选择调整优化器,则直接进行下一等级的超参数组即与模型训练相关的超参数的采样。
在一些实施例中,根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证,进一步还包括:
对优先级最低的超参数组中的每一种超参数进行采样;
利用每一次采样得到的所述优先级最低的超参数组对应的超参数值、所述优先级最高的超参数组中每一种超参数采样得到的最终的超参数值以及所述优先级次高的超参数组中每一种超参数采样得到的最终的超参数值构建多个模型;
利用数据集分别对构建的多个模型进行训练验证。
在一些实施例中,根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值,进一步包括:
在每一个模型的训练过程中采用早停算法;
将精度最大的模型中的采样得到的超参数值作为所述优先级最低的超参数组中对应的超参数的最终的超参数值。
具体的,如图2所示,当待调整的超参数中存在与模型训练相关的超参数,则可以对与优化器相关的超参数进行采样后,进行对与模型训练相关的超参数的采样。采用某种超参数调优算法对模型训练相关的超参数进行采样,其余待调整的超参数使用前两步中得到的最佳组合。根据早停算法的具体设定,训练每一组超参数组合对应的模型若干次迭代,选出其中精度最佳的模型对应的超参数组合,从而确定最佳的和模型训练相关的超参数取值。如果用户没有选择调整和模型训练相关的超参数,则跳过此步。
需要说明的是,针对不同优先级的超参数组的采样时,可以采用不同的采样算法和早停算法。在一些实施例中,可以在初始阶段用户在选择待调整的超参数时,设置对每一超参数组采样时使用的采样算法以及训练验证时所使用的早停算法。
在一些实施例中,步骤S5,利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型中,具体的,在得到最佳的超参数组合后,训练该组合对应的深度学习网络,从而得到最终的精度值。
本发明提出的方案,将所有的超参数分为与模型结构相关、优化器、与模型训练相关三组,降低了采样时的维度,从而可以节省计算资源或在相似计算资源下得到更优的结果;因为超参数之间存在关联,将它们分组后得到的结果也更加准确;从而以更优的超参数组合训练网络,可以提升 深度学习网络的精度。这样将超参数分类,并且制定优先级,解决将所有超参数放在同等位置上采样的问题。同时降低超参数采样过程中的维度,减少因采样维度增加而带来的额外计算资源消耗,并提升超参数质量,从而提升深度学习网络的精度。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种模型的训练系统400,如图3所示,包括:
获取模块401,所述获取模块401配置为获取待调整的多种超参数;
划分模块402,所述划分模块402配置为根据预设的优先级将所述多种超参数分为若干个超参数组;
采样模块403,所述采样模块403配置为根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证;
确定模块404,所述确定模块404配置为根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值;
训练模块405,所述训练模块405配置为利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型。
基于同一发明构思,根据本发明的另一个方面,如图4所示,本发明的实施例还提供了一种计算机设备501,包括:
至少一个处理器520;以及
存储器510,存储器510存储有可在处理器上运行的计算机程序511,处理器520执行程序时执行如上的任一种模型的训练方法的步骤。
基于同一发明构思,根据本发明的另一个方面,如图5所示,本发明的实施例还提供了一种计算机可读存储介质601,计算机可读存储介质601存储有计算机程序指令610,计算机程序指令610被处理器执行时执行如上的任一种模型的训练方法的步骤。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优 劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
- 一种模型的训练方法,其特征在于,包括以下步骤:获取待调整的多种超参数;根据预设的优先级将所述多种超参数分为若干个超参数组;根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证;根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值;利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型。
- 如权利要求1所述的方法,其特征在于,根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证,进一步还包括:对优先级最高的超参数组中的每一种超参数进行采样;利用每一次采样得到的所述优先级最高的超参数组对应的超参数值以及所述待调整的多种超参数中的其他的超参数对应的默认值构建多个模型;利用数据集分别对构建的多个模型进行训练验证。
- 如权利要求2所述的方法,其特征在于,根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值,进一步包括:在每一个模型的训练过程中采用早停算法;将精度最大的模型中的采样得到的超参数值作为所述优先级最高的超参数组中对应的超参数的最终的超参数值。
- 如权利要求3所述的方法,其特征在于,根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证,进一步还包括:对优先级次高的超参数组中的每一种超参数进行采样;利用每一次采样得到的所述优先级次高的超参数组对应的超参数值、所述优先级最高的超参数组中每一种超参数采样得到的所述最终的超参数值以及所述待调整的多种超参数中的其他的超参数对应的默认值构建多个模型;利用数据集分别对构建的多个模型进行训练验证。
- 如权利要求4所述的方法,其特征在于,根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值,进一步包括:在每一个模型的训练过程中采用早停算法;将精度最大的模型中的采样得到的超参数值作为所述优先级次高的超参数组中对应的超参数的最终的超参数值。
- 如权利要求5所述的方法,其特征在于,根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证,进一步还包括:对优先级最低的超参数组中的每一种超参数进行采样;利用每一次采样得到的所述优先级最低的超参数组对应的超参数值、所述优先级最高的超参数组中每一种超参数采样得到的最终的超参数值以及所述优先级次高的超参数组中每一种超参数采样得到的最终的超参数值构建多个模型;利用数据集分别对构建的多个模型进行训练验证。
- 如权利要求6所述的方法,其特征在于,根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值,进一步包括:在每一个模型的训练过程中采用早停算法;将精度最大的模型中的采样得到的超参数值作为所述优先级最低的超参数组中对应的超参数的最终的超参数值。
- 一种模型的训练系统,其特征在于,包括:获取模块,所述获取模块配置为获取待调整的多种超参数;划分模块,所述划分模块配置为根据预设的优先级将所述多种超参数分为若干个超参数组;采样模块,所述采样模块配置为根据优先级顺序依次对所述若干个超参数组进行采样并进行训练验证;确定模块,所述确定模块配置为根据训练验证结果确定每一个超参数组中的每一种超参数对应的最终的超参数值;训练模块,所述训练模块配置为利用所述每一个超参数组中的每一种超参数对应的最终的超参数值构建并训练模型。
- 一种计算机设备,包括:至少一个处理器;以及存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如权利要求1-7任意一项所述的方法的步骤。
- 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行如权利要求1-7任意一项所述的方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010987664.7 | 2020-09-18 | ||
CN202010987664.7A CN112232508A (zh) | 2020-09-18 | 2020-09-18 | 一种模型的训练方法、系统、设备以及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022057465A1 true WO2022057465A1 (zh) | 2022-03-24 |
Family
ID=74107107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2021/109505 WO2022057465A1 (zh) | 2020-09-18 | 2021-07-30 | 一种模型的训练方法、系统、设备以及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112232508A (zh) |
WO (1) | WO2022057465A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232508A (zh) * | 2020-09-18 | 2021-01-15 | 苏州浪潮智能科技有限公司 | 一种模型的训练方法、系统、设备以及介质 |
CN112862107A (zh) * | 2021-01-26 | 2021-05-28 | 贝式计算(天津)信息技术有限公司 | 自动建模运行系统及运行方法 |
CN113128680B (zh) * | 2021-03-12 | 2022-06-10 | 山东英信计算机技术有限公司 | 一种神经网络训练方法、系统、设备以及介质 |
CN113536690B (zh) * | 2021-07-30 | 2024-02-27 | 安徽容知日新科技股份有限公司 | 一种模型的参数调整方法及计算设备 |
CN113722987B (zh) * | 2021-08-16 | 2023-11-03 | 京东科技控股股份有限公司 | 联邦学习模型的训练方法、装置、电子设备和存储介质 |
CN114494238A (zh) * | 2021-08-26 | 2022-05-13 | 深圳科亚医疗科技有限公司 | 一种病理图像的训练集处理方法和系统 |
CN115374910B (zh) * | 2022-08-25 | 2024-06-28 | 上海人工智能创新中心 | 一种更新深度学习训练超参数的方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180121814A1 (en) * | 2016-10-31 | 2018-05-03 | Microsoft Technology Licensing, Llc | Hyperparameter tuning |
CN110770764A (zh) * | 2018-10-30 | 2020-02-07 | 深圳市大疆创新科技有限公司 | 超参数的优化方法及装置 |
CN112232508A (zh) * | 2020-09-18 | 2021-01-15 | 苏州浪潮智能科技有限公司 | 一种模型的训练方法、系统、设备以及介质 |
-
2020
- 2020-09-18 CN CN202010987664.7A patent/CN112232508A/zh active Pending
-
2021
- 2021-07-30 WO PCT/CN2021/109505 patent/WO2022057465A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180121814A1 (en) * | 2016-10-31 | 2018-05-03 | Microsoft Technology Licensing, Llc | Hyperparameter tuning |
CN110770764A (zh) * | 2018-10-30 | 2020-02-07 | 深圳市大疆创新科技有限公司 | 超参数的优化方法及装置 |
CN112232508A (zh) * | 2020-09-18 | 2021-01-15 | 苏州浪潮智能科技有限公司 | 一种模型的训练方法、系统、设备以及介质 |
Non-Patent Citations (1)
Title |
---|
TONG YU; HONG ZHU: "Hyper-Parameter Optimization: A Review of Algorithms and Applications", ARXIV.ORG, 12 March 2020 (2020-03-12), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081620036 * |
Also Published As
Publication number | Publication date |
---|---|
CN112232508A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022057465A1 (zh) | 一种模型的训练方法、系统、设备以及介质 | |
JP6740597B2 (ja) | 学習方法、学習プログラムおよび情報処理装置 | |
US11354594B2 (en) | Black-box optimization using neural networks | |
CN109902722A (zh) | 分类器、神经网络模型训练方法、数据处理设备及介质 | |
WO2017161646A1 (zh) | 大数据量预测的三层联合动态选择最优模型方法 | |
KR102090239B1 (ko) | 계층융합통계정보를 활용한 고속이상탐지방법 및 그 시스템 | |
WO2019153503A1 (zh) | 软件测试方法、计算机可读存储介质、终端设备及装置 | |
CN112686383B (zh) | 一种通信并行的分布式随机梯度下降的方法、系统及装置 | |
WO2020082595A1 (zh) | 图像分类方法、终端设备及计算机非易失性可读存储介质 | |
CN117078049A (zh) | 一种国土空间规划评估方法及系统 | |
US7719983B2 (en) | Method for autonomic system management using adaptive allocation of resources | |
CN110191015B (zh) | 基于cpi指标的云服务性能智能预测方法和装置 | |
CN111476369A (zh) | 一种神经网络模型的训练方法 | |
CN106326005B (zh) | 一种迭代型MapReduce作业的参数自动调优方法 | |
CN113596153B (zh) | 一种数据均衡方法及系统 | |
CN111783839A (zh) | 一种基于自动集成学习的图像分类方法 | |
WO2018098670A1 (zh) | 一种进行数据处理的方法和装置 | |
CN112632320A (zh) | 基于长尾分布提升语音分类尾部识别准确度的方法 | |
CN112560376A (zh) | 一种半导体器件模型参数的优化方法 | |
CN115374910B (zh) | 一种更新深度学习训练超参数的方法、装置及设备 | |
WO2016197621A1 (zh) | 一种调整服务器的频率的方法及装置 | |
CN113938292B (zh) | 一种基于概念漂移的漏洞攻击流量检测方法及检测系统 | |
CN113127446B (zh) | 一种基于Ottertune服务的集群调优方法及装置 | |
JP2020003860A (ja) | 学習システム、処理装置、処理方法、およびプログラム | |
CN111652384B (zh) | 一种数据量分布的平衡方法及数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21868294 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21868294 Country of ref document: EP Kind code of ref document: A1 |