WO2021139237A1

WO2021139237A1 - 损失函数的优化方法、装置、设备及存储介质

Info

Publication number: WO2021139237A1
Application number: PCT/CN2020/118303
Authority: WO
Inventors: 郭跃超; 谯轶轩; 唐义君; 王俊; 高鹏; 谢国彤
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-05-14
Filing date: 2020-09-28
Publication date: 2021-07-15
Also published as: CN111738408A

Abstract

本申请涉及基架运维领域，公开了一种损失函数的优化方法、装置、设备及存储介质，用于解决损失函数收敛准确率低下的问题。损失函数的优化方法包括：获取待优化的机器学习任务，机器学习任务用于指示收敛机器学习模型中的损失函数；利用第一优化器对机器学习任务进行训练，得到第一慢权重，第一慢权重用于指示机器学习任务采用第一优化器进行迭代后得到的结果；利用第二优化器对机器学习任务进行训练，得到第二慢权重，第二慢权重用于指示机器学习任务采用第二优化器进行迭代后得到的结果；依据预置合并公式将第一慢权重与第二慢权重进行合并，得到目标更新权重；计算每个迭代阶段的目标更新权重，直到损失函数收敛完成。

Description

损失函数的优化方法、装置、设备及存储介质

本申请要求于2020年5月14日提交中国专利局、申请号为202010405723.5、发明名称为“损失函数的优化方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及基架运维领域，尤其涉及一种损失函数的优化方法、装置、设备及存储介质。

背景技术

随着神经网络在计算机中的普及，深度学习是能够使神经网络学习如何抓取数据的特征，在抓取到数据特征后，抓取到的数据特征与真实的数据特征之间会有差异，因此需要及时优化损失函数。因此在深度学习网络中优化器是优化损失函数的重要工具。目前深度学习中的优化器常用的是随机梯度下降法(stochastic gradient descent，SGD)，利用SGD优化损失函数时，会使用一个小批量的数据使得梯度随机下降，经过不断的迭代与收敛得到最优的损失函数。

发明人意识到SGD在进行优化损失函数的后期时，易出现损失函数陷入局部最小值的情况，导致损失函数在收敛时异常抖动从而达不到收敛的最优情况，进而导致损失函数的收敛准确率与效率低下。

发明内容

本申请提供一种损失函数的优化方法，用于提高损失函数的收敛准确率以及收敛效率。

本申请第一方面提供了一种损失函数的优化方法，包括：获取待优化的机器学习任务，所述机器学习任务用于指示收敛机器学习模型中的损失函数；利用第一优化器对所述机器学习任务进行训练，得到第一慢权重，所述第一慢权重用于所述指示机器学习任务采用第一优化器进行迭代后得到的结果；利用第二优化器对所述机器学习任务进行训练，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用第二优化器进行迭代后得到的结果；依据预置合并公式将所述第一慢权重与所述第二慢权重进行合并，得到目标更新权重；计算每个迭代阶段的目标更新权重，直到所述损失函数收敛完成。

本申请第二方面提供了一种损失函数的优化设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：获取待优化的机器学习任务，所述机器学习任务用于指示收敛机器学习模型中的损失函数；利用第一优化器对所述机器学习任务进行训练，得到第一慢权重，所述第一慢权重用于所述指示机器学习任务采用第一优化器进行迭代后得到的结果；利用第二优化器对所述机器学习任务进行训练，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用第二优化器进行迭代后得到的结果；依据预置合并公式将所述第一慢权重与所述第二慢权重进行合并，得到目标更新权重；计算每个迭代阶段的目标更新权重，直到所述损失函数收敛完成。

本申请的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：获取待优化的机器学习任务，所述机器学习任务用于指示收敛机器学习模型中的损失函数；利用第一优化器对所述机器学习任务进行训练，得到第一慢权重，所述第一慢权重用于所述指示机器学习任务采用第一优化器进行迭代后得到的结果；利用第二优化器对所述机器学习任务进行训练，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用第二优化器进行迭代后得到的结果；依据预置合并公式将所述第一慢权重与所述第二慢权重进行合并，得到目标更新权重；计算每个迭代阶段的目标更新权重，直到所述损失函数收敛完成。

本申请第四方面提供了一种损失函数的优化装置，包括：获取模块，用于获取待优化的机器学习任务，所述机器学习任务用于指示收敛机器学习模型中的损失函数；第一优化模块，用于利用第一优化器对所述机器学习任务进行训练，得到第一慢权重，所述第一慢权重用于所述指示机器学习任务采用第一优化器进行迭代后得到的结果；第二优化模块，用于利用第二优化器对所述机器学习任务进行训练，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用第二优化器进行迭代后得到的结果；合并模块，用于依据预置合并公式将所述第一慢权重与所述第二慢权重进行合并，得到目标更新权重；迭代模块，用于计算每个迭代阶段的所述目标更新权重，直到损失函数收敛完成。

本申请提供的技术方案中，获取待优化的机器学习任务，所述机器学习任务用于指示收敛机器学习模型中的损失函数；利用第一优化器对所述机器学习任务进行训练，得到第一慢权重，所述第一慢权重用于所述指示机器学习任务采用第一优化器进行迭代后得到的结果；利用第二优化器对所述机器学习任务进行训练，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用第二优化器进行迭代后得到的结果；依据预置合并公式将所述第一慢权重与所述第二慢权重进行合并，得到目标更新权重；计算每个迭代阶段的所述目标更新权重，直到损失函数收敛完成。本申请实施例中，将第一优化器计算得到的第一慢权重与第二优化器计算得到的第二慢权重进行整合计算，得到目标更新权重，最后进行迭代计算直到损失函数收敛，减少了计算权重的计算时间以及损失函数在收敛时的异常抖动，提高了损失函数的收敛准确率以及收敛效率。

附图说明

图1为本申请实施例中损失函数的优化方法的一个实施例示意图；

图2为本申请实施例中损失函数的优化方法的另一个实施例示意图；

图3为本申请实施例中损失函数的优化装置的一个实施例示意图；

图4为本申请实施例中损失函数的优化装置的另一个实施例示意图；

图5为本申请实施例中损失函数的优化设备的一个实施例示意图。

具体实施方式

本申请实施例提供了一种损失函数的优化方法、装置、设备及存储介质，用于提高损失函数的收敛准确率以及收敛效率。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本申请实施例的具体流程进行描述，请参阅图1，本申请实施例中损失函数的优化方法的一个实施例包括：

101、获取待优化的机器学习任务，机器学习任务用于指示收敛机器学习模型中的损失函数；

可以理解的是，本申请的执行主体可以为损失函数的优化装置，还可以是终端或者服务器，具体此处不做限定。本申请实施例以服务器为执行主体为例进行说明。

需要说明的是，在深度学习的过程中，每一个机器学习模型都有一个损失函数，而深度学习的目的就是将损失函数最小化，然而，并非所有机器学习模型都能快速且精准的找到损失函数的最小值，甚至一些损失函数没有最小值，因此一般机器学习模型以凸函数作为损失函数，凸函数保证了其有最小值，在深度学习中用来寻找凸函数最小值的最常用的方法就是梯度下降法，这就是深度学习中优化器的主要作用。这里的机器学习任务指的是深度学习中需要优化的损失函数，损失函数在深度度量学习中起到了非常重要的作用，很多深度度量学习的损失函数构建在样本对或样本三元组之上，因而样本空间的量级非常大，一般而言，机器学习模型在训练过程中很难穷举学习所有的样本对或样本三元组，并且大多数样本对或者样本三元组的信息量很小，在后期学习模型的训练中，这些样本对样本三元组上梯度值几乎为0，若不做任何针对性的优化，学习算法的收敛速度会很慢，且易陷入局部最优，导致损失函数的准确率下降。

102、利用第一优化器对机器学习任务进行训练，得到第一慢权重，第一慢权重用于指示机器学习任务采用第一优化器进行迭代后得到的结果；

这里的第一优化器采用的是随机梯度下降法(stochastic gradient descent，SGD)，对于梯度来说，SGD对梯度的要求很低，因此可以快速计算梯度，而对于引入的噪声来说，SGD能够对一定范围内的噪声进行收敛，例如：服务器每次从百万个数据样本中选取几百个数据点，然后根据这些数据点计算一个SGD梯度并更新模型参数，相比于标准梯度下降法的遍历全部样本，然后每输入一个样本更新一次参数的所需时间要缩短很多。

需要说明的是，SGD在对每个样本进行损失更新的时候，对于算法中的学习率的设定是非常关键的，若服务器设定的学习率较小，则会导致收敛速度缓慢，若服务器设定的学习率较大，则会导致损失函数在收敛时异常抖动从而达不到收敛的最优情况，因此需要大量的训练而得到合适的学习率；此外，SGD在进行优化损失函数的后期时，容易出现陷入局部最小值的情况，不能够有效的进行后期优化，由此在本申请中可以采用SGD作为第一优化器来迅速训练大型数据集，提高了优化损失函数的效率，并与第二优化器相结合，达到即提高效率有提高准确率的效果。

103、利用第二优化器对机器学习任务进行训练，得到第二慢权重，第二慢权重用于指示机器学习任务采用第二优化器进行迭代后得到的结果；

这里的第二优化器采用的是自适应时刻估计算法(adaptive moment estimation，Adam)，Adam属于自适应学习率优化算法，自适应学习率优化算法是针对机器学习模型中的学习率进行优化的，传统的优化算法一般将学习率设置为常数或根据训练次数对学习率进行调节，这样的设置忽视了学习率其他变化的可能性，从而导致损失优化的偏差，通过Adam优化器可以利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，达到准确优化损失函数的目的。Adam的优点主要在于经过偏置校正后，每一次迭代学习率在确定的范围内，使得调节的参数比较平稳，致使损失函数被更准确的优化。

Adam的迭代步骤如下：在机器学习任务中，服务器利用第二优化器在机器学习任务中n个训练样本中随机选取一个样本i，其中，n为大于1的整数针对样本i对其进行损失更新，服务器利用g _t'＝ΔJ(W _t,i')计算g _t'，g _t'为t次迭代后代价函数关于W'的梯度大小，其中，J(W')为代价函数，ΔJ(W _t,i')为指定t时刻，指定分类i，代价函数关于W的梯度，然后服务器再分别计算一阶动量项m _t与二阶动量项v _t的修正值，其中，一阶动量项m _t的修正值为：

m _t＝β ₁m _t-1+(1-β ₁)g _t'，

其中，β ₁为一阶动量衰减系数，一般取值为0.9，二阶动量项v _t的修正值为：

其中，β ₂为二阶动量衰减系数，一般取值为0.999，待服务器计算一阶动量项m _t与二阶动量项v _t的修正值后，服务器根据第三预置公式计算第二短时快权重，其中第三预置公式为：

其中，η为初始的学习率取值，一般为0.01，ε为数值稳定量，一般取值为10 ^-8，以保证分式的分母不为零，这样就完成了一次损失的优化。

104、依据预置合并公式将第一慢权重与第二慢权重进行合并，得到目标更新权重；

需要说明的是，服务器计算得到的第一慢权重可以理解为第一优化器对损失函数进行优化后的结果，计算得到的第二慢权重可以理解为第二优化器对相同损失函数进行优化后的结果，第一优化器与第二优化器对损失函数进行优化后的结果均存在误差，因此，服务器将优化过后的第一慢权重与第二慢权重相结合，这样通过预置合并公式得到目标更新权重更加符合真实值。在这里服务器利用到的预置合并公式为：

其中，

其中，α符合一定的概率分布，不失一般性，t为当前更新的时刻，T是整体训练的迭代次数，根据步骤102-103服务器可以通过计算得到

与

的值，这样服务器便可以将第一慢权重与第二慢权重合并，得到目标更新权重。

105、计算每个迭代阶段的目标更新权重，直到损失函数收敛完成。

可以理解的是，服务器利用k个迭代步骤的结果进行目标更新权重的计算，连接计算过后不同阶段目标更新权重，得到损失优化后的结果，直至损失函数收敛完成。这样的迭代更新方法，有效的克服了在训练数据结尾时，梯度更新时误差函数的抖动，保证了收敛速度和收敛的准确率。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

请参阅图2，本申请实施例中损失函数的优化方法的另一个实施例包括：

201、获取待优化的机器学习任务，机器学习任务用于指示收敛机器学习模型中的损失函数；

需要说明的是，这里的机器学习任务指的是深度学习中需要优化的损失函数，损失函数在深度度量学习中起到了非常重要的作用，很多深度度量学习的损失函数构建在样本对或样本三元组之上，因而样本空间的量级很大，在后期学习模型的训练中，这些样本对样本三元组上梯度值几乎为0，若不做任何针对性的优化，学习算法的收敛速度会很慢且易陷入局部最优，导致损失函数的准确率下降。

本申请中利用到梯度下降法对机器学习任务进行求解，梯度下降法是优化器中优化损失函数最常见的算法，一般的，常用的是随机梯度下降法(stochastic gradient descent，SGD)，使用一个小批量的数据使得梯度随机下降，经过不断的迭代与收敛得到最优的损失函数。由SGD的衍生变种优化器分为两大类：加速机制的优化器和自适应学习率机制优化器，在本申请中将上述SGD优化器与自适应学习率机制优化器两种优化器结合到一起，从而得到最优损失函数。

202、利用第一优化器对机器学习任务进行训练，得到第一慢权重，第一慢权重用于指示机器学习任务采用第一优化器进行迭代后得到的结果；

具体的，服务器利用第一优化器在机器学习任务的n个训练样本中随机选取一个样本i _s，i _s∈{1,2,…,n}，n为大于1的整数；服务器利用第一预置公式W _t+1＝W _t-η _tg _t计算i _s更新后的第一短时快权重W _t+1，在第一预置公式中，t为当前时刻，W _t为第一优化器t时刻的权重参数，η _t为学习率，g _t为梯度，其中，

其中，J(W)为代价函数，ΔJ(W)为梯度，X(i _s)为输入样本，Y(i _s)为输出样本；服务器对k个第一短时快权重的值进行整合计算，得到第一慢权重，第一慢权重用于指示机器学习任务采用第一优化器进行迭代后得到的结果，k∈{2,3,…,n}。

举例来说：在机器学习任务中，服务器从n个训练样本中随机选取一个样本i _s，其中，n为大于1的整数针对样本i _s对其进行损失更新，服务器利用

计算g _t，这里的g _t是SGD的当前梯度，J(W)为代价函数，ΔJ(W)为梯度，X(i _s)为输入样本，Y(i _s)为输出样本，之后服务器利用第一预置公式以及计算过后的g _t来计算第一短时快权重，这里的第一预置公式为W _t+1＝W _t-η _tg _t，t为当前时刻，W _t为第一优化器t时刻的权重参数，η _t为学习率，这样就完成了一次损失的优化。

进一步说明的是，待服务器进行训练迭代后，会得到不同点上更新的第一短时快权重的数值，在服务器计算完每个时刻的第一短时快权重后，需要对k个连续第一短时快权重的值进行整合计算，利用k个第一短时快权重计算第一慢权重，采用多个数值进行计算，可以确保第一慢权重的准确度，让第一慢权重的值更加贴合整体第一短时快权重的数值。

一般情况下，k的取值为4，这样计算起来的数值更贴合数据的优化，但具体k的取值可以根据实际情况进行修改，本申请中并不对k的值进行限定。

举例来说，当k＝4时，服务器计算第一慢权重的步骤如下：服务器已知第一短时快权重的起点为

依次连续的第一短时快权重为W ₁、W ₂、W ₃、W ₄，则根据第二预置公式：

计算第一慢权重：

这样就得到了更为贴合第一短时快权重的第一慢权重。

203、利用第二优化器对机器学习任务进行训练，得到第二慢权重，第二慢权重用于指示机器学习任务采用第二优化器进行迭代后得到的结果；

具体的，服务器首先利用第二优化器在机器学习任务的n个训练样本中随机选取一个样本i，i∈{1,2,…,n}，n为大于1的整数；然后服务器利用第三预置公式计算i更新后的第二短时快权重W' _t+1，第三预置公式为：

其中，t为当前时刻，W _t'为第二优化器t时刻的权重参数，η为初始学习率，ε为数值稳定量，

为一阶动量项的修正值，

的表达式如下：

m _t＝β ₁m _t-1+(1-β ₁)g _t'，

其中，t为当前时刻，m _t为一阶动量项，v _t为二阶动量项，β ₁为一阶动量衰减系数，β ₂为二阶动量衰减系数，

为m _t的修正值，

为v _t的修正值，梯度g _t'＝ΔJ(W _t,i')，其中，J(W')为代价函数，ΔJ(W _t,i')为t时刻指定样本i的代价函数关于权重W的梯度；最后服务器对k个第二短时快权重的值进行整合计算，得到第二慢权重，第二慢权重用于指示机器学习任务采用第二优化器进行迭代后得到的结果，k∈{2,3,…,n}。

这里的第二优化器采用的是自适应时刻估计算法(adaptive moment estimation，Adam)，Adam属于自适应学习率优化算法，自适应学习率优化算法是针对机器学习模型中的学习率进行优化的，通过Adam优化器可以利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，达到准确优化损失函数的目的。Adam的优点主要在于经过偏置校正后，每一次迭代学习率在确定的范围内，使得调节的参数比较平稳，致使损失函数被更准确的优化，通过Adam的迭代计算完成了一次损失的优化。

需要说明的是，待服务器进行训练迭代后，会得到不同点上更新的第二短时快权重的数值，在服务器计算完每个时刻的第二短时快权重后，需要对k个连续第二短时快权重的值进行计算，利用k个第二短时快权重进行第二慢权重的计算，采用多个数值进行计算，可以确保第二慢权重的准确度，让第二慢权重的值更加贴合整体第二短时快权重的数值。

举例来说，当k＝4时，服务器计算第二慢权重的步骤如下：服务器已知第二短时快权重的起点为

依次连续的第二短时快权重为W ₁、W ₂、W ₃、W ₄，则根据第二预置公式：

计算第二慢权重为：

这样就得到了更为贴合第二短时快权重的第二慢权重。

204、依据预置合并公式将第一慢权重与第二慢权重进行合并，得到目标更新权重；

具体的，服务器提取t时刻下的第一慢权重与第二慢权重，t∈{0,1,2,…,n}；然后服务器将t时刻下的第一慢权重与第二慢权重带入预置合并公式中，得到目标更新权重，预置合并公式为：

其中，

为t时刻的目标更新权重，

为t时刻的第一慢权重，

为t时刻的第二慢权重，α为系数参数，α的计算公式如下：

其中，t为当前更新时刻，T是整体训练的迭代次数。

其中，

其中，α符合一定的概率分布，不失一般性，t为当前更新的时刻，T是整体训练的迭代次数，根据步骤202与步骤203服务器可以通过计算得到

与

的值，这样服务器便可以将第一慢权重与第二慢权重进行合并，得到目标更新权重。

205、获取第一迭代阶段的目标更新权重，并将第一迭代阶段的目标更新权重作为第二迭代阶段短时快权重的起始点，计算第二迭代阶段的目标更新权重；

可以理解的是，服务器将在第一迭代阶段计算得到的目标更新权重，作为计算第二迭代阶段短时快权重的起点，利用上述步骤202-204的方法，计算第二迭代阶段的目标更新权重。服务器计算第二迭代阶段的目标更新权重的步骤与计算第一迭代阶段的目标更新权重的步骤相同，因此本申请不在此处赘述。

206、将第二迭代阶段的目标更新权重作为第三迭代阶段短时快权重的起始点，计算第三迭代阶段的目标更新权重，计算剩余迭代阶段的目标更新权重，直到损失函数收敛完成。

上面对本申请实施例中损失函数的优化方法进行了描述，下面对本申请实施例中损失函数的优化装置进行描述，请参阅图3，本申请实施例中损失函数的优化装置一个实施例包括：获取模块301，用于获取待优化的机器学习任务，机器学习任务用于指示收敛机器学习模型中的损失函数；第一优化模块302，用于利用第一优化器对机器学习任务进行训练，得到第一慢权重，第一慢权重用于指示机器学习任务采用第一优化器进行迭代后得到的结果；第二优化模块303，用于利用第二优化器对机器学习任务进行训练，得到第二慢权重，第二慢权重用于指示机器学习任务采用第二优化器进行迭代后得到的结果；合并模块304，用于依据预置合并公式将第一慢权重与第二慢权重进行合并，得到目标更新权重；迭代模块305，用于计算每个迭代阶段的目标更新权重，直到损失函数收敛完成。

请参阅图4，本申请实施例中损失函数的优化装置的另一个实施例包括：

获取模块301，用于获取待优化的机器学习任务，机器学习任务用于指示收敛机器学习模型中的损失函数；第一优化模块302，用于利用第一优化器对机器学习任务进行训练，得到第一慢权重，第一慢权重用于指示机器学习任务采用第一优化器进行迭代后得到的结果；第二优化模块303，用于利用第二优化器对机器学习任务进行训练，得到第二慢权重，第二慢权重用于指示机器学习任务采用第二优化器进行迭代后得到的结果；合并模块304，用于依据预置合并公式将第一慢权重与第二慢权重进行合并，得到目标更新权重；迭代模块305，用于计算每个迭代阶段的目标更新权重，直到损失函数收敛完成。

可选的，第一优化模块302包括：第一选取单元3021，用于利用第一优化器在机器学习任务的n个训练样本中随机选取一个样本i _s，i _s∈{1,2,…,n}，n为大于1的整数；第一计算单元3022，用于利用第一预置公式W _t+1＝W _t-η _tg _t计算i _s更新后的第一短时快权重W _t+1，在第一预置公式中，t为当前时刻，W _t为第一优化器t时刻的权重参数，η _t为学习率，g _t为梯度，其中，

其中，J(W)为代价函数，ΔJ(W)为梯度，X(i _s)为输入样本，Y(i _s)为输出样本；第一整合单元3023，用于对k个第一短时快权重的值进行整合计算，得到第一慢权重，第一慢权重用于指示机器学习任务采用第一优化器进行迭代后得到的结果，k∈{2,3,…,n}。

可选的，第一整合单元3023还可以具体用于：获取k个连续第一短时快权重的值，k∈{2,3,…,n}；根据第二预置公式以及k个连续第一短时快权重的值计算第一慢权重，第二预置公式为：

其中，t为当前时刻，

为t时刻的第一慢权重，

为起始第一短时快权重的起始点，W _t为t时刻的权重参数，W _t+k为t+k时刻的权重参数，第一慢权重用于指示机器学习任务采用第一优化器进行迭代后得到的结果。

可选的，第二优化模块303包括：第二选取单元3031，用于利用第二优化器在机器学习任务的n个训练样本中随机选取一个样本i，i∈{1,2,…,n}，n为大于1的整数；第二计算单元3032，用于利用第三预置公式计算i更新后的第二短时快权重W' _t+1，第三预置公式为：

为一阶动量项的修正值，

的表达式如下：

m _t＝β ₁m _t-1+(1-β ₁)g _t'，

为m _t的修正值，

为v _t的修正值，梯度g _t'＝ΔJ(W _t,i')，其中，J(W')为代价函数，ΔJ(W _t,i')为t时刻指定样本i的代价函数关于权重W的梯度；第二整合单元3033，用于对k个第二短时快权重的值进行整合计算，得到第二慢权重，第二慢权重用于指示机器学习任务采用第二优化器进行迭代后得到的结果，k∈{2,3,…,n}。

可选的，第二整合单元3033还可以具体用于：获取k个连续第二短时快权重参数的值，k∈{2,3,…,n}；根据第四预置公式以及k个连续第二快权重参数的值计算第二慢权重，第四预置公式为：

其中，t为当前时刻，

为t时刻的第二慢权重，

为起始第二短时快权重的起始点，W _t'为t时刻的权重参数，W _t+k'为t+k时刻的权重参数，第二慢权重用于指示机器学习任务采用第一优化器进行迭代后得到的结果。

可选的，合并模块304还可以具体用于：提取t时刻下的第一慢权重与第二慢权重，t∈{0,1,2,…,n}；将t时刻下的第一慢权重与第二慢权重带入预置合并公式中，得到目标更新权重，预置合并公式为：

其中，

为t时刻的目标更新权重，

为t时刻的第一慢权重，

为t时刻的第二慢权重，α为系数参数，α的计算公式如下：

其中，t为当前更新时刻，T是整体训练的迭代次数。

可选的，迭代模块305还可以具体用于：获取第一迭代阶段的目标更新权重，并将第一迭代阶段的目标更新权重作为第二迭代阶段短时快权重的起始点，计算第二迭代阶段的目标更新权重；将第二迭代阶段的目标更新权重作为第三迭代阶段短时快权重的起始点，计算第三迭代阶段的目标更新权重，计算剩余迭代阶段的目标更新权重，直到损失函数收敛完成。

本申请实施例中，将第一优化器计算得到的第一慢权重与第二优化器计算得到的第二慢权重进行整合计算，得到目标更新权重，最后进行迭代计算直到损失函数收敛，减少了计算权重的计算时间以及损失函数在收敛时的异常抖动，提高了损失函数的收敛准确率以及收敛效率。

上面图3和图4从模块化功能实体的角度对本申请实施例中的损失函数的优化装置进行详细描述，下面从硬件处理的角度对本申请实施例中损失函数的优化设备进行详细描述。

图5是本申请实施例提供的一种损失函数的优化设备的结构示意图，该损失函数的优化设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器 (central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对损失函数的优化设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在损失函数的优化设备500上执行存储介质530中的一系列指令操作。

损失函数的优化设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的损失函数的优化设备结构并不构成对损失函数的优化设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，也可以为易失性计算机可读存储介质。计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：获取待优化的机器学习任务，所述机器学习任务用于指示收敛机器学习模型中的损失函数；利用第一优化器对所述机器学习任务进行训练，得到第一慢权重，所述第一慢权重用于所述指示机器学习任务采用第一优化器进行迭代后得到的结果；利用第二优化器对所述机器学习任务进行训练，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用第二优化器进行迭代后得到的结果；依据预置合并公式将所述第一慢权重与所述第二慢权重进行合并，得到目标更新权重；计算每个迭代阶段的目标更新权重，直到所述损失函数收敛完成。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种损失函数的优化方法，其中，所述损失函数的优化方法包括：

获取待优化的机器学习任务，所述机器学习任务用于指示收敛机器学习模型中的损失函数；

利用第一优化器对所述机器学习任务进行训练，得到第一慢权重，所述第一慢权重用于所述指示机器学习任务采用第一优化器进行迭代后得到的结果；

利用第二优化器对所述机器学习任务进行训练，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用第二优化器进行迭代后得到的结果；

依据预置合并公式将所述第一慢权重与所述第二慢权重进行合并，得到目标更新权重；

计算每个迭代阶段的目标更新权重，直到所述损失函数收敛完成。
根据权利要求1所述的损失函数的优化方法，其中，所述利用第一优化器对所述机器学习任务进行训练，得到第一慢权重，所述第一慢权重用于所述指示机器学习任务采用第一优化器进行迭代后得到的结果包括：

利用第一优化器在所述机器学习任务的n个训练样本中随机选取一个样本i _s，i _s∈{1,2,…,n}，n为大于1的整数；

利用第一预置公式W _t+1＝W _t-η _tg _t计算i _s更新后的第一短时快权重W _t+1，在第一预置公式中，t为当前时刻，W _t为第一优化器t时刻的权重参数，η _t为学习率，g _t为梯度，其中，
其中，J(W)为代价函数，ΔJ(W)为梯度，X(i _s)为输入样本，Y(i _s)为输出样本；

对k个所述第一短时快权重的值进行整合计算，得到第一慢权重，所述第一慢权重用于指示所述机器学习任务采用所述第一优化器进行迭代后得到的结果，k∈{2,3,…,n}。
根据权利要求2所述的损失函数的优化方法，其中，所述对k个所述第一短时快权重的值进行整合计算，得到第一慢权重，所述第一慢权重用于指示所述机器学习任务采用所述第一优化器进行迭代后得到的结果，k∈{2,3,…,n}包括：

获取k个连续所述第一短时快权重的值，k∈{2,3,…,n}；

根据第二预置公式以及k个连续所述第一短时快权重的值计算第一慢权重，所述第二预置公式为：

其中，t为当前时刻，
为t时刻的第一慢权重，
为起始第一短时快权重的起始点，W _t为t时刻的权重参数，W _t+k为t+k时刻的权重参数，第一慢权重用于指示机器学习任务采用第一优化器进行迭代后得到的结果。
根据权利要求1所述的损失函数的优化方法，其中，所述利用第二优化器对所述机器学习任务进行训练，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用第二优化器进行迭代后得到的结果包括：

利用第二优化器在所述机器学习任务的n个训练样本中随机选取一个样本i，i∈{1,2,…,n}，n为大于1的整数；

利用第三预置公式计算i更新后的第二短时快权重W' _t+1，所述第三预置公式为：

其中，t为当前时刻，W _t'为第二优化器t时刻的权重参数，η为初始学习率，ε为数值稳定量，
为一阶动量项的修正值，
的表达式如下：

m _t＝β ₁m _t-1+(1-β ₁)g _t'，

其中，t为当前时刻，m _t为一阶动量项，v _t为二阶动量项，β ₁为一阶动量衰减系数，β ₂为二阶动量衰减系数，
为m _t的修正值，
为v _t的修正值，梯度g _t'＝ΔJ(W _t,i')，其中，J(W')为代价函数，ΔJ(W _t,i')为t时刻指定样本i的代价函数关于权重W的梯度；

对k个所述第二短时快权重的值进行整合计算，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用所述第二优化器进行迭代后得到的结果，k∈{2,3,…,n}。
根据权利要求4所述的损失函数的优化方法，其中，所述对k个所述第二短时快权重的值进行整合计算，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用所述第二优化器进行迭代后得到的结果，k∈{2,3,…,n}包括：

获取k个连续所述第二短时快权重参数的值，k∈{2,3,…,n}；

根据第四预置公式以及k个连续所述第二快权重参数的值计算第二慢权重，所述第四预置公式为：

其中，t为当前时刻，
为t时刻的第二慢权重，
为起始第二短时快权重的起始点，W _t'为t时刻的权重参数，W _t+k'为t+k时刻的权重参数，第二慢权重用于指示所述机器学习任务采用所述第一优化器进行迭代后得到的结果。
根据权利要求1所述的损失函数的优化方法，其中，所述依据预置合并公式将所述第一慢权重与所述第二慢权重进行合并，得到目标更新权重包括：

提取t时刻下的所述第一慢权重与所述第二慢权重，t∈{0,1,2,…,n}；

将t时刻下的所述第一慢权重与所述第二慢权重带入预置合并公式中，得到目标更新权重，所述预置合并公式为：
其中，
为t时刻的目标更新权重，
为t时刻的第一慢权重，
为t时刻的第二慢权重，α为系数参数，α的计算公式如下：

其中，t为当前更新时刻，T是整体训练的迭代次数。
根据权利要求1所述的损失函数的优化方法，其中，所述计算每个迭代阶段的目标更新权重，直到所述损失函数收敛完成包括：

获取第一迭代阶段的目标更新权重，并将所述第一迭代阶段的目标更新权重作为第二迭代阶段短时快权重的起始点，计算第二迭代阶段的目标更新权重；

将所述第二迭代阶段的目标更新权重作为第三迭代阶段短时快权重的起始点，计算第三迭代阶段的目标更新权重，计算剩余迭代阶段的目标更新权重，直到所述损失函数收敛完成。
一种损失函数的优化设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

获取待优化的机器学习任务，所述机器学习任务用于指示收敛机器学习模型中的损失函数；

利用第一优化器对所述机器学习任务进行训练，得到第一慢权重，所述第一慢权重用于所述指示机器学习任务采用第一优化器进行迭代后得到的结果；

利用第二优化器对所述机器学习任务进行训练，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用第二优化器进行迭代后得到的结果；

依据预置合并公式将所述第一慢权重与所述第二慢权重进行合并，得到目标更新权重；

计算每个迭代阶段的目标更新权重，直到所述损失函数收敛完成。
根据权利要求8所述的损失函数的优化设备，其中，所述处理器执行所述计算机可读指令实现所述利用第一优化器对所述机器学习任务进行训练，得到第一慢权重，所述第一慢权重用于所述指示机器学习任务采用第一优化器进行迭代后得到的结果时，包括以下步骤：

利用第一优化器在所述机器学习任务的n个训练样本中随机选取一个样本i _s，i _s∈{1,2,…,n}，n为大于1的整数；

利用第一预置公式W _t+1＝W _t-η _tg _t计算i _s更新后的第一短时快权重W _t+1，在第一预置公式中，t为当前时刻，W _t为第一优化器t时刻的权重参数，η _t为学习率，g _t为梯度，其中，
其中，J(W)为代价函数，ΔJ(W)为梯度，X(i _s)为输入样本，Y(i _s)为输出样本；

对k个所述第一短时快权重的值进行整合计算，得到第一慢权重，所述第一慢权重用于指示所述机器学习任务采用所述第一优化器进行迭代后得到的结果，k∈{2,3,…,n}。
根据权利要求9所述的损失函数的优化设备，其中，所述处理器执行所述计算机可读指令实现所述对k个所述第一短时快权重的值进行整合计算，得到第一慢权重，所述第一慢权重用于指示所述机器学习任务采用所述第一优化器进行迭代后得到的结果，k∈{2,3,…,n}时，包括以下步骤：

获取k个连续所述第一短时快权重的值，k∈{2,3,…,n}；

根据第二预置公式以及k个连续所述第一短时快权重的值计算第一慢权重，所述第二预置公式为：

其中，t为当前时刻，
为t时刻的第一慢权重，
为起始第一短时快权重的起始点，W _t为t时刻的权重参数，W _t+k为t+k时刻的权重参数，第一慢权重用于指示机器学习任务采用第一优化器进行迭代后得到的结果。
根据权利要求8所述的损失函数的优化设备，其中，所述处理器执行所述计算机可读指令实现所述利用第二优化器对所述机器学习任务进行训练，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用第二优化器进行迭代后得到的结果时，包括以下步骤：

利用第二优化器在所述机器学习任务的n个训练样本中随机选取一个样本i，i∈{1,2,…,n}，n为大于1的整数；

利用第三预置公式计算i更新后的第二短时快权重W' _t+1，所述第三预置公式为：

其中，t为当前时刻，W _t'为第二优化器t时刻的权重参数，η为初始学习率，ε为数值稳定量，
为一阶动量项的修正值，
的表达式如下：

m _t＝β ₁m _t-1+(1-β ₁)g _t'，

其中，t为当前时刻，m _t为一阶动量项，v _t为二阶动量项，β ₁为一阶动量衰减系数，β ₂为二阶动量衰减系数，
为m _t的修正值，
为v _t的修正值，梯度g _t'＝ΔJ(W _t,i')，其中，J(W')为代价函数，ΔJ(W _t,i')为t时刻指定样本i的代价函数关于权重W的梯度；

对k个所述第二短时快权重的值进行整合计算，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用所述第二优化器进行迭代后得到的结果，k∈{2,3,…,n}。
根据权利要求11所述的损失函数的优化设备，其中，所述处理器执行所述计算机可读指令实现所述对k个所述第二短时快权重的值进行整合计算，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用所述第二优化器进行迭代后得到的结果，k∈{2,3,…,n}时，包括以下步骤：

获取k个连续所述第二短时快权重参数的值，k∈{2,3,…,n}；

根据第四预置公式以及k个连续所述第二快权重参数的值计算第二慢权重，所述第四预置公式为：

其中，t为当前时刻，
为t时刻的第二慢权重，
为起始第二短时快权重的起始点，W _t'为t时刻的权重参数，W _t+k'为t+k时刻的权重参数，第二慢权重用于指示所述机器学习任务采用所述第一优化器进行迭代后得到的结果。
根据权利要求8所述的损失函数的优化设备，其中，所述处理器执行所述计算机可读指令实现所述依据预置合并公式将所述第一慢权重与所述第二慢权重进行合并，得到目标更新权重时，还包括以下步骤：

提取t时刻下的所述第一慢权重与所述第二慢权重，t∈{0,1,2,…,n}；

将t时刻下的所述第一慢权重与所述第二慢权重带入预置合并公式中，得到目标更新权重，所述预置合并公式为：
其中，
为t时刻的目标更新权重，
为t时刻的第一慢权重，
为t时刻的第二慢权重，α为系数参数，α的计算公式如下：

其中，t为当前更新时刻，T是整体训练的迭代次数。
根据权利要求8所述的损失函数的优化设备，所述处理器执行所述计算机可读指令实现所述计算每个迭代阶段的目标更新权重，直到所述损失函数收敛完成时，包括以下步骤：

获取第一迭代阶段的目标更新权重，并将所述第一迭代阶段的目标更新权重作为第二迭代阶段短时快权重的起始点，计算第二迭代阶段的目标更新权重；

将所述第二迭代阶段的目标更新权重作为第三迭代阶段短时快权重的起始点，计算第三迭代阶段的目标更新权重，计算剩余迭代阶段的目标更新权重，直到所述损失函数收敛完成。
一种计算机可读存储介质，所述计算机可读存储介质中存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：

获取待优化的机器学习任务，所述机器学习任务用于指示收敛机器学习模型中的损失函数；

利用第一优化器对所述机器学习任务进行训练，得到第一慢权重，所述第一慢权重用于所述指示机器学习任务采用第一优化器进行迭代后得到的结果；

利用第二优化器对所述机器学习任务进行训练，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用第二优化器进行迭代后得到的结果；

依据预置合并公式将所述第一慢权重与所述第二慢权重进行合并，得到目标更新权重；

计算每个迭代阶段的目标更新权重，直到所述损失函数收敛完成。
根据权利要求15所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

利用第一优化器在所述机器学习任务的n个训练样本中随机选取一个样本i _s，i _s∈{1,2,…,n}，n为大于1的整数；

利用第一预置公式W _t+1＝W _t-η _tg _t计算i _s更新后的第一短时快权重W _t+1，在第一预置公式中，t为当前时刻，W _t为第一优化器t时刻的权重参数，η _t为学习率，g _t为梯度，其中，
其中，J(W)为代价函数，ΔJ(W)为梯度，X(i _s)为输入样本，Y(i _s)为输出样本；

对k个所述第一短时快权重的值进行整合计算，得到第一慢权重，所述第一慢权重用于指示所述机器学习任务采用所述第一优化器进行迭代后得到的结果，k∈{2,3,…,n}。
根据权利要求16所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

获取k个连续所述第一短时快权重的值，k∈{2,3,…,n}；

根据第二预置公式以及k个连续所述第一短时快权重的值计算第一慢权重，所述第二预置公式为：

其中，t为当前时刻，
为t时刻的第一慢权重，
为起始第一短时快权重的起始点，W _t为t时刻的权重参数，W _t+k为t+k时刻的权重参数，第一慢权重用于指示机器学习任务采用第一优化器进行迭代后得到的结果。
根据权利要求15所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

利用第二优化器在所述机器学习任务的n个训练样本中随机选取一个样本i，i∈{1,2,…,n}，n为大于1的整数；

利用第三预置公式计算i更新后的第二短时快权重W' _t+1，所述第三预置公式为：

其中，t为当前时刻，W _t'为第二优化器t时刻的权重参数，η为初始学习率，ε为数值稳定量，
为一阶动量项的修正值，
的表达式如下：

m _t＝β ₁m _t-1+(1-β ₁)g _t'，

其中，t为当前时刻，m _t为一阶动量项，v _t为二阶动量项，β ₁为一阶动量衰减系数，β ₂为二阶动量衰减系数，
为m _t的修正值，
为v _t的修正值，梯度g _t'＝ΔJ(W _t,i')，其中，J(W')为代价函数，ΔJ(W _t,i')为t时刻指定样本i的代价函数关于权重W的梯度；

对k个所述第二短时快权重的值进行整合计算，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用所述第二优化器进行迭代后得到的结果，k∈{2,3,…,n}。
根据权利要求18所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

获取k个连续所述第二短时快权重参数的值，k∈{2,3,…,n}；

根据第四预置公式以及k个连续所述第二快权重参数的值计算第二慢权重，所述第四预置公式为：

其中，t为当前时刻，
为t时刻的第二慢权重，
为起始第二短时快权重的起始点，W _t'为t时刻的权重参数，W _t+k'为t+k时刻的权重参数，第二慢权重用于指示所述机器学习任务采用所述第一优化器进行迭代后得到的结果。
一种损失函数的优化装置，其中，所述损失函数的优化装置包括：

获取模块，用于获取待优化的机器学习任务，所述机器学习任务用于指示收敛机器学习模型中的损失函数；

第一优化模块，用于利用第一优化器对所述机器学习任务进行训练，得到第一慢权重，所述第一慢权重用于所述指示机器学习任务采用第一优化器进行迭代后得到的结果；

第二优化模块，用于利用第二优化器对所述机器学习任务进行训练，得到第二慢权重，所述第二慢权重用于指示所述机器学习任务采用第二优化器进行迭代后得到的结果；

合并模块，用于依据预置合并公式将所述第一慢权重与所述第二慢权重进行合并，得到目标更新权重；

迭代模块，用于计算每个迭代阶段的所述目标更新权重，直到损失函数收敛完成。