WO2017124953A1

WO2017124953A1 - 机器异常的处理方法、学习速率的调整方法及装置

Info

Publication number: WO2017124953A1
Application number: PCT/CN2017/070906
Authority: WO
Inventors: 周俊
Original assignee: 阿里巴巴集团控股有限公司; 周俊
Priority date: 2016-01-21
Filing date: 2017-01-11
Publication date: 2017-07-27
Also published as: US20180329798A1; CN106991095B; EP3407211A1; US10748090B2; EP3407211A4; CN106991095A; TW201732695A

Abstract

一种机器异常的处理方法、学习速率的调整方法及装置。其中，该方法包括：获取目标机器的梯度消耗时间（S202），其中，所述梯度消耗时间用于表示所述目标机器在训练过程中消耗的与梯度相关的时间；判断所述梯度消耗时间与预先获取的消耗时间均值相比，是否满足预定条件（S204），其中，所述消耗时间均值用于表示集群内的除所述目标机器以外的所有机器，在所述训练过程中消耗的与所述梯度相关的时间的平均值；若所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，确定所述目标机器异常（S206）。该方法解决了由于集群中部分机器计算或通信速度较慢造成的训练成本较高的技术问题。

Description

机器异常的处理方法、学习速率的调整方法及装置

技术领域

本申请涉及互联网领域，具体而言，涉及一种机器异常的处理方法、学习速率的调整方法及装置。

背景技术

互联网公司都拥有大量用户行为数据,通常都是通过机器学习的方法从这些数据中挖掘出有用的信息,比如用户偏好等,通过挖掘出这些信息,来提升用户体验及互联网公司收入。

机器学习的核心做法，便是求解损失函数的最小值(损失函数是一种衡量损失和错误程度的函数，以搜索广告为例,也就是说,损失函数越小,那么用户越有可能点击搜索广告)。梯度下降方法(梯度，是个向量，是损失函数对权重的导数)作为机器学习中使用最为广泛的求解损失函数最小值的方法，由于其实现简单，能够快速计算，被大量使用在各种优化问题上。学习速率(通常用Eta表示)作为权重更新(权重，是个向量，可以理解成损失函数的自变量)的重要参数，会影响训练过程的收敛。Eta如果太大，那么每轮迭代走的太远，容易错过最优解；Eta如果太小，那就走的太慢，影响收敛速度。

目前，在进行这种大规模的机器学习求解问题时,都是在集群上进行训练，集群环境里面包含多个机器。然而，始终会有机器在不同时间点负载不一样,有些机器运算速度比较快,有些机器通信负担轻从而通信效率高,但也有很多机器,负载很高从而计算非常慢,部分机器也可能因为低配置原因,通信速度非常慢,从而使得整个训练过程非常慢,使用大量的机器资源，导致巨大的财务成本(例如，训练1个用户偏好,需要800台机器,一台机器1小时成本假设是C,那么一共训练T小时，成本是800×C×T,若C大于1000，T大于100，那么一次成功训练的成本至少是800万，如果训练过程中失败，又要重新开始，那么成本更加大)。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种机器异常的处理方法、学习速率的调整方法及装置，以至少解决由于集群中部分机器计算或通信速度较慢造成的训练成本较高的技术问题。

根据本申请实施例的一个方面，提供了一种机器异常的处理方法，包括：获取目标机器的梯度消耗时间，其中，所述梯度消耗时间用于表示所述目标机器在训练过程中消耗的与梯度相关的时间；判断所述梯度消耗时间与预先获取的消耗时间均值相比，是否满足预定条件，其中，所述消耗时间均值用于表示集群内的除所述目标机器以外的所有机器，在所述训练过程中消耗的与所述梯度相关的时间的平均值；若所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，确定所述目标机器异常。

根据本申请实施例的另一方面，还提供了一种学习速率的调整方法，包括：获取目标机器计算出的梯度；根据所述梯度，计算所述梯度对应的学习速率；判断所述学习速率是否小于预设阈值；若所述学习速率小于所述预设阈值，停止执行更新权重操作；若所述学习速率大于等于所述预设阈值，执行所述更新权重操作。

根据本申请实施例的另一方面，还提供了一种机器异常的处理装置，包括：第一获取单元，用于获取目标机器的梯度消耗时间，其中，所述梯度消耗时间用于表示所述目标机器在训练过程中消耗的与梯度相关的时间；判断单元，用于判断所述梯度消耗时间与预先获取的消耗时间均值相比，是否满足预定条件，其中，所述消耗时间均值用于表示集群内的除所述目标机器以外的所有机器，在所述训练过程中消耗的与所述梯度相关的时间的平均值；检测单元，用于若所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，确定所述目标机器异常。

根据本申请实施例的另一方面，还提供了一种学习速率的调整装置，包括：第二获取单元，用于获取目标机器计算出的梯度；计算单元，用于根据所述梯度，计算所述梯度对应的学习速率；处理单元，用于判断所述学习速率是否小于预设阈值；若所述学习速率小于所述预设阈值，停止执行更新权重操作；若所述学习速率大于等于所述预设阈值，执行所述更新权重操作。

在本申请实施例中，采用获取目标机器的梯度消耗时间，其中，梯度消耗时间用于表示目标机器在训练过程中消耗的与梯度相关的时间；判断梯度消耗时间与预先获取的消耗时间均值相比，是否满足预定条件，其中，消耗时间均值用于表示集群内的除目标机器以外的所有机器，在训练过程中消耗的与梯度相关的时间的平均值；若梯度消耗时间与消耗时间均值相比满足预定条件，确定目标机器异常的方式，通过将目标机器的梯度消耗时间与除目标机器以外的所有机器的消耗时间均值进行比较，来确定目标机器是否出现异常，当目标机器异常时，及时调整训练策略，避免部分机器计算或通信速度较慢，造成的增加训练成本的问题，达到了及时确定集群中异常机器的目的，从而实现了降低训练成本的技术效果，进而解决了由于集群中部分机器计算或通信速度较慢造成的训练成本较高的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种运行机器异常的处理方法的计算机终端的硬件结构框图；

图2是根据本申请实施例的一种可选的机器异常的处理方法的流程示意图；

图3是根据本申请实施例的另一种可选的机器异常的处理方法的流程示意图；

图4是根据本申请实施例的一种可选的学习速率的调整方法的流程示意图；

图5是根据本申请实施例的一种可选的机器异常的处理装置的结构示意图；

图6是根据本申请实施例的另一种可选的机器异常的处理装置的结构示意图；

图7是根据本申请实施例的一种可选的处理单元的结构示意图；

图8是根据本申请实施例的又一种可选的机器异常的处理装置的结构示意图；

图9是根据本申请实施例的一种可选的学习速率的调整装置的结构示意图；

图10是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本申请实施例，还提供了一种机器异常的处理方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本申请实施例的一种机器异常的处理方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的机器异常的处理方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的机器异常的处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在上述运行环境下，本申请提供了如图2所示的机器异常的处理方法。图2是根据本申请实施例一的机器异常的处理方法的流程图。

步骤S202，获取目标机器的梯度消耗时间。

本申请步骤S202中，梯度消耗时间用于表示目标机器在训练过程中消耗的与梯度相关的时间。本申请实施例中，梯度消耗时间包含目标机器计算梯度所消耗的第一时间和/或发送梯度所消耗的第二时间。

步骤S204，判断梯度消耗时间与预先获取的消耗时间均值相比，是否满足预定条件。

本申请步骤S202中，消耗时间均值用于表示集群内的除目标机器以外的所有机器，在训练过程中消耗的与梯度相关的时间的平均值。本申请实施例中，消耗时间均值包含系统内的除目标机器以外的所有机器计算梯度所消耗的时间的第一平均值和/或发送梯度所消耗的时间的第二平均值。

可选地，判断梯度消耗时间与预先获取的消耗时间均值相比，是否满足预定条件包括：判断第一时间是否大于第一平均值与第一预设系数的乘积；其中，若第一时间大于第一平均值与第一预设系数的乘积，则确定梯度消耗时间与消耗时间均值相比满足预定条件，若第一时间小于等于第一平均值与第一预设系数的乘积，则确定梯度消耗时间与消耗时间均值相比不满足预定条件；和/或，判断第二时间是否大于第二平均值与第二预设系数的乘积；其中，若第二时间大于第二平均值与第二预设系数的乘积，则确定梯度消耗时间与消耗时间均值相比满足预定条件，若第二时间小于等于第二平均值与第二预设系数的乘积，则确定梯度消耗时间与消耗时间均值相比不满足预定条件。

步骤S206，若梯度消耗时间与消耗时间均值相比满足预定条件，确定目标机器异常。

本申请步骤S206中，若第一时间大于第一平均值与第一预设系数的乘积，和/或，若第二时间大于第二平均值与第二预设系数的乘积，则确定目标机器异常。

本实施例提供的机器异常的处理方法，包括但不限于根据各个机器的计算梯度所消耗的第一时间及发送梯度所消耗的第二时间这两个维度来进行判定，采取的预定条件是当目标机器超过所有机器梯度发送时间的平均值×第二预设系数(第二预设系数例如可以为2)时，该目标机器还没有发送出梯度，认为该目标机器属于异常机器(也就是说，假定10台机器中，9台机器都在5秒钟内，把梯度发出来了，但目标机器，超过10秒，还没有发送出梯度，则认为目标机器是慢机)，和/或，当目标机器超过所有机器计算梯度的消耗时间均值×第一预设系数(第一预设系数例如可以为3)，还没有计算完梯度时,认为该目标机器属于异常机器。

一旦确定目标机器异常，则可以不等待这些异常机器的梯度，就将目前已经返回的机器的梯度，执行更新权重操作，然后通知所有机器进入下一轮迭代，这样不需要等待异常机器，从而节省大量时间，具体实现方式后续实施例中会进行详细描述，此处不作赘述。

由上可知，本申请上述实施例一所提供的方案，通过将目标机器的梯度消耗时间与除目标机器以外的所有机器的消耗时间均值进行比较，来确定目标机器是否出现异常，当目标机器异常时，及时调整训练策略，避免部分机器计算或通信速度较慢，造成的增加训练成本的问题，达到了及时确定集群中异常机器的目的，从而实现了降低训练成本的技术效果，进而解决了由于集群中部分机器计算或通信速度较慢造成的训练成本较高的技术问题。

作为一种可选地实现方式，如图3所示，在确定目标机器异常之后，本实施例的机器异常的处理方法还可以包括：

步骤S302，获取除目标机器以外的所有机器计算出的梯度。

本申请步骤S302中，在确定目标机器异常之后，本实施例的机器异常的处理方法不再等待该异常的目标机器的梯度，直接获取目前已经返回的机器的梯度(即除目标机器以外的所有机器计算出的梯度)。

步骤S304，根据梯度，计算梯度对应的学习速率。

本申请步骤S304中，根据梯度，计算梯度对应的学习速率的方法可以包括：通过公式Eta(i)＝A×第i维梯度/(B+sqrt(sum(第i维梯度×第i维梯度)))，计算得到学习速率，其中，Eta(i)为学习速率，A为第一预设系数，B为第二预设系数，梯度是由n个第i维梯度所组成的向量，n为梯度的维度的数量，0<i≤n。

其中，sum(第i维梯度×第i维梯度)是指对本轮迭代的第i维梯度及在本轮之前的M轮迭代的第i维梯度的平方进行求和运算，其中，M例如可以是20，本实施例对此不作限定。

步骤S306，依据学习速率，确定是否执行更新权重操作。

本申请步骤S306中，依据学习速率，确定是否执行更新权重操作包括：判断学习速率是否小于预设阈值；若学习速率小于预设阈值，停止执行更新权重操作；若学习速率大于等于预设阈值，执行更新权重操作。

可选地，本实施例的预设阈值可以为1e^-5，即1乘以10的负5次幂。

进一步地，执行更新权重操作包括：根据学习速率、梯度以及历史权重，计算更新权重，其中，历史权重是指训练过程中目标机器所使用的权重。可选地，根据学习速率、梯度以及历史权重，计算更新权重包括：通过公式更新权重＝历史权重+(-学习速率×梯度)，计算得到更新权重。

其中，历史权重是指本轮迭代过程中目标机器所使用的权重，更新权重是指下一轮迭代机器需使用的权重。

作为一种可选地实现方式，在执行更新权重操作之后，本实施例的机器异常的处理方法还可以包括：

步骤S10，将更新权重发送至目标机器以及除目标机器以外的所有机器，以指示目标机器以及除目标机器以外的所有机器根据更新权重进行训练。

本申请步骤S10中，在确定目标机器异常之后，本实施例的机器异常的处理方法不等待目标机器返回的梯度，直接依据目前已经返回的机器的梯度，执行更新权重操作，然后将更新权重发送给所有机器，通知所有机器进入下一轮迭代，从而节省大量时间。

本实施例的机器异常的处理方法，首先，通过检测集群中的异常机器，规避出现异常的机器，从而避免训练中途退出或者等待慢机器等情况，从而加速训练，节省成本，其次，能够充分利用梯度、迭代轮次等信息，自动调整学习速率，对不同维度的权重使用不同的学习速率，能够在每个维度上都取得更好的收敛，进一步加速训练，节省成本。

由上可知，现有技术存在的集群中有很多机器,负载很高从而计算非常慢,部分机器也可能因为低配置原因,通信速度非常慢,从而使得整个训练过程非常慢,使用大量的机器资源，导致巨大的财务成本的问题，本申请提出一种机器异常的处理方法，通过将目标机器的梯度消耗时间与除目标机器以外的所有机器的消耗时间均值进行比较，来确定目标机器是否出现异常，当目标机器异常时，及时调整训练策略，避免部分机器计算或通信速度较慢，造成的增加训练成本的问题，达到了及时确定集群中异常机器的目的，从而实现了降低训练成本的技术效果。

实施例2

根据本申请实施例，还提供了一种学习速率的调整方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请提供了如图4所示的学习速率的调整方法。图4是根据本申请实施例二的学习速率的调整方法的流程图。

步骤S402，获取目标机器计算出的梯度。

本申请步骤S402中，梯度为对损失函数求导后得到的值，损失函数是一种将一个事件(在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数。

步骤S404，根据梯度，计算梯度对应的学习速率。

本申请步骤S404中，根据梯度，计算梯度对应的学习速率包括：通过公式Eta(i)＝A×第i维梯度/(B+sqrt(sum(第i维梯度×第i维梯度)))，计算得到学习速率，其中，Eta(i)为学习速率，A为第一预设系数，B为第二预设系数，梯度是由n个第i维梯度所组成的向量，n为梯度的维度的数量，0<i≤n。

步骤S406，判断学习速率是否小于预设阈值。

本申请步骤S406中，预设阈值可以为1e^-5，即1乘以10的负5次幂。

步骤S408，若学习速率小于预设阈值，停止执行更新权重操作。

步骤S410，若学习速率大于等于预设阈值，执行更新权重操作。

本申请步骤S410中，执行更新权重操作包括：根据学习速率、梯度以及历史权重，计算更新权重，其中，历史权重是指训练过程中目标机器所使用的权重。可选地，根据学习速率、梯度以及历史权重，计算更新权重包括：通过公式更新权重＝历史权重+(-学习速率×梯度)，计算得到更新权重。

进一步地，在执行更新权重操作之后，机器异常的处理方法还可以包括：将更新权重发送至目标机器，以指示目标机器根据更新权重进行训练。

本实施例的机器异常的处理方法，能够充分利用梯度、迭代轮次等信息，自动调整学习速率，对不同维度的权重使用不同的学习速率，能够在每个维度上都取得更好的收敛，进一步加速训练，节省成本。

由上可知，本申请上述实施例二所提供的方案，通过根据目标机器的梯度计算对应的学习速率，在学习速率小于预设阈值的情况下，停止执行更新权重操作，缩短训练时间，从而实现了降低训练成本的技术效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例3

根据本申请实施例，还提供了一种用于实施上述机器异常的处理方法实施例的装置实施例，本申请上述实施例所提供的装置可以在计算机终端上运行。

图5是根据本申请实施例的机器异常的处理装置的结构示意图。

如图5所示，该机器异常的处理装置可以包括第一获取单元502、判断单元504以及检测单元506。

其中，第一获取单元502，用于获取目标机器的梯度消耗时间，其中，所述梯度消耗时间用于表示所述目标机器在训练过程中消耗的与梯度相关的时间；判断单元504，用于判断所述梯度消耗时间与预先获取的消耗时间均值相比，是否满足预定条件，其中，所述消耗时间均值用于表示集群内的除所述目标机器以外的所有机器，在所述训练过程中消耗的与所述梯度相关的时间的平均值；检测单元506，用于若所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，确定所述目标机器异常。

由上可知，本申请上述实施例三所提供的方案，通过将目标机器的梯度消耗时间与除目标机器以外的所有机器的消耗时间均值进行比较，来确定目标机器是否出现异常，当目标机器异常时，及时调整训练策略，避免部分机器计算或通信速度较慢，造成的增加训练成本的问题，达到了及时确定集群中异常机器的目的，从而实现了降低训练成本的技术效果，进而解决了由于集群中部分机器计算或通信速度较慢造成的训练成本较高的技术问题。

此处需要说明的是，上述第一获取单元502、判断单元504以及检测单元506对应于实施例一中的步骤S202至步骤S206，三个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中，可以通过软件实现，也可以通过硬件实现。

可选地，所述梯度消耗时间包含所述目标机器计算梯度所消耗的第一时间和/或发送所述梯度所消耗的第二时间；所述消耗时间均值包含系统内的除所述目标机器以外的所有机器计算所述梯度所消耗的时间的第一平均值和/或发送所述梯度所消耗的时间的第二平均值。

可选地，所述判断单元504用于执行以下步骤判断所述梯度消耗时间与预先获取的消耗时间均值相比，是否满足预定条件：判断所述第一时间是否大于所述第一平均值与第一预设系数的乘积；其中，若所述第一时间大于所述第一平均值与所述第一预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，若所述第一时间小于等于所述第一平均值与所述第一预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比不满足所述预定条件；和/或，判断所述第二时间是否大于所述第二平均值与第二预设系数的乘积；其中，若所述第二时间大于所述第二平均值与所述第二预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，若所述第二时间小于等于所述第二平均值与所述第二预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比不满足所述预定条件。

可选地，如图6所示，该机器异常的处理装置还可以包括：第二获取单元602、计算单元604以及处理单元606。

其中，第二获取单元602，用于获取除所述目标机器以外的所有机器计算出的所述梯度；计算单元604，用于根据所述梯度，计算所述梯度对应的学习速率；处理单元606，用于依据所述学习速率，确定是否执行更新权重操作。

此处需要说明的是，上述第二获取单元602、计算单元604以及处理单元606对应于实施例一中的步骤S302至步骤S306，三个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中，可以通过软件实现，也可以通过硬件实现。

可选地，所述计算单元604用于执行以下步骤根据所述梯度，计算所述梯度对应的学习速率：通过公式Eta(i)＝A×第i维梯度/(B+sqrt(sum(第i维梯度×第i维梯度)))，计算得到所述学习速率，其中，Eta(i)为所述学习速率，A为第一预设系数，B为第二预设系数，所述梯度是由n个所述第i维梯度所组成的向量，n为所述梯度的维度的数量，0<i≤n。

可选地，如图7所示，所述处理单元606包括：判断模块702和执行模块704。

其中，判断模块702，用于判断所述学习速率是否小于预设阈值；执行模块704，用于若所述学习速率小于所述预设阈值，停止执行所述更新权重操作；若所述学习速率大于等于所述预设阈值，执行所述更新权重操作。

可选地，所述执行模块704用于执行以下步骤执行所述更新权重操作：根据所述学习速率、所述梯度以及历史权重，计算更新权重，其中，所述历史权重是指所述训练过程中所述目标机器所使用的权重。

可选地，所述执行模块704用于执行以下步骤根据所述学习速率、所述梯度以及历史权重，计算更新权重：通过公式更新权重＝历史权重+(-学习速率×梯度)，计算得到所述更新权重。

可选地，如图8所示，该机器异常的处理装置还可以包括：发送单元802。

其中，发送单元802，用于将所述更新权重发送至所述目标机器以及除所述目标机器以外的所有机器，以指示所述目标机器以及除所述目标机器以外的所有机器根据所述更新权重进行训练。

实施例4

根据本申请实施例，还提供了一种用于实施上述学习速率的调整方法实施例的装置实施例，本申请上述实施例所提供的装置可以在计算机终端上运行。

图9是根据本申请实施例的学习速率的调整装置的结构示意图。

如图9所示，该学习速率的调整装置可以包括：第二获取单元902、计算单元904以及处理单元906。

其中，第二获取单元902，用于获取目标机器计算出的梯度；计算单元904，用于根据所述梯度，计算所述梯度对应的学习速率；处理单元906，用于判断所述学习速率是否小于预设阈值；若所述学习速率小于所述预设阈值，停止执行更新权重操作；若所述学习速率大于等于所述预设阈值，执行所述更新权重操作。

由上可知，本申请上述实施例四所提供的方案，通过根据目标机器的梯度计算对应的学习速率，在学习速率小于预设阈值的情况下，停止执行更新权重操作，缩短训练时间，从而实现了降低训练成本的技术效果。

可选地，所述计算单元904用于执行以下步骤根据所述梯度，计算所述梯度对应的学习速率：通过公式Eta(i)＝A×第i维梯度/(B+sqrt(sum(第i维梯度×第i维梯度)))，计算得到所述学习速率，其中，Eta(i)为所述学习速率，A为第一预设系数，B为第二预设系数，所述梯度是由n个所述第i维梯度所组成的向量，n为所述梯度的维度的数量，0<i≤n。

实施例5

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行机器异常的处理方法中以下步骤的程序代码：获取目标机器的梯度消耗时间，其中，所述梯度消耗时间用于表示所述目标机器在训练过程中消耗的与梯度相关的时间；判断所述梯度消耗时间与预先获取的消耗时间均值相比，是否满足预定条件，其中，所述消耗时间均值用于表示集群内的除所述目标机器以外的所有机器，在所述训练过程中消耗的与所述梯度相关的时间的平均值；若所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，确定所述目标机器异常。

可选地，图10是根据本申请实施例的一种计算机终端的结构框图。如图10所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器1002、存储器1004、以及传输装置1006。

其中，存储器1004可用于存储软件程序以及模程序块，如本申请实施例中的机器异常的处理方法和装置对应的程序指令/模程序块，处理器1002通过运行存储在存储器1004内的软件程序以及模程序块，从而执行各种功能应用以及数据处理，即实现上述的机器异常的处理方法。存储器1004可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1004可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器1004用于存储预设动作条件和预设权限用户的信息、以及应用程序。

处理器1002可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待检测报文的报文类型以及目的地址；根据所述报文类型，从预设的配置文件中获取与所述报文类型对应的第一攻击类型集合，并根据所述目的地址获取第二攻击类型集合，其中，所述第二攻击类型集合包含所述目的地址所指向的设备在预设时间段内受到的攻击类型；根据所述第一攻击类型集合和所述第二攻击类型集合，生成对应于所述待检测报文的检测策略链；依据所述检测策略链，检测所述待检测报文。

由上可知，本申请上述实施例五所提供的方案，通过将目标机器的梯度消耗时间与除目标机器以外的所有机器的消耗时间均值进行比较，来确定目标机器是否出现异常，当目标机器异常时，及时调整训练策略，避免部分机器计算或通信速度较慢，造成的增加训练成本的问题，达到了及时确定集群中异常机器的目的，从而实现了降低训练成本的技术效果，进而解决了由于集群中部分机器计算或通信速度较慢造成的训练成本较高的技术问题。

本领域普通技术人员可以理解，图10所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

实施例6

本申请的实施例还可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

在本实施例中，上述计算机终端可以执行学习速率的调整方法中以下步骤的程序代码：获取目标机器计算出的梯度；根据所述梯度，计算所述梯度对应的学习速率；判断所述学习速率是否小于预设阈值；若所述学习速率小于所述预设阈值，停止执行更新权重操作；若所述学习速率大于等于所述预设阈值，执行所述更新权重操作。

该计算机终端可以包括：一个或多个处理器、存储器、以及传输装置。

其中，存储器可用于存储软件程序以及模程序块，如本申请实施例中的学习速率的调整方法和装置对应的程序指令/模程序块，处理器通过运行存储在存储器内的软件程序以及模程序块，从而执行各种功能应用以及数据处理，即实现上述的机器异常的处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器用于存储预设动作条件和预设权限用户的信息、以及应用程序。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取目标机器计算出的梯度；根据所述梯度，计算所述梯度对应的学习速率；判断所述学习速率是否小于预设阈值；若所述学习速率小于所述预设阈值，停止执行更新权重操作；若所述学习速率大于等于所述预设阈值，执行所述更新权重操作。

由上可知，本申请上述实施例六所提供的方案，通过根据目标机器的梯度计算对应的学习速率，在学习速率小于预设阈值的情况下，停止执行更新权重操作，缩短训练时间，从而实现了降低训练成本的技术效果。

本领域普通技术人员可以理解，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。

实施例7

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的机器异常的处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取目标机器的梯度消耗时间，其中，所述梯度消耗时间用于表示所述目标机器在训练过程中消耗的与梯度相关的时间；判断所述梯度消耗时间与预先获取的消耗时间均值相比，是否满足预定条件，其中，所述消耗时间均值用于表示集群内的除所述目标机器以外的所有机器，在所述训练过程中消耗的与所述梯度相关的时间的平均值；若所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，确定所述目标机器异常。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：判断所述第一时间是否大于所述第一平均值与第一预设系数的乘积；其中，若所述第一时间大于所述第一平均值与所述第一预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，若所述第一时间小于等于所述第一平均值与所述第一预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比不满足所述预定条件；和/或，判断所述第二时间是否大于所述第二平均值与第二预设系数的乘积；其中，若所述第二时间大于所述第二平均值与所述第二预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，若所述第二时间小于等于所述第二平均值与所述第二预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比不满足所述预定条件。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：获取除所述目标机器以外的所有机器计算出的所述梯度；根据所述梯度，计算所述梯度对应的学习速率；依据所述学习速率，确定是否执行更新权重操作。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：通过公式Eta(i)＝A×第i维梯度/(B+sqrt(sum(第i维梯度×第i维梯度)))，计算得到所述学习速率，其中，Eta(i)为所述学习速率，A为第一预设系数，B为第二预设系数，所述梯度是由n个所述第i维梯度所组成的向量，n为所述梯度的维度的数量，0<i≤n。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：判断所述学习速率是否小于预设阈值；若所述学习速率小于所述预设阈值，停止执行所述更新权重操作；若所述学习速率大于等于所述预设阈值，执行所述更新权重操作。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：根据所述学习速率、所述梯度以及历史权重，计算更新权重，其中，所述历史权重是指所述训练过程中所述目标机器所使用的权重。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：通过公式更新权重＝历史权重+(-学习速率×梯度)，计算得到所述更新权重。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：将所述更新权重发送至所述目标机器以及除所述目标机器以外的所有机器，以指示所述目标机器以及除所述目标机器以外的所有机器根据所述更新权重进行训练。

实施例8

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例二所提供的学习速率的调整方法所执行的程序代码。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取目标机器计算出的梯度；根据所述梯度，计算所述梯度对应的学习速率；判断所述学习速率是否小于预设阈值；若所述学习速率小于所述预设阈值，停止执行更新权重操作；若所述学习速率大于等于所述预设阈值，执行所述更新权重操作。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：根据所述学习速率、所述梯度以及历史权重，计算更新权重，其中，所述历史权重是指训练过程中所述目标机器所使用的权重。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例1中所描述的示例，本实施例在此不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的订单信息的处理装置，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM， Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

一种机器异常的处理方法，其特征在于，包括：

获取目标机器的梯度消耗时间，其中，所述梯度消耗时间用于表示所述目标机器在训练过程中消耗的与梯度相关的时间；

判断所述梯度消耗时间与预先获取的消耗时间均值相比，是否满足预定条件，其中，所述消耗时间均值用于表示集群内的除所述目标机器以外的所有机器，在所述训练过程中消耗的与所述梯度相关的时间的平均值；

若所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，确定所述目标机器异常。
根据权利要求1所述的方法，其特征在于，所述梯度消耗时间包含所述目标机器计算梯度所消耗的第一时间和/或发送所述梯度所消耗的第二时间；所述消耗时间均值包含系统内的除所述目标机器以外的所有机器计算所述梯度所消耗的时间的第一平均值和/或发送所述梯度所消耗的时间的第二平均值。
根据权利要求2所述的方法，其特征在于，所述判断所述梯度消耗时间与预先获取的消耗时间均值相比，是否满足预定条件包括：

判断所述第一时间是否大于所述第一平均值与第一预设系数的乘积；其中，若所述第一时间大于所述第一平均值与所述第一预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，若所述第一时间小于等于所述第一平均值与所述第一预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比不满足所述预定条件；

和/或，

判断所述第二时间是否大于所述第二平均值与第二预设系数的乘积；其中，若所述第二时间大于所述第二平均值与所述第二预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，若所述第二时间小于等于所述第二平均值与所述第二预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比不满足所述预定条件。
根据权利要求1至3中任一项所述的方法，其特征在于，在所述确定所述目标机器异常之后，所述方法还包括：

获取除所述目标机器以外的所有机器计算出的所述梯度；

根据所述梯度，计算所述梯度对应的学习速率；

依据所述学习速率，确定是否执行更新权重操作。
根据权利要求4所述的方法，其特征在于，所述根据所述梯度，计算所述梯度对应的学习速率包括：

通过公式Eta(i)＝A×第i维梯度/(B+sqrt(sum(第i维梯度×第i维梯度)))，计算得到所述学习速率，其中，Eta(i)为所述学习速率，A为第一预设系数，B为第二预设系数，所述梯度是由n个所述第i维梯度所组成的向量，n为所述梯度的维度的数量，0<i≤n。
根据权利要求5所述的方法，其特征在于，所述依据所述学习速率，确定是否执行更新权重操作包括：

判断所述学习速率是否小于预设阈值；

若所述学习速率小于所述预设阈值，停止执行所述更新权重操作；

若所述学习速率大于等于所述预设阈值，执行所述更新权重操作。
根据权利要求6所述的方法，其特征在于，所述执行所述更新权重操作包括：

根据所述学习速率、所述梯度以及历史权重，计算更新权重，其中，所述历史权重是指所述训练过程中所述目标机器所使用的权重。
根据权利要求7所述的方法，其特征在于，所述根据所述学习速率、所述梯度以及历史权重，计算更新权重包括：

通过公式更新权重＝历史权重+(-学习速率×梯度)，计算得到所述更新权重。
根据权利要求7或8所述的方法，其特征在于，在所述执行更新权重操作之后，所述方法还包括：

将所述更新权重发送至所述目标机器以及除所述目标机器以外的所有机器，以指示所述目标机器以及除所述目标机器以外的所有机器根据所述更新权重进行训练。
一种学习速率的调整方法，其特征在于，包括：

获取目标机器计算出的梯度；

根据所述梯度，计算所述梯度对应的学习速率；

判断所述学习速率是否小于预设阈值；

若所述学习速率小于所述预设阈值，停止执行更新权重操作；

若所述学习速率大于等于所述预设阈值，执行所述更新权重操作。
根据权利要求10所述的方法，其特征在于，所述根据所述梯度，计算所述梯度对应的学习速率包括：

通过公式Eta(i)＝A×第i维梯度/(B+sqrt(sum(第i维梯度×第i维梯度)))，计算得到所述学习速率，其中，Eta(i)为所述学习速率，A为第一预设系数，B为第二预设系数，所述梯度是由n个所述第i维梯度所组成的向量，n为所述梯度的维度的数量，0<i≤n。
根据权利要求10所述的方法，其特征在于，所述执行所述更新权重操作包括：

根据所述学习速率、所述梯度以及历史权重，计算更新权重，其中，所述历史权重是指训练过程中所述目标机器所使用的权重。
根据权利要求12所述的方法，其特征在于，所述根据所述学习速率、所述梯度以及历史权重，计算更新权重包括：

通过公式更新权重＝历史权重+(-学习速率×梯度)，计算得到所述更新权重。
根据权利要求12或13所述的方法，其特征在于，在所述执行更新权重操作之后，所述方法还包括：

将所述更新权重发送至所述目标机器，以指示所述目标机器根据所述更新权重进行训练。
一种机器异常的处理装置，其特征在于，包括：

第一获取单元，用于获取目标机器的梯度消耗时间，其中，所述梯度消耗时间用于表示所述目标机器在训练过程中消耗的与梯度相关的时间；

判断单元，用于判断所述梯度消耗时间与预先获取的消耗时间均值相比，是否满足预定条件，其中，所述消耗时间均值用于表示集群内的除所述目标机器以外的所有机器，在所述训练过程中消耗的与所述梯度相关的时间的平均值；

检测单元，用于若所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，确定所述目标机器异常。
根据权利要求15所述的装置，其特征在于，所述梯度消耗时间包含所述目标机器计算梯度所消耗的第一时间和/或发送所述梯度所消耗的第二时间；所述消耗时间均值包含系统内的除所述目标机器以外的所有机器计算所述梯度所消耗的时间的第一平均值和/或发送所述梯度所消耗的时间的第二平均值。
根据权利要求16所述的装置，其特征在于，所述判断单元用于执行以下步骤判断所述梯度消耗时间与预先获取的消耗时间均值相比，是否满足预定条件：

判断所述第一时间是否大于所述第一平均值与第一预设系数的乘积；其中，若所述第一时间大于所述第一平均值与所述第一预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，若所述第一时间小于等于所述第一平均值与所述第一预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比不满足所述预定条件；

和/或，

判断所述第二时间是否大于所述第二平均值与第二预设系数的乘积；其中，若所述第二时间大于所述第二平均值与所述第二预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比满足所述预定条件，若所述第二时间小于等于所述第二平均值与所述第二预设系数的乘积，则确定所述梯度消耗时间与所述消耗时间均值相比不满足所述预定条件。
根据权利要求15至17中任一项所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于获取除所述目标机器以外的所有机器计算出的所述梯度；

计算单元，用于根据所述梯度，计算所述梯度对应的学习速率；

处理单元，用于依据所述学习速率，确定是否执行更新权重操作。
根据权利要求18所述的装置，其特征在于，所述计算单元用于执行以下步骤根据所述梯度，计算所述梯度对应的学习速率：

通过公式Eta(i)＝A×第i维梯度/(B+sqrt(sum(第i维梯度×第i维梯度)))，计算得到所述学习速率，其中，Eta(i)为所述学习速率，A为第一预设系数，B为第二预设系数，所述梯度是由n个所述第i维梯度所组成的向量，n为所述梯度的维度的数量，0<i≤n。
根据权利要求19所述的装置，其特征在于，所述处理单元包括：

判断模块，用于判断所述学习速率是否小于预设阈值；

执行模块，用于若所述学习速率小于所述预设阈值，停止执行所述更新权重操作；若所述学习速率大于等于所述预设阈值，执行所述更新权重操作。
根据权利要求20所述的装置，其特征在于，所述执行模块用于执行以下步骤执行所述更新权重操作：

根据所述学习速率、所述梯度以及历史权重，计算更新权重，其中，所述历史权重是指所述训练过程中所述目标机器所使用的权重。
根据权利要求21所述的装置，其特征在于，所述执行模块用于执行以下步骤根据所述学习速率、所述梯度以及历史权重，计算更新权重：

通过公式更新权重＝历史权重+(-学习速率×梯度)，计算得到所述更新权重。
根据权利要求21或22所述的装置，其特征在于，所述装置还包括：

发送单元，用于将所述更新权重发送至所述目标机器以及除所述目标机器以外的所有机器，以指示所述目标机器以及除所述目标机器以外的所有机器根据所述更新权重进行训练。
一种学习速率的调整装置，其特征在于，包括：

第二获取单元，用于获取目标机器计算出的梯度；

计算单元，用于根据所述梯度，计算所述梯度对应的学习速率；

处理单元，用于判断所述学习速率是否小于预设阈值；若所述学习速率小于所述预设阈值，停止执行更新权重操作；若所述学习速率大于等于所述预设阈值，执行所述更新权重操作。
根据权利要求18所述的装置，其特征在于，所述计算单元用于执行以下步骤根据所述梯度，计算所述梯度对应的学习速率：

通过公式Eta(i)＝A×第i维梯度/(B+sqrt(sum(第i维梯度×第i维梯度)))，计算得到所述学习速率，其中，Eta(i)为所述学习速率，A为第一预设系数，B为第二预设系数，所述梯度是由n个所述第i维梯度所组成的向量，n为所述梯度的维度的数量，0<i≤n。