WO2020062303A1

WO2020062303A1 - 训练神经网络的方法和装置

Info

Publication number: WO2020062303A1
Application number: PCT/CN2018/109212
Authority: WO
Inventors: 张丰伟; 沈灿泉; 邵云峰
Original assignee: 华为技术有限公司
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2020-04-02
Also published as: CN112400160A

Abstract

一种训练神经网络的方法，包括：确定神经网络训练任务的训练参数数量；根据训练参数数量从训练资源库中确定目标训练资源，其中，训练资源库包括至少一个训练资源，至少一个训练资源与至少一个参数数量之间存在对应关系，至少一个训练资源包括目标训练资源，至少一个参数数量包括神经网络训练任务的训练参数数量；通过目标训练资源执行神经网络训练任务。按照该训练神经网络的方法，数据中心根据神经网络训练任务可以从训练资源库中确定目标训练资源，无需向用户提供资源池的基础架构即可完成神经网络训练任务，从而减小了资源池的基拙架构暴露导致的风险，提高了数据中心的安全性。

Description

训练神经网络的方法和装置

技术领域

本申请涉及人工智能领域，尤其涉及一种训练神经网络的方法和装置。

背景技术

神经网络是一种能够通过学习得到解决方案的数学模型，其在图像识别、语音识别和自然语言处理等领域有广泛的应用。通常情况下，神经网络需要经过大量的训练样本的训练才能够被使用，训练样本的数量以及神经网络的模型参数的数量是制约神经网络训练速率的主要因素。

为了加快神经网络的训练速率，需要使用高性能处理器去训练神经网络，然而，对于个人用户以及中小企业来说，高性能处理器的成本较高，这对神经网络的开发应用造成不利影响。

一种解决上述问题的方法是将高性能处理器部署在云端，形成计算资源池，该计算资源池为用户提供计算资源租赁服务，用户无需购置高性能处理器即可进行神经网络训练，从而解决了个人用户以及中小企业开发神经网络成本较高的问题。

然而，计算资源池的基础架构(例如，拓扑结构)通常不会暴露给用户，而神经网络的训练效率与计算资源池的基础架构关联密切，在基础架构不明确的情况下，用户很难做出合适的选择。

发明内容

本申请提供了一种训练神经网络的方法和装置，能够在不向用户暴露计算资源池的情况下向用户提供神经网络训练服务。

第一方面，提供了一种训练神经网络的方法，包括：确定神经网络训练任务的训练参数数量；根据训练参数数量从训练资源库中确定目标训练资源，其中，训练资源库包括至少一个训练资源，至少一个训练资源与至少一个参数数量之间存在对应关系，至少一个训练资源包括目标训练资源，至少一个参数数量包括神经网络训练任务的训练参数数量；通过目标训练资源执行神经网络训练任务。

按照本申请提供的训练神经网络的方法，数据中心根据神经网络训练任务可以从训练资源库中确定目标训练资源，无需向用户提供资源池的基础架构即可完成神经网络训练任务，从而减小了资源池的基础架构暴露导致的风险，提高了数据中心的安全性。

此外，用户也无需确定完成神经网络训练任务需要哪些训练资源，只需将需求发送至数据中心即可，从而提高了用户体验的满意度。

可选地，根据训练参数数量从训练资源库中确定目标训练资源之前，所述方法还包括：建立训练资源库，其中，目标训练资源包括多个计算单元和所述多个计算单元之间的传输链路，所述对应关系包括以下三者之间的关联关系：目标训练资源、至少一个参数数量以及至少一个参数数量的参数更新速率。

数据中心可以自行通过测试的方式建立训练资源库，从而可以获得与数据中心的实际情况相匹配的训练资源库。

可选地，建立训练资源库，包括：通过目标训练资源更新多个神经网络参数，多个神经网络参数的数量为上述至少一个参数数量中的任意一个；根据多个神经网络参数的更新完成时间确定多个神经网络参数的参数更新速率，多个神经网络参数的参数更新速率与多个神经网络参数的更新完成时间成反比；保存多个神经网络参数的参数更新速率、多个神经网络参数的数量与目标训练资源的对应关系。

数据中心可以使用小批量的数据在不同的训练资源上更新不同数量的神经网络参数，得到多个参数更新速率，记录训练资源、参数数量和参数更新速率之间的关联关系，从而可以获得训练资源数据库。其中，对于固定数量的神经网络参数，更新完成时间越短，更新速率越快；更新完成时间越长，更新速率越慢。

可选地，神经网络训练任务还包括神经网络训练任务的训练模型和指定的样本迭代数量，样本迭代数量为更新一次参数所需输入的训练样本的数量，

根据训练参数数量从训练资源库中确定目标训练资源，包括：根据对应关系从训练资源库中确定与训练参数数量对应的至少一个候选训练资源；在至少一个候选训练资源上测试所训练模型，确定至少一个候选训练资源的参数生成速率；根据参数生成速率确定至少一个候选训练资源的优选样本迭代数量，优选样本迭代数量为候选训练资源的参数生成速率与参数更新速率匹配时候选训练资源的样本迭代数量；从至少一个候选训练资源中确定优选样本迭代数量与指定的样本迭代数量最接近的候选训练资源为目标训练资源。

若用户指定了训练模型和迭代样本数量，可以按照上述方案确定满足用户需求的目标训练资源。在一些情况下，用户比数据中心更加了解训练模型的特点，用户可以根据训练模型的特点指定迭代样本数量，因此，上述方案能够提高神经网络的训练效率。用户也可以根据预算情况指定合适的迭代样本数量。

可选地，神经网络训练任务还包括神经网络训练任务的训练模型，

根据训练参数数量从训练资源库中确定目标训练资源，包括：根据对应关系从训练资源库中确定与训练参数数量对应的至少一个候选训练资源；在至少一个候选训练资源上测试所训练模型，确定至少一个候选训练资源的参数生成速率；根据参数生成速率确定至少一个候选训练资源的优选样本迭代数量，优选样本迭代数量为候选训练资源的参数生成速率与参数更新速率匹配时候选训练资源的样本迭代数量；从至少一个候选训练资源中确定优选样本迭代数量最大的候选训练资源为所述目标训练资源。

若用户未指定迭代样本数量，可以按照上述方案确定满足用户需求的目标训练资源。

可选地，在目标训练资源中，多个计算单元中任意一个计算单元承载的训练样本的数量与所述任意一个计算单元的参数更新速率成正比。

上述方案可以合理分配目标训练资源各个计算单元承载的样本数量。

第二方面，本申请提供了一种训练神经网络的装置，该装置可以实现上述第一方面所涉及的方法中各个步骤所对应的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元或模块。

在一种可能的设计中，该装置包括处理器，该处理器被配置为支持该装置执行上述第一方面所涉及的方法中相应的功能。该装置还可以包括存储器，该存储器用于与处理器耦合，其保存该装置必要的程序指令和数据。可选地，该装置还包括通信接口，该通信接口用于支持该装置与其它设备之间的通信。

第三方面，本申请提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被训练训练神经网络的装置(例如，服务器)的处理器运行时，使得训练训练神经网络的装置执行第一方面的方法。

第四方面，本申请提供了一种计算机存储介质，用于储存为上述训练训练神经网络的装置所用的计算机软件指令，其包含用于执行第一方面的方法所设计的程序。

第五方面，本申请提供了一种训练神经网络的系统，包括第二方面的装置、第三方面的计算机程序产品以及第四方面的计算存储介质。

附图说明

图1是适用于本申请的一种环的示意图；

图2是环的各个计算单元执行环形聚合算法的初始状态的示意图；

图3是环形聚合算法的一个步骤的示意图；

图4是环形聚合算法的另一个步骤的示意图；

图5是环的各个计算单元执行环形聚合算法的结束状态的示意图；

图6是本申请提供的训练神经网络的方法的示意图；

图7是本申请提供的一种训练神经网络的装置的示意图；

图8是本申请提供的另一种训练神经网络的装置的示意图；

图9是本申请提供的一种训练神经网络的系统的示意图。

具体实施方式

为了便于理解本申请的技术方案，首先对本申请涉及的概念做简要介绍。

为了提高神经网络(特别是深度神经网络)的训练效率，一种方法是使用分布式训练算法进行训练，分布式训练算法的流程如下所示：

1、多个计算单元(也可称为“计算节点”)组成的集群中每个计算单元独立完成各自的小批量(mini-batch)训练数据的计算，获得梯度；

2、集群中所有的计算单元需要将计算获得的梯度进行聚合，形成聚合后的梯度；

3、将聚合后的梯度分发到集群中每个计算单元；

4、每个计算单元基于聚合后的梯度，再结合学习速率等超参数，计算出新的神经网络参数，其中，神经网络参数是组成神经网络模型的参数，也可简称为“参数”；

5、所有的计算单元只有在获取到新的参数之后，才能启动下一轮的迭代计算。

为了高效地进行梯度聚合，目前学术界、工业界常用的是环形聚合(ring all reduce)算法，其中，环的逻辑结构如图1所示。

图1中，环100包括5个计算单元，该5个计算单元位于一个系统内，该系统是一个设备或多个设备形成的集群。每个计算单元可以是一个装置或设备，或者，多个计算单元位于一个装置或设备中。所述装置或设备可以是各类电子设备，包括但不限于服务器、大型机、小型机、便携机或终端。每个单元可以是装置或设备中的一个计算元件，例如芯片、芯片组或承载了芯片或芯片组的电路板。

上述计算单元可以是神经网络处理器(neural-network processing unit，NPU)，也可以是图形处理器(graphics processing unit，GPU)或者中央处理器(central processing unit，CPU)，还可以是现场可编程门阵列(field programmable gate array，FPGA)或者其它处理器。图1所示的5个计算单元可以是相同类型的芯片，可以是不同类型的芯片。

每个计算单元均具有一个前序单元和一个后序单元，每个计算单元在环中的位置由环的创建者(例如，用户软件)确定。例如，计算单元0的前序单元是计算单元4，计算单元0的后序单元是计算单元1。每个计算单元均能够从该计算单元的前序单元接收数据，还能够将自身的数据发送至该计算单元的后序单元。

以图1所示的环100为例，在环形聚合算法的准备阶段，环100的创建者(例如，用户软件)向各个计算单元发送控制信息，对数据进行切片处理，每个计算单元计算出的梯度数据被均等地划分成5块。例如，图1所示的5个计算单元计算得到的梯度数据分别为a、b、c、d和e，每个计算单元都拥有自己计算所得的完整数据，该5个计算单元的初始状态如图2所示。

随后，5个计算单元进入散列聚合(scatter reduce)阶段，每个计算单元将自己的一块数据发送给其后序单元，并将从前序单元接收到的数据和自己存储的数据进行聚合处理。

图3示出了散列聚合阶段的一个步骤。在该步骤中，计算单元0将数据块(chunk)a0发送到计算单元1，计算单元1收到数据块a0后，对a0和自己存储的数据块a1进行聚合运算。与此同时，计算单元1将数据块b1发送到计算单元2，计算单元2收到数据块b1后，对b1和自己存储的数据块b2进行聚合运算。其它的计算单元的操作与此类似。

图4示出了散列聚合阶段的另一个步骤。在该步骤中，以计算单元0为例，计算单元0从前序单元(计算单元4)接收数据b4+b3+b2+b1，并将该数据与自身存储的数据b0进行聚合运算，得到的聚合运算结果为b0+b1+b2+b3+b4。计算单元0在接收数据b4+b3+b2+b1的同时将自身存储的数据c0+c4+c3+c2发送至后序单元(计算单元1)，以便于后序单元进行梯度聚合运算。

散列聚合阶段完成后，环形聚合算法进行到下一步，即，全收集(all gather)阶段。在全收集阶段，环100通过4次传递，将各个计算单元得到的最终结果发送至其它计算单元，例如，计算单元0对数据b进行聚合运算得到的最终结果为b0+b1+b2+b3+b4，则AI计算节0将该结果传递给计算单元1，计算单元1将该结果传递给计算单元2，依次类推，经过4次传递，每个计算单元均得到了数据b的聚合运算的最终结果。类似地，对于其它4个数据(a、c、d和e)，经过4次传递后，每个计算单元也都获得到了各个数据的聚合运算的最终结果，如图5所示。

从上述训练算法可以看出，在分布式训练方案中，影响神经网络训练效率的因素有两点，一个是各个计算单元的计算能力，例如，计算单元处理训练固定数量的样本生成梯度的速率；另一个各个计算单元之间的传输能力，例如，两个计算单元之间传输梯度的速率。对于提供计算资源池(以下，简称为“资源池”)的数据中心来说，计算单元的计算能力以及计算单元之间的传输速率都属于训练资源。

下面，将以环100为例详细描述本申请提供的训练神经网络的方法。需要说明的是，本申请提供的方法并不限于图1所示的环形分布式架构，本申请提供的方法可以适用于任何分布式训练架构，例如，规约树(reduce-tree)。

图6示出了本申请提供的一种训练神经网络的方法的示意图。

图6所示的方法600中，数据中心包含3个模块，分别为训练模块、自适应模块和资源库管理模块。这3个模块仅是从功能上进行划分的模块，其可以是独立的模块，也可以是同一个模块的子模块。此外，这3个模块可以是硬件电路，也可以是软件程序。本申请这3个模块的具体形式不作限定。

数据中心可以通过执行下述步骤为用户提供神经网络训练服务。

S601，建立训练资源库。

数据中心在为用户提供神经网络训练服务之前，首先要确定训练资源与神经网络参数的数量(简称为“参数数量”，其中，神经网络参数可以简称为“参数”)的对应关系，即，建立训练资源库。本申请中，训练资源库指的是包含上述对应关系的数据库，上述对应关系不限于训练资源与参数数量的对应关系，例如，上述对应关系还可以包含训练资源、参数数量和与该参数数量对应的参数更新速率。

上述对应关系可以解释为如下含义：对于一组数量固定的参数，使用资源池中的不同的训练资源更新该组参数，若该组参数更新完成，则确定该训练资源与该组参数的数量存在对应关系。

数据中心可以通过测试(即，探测)的方式确定上述对应关系。

例如，数据中心可以从资源池中获取如图1所示的环100，对于一组数量固定的参数，数据中心可以在将该组参数部署在环100上进行更新测试，根据该组参数的更新完成时间得到参数更新速率。在环100上测试不同数量的参数，可以得到环100与不同的参数数量和不同的参数更新速率的关联关系。在不同的训练资源上测试一组数量固定的参数，可以得到该组参数的数量、不同的训练资源和不同的参数更新速率的关联关系。

可选地，数据中心可以输入不同数量的训练样本(包括调整各个计算单元输入的训练样本的数量)，得到不同的参数更新速率，将优选的参数更新速率保存到训练资源库中。其中，优选的参数更新速率指的是训练资源的参数生成速率与参数传输速率匹配时的参数更新速率，优选的参数更新速率对应一个优选的样本迭代数量，例如，在环100上测试固定数量的参数，一次输入1000个样本，得到参数更新速率A；一次输入1500个样本，得到参数更新速率B；一次输入2000个样本，得到参数更新速率C；若ABC三个数值中B最大，则将B作为环100对应的参数更新速率，数字2000即环100的优选迭代样本数量。

在本申请中，样本迭代数量为更新一次参数所需输入的训练样本的数量。

上述示例中，A小于B的原因可能是由于输入的样本数量较少，环100的计算能力(参数生成速率)小于传输能力(参数传输速率)；C小于B的原因可能是由于输入的样本数量过多，环100的计算能力大于传输能力，因此，只有当训练资源的计算能力与传输能力匹配(相同或者近似相同)时，训练资源的参数更新速率才是最快的。

测试完成后，资源库管理模块记录该参数数量、训练资源以及训练速率之间的对应关系，从而建立了训练资源库。

对应关系可是下列形式。

对应关系1：[(环0:GPU0,GPU1,GPU2；(参数更新速率11,参数11),(参数更新速率 12,参数12),(参数更新速率13,参数13)]。

对应关系2：[(环1:GPU1,GPU2,GPU3；(参数更新速率21,参数21),(参数更新速率22,参数22),(参数更新速率23,参数23)]。

对应关系3：[(环2:GPU0,GPU2,GPU3；(参数更新速率31,参数31),(参数更新速率32,参数32),(参数更新速率33,参数33)]。

上述对应关系中，在同一个对应关系中的参数不同，不在同一个对应关系中的参数可以相同，也可以不同。例如，参数11、参数12和参数13彼此相异；参数11、参数21和参数31可以相同，也可以相异。

应理解，S601仅是本申请的技术方案的一个可选的实施方式，在一些情况下，数据中心无需执行S601。例如，计算单元的制造商根据经验数据将对应关系预先配置在数据中心的资源库中。

S602，获取神经网络训练任务。

数据中心根据该训练任务确定用户的需求，该需求例如是待训练的神经网络的参数数量(即，权利要求书中的“训练参数数量”)。用户的需求还可以包括其它信息。

例如，用户可以指定神经网络的训练模型，数据中心首先根据训练参数数量从训练资源库中确定至少一个候选训练资源，随后，数据中心在该至少一个候选训练资源上测试上述训练模型，得到该至少一个候选训练资源的参数生成速率。

上述测试训练模型指的是：在候选训练资源上部署用户指定的训练模型，输入小批量样本，生成参数(例如，梯度)，得到参数生成速率(例如，梯度生成速率)。

随后，数据中心根据参数生成速率确定至少一个候选训练资源的优选样本迭代数量，优选样本迭代数量为候选训练资源的参数生成速率与参数更新速率匹配时候选训练资源的样本迭代数量。

由于不同的训练模型的复杂度不同，导致相同的训练资源上参数更新速率最大时不同的训练模型的样本迭代数量不同，因此，无法在训练资源库中预存候选训练资源的优选样本迭代数量，需要对用户指定的训练模型进行测试，确定候选训练资源的优选样本迭代数量。

测试过程如下：在候选训练资源上部署用户指定的训练模型，并输入不同的样本数量，当实际的参数生成速率与候选训练资源在训练资源库中保存的参数更新速率匹配(相等或者近似相等)时，输入训练模型的样本数量即候选训练资源的优选样本迭代数量。

测试多个候选训练资源的优选样本迭代数量，从多个候选训练资源中确定优选样本迭代数量最大的候选训练资源为目标训练资源。

若用户指定了样本迭代数量，则数据中心从多个候选训练资源中确定优选样本迭代数量与用户指定的样本迭代数量最接近的候选训练资源为目标训练资源。

例如，当前存在两个候选训练资源，候选训练资源A的优选样本迭代数量为5，候选训练资源B的优选样本迭代数量为8，若用户指定的样本迭代数量为7，则确定候选训练资源A为目标训练资源；若用户指定的样本迭代数量为6，则确定候选训练资源A为目标训练资源。

作为一个可选的示例，用户可以根据预算在训练任务中指定神经网络的训练模型和模型训练速率，当预算较高时，可以指定较快的模型训练速率；当预算较低时，可以指定较慢的模型训练速率。数据中心可以通过小批量数据测试确定与用户所需的训练速率匹配的训练资源为目标训练资源。

作为另一个可选的示例，用户还可以指定神经网络的训练模型和训练资源。

数据中心根据用户的需求确定目标训练资源，从而可以满足不同用户，提高用户满意度。

数据中心根据上述需求从训练资源库中确定与该需求对应的训练资源(即，目标训练资源)。例如，执行S605和S606。

S605，根据需求查询资源库，获取候选训练资源。

S606，从候选训练资源中确定目标训练资源。

在S605中，自适应模块可以向资源库管理模块发送查询消息。资源库管理模块获取该查询消息后，从资源库中查询与用户的需求(例如，训练参数数量)存在对应关系的一个或多个训练资源，即，获取至少一个候选训练资源。随后，资源库管理模块将包含至少一个候选训练资源的信息列表发送给自适应模块，自适应模块再从信息列表中确定目标训练资源。例如，自适应模块可以根据用户的具体需求按照上文中的相关描述从候选训练资源中确定目标训练资源。

通过执行S605和S606，数据中心根据神经网络训练任务可以从训练资源库中确定目标训练资源，无需向用户提供资源池的基础架构即可完成神经网络训练任务，从而减小了资源池的基础架构暴露导致的风险，提高了数据中心的安全性。

自适应模块确定了目标资源之后，可以执行S607。

S607，自适应模块向训练模块发送目标训练资源的信息。

目标训练资源的信息例如是计算单元的类型和数量、各个计算单元之间的传输链路以及目标训练资源的优选样本迭代数量。

训练模块接收到目标训练资源的信息后执行S608。

S608，根据目标训练资源的信息执行训练任务。

可选地，训练模块可以调整各个计算单元上部署的样本的数量以获取优选的训练速率。

以环100为例，若计算单元0的参数生成速率为每秒生成5个梯度，计算单元1的参数生成速率为每秒生成8个梯度，则可以在计算单元0上部署较少的样本，在计算单元1上部署较多的样本。

上文详细介绍了本申请提供的训练神经网络的方法的示例。可以理解的是，训练神经网络的装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请可以根据上述方法示例对训练神经网络的装置进行功能单元的划分，例如，可以将各个功能划分为各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用集成的单元的情况下，图7示出了本申请提供的训练神经网络的装置的一种可能的结构示意图。装置700包括：处理单元701。处理单元701用于控制装置700执行图6所示的方法的步骤。处理单元701还可以用于执行本文所描述的技术的其它过程。装置700还可以包括输入输出单元702，用于与其它设备(例如，用户设备)通信，存储单元703，用于存储装置700的程序代码和数据。

例如，处理单元701用于执行：

确定神经网络训练任务的训练参数数量；

根据训练参数数量从训练资源库中确定目标训练资源，其中，训练资源库包括至少一个训练资源，至少一个训练资源与至少一个参数数量之间存在对应关系，至少一个训练资源包括目标训练资源，至少一个参数数量包括神经网络训练任务的训练参数数量；

通过目标训练资源执行所述神经网络训练任务。

处理单元701可以是处理器或控制器，例如可以是CPU，通用处理器，数字信号处理器(digital signal processor，DSP)，专用集成电路(application-specific integrated circuit，ASIC)，现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。输入输出单元702例如是通信接口，存储单元703可以是存储器。

当处理单元701为处理器，输入输出单元702为通信接口，存储单元703为存储器时，本申请所涉及的训练神经网络的装置可以为图8所示的装置。

参阅图8所示，该装置800包括：处理器801、通信接口802(可选的)和存储器803(可选的)。其中，处理器801、通信接口802和存储器803可以通过内部连接通路相互通信，传递控制和/或数据信号。

本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

因此，本申请提供的训练神经网络的装置，根据神经网络训练任务可以从训练资源库中确定目标训练资源，无需向用户提供资源池的基础架构即可完成神经网络训练任务，从而减小了资源池的基础架构暴露导致的风险，提高了数据中心的安全性。

参见图9，本申请还提供了一种训练神经网络的系统架构200。

服务器210配置有输入/输出(input/output，I/O)接口212，与外部设备(例如，客户设备230)进行数据交互，“用户”可以通过客户设备230向I/O接口212输入神经网络训练任务。服务器210例如是数据中心。

服务器210可以调用数据存储系统240中的数据、代码等，也可以将数据、指令等存入数据存储系统250中。

处理器211可以使用图6所示的方法600对训练神经网络，具体的处理可以参见图6的相关描述。

训练设备220用于根据处理器211的命令训练神经网络，训练设备220例如是图1所示的各个计算单元，其中，训练设备220用于处理神经网络训练任务，也可以被认为是服务器210的处理器。

最后，I/O接口212将处理结果(例如，训练完成的神经网络)返回给客户设备240，提供给用户。

在图9中所示情况下，用户可以手动指定输入服务器210中的数据，例如，在I/O接口212提供的界面中操作。另一种情况下，客户设备230可以自动地向I/O接口212输入数据并获得结果，如果客户设备230自动输入数据需要获得用户的授权，用户可以在客户设备230中设置相应权限。用户可以在客户设备230查看处理器210输出的结果，具体的呈现形式例如可以是将输出结果显示在屏幕上。客户设备230也可以作为数据采集端将采集到数据(例如，训练样本)存入数据存储系统240。

值得注意的，图9仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系对本申请的技术方案不构成任何限制，例如，在图9中，数据存储系统240相对服务器210是外部存储器，可选地，也可以将数据存储系统240置于服务器210中。类似地，训练设备200也可以置于服务器210中。

在本申请各个实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施过程构成任何限定。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

结合本申请公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read only memory，ROM)、可擦除可编程只读存储器(erasable programmable ROM，EPROM)、电可擦可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种训练神经网络的方法，其特征在于，包括：

确定神经网络训练任务的训练参数数量；

根据所述训练参数数量从训练资源库中确定目标训练资源，其中，所述训练资源库包括至少一个训练资源，所述至少一个训练资源与至少一个参数数量之间存在对应关系，所述至少一个训练资源包括所述目标训练资源，所述至少一个参数数量包括所述神经网络训练任务的训练参数数量；

通过所述目标训练资源执行所述神经网络训练任务。
根据权利要求1所述的方法，其特征在于，所述根据所述训练参数数量从训练资源库中确定目标训练资源之前，所述方法还包括：

建立所述训练资源库，其中，所述目标训练资源包括多个计算单元和所述多个计算单元之间的传输链路，所述对应关系包括以下三者之间的关联关系：所述目标训练资源、所述至少一个参数数量以及所述至少一个参数数量的参数更新速率。
根据权利要求2所述的方法，其特征在于，所述建立所述训练资源库，包括：

通过所述目标训练资源更新多个神经网络参数，所述多个神经网络参数的数量为所述至少一个参数数量中的任意一个；

根据所述多个神经网络参数的更新完成时间确定所述多个神经网络参数的参数更新速率，所述多个神经网络参数的参数更新速率与所述多个神经网络参数的更新完成时间成反比；

保存所述多个神经网络参数的参数更新速率、所述多个神经网络参数的数量与所述目标训练资源的对应关系。
根据权利要求2或3所述的方法，其特征在于，所述神经网络训练任务还包括所述神经网络训练任务的训练模型和指定的样本迭代数量，所述样本迭代数量为更新一次参数所需输入的训练样本的数量，

所述根据所述训练参数数量从训练资源库中确定目标训练资源，包括：

根据所述对应关系从所述训练资源库中确定与所述训练参数数量对应的至少一个候选训练资源；

在所述至少一个候选训练资源上测试所述训练模型，确定所述至少一个候选训练资源的参数生成速率；

根据所述参数生成速率确定所述至少一个候选训练资源的优选样本迭代数量，所述优选样本迭代数量为所述候选训练资源的参数生成速率与参数更新速率匹配时所述候选训练资源的样本迭代数量；

从所述至少一个候选训练资源中确定优选样本迭代数量与所述指定的样本迭代数量最接近的候选训练资源为所述目标训练资源。
根据权利要求2或3所述的方法，其特征在于，所述神经网络训练任务还包括所述神经网络训练任务的训练模型，

所述根据所述训练参数数量从训练资源库中确定目标训练资源，包括：

根据所述对应关系从所述训练资源库中确定与所述训练参数数量对应的至少一个候选训练资源；

在所述至少一个候选训练资源上测试所述训练模型，确定所述至少一个候选训练资源的参数生成速率；

根据所述参数生成速率确定所述至少一个候选训练资源的优选样本迭代数量，所述优选样本迭代数量为所述候选训练资源的参数生成速率与参数更新速率匹配时所述候选训练资源的样本迭代数量；

从所述至少一个候选训练资源中确定优选样本迭代数量最大的候选训练资源为所述目标训练资源。
根据权利要求1至5中任一项所述的方法，其特征在于，在所述目标训练资源中，多个计算单元中任意一个计算单元承载的训练样本的数量与所述任意一个计算单元的参数更新速率成正比。
一种训练神经网络的装置，其特征在于，包括处理单元，用于：

确定神经网络训练任务的训练参数数量；

根据所述训练参数数量从训练资源库中确定目标训练资源，其中，所述训练资源库包括至少一个训练资源，所述至少一个训练资源与至少一个参数数量之间存在对应关系，所述至少一个训练资源包括所述目标训练资源，所述至少一个参数数量包括所述神经网络训练任务的训练参数数量；

通过所述目标训练资源执行所述神经网络训练任务。
根据权利要求7所述的装置，其特征在于，所述处理单元还用于：

建立所述训练资源库，其中，所述目标训练资源包括多个计算单元和所述多个计算单元之间的传输链路，所述对应关系包括以下三者之间的关联关系：所述目标训练资源、所述至少一个参数数量以及所述至少一个参数数量的参数更新速率。
根据权利要求8所述的装置，其特征在于，所述处理单元具体用于：

通过所述目标训练资源更新多个神经网络参数，所述多个神经网络参数的数量为所述至少一个参数数量中的任意一个；

根据所述多个神经网络参数的更新完成时间确定所述多个神经网络参数的参数更新速率，所述多个神经网络参数的参数更新速率与所述多个神经网络参数的更新完成时间成反比；

保存所述多个神经网络参数的参数更新速率、所述多个神经网络参数的数量与所述目标训练资源的对应关系。
根据权利要求8或9所述的装置，其特征在于，所述神经网络训练任务还包括所述神经网络训练任务的训练模型和指定的样本迭代数量，所述样本迭代数量为更新一次参数所需输入的训练样本的数量，

所述处理单元具体用于：

根据所述对应关系从所述训练资源库中确定与所述训练参数数量对应的至少一个候选训练资源；

在所述至少一个候选训练资源上测试所述训练模型，确定所述至少一个候选训练资源的参数生成速率；

根据所述参数生成速率确定所述至少一个候选训练资源的优选样本迭代数量，所述优选样本迭代数量为所述候选训练资源的参数生成速率与参数更新速率匹配时所述候选训练资源的样本迭代数量；

从所述至少一个候选训练资源中确定优选样本迭代数量与所述指定的样本迭代数量最接近的候选训练资源为所述目标训练资源。
根据权利要求8或9所述的装置，其特征在于，所述神经网络训练任务还包括所述神经网络训练任务的训练模型，

所述处理单元具体用于：

根据所述对应关系从所述训练资源库中确定与所述训练参数数量对应的至少一个候选训练资源；

在所述至少一个候选训练资源上测试所述训练模型，确定所述至少一个候选训练资源的参数生成速率；

根据所述参数生成速率确定所述至少一个候选训练资源的优选样本迭代数量，所述优选样本迭代数量为所述候选训练资源的参数生成速率与参数更新速率匹配时所述候选训练资源的样本迭代数量；

从所述至少一个候选训练资源中确定优选样本迭代数量最大的候选训练资源为所述目标训练资源。
根据权利要求7至11中任一项所述的装置，其特征在于，在所述目标训练资源中，多个计算单元中任意一个计算单元承载的训练样本的数量与所述任意一个计算单元的参数更新速率成正比。
一种训练神经网络的系统，其特征在于，包括处理器，多个计算单元以及存储器，所述处理器用于基于所述存储器中存储的指令执行如权利要求1至6中任一项所述的方法，确定所述目标训练资源；

所述多个计算单元用于：通过所述目标训练资源执行所述神经网络训练任务。