WO2016119429A1

WO2016119429A1 - 用于神经网络中训练参数集的系统和方法

Info

Publication number: WO2016119429A1
Application number: PCT/CN2015/086011
Authority: WO
Inventors: 陈嘉; 曾嘉
Original assignee: 华为技术有限公司
Priority date: 2015-01-26
Filing date: 2015-08-04
Publication date: 2016-08-04
Also published as: EP3196809A1; EP3196809A4; CN105894087A; US20170185895A1

Abstract

一种用于神经网络中训练参数集的系统和方法，该系统包括：主控节点集合（110），用于控制训练过程，并用于存储训练所使用的数据集和参数集，主控节点集合包括M个主控节点，M个主控节点两两之间通信连接，M个主控节点中的至少一个主控节点用于备份参数集；以及N个训练节点集合（120），训练节点集合包括多个训练节点，训练节点用于根据主控节点集合下发的数据集和参数集进行训练，并将训练结果发送给相应的主控节点。该系统和方法可以避免当某一个主控节点失效时导致的整个训练失败情况，提高训练过程的可靠性，通过配置多个训练节点集合并行地进行训练，提高训练效率。

Description

用于神经网络中训练参数集的系统和方法

技术领域

本发明涉及数据处理领域，尤其涉及数据处理领域中的用于神经网络中训练参数集的系统和方法。

背景技术

神经网络是一种模拟大脑神经突触结构来进行信息处理的数学模型，是对人脑的抽象、简化和模拟，可以反映人脑的基本特性。神经网络由大量的节点(也称为神经元)和相互之间的加权连接构成。每个节点代表一种特定的输出函数，称为激励函数；而每两个节点间的连接都代表一个对于通过该连接信号的加权值，称为权重。神经网络用数学函数可以表示为Y＝f(X,W)，其中，X代表网络的输入，Y代表网络的输出，W代表网络的参数集。

下面以监督学习为例来简单描述神经网络的训练问题。神经网络的训练即是要寻找上述函数中的参数集W。神经网络的训练过程为：给定训练的数据集D＝{(X₁,Y₁),(X₂,Y₂),...,(X_N,Y_N)}，对每一个训练数据(X_i,Y_i)，定义其价值函数为

确定W，使得

的值最小。

深度学习是针对神经网络的训练方法之一。目前，深度学习已经可以很好的用于解决语音识别、图象识别及文本处理等实际应用问题。神经网络通常需要使用大规模的训练数据进行训练，以保证神经网络的运算结果达到一定的准确度。相应地，训练数据规模越大就会使得计算量越大，训练所需的时间也越长。为了加快神经网络的训练速度，图形处理单元(Graphic Processing Unit，GPU)等协处理器被广泛应用于深度学习训练计算中。但是这些协处理器的内存相对较小，无法容纳大型神经网络的加权参数集。

并且，现有技术方案通过主控节点将神经网络各副本发送给运算节点，并指示运算节点进行训练。每个运算节点至少配备一个GPU进行运算处理。主控节点在运算节点进行训练时定时查询运算节点状态，并在运算节点达到停止状态后更新主控节点以及运算节点上副本神经网络加权参数。现有技术中，使用众多计算节点协同训练一个大型神经网络，采用传统的同步更新的方式，系统中所有的计算节点只能同时基于相同的参数集W进行训练，系统的整体性能会被最慢的节点以及系统网络带宽所限制。当某个或某些节点失效时，会对整个训练过程带来严重影响。

因此，现有的神经网络的训练系统可靠性较差，仅支持一个主控节点，当主控节点失效时会导致整个训练的失败。并且，现有的训练系统的运算节点只能同时基于相同的参数集W进行训练，系统的规模和整体性能受限于主控节点以及运算节点的内存大小。

发明内容

本发明实施例提供了一种用于神经网络中训练参数集的系统和方法，能够提高神经网络训练过程的可靠性和训练效率。

第一方面，提供了一种用于神经网络中训练参数集的系统，所述系统包括：

主控节点集合，所述主控节点集合包括M个主控节点，所述主控节点集合用于控制所述神经网络中训练参数集的过程，并用于存储所述训练参数集的过程所使用的数据集和参数集，所述数据集包括多个数据子集，所述参数集包括多个参数子集，所述多个参数子集分别存储于不同的主控节点上，所述主控节点集合中的所有主控节点存储的参数子集的合集为所述参数集，所述M个主控节点两两之间通信连接，所述M个主控节点中的至少一个主控节点用于备份所述参数集，其中，M为大于1的正整数；以及

N个训练节点集合，所述N个训练节点集合中的每一个训练节点集合与所述主控节点集合通信连接，所述训练节点集合包括多个训练节点，所述训练节点用于接收所述主控节点集合下发的数据子集和所述参数集，根据接收的所述数据子集和所述参数集，对自身负责的参数子集进行训练，并将训练结果发送给存储所述参数子集的主控节点，其中，N为大于1的正整数，所述N个训练节点集合中的任意两个训练节点集合训练所使用的数据子集不同，所述每个训练节点集合中的所有训练节点所训练的参数子集的合集为所述参数集。

结合第一方面，在第一方面的第一种可能的实现方式中，所述训练结果为训练节点根据接收的所述数据子集和所述参数集，对自身负责的参数子集进行训练得到的自身负责的参数子集的参数变化量，所述主控节点集合中的主控节点还用于：

接收所述训练节点发送的所述参数变化量；

根据所述参数变化量，对所述主控节点中存储的参数子集进行更新。

结合第一方面或第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述主控节点集合具体用于：

将所述参数集划分为多个参数子集；

将所述多个参数子集分别存储于不同的主控节点上，其中，所述主控节点集合中的所有主控节点存储的参数子集的合集为所述参数集；

根据多个所述参数子集的大小确定所述N个训练节点集合中的每个训练节点。

结合第一方面和第一方面的第一种至第二种可能的实现方式中的任一种可能的实现方式，在第一方面的第三种可能的实现方式中，所述主控节点具体用于：

在第一时刻根据第一训练节点集合的第一训练节点发送的参数变化量对所述主控节点中存储的参数子集进行更新；

在第二时刻根据第二训练节点集合的第二训练节点发送的参数变化量对所述主控节点中存储的参数子集进行更新。

结合第一方面和第一方面的第一种至第三种可能的实现方式中的任一种可能的实现方式，在第一方面的第四种可能的实现方式中，所述主控节点集合具体用于：

根据训练结果的准确性，确定是否停止所述训练参数集的过程。

结合第一方面和第一方面的第一种至第四种可能的实现方式中的任一种可能的实现方式，在第一方面的第五种可能的实现方式中，所述训练节点还用于：

接收所述主控节点集合发送的指令，停止所述训练参数集的过程。

结合第一方面和第一方面的第一种至第五种可能的实现方式中的任一种可能的实现方式，在第一方面的第六种可能的实现方式中，同一所述训练节点集合中的训练节点两两之间通信连接。

第二方面，提供了一种用于神经网络中训练参数集的方法，所述方法执行于权利要求1至7中任一项所述的用于神经网络中训练参数集的系统中的主控节点集合，所述系统还包括N个训练节点集合，其中，所述主控节点集合包括M个主控节点，所述M个主控节点两两之间通信连接，其中，M为大于1的正整数，N为大于1的正整数，所述方法包括：

所述主控节点集合存储训练所使用的数据集和参数集，所述数据集包括多个数据子集，所述参数集包括多个参数子集，所述多个参数子集分别存储于不同的主控节点上，所述主控节点集合中的所有主控节点存储的参数子集的合集为所述参数集，所述M个主控节点中的至少一个主控节点用于备份所述参数集；

所述主控节点集合中的主控节点向负责训练自身存储的参数子集的训练节点下发数据子集和所述参数子集；

所述主控节点集合中的主控节点接收所述训练节点发送的训练结果，其中所述训练节点属于训练节点集合，所述训练节点集合与所述主控节点集合通信连接，所述训练节点集合包括多个训练节点，所述训练结果是根据接收的所述主控节点集合下发的数据子集和参数集进行训练得到的。

结合第二方面，在第二方面的第一种可能的实现方式中，所述训练结果为训练节点根据接收的所述主控节点集合下发的所述数据子集和所述参数集，对自身负责的参数子集进行训练得到的参数子集的参数变化量，所述方法还包括：

所述主控节点集合中的主控节点接收所述训练节点发送的所述参数变化量；

所述主控节点集合中的主控节点根据所述参数变化量，对所述主控节点中存储的参数子集进行更新。

结合第二方面或第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述主控节点集合存储训练所使用的数据集和参数集，包括：

所述主控节点集合将所述参数集划分为多个参数子集；

所述方法还包括：

所述主控节点集合根据多个所述参数子集的大小确定所述N个训练节点集合中的每个训练节点。

结合第二方面和第二方面的第一种至第二种可能的实现方式中的任一种可能的实现方式，在第二方面的第三种可能的实现方式中，所述主控节点集合中的主控节点根据所述参数变化量，对所述主控节点中存储的参数子集进行更新，包括：

所述主控节点集合中的主控节点在第一时刻根据第一训练节点集合的第一训练节点发送的参数变化量对所述主控节点中存储的参数子集进行更新；

所述主控节点集合中的主控节点在第二时刻根据第二训练节点集合的第二训练节点发送的参数变化量对所述主控节点中存储的参数子集进行更新。

结合第二方面和第二方面的第一种至第三种可能的实现方式中的任一种可能的实现方式，在第二方面的第四种可能的实现方式中，所述方法还包括：

所述主控节点集合根据训练结果的准确性，确定是否停止所述训练参数集的过程。

结合第二方面和第二方面的第一种至第四种可能的实现方式中的任一种可能的实现方式，在第二方面的第五种可能的实现方式中，一个所述参数子集由至少一个主控节点存储并负责，并对应的由至少两个训练节点负责，所述至少两个训练节点属于不同的训练节点集合，所述多个训练节点集合中的任意两个训练节点集合训练所使用的数据子集不同，所述每个训练节点集合中的所有训练节点所训练的参数子集的合集为所述参数集。

结合第二方面和第二方面的第一种至第五种可能的实现方式中的任一种可能的实现方式，在第二方面的第六种可能的实现方式中，同一所述训练节点集合中的训练节点两两之间通信连接。

基于上述技术方案，本发明实施例提供的用于神经网络中训练参数集的系统和方法，通过由多个两两之间通信连接的多个主控节点形成主控节点集合控制训练过程，可以避免当某一个主控节点失效时导致的整个训练失败情况，能够提高训练过程的可靠性，通过配置多个训练节点集合并行地对参数集进行训练，可以提高训练效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的用于神经网络中训练参数集的系统的示意性框图。

图2是根据本发明实施例的计算设备的示意性框图。

图3是根据本发明实施例的用于神经网络中训练参数集的系统工作流程的示意图。

图4是根据本发明实施例的训练过程的示意性流程图。

图5是根据本发明实施例的用于神经网络中训练参数集的方法的示意性流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

图1示出了根据本发明实施例的用于神经网络中训练参数集的系统100的示意性框图。如图1所示，系统100包括：

主控节点集合110，该主控节点集合110包括M个主控节点，该主控节点集合110用于控制该神经网络中训练参数集的过程，并用于存储该训练参数集的过程所使用的数据集和参数集，该数据集包括多个数据子集，该参数集包括多个参数子集，该多个参数子集分别存储于不同的主控节点上，该主控节点集合110中的所有主控节点存储的参数子集的合集为该参数集，该M个主控节点两两之间通信连接，该M个主控节点中的至少一个主控节点用于备份该参数集，其中，M为大于1的正整数；以及

N个训练节点集合120，该N个训练节点集合120中的每一个训练节点集合与该主控节点集合110通信连接，该训练节点集合120包括多个训练节点，该训练节点用于接收该主控节点集合110下发的数据子集和该参数集，根据接收的该数据子集和该参数集，对自身负责的参数子集进行训练，并将训练结果发送给存储该参数子集的主控节点，其中，N为大于1的正整数，该N个训练节点集合120中的任意两个训练节点集合120训练所使用的数据子集不同，该每个训练节点集合120中的所有训练节点所训练的参数子集的合集为该参数集。

因此，本发明实施例提供的用于神经网络中训练参数集的系统，通过由多个两两之间通信连接的多个主控节点形成主控节点集合控制训练过程，可以避免当某一个主控节点失效时导致的整个训练失败情况，能够提高训练过程的可靠性，通过配置多个训练节点集合并行地对参数集进行训练，可以提高训练效率。

具体而言，训练参数集的系统100包括一个主控节点集合110和至少两个训练节点集合120。主控节点集合110包括至少两个主控节点，主控节点两两之间通信连接，至少一个主控节点用于备份参数集，可以提高训练过程的可靠性。训练节点集合120可以是主控节点集合110根据数据处理的规模和用于形成训练节点集合120的训练节点的性能(如内存大小等)划分的。

本发明实施例的训练参数集的系统100可以应用于神经网络的训练过程。神经网络的训练过程的输入为神经网络函数Y＝f(X,W)、初始的参数集和训练的数据集D，输出为训练后的神经网络的参数集W。主控节点集合110用于控制训练过程，例如控制训练过程的开始或结束，控制各训练节点集合使用的数据子集，以及确定训练节点集合中的每个训练节点等。主控节点集合110还用于存储训练过程的所使用的数据集D和参数集W。参数集W包括多个参数子集，多个参数子集分别存储于不同的主控节点上，该主控节点集合110中的所有主控节点存储的参数子集的合集为该参数集W。

训练节点集合120中的训练节点用于接收该主控节点集合110下发的数据子集和当前的参数集W，根据接收的数据子集和当前的参数集W对自身负责的参数子集进行训练，并将根据该数据子集和当前的参数集W训练可以得到的用于更新的参数变化量ΔW发送给主控节点。训练过程中，该N个训练节点集合120中的任意两个训练节点集合120训练所使用的数据子集不同，该每个训练节点集合120中的所有训练节点所训练的参数子集的合集为该参数集。即，多个训练节点集合120并行处理不同的数据子集，对同一参数子集而言，同一时刻有多个训练节点对其进行训练，可以提高训练过程的效率。

在本发明实施例中，数据集包括多个数据子集，参数集包括多个参数子集，该N个训练节点集合120中的任意两个训练节点集合120训练所使用的数据子集不同，至少存在两个训练节点训练同一个参数子集，该两个训练节点属于不同的训练节点集合120。

具体而言，训练参数集的系统100包括多于一个训练节点集合120。此时，主控节点集合110存储的数据集包括多个数据子集，训练时主控节点集合110将不同的数据子集下发给不同的训练节点集合120。主控节点集合110存储的参数集包括多个参数子集，主控节点集合110中的主控节点分别存储和负责维护不同的参数子集。训练节点集合120中负责某一参数子集的训练节点从相应的主控节点接收其存储和负责维护的该参数子集，从多个主控节点接收的参数子集的合集为参数集。根据数据子集和参数集训练自身负责的参数子集。其中，至少存在两个训练节点训练同一个参数子集，这两个训练节点属于不同的训练节点集合120。即，当有多个训练节点集合120时，多个训练节点集合120并行处理不同的数据子集，对同一参数子集而言，同一时刻有多个训练节点对其进行训练，可以提高训练过程的效率。

应理解，图1中示出系统100中的主控节点集合110中主控节点的个数、训练节点集合120的个数以及训练节点集合120中训练节点的个数均为示意性的。主控节点集合110中包括多于1个主控节点，系统100中包括至少两个训练节点集合120，训练节点集合120中包括多于1个训练节点。

因此，本发明实施例提供的用于神经网络中训练参数集的系统，通过由多个两两之间通信连接的多个主控节点形成主控节点集合控制训练过程，可以避免当某一个主控节点失效时导致的整个训练失败情况，能够提高训练过程的可靠性。并且，通过配置多个训练节点集合并行地对参数集进行训练，可以提高训练的效率。

主控节点集合110中的主控节点和训练节点集合120中的训练节点均为计算设备。图2示出了根据本发明实施例的计算设备的示意性框图。如图2所示，计算设备可以包含处理模块、存储模块、用于计算的协处理模块(例如，图形处理器(Graphic Processing Unit，GPU)、英特尔超多核心(Intel Many Integrated Core，Intel MIC)处理器、现场可编程门阵列(Field-Programmable Gate Array，FPGA)等)和用于在训练节点和与主控节点进行通信或者在主控节点集合110内部通信的通信模块。

可选地，作为一个实施例，在同一时刻，该N个训练节点集合120中的至少一个训练节点集合120训练所使用的参数集与当前该主控节点集合110中存储的参数集不同。

或者，可选地，作为一个实施例，主控节点具体用于：

在第一时刻根据第一训练节点集合的第一训练节点发送的参数变化量对该主控节点中存储的参数子集进行更新；

在第二时刻根据第二训练节点集合的第二训练节点发送的参数变化量对还主控节点中存储的参数子集进行更新。

具体而言，系统100中的每个训练节点集合120均独立并行地运作，互不影响。任何一个训练节点集合120的失效，不影响整个系统100继续进行训练。在训练过程中的某一时刻，N个训练节点集合120中的至少一个训练节点集合120计算所使用的参数集与当前该主控节点集合110中存储的该参数集不同。或者说，在训练过程中的某一时刻，N个训练节点集合120中的至少一个训练节点集合120训练所使用的参数集与其它的训练节点集合120训练所使用的参数集不同。即，主控节点集合110对参数集W的更新是异步的，主控节点在第一时刻根据第一训练节点集合的第一训练节点发送的参数变化量对该主控节点中存储的参数子集进行更新；在第二时刻根据第二训练节点集合的第二训练节点发送的参数变化量对该主控节点中存储的参数子集进行更新。在某一时刻，主控节点集合110当前的参数集W可能已经和训练节点集合120正在训练所使用的参数集W不同了。

可选地，作为一个实施例，主控节点集合110具体可以用于：

将该参数集划分为多个参数子集；

将该多个参数子集分别存储于不同的主控节点上，其中，该主控节点集合110中的所有主控节点存储的参数子集的合集为该参数集；

根据多个该参数子集的大小确定该N个训练节点集合120中的每个训练节点。

具体而言，主控节点集合110在训练的最开始进行初始化工作，例如，划分训练节点集合120、配置训练的数据集和参数集、初始化原始模型等等。其中配置训练的参数集W具体为，将参数集W划分为多个参数子集W₁,W₂,...,W_K。每个主控节点负责维护一个或多个参数子集。如果参数子集W_i由主控节点M_j负责存储、更新和维护，则称M_j是W_i的宿主节点。

根据参数集W的大小以及每个用于形成训练节点集合120的训练节点的内存(或者训练节点的协处理器的内存)大小，主控节点集合110对所有的用于形成训练节点集合120的训练节点进行划分。通常而言，参数子集的大小越大，则需要为其分配的训练节点的能力应越强。假设共有P个训练节点集合120，记为C¹,C²,...,C^P。每个训练节点负责至少一个参数子集，每个计训练节点集合120协同存储和处理参数集W的一个完整副本。

可选地，作为一个实施例，主控节点集合110采用磁盘阵列RAID0/1/5/6或者纠删码对参数集进行备份。

具体而言，为了保证系统100的可靠性，主控节点集合110可以采用RAID0/1/5/6或者纠删码(Erasure Coding)的编码方法对参数集进行备份。这样，在某些主控节点失效的情况下，系统100可以通过相应的解码运算来恢复失效的参数子集而维持正常运作。应理解，还可以采用其它的编码方法来保证系统100的可靠性，本发明实施例对此不作限定。

可选地，作为一个实施例，训练节点具体可以用于：

接收该主控节点集合110发送的指令，停止该训练参数集的过程。

具体而言，对于训练节点集合C^k的训练节点需要访问其负责的参数子集的宿主节点，并下载最新的参数子集的副本。训练节点集合C^k的所有的训练节点通过通信网络获取的所有最新的参数子集的合集即为最新参数集，记作W^k。不同的训练节点集合可能会在不同的时刻从主控节点集合110获取最新的参数集W，而参数集W是不断变化的。因此，在同一时刻，不同的训练节点集合计算所使用的参数集W的副本可能是不同的。

要进行训练，训练节点集合C^k的训练节点还需从该主控节点集合110获取数据集的一部分数据，即数据子集，其中，同一训练节点集合中的训练节点所获取的数据子集相同。进而，训练节点根据该参数集W^k和该数据子集，进行训练，以获得自身负责的参数子集W_i对应的参数变化量ΔW_i ^k。训练节点将训练得到的参数变化量ΔW_i ^k发送给的负责对应的参数子集W_i的主控节点，即宿主节点。训练节点集合C^k的所有的训练节点计算得到的参数变化量ΔW_i ^k合集记为ΔW^k。对于训练节点从主控节点集合110获取参数子集和数据的方式，本发明实施例不作限定。

在训练过程中，训练节点不断地重复接收参数集、接收数据子集的进行训练，直至从主控节点集合110接收到主控节点集合110发送的停止训练的指令，训练节点停止训练参数集的过程。

可选地，作为一个实施例，如果在训练的过程中，训练节点集合中的训练节点之间的参数是相互关联的，则训练节点之间需要进行必要的数据交换，此时，同一训练节点集合中的训练节点两两之间可以通信连接。

可选地，作为一个实施例，训练结果为训练节点根据接收的该数据子集和该参数集，对训练节点自身负责的参数子集进行训练得到的自身负责的参数子集的参数变化量，该主控节点集合110中的主控节点还用于：

接收该训练节点发送的该参数变化量；

根据该参数变化量，对该主控节点中存储的参数子集进行更新。

具体而言，主控节点集合110中的主控节点从某个训练节点集合C^k的训练节点接收该训练节点根据该数据集和该参数集训练得到的用于更新的参数变化量ΔW_i ^k，从而对主控节点集合的该主控节点负责的参数子集W_i进行更新。亦即，主控节点集合从某个训练节点集合C^k接收到完整的参数集变化量ΔW^k后，对神经网络的参数集W进行更新。主控节点集合对参数集W的更新是异步的，也就是说，在同一时刻，主控节点集合当前的参数集W可能已经和训练节点集合C^k在训练过程中使用的参数集W^k不同。这种异步的更新方式可以充分的利用所有训练节点集合的训练能力。此外，本发明实施例对主控节点集合对参数集W的具体更新方法不作限定。

可选地，作为一个实施例，主控节点集合具体用于：

根据训练结果的准确性，确定是否停止训练参数集的过程。

具体而言，主控节点集合110确根据训练结果是否准确，确定是否应停止当前的训练。例如，主控节点集合110可以在当参数集W的变化ΔW^k小于一定的阈值时，确定停止训练过程；或者，当更新的参数集W使得根据参数集W和神经网络的数学函数Y＝f(X,W)计算得到的结果Y的变化值小于一定的阈值时，确定停止训练过程，本发明实施例对此不作限定。

下面将结合具体的例子对本发明实施例提供的系统100的工作流程进行详细说明。

本发明实施例提供的系统100应用于基于深层卷积神经网络的图像分类系统，并使用基于小批量随机梯度下降(Mini-batch Stochastic Gradient Descent)的优化算法进行训练。该深层卷积神经网络的输入X为图像输出Y为图像类别，训练过程的数据集D＝{(X_i,Y_i)}。卷积神经网络的参数集为W，系统训练的参数集包括的参数为小批量的大小m和学习率α。图3是根据本发明实施例的数据处理的系统工作流程的示意图。深层卷积神经网络的参数集为W被分成两个参数子集W₁和W₂。主控节点集合包括三个主控节点M₁，M₂，和M₃。主控节点M₁是参数子集W₁的宿主节点，主控节点M₂是参数子集W₂的宿主节点，主控节点M₃保存

本发明实施例中

表示异或训练。每个训练节点集合C^k包括两个训练节点C^k ₁和C^k ₂，分别用来负责参数子集W₁和W₂的训练。

图4是根据本发明实施例的训练过程200的示意性流程图。训练过程200包括：

210，系统100包括P个训练节点集合C^k(k＝1，2，…，P)。训练节点C^k ₁和C^k ₂分别从主控节点M₁和M₂下载最新的参数子集W₁和W₂，记作W₁ ^k和W₂ ^k。如果主控节点M₁失效，训练节点C^k ₁可以从主控节点M₂下载参数子集W₂，从主控节点M₃下载

然后通过训练

得到参数子集W₁ ^k。如果主控节点M₂失效，训练节点C^k ₂可以从主控节点M₁下载参数子集W₁，从主控节点M₃下载

然后通过训练

得到参数子集W₂ ^k。

220，训练节点C^k ₁和C^k ₂都从主控节点集合接收同一批训练数据

分别基于参数子集W₁ ^k和W₂ ^k进行正向传递训练。训练过程中训练节点C^k ₁和C^k ₂可以相互通信，以进行必要的数据交换。

230，对于每一个训练数据

训练节点C^k ₁和C^k ₂分别训练出其对应的误差

然后通过误差反向传播(Error Back Propagation，BP)算法进行反向传递训练，分别训练出

训练过程中，训练节点C^k ₁和C^k ₂可以相互通信，以进行必要的数据交换。

240，训练节点C^k ₁和C^k ₂分别求得参数变化量

250，训练节点C^k ₁和C^k ₂分别把ΔW₁ ^k和ΔW₂ ^k上传到主控节点M₁和M₂。训练节点C^k ₁和C^k ₂重复步骤210至250，直至从主控节点集合接收到终止训练的指令。

260，主控节点集合包括主控节点M₁和M₂，步骤260与步骤210至250并行进行。主控节点M₁和M₂分别从训练节点集合的训练节点C^k ₁和C^k ₂接收参数变化量

和

根据参数变化量

和

主控节点M₁和M₂根据以下公式分别对参数子集W₁和W₂进行更新：

主控节点M₁和M₂将更新过的参数子集W₁和W₂传输给主控节点M₃。主控节点M₃根据以下公式对W₃进行更新：

270，主控节点集合根据训练结果的准确性，确定是否停止训练过程。如果不满足训练停止条件，重复步骤210至270；如果满足训练停止条件，执行步骤280。

280，主控节点集合向训练节点集合发出终止训练的指令。

因此，本发明实施例提供的用于神经网络中训练参数集的系统，通过由多个两两之间通信连接的多个主控节点形成主控节点集合控制训练过程，可以避免当某一个主控节点失效时导致的整个训练失败情况，能够提高训练过程的可靠性，并且，通过配置多个训练节点集合并行地对参数集进行训练，可以提高训练的效率。

下面对对应于本发明施例的用于神经网络中训练参数集的方法200进行详细的说明。

图5示出了根据本发明实施例的用于神经网络中训练参数集的方法300，该方法300执行于上述用于神经网络中训练参数集的系统中的主控节点集合，该系统还包括N个训练节点集合，其中，该主控节点集合包括M 个主控节点，该M个主控节点两两之间通信连接，其中，M为大于1的正整数，N为大于1的正整数，该方法300包括：

S310，该主控节点集合存储训练所使用的数据集和参数集，该数据集包括多个数据子集，该参数集包括多个参数子集，该多个参数子集分别存储于不同的主控节点上，该主控节点集合中的所有主控节点存储的参数子集的合集为该参数集，该M个主控节点中的至少一个主控节点用于备份该参数集；

S320，该主控节点集合中的主控节点向负责训练自身存储的参数子集的训练节点下发数据子集和该参数子集；

S330，该主控节点集合中的主控节点接收该训练节点发送的训练结果，其中该训练节点属于训练节点集合，该训练节点集合与该主控节点集合通信连接，该训练节点集合包括多个训练节点，该训练结果是根据接收的该主控节点集合下发的数据子集和参数集进行训练得到的。

因此，本发明实施例提供的用于神经网络中训练参数集的方法，通过由多个两两之间通信连接的多个主控节点形成主控节点集合控制训练过程，可以避免当某一个主控节点失效时导致的整个训练失败情况，能够提高训练过程的可靠性，通过多个训练节点集合并行地对参数集进行训练，可以提高训练效率。

可选地，作为一个实施例，该训练结果为训练节点根据接收的该主控节点集合下发的该数据子集和该参数集，对自身负责的参数子集进行训练得到的参数子集的参数变化量，该方法300还包括：

该主控节点集合中的主控节点接收该训练节点发送的该参数变化量；

该主控节点集合中的主控节点根据该参数变化量，对该主控节点中存储的参数子集进行更新。

可选地，作为一个实施例，该主控节点集合存储训练所使用的数据集和参数集，包括：

该主控节点集合将该参数集划分为多个参数子集；

将该多个参数子集分别存储于不同的主控节点上，其中，该主控节点集合中的所有主控节点存储的参数子集的合集为该参数集；

该方法300还包括：

该主控节点集合根据多个该参数子集的大小确定该N个训练节点集合中的每个训练节点。

可选地，作为一个实施例，该主控节点集合中的主控节点根据该参数变化量，对该主控节点中存储的参数子集进行更新，包括：

该主控节点集合中的主控节点在第一时刻根据第一训练节点集合的第一训练节点发送的参数变化量对该主控节点中存储的参数子集进行更新；

该主控节点集合中的主控节点在第二时刻根据第二训练节点集合的第二训练节点发送的参数变化量对该主控节点中存储的参数子集进行更新。

可选地，作为一个实施例，该方法300还包括：

该主控节点集合根据训练结果的准确性，确定是否停止该训练参数集的过程。

可选地，作为一个实施例，一个该参数子集由至少一个主控节点存储并负责，并对应的由至少两个训练节点负责，该至少两个训练节点属于不同的训练节点集合，该多个训练节点集合中的任意两个训练节点集合训练所使用的数据子集不同，该每个训练节点集合中的所有训练节点所训练的参数子集的合集为该参数集。

可选地，作为一个实施例，同一该训练节点集合中的训练节点两两之间通信连接。

因此，本发明实施例提供的用于神经网络中训练参数集的方法，通过由多个两两之间通信连接的多个主控节点形成主控节点集合控制训练过程，可以避免当某一个主控节点失效时导致的整个训练失败情况，能够提高训练过程的可靠性，并且，通过配置多个训练节点集合并行进行训练，可以提高训练的效率。

应理解，在本发明实施例中，“与X相应的Y”表示Y与X相关联，根据X可以确定Y。但还应理解，根据X确定Y并不意味着仅仅根据X确定Y，还可以根据X和/或其它信息确定Y。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

一种用于神经网络中训练参数集的系统，其特征在于，所述系统包括：

主控节点集合，所述主控节点集合包括M个主控节点，所述主控节点集合用于控制所述神经网络中训练参数集的过程，并用于存储所述训练参数集的过程所使用的数据集和参数集，所述数据集包括多个数据子集，所述参数集包括多个参数子集，所述多个参数子集分别存储于不同的主控节点上，所述主控节点集合中的所有主控节点存储的参数子集的合集为所述参数集，所述M个主控节点两两之间通信连接，所述M个主控节点中的至少一个主控节点用于备份所述参数集，其中，M为大于1的正整数；以及

N个训练节点集合，所述N个训练节点集合中的每一个训练节点集合与所述主控节点集合通信连接，所述训练节点集合包括多个训练节点，所述训练节点用于接收所述主控节点集合下发的数据子集和所述参数集，根据接收的所述数据子集和所述参数集，对自身负责的参数子集进行训练，并将训练结果发送给存储所述参数子集的主控节点，其中，N为大于1的正整数，所述N个训练节点集合中的任意两个训练节点集合训练所使用的数据子集不同，所述每个训练节点集合中的所有训练节点所训练的参数子集的合集为所述参数集。
根据权利要求1所述的系统，其特征在于，所述训练结果为训练节点根据接收的所述数据子集和所述参数集，对自身负责的参数子集进行训练得到的自身负责的参数子集的参数变化量，所述主控节点集合中的主控节点还用于：

接收所述训练节点发送的所述参数变化量；

根据所述参数变化量，对所述主控节点中存储的参数子集进行更新。
根据权利要求1或2所述的系统，其特征在于，所述主控节点集合具体用于：

将所述参数集划分为多个参数子集；

将所述多个参数子集分别存储于不同的主控节点上，其中，所述主控节点集合中的所有主控节点存储的参数子集的合集为所述参数集；

根据多个所述参数子集的大小确定所述N个训练节点集合中的每个训练节点。
根据权利要求1至3中任一项所述的系统，其特征在于，所述主控节点具体用于：

在第一时刻根据第一训练节点集合的第一训练节点发送的参数变化量对所述主控节点中存储的参数子集进行更新；

在第二时刻根据第二训练节点集合的第二训练节点发送的参数变化量对所述主控节点中存储的参数子集进行更新。
根据权利要求1至4中任一项所述的系统，其特征在于，所述主控节点集合具体用于：

根据训练结果的准确性，确定是否停止所述训练参数集的过程。
根据权利要求1至5中任一项所述的系统，其特征在于，所述训练节点还用于：

接收所述主控节点集合发送的指令，停止所述训练参数集的过程。
根据权利要求1至6中任一项所述的系统，其特征在于，同一所述训练节点集合中的训练节点两两之间通信连接。
一种用于神经网络中训练参数集的方法，其特征在于，所述方法执行于权利要求1至7中任一项所述的用于神经网络中训练参数集的系统中的主控节点集合，所述系统还包括N个训练节点集合，其中，所述主控节点集合包括M个主控节点，所述M个主控节点两两之间通信连接，其中，M为大于1的正整数，N为大于1的正整数，所述方法包括：

所述主控节点集合存储训练所使用的数据集和参数集，所述数据集包括多个数据子集，所述参数集包括多个参数子集，所述多个参数子集分别存储于不同的主控节点上，所述主控节点集合中的所有主控节点存储的参数子集的合集为所述参数集，所述M个主控节点中的至少一个主控节点用于备份所述参数集；

所述主控节点集合中的主控节点向负责训练自身存储的参数子集的训练节点下发数据子集和所述参数子集；

所述主控节点集合中的主控节点接收所述训练节点发送的训练结果，其中所述训练节点属于训练节点集合，所述训练节点集合与所述主控节点集合通信连接，所述训练节点集合包括多个训练节点，所述训练结果是根据接收的所述主控节点集合下发的数据子集和参数集进行训练得到的。
根据权利要求8所述的方法，其特征在于，所述训练结果为训练节点根据接收的所述主控节点集合下发的所述数据子集和所述参数集，对自身负责的参数子集进行训练得到的参数子集的参数变化量，所述方法还包括：

所述主控节点集合中的主控节点接收所述训练节点发送的所述参数变化量；

所述主控节点集合中的主控节点根据所述参数变化量，对所述主控节点中存储的参数子集进行更新。
根据权利要求8或9所述的方法，其特征在于，所述主控节点集合存储训练所使用的数据集和参数集，包括：

所述主控节点集合将所述参数集划分为多个参数子集；

将所述多个参数子集分别存储于不同的主控节点上，其中，所述主控节点集合中的所有主控节点存储的参数子集的合集为所述参数集；

所述方法还包括：

所述主控节点集合根据多个所述参数子集的大小确定所述N个训练节点集合中的每个训练节点。
根据权利要求8至10中任一项所述的方法，其特征在于，所述主控节点集合中的主控节点根据所述参数变化量，对所述主控节点中存储的参数子集进行更新，包括：

所述主控节点集合中的主控节点在第一时刻根据第一训练节点集合的第一训练节点发送的参数变化量对所述主控节点中存储的参数子集进行更新；

所述主控节点集合中的主控节点在第二时刻根据第二训练节点集合的第二训练节点发送的参数变化量对所述主控节点中存储的参数子集进行更新。
根据权利要求8至11中任一项所述的方法，其特征在于，所述方法还包括：

所述主控节点集合根据训练结果的准确性，确定是否停止所述训练参数集的过程。
根据权利要求8至12中任一项所述的方法，其特征在于，一个所述参数子集由至少一个主控节点存储并负责，并对应的由至少两个训练节点负责，所述至少两个训练节点属于不同的训练节点集合，所述多个训练节点集合中的任意两个训练节点集合训练所使用的数据子集不同，所述每个训练节点集合中的所有训练节点所训练的参数子集的合集为所述参数集。
根据权利要求8至13中任一项所述的方法，其特征在于，同一所述训练节点集合中的训练节点两两之间通信连接。