WO2022037490A1

WO2022037490A1 - 神经网络的运算方法、装置、计算机设备及存储介质

Info

Publication number: WO2022037490A1
Application number: PCT/CN2021/112471
Authority: WO
Inventors: 何伟; 沈杨书; 祝夭龙
Original assignee: 北京灵汐科技有限公司
Priority date: 2020-08-21
Filing date: 2021-08-13
Publication date: 2022-02-24
Also published as: CN111985634A

Abstract

一种神经网络的运算方法，所述神经网络包括多个折叠组，每个折叠组包括一层或多个连续的层，每层对应至少一个运算核，同一折叠组中的不同层对应的运算核不同，且不同所述折叠组对应的运算核至少有部分相同，所述方法包括：当确定第N+1折叠组的目标层满足就绪条件时，将所述第N+1折叠组的目标层与第N折叠组的部分层分别在各自对应的运算核中并行处理。提供了一种新的折叠组间的运行机制，减少了折叠组式神经网络的运算耗时，并提高了折叠组式神经网络的运算效率。

Description

神经网络的运算方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及计算机技术，具体涉及神经网络以及AI技术领域，尤其涉及一种神经网络的运算方法、装置、计算机设备及存储介质。

背景技术

目前，为了提高神经网络的运算速度，可以将神经网络加载至物理芯片中，由物理芯片上的运算核实现神经网络各层的运算功能。其中，可以将神经网络中各层的权重数据一次性加载至物理芯片的对应的运算核上进行运算。但是，当神经网络的权重数据的数据量大于物理芯片的存储能力(各运算核的存储能力)时，无法实现权重数据的一次性加载。

发明人在实现本发明的过程中，发现相关技术的方式整个运算过程耗时长，运算效率低。

发明内容

本发明实施例提供了一种神经网络的运算方法、装置、计算机设备及存储介质，以提高折叠组运行场景中的运算效率。

第一方面，本发明实施例还提供种神经网络的运算方法，所述神经网络包括多个折叠组，每个折叠组包括一层或多个连续的层，每层对应至少一个运算核，同一折叠组中的不同层对应的运算核不同，且不同所述折叠组对应的运算核至少有部分相同，其特征在于，所述方法包括：当确定第N+1折叠组的目标层满足就绪条件时，将所述第N+1折叠组的目标层与第N折叠组的部分层分别在各自对应的运算核中并行处理。

第二方面，本发明实施例还提供一种神经网络的运算装置，所述神经网络包括多个折叠组，每个折叠组包括一层或多个连续的层，每层对应至少一个运算核，同一折叠组中的不同层对应的运算核不同，且不同所述折叠组对应的运算核至少有部分相同，其特征在于，所述装置包括：就绪条件确定模块，用于判断第N+1折叠组中的目标层是否满足就绪条件；并行处理模块，用于当确定第N+1折叠组的目标层满足就绪条件时，将所述第N+1折叠组的目标层与第N折叠组的部分层分别在各自对应的运算核中并行处理。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的神经网络的运算方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明任一实施例所述的神经网络的运算方法。

本发明实施例的技术方案在神经网络的折叠组式运行场景中，引入了新的折叠组间的并行机制，后一折叠组的运算并不是以前一折叠组整体的运行结束作为启动条件，而是在前一折叠组的运行过程中，当检测到后一折叠组中有一设定层(目标层)满足就绪条件时，即可开始对后一折叠组中的该层进行运算。本发明实施例的技术方案提供了一种新的折叠组间的运行机制，减少了折叠组式神经网络的运算耗时，并提高了折叠组式神经网络的运算效率。

附图说明

图1a为相关技术中的一种将神经网络划分至多个折叠组的示意图；

图1b为相关技术中的一种以流水线的形式运算多个折叠组的结构示意图；

图1c为相关技术中的一种以流水线的形式运算多个折叠组的时序图；

图1d是本发明实施例中的一种神经网络的运算方法的实现流程图；

图1e是本发明实施例所适用的一种并行运算多个折叠组的时序图；

图2a是本发明实施例中的另一种神经网络的运算方法的实现流程图；

图2b是本发明实施例所适用的一种并行运算多个折叠组的时序图；

图3是本发明实施例中的另一种神经网络的运算方法的实现流程图；

图4是本发明实施例中的一种神经网络的运算装置的结构图；

图5是本发明实施例中的一种计算机设备的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

为了便于描述本发明实施例的技术方案，首先参考图1c，对图1a、图1b所示的在一些相关技术中神经网络对应的各运算核的运算时序进行简单表述。

在一些相关技术中，可以将神经网络进行折叠处理，如图1a所示，可以将包括7个层的神经网络划分至两个折叠组中，折叠组一中包括第一层到第四层，折叠组二中包括第五层到第七层。请参考图1b，为了运行上述神层经网络，物理芯片中的运算核首先加载折叠组一所需的权重数据进行折叠组一的运算，并在全部运算完成后，将中间数据暂存在内存中，继续加载折叠组二所需的权重数据后，使用内存中的中间数据再进行折叠组二的运算。

结合图1a-图1b，神经网络共包括七层，其中，第一层至第四层划分至折叠组一，第五层至第七层划分至折叠组二。同时，不同层由不同的运算核(图1b的方块中简写为核)运行。如图1c所示，横坐标对应不同的时间段(也可以称为时间片)，每个时间段代表一个运算核单次运算(根据输入数据得到运算结果数据)所需的时间，纵坐标对应不同的运算核。其中，在图1c中示出了针对5项输入数据(数据1、数据2数据3、数据4以及数据5)的运算过程，不同数据(和数据在层中的处理结果)使用不同编号的矩形块表示。

相应的，在T1时间段，数据1分别输入至运算核1至运算核3，由上述三个运算核进行第一层的运算；在T2时间段，数据2分别输入至运算核1至运算核3进行第一层的运算，同时，数据1的第一层运算在T1时间段完成后产生的数据(运算结果数据)传输至运算核4进行第二层的运算。在T3时间段，数据3分别输入至运算核1至运算核3进行第一层的运算、数据2在第一层中于T2时间段进行的运算完成后得到的数据传输至运算核4进行第二层的运算，以及数据1在第二层中于T2时间段进行的运算完成后得到的数据传输至运算核5-运算核8进行第三层的运算，以此类推。只有在T8时间段，运算核9和运算核10才最终完成对上述最后一个数据(数据5)的第四层的运算，也即，第一折叠组才算处理完成。

相应的，在T9时间段(即第一折叠组处理完成后)才能开始第二折叠组的运算，也即，运算核1至运算核4，开始根据运算核9和运算核10对数据1在第四层运算产生的数据(运算结果数据)进行数据1的第五层的运算(即开始第二折叠组的运算)，之后以此类推，直至完成折叠组二中数据1-数据5的处理(图1c未全部示出)。

发明人在实现本发明的过程中发现：多个折叠组之间采用以上流水式运算，在完成前一折叠组的运算之后，才能进行后一折叠组的运算，以上方式整个运算过程耗时长，运算效率低。具体的：实际上，对于第二折叠组中的第五层针对数据1的运算来说，其所需的运算数据在T4时间段之后(T5时间段)已经准备就绪(运算核9和运算核10在T4时间段处理得到的数据)，其所需的运算核(运算核1-运算核4)在T6时间段之后(T7时间段)已经准备就绪。因此，在不具有任何数据和资源冲突的前提下，该第五层(数据1的第五层)最快应该可以在T7时间段开始执行，而无需等待折叠组一整体处理完成。

基于此，发明人创造性的提出了一种折叠组间的并行运算方式，在前一折叠组的运算过程中，只要后一折叠组中的某一层满足就绪条件，即可开始该层的运算，而无需等待前一折叠组整体运行结束，以大大提高折叠组式神经网络的运算效率。

图1d为本发明实施例提供的一种神经网络的运算方法的流程图，本实施例可适用于将包括至少两个折叠组的神经网络在同一众核系统(如一个芯片)内进行运算(片内运算)的情况，该方法可以由神经网络的运算装置来执行，该装置可以由软件和/或硬件的方式实现，并一般可以集中在用于运行该神经网络的众核系统中，方法具体包括：当确定第N+1折叠组的目标层满足就绪条件时，将第N+1折叠组的目标层与第N折叠组的部分层分别在各自对应的运算核中并行处理。

方法具体可包括以下S110至S120。

S110、判断神经网络的第N+1折叠组中的目标层是否满足就绪条件：若是，执行S120，否则，返回继续执行S110。

在本实施例中，N为大于或等于1的正整数，N的取值范围为N∈[1，M]，M+1为该神经网络包括的折叠组的总数量。

如前，本发明实施例所适用的神经网络包括多个折叠组，每个折叠组包括一层或多个连续的层，每层对应至少一个运算核，运算核具体为众核系统内的硬件运算单元，用于以硬件的形式对对应的层进行运算处理。

其中，同一折叠组中的不同层对应的运算核不同，且不同折叠组对应的运算核至少有部分相同。也即，同一折叠组中的不同层需分别对应不同的运算核，而至少部分不同折叠组(尤其是相邻的折叠组) 中的层对应的运算核完全相同，或者具有至少一个运算核的重叠。

一般来说，为最大程度的利用众核系统内的硬件运算单元，可将全部硬件运算单元分别分配给全部折叠组。例如，如果一个众核系统包括运算核1-运算核10，在该众核系统上运行的神经网络包括折叠组一和折叠组二，此时，可以同时将运算核1-运算核10分别分配给折叠组一和折叠组二，以实现两个折叠组均使用最多的运算硬件进行运算。

另一方面，考虑到不同折叠组的运算量可能会有一定的差异，为了尽量保证不同折叠组的运算均衡，不同折叠组对应的运算核之间也可能会有差异。例如，将运算核1-运算核10分配给折叠组一，将运算核1-运算核8分配给折叠组二。

具体的，可以预先设定或者获知每个运算核的运算能力，以及每个层所需的运算能力，并通过保证每个层至少获得所需的运算能力的方式，为每个层分配对应的运算核；或者，可以预先设定每个运算核的标识信息(例如，运算核编号)，并通过预编译的方式，指定与每个层对应的标识信息，进而为每个层分配对应的运算核。

如前，本发明实施例的方案提供了一种折叠组的并行运算方式，也即，后一折叠组的运算不是以前一折叠组整体运行结束为触发运行时机，而是以该折叠组满足就绪条件为触发运行时机。相应的，在本发明实施例中，第N+1折叠组的目标层具体是指在神经网络当前处于运算状态的各层中最后一层的下一层。也即，最近的一个需要触发运算的层。该目标层可以为第N+1折叠组中的第一层，也可以为第N+1折叠组中第一层之后的任一层。

例如，神经网络当前处于运算状态的层为第三层、第四层和第五层。其中，最后一层为第五层，进而，该目标层为第五层的下一层第六层。也即，本发明实施例的技术方案在当前已有一折叠组处于运算状态的过程中，需要实时判断当前处于最后一个运行状态的层之后的层是否位于后一折叠组(即是否为目标层)中，若是，还需要判断目标层是否满足就绪条件，进而按照就绪条件对该目标层进行触发运算。

其中，确定第N+1折叠组的目标层满足就绪条件，可以包括：如果确定目标层所需的运算数据准备就绪，并且目标层对应的运算核准备就绪，则确定目标层满足就绪条件。也即，当目标层所需的运算数据以及所需使用的运算核均准备就绪时，该目标层满足就绪条件，可以开始对该目标层进行运算。

在本实施例的一个可选的实施方式中，确定目标层所需的运算数据准备就绪，可以包括：当确定前序层针对当前输入数据已经输出运算结果数据，则确定目标层所需的运算数据准备就绪，其中，前序层为与目标层相连的前一层。

请参考图1a至1c，当确定第N+1折叠组为折叠组二，第N+1折叠组的目标层为第五层时，该第五层所需的运算数据为第四层输出的运算结果，也即，每当第四层针对当前输入数据，运算并输出相应的运算结果数据后，第五层可以基于该运算结果数据开始进行本层的数据运算。

可以理解的是，前序层可以处于第N+1折叠组，也可以处于第N折叠组。当目标层为第N+1折叠组中的第一个层时，该前序层为第N折叠组中的最后一层；当目标层为第N+1折叠组中除去第一个层之外的其他层时，该前序层为第N+1折叠组中，该其他层的前一层。

在本实施例的一个可选的实施方式中，确定与目标层对应的运算核准备就绪，可以包括：

如果确定当前空闲的运算核的总运算能力与目标层所需运算能力相匹配，则确定目标层对应的运算核准备就绪，且确定目标层对应的运算核均为当前空闲的运算核。

在本实施方式中，可以预先设定或者获知与众核系统中的每个运算核分别对应的运算能力，也即，单次运算过程中所能提供的运算量。目标层所需运算能力具体是指目标层针对当前输入数据进行运算时，所需实现的运算量。

具体的，本实施方式可以不预先明确指定为目标层具体分配哪个或者哪几个运算核，而仅仅比对当前空闲的运算核的总运算能力(当前空闲运算核的运算能力的累加和)是否与目标层所需运算能力相匹配(“匹配”包括当前空闲的运算核的总运算能力与目标层所需运算能力相等，或超出)，若是，则可以将上述空闲运算核分配给目标层进行运算处理(也就是从空闲运算核中选出全部或部分作为目标层对应的运算核)，其中，显然应保证分配给目标层的空闲运算核的总运算能力与目标层所需运算能力相匹配。

在本实施例的另一个可选的实施方式中，确定与目标层对应的运算核准备就绪，还可以包括：如果确定当前空闲的运算核与目标层对应的运算核相匹配，则确定与目标层对应的运算核准备就绪。

在本实施方式中，参考图1b，可以通过预编译的方式预先设定该神经网络中的各个层与众核系统中各个运算核之间的对应关系(例如是确定各层对应的运算核的编号)，进而当与目标层明确对应的各个编号的运算核均处于空闲状态时(当然还可不与目标层对应的其它的运算核处于空闲状态)，即可确定与目标层对应的运算核准备就绪。

S120、将第N+1折叠组的目标层与第N折叠组的部分层分别在各自对应的运算核中并行处理。

在本实施例中，是以第N+1折叠组的目标层是否准备就绪作为该目标层的运算启动条件的，因此，当准备就绪时，可以在第N折叠组的运算过程中，启动第N+1折叠组的处理，也即，实现了将第N+1折叠组与第N折叠组并行处理，其中至少第N+1折叠组中的目标层与第N折叠组的部分层并行处理，当然，第N+1折叠组和第N折叠组中还可有其它层也在并行处理(如之前时间段的“目标层”)。

在图1e中示出了本发明实施例所适用的一种并行运算多个折叠组的时序图，如图1e所示，在T7时间段，折叠组二中的第五层为目标层，且第五层既可以获取折叠组一中的第四层针对数据1输出的运算结果数据(T5时间段可用)，同时，与第五层对应的运算核1-运算核4也已经完成对折叠组一中数据1至数据5的处理(第一层和第二层的处理)，处于空闲状态(T7时间段可用)。因此，第五层满足就绪条件，可以触发执行第五层的运算，也即，在T7时间段，运算核1-运算核4进行折叠组二中的层(第五层)的运算，运算核5-运算核10进行了折叠组一中的层(第三层、第四层)的运算，也即实现了折叠组一和折叠组二的并行处理。

相类似的，在T8时间段，折叠组二中的第六层为目标层，其既可以获取折叠组二中第五层针对数据1输出的运算结果数据，同时，与第六层对应的运算核5-运算核6也已经完成对折叠组一中数据1至数据5的处理(第三层的处理)，处于空闲状态，因此，可以触发执行第六层的运算，也即，在T8时间段，运算核1-运算核6进行折叠组二中的层(第五层、第六层)的运算，同时运算核9-运算核10进行折叠组一中的层(第四层)的运算，也即实现了折叠组一和折叠组二的并行处理(此时运算核7、运算核8空闲)。

结合图1c和图1e的对比，上述折叠组间的并行处理操作，针对5个输入数据的情况，可以至少节省两个时间段的时长，可以理解的是，当神经网络中包括的折叠组越多，每个折叠组中包括的运算核越多，上述方案可以节省的时间段的数量也就越多，神经网络的运算效率提高的也就越明显。

本发明实施例的技术方案在神经网络的折叠组式运行场景中，引入了新的折叠组间的并行机制，后一折叠组的运算并不是以前一折叠组整体的运行结束作为启动条件，而是在前一折叠组的运行过程中，当检测到后一折叠组中有一设定层(目标层)满足就绪条件时，即可开始对后一折叠组中的该层进行运算，本发明实施例的技术方案提供了一种新的折叠组间的运行机制，减少了折叠组式神经网络的运算耗时，并提高了折叠组式神经网络的运算效率。

图2a为本发明实施例提供的另一种神经网络的运算方法的实现流程图，本实施例以上述实施例为基础进行细化，在本实施例中，将第N+1折叠组与第N折叠组并行处理的操作，细化为：执行向与目标层对应的各运算核加载与目标层对应的权重数据的操作，其中，目标层对应的各运算核包括第N折叠组中已完成运算层对应的运算核；在通过第N折叠组中未完成运算层对应的各运算核进行运算的过程中，触发第N+1折叠组中目标层对应的各运算核进行并行运算。

同时，在触发第N+1折叠组中目标层对应的各运算核进行并行运算的操作之后，还可以包括：通过与目标层对应的各运算核，根据从内存中获取的运算结果数据或者与目标层相连的前序层实时输出的运算结果数据，进行并行运算；通过与目标层对应的各运算核，将当前运算得到的运算结果数据存储于内存中或者实时输出至与目标层相连的后序层。

相应的，本实施例的方法具体包括以下S210至S260。

S210、判断前序层针对当前输入数据是否已经输出运算结果数据：若是，则执行S220；否则，返回执行S210。

其中，前序层为与目标层相连的前一层。也即，该前序层为当前处于运算状态的各层中的最后一层，该层可以处于第N折叠组，也可以处于第N+1折叠组。

在本实施例中，首先可以验证该前序层是否针对当前输入数据输出了相应的运算结果数据，也即，目标层所需的运算数据。

S220、判断当前空闲的运算核的编号与目标层对应的运算核的编号是否相匹配：若是，执行S230；否则，返回执行S220。

在本实施例中，在确定目标层所需的运算数据准备就绪后，可以进一步判断与目标层对应的运算核是否均处于空闲状态。

S230、执行向与目标层对应的各运算核，加载与目标层对应的权重数据的操作。

在本实施例中，在确定目标层所需的运算数据，以及与目标层对应的运算核均准备好后，需要首先向与目标层对应的各运算核加载权重数据。其中，目标层对应的各运算核至少包括第N折叠组中已完成运算层对应的运算核，即第N+1折叠组中目标层对应的运算核有至少一部分是原本处理第N折叠组中的层对应的运算核，但在此时已经空闲。实际上，因为设置了多个折叠组，即是需要相邻折叠组共用相同的运算核进行运算处理，而只有前一折叠组中出现完成运算的空闲运算核后，后一折叠组中的目标层才可能满足就绪条件，因此，目标层对应的各运算核包括第N折叠组中已经完成运算的层对应的运算核，进一步可以全都是第N折叠组中已经完成运算的层对应的运算核。

在相关技术中，为了在众核系统中运行权重数据大于众核系统的运算核的存储能力的神经网络，需要首先将神经网络划分为多个折叠组，并通过流水线的形式对各个折叠组进行运算以及权重的交替存储，也即：前一折叠组整体运算完成后，将当前各运算核中存储的与前一折叠组对应的权重数据整体替换为与后一折叠组对应的权重数据，开启后一折叠组的运算处理。

在本实施例中，由于实现了相邻折叠组间的并行处理，因此，无法针对一个折叠组进行权重数据的整体加载，因此，可以在目标层准备就绪后，仅加载与目标层对应的权重数据(其会替换掉第N折叠组的部分权重数据)，以完成对目标层的运算。

具体的，可以在预编译阶段确定与神经网络中的每一层分别对应的权重数据，并预先存储于内存中，并可以通过直接读取的方式读取得到与每一层对应的权重数据。

S240、在通过第N折叠组中未完成运算层对应的各运算核进行运算的过程中，触发第N+1折叠组中目标层对应的各运算核进行并行运算。

如前，第N+1折叠组目标层需要使用第N折叠组中已经完成运算的层空闲出的运算核，与第N折叠组中未完成运算的一个或者多个层一起，进行并行运算，故目标层的运算是在对第N折叠组中未完成运算的层继续处理的过程中触发的。

S250、通过与目标层对应的各运算核，根据从内存中获取的运算结果数据或者与目标层相连的前序层实时输出的运算结果数据，进行并行运算。

如图1e所示，目标层所需的运算数据可能会比目标层对应的运算核先准备好，例如，折叠组二的第五层所需的运算数据在T5时间段即可使用，而与折叠组二的第五层对应的运算核1-运算核4在T7时间段才准备好，因此，可以先将前序层运算得到的运算结果数据(即当前目标层所需的运算数据)存储内存中，当T7时间段到达时，由运算核1-运算核4从内存中获取对应的运算结果数据进行运算；

或者，目标层所需的运算数据可能会与对应的运算核一起准备好，例如，折叠组二的第六层所需的运算数据在T8时间段准备好，而与折叠组二的第六层对应的运算核5-运算核6同样也在T8时间段准备好，此时，目标层的前序层(例如，第五层)可以直接将运算得到的运算结果数据传输至目标层，由目标层直接在新的时间段进行相应的运算处理。

S260、通过与目标层对应的各运算核，将当前运算得到的运算结果数据存储于内存中，或者实时输出至与目标层相连的后序层。

相类似的，当与目标层对应的各运算核得到运算结果数据(即下一个后续层作为目标层时所需的运算数据)后，如果确定与后序层对应的运算核已经准备就绪，则可以直接将运算结果数据实时输出至后序层(也即，与目标层相连的后一层)；如果确定与后序层对应的运算核没有准备就绪，则可以将当前运算得到的运算结果数据存储于内存中，由后序层作为目标层且满足就绪条件时，实时从内存中获取并进行相应的运算。

可以理解的是，执行向与目标层对应的各运算核，加载与目标层对应的权重数据的操作是需要耗费一定的时间的，如果上述操作耗费的时间较短，则可以将上述操作融入一个时间段中，在每个时间段内同时完成权重数据的加载以及数据的运算过程。如果上述操作耗费的时间较长，则可以为上述操作单独分配权重加载时间，并在满足就绪条件后，等待该权重加载时间完成，再由运算核在新的时间段内执行数据的运算。

相应的，在本实施例的一个可选的实施方式中，触发第N+1折叠组中目标层对应的各运算核进行并行运算，可以包括：从第N+1折叠组的目标层满足就绪条件开始，间隔权重加载时长后，触发第N+1折叠组中目标层对应的各运算核进行并行运算。

其中，为了便于统一的协调管理，权重加载时长可以为一个预设的定值，例如一个时间段；或者，为了最大程度的降低时间浪费，该权重记载时长可以根据实际的权重加载时间确定，也即，每当目标层对应的各运算核完成了权重的加载过程，即刻触发第N+1折叠组中目标层对应的各运算核进行并行运算。

其中，图2b是本发明实施例所适用的一种并行运算多个折叠组的时序图，如图2b所示，在T6时间段，折叠组二的第五层所需的运算数据，以及对应的运算核均准备就绪，因为，可以再等待一个时间段(T7时间段)，完成对第五层的权重数据的加载等待，并最终在T8时间段，开始进行第五层的运算。

本发明实施例的技术方案根据前序层输出目标层所需的运算数据的时间和与目标层对应的运算核准备就绪的时间之间的关系，确定目标层具体是从内存从获取运算数据或者从该前序层直接获取数据，进一步完善了本发明实施例的应用场景，最大程度的利用了众核系统中的各项资源，同时，通过在目标层的权重加载过程分配权重加载时间，可以不占用每个运算核运算时所需的时间段，以进一步保证神经网络的运算准确性和可靠性。

图3为本发明实施例提供的另一种神经网络的运算方法的实现流程图，本实施例以上述实施例为基础进行细化，在本实施例中，在将第N+1折叠组的目标层与第N折叠组的部分层分别在各自对应的运算核中并行处理之前，方法还包括：响应于运算开始指令，将与神经网络的第一折叠组中的各层对应的权重数据分别加载至与第一折叠组的各层对应的各运算核中；通过与第一折叠组的各层对应的各运算核进行运算。

相应的，本实施例的方法具体包括以下S310至S330。

S310、响应于运算开始指令，将与神经网络的第一折叠组中的各层对应的权重数据分别加载至与第一折叠组的各层对应的各运算核中。

在本实施例中，由于为神经网络的同一折叠组所分配的各运算核均不重叠，因此，为了最大程度的提高神经网络的运算效率，可以在神经网络的第一折叠组运行之前，一次性加载该第一折叠组所需的全部权重数据。

在本实施例的一个可选的实施方式中，神经网络为不包括反馈环路的神经网络。这样设置的原因在于：当一个神经网络不包括反馈环路(即在后层的输出返回作为在前层的输入)时，某一层完成对输入数据的完整运算后，不会再次启动运算，因此，与该层对应的各运算核均可以分配给其他层使用，而不会发生运算核的分配冲突的情况。

其中，不包括反馈环路的神经网络可以为ANN(Artificial Neural Network，人工神经网络)或者SNN(SNN-Spiking Neuron Networks，脉冲神经网络)等，本实施例对此并不进行限制。

S320、通过与第一折叠组的各层对应的各运算核进行运算。

S330、当确定第N+1折叠组的目标层满足就绪条件时，将第N+1折叠组的目标层与第N折叠组的部分层分别在各自对应的运算核中并行处理。

图4是本发明实施例提供的一种神经网络的运算装置的结构图。神经网络包括多个折叠组，每个折叠组包括一层或多个连续的层，每层对应至少一个运算核，同一折叠组中的不同层对应的运算核不同，且不同折叠组对应的运算核至少有部分相同。如图4所示，装置包括：就绪条件确定模块410以及并行处理模块420。

就绪条件确定模块410，用于判断第N+1折叠组中的目标层是否满足就绪条件；并行处理模块420，用于当确定第N+1折叠组的目标层满足就绪条件时，将第N+1折叠组的目标层与第N折叠组的部分层分别在各自对应的运算核中并行处理。

本发明实施例的技术方案在神经网络的折叠组式运行场景中，引入了新的折叠组间的并行机制，后一折叠组的运行并不是以前一折叠组整体的运行结束作为启动条件，而是在前一折叠组的运行过程中，当检测到后一折叠组中有一设定层(目标层)满足就绪条件时，即可开始对后一折叠组中的该层进行运算，本发明实施例的技术方案提供了一种新的折叠组间的运行机制，减少了折叠组式神经网络的运算耗时，并提高了折叠组式神经网络的运算效率。

在上述各实施例的基础上，就绪条件确定模块410，可以包括：运算数据判断单元，用于判断目标层所需的运算数据是否准备就绪；运算核判断单元，用于判断目标层对应的运算核是否准备继续；综合确定单元，用于如果确定目标层所需的运算数据准备就绪，并且目标层对应的运算核准备就绪，则确定目标层满足就绪条件。

在上述各实施例的基础上，运算数据判断单元，具体可以用于：当确定前序层针对当前输入数据已经输出运算结果数据，则确定目标层所需的运算数据准备就绪，其中，前序层为与目标层相连的前一层。

在上述各实施例的基础上，运算核判断单元，具体可以用于：如果确定当前空闲的运算核的总运算能力与目标层所需运算能力相匹配，则确定目标层对应的运算核准备就绪，且确定目标层对应的运算核均为当前空闲的运算核；或者，如果确定当前空闲的运算核与目标层对应的运算核相匹配，则确定与目标层对应的运算核准备就绪。

在上述各实施例的基础上，并行处理模块420，包括：权重加载单元，用于执行向与目标层对应的各运算核加载与目标层对应的权重数据的操作，其中，目标层对应的各运算核包括第N折叠组中已完成运算层对应的运算核；并行运算触发单元，用于在通过第N折叠组中未完成运算层对应的各运算核进行运算的过程中，触发第N+1折叠组中目标层对应的各运算核进行并行运算。

在上述各实施例的基础上，并行运算触发单元，具体用于：从第N+1折叠组的目标层满足就绪条件开始，间隔权重加载时长后，触发第N+1折叠组中目标层对应的各运算核进行并行运算。

在上述各实施例的基础上，装置还可以包括并行处理模块420还包括目标层运行单元，用于：在触发第N+1折叠组中目标层对应的各运算核进行并行运算之后，通过与目标层对应的各运算核，根据从内存中获取的运算结果数据或者与目标层相连的前序层实时输出的运算结果数据，进行并行运算；通过与目标层对应的各运算核，将当前运算得到的运算结果数据存储于内存中或者实时输出至与目标层相连的后序层。

在上述各实施例的基础上，装置还可以包括第一折叠组运算模块，用于：响应于运算开始指令，将与神经网络的第一折叠组中的各层对应的权重数据分别加载至与第一折叠组的各层对应的各运算核中；通过与第一折叠组的各层对应的各运算核进行运算。

在上述各实施例的基础上，神经网络可以为不包括反馈环路的神经网络。

本发明实施例所提供的神经网络的运算装置可执行本发明任意实施例所提供的神经网络的运算方法，具备执行方法相应的功能模块和有益效果。

图5为本发明实施例提供的一种计算机设备的结构示意图，如图5所示，该计算机设备包括处理器50、存储装置51，还可包括输入装置52和输出装置53；计算机设备中处理器50的数量可以是一个或多个，图5中以一个处理器50为例；计算机设备中的处理器50、存储装置51、输入装置52和输出装置53可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储装置51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块(计算机程序)，如本发明实施例中的多任务并行处理方法对应的模块。处理器50通过运行存储在存储装置51中的计算机程序，从而执行计算机设备的各种功能应用以及数据处理，即实现如本发明任意实施例的神经网络的运算方法。

其中，神经网络包括多个折叠组，每个折叠组包括一层或多个连续的层，每层对应至少一个运算核，同一折叠组中的不同层对应的运算核不同，且不同折叠组对应的运算核至少有部分相同，方法包括：

当确定第N+1折叠组的目标层满足就绪条件时，将第N+1折叠组的目标层与第N折叠组的部分层分别在各自对应的运算核中并行处理。

存储装置51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置52可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。

本发明实施例还提供一种包含计算机可执行指令(即计算机程序)的计算机可读存储介质，计算机程序在由处理器执行时用于执行如本发明任意实施例的神经网络的运算方法。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上的方法操作，还可以执行本发明任意实施例所提供的方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

一种神经网络的运算方法，所述神经网络包括多个折叠组，每个折叠组包括一层或多个连续的层，每层对应至少一个运算核，同一折叠组中的不同层对应的运算核不同，且不同所述折叠组对应的运算核至少有部分相同，其特征在于，所述方法包括：

当确定第N+1折叠组的目标层满足就绪条件时，将所述第N+1折叠组的目标层与第N折叠组的部分层分别在各自对应的运算核中并行处理。
根据权利要求1所述的方法，其特征在于，确定第N+1折叠组的目标层满足就绪条件，包括：

如果确定所述目标层所需的运算数据准备就绪，并且所述目标层对应的运算核准备就绪，则确定所述目标层满足就绪条件。
根据权利要求2所述的方法，其特征在于，确定所述目标层所需的运算数据准备就绪，包括：

当确定前序层针对当前输入数据已经输出运算结果数据，则确定所述目标层所需的运算数据准备就绪，其中，所述前序层为与所述目标层相连的前一层。
根据权利要求2所述的方法，其特征在于，确定与所述目标层对应的运算核准备就绪，包括：

如果确定当前空闲的运算核的总运算能力与所述目标层所需运算能力相匹配，则确定所述目标层对应的运算核准备就绪，且确定所述目标层对应的运算核均为当前空闲的运算核；

或者，

如果确定当前空闲的运算核与所述目标层对应的运算核相匹配，则确定与所述目标层对应的运算核准备就绪。
根据权利要求1所述的方法，其特征在于，将所述第N+1折叠组的目标层与第N折叠组的部分层分别在各自对应的运算核中并行处理，包括：

执行向与所述目标层对应的各运算核加载与所述目标层对应的权重数据的操作，其中，所述目标层对应的各运算核包括第N折叠组中已完成运算层对应的运算核；

在通过第N折叠组中未完成运算层对应的各运算核进行运算的过程中，触发第N+1折叠组中目标层对应的各运算核进行并行运算。
根据权利要求5所述的方法，其特征在于，触发第N+1折叠组中目标层对应的各运算核进行并行运算，包括：

从第N+1折叠组的目标层满足就绪条件开始，间隔权重加载时长后，触发第N+1折叠组中目标层对应的各运算核进行并行运算。
根据权利要求5所述的方法，其特征在于，在触发第N+1折叠组中目标层对应的各运算核进行并行运算之后，还包括：

通过与所述目标层对应的各运算核，根据从内存中获取的运算结果数据或者与所述目标层相连的前序层实时输出的运算结果数据，进行并行运算；

通过与所述目标层对应的各运算核，将当前运算得到的运算结果数据存储于内存中或者实时输出至与所述目标层相连的后序层。
根据权利要求1-7任一项所述的方法，其特征在于，在将所述第N+1折叠组的目标层与第N折叠组的部分层分别在各自对应的运算核中并行处理之前，还包括：

响应于运算开始指令，将与所述神经网络的第一折叠组中的各层对应的权重数据分别加载至与所述第一折叠组的各层对应的各运算核中；

通过与所述第一折叠组的各层对应的各运算核进行运算。
根据权利要求1-7任一项所述的方法，其特征在于，所述神经网络为不包括反馈环路的神经网络。
一种神经网络的运算装置，所述神经网络包括多个折叠组，每个折叠组包括一层或多个连续的层，每层对应至少一个运算核，同一折叠组中的不同层对应的运算核不同，且不同所述折叠组对应的运算核至少有部分相同，其特征在于，所述装置包括：

就绪条件确定模块，用于判断第N+1折叠组中的目标层是否满足就绪条件；

并行处理模块，用于当确定第N+1折叠组的目标层满足就绪条件时，将所述第N+1折叠组的目标层与第N折叠组的部分层分别在各自对应的运算核中并行处理。
根据权利要求10所述的装置，其特征在于，所述就绪条件确定模块，包括：

运算数据判断单元，用于判断所述目标层所需的运算数据是否准备就绪；

运算核判断单元，用于判断所述目标层对应的运算核是否准备继续；

综合确定单元，用于如果确定所述目标层所需的运算数据准备就绪，并且所述目标层对应的运算核准备就绪，则确定所述目标层满足就绪条件。
根据权利要求11所述的装置，其特征在于，所述运算数据判断单元，具体用于：

当确定前序层针对当前输入数据已经输出运算结果数据，则确定所述目标层所需的运算数据准备就绪，其中，所述前序层为与所述目标层相连的前一层。
根据权利要求11所述的装置，其特征在于，所述运算核判断单元，具体用于：

如果确定当前空闲的运算核的总运算能力与所述目标层所需运算能力相匹配，则确定所述目标层对应的运算核准备就绪，且确定所述目标层对应的运算核均为当前空闲的运算核；

或者，

如果确定当前空闲的运算核与所述目标层对应的运算核相匹配，则确定与所述目标层对应的运算核准备就绪。
根据权利要求10所述的装置，其特征在于，并行处理模块，包括：

权重加载单元，用于执行向与所述目标层对应的各运算核加载与所述目标层对应的权重数据的操作，其中，所述目标层对应的各运算核包括第N折叠组中已完成运算层对应的运算核；

并行运算触发单元，用于在通过第N折叠组中未完成运算层对应的各运算核进行运算的过程中，触发第N+1折叠组中目标层对应的各运算核进行并行运算。
根据权利要求14所述的装置，其特征在于，所述并行运算触发单元，具体用于：

从第N+1折叠组的目标层满足就绪条件开始，间隔权重加载时长后，触发第N+1折叠组中目标层对应的各运算核进行并行运算。
根据权利要求14所述的装置，其特征在于，并行处理模块还包括目标层运行单元，用于：

在触发第N+1折叠组中目标层对应的各运算核进行并行运算之后，通过与所述目标层对应的各运算核，根据从内存中获取的运算结果数据或者与所述目标层相连的前序层实时输出的运算结果数据，进行并行运算；

通过与所述目标层对应的各运算核，将当前运算得到的运算结果数据存储于内存中或者实时输出至与所述目标层相连的后序层。
根据权利要求10-16任一项所述的装置，其特征在于，还包括第一折叠组运算模块，用于：

响应于运算开始指令，将与所述神经网络的第一折叠组中的各层对应的权重数据分别加载至与所述第一折叠组的各层对应的各运算核中；

通过与所述第一折叠组的各层对应的各运算核进行运算。
根据权利要求10-16任一项所述的装置，其特征在于，所述神经网络为不包括反馈环路的神经网络。
一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的神经网络的运算方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-9中任一所述的神经网络的运算方法。