WO2020238106A1

WO2020238106A1 - 一种数据处理方法、电子装置及计算机可读存储介质

Info

Publication number: WO2020238106A1
Application number: PCT/CN2019/121602
Authority: WO
Inventors: 李炜; 曹庆新
Original assignee: 深圳云天励飞技术有限公司
Priority date: 2019-05-24
Filing date: 2019-11-28
Publication date: 2020-12-03
Also published as: CN110298441A; US11061621B2; CN110298441B; US20210173590A1

Abstract

一种数据处理方法、电子装置及计算机可读存储介质，其中方法包括：所述电子装置通过所述处理器在每个轮询内向所述存储器并行发送N个存储请求Q次；其中，所述N个存储请求用于请求所述存储器存储所述M个处理元件中N个标识连续的处理元件各自生成的一行输出数据；所述Q是根据处理元件的数量M以及存储请求的数量N确定的；所述电子装置通过所述存储器在第P个轮询内根据接收到的Q×N个存储请求回存所述M个处理元件各自生成的第P行输出数据。通过该方法，可以解决现有的神经网络模型中数据回存效率不高的问题，通过并行请求的触发，可以实现多个数据的同时存储，从而可以提高回存效率。

Description

一种数据处理方法、电子装置及计算机可读存储介质

本申请要求于2019年5月24日提交中国专利局，申请号为201910444607.1、发明名称为“一种数据处理方法、电子装置及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信息处理技术领域，尤其涉及一种数据处理方法、电子装置及计算机可读存储介质。

背景技术

神经网络是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型，这种网络由大量的节点(或称神经元)之间星湖连接构成，通过调整内部大量节点之间相互连接的关系，利用输入数据、权值产生输出数据模拟人脑的信息处理过程处理信息并生成模式识别之后的结果。

对于神经网络运算来说，如果该神经网络运算具有多层运算，多层运算的输入神经元和输出神经元并非是指整个神经网络的输入层中神经元和输出层中神经元，而是对于网络中任意相邻的两层，处于网络正向运算下层中的神经元即为输入神经元，处于网络正向运算上层中的神经元即为输出神经元。以卷积神经网络模型为例，设一个卷积神经网络有L层，K＝1,2,...,L-1，对于第K层和第K+1层来说，我们将第K层称为输入层，其中的神经元为所述输入神经元，第K+1层称为输出层，其中的神经元为所述输出神经元。即除最顶层外，每一层都可以作为输入层，其下一层为对应的输出层。

在神经网络模型的计算过程中，神经网络模型中前一层计算得到的输出结果会作为后一层计算的输入。一般情况下，处理器将神经网络模型中前一层计算得到的输出结果存入相应的输出数据缓存器中，在进行后一层的计算时，处理器需要先读取输出数据缓存器中存储好的前一层的输出结果，然后将其作为当前层的输入进行计算。现有技术中，处理器将神经网络模型中前一层计算得到的输出结果存入相应的输出数据缓存器的过程中，回存效率不高。

发明内容

本申请实施例提供一种数据处理方法、电子装置及计算机可读存储介质，以解决现有的神经网络模型中数据回存效率不高的问题，通过并行请求的触发，可以实现多个数据的同时存储，从而可以提高回存效率。

第一方面，本申请实施例提供了一种数据处理方法，该方法应用于电子装置，所述电子装置包括处理器和存储器，所述处理器包括M个按照标识大小依次设置的处理元件，M为正整数，所述方法包括：

所述电子装置通过所述处理器在每个轮询内向所述存储器并行发送N个存储请求Q次；其中，所述N个存储请求用于请求所述存储器存储所述M个处理元件中N个标识连续的处理元件各自生成的一行输出数据；所述Q是根据处理元件的数量M以及存储请求的数量N确定的；

所述电子装置通过所述存储器在第P个轮询内根据接收到的Q×N个存储请求回存所述M个处理元件各自生成的第P行输出数据。

在其中一个可能的实现方式中，所述N个存储请求与所述N个标识连续的处理元件一一对应，每个存储请求包括对应的处理元件生成的一行输出数据以及所述对应的处理元件生成的一行输出数据拟存储在所述存储器中的首地址；

所述电子装置通过所述存储器在第P个轮询内根据接收到的Q×N个存储请求回存所述M个处理元件各自生成的第P行输出数据，包括：

所述电子装置通过所述存储器在所述第P个轮询内根据所述M个处理元件各自生成的第P行输出数据拟存储在所述存储器中的首地址存储所述M个处理元件各自生成的第P行输出数据。

在其中一个可能的实现方式中，所述方法还包括：

获取所述M个处理元件各自对应的标志位参数，并根据所述标志位参数确定所述M个处理元件中每个处理元件各自生成的一行输出数据拟存储在所述存储器中的首地址。

在其中一个可能的实现方式中，所述标志位参数包括第一标志位参数，所述第一标志位参数为第i个处理元件对应的标志位参数；其中，i为小于等于M的正整数；所述方法还包括：

对所述M个处理元件进行分组，得到T个处理元件小组；

所述根据所述标志位参数确定所述M个处理元件中每个处理元件各自生成的一行输出数据拟存储在所述存储器中的首地址，包括：

当所述第一标志位参数为第一参数时，所述第i个处理元件生成的一行输出数据拟存储在存储器中的首地址为：addr_start(i)＝dm_init_addr+co_size*n，(n＝1，2，...，T)；其中，dm_init_addr表示初始化地址；co_size表示神经网络模型中每层网络的一个输出通道的大小；n表示处理元件小组的序号；所述第一参数用于确定所述T个处理元件小组中每组内的最低位处理元件；

当所述第一标志位参数为第二参数时，所述第i个处理元件生成的一行输出数据拟存储在存储器中的首地址为：addr_start(i)＝addr_start(i-1)+16；其中，所述addr_start(i-1)表示上一个处理元件生成的一行输出数据拟存储在存储器中的首地址；所述第二参数用于剔除所述M个处理元件中的无效处理元件；

当所述第一标志位参数为第三参数时，所述第i个处理元件生成的一行输出数据拟存储在存储器中的首地址为：addr_start(i)＝addr_start(i-1)+16；所述addr_start(i-1)表示上一个处理元件生成的一行输出数据拟存储在存储器中的首地址；所述第三参数用于确定所述T个处理元件小组中每组内的最高位处理元件。

在其中一个可能的实现方式中，在对所述M个处理元件进行分组时，包括：

获取神经网络模型中的每层网络的输出通道的宽度；

根据所述每层网络的输出通道的宽度确定一个处理元件小组内包含的处理元件的数量S；

根据一个处理元件小组内包含的处理元件的数量S对所述M个处理元件进行分组，得到所述T个处理元件小组。

在其中一个可能的实现方式中，所述Q是将M除以N并经过向上取整操作得到的。

在其中一个可能的实现方式中，在处理元件生成输出数据时，包括：

获取输入数据以及计算指令；其中，所述输入数据包括权值数据、输入神经元数据以及计算所需要的配置参数；

根据所述输入数据以及计算指令执行神经网络计算，得到输出数据。

第二方面，本申请实施例提供了一种电子装置，包括处理器和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储支持终端执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

第三方面，本申请实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

第四方面，本申请实施例提供了一种计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

实施本申请实施例，具有如下有益效果：

在本申请实施例中，处理器在一个轮询内向存储器并行发送多个存储请求多次，继而，存储器可以根据多个存储请求同时存储多个处理元件各自生成的输出数据，以解决现有的神经网络模型中数据回存效率不高的问题，可以提高数据的回存效率。那么，在此基础上，当进行神经网络计算时，可以提高神经网络模型的计算效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种处理元件的结构示意图；

图2是本申请实施例提供的32个处理元件的结构示意图；

图3是本申请实施例提供的一种数据存储格式的示意图；

图4是本申请实施例提供的一种数据处理方法的流程示意图；

图5是本申请实施例提供的一种确定输出数据拟存储在存储器中的首地址的示意图；

图6是本申请实施例提供的一种电子装置的结构示意图。

具体实施方式

在本申请实施例中，请参见图1，是本申请实施例提供的一种用于实现神经网络运算的处理元件PE，包括：第一缓冲器11(即，输入缓冲器)，被配置为存储输入数据以及与输入数据对应的权值；运算单元12，被配置为基于输入数据执行神经网络计算，并生成输出数据；这里，神经网络计算可以为卷积神经网络计算，还可以为其他神经网络计算；第二缓冲器13(即，输出缓冲器)，被配置为存储所述输出数据。

进一步地，如图1所示，第一缓冲器11例如可以包括输入数据缓冲器111和权值数据缓冲器112；其中，输入数据缓冲器112配置为存储输入数据；以及权值数据缓冲器111配置为存储所述输入数据对应的权值。

在对例如一个图像进行卷积运算时，通常采用多个PE，对于该图像的不同部分的图像数据分别进行卷积运算。其中，每个PE是一个数位宽度为m的SIMD处理器(或数位宽度为m的矢量处理器)。此外，每个PE有自己的指令缓冲器IQ，指令解码和控制逻辑等。每个PE可以执行一个独立的卷积神经网络(CNN)计算。或者，多个相邻的PE也可以组合在一起以共同执行一个CNN 计算。

在其中一个可能的实现方式中，处理器包括多个处理元件(Processing Element，PE)，这多个处理元件按照标识大小依次设置，其标识大小排序可以表示为PE0、PE0、......、PEn。如图2所示，假设该处理器有32个PE(PE0～PE31)，每个PE有7个MAC单元。因此该处理器有224个MAC。每个PE是一个7位宽的SIMD处理器。每个PE有自己的指令缓冲器(IQ)，指令解码和控制逻辑等。

在每个PE中，有三个本地缓冲器：i)IBUF(对应于输入数据缓冲器)，用于存储输入数据ci；ii)WBUF(对应于权值数据缓冲器)，用于存储权值；以及iii)OBUF(对应于第二缓冲器)，用于存储输出数据co。

在本申请实施例中，数据在存储器中的存储格式可以如图3所示。以神经网络模型为卷积神经网络为例，特征(feature map)的每个数据为16bit，每个通道(channel)的数据在存储器中按行连续存放。可以理解的是，卷积神经网络模型中的每层网络计算的输入特征(input feature map)和输出特征(output feature map)都按照按行连续存放的格式进行存储。

接下来介绍本申请实施例所涉及的第一参数、第二参数、第三参数以及第四参数。

第一参数，也即pe_low_vld_mask[M-1:0]，表示每个处理元件小组的低位有效处理元件。以处理元件的数量M＝32，对32个处理元件分成8个处理元件小组为例，当pe_low_vld_mask[M-1:0]＝0x11111111时，32个处理元件各自对应的标志位参数可以如表1所示：

表1

由表1可以知道，根据第一参数的值可以确定在每个处理元件小组里面最低位PE是哪一个。以PE0-PE3这个PE组(PE_GROUP0)为例，其中，PE0表示PE_GROUP0这个PE组里面的最低位PE。由于可以根据第一参数确定M个处理元件的分组情况，通过这一实现方式，为后续的确定M个处理元件中的每个处理元件的首地址提供了便利，可以提高存储速度。

第二参数，也即pe_high_vld_mask[M-1:0]，表示每个处理元件小组的高位有效处理元件。以处理元件的数量M＝32，对32个处理元件分成8个处理元件小组为例，当pe_high_vld_mask[M-1:0]＝0x88888888时，32个处理元件各自对应的标志位参数可以如表2所示：

表2

由表2可以知道，根据第二参数的值可以确定在每个处理元件小组里面最高位PE是哪一个。以PE0-PE3这个PE组(PE_GROUP0)为例，其中，PE3表示PE_GROUP0这个PE组里面的最高位PE。由于可以根据第二参数确定M个处理元件的分组情况，通过这一实现方式，为后续的确定M个处理元件中的每个处理元件的首地址提供了便利，可以提高存储速度。

第三参数，也即pe_mac_mask[M-1:0]，表示处理元件是否有效。以处理元件的数量M＝32，对32个处理元件分成8个处理元件小组为例，当pe_mac_mask[M-1:0]＝0x77777777时，32个处理元件各自对应的标志位参数可以如表3所示：

表3

由表3可以知道，以PE0-PE3这个PE组(PE_GROUP0)为例，根据第三参数的值可以确定实际有效的处理元件为PE0-PE3，并且，PE4是无效处理元件，不产生有效结果。在本申请实施例中，对于pe_mac_mask[M-1:0]中比特位bit为0对应的处理元件PE，不产生存储请求。通过这一实现方式，可以剔除无效PE，避免无用的数据写入以及读取操作，可以提高神经网络的计算效率。

第四参数，也即mac_boundary，表示高位有效处理元件PE中，有多少个mac是有效的。例如一个pe_group中的高位有效PE中有8个mac，当mac_boundary＝0x7f时，这8个mac各自对应的标志位参数可以如表4所示：

表4

mac	7	6	5	4	3	2	1	0
标志位参数	0	1	1	1	1	1	1	1

由表4可以知道，最后产生的co只用到了7个mac，在这种情况下，表示mc7是无效的。需要说明的是，无效mac产生的数据是不需要存储在存储器中的。通过这一实现方式，可以剔除无效mac，避免无用的数据写入以及读取操作，可以提高神经网络的计算效率。

现有技术中，处理器一次只能发送一个存储请求，进而存储器一次只能存储一个处理元件生成的输出数据，从而容易带来神经网络模型中数据回存效率不高的问题。为了解决现有技术中的上述技术问题，本发明提供一种数据处理方法、电子装置及计算机可读存储介质，通过并行触发多个存储请求，以提高神经网络模型中数据的回存效率，以达到提高神经网络模型的运算速度的目的。

基于此，下面结合图4所示本申请实施例提供的一种数据处理方法的流程示意图，具体说明在本申请实施例中是如何回存数据的，可以包括但不限于如下步骤：

步骤S301、所述电子装置通过所述处理器在每个轮询内向所述存储器并行发送N个存储请求Q次；其中，所述N个存储请求用于请求所述存储器存储所述M个处理元件中N个标识连续的处理元件各自生成的一行输出数据；所述Q是根据处理元件的数量M以及存储请求的数量N确定的。

在本申请实施例中，轮询是一个周期性的重复过程。在实际应用中，一个轮询可以包括Q次具体的轮询操作。从本申请来看，一个轮询内可以包括Q次 N个存储请求的触发。当处理器在一个轮询内向存储器并行发送Q次N个存储请求，这意味着，处理器指示存储器在第P个轮询内存储M个处理元件各自对应的第P行输出数据。

在本申请实施例中，可以根据处理元件生成的输出数据的行数确定轮询的个数。例如，处理元件生成的输出数据的行数为J，当处理器向存储器发送了J个轮询的存储请求，此时，存储器可以根据存储请求存储处理元件生成的第J行输出数据，同时，这也意味着，存储器根据存储请求将处理元件生成的输出数据存储完毕。

在其中一个可能的实现方式中，可以根据处理元件的数量M和存储请求的数量N确定一个轮询内包含的轮询次数Q。例如，M＝32，N＝4，这意味着一个轮询内的轮询次数为8。进一步可以知道的是，在这种情况下，一个轮询内的每次轮询并行发送的N个存储请求都是有效的。

在实际应用中，例如，处理元件的数量M＝32，存储请求的数量N＝7，这意味着一个轮询内的轮询次数为5。可以理解的是，在一个轮询内的第5次轮询时，处理器向存储器发送了7个存储请求(例如，7个存储请求可以表示为A1,A2,......,A7)，需要说明的是，在这7个存储请求中，存储请求A1-A4有效，存储请求A5-A7无效。这里，存储请求有效是指，存储器可以根据存储请求存储处理元件生成的输出数据。

获取输入数据以及计算指令；其中，所述输入数据包括权值数据以及输入神经元数据；

在本申请实施例中，获取输入数据以及计算指令的方式可以通过数据输入输出单元单元得到，该数据输入输出单元具体可以为一个或多个数据I/O接口或I/O引脚。

进一步地，上述计算指令可以包括但不限于：神经网络运算指令(例如，卷积神经网络运算指令)、正向运算指令或反向运算指令等等，本申请具体实施方式并不限制上述计算指令的具体表现形式。

对于神经网络中的运算可以为神经网络中的一层的运算，对于多层神经网络，其实现过程是，在正向运算中，当上一层神经网络执行完成之后，下一层的运算指令会将运算单元中计算出的输出神经元(也即，输出数据)作为下一层的输入神经元进行运算(或者是对该输出神经元进行某些操作再作为下一层的输入神经元)，同时，将权值也替换为下一层的权值；在反向运算中，当上一层神经网络的反向运算执行完成后，下一层运算指令会将运算单元中计算出的输入神经元梯度作为下一层的输出神经元梯度进行运算(或者是对该输入神经元梯度进行某些操作再作为下一层的输出神经元梯度)，同时将权值替换为下一层的权值。

对于神经网络运算，如果该神经网络运算具有多层运算，多层运算的输入神经元和输出神经元并非是指整个神经网络的输入层中神经元和输出层中神经元，而是对于网络中任意相邻的两层，处于网络正向运算下层中的神经元即为输入神经元，处于网络正向运算上层中的神经元即为输出神经元。以卷积神经网络为例，设一个卷积神经网络有L层，K＝1,2,...,L-1，对于第K层和第K+1层来说，我们将第K层称为输入层，其中的神经元为所述输入神经元，第K+1层称为输出层，其中的神经元为所述输出神经元。即除最顶层外，每一层都可以作为输入层，其下一层为对应的输出层。

如前所述，在本申请实施例中，对于第i个处理元件(这里，i为小于等于M的正整数)来说，其获取的输入数据缓存在第一缓冲器中，第i个处理元件根据输入数据以及计算指令生成的输出数据缓存在第二缓冲器中。

在本申请实施例中，在确定M个处理元件生成的一行输出数据拟存储在所述存储器中的首地址时，包括：

具体地，根据设定好的扫描顺序同时扫描M个处理元件各自对应的标志位参数。在本申请实施例中，设定好的扫描顺序可以包括从低位到高位，也可以包括从高位到低位等等，本申请实施例不作具体限定。

在本申请实施例中，以第i个处理元件为例，其对应的标志位参数可以第一参数、第二参数或第三参数中的任意一种。

进一步可选地，标志位参数还可以包括第四参数，其中，第四参数用于剔除处理元件中的无效mac。

具体实现中，所述标志位参数包括第一标志位参数，所述第一标志位参数为第i个处理元件对应的标志位参数；其中，i为小于等于M的正整数；所述方法还包括：

对所述M个处理元件进行分组，得到T个处理元件小组；

所述根据所述标志位参数确定所述M个处理元件中每个处理元件各自生成的一行输出数据拟存储在存储器中的首地址，包括：

在一种可能的实现方式中，处理元件小组的序号可以从0开始。例如，当T＝8时，这8个处理元件小组可以表示为处理元件小组0，处理元件小组1，......，处理元件小组7。

在另一种可能的实现方式中，处理元件小组的序号可以表示从1开始。例如，当T＝8时，这8个处理元件小组可以表示为处理元件小组1，处理元件小组2，......，处理元件小组8。为了便于阐述，在本申请实施例中，n＝1，2，......，T。

如图5所示，以处理元件小组0和处理元件小组1为例，处理元件小组0中包含处理元件PE0-PE3，处理元件小组1中包含处理元件PE4-PE7。在实际应用中，由于处理元件小组0和处理元件小组1各自对应的OBUF中均存储了两个输出通道产生的输出数据，例如，处理元件0的OBUF中存储了co0和co8。在一种情形下，这8个处理元件各自对应的标志位参数可以如表5所示：

表5

处理元件	7	6	5	4	3	2	1	0
标志位参数	0	0	0	1	0	0	0	1

由表5可以知道，处理元件小组0中最低位处理元件为PE0，当存储器存储co0时，PE0对应的首地址为addr0；当存储器存储co8时，PE0对应的首地址为：addr0+co_size*1。

如图5所示，以处理元件小组0为例，其中，处理元件小组0中包含处理元件PE0-PE3。在一种情形下，这4个处理元件各自对应的标志位参数可以如表6所示：

表6

处理元件	3	2	1	0
标志位参数	1	1	1	1

由表6可以知道，PE0-PE3均为有效处理元件，假设PE0对应的首地址为addr0，此时，PE1对应的首地址为addr1＝addr0+16，PE2对应的首地址为addr2＝addr1+16，PE3对应的首地址为addr3＝addr2+16。

如图5所示，以处理元件小组0和处理元件小组1为例，其中，处理元件小组0中包含处理元件PE0-PE3，处理元件小组1中包含处理元件PE4-PE7。在一种情形下，这8个处理元件各自对应的标志位参数可以如表7所示：

表7

处理元件	7	6	5	4	3	2	1	0
标志位参数	1	0	0	0	1	0	0	0

由表7可以知道，处理元件小组0中最高位处理元件为PE3，处理元件小组1中最高位处理元件为PE7，假设PE3对应的首地址为add0，由于PE3-PE6为无效处理元件，此时，PE4对应的首地址为：addr4＝addr0+16。

具体实现中，在对所述M个处理元件进行分组时，包括：

获取神经网络模型中的每层网络的输出通道的宽度；

在本申请实施例中，为了满足计算需求，可以根据神经网络中的每层网络的输出通道的宽度确定一个处理元件小组内包含的处理元件的数量。具体地，对于卷积神经网络来说，每个卷积核具有长、宽(width)、深(height)三个维度。这里，在卷积神经网络进行计算的过程中，输出通道的宽度等于卷积核的宽(width)。例如，假设卷积神经网络模型中的某一层的output feature map有10个输出通道，需要4个处理元件联合起来组成一个处理元件小组才能完成一个输出通道的计算。在这种情况下，当M＝32时，将32个处理元件分成了8组，每个处理元件小组中包含4个处理元件，每个处理元件小组完成不同的输出通道的计算。例如，PE_GROUP0完成输出通道1的计算，PE_GROUP1完成输出通道2的计算，等等。

步骤S302、所述电子装置通过所述存储器在第P个轮询内根据接收到的Q×N个存储请求回存所述M个处理元件各自生成的第P行输出数据。

具体实现中，所述N个存储请求与所述N个标识连续的处理元件一一对应，每个存储请求包括对应的处理元件生成的一行输出数据以及所述对应的处理元件生成的一行输出数据拟存储在所述存储器中的首地址；

在本申请实施例中，每个存储请求还包括对应的处理元件的标识信息，其中，处理元件的标识信息可以用于区分不同的存储请求。

在本申请实施例中，在一个轮询内，电子装置可以通过处理器向存储器并行发送Q次N个存储请求。以M＝32，存储请求N＝4，轮询的次数Q＝8为例，在一个轮询内的第1次轮询中，4个存储请求用于请求存储器存储PE0-PE3这4个标识连续的处理元件各自生成的一行输出数据；在一个轮询内的第2次轮询中，4个存储请求用于请求存储器存储PE4-PE7这4个标识连续的处理元件各自生成的一行输出数据；可以理解的是，在一个轮询内的第8次轮询中，4个存储请求用于请求存储器存储PE28-PE31这4个标识连续的处理元件各自生成的一行输出数据。从而可以知道的是，在经历了一个轮询之后，存储器可以实现将32个处理元件各自生成的一行输出数据存储起来。

那么，经历了一个轮询之后，表示M个处理元件各自生成的一行输出数据存储完毕，在这种情况下，更新M个处理元件中的每个处理元件各自对应的第二缓冲器的地址，例如，更新后的地址为：

addr(Q)＝addr_start+co_line_num*co_line_size，其中，addr_start表示32个处理元件中的每个处理元件各自对应的首地址；co_line_num表示输出数据的行数序号；co_line_size表示每行输出数据的大小。

可以理解的是，在下一个轮询内，存储器按照预设规则存储M个处理元件各自生成的另一行输出数据，例如，在第2个轮询内，存储器按照预设规则存储M个处理元件各自生成的第2行输出数据。当轮询的个数与处理元件生成的输出数据的行数相等时，表示存储器将M个处理元件各自生成的多行输出数据存储完毕。

在本申请实施例中，存储器可能由多块静态随机存取存储器SRAM(SRAM，static ram)组成，如果N个存储请求(例如，4个存储请求)的地址中有两个都映射到了同一个SRAM，另外两个映射到其他的SRAM上，那么4个请求中就有两个请求会访问同一块SRAM，此时产生了冲突。为了解决这个冲突，需要把同时访问同一块SRAM的存储请求分两个周期分别访问这块SRAM。所以在这种情况下，存储器的控制器需要在第一个周期完成3个不冲突的SRAM存储请求，第二个周期完成剩下的一个SRAM的存储请求。通过这一实现方式，可以避免神经网络模型的数据回存过程中的存储冲突。

为了便于理解，下面结合具体的实例进行阐述。例如，神经网络模型中的某一层网络有10个输出通道，需要4个处理元件联合起来组成一个处理元件小组才能完成一个输出通道的计算。在这种情况下，当M＝32时，意味着将32个处理元件分成了8组(包括处理元件小组0-处理元件小组7)，每个处理元件小组中包含4个处理元件，每个处理元件小组完成不同的输出通道的计算。在完成这一层的计算之后，每个处理元件的第二缓冲器中存放的输出数据如图5所示，其中，处理元件小组0和处理元件小组1的OBUF中存储2个输出通道产生的输出数据，其他的处理元件小组的OBUF中存储1个输出通道产生的输出数据。需要说明的是，在图3中，每个处理元件小组中实际参与计算的处理元件的数量为2个半，每个处理元件小组的最高位的处理元件PE不产生有效结果，但是这个PE会为低位的提高原始数据进行计算。存储器根据存储请求将上述8个处理元件小组各自对应的输出数据co存储在存储器中，并作为下一层的输入数据ci参与计算。

以处理器向存储器并行发送的存储请求的数量为4为例，存储器根据存储请求将上述8个处理元件小组各自对应的输出数据co存储在存储器中的实现过程可以包括：

处理器轮询向存储器并行发送4个存储请求，其中，一个轮询内轮询的次数为8，在一个轮询内的第1次轮询中，存储器按照预设规则存储PE0-PE3这4个处理元件各自生成的一行输出数据。存储器根据4个存储请求存储PE0-PE3各自生成的一行输出数据时，从低位到高位扫描4个处理元件各自对应的标志位参数，例如，这4个处理元件各自对应的标志位参数均为第二参数，以第1个处理元件为例，在获取到第1个处理元件对应的标志位参数为第二参数的情况下，此时，确定第1个处理元件生成的一行输出数据拟存储在存储器中的首地址为addr0。以此类推，确定第2个处理元件生成的一行输出数据拟存储在存储器中的首地址为addr1，其中，addr1＝addr0+16；确定第3个处理元件生成的一行输出数据拟存储在存储器中的首地址为addr2，其中，addr2＝addr1+16；确定第4个处理元件生成的一行输出数据拟存储在存储器中的首地址为addr3，其中，addr3＝addr2+0。之后，存储器根据第1个处理元件(也即PE0)对应的输出数据拟存储在存储器中的首地址(addr0)存储第1个处理元件生成的第一行输出数据。同理，存储器根据第2个处理元件(也即PE1)对应的输出数据拟存储在存储器中的首地址(addr1)存储第2个处理元件生成的第一行输出数据；存储器根据第3个处理元件(也即PE2)对应的输出数据拟存储在存储器中的首地址(addr2)存储第3个处理元件生成的第一行输出数据；存储器根据第4个处理元件(也即PE3)对应的输出数据拟存储在存储器中的首地址(addr3)存储第4个处理元件生成的第一行输出数据。

那么，在经历了第一个轮询之后，存储器可以完成针对32个处理元件各自对应的第一行输出数据的存储。在这种情况下，更新32个处理元件中的每个处理元件各自对应的第二缓冲器的地址。

之后，根据更新后的地址在第二个轮询中存储32个处理元件各自对应的第二行输出数据，重复上述实现流程，直至将OBUF中的co0-co7中的所有行输出数据存储完毕。

进一步地，在将OBUF中的co0-co7存储完毕之后，存储co8-co9，此时，需要进行co的地址切换，切换后的地址为：addr＝addr_start(K)+obuf_co_num*co_size；其中，addr_start(K)表示co的初始地址，obuf_co_num表示OBUF中的co的序号；co_size表示co的大小。在这种情况下，如图5所示，由于M＝8，N＝4，这意味着处理器轮询向存储器并行发送4个存储请求，一个轮询内的轮询次数为2，在第1个轮询内的第1次轮询中，4个存储请求用于请求存储器存储PE0-PE3这4个标识连续的处理元件各自生成的第1行输出数据；在第1个轮询内的第2次轮询中，4个存储请求用于请求存储器存储PE4-PE7这4个标识连续的处理元件各自生成的第2行输出数据。从而可以知道的是，在经历了第1个轮询之后，存储器可以实现将8个处理元件各自生成的第1行输出数据存储起来，在实际应用中，关于存储8个处理元件的第2行输出数据的具体实现请参考前述描述，此处不多加赘述。

通过实施本申请实施例，处理器在一个周期内向存储器并行发送多个存储请求，存储器根据多个存储请求同时存储多个处理元件生成的输出数据，以解决现有的神经网络模型中数据回存效率不高的问题，提高数据回存效率，从而可以提高神经网络模型的计算效率。

如图6所示，是本申请实施例提供的一种电子装置的结构示意图，所述电子装置可以包括：处理器601、存储器602、通信总线603和通信接口604，处理器601通过所述通信总线连接所述存储器602和所述通信接口603。

可选地，该电子装置60还可以包括人工智能处理器605。人工智能处理器605可以作为协处理器挂载到主CPU(Host CPU)上，由主CPU为其分配任务。人工智能处理器605可以实现上述数据处理方法中涉及的一种或多种运算。例如，以神经网络处理器(network processing unit，NPU)NPU为例，NPU的核心部分为运算电路，通过控制器控制运算电路提取存储器602中的矩阵数据并进行乘加运算。

在本申请实施例中，所述电子装置通过所述处理器601在每个轮询内向所述存储器602并行发送N个存储请求Q次；其中，所述N个存储请求用于请求所述存储器602存储所述M个处理元件中N个标识连续的处理元件各自生成的一行输出数据；所述Q是根据处理元件的数量M以及存储请求的数量N确定的；

所述电子装置通过所述存储器602在第P个轮询内根据接收到的Q×N个存储请求回存所述M个处理元件各自生成的第P行输出数据。

其中，所述N个存储请求与所述N个标识连续的处理元件一一对应，每个存储请求包括对应的处理元件生成的一行输出数据以及所述对应的处理元件生成的一行输出数据拟存储在所述存储器中的首地址；

所述电子装置通过所述存储器602在第P个轮询内根据接收到的Q×N个存储请求回存所述M个处理元件各自生成的第P行输出数据，包括：

所述电子装置通过所述存储器602在所述第P个轮询内根据所述M个处理元件各自生成的第P行输出数据拟存储在所述存储器602中的首地址存储所述M个处理元件各自生成的第P行输出数据。

其中，所述方法还包括：

其中，所述标志位参数包括第一标志位参数，所述第一标志位参数为第i个处理元件对应的标志位参数；其中，i为小于等于M的正整数；所述方法还包括：

处理器601对所述M个处理元件进行分组，得到T个处理元件小组；

所述处理器601根据所述标志位参数确定所述M个处理元件中每个处理元件各自生成的一行输出数据拟存储在存储器中的首地址，包括：

其中，处理器601在对所述M个处理元件进行分组时，包括：

获取神经网络模型中的每层网络的输出通道的宽度；

本申请实施例还提供了一种计算机存储介质，用于存储为上述图4所示的电子装置所用的计算机软件指令，其包含用于执行上述方法实施例所涉及的程序。通过执行存储的程序，可以提高神经网络模型中数据的回存效率。

由上可见，本申请实施例提供一种数据处理方法、电子装置及计算机可读存储介质，通过并行请求的触发，可以实现多个数据的同时存储，从而可以提高回存效率。

Claims

一种数据处理方法，其特征在于，应用于电子装置，所述电子装置包括处理器和存储器，所述处理器包括M个按照标识大小依次设置的处理元件，M为正整数，所述方法包括：

所述电子装置通过所述处理器在每个轮询内向所述存储器并行发送N个存储请求Q次；其中，所述N个存储请求用于请求所述存储器存储所述M个处理元件中N个标识连续的处理元件各自生成的一行输出数据；所述Q是根据处理元件的数量M以及存储请求的数量N确定的；

所述电子装置通过所述存储器在第P个轮询内根据接收到的Q×N个存储请求回存所述M个处理元件各自生成的第P行输出数据。
根据权利要求1所述的方法，其特征在于，所述N个存储请求与所述N个标识连续的处理元件一一对应，每个存储请求包括对应的处理元件生成的一行输出数据以及所述对应的处理元件生成的一行输出数据拟存储在所述存储器中的首地址；

所述电子装置通过所述存储器在第P个轮询内根据接收到的Q×N个存储请求回存所述M个处理元件各自生成的第P行输出数据，包括：

所述电子装置通过所述存储器在所述第P个轮询内根据所述M个处理元件各自生成的第P行输出数据拟存储在所述存储器中的首地址存储所述M个处理元件各自生成的第P行输出数据。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述M个处理元件各自对应的标志位参数，并根据所述标志位参数确定所述M个处理元件中每个处理元件各自生成的一行输出数据拟存储在所述存储器中的首地址。
根据权利要求3所述的方法，其特征在于，所述标志位参数包括第一标志位参数，所述第一标志位参数为第i个处理元件对应的标志位参数；其中，i为小于等于M的正整数；所述方法还包括：

对所述M个处理元件进行分组，得到T个处理元件小组；

所述根据所述标志位参数确定所述M个处理元件中每个处理元件各自生成的一行输出数据拟存储在存储器中的首地址，包括：

当所述第一标志位参数为第一参数时，所述第i个处理元件生成的一行输出数据拟存储在存储器中的首地址为：addr_start(i)＝dm_init_addr+co_size*n，(n＝1，2，...，T)；其中，dm_init_addr表示初始化地址；co_size表示神经网络模型中每层网络的一个输出通道的大小；n表示处理元件小组的序号；所述第一参数用于确定所述T个处理元件小组中每组内的最低位处理元件；

当所述第一标志位参数为第二参数时，所述第i个处理元件生成的一行输出数据拟存储在存储器中的首地址为：addr_start(i)＝addr_start(i-1)+16；其中，所述addr_start(i-1)表示上一个处理元件生成的一行输出数据拟存储在存储器中的首地址；所述第二参数用于剔除所述M个处理元件中的无效处理元件；

当所述第一标志位参数为第三参数时，所述第i个处理元件生成的一行输出数据拟存储在存储器中的首地址为：addr_start(i)＝addr_start(i-1)+16；所述addr_start(i-1)表示上一个处理元件生成的一行输出数据拟存储在存储器中的首地址；所述第三参数用于确定所述T个处理元件小组中每组内的最高位处理元件。
根据权利要求4所述的方法，其特征在于，所述对所述M个处理元件进行分组时，包括：

获取神经网络模型中的每层网络的输出通道的宽度；

根据所述每层网络的输出通道的宽度确定一个处理元件小组内包含的处理元件的数量S；

根据一个处理元件小组内包含的处理元件的数量S对所述M个处理元件进行分组，得到所述T个处理元件小组。
根据权利要求1所述的方法，其特征在于，所述Q是将M除以N并经过向上取整操作得到的。
根据权利要求1所述的方法，其特征在于，在处理元件生成输出数据时，包括：

获取输入数据以及计算指令；其中，所述输入数据包括权值数据、输入神经元数据以及计算所需要的配置参数；

根据所述输入数据以及计算指令执行神经网络计算，得到输出数据。
一种电子装置，其特征在于，包括处理器和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
一种计算机程序，其特征在于，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。