WO2021179289A1

WO2021179289A1 - 卷积神经网络的运算方法、装置、设备和存储介质

Info

Publication number: WO2021179289A1
Application number: PCT/CN2020/079221
Authority: WO
Inventors: 罗岚; 韩峰; 杨康
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2021-09-16
Also published as: CN112602096A

Abstract

本发明是关于一种卷积神经网络的运算方法、装置、设备和存储介质，属于人工智能技术领域。所述方法应用于对卷积神经网络中的网络层进行计算的处理器，所述处理器包括读取单元、多个计算单元和写入单元，所述方法包括：通过读取单元从外部存储器中读取输入网络层的特征图像和计算参数；根据多个计算单元的计算能力对特征图像进行拆分，将拆分后得到的多组图像数据和计算参数传递至多个计算单元，以供多个计算单元对各自接收的图像数据进行计算；通过写入单元将多个计算单元的计算结果合并，并将合并后的计算结果存入外部存储器。采用本发明，可以提高网络层运算处理的速度，进而可以提高处理器进行网络层运算处理的计算性能。

Description

卷积神经网络的运算方法、装置、设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种卷积神经网络的运算方法、装置、设备和存储介质。

背景技术

图像的特征信息的提取一直是计算机视觉领域一个重要的研究方向，训练后的卷积神经网络(Convolution Neural Networks，简称为CNN)可以很准确地提取图像的特征信息，基于特征信息完成对图像的分类。CNN可以由不同类型的网络层构成，不同类型的网络层包括卷积层、池化层、激活层、全连接层、批量归一化(Batch-normalized，简称为BN)层、scale层等。

在scale层中，主要是进行y＝ax+b的运算处理，其中x表示scale层的输入数据即输入特征图像(Input Feature Map，简称为IFM)，y表示scale层的输出数据即输出特征图像(Output Feature Map，简称为OFM)，a和b依次分别表示scale层的比例缩放系数和位移系数。

scale层所涉及的数据的运算量较大，相关技术中的scale层的运算处理一般是由中央处理器(Center Processing Unit，简称为CPU)、图形处理器(Graphics Processing Unit，简称为GPU)或者数字信号处理器(Digital Signal Processing，简称为DSP)完成的。而CPU、GPU或者DSP为通用型的处理器，通用型的处理器可以处理多种类型的事务，由于通用型的处理器可以处理的事务的类型繁多，因此它底层处理事务的逻辑比较复杂。通过通用型的处理器进行scale层的运算速度较慢，计算性能较低。

发明内容

本发明提供了一种卷积神经网络的运算方法、装置、设备和存储介质，能够提高网络层的计算性能。

本发明的第一方面提供了一种卷积神经网络的运算方法，应用于对卷积神经网络中的网络层进行计算的处理器，所述处理器包括读取单元、多个计算单元和写入单元，所述方法包括：

通过所述读取单元从外部存储器中读取输入所述网络层的特征图像和计算参数；

根据所述多个计算单元的计算能力对所述特征图像进行拆分，将拆分后得到的多组图像数据和所述计算参数传递至所述多个计算单元，以供所述多个计算单元对各自接收的图像数据进行计算；

通过所述写入单元将所述多个计算单元的计算结果合并，并将合并后的计算结果存入所述外部存储器。

可选地，所述读取单元中包括第一存储单元，所述通过所述读取单元从外部存储器中读取输入所述网络层的特征图像和计算参数，包括：

从所述外部存储器中交替读取所述特征图像和所述计算参数，其中，每次从所述特征图像中读取预设数据量的图像数据；

将依次读取到的数据依次存储到所述第一存储单元中。

可选地，所述读取单元中还包括第二存储单元，所述方法还包括：

所述第一存储单元将读取到的数据依次以设定的延时向所述第二存储单元传输。

可选地，所述从所述外部存储器中交替读取所述特征图像和所述计算参数，包括：

根据所述特征图像的总数据量和所述预设数据量，确定所述特征图像对应的读取次数D；

通过一次读取操作，从所述外部存储器中读取所述预设数据量的图像数据；

通过一次读取操作，从所述外部存储器中读取所述计算参数；

通过D-1次读取操作，从所述外部存储器中依次读取D-1个所述预设数据量的图像数据。

可选地，所述方法还包括：

获取所述特征图像和所述计算数据对应的配置信息，以使所述第一存储单元基于所述配置信息从所述外部存储器中读取所述特征图像和所述计算参数。

可选地，所述特征图像对应的配置信息包括所述特征图像在所述外部存储器中的起始存储地址和存储地址长度；

所述计算参数对应的配置信息包括所述计算参数在所述存储器中的存储地址。

可选地，所述外部存储器中包括多个存储地址，所述多个存储地址满足设定条件，所述多个存储地址中分别存储有所述特征图像中的所述预设数据量的图像数据。

可选地，所述多个计算单元的计算能力反应了每个计算单元一次能够计算的数据量和所述多个计算单元的单元总数量，所述根据所述多个计算单元的计算能力对所述特征图像进行拆分，包括：

根据所述每个计算单元一次能够计算的数据量和所述单元总数量，确定是否对读取到的所述预设数据量的图像数据进行拆分；

如果确定对所述预设数据量的图像数据进行拆分，则根据所述每个计算单元一次能够计算的数据量和所述单元总数量，对所述预设数据量的图像数据进行拆分。

可选地，所述根据所述每个计算单元一次能够计算的数据量和所述单元总数量，对所述预设数据量的图像数据进行拆分，包括：

确定所述每个计算单元一次能够计算的数据量与所述单元总数量的乘积；

将所述预设数据量除以所述乘积，得到拆分份数；

将所述预设数据量的图像数据按照所述拆分份数进行均等分拆分。

可选地，所述网络层包括ELTWISE层或scale层。

本发明的第二方面提供了一种卷积神经网络的运算装置，所述装置包括读取单元、多个计算单元和写入单元，其中：

所述读取单元，用于从外部存储器中读取输入网络层的特征图像和计算参数；根据所述多个计算单元的计算能力对所述特征图像进行拆分，将拆分后得到的多组图像数据和所述计算参数传递至所述多个计算单元；

所述多个计算单元，用于对各自接收的图像数据进行计算；

所述写入单元，用于将所述多个计算单元的计算结果合并，并将合并后的计算结果存入所述外部存储器。

可选地，所述读取单元中包括第一存储单元，所述第一存储单元，用于：

存储依次读取到的数据。

可选地，所述读取单元中还包括第二存储单元，所述第一存储单元，还用于：

将读取到的数据依次以设定的延时向所述第二存储单元传输。

可选地，所述第一存储单元，用于：

可选地，所述装置还包括获取单元，所述获取单元，用于获取所述特征图像和所述计算数据对应的配置信息；

所述第一存储单元，用于基于所述配置信息从所述外部存储器中读取所述特征图像和所述计算参数。

可选地，所述多个计算单元的计算能力反应了每个计算单元一次能够计算的数据量和所述多个计算单元的单元总数量，所述读取单元，用于：

当确定对所述预设数据量的图像数据进行拆分时，根据所述每个计算单元一次能够计算的数据量和所述单元总数量，对所述预设数据量的图像数据进行拆分。

可选地，所述读取单元，用于：

将所述预设数据量除以所述乘积，得到拆分份数；

可选地，所述网络层包括ELTWISE层或scale层。

本发明的第三方面提供了一种电子设备，包括上述第二方面所述的卷积神经网络的运算装置和所述卷积神经网络的运算装置外部的存储器。

本发明的第四方面，提供一种计算机可读存储介质，所述存储介质为计算机可读存储介质，该计算机可读存储介质中存储有程序指令，所述程序指令用于实现上述第一方面所述的卷积神经网络的运算方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

在本发明实施例提供的方法中，采用设置有多个计算单元的专用处理器进行网络层运算处理。通过多个计算单元并行对多组图像数据进行运算处理的方式，可以实现同时对多组图像数据进行运算处理，这样可以提高网络层运算处理的速度，进而可以提高处理器进行网络层运算处理的计算性能。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据一示例性实施例示出的一种scale层运算处理的示意图；

图2是根据一示例性实施例示出的一种处理器的结构示意图；

图3是根据一示例性实施例示出的一种卷积神经网络的运算方法的流程示意图；

图4是根据一示例性实施例示出的一种处理器的结构示意图；

图5是根据一示例性实施例示出的一种卷积神经网络的运算方法的流程示意图；

图6是根据一示例性实施例示出的一种对齐存储的示意图；

图7是根据一示例性实施例示出的一种读数据的时序示意图；

图8是根据一示例性实施例示出的一种传输数据的时序示意图；

图9是根据一示例性实施例示出的一种处理器的结构示意图；

图10是根据一示例性实施例示出的一种处理器的结构示意图；

图11是根据一示例性实施例示出的一种处理器的结构示意图；

图12是根据一示例性实施例示出的一种处理器的结构示意图；

图13是根据一示例性实施例示出的一种处理器的结构示意图；

图14是根据一示例性实施例示出的一种处理器的结构示意图；

图15是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明一示例性实施例提供了一种卷积神经网络的运算方法。卷积神经网络(Convolutional Neural Network，简写为CNN)可以由卷积层、池化层、激活层、全连接层、ELTWISE层、批量归一化层(Batch-normalized，简写为BN)、scale层等不同类型的网络层构成。其中，BN层可以和scale层结合使用。

由于网络越来越深，各网络层的输入数据分布的变化阻碍了深度网络的训练，数据的分布持续发生变化，只能设置更低的学习率，这样使得训练越来越困难，这种现象可以称为内部协方差变换(Internal Covariate Shift)。因此在白化(whiten)操作的基础上提出了BN层概念，通过BN层可以正则化固定每一层数据输入的均值和方差，这样可以有效加快深度网络的训练速度，使得计算参数的依赖相关性减弱，可以使用更高的学习率。

BN层的运算处理包括：

其中，μ _B为均值，x _i为特征图像中第i个像素点，m为特征图像所有像素点的个数。

其中，

为方差。

其中，

为对x _i进行归一化后的值。

在经过BN层的运算处理之后，可以进行scale层的运算处理。scale层起着还原特征分布的作用，在正则化的基础上增加了灵活性，让网络的训练效率更高，以sigmoid激活函数为例，正则化后的数据的分布可能会丧失从前层传递过来的sigmoid的非线性特征，加入scale层后恰好可以解决这个问题。

scale层的运算处理包括：

对于scale层，其输入可以包括输入特征图像(Input Feature Map，简写为IFM)和计算参数。在公式4中

为IFM，计算参数包括a和b，a为缩放比例，b为位移。scale层的输出可以包括输出特征图像(Output Feature Map，简写为OFM)。IFM可以是三维数组，三维数组对应多个特征图像，图像尺寸可记为H×W×N(图像宽度×图像高度×图像通道)。计算参数可以是一维数组，参数尺寸可以记为N(通道)。OFM与IFM的维度一致，也是三维数组。scale层的运算处理主要涉及到乘法运算和加法运算。

如图1所示，假设第一个通道对应的a为1且b为2，对IFM第一个通道的每个像素点依次进行乘加运算，得到OFM第一个特征图像对应像素点的值，滑动计算窗口直至IFM的右下角，便可得到OFM第一个特征图像。对每个通道重复上述过程，不同通道可以使用不同的计算参数a、b，直至得到完整的OFM。

本发明一示例性实施例提供了一种卷积神经网络的运算方法，该方法可以应用于对scale层进行计算的处理器中，如图2所示，该处理器包括读取单元210、多个计算单元220和写入单元230。该处理器可以是专用于对卷积神经网络中的网络层进行计算的处理器，该网络层可以是scale层也可以是ELTWISE层。可以通过复用的方式，同时实现通过同一处理器进行ELTWISE层运算处理或者进行scale层运算处理。

如图3所示，该方法的处理流程可以包括如下的步骤：

步骤S301，通过读取单元210从外部存储器中读取输入网络层的特征图像和计算参数。

在实施中，处理器可以通过读取单元210从外部存储器中读取IFM和计算参数。其中，外部存储器可以是各种类型的存储器，如随机存储器(Random-Access Memory，简写为RAM)，RAM可以包括DSRAM。

在处理器实际进行scale的运算之前，可以从外部存储器中读取IFM和计算参数，以便后续可以基于IFM和计算参数，进行scale层的运算处理。IFM包括多张特征图像，实际读取数据的过程中，可以按照逐张、每张按照Z字形扫描的方式每次从IFM中读取一部分数据。

由于IFM的数据量较大，而外部存储器的读取带宽有限，因此可以分次读取IFM，每次只读取IFM中的一部分数据，直至将整个的IFM读取到处理器中。计算参数的数据量较小，在外部存储器的读取带宽允许的情况下，可以一次性将计算参数读取到处理器中。需要说明的是，从外部存储器读取数据的过程中，连续读取整个的IFM，IFM包括多个特征图像，每个特征图像在一个通道上。后续进行运算处理的过程中，可以以一个特征图像和对应的计算参数为单位进行运算处理，因为一个特征图像可以使用一个相同的a和b进行乘加操作。

如图4所示，读取单元210可以包括第一存储单元411和第二存储单元412。第一存储单元411可以是先进先出(First Input First Output，简写为FIFO)存储单元，在本发明实施例中通过IFM_FIFO表示。处理器从外部读取进来的数据首先可以暂存于IFM_FIFO中。第二存储单元412可以是ping-pong寄存器，在本发明实施例中通过ping-pong buffer表示。需要说明的是，读取单元210可以包括一个存储单元，也可以包括多个存储单元，多个存储单元的类型可以相同也可以不同，可以根据实际需求设置存储单元的数量和种类。

在本发明实施例中，可以在读取单元210中设置第一存储单元411和第二存储单元412。处理器从外部存储器中读取数据的速率为第一速率，且处理器对数据进行运算处理的速率为第二速率，如果第一速率大于第二速率，则读取数据的速率和进行运算处理的速率不相匹配，读取数据的速率要快于实际处理数据的速率，因此可以设置第一存储单元411来解决这个问题。在实际应用中，处理器从外部存储器读取到的数据可以暂存在第一存储单元411中，第一存储单元411可以以一个较小的速率将暂存的数据传输到第二存储单元412，第二存储单元412可以根据计算单元220的计算能力将暂存的数据传输到计算单元220。通过这样的方式，即使以一个较大的速率从外部存储器读取数据，数据也不会因为计算单元220的计算能力较低而产生丢失的情况，同时根据计算单元220的计算能力，控制数据传输到计算单元220的速率，这样不会造成读写数据的带宽的浪费，计算单元220能够处理多少数据量，就可以传输多少数据给计算单元220进行运算处理。

可选地，通过读取单元210从外部存储器中读取输入scale层的特征图像和计算参数的步骤可以包括：从外部存储器中交替读取特征图像和计算参数，其中，每次从特征图像中读取预设数据量的图像数据；将依次读取到的数据依次存储到第一存储单元411中。

在实施中，预设数据量可以记为M，处理器可以交替向外部存储器发起用于读取特征图像和计算参数的读数据请求，如第一次向外部存储器发起读取特征图像的读数据请求，第二次向外部存储器发起读取计算参数的读数据请求，第三次再次向外部存储器发起读取特征图像的读数据请求。由于特征图像的数据量较大，每次进行读取操作时，可以从外部存储器读取特征图像中M bits的图像数据。通过每个读数据请求，从外部存储器读取到数据时，可以将读取到的数据依次存储在IFM_FIFO中。M可以是预设数值，可以是人工进行配置的，也可以是外部存储器中默认的。预设数据量M也可是外部存储器的数据位宽。

可选地，从外部存储器中交替读取特征图像和计算参数的步骤可以包括：根据特征图像的总数据量和预设数据量，确定特征图像对应的读取次数D；通过一次读取操作，从外部存储器中读取预设数据量的图像数据；通过一次读取操作，从外部存储器中读取计算参数；通过D-1次读取操作，从外部存储器中依次读取D-1个预设数据量的图像数据。

在实施中，处理器可以确定特征图像的总数据量N，该特征图像指的是IFM中的一个特征图像，或者是IFM中一个通道上的特征图像。每次进行读取操作时，处理器可以从外部存储器读取特征图像中M bits的图像数据，则可以计算如果需要读取整个的特征图像，则总共需要向外部存储器发起

次读数据请求，也即总共需要执行

次读取操作才能读取到整个的特征图像。

在处理器确定读取整个的特征图像所需的读取次数D之后，可以交替向外部存储器发起读数据请求。处理器第一次可以向外部存储器发起读取特征图像的读数据请求，第二次向外部存储器发起读取特征图像对应的计算参数的读数据请求，第三次再次向外部存储器发起读取特征图像的读数据请求，重复执行向外部存储器发起读取特征图像的读数据请求，直到通过第D次发起的读数据请求读取到最后一部分的特征图像为止。

如图5所示，在处理器交替向外部存储器发起读数据请求，每次从外部存储器读取到数据之后，可以依次将读取到的数据存储到IFM_FIFO中。例如，可以将第i个通道的特征图像中的M bits的图像数据A存储在IFM_FIFO中的第一位置上，将第i个通道对应的a和b计算参数存储在IFM_FIFO中的第二位置上，将第i个通道的特征图像中的M bits的图像数据B存储在IFM_FIFO中的第三位置上，将第i个通道的特征图像中的M bits的图像数据C存储在IFM_FIFO中的第四位置上，以此类推，直到将第i个通道的整个的特征图像都输出完毕。

可选地，当外部存储器接收处理器发起的读数据请求超出限值时会发出超限信号，以提示处理器暂缓读取数据。

若处理器接收到外部存储器发送的超限信号，则暂停向外部存储器发起读请求，这样就可以暂停从外部存储器读取数据。

若IFM_FIFO中的数据达到预设数据量阈值，则暂停从外部存储器读取数据。例如，当IFM_FIFO中缓存的数据达到IFM_FIFO将满水线时，暂时阻止处理器继续向外部存储器发出读请求。

可选地，本发明实施例提供的方法还可以包括：第一存储单元411将读取到的数据依次以设定的延时向第二存储单元412传输。

在实施中，在IFM_FIFO接收到从外部存储器读取到的数据之后，可以以设定的延时向ping-pong buffer传输。在该过程中，可以通过软件或者硬件的方式实现IFM_FIFO以设定的延时向ping-pong buffer传输读取到的数据。例如，如果通过软件的方式实现，可以设定计时器，当计时器的计时到达预设时长时，IFM_FIFO向ping-pong buffer传输一次读取到的数据。如果通过硬件的方式实现，可以在IFM_FIFO和ping-pong buffer之间设定延时部件，IFM_FIFO通过延时部件向ping-pong buffer传输读取到的数据。IFM_FIFO解决了处理器内外数据读取速率和处理速率不匹配的问题。

如图5所示，在本发明实施例中第二存储单元412可以包括多个ping-pong buffer，处理器可以依次将IFM_FIFO中的数据存储到多个ping-pong buffer中。例如，将第i个通道的特征图像中的M bits的图像数据A存储在第一个ping-pong buffer中，将第i个通道对应的a和b计算参数存储在第二个ping-pong buffer中，将第i个通道的特征图像中的M bits的图像数据B存储在第三个ping-pong buffer中，将第i个通道的特征图像中的M bits的图像数据C存储在第四个ping-pong buffer中，以此类推，直到将第i个通道的整个的特征图像都输出完毕。

可选地，本发明实施例提供的方法还可以包括：获取特征图像和计算数据对应的配置信息，以使第一存储单元411基于配置信息从外部存储器中读取特征图像和计算参数。

在实施中，可以对如何从外部存储器中读取数据的方式进行配置。技术人员可以输入特征图像对应的第一配置信息和计算数据对应的第二配置信息，可以通过预设总线接口将第一配置信息和第二配置信息输入到处理器中。其中，预设总线接口可以是外围总线(Advanced Peripheral Bus，简写为APB)接口。

处理器可以接收来自APB接口的第一配置信息和第二配置信息，将第一配置信息和第二配置信息暂存于第三存储单元中，第三存储单元可以通过INSTR_FIFO表示。每个IFM对应有一个配置信息，如果需要读取多个IFM，则同时可以获取到多个IFM分别对应的配置信息，可以将多个IFM分别对应的配置信息依次存储到INSTR_FIFO中。处理器还可以对INSTR_FIFO中存储的配置信息进行解析，以使第一存储单元411基于解析后的配置信息从外部存储器中读取特征图像和计算参数。

第一配置信息可以包括每次从特征图像中读取的图像数据的数据量M，在对第一配置信息解析之后，第一存储单元411可以按照第一配置信息所指示的，每次从特征图像中读取M bits的图像数据。

可选地，第一配置信息可以包括特征图像在外部存储器中的起始存储地址和存储地址长度；第二配置信息可以包括计算参数在存储器中的存储地址。

在实施中，特征图像可以在外部存储器中存储，具体可以存储在多个存储地址上，计算参数也可以在外部存储器中存储，具体可以存储在一个存储地址上。因此第一存储单元411可以根据特征图像在外部存储器中的起始存储地址，确定从外部存储器的哪个存储地址读取到特征图像。如果特征图像在外部存储器中是连续存储的，处理器则可以从起始存储地址开始读取多个连续的存储地址上存储的图像数据，以获取到整个的特征图像。例如，起始存储地址为0，存储地址长度为8，则所有的存储地址包括0、1、2、3、4、5、6、7，处理器可以读取存储地址依次为0、1、2、3、4、5、6、7上存储的图像数据。

计算参数对应的第二配置信息中可以仅包括计算参数在存储器中的存储地址。由于计算参数的数据量较小，因此可以仅用一个存储地址对应的存储空间存储所有的计算参数，而无需采用多个存储地址存储。

可选地，特征图像和计算参数对应的配置信息还可以包括运算模式信息。

在实施中，在本发明实施例中可以通过eltwise_mode表示运算模式信息。如果处理器是ELTWISE层处理器，对ELTWISE层处理器进行复用以实现scale层运算处理。可以通过运算模式信息指示当前处理器的运算模式，如果运算模式信息指示当前处理器的运算模式为ELTWISE层运算，则通过ELTWISE层处理器实现ELTWISE层运算，如果运算模式信息指示当前处理器的运算模式为scale层运算，则通过ELTWISE层处理器实现scale层运算。

可以通过运算模式信息实现运算模式的切换功能，以对ELTWISE层处理器进行复用。

可选地，外部存储器中包括多个存储地址，多个存储地址满足设定条件，多个存储地址中分别存储有特征图像中的预设数据量的图像数据。

在实施中，可以将IFM以一定的格式存储在外部存储器中，具体可以以对齐的方式存储在外部存储器中。可以为IFM在外部存储器中选定多个存储地址，当多个存储地址满足预设条件时，可以认为IFM以对齐的方式存储在外部存储器中。在一种可能的实现方式中，假设存储地址通过W个二进制数值表示，如果多个存储地址中最高位是连续变化的且低W-1位是相同的，则可以认为多个存储地址满足预设条件。例如，如图6所示，存储地址通过4个二进制数值表示，如果4个存储地址中低3位都是0且最高位依次是1、2、3、4，即4个存储地址依次为0x1000、0x2000、0x3000和0x4000，则该4个存储地址满足设定条件。

每个存储地址上能够存储的数据量是一定的，可以假设每个存储地址上能够存储的数据量为M，M为64bits，而特征图像中每个像素点的数据量为8bits，则每个存储地址上可以存储

个像素点的数值，也即每8个像素点的数值对齐存储在一个存储地址上，所有存储地址保持64bits对齐。

通过在外部存储器中以对齐的方式存储IFM，便于对外部存储器进行读取操作，提高读取数据的性能。

步骤S302，根据多个计算单元220的计算能力对特征图像进行拆分，将拆分后得到的多组图像数据和计算参数传递至多个计算单元220，以供多个计算单元220对各自接收的图像数据进行计算。

在实施中，在处理器接收到特征图像和计算参数之后，可以根据多个计算单元220的计算能力对特征图像进行拆分，以使得拆分后的特征图像与多个计算单元220的计算能力相匹配，这样可以避免向计算单元220传输过多的数据，避免计算单元220无法立即对所有的数据进行运算处理而浪费数据传输带宽，同时还可以避免向计算单元220传输较少的数据，避免使得多个计算单元 220中的部分计算单元220处于空闲状态而降低运算速度。在对特征图像进行拆分之后，可以得到多组图像数据，可以将每组图像数据和计算参数传输至一个计算单元220，每个计算单元220都能接收到各自的一组待计算的图像数据和计算参数，进而每个计算单元220都可以基于接收到的图像数据和计算参数，进行scale层运算处理。

可选地，多个计算单元220的计算能力反应了每个计算单元220一次能够计算的数据量和多个计算单元220的单元总数量。根据多个计算单元220的计算能力对特征图像进行拆分的步骤可以包括：根据每个计算单元220一次能够计算的数据量和单元总数量，确定是否对读取到的预设数据量的图像数据进行拆分；如果确定对预设数据量的图像数据进行拆分，则根据每个计算单元220一次能够计算的数据量和单元总数量，对预设数据量的图像数据进行拆分。

在实施中，用每个计算单元220一次能够计算的数据量乘以单元总数量，得到多个计算单元220一次能够计算的总数据量，如果多个计算单元220一次能够计算的总数据量等于或者大于预设数据量，则无需对预设数据量的图像数据进行拆分。如果多个计算单元220一次能够计算的总数据量小于预设数据量，则需要对预设数据量的图像数据进行拆分。

假设每个计算单元220一次能够计算的数据量为8bits，也即每个计算单元220一个时钟周期能够计算的数据量为8bits，多个计算单元220的单元总数量为

每次从外部存储器中读取到的图像数据的数据量为M。可以确定每个计算单元220一次能够计算的数据量与单元总数量的乘积为

表示所有计算单元220同时能够计算的数据量为

而每次从外部存储器中读取到的图像数据的数据量为M，则无法一次处理完所有读取到的图像数据，需要分

次才能处理完所有读取到的图像数据。因此可以将预设数据量除以乘积

得到拆分份数。处理器可以将预设数据量的图像数据按照拆分份数进行均等分拆分，每次向多个计算单元220传输一份拆分后的图像数据和计算参数。

处理器还可以对每份拆分后的图像数据进行串并转换处理，以将每份拆分后的图像数据转换为和多个计算单元220的单元总数量相一致的多组图像数据。如图5所示，可以对每份拆分后的数据量为

的图像数据，进行串并转换处理，得到4组图像数据，此时每组图像数据的数据量为

当M为64bits时，

为8bits，每组图像数据的数据量为8bits，与每个计算单元220一次能够计算的数据量正好是一致的，因此每个计算单元220一次能够计算完一组图像数据。

在时序上，可以控制在IFM_FIFO向多个ping-pong buffer传输数据的过程中，对特征图像进行拆分，而无需等到IFM_FIFO向多个ping-pong buffer传输完整个的特征图像再对特征图像进行拆分，这样可以提高处理数据的速度。在一种可能的实现方式中，可以按照如下时序完成数据传输和拆分的过程：

(1)IFM_FIFO读取第i个通道的特征图像中的M bits的图像数据A，将图像数据A存储在第一个ping-pong buffer中。

(2)IFM_FIFO读取第i个通道对应的a和b计算参数，将计算参数存储在第二个ping-pong buffer中。

(3)对第一个ping-pong buffer中的图像数据A进行拆分，提取第二个ping-pong buffer中的计算参数，向计算单元220分两次传输拆分后的图像数据A和计算参数。与此同时，IFM_FIFO读取第i个通道的特征图像中的M bits的图像数据B，将图像数据B存储在第三个ping-pong buffer中。

(4)对第三个ping-pong buffer中的图像数据B进行拆分，提取第二个ping-pong buffer中的计算参数，向计算单元220分两次传输拆分后的图像数据B和计算参数。与此同时，IFM_FIFO读取第i个通道的特征图像中的M bits的图像数据C，将图像数据C存储在第四个ping-pong buffer中。

按照类似于上述(1)-(4)的操作步骤执行，直到读取以及处理完第i 个通道的整个的特征图像。

上述操作步骤的电路时序图可见图7和图8。在图7中，eltwise_rd_addr为存储地址信号，ifm1_addr表示输入scale层的特征图像中的预设数据量的图像数据的存储地址信号，ifm2_addr表示计算参数的存储地址信号。eltwise_rd_en为使能信号，在高电平时，eltwise_rd_addr信号有效，在低电平时，eltwise_rd_addr信号无效。eltwise_rd_data表示数据读取信号，ifm1_data1_blk1表示第一个图像数据信号，b1和a1分别表示计算参数信号，ifm1_data2_blk1表示第二个图像数据信号，ifm1_data3_blk1表示第三个图像数据信号。

图8示出了IFM_FIFO和ping-pong buffer的控制逻辑时序。基于ifm1_data1_blk1，将第一个图像数据存储在IFM_FIFO中的第一个存储位置。基于b1和a1，将计算参数存储在IFM_FIFO中的第二个存储位置。基于ifm1_data2_blk1，将第二个图像数据存储在IFM_FIFO中的第三个存储位置。将IFM_FIFO中的ifm1_data1_blk1传输到ping-pong buffer中，在ping-pong buffer中对ifm1_data1_blk1进行拆分，得到ifm1_data1_h和ifm1_data1_l。接着，将IFM_FIFO中的b1和a1传输到ping-pong buffer中。随后，将IFM_FIFO中的ifm1_data2_blk1传输到ping-pong buffer中，在ping-pong buffer中对ifm1_data2_blk1进行拆分，得到ifm1_data2_h和ifm1_data2_l。同时，ping-pong buffer输出ifm1_data1_h、ifm1_data1_l、ifm1_data2_h、ifm1_data2_l、b1和a1，以使得计算单元220基于ping-pong buffer的输出进行运算处理。

通过设置多个计算单元220，并行对多组图像数据进行运算处理的方式，可以实现同时对多组图像数据进行运算处理，这样可以提高scale层运算处理的速度。

考虑到图像数据和计算参数的数据格式的差异性，可选地，处理器可以预先对图像数据的数据格式进行转换，将转换后的图像数据和计算参数输入到计算单元220中进行运算处理。

在实施中，图像数据可以是8bits的数据，可以对图像数据进行移位处理，以将图像数据转换为与计算参数的数据格式相一致的数据。例如，可以对8bits 的图像数据进行右移处理，将8bits的图像数据转换为32bits定点类型的图像数据，此时计算参数也是32bits定点类型的数据，两种同数据格式的数据可以直接进行乘加操作。

技术人员还可以对输出的特征图像的数据格式进行配置，可以携带在配置信息中输入到处理器中。可选地，处理器可以确定输出的特征图像的目标数据格式，将计算单元220输出的图像数据转换为目标数据格式的数据。

在实施中，可以将目标数据格式设置为8bits定点类型的数据，计算单元220直接输出的图像数据为32bits定点类型的数据，可以对32bits定点类型的图像数据进行移位处理，以将计算单元220直接输出的图像数据的数据格式转换为目标数据格式。例如，可以对32bits定点类型的图像数据进行左移处理，将32bits定点类型的图像数据转换为8bits定点类型的图像数据。在经过移位处理后，原数据的数值大小不变，只是数据的精度发生了变化。

步骤S303，通过写入单元230将多个计算单元220的计算结果合并，并将合并后的计算结果存入外部存储器。

在实施中，每个计算单元220可以基于各自接收到的图像数据和计算参数，进行运算处理，输出计算结果。写入单元230可以对不同计算单元220输出的计算结果进行合并。

例如，假设共有4个计算单元220，每个计算单元220输出的计算结果为

bits，则4个计算单元220输出的计算结果经过合并之后，合并后的计算结果为

bits。接着，可以将两次合并后的计算结果再次合并，再次合并后的计算结果为Mbits。

在得到合并后的计算结果之后，写入单元230可以获取合并后的计算结果在外部存储器中对应的初始存储地址和存储地址长度，根据合并后的计算结果在外部存储器中对应的初始存储地址和存储地址长度，将合并后的计算结果存入外部存储器中。

可选地，外部存储器可以包括第一外部存储器和第二外部存储器，写入单元230将合并后的计算结果存入第一外部存储器，当存入第一外部存储器的计算结果的数据量达到预设阈值时，第一外部存储器将存入的数据传输到第二外部存储器中。

在实施中，第一外部存储器可以是DSRAM等类型的存储器，第二存储器可以是双倍速率同步动态随机存储器(Double Data Rate，DDR)等类型的存储器。

预设阈值可以是OFM的总数据量。随着计算单元220完成scale层的运算处理，第一外部存储器中逐渐地存储有整个的OFM，在第一外部存储器将整个的OFM传输到第二外部存储器中。这样，可以减少第一外部存储器中数据的重复读取，可以节省数据读写带宽开销。

在一种可能的实现方式中，如图9所示，处理器也可以包括Eltwise_Instr_Proc、FM_Loader、FM_Proc_Unit、FM_Write_Back四个模块。在Eltwise_Instr_Proc模块中还可以设置INSTR_FIFO，可以通过APB接口将配置信息传输到INSTR_FIFO，由Eltwise_Instr_Proc模块对配置信息进行解析。在FM_Loader模块中还可以设置IFM_FIFO，IFM_FIFO根据解析后的配置信息，从外部存储器中读取特征图像和计算参数。IFM_FIFO可以将特征图像和计算参数传输到FM_Proc_Unit模块中，FM_Proc_Unit模块用于基于特征图像和计算参数，进行运算处理。FM_Proc_Unit模块将计算结果输出到FM_Write_Back模块中的OFM_FIFO中，OFM_FIFO根据配置信息，将计算结果存储到外部存储器中。

如图10所示，Eltwise_Instr_Proc模块可以包括INSTR_FIFO和INSTR_DECODER，INSTR_DECODER用于对配置信息进行解析。Eltwise_Instr_Proc模块可以同时和FM_Loader、FM_Proc_Unit、FM_Write_Back三个模块连接。

如图11所示，FM_Loader模块包括IFM_FIFO、ifm_fifo_rd、触发器和ifm_rdata_pp_buffer。其中，{eltwise_rd_vld,eltwise_rd_data}表示输入到IFM_FIFO中的信号，eltwise_rd_data表示特征图像和计算参数。ifm_fifo_rd向 IFM_FIFO输出ifm_fifo_ren信号，用于控制IFM_FIFO。触发器用于延时向ifm_rdata_pp_buffer传输特征图像和计算参数。特征图像经ifm_rdata_pp_buffer进行拆分，得到ifm1_data和ifm2_data两路信号。经过触发器之后，计算参数对应的两路信号scale_a和scale_b直接输出。

如图12所示，FM_Proc_Unit模块包括多个Pre_Fix_Point、EltWise_Proc_Unit和Post_Fix_Point。Pre_Fix_Point用于对输入的图像数据和计算参数进行数据格式转换处理，EltWise_Proc_Unit用于基于转换后的图像数据和计算参数进行运算处理。Post_Fix_Point用于对计算结果进行数据格式转换处理。整个FM_Proc_Unit模块的输入为ifm1_data和ifm2_data信号，其中，ifm1_data表示特征图像，ifm2_data表示计算参数。整个FM_Proc_Unit模块的输出为ofm_data信号，ofm_data可以表示转换后的计算结果。

在一种可能的实现方式中，EltWise_Proc_Unit模块内部的电路结构可见图13所示，输入包括ifm1_data、ifm2_data信号、coeff_a和scale_b信号，其中，coeff_a和scale_b表示计算参数。EltWise_Proc_Unit可以包括多个触发器(寄存器)、多路选择器、乘法器等电器部件。图13中的Extension表示可扩展的部分。

如图14所示，FM_Write_Back模块可以包括OFM_FIFO、OFM_DATA_PACKER和ofm_wr_addr_gen。其中，OFM_FIFO用于收集计算结果，OFM_DATA_PACKER用于对计算结果进行合并处理，ofm_wr_addr_gen用于根据配置信息中指示的存储地址，将合并后的计算结果存储在DSRAM中指示的存储地址上。

在本发明实施例提供的方法中，采用设置有多个计算单元的专用处理器进行scale层运算处理。通过多个计算单元并行对多组图像数据进行运算处理的方式，可以实现同时对多组图像数据进行运算处理，这样可以提高scale层运算处理的速度，进而可以提高处理器进行scale层运算处理的计算性能。

本发明又一示例性实施例提供了一种卷积神经网络的运算装置，该装置可以是上述实施例中的处理器。如图2所示，该装置可以包括读取单元210、多个计算单元220和写入单元230，其中：

所述读取单元210，用于从外部存储器中读取输入所述scale层的特征图像和计算参数；根据所述多个计算单元220的计算能力对所述特征图像进行拆分，将拆分后得到的多组图像数据和所述计算参数传递至所述多个计算单元220；

所述多个计算单元220，用于对各自接收的图像数据进行计算；

所述写入单元230，用于将所述多个计算单元220的计算结果合并，并将合并后的计算结果存入所述外部存储器。

可选地，所述读取单元210中包括第一存储单元，所述第一存储单元，用于：

存储依次读取到的数据。

可选地，所述读取单元210中还包括第二存储单元，所述第一存储单元，还用于：

可选地，所述第一存储单元，用于：

可选地，所述多个计算单元220的计算能力反应了每个计算单元220一次能够计算的数据量和所述多个计算单元220的单元总数量，所述读取单元210，用于：

根据所述每个计算单元220一次能够计算的数据量和所述单元总数量，确定是否对读取到的所述预设数据量的图像数据进行拆分；

当确定对所述预设数据量的图像数据进行拆分时，根据所述每个计算单元220一次能够计算的数据量和所述单元总数量，对所述预设数据量的图像数据进行拆分。

可选地，所述读取单元210，用于：

确定所述每个计算单元220一次能够计算的数据量与所述单元总数量的乘积；

将所述预设数据量除以所述乘积，得到拆分份数；

图2所示的卷积神经网络的运算装置可以执行图1-图14所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图14所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图14所示实施例中的描述，在此不再赘述。

另外，本发明实施例提供了一种电子设备，如图15所示，该电子设备包括卷积神经网络的运算装置1501和所述卷积神经网络的运算装置1501外部的存储器1502，卷积神经网络的运算装置1501为上述图2所示的卷积神经网络的运算装置。

本发明实施例还提供了一种计算机可读存储介质，存储介质为计算机可读存储介质，该计算机可读存储介质中存储有程序指令，程序指令用于实现上述图1-图14所示实施例的方法。

以上各个实施例中的技术方案、技术特征在不相冲突的情况下均可以单独，或者进行组合，只要未超出本领域技术人员的认知范围，均属于本发明保护范围内的等同实施例。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

一种卷积神经网络的运算方法，其特征在于，应用于对卷积神经网络中的网络层进行计算的处理器，所述处理器包括读取单元、多个计算单元和写入单元，所述方法包括：

通过所述读取单元从外部存储器中读取输入所述网络层的特征图像和计算参数；

根据所述多个计算单元的计算能力对所述特征图像进行拆分，将拆分后得到的多组图像数据和所述计算参数传递至所述多个计算单元，以供所述多个计算单元对各自接收的图像数据进行计算；

通过所述写入单元将所述多个计算单元的计算结果合并，并将合并后的计算结果存入所述外部存储器。
根据权利要求1所述的方法，其特征在于，所述读取单元中包括第一存储单元，所述通过所述读取单元从外部存储器中读取输入所述网络层的特征图像和计算参数，包括：

从所述外部存储器中交替读取所述特征图像和所述计算参数，其中，每次从所述特征图像中读取预设数据量的图像数据；

将依次读取到的数据依次存储到所述第一存储单元中。
根据权利要求2所述的方法，其特征在于，所述读取单元中还包括第二存储单元，所述方法还包括：

所述第一存储单元将读取到的数据依次以设定的延时向所述第二存储单元传输。
根据权利要求2所述的方法，其特征在于，所述从所述外部存储器中交替读取所述特征图像和所述计算参数，包括：

根据所述特征图像的总数据量和所述预设数据量，确定所述特征图像对应的读取次数D；

通过一次读取操作，从所述外部存储器中读取所述预设数据量的图像数据；

通过一次读取操作，从所述外部存储器中读取所述计算参数；

通过D-1次读取操作，从所述外部存储器中依次读取D-1个所述预设数据量的图像数据。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述特征图像和所述计算数据对应的配置信息，以使所述第一存储单元基于所述配置信息从所述外部存储器中读取所述特征图像和所述计算参数。
根据权利要求5所述的方法，其特征在于，所述特征图像对应的配置信息包括所述特征图像在所述外部存储器中的起始存储地址和存储地址长度；

所述计算参数对应的配置信息包括所述计算参数在所述存储器中的存储地址。
根据权利要求2所述的方法，其特征在于，所述外部存储器中包括多个存储地址，所述多个存储地址满足设定条件，所述多个存储地址中分别存储有所述特征图像中的所述预设数据量的图像数据。
根据权利要求2所述的方法，其特征在于，所述多个计算单元的计算能力反应了每个计算单元一次能够计算的数据量和所述多个计算单元的单元总数量，所述根据所述多个计算单元的计算能力对所述特征图像进行拆分，包括：

根据所述每个计算单元一次能够计算的数据量和所述单元总数量，确定是否对读取到的所述预设数据量的图像数据进行拆分；

如果确定对所述预设数据量的图像数据进行拆分，则根据所述每个计算单元一次能够计算的数据量和所述单元总数量，对所述预设数据量的图像数据进行拆分。
根据权利要求8所述的方法，其特征在于，所述根据所述每个计算单元一次能够计算的数据量和所述单元总数量，对所述预设数据量的图像数据进行拆分，包括：

确定所述每个计算单元一次能够计算的数据量与所述单元总数量的乘积；

将所述预设数据量除以所述乘积，得到拆分份数；

将所述预设数据量的图像数据按照所述拆分份数进行均等分拆分。
根据权利要求1-9中任一项所述的方法，其特征在于，所述网络层包括ELTWISE层或scale层。
一种卷积神经网络的运算装置，其特征在于，所述装置包括读取单元、多个计算单元和写入单元，其中：

所述读取单元，用于从外部存储器中读取输入网络层的特征图像和计算参数；根据所述多个计算单元的计算能力对所述特征图像进行拆分，将拆分后得到的多组图像数据和所述计算参数传递至所述多个计算单元；

所述多个计算单元，用于对各自接收的图像数据进行计算；

所述写入单元，用于将所述多个计算单元的计算结果合并，并将合并后的计算结果存入所述外部存储器。
根据权利要求11所述的装置，其特征在于，所述读取单元中包括第一存储单元，所述第一存储单元，用于：

从所述外部存储器中交替读取所述特征图像和所述计算参数，其中，每次从所述特征图像中读取预设数据量的图像数据；

存储依次读取到的数据。
根据权利要求12所述的装置，其特征在于，所述读取单元中还包括第二存储单元，所述第一存储单元，还用于：

将读取到的数据依次以设定的延时向所述第二存储单元传输。
根据权利要求12所述的装置，其特征在于，所述第一存储单元，用于：

根据所述特征图像的总数据量和所述预设数据量，确定所述特征图像对应的读取次数D；

通过一次读取操作，从所述外部存储器中读取所述预设数据量的图像数据；

通过一次读取操作，从所述外部存储器中读取所述计算参数；

通过D-1次读取操作，从所述外部存储器中依次读取D-1个所述预设数据量的图像数据。
根据权利要求12所述的装置，其特征在于，所述装置还包括获取单元，所述获取单元，用于获取所述特征图像和所述计算数据对应的配置信息；

所述第一存储单元，用于基于所述配置信息从所述外部存储器中读取所述特征图像和所述计算参数。
根据权利要求15所述的装置，其特征在于，所述特征图像对应的配置信息包括所述特征图像在所述外部存储器中的起始存储地址和存储地址长度；

所述计算参数对应的配置信息包括所述计算参数在所述存储器中的存储地址。
根据权利要求12所述的装置，其特征在于，所述外部存储器中包括多个存储地址，所述多个存储地址满足设定条件，所述多个存储地址中分别存储有所述特征图像中的所述预设数据量的图像数据。
根据权利要求12所述的装置，其特征在于，所述多个计算单元的计算能力反应了每个计算单元一次能够计算的数据量和所述多个计算单元的单元总数量，所述读取单元，用于：

根据所述每个计算单元一次能够计算的数据量和所述单元总数量，确定是否对读取到的所述预设数据量的图像数据进行拆分；

当确定对所述预设数据量的图像数据进行拆分时，根据所述每个计算单元一次能够计算的数据量和所述单元总数量，对所述预设数据量的图像数据进行拆分。
根据权利要求18所述的装置，其特征在于，所述读取单元，用于：

确定所述每个计算单元一次能够计算的数据量与所述单元总数量的乘积；

将所述预设数据量除以所述乘积，得到拆分份数；

将所述预设数据量的图像数据按照所述拆分份数进行均等分拆分。
根据权利要求11-19中任一项所述的装置，其特征在于，所述网络层包括ELTWISE层或scale层。
一种电子设备，其特征在于，包括：权利要求11-19中任一项所述的卷积神经网络的运算装置和所述卷积神经网络的运算装置外部的存储器。
一种计算机可读存储介质，其特征在于，所述存储介质为计算机可读存储介质，该计算机可读存储介质中存储有程序指令，所述程序指令用于实现权利要求1-10中任意一项所述的卷积神经网络的运算方法。