WO2021102946A1

WO2021102946A1 - 计算装置、方法、处理器和可移动设备

Info

Publication number: WO2021102946A1
Application number: PCT/CN2019/122083
Authority: WO
Inventors: 杨康; 麻津铭; 颜钊; 林蔓虹
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2021-06-03
Also published as: CN112470138A

Abstract

提供一种计算装置、方法、处理器和可移动设备，该装置包括：片上存储器，用于缓存输入特征图和卷积核；读取电路，用于将输入特征图和卷积核从片外存储器读取到片上存储器中；控制电路，用于根据多种数据装载方式中的每种数据装载方式的数据搬移量，在多种数据装载方式中确定目标数据装载方式，并控制读取电路根据目标数据装载方式，将输入特征图和卷积核从片外存储器读取到片上存储器，其中，所述多种数据装载方式为向片上存储器装载输入特征图和卷积核的方式，每种数据装载方式的数据搬移量为将输入特征图和卷积核进行卷积运算所需搬移的总数据量；卷积计算电路，用于对片上存储器中的输入特征图和卷积核进行卷积计算，得到输出特征图。

Description

计算装置、方法、处理器和可移动设备

版权申明

技术领域

本申请涉及信息技术领域，并且更具体地，涉及一种计算装置、方法、处理器和可移动设备。

背景技术

卷积神经网络(Convolutional Neural Network，CNN)是一种机器学习算法，它被广泛应用于目标识别、目标检测以及图像的语义分割等计算机视觉任务。

目前卷积神经网络的卷积计算过程中，对内存的访问量较大，导致CNN加速器对带宽的需求越来越大，影响卷积神经网络加速器的性能。因此，如何提高卷积计算的性能，成为卷积神经网络设计中一个亟待解决的技术问题。

发明内容

本申请提供一种计算装置、方法、处理器和可移动设备，能够提升卷积神经网络的性能。

第一方面，提供一种计算装置，包括：片上存储器，用于缓存输入特征图和卷积核；读取电路，用于将所述输入特征图和卷积核从片外存储器读取到所述片上存储器中；控制电路，用于根据多种数据装载方式中的每种数据装载方式的数据搬移量，在所述多种数据装载方式中确定目标数据装载方式，并控制所述读取电路根据所述目标数据装载方式，将所述输入特征图和所述卷积核从所述片外存储器读取到所述片上存储器，其中，所述多种数据装载方式为向所述片上存储器装载所述输入特征图和所述卷积核的方式，所述每种数据装载方式的数据搬移量为将所述输入特征图和所述卷积核进行卷积运算所需搬移的总数据量；卷积计算电路，用于对所述片上存储器中的所述输入特征图和所述卷积核进行卷积计算，得到输出特征图。

第二方面，提供了一种计算方法，包括：根据多种数据装载方式中的每种数据装载方式的数据搬移量，在所述多种数据装载方式中确定目标数据装载方式，其中，所述多种数据装载方式为向所述装置的片上存储器装载所述输入特征图和所述卷积核的方式，所述每种数据装载方式的数据搬移量为将所述输入特征图和所述卷积核进行卷积运算所需搬移的总数据量；根据所述目标数据装载方式，将所述输入特征图和所述卷积核从所述片外存储器读取到所述装置的片上存储器；对所述片上存储器中的所述输入特征图和所述卷积核进行卷积计算，得到输出特征图。

第三方面，提供了一种处理器，包括第一方面的计算装置。

第四方面，提供了一种可移动设备，包括第一方面的计算装置；或者，第三方面的处理器。

第五方面，提供了一种计算机存储介质，该计算机存储介质中存储有程序代码，该程序代码可以用于指示执行上述第二方面的方法。

本申请实施例的技术方案，可以根据多种数据装载方式的数据搬移量，在多种数据装载方式中选择合适的数据装载方式，有利于减少卷积计算过程中的数据搬移，降低了输入和输出数据的带宽，从而能够提高卷积计算的效率。

附图说明

图1是本申请实施例的卷积神经网络的卷积操作过程的示意图。

图2是应用本申请实施例的技术方案的系统的架构图。

图3是根据本申请实施例的计算方法的示意性流程图。

图4是卷积计算的一种计算顺序的示意图。

图5是卷积计算的另一种计算顺序的示意图。

图6是根据本申请实施例的片上存储器的缓存分配方式的示意图。

图7是根据本申请实施例的计算装置的示意性框图。

图8是本申请实施例的可移动设备的示意性架构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有说明，本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本申请的范围。

图1示出了卷积神经网络的卷积操作过程的示意图。如图1所示，卷积神经网络的卷积操作是对输入的权重和输入特征图(Input Feature Map，IFM)进行运算后得到输出特征图(Output Feature Map，OFM)。权重也被称为滤波器(Filter，FILT)或卷积核。输入特征图为上一层的输出特征图或未经卷积神经网络的处理的特征图。输出特征图为输入特征图经过当前层运算后得到的特征图。卷积核和输入特征图、输出特征图都可以被表示为一个多维矩阵，卷积神经网络的卷积层的一次卷积运算为输入特征矩阵的至少部分特征值(数据单元)与卷积核矩阵的权重值进行乘加操作。

如图1所示，卷积层的卷积运算可以采用滑动窗口方式，以输入特征值矩阵的左上角为起点，以卷积核的大小为窗口，依次滑动窗口到输入特征矩阵的右下角，产生一个完整的二维输出特征矩阵。每次滑动窗口后，卷积计算装置都会从输入特征值矩阵中提取一个窗口大小的输入特征值，将其与卷积核进行乘加操作，产生一个输出特征值。依照上述方式，依次产生所有的二维输出特征矩阵后，便可得到该卷积层的三维输出特征矩阵。

输入特征图的大小为W×H×M，其中，W可以代表宽度方向，H可以代表高度方向，C代表通道方向(也可以称为深度方向或厚度方向)，故输入特征图可以称为3D特征图。卷积核也可以是3D的，W可以代表卷积核的宽度方向，H可以代表卷积核的高度方向，C代表卷积核的通道方向，卷积核的个数可以为N个，N为正整数，该N个卷积核的大小可以是相同的，但是参数可以是不同的。

因此，利用一个卷积核和3D的输入特征图进行乘加运算后可以输出一个2D特征图，则采用N个卷积核分别和3D的输入特征图进行卷积运算，可以得到3D的输出特征图，其中，卷积核的通道方向的大小可以与输入特征图的通道方向的大小相同。

以下，结合图2，描述本申请实施例所应用的卷积神经网络的系统架构图，其中，该系统可以包括处理器100和片外存储器200。其中，处理器100也可称为卷积神经网络加速器。

如图2所示，处理器100可以包括控制电路110、计算电路120、直接内存存取(Direct Memory Access，DMA)130和片上存储器140，例如静态随机存取存储器(Static Random-Access Memory，SRAM)。

其中，控制电路110可以控制计算电路120的运算(例如，参与运算的数据的大小以及运算的时序等)，控制DMA130进行数据的读取或存储，例如，控制DMA130将数据从外部存储器200读入到片上存储器140中或将数据从片上存储器140写出到外部存储器200。在一些实施例中，控制电路110可以从片外存储器200中读取指令，用于实现对计算电路120和DMA130的控制。

计算电路120可以实现卷积神经网络的卷积层或其他层的处理，也就是说，该计算电路120可以包括卷积计算电路，也可以包括其他计算电路，例如池化层电路等，在一些实施例中，所述计算电路120可以从片上存储器140中读取数据进行卷积层的运算，以及将运算结果输出到片上存储器140中进行存储。

在一些实施例中，计算电路120内也可以包括区分于片上存储器140的其他片上存储器，用于存储计算电路120中的数据，例如，卷积计算得到的中间结果。

DMA130可以从片外存储器200中读取数据(例如，可以用于卷积运算的数据)，并存储到片上存储器140中，或者，可以从片上存储器140中读取数据(例如，卷积计算电路120的输出的运算结果)，并将数据存储到片外存储器200中。

应理解，图2所示的系统仅仅是本申请实施例的一种实现方式，不应对本申请实施例构成特别的限定。

随着卷积神经网络加速器的处理能力的提升，单位时间内对片外存储器的访问量也就越大，导致卷积神经网络加速器对带宽的需求越来越大，在对IFM或FILT中的一些数据在进行卷积运算之后，如果将这些数据存储在片外存储器中，下次需要使用这些数据进行卷积计算时，则需要反复从片外存储器上读取数据，增加了数据搬移量，影响卷积神经网络的性能。

在本申请实施例中，可以根据多种数据装载方式的数据搬移量，在所述多种数据装载方式中选择合适的数据装载方式，进一步根据该数据装载方式，将所述输入特征图和卷积核从片外存储器读取到所述片上存储器中，从而卷积计算电路可以根据读取的该输入特征图和卷积核进行卷积计算，得到输入特征图，有利于提高片上存储器的利用率，降低卷积运算的数据搬移量，提升卷积神经网络加速器的性能。

图3是根据本申请实施例的计算方法的示意性流程图，其中，该方法400可以由卷积计算的装置来执行，具体地，可以由卷积计算的装置中的处理设备来执行，该处理设备例如可以包括图2所示的处理器100。该方法400可以包括如下步骤：

S410，根据多种数据装载方式中的每种数据装载方式的数据搬移量，在所述多种数据装载方式中确定目标数据装载方式，其中，所述多种数据装载方式为向所述装置的片上存储器装载所述输入特征图和所述卷积核的方式，所述每种数据装载方式的数据搬移量为将所述输入特征图和所述卷积核进行卷积运算所需搬移的总数据量；

S420，根据所述目标数据装载方式，将所述输入特征图和所述卷积核从所述装置的片外存储器读取到所述片上存储器；

S430，对所述片上存储器中的所述输入特征图和所述卷积核进行卷积计算，得到输出特征图。

可选地，在本申请实施例中，该处理设备可以由现场可编程门阵列(Field Programmable Gate Array，FPGA或特定应用的集成电路(Application Specific Integrated Circuit，ASIC)实现。由于FPGA或ASCI属于专用集成电路，其可以通过定制硬件加速器实现特定的功能，处理更高效。但本申请并不限于此。

在一些实施例中，所述处理设备可以包括读取电路，控制电路和计算电路，分别对应于图2中的DMA130，控制电路110和计算电路120，其中，所述控制电路可以用于执行图3所示方法400中的S410，所述读取电路可以用于执行图3所示方法400中的S420，所述计算电路可以用于执行图3所示方法400中的S430。以下，以处理设备为执行主体为例进行说明。

应理解，所述读取电路和所述控制电路可以为单独的电路，或者所述读取电路也可以集成于所述控制电路中，本申请实施例对此不作限定。

在本申请一些实施例中，该处理设备可以将待装载的IFM和FILT分割为多个分块(Block，BLK)，然后根据确定的所述目标装载方式向所述片上存储器中装载IFM和FILT的各个分块。

例如，可以在高度方向、宽度方向和通道方向中的至少一个方向上，将所述输入特征图和卷积核进行切分，得到多个分块，然后基于所述目标装载方式向所述片上存储器中装载所述多个分块。

在一种实现方式中，可以将输入特征图在高度方向H和通道方向C进行切分，得到α行β列特征图分块矩阵，将FILT在通道方向C和个数方向(N方向)进行切分，得到β行γ列的卷积核分块阵列，该α行β列特征图分块矩阵和该β行γ列的卷积核分块阵列进行卷积运算可以得到α行γ列输出特征图分块矩阵。其中，α表示IFM在H方向的BLK个数，β表示IFM在C方向上的BLK个数，γ表示OFM在C方向上的BLK个数。

在其他实现方式中，也可以沿其他方向切分所述IFM和FILT，例如，将IFM在W和C方向进行切分，或者也可以按照一个方向进行切分，例如，只在C方向或H方向上进行切分，本申请实施例并不限于此。以下，仅以将IFM在H方向和C方向进行切分，以及将FILT在C方向和N方向进行切分为例进行说明，但本申请实施例并不限于此。

为了便于区分和说明，在本申请实施例中，用A表示IFM，用a表示IFM的一个BLK，用K表示FILT，用k表示一个FILTBLK，用V表示OFM，用v表示一个OFMBLK，采用

表示特定的IFM BLK，其中，下标i表示IFM BLK在H方向上的索引，上标j表示IFM BLK在C方向上的索引。类似地，采用

表示特定的FILT BLK，其中，下标i表示FILT BLK在C方向上的索引，上标j表示在N方向上的索引。

并且，采用方向加下标的方式表示该方向上的大小，如采用C _A和C _a分别表示IFM和IFM BLK在C方向上的大小，H _K和H _k分别表示FILT和FILT BLK在H方向上的大小，N _K和N _k分别表示FILT和FILT BLK在N方向上的大小等。

一次卷积运算可以表示为：f _Conv(A)＝A*K＝V。

将基于上述切分方式得到的IFM BLK和FILT BLK装载到片上存储器进行卷积运算，则一次卷积运算在卷积神经网络加速器中的对应运算可以表示为：

在本申请实施例中，将IFM中的全部特征值都装载到片上存储器的数据搬移量记为B _A，将FILT中的全部权重值都装载到片上存储器中的数据搬移量记为B _K，将IFM和FILT进行一次卷积运算所需的总的数据搬移量记为B _total。

在本申请实施例中，所述处理设备可以计算所述多种数据装载方式所需的数据搬移量，然后根据每种数据装载方式的数据搬移量，选择合适的数据装载方式，例如，选择数据搬移量最低的数据装载方式。

在其他实施例中，所述处理设备也可以计算每种数据装载方式的数据搬移时间，进一步选择合适的数据装载方式，例如可以选择数据搬移时间最短的数据装载方式。

以下，结合几种典型的数据装载方式，说明根据本申请实施例的计算方法。应理解，以下所示例的数据装载方式仅为示例，根据所示例的数据装载方式所得出的其他数据装载方式，都落入本申请的保护范围。

在本申请实施例中，卷积计算可以有两种计算顺序，分别记为NRM和NMR，如图4和图5所示，一次卷积运算中，对于NRM，OFM的输出按照如下顺序：先输出COFM的第一列，再依次输出OFM的其他列C，即按照如下顺序输出：

一次卷积运算中，对于NMR，OFM的输出按照如下顺序：先输出OFM的第一行，再输出OFM的其他行，即按照如下顺序输出：

根据上述两种计算顺序，可以有相应的缓存分配方式，也就是对应相应的数据加载方式。

对于NRM的计算顺序，可以采用第一类数据数据加载方式，基本思想是复用FILT，将FILT保留在片上存储器中，向片上存储器中依次装载IFM的各个分块以进行卷积计算。

具体地，基于所述第一类数据装载方式，所述处理设备可以将所述FILT中的权重值装载至所述片上存储器中后，将所述FILT中的权重值保留在片上存储器中，然后可以依次向所述片上存储器中依次装载IFM的各个分块，以使所述FILT中的权重值与装载的IFM的各个分块中的特征值进行卷积计算，也就是说，对于一次完整的卷积运算，FILT的数据搬移量可以为B _K，IFM的数据搬移量可以为一倍或多倍B _A。

对于NMR的计算顺序，可以采用第二类数据数据加载方式，基本思想是复用IFM，将IFM保留在片上存储器中，向片上存储器中依次装载FILT的各个分块以进行卷积计算。

具体地，基于所述第二类数据装载方式，所述处理设备可以将所述IFM中的特征值装载至所述片上存储器后，将所述IFM中的特征值保留在片上存储器中，然后可以依次向所述片上存储器中依次装载FILT中的各个分块，以使所述IFM中的特征值与装载的FILT的分块中的权重值进行卷积计算，也就是说，对于一次完整的卷积运算而言，IFM的数据搬移量可以为B _A，FILT的数据搬移量可以为一倍或多倍B _K。

在一些具体实施例中，所述多种数据加载方式可以包括以下中的至少一种：第一数据装载方式、第二数据加载方式、第三数据装载方式、第四数据装载方式和第五数据加载方式，分别对应图6中的(a)-(e)。当然，也可以包括更多种数据加载方式，本申请实施例并不限于此。

基于所述第一数据装载方式，所述处理设备只将所述IFM中的特征值向所述片上存储器中装载一次，并且只将所述FILT中的权重值向所述片上存储器中装载一次。其中，装载的FILT可以保留在所述片上存储器中，以复用该FILT与后续依次装载的IFM的各个分块进行卷积运算，并且装载的IFM的各个分块也可以保留在所述片上存储器中，以便于后续加载的FILT与该IFM的各个分块进行卷积运算。由此可见，基于该第一数据加载方式，进行一次卷积运算，IFM的数据搬移量为B _A，FILT的数据搬移量可以为B _K。

基于所述第二数据装载方式，所述处理设备只将所述FILT中的权重值向所述片上存储器中装载一次，以及将所述IFM向所述片上存储器中装载多次，即进行一次卷积运算，IFM的数据搬移量为多倍B _A，FILT的数据搬移量可以为B _K；

基于所述第三数据装载方式，所述处理电路将所述FILT中的权重值向所述片上存储器中装载多次，以及将所述IFM向所述片上存储器中装载多次，即进行一次卷积运算，IFM的数据搬移量为多倍B _A，FILT的数据搬移量可以为多倍B _K；

基于所述第四数据装载方式，所述处理电路将所述IFM向所述片上存储器装载一次，与所述第一数据加载方式不同的是，装载的IFM保留在所述片上存储器中，以复用IFM与后续依次加载的FILT的各个分块进行卷积运算，进行一次卷积运算，IFM的数据搬移量为B _A，FILT的数据搬移量为B _K；

基于所述第五数据装载方式，可以将所述IFM向所述片上存储器加载一次，将所述FILT向所述片上存储器中装载多次，即进行一次卷积运算，IFM的数据搬移量为B _A，FILT的数据搬移量可以为多倍B _K。

应理解，上述五种数据装载方式中，第一数据装载方式，第二数据装载方式，第三数据装载方式对应的卷积计算的顺序为NRM，所述第四数据装载方式和所述第五数据装载方式对应的卷积计算的顺序为NMR。

还应理解，在本申请实施例中，向片上存储器装载一次IFM或将所述IFM向片上存储器装载一次，并不表示一次向所述片上存储器中加载IFM的全部特征值，而是指进行一次完整的卷积运算，需要搬移的IFM的数据量为IFM的全部数据量，即不需要重复向所述片上存储器重复装载IFM，类似地，对于向片上存储器装载一次FILT的含义也是如此，这里不再赘述。

在一些实施例中，所述处理设备可以根据所述多种数据装载方式的数据搬移量，结合所述输入特征图的数据量，所述片上存储器的空间大小，所述卷积计算电路的处理能力和所述卷积核的数据量中的至少一项，在所述多种数据装载方式中确定所述目标数据装载方式。

以下，结合图6，说明几种典型的数据装载方式的具体实现方式。

第一数据装载方式：

作为一个实施例，所述处理设备可以确定片上存储器的空间大小是否足够装载IFM的总数据量，若所述片上存储器的空间大小足够装载IFM的总数据量，所述处理设备还可以进一步判断片上存储器的空间大小是否还足够装载所述FILT的C方向上的数据量，若所述片上存储器的空间大小足够装载所述FILT的C方向上的数据量，则所述处理设备可以确定采用第一数据装载方式。

这里，所述FILT的C方向上的数据量可以为FILT在C方向上的各个分块的总数据量，例如，图6中的卷积核分块矩阵中的一列，如

所述片上存储器的空间大小足够装载所述FILT的C方向上的数据量可以指所述片上存储器的空间大小是否足够装载卷积核分块矩阵中的一列。

应理解，图6中的(a)-(e)中示出了上述五种数据装载方式的缓存分配方式，或者说，在同一时间段内，所述片上存储器上能够装载的数据。

如图6中的(a)所示，基于该第一数据数据装载方式，在同一时间段(例如一个时钟周期)内，所述片上存储器上能够缓存的数据量包括IFM的全部数据量，FILT的C方向上的数据量，可选地，还可以包括卷积计算得到的OFM的一个分块的大小。

结合图6中的(a)，说明基于该第一数据加载方式具体的加载过程。

在第一时钟周期内，所述处理设备向所述片上存储器装载IFM中的第一行IFM BLK，即

并向所述片上存储器装载FILT BLK的第一列，即

这里，该第一行IFM BLK和该第一列FILT BLK可以是同时装载的，或者也可以是先后装载的，本申请实施例对此不作限定。

进一步地，可以根据装载的第一行IFM BLK

和该第一列FILT BLK

进行卷积运算，得到

在第二时钟周期内，所述处理设备向所述片上存储器装载第二行IFM BLK，

此时，第一行IFM BLK

和第一列FILT BLK

依然保留在片上存储器中。进一步地，可以基于根据装载的第二行IFM BLK

和第一列FILT BLK

进行卷积运算，得到V ₁ ⁰。

然后，依次装载每行IFM BLK直至最后一行IFM BLK，即

并将每行IFM BLK都与该第一列FILT BLK进行卷积运算，得到OFM的第一列输出结果

此时，IFM的全部特征值都保留在片上存储器中。

其后，可以向所述片上存储器加载第二列FILT BLK，即

其中，该第二列FILT BLK覆盖掉第一列FILT BLK，即在装载第二列FILT BLK之后，第一列FILT BLK不保留在片上存储器中。

然后，依次将片上存储中中保留的每行IFM BLK都与该第二列FILT BLK进行卷积运算，得到OFM的第二列输出结果，即

继续执行上述类似步骤，直到装载至最后一列FILT BLK，进一步根据该每行IFM BLK和该最后一列FILT BLK进行卷积计算，得到OFM的最后一列输出结果，即

由此可见，基于该第一数据加载方式，一次卷积运算所需的总的数据搬移量B _total＝B _A+B _K。即IFM和FILT都只需装载一次。

应理解，在本申请实施例中，OFM的输出结果可以缓存在该片上存储器上，或者也可以输出到片外存储器上。

还应理解，在本申请实施例对于卷积运算的时机不作具体限定，例如可以在装载完IFM中的每行IFM BLK之后将所述每行IFM BLK与一列FILT BLK进行卷积计算，或者，也可以每装载完一行IFM BLK，将该一行IFM BLK与已装载的一列FILT BLK进行卷积计算，或者也可以在装载第二行IFM BLK时，将装载的上一行IFM BLK与第一列FILT BLK进行卷积计算等。

在该第一数据加载方式中，按行依次装载每行IFM BLK，可以认为IFM在C方向上未切分，在H方向上的大小可以是预设大小，或者也可以根据卷积神经网络加速器的处理能力确定，例如，可以IFM BLKH方向上的大小可以等于在输入特征图的H方向上所述卷积神经网络加速器能够并行处理的最大数据量。

需要说明的是，在本申请实施例中，所述片上存储器可以包括第一片上存储器和第二片上存储器，其中，所述第一片上存储器位于运算电路外，所述第二片上存储器位于运算电路内，在进行卷积运算时，运算电路对部分IFM BLK和FILT BLK进行卷积运算之后，可以在所述第二片上存储器中存储该部分IFM BLK和FILT BLK卷积运算结果，在等到所有IFM BLK和FILT BLK的卷积运算计算完毕之后，结合所有IFM BLK和FILT BLK的卷积运算结果进行处理，例如累加处理，以得到一个卷积核的输出结果或一个2D特征图，并将其输出到所述第一片上存储器中，或者所述运算电路也可以将中间结果输出到所述第一片上存储器，本申请实施例对此不作限定。

第二数据装载方式和第三数据装载方式：

在另一些实施例中，若所述片上存储器的空间大小不足够装载IFM的总数据量，所述处理设备可以确定是否可以复用FILT，具体地，所述控制电路可以确定所述片上存储器的空间大小是否足够所述FILT的C方向上的数据量，若所述片上存储器的空间大小足够装载FILT的C方向上的数据量，即所述片上存储器的空间大小足够装载卷积核分块矩阵中的一列，则可以复用所述FILT，所述控制电路可以确定采用第二数据加载方式，否则，可以确定不能复用FILT，则可以确定采用第三数据加载方式。

在本申请实施例中，若确定可以复用所述FILT，所述处理设备可以确定FILT的C方向上的大小为IFM的C方向上的大小，否则，确定FILT的C方向上的大小为IFM BLK的C方向上的大小，所述IFM BLK的大小的确定方式在下文中描述。

结合图6中的(b)，说明基于该第二数据加载方式的具体的加载过程。

在第一时钟周期内，所述处理电路向所述片上存储器装载第一行IFM BLK，即

以及向所述片上存储器装载卷积核分块矩阵中的第一列FILT BLK，即

进一步地，所述运算电路可以根据装载的该第一行IFM BLK和该第一列FILT BLK进行卷积运算，得到

应理解，这里，所述处理电路向所述片上存储器装载该第一行IFM BLK可以是一次装载一行，或者也可以是分多次装载，例如，一次装载一个IFM BLK，具体方式可以根据片上存储器的空间大小确定。

在第二时钟周期内，所述第一列FILT BLK保留在片上存储器中，所述处理电路向所述片上存储器装载第二行IFM BLK，这里，与第一数据加载方式不同的是，所述第二行IFM BLK需要覆盖掉该第一行IFM BLK，即在第二时钟周期内，第一行IFM BLK不在片上存储器中。

进一步地，所述运算电路可以基于根据装载的第二行IFM BLK和所述片上存储器中保留的该第一列FILT BLK进行卷积运算，得到V ₁ ⁰。

继续采用覆盖的方式依次向片上存储器中装载IFM中的每行数据直至最后一行IFM BLK，并根据该装载的每行IFM BLK与该片上存储器中保留的第一列FILT BLK进行卷积运算，得到OFM的第一列输出结果

进一步地，向所述片上存储器加载第二列FILT BLK，该第二列FILT BLK覆盖第一列FILT BLK，即此时将所述第二列FILT BLK保留在片上存储器中，然后依次将该IFM中的α行IFM BLK中每行IFM BLK依次装载到片上存储器中以与该第二列FILT BLK进行卷积运算，得到OFM的第二列输出结果，即

继续执行上述类似步骤，直到加载到卷积核分块矩阵中的最后一列FILT BLK，并且将该α行IFM BLK中每行IFM BLK依次装载到该片上存储器中与该最后一列FILT BLK进行卷积运算，得到OFM的最后一列输出结果，即

由此可见，基于该第二数据加载方式，进行一次卷积运算，所需的数据搬移量B _total＝B _Aγ+B _K。即IFM需要多次重复装载，FILT只需装载一次。

对于所述第二数据加载方式，若一次装载一整行IFM BLK，这种情况下，可以认为IFM BLK在C方向的大小等于IFM在C方向上的大小，也就是说，IFM在C方向不切分。

结合图6中的(c)，介绍基于该第三数据加载方式的具体的加载过程。

在第一时钟周期内，所述处理设备向所述片上存储器装载第一行第一个IFM BLK，即

并向所述片上存储器装载第一列第一个FILT BLK，即

进一步地，可以根据装载的该

和

进行乘法运算，得到

的中间结果；

在第二时钟周期内，所述处理设备向所述片上存储器装载第一行第二个IFM BLK，即

以及第一列第二个FILT BLK，即

此时，所述

覆盖掉

所述

覆盖掉

即在该第二时钟周期内，

和

不缓存在片上存储器中，进一步地，可以基于根据装载的

和

进行乘法运算，得到

的另一中间结果；

所述处理设备依次以覆盖的方式装载所述第一行IFM BLK中的每个IFM BLK直至该第一行中的最后一个IFM BLK，即

以及以覆盖式装载方式装载第一列FILT BLK中的每个FILT BLK直至最后一个FILT BLK，即

然后根据该最后一个IFM BLK与最后一个FILT BLK进行乘法运算，得到

的中间结果，进一步可以对这些中间结果进行累加，得到OFM的第一列第一个输出结果

进一步地，所述处理设备可以采用上述类似方式向所述片上存储器装载第二行IFM BLK中的每个IFM BLK，以及第一列FILT BLK中的每个FILT BLK，然后将该第二行IFM BLK中的每个IFM BLK与该第一列FILT BLK中的每个FILT BLK进行乘加运算，得到OFM的第一列第二个输出结果V ₁ ⁰。

继续执行上述类似步骤，向所述片上存储器装载每行IFM BLK中的每个IFM BLK直到装载到最后一行IFM BLK中的最后一个IFM BLK，以及向片上存储器装置每列FILT BLK中的每个FILT BLK直至最后一列FILT BLK中的最后一个FILT BLK，得到OFM的最后一个的输出结果。

由此可见，基于该第三数据加载方式，一次卷积运算所需的总的数据搬移量B _total＝B _Aγ+B _Kα。即IFM需要多次重复装载，FILT也需要装载多次。

综上，对于所述第一类数据装载方式，当一次卷积运算时，则在所述卷积运算时所需用到的所有输入特征图与装载于所述片上存储器中的权重值进行计算并输出对应的输出特征图的计算结果之后，再装载下一次卷积运算时所需用到的权重值，这里的一次卷积运算可以指输入特征图分块矩阵中的所有IFM BLK和卷积核分块矩阵中的一列FILT BLK所需进行的卷积运算。

例如对于图6中的(a)所示，在第一列FILT BLK

与所有的IFM BLK都进行卷积运算后，再加载下一次进行卷积运算所需的权重值，即第二列FILT BLK

综上上述三种数据加载过程，可以采用如下程序实现：

在本申请实施例中，需要按分块向所述片上存储器上加载IFM时，所述处理设备还可以确定特征图分块在切分方向上的大小，例如H方向上的大小H _a以及C方向上的大小C _a。

在本申请实施例中，为了降低数据搬移量，可以设置H _a和C _a尽可能的大。

在一些实施例中，H _a满足以下中的至少一项：

等于所述输入特征图在所述第一方向的数据量大小；

小于所述片上存储器的空间大小；

等于在输入特征图的所述第一方向上所述卷积计算电路能够并行处理的最大数据量。

在一种实现方式中，可以将H _a初始化为H _K，其中，H _K表示FILT在H方向上的大小，然后采用同特定的算法进行迭代处理，直至H _a＝H _A，或者刚好满足H _a小于所述片上存储器的空间大小，或者H _a达到在输入特征图的所述第一方向上所述卷积计算电路能够并行处理的最大数据量或合理值。

应理解，刚好满足H _a小于所述片上存储器的空间大小可以指若下一次迭代处理得到的H _a大于所述片上存储器的空间大小，则可以认为这一次迭代处理得到的H _a满足H _a小于所述片上存储器的空间大小，因此可以作为IFM BLK在H方向上的大小，即可以以H _a为单位在H方向上对IFM进行切分得到IFM BLK。

还应理解，在输入特征图的所述第一方向上所述卷积计算电路能够并行处理的合理值根据所述卷积计算电路的处理能力确定，例如，该合理值可以略小于在输入特征图的所述H方向上所述卷积计算电路能够并行处理的最大数据量，或者也可以为该处理能力所对应的典型值，经验值等。

在一些实施例中，C _a满足以下中的至少一项：

等于所述输入特征图在所述第三方向的数据量大小；

小于所述片上存储器的空间大小；

等于在输入特征图的所述第三方向上所述卷积计算电路能够并行处理的最大数据量。

在具体实现中，可以将C _a初始化为在IFM的C方向上卷积神经网络加速器能够并行处理的最大数据量，然后采用同特定的算法进行迭代处理，直至所述C _a满足C _a＝C _A，或者刚好满足C _a小于所述片上存储器的空间大小，或者C _a达到在输入特征图的所述第三方向上所述卷积计算电路能够并行处理的最大数据量或合理值。

应理解，刚好满足C _a小于所述片上存储器的空间大小可以指若下一次迭代处理得到的C _a大于所述片上存储器的空间大小，则可以认为这一次迭代处理得到的C _a满足C _a小于所述片上存储器的空间大小，因此可以作为IFM BLK在C方向上的大小，即可以以C _a为单位在C方向上对IFM进行切分得到IFM BLK。

还应理解，在输入特征图的C方向上所述卷积计算电路能够并行处理的合理值根据所述卷积计算电路的处理能力确定，例如，该合理值可以略小于在输入特征图的所述C方向上所述卷积计算电路能够并行处理的最大数据量，或者也可以为该处理能力所对应的典型值，经验值等。

第四数据装载方式和第五数据装载方式：

在本申请另一些实施例中，所述处理设备也可以根据所述片上存储器的空间大小是否足够装载FILT的总数据量，确定采用第四数据装载方式还是第五数据装载方式。

例如，若所述片上存储器的空间大小大于所述FILT的总数据量，即可以将FILT仅装载一次，将所述第四数据装载方式确定为所述目标数据装载方式；或者

若所述片上存储器的空间大小小于所述FILT的总数据量，即可以需要FILT装载多次，将所述第五数据装载方式确定为所述目标数据装载方式。

结合图6中的(d)，介绍基于该第四数据加载方式具体的加载过程。

并向所述片上存储器装载FILT BLK的第一列，即

进一步地，可以根据装载的第一行IFM BLK和第一列FILT BLK进行卷积运算，得到

在第二时钟周期内，向所述片上存储器装载第二列FILT BLK，即

此时，所述第一列FILT BLK和第一行IFM BLK都保留在片上存储器中，同时该第一行IFM BLK也保留在片上存储器中。

进一步地，可以基于根据装载的第一行IFM BLK和第二列FILT BLK进行卷积运算，得到

依次按列装载卷积核分块矩阵中的每列FILT BLK直至最后一列FILT BLK，此时，FILT的全部权重都保留在片上存储器中，并且，将FILT中的每列FILT BLK和片上存储器中缓存的该第一行IFM BLK都进行卷积运算，得到OMF的第一行输出结果，即

其后，向所述片上存储器装载第二行IFM BLK，即第二行IFM BLK覆盖第一行IFM BLK，即将所述第二行IFM BLK保留在片上存储器中，然后，依次将每列FILT BLK与该第二行IFM BLK进行卷积运算，得到OFM的第二行输出结果，即

继续执行上述步骤，直到装载到IFM的最后一行IFM BLK，并根据该最后一行IFM BLK和片上存储器中缓存中的每列FILT BLK进行卷积运算，得到OFM的最后一行输出结果，即

由此可见，基于该第四数据加载方式，进行一次卷积运算所需的总数据搬移量B _total＝B _A+B _K。即IFM和FILT都只需装载一次。

结合图6中的(e)，介绍基于该第四数据加载方式具体的加载过程。

并向所述片上存储器装载FILT BLK的第一列，即

在第二时钟周期内，向所述片上存储器装载第二列FILT BLK，所述第二列FILT BLK覆盖掉第一列FILT BLK，即在片上存储器中缓存有第一行IFM BLK和第二列FILT BLK。

进一步地，可以基于根据装载的第二列FILT BLK和第一行IFM BLK进行卷积运算，得到

采用上述类似方式向所述片上存储器中装载每列FILT BLK直至最后一列FILT BLK，并根据每列FILT BLK与第一行IFM BLK进行卷积运算，至此，得到OFM的第一行输出结果。

进一步地，向所述片上存储器加载第二行IFM BLK，将第二行IFM BLK覆盖第一行IFM BLK，该第二行IFM BLK保留在片上存储器中，然后依次将该γ列FILT BLK中的每列FILT BLK依次装载到片上存储器中与片上存储器中缓存的该第二行IFM BLK进行卷积运算，得到OFM的第二行输出结果。

继续执行上述类似步骤，直到装载到最后一行IFM BLK，然后依次将该γ列FILT BLK中的每列FILT BLK依次装载到片上存储器中与该最后一行IFM BLK进行卷积运算，得到OFM的最后一行输出结果。

由此可见，基于该第五数据加载方式，数据搬移量B _total＝B _A+B _Kα。即IFM需要装载一次，FILT需要装载多次，即可以复用IFM进行卷积运算。

对于上述第二类数据加载方式，当进行一次卷积运算时，在所述卷积运算时需用到的所有权重值与装载于所述片上存储器中的输入特征图进行计算并输出对应的输出特征图的计算结果之后，再装载下一次卷积运算时所需用到的输入特征图。这里的一次卷积运算可以指卷积核分块矩阵中的所有FILT BLK和输入特征图分块矩阵中的一行IFM BLK所需进行的卷积运算。

例如对于图6中的(d)所示，在第一行IFM BLK

与所有的FILT BLK都进行卷积运算后，再加载下一次进行卷积运算所需的输入特征图分块，即第二行IFM BLK。

综上该第四和第五数据加载方式，可以采用如下程序实现：

在本申请实施例中，需要按分块向所述片上存储器上加载IFM和FILT时，所述处理设备还可以确定特征图分块在切分方向上的大小，例如H方向上的大小H _a以及C方向上的大小C _a，以及卷积核分块在切分方向上的大小，例如C方向上的大小C _k以及N方向上的大小N _k。

在一些实施例中，所述C _a可以等于C _A，即特征图分块在C方向上的大小等于IFM在C方向上的大小，即IFM在C方向上不切分。

在一些实施例中，所述C _k可以等于C _K，即卷积核分块在C方向上的大小等于FILT在C方向上的大小，即FILT在C方向上不切分。

在其他实施例中，所述卷积核分块在C方向上的大小可以小于FILT在C方向上的大小，也就是说FILT在C方向上可以进行切分，或者说，可以分多次加载一列FILB BLK。

在一些实施例中，H _a满足以下中的至少一项：

等于所述输入特征图在所述第一方向的数据量大小；

小于所述片上存储器的空间大小；

在具体实现中，可以将H _a初始化为H _K，其中，H _K表示FILT在H方向上的大小，然后采用同特定的算法进行迭代处理，直至H _a＝H _A，或者刚好满足H _a小于所述片上存储器的空间大小，或者H _a达到在输入特征图的所述第一方向上所述卷积计算电路能够并行处理的最大数据量或合理值。

在一些实施例中，若确定采用所述第四数据装载方式，所述FILT BLK在N方向上的大小等于所述FILT在N方向上的大小，即FILT在N方向上不切分。或者若确定采用第五数据装载方式，所述FILT BLK在N方向上的大小等于卷积神经网络加速器能够输出的OFM在C方向上的最大值或合理值，其中，卷积神经网络加速器能够输出的OFM在C方向上的合理值的含义可以参考在输入特征图的所述第一方向上所述卷积计算电路能够并行处理的合理值的含义，这里不再赘述。

应理解，在本申请实施例对于卷积运算的时机不作具体限定，例如可以在装载完IFM中的每行IFM BLK之后将所述每行IFM BLK与一列FILT BLK进行卷积计算，或者，也可以每装载完一行IFM BLK，将该一行IFM BLK与已装载的一列FILT BLK进行卷积计算，或者也可以在装载第二行IFM BLK时，将装载的上一行IFM BLK与第一列FILT BLK进行卷积计算等。

应理解，本申请实施例的处理设备可以不具有实质的分块的分割操作，仅是在读取和计算时，按分块进行读取和计算。

应理解，在本申请实施例中，片上存储器可以是二维的，例如存储形式可以为4096×128b，输入特征图的存储(例如，读取还未进行卷积神经网络处理的数据或者经过处理得到的中间输出结果)可以是在2D空间上的扩展，具体可以为每个2D特征图分别引入一个地址，以实现3D空间的访问。

在本申请实施例中，利用卷积神经网络的FILT共享或IFM共享的特性，减少计算过程中的数据搬移，进而降低输入和输出数据的带宽，从而提高卷积计算的效率。

本申请实施例的技术方案可以应用于各种深度学习算法，例如卷积神经网络，但本申请实施例对此并不限定。

还应理解，本申请实施例的技术方案也可以应用于卷积运算，或者也可以应用于反卷积运算中，本申请实施例对此不作限定。

图7是根据本申请实施例的计算装置600的示意性框图。该装置600包括：

片上存储器610，用于缓存输入特征图和卷积核；

读取电路620，用于将所述输入特征图和卷积核从片外存储器读取到所述片上存储器中；

控制电路630，用于根据多种数据装载方式中的每种数据装载方式的数据搬移量，在所述多种数据装载方式中确定目标数据装载方式，并控制所述读取电路根据所述目标数据装载方式，将所述输入特征图和所述卷积核从所述片外存储器读取到所述片上存储器，其中，所述多种数据装载方式为向所述片上存储器装载所述输入特征图和所述卷积核的方式，所述每种数据装载方式的数据搬移量为将所述输入特征图和所述卷积核进行卷积运算所需搬移的总数据量；

卷积计算电路640，用于对所述片上存储器中的所述输入特征图和所述卷积核进行卷积计算，得到输出特征图。

其中，该片上存储器610，读取电路620，控制电路630和卷积计算电路640可以对应于图2中的片上存储器140，DMA130，控制电路110和运算电路120，具体实现参考前文的相关描述，为了简洁，这里不再赘述。

可选地，在一些实施例中，所述控制电路630还用于：

根据所述每种数据装载方式的数据搬移量，以及所述输入特征图的数据量，所述片上存储器的空间大小，所述卷积计算电路的处理能力和所述卷积核的数据量中的至少一项，在所述多种数据装载方式中确定所述目标数据装载方式。

可选地，在一些实施例中，所述多种数据装载方式包括第一类数据装载方式和/或第二类数据装载方式，其中，

基于所述第一类数据装载方式，所述读取电路只将所述卷积核中的权重值向所述片上存储器中装载一次，所述卷积计算电路复用所述卷积核中的权重值，以将所述卷积核中的权重值和所述输入特征图进行卷积运算；

基于所述第二类数据装载方式，所述读取电路只将所述输入特征图中的特征值向所述片上存储器中装载一次，所述卷积计算电路复用所述输入特征图，以将所述输入特征图与所述卷积核进行卷积运算。

可选地，在一些实施例中，所述读取电路620具体用于：

当进行一次卷积运算时，若所述目标数据装载方式是所述第一类数据装载方式，则在所述卷积运算时所需用到的所有输入特征图与装载于所述片上存储器中的权重值进行计算并输出对应的输出特征图的计算结果之后，再装载下一次卷积运算时所需用到的权重值；或者

当进行一次卷积运算时，若所述目标数据装载方式是所述第二类数据装载方式，则在所述卷积运算时需用到的所有权重值与装载于所述片上存储器中的输入特征图进行计算并输出对应的输出特征图的计算结果之后，再装载下一次卷积运算时所需用到的输入特征图。

可选地，在一些实施例中，所述第一类数据装载方式包括第一数据装载方式和/或第二数据装载方式，其中，基于所述第一数据装载方式，所述读取电路只将所述输入特征图中的特征值向所述片上存储器中装载一次；基于所述第二数据装载方式，所述读取电路将所述输入特征图中的特征值向所述片上存储器中装载多次；

所述第二类数据装载方式包括第四数据装载方式和/或第五数据装载方式，其中，基于所述第四数据装载方式，所述读取电路只将所述卷积核中的权重值向所述片上存储器中装载一次；基于所述第五数据装载方式，所述读取电路将所述卷积核中的权重值向所述片上存储器中装载多次。

可选地，在一些实施例中，所述多种数据装载方式还包括第三数据装载方式，基于所述第三数据装载方式，所述读取电路将所述卷积核中的权重值向所述片上存储器中装载多次，以及将所述输入特征图中的特征值向所述片上存储器中装载多次。

可选地，在一些实施例中，在一次卷积运算中，所述输入特征图包括α行β列的特征图分块阵列，所述特征图分块阵列中的特征图分块是将所述输入特征图沿第一方向和第三方向切分得到的，其中，所述α为所述输入特征图沿所述第一方向的分块个数，所述β为所述输入特征图沿所述第三方向的分块个数，其中α、β为整数；

所述卷积核包括β行γ列的卷积核分块阵列，所述卷积核分块阵列中的卷积核分块是将所述卷积核沿第三方向和第四方向切分得到的，其中，所述β为所述卷积核沿所述第三方向的分块个数，所述γ为所述卷积核沿所述第四方向的分块个数，其中γ为整数。

可选地，在一些实施例中，所述控制电路630还用于：

若所述片上存储器能够缓存一次卷积运算所需的所述特征图分块阵列的总数据量和所述卷积核分块阵列在所述第三方向上的数据量，将所述第一数据装载方式确定为所述目标数据装载方式，并控制所述读取电路将进行所述卷积运算时所需的所有特征图分块阵列同时装载于所述片上存储器，以及将进行所述卷积运算时在所述第三方向上的卷积计算相关联的所述卷积核分块阵列同时装载于所述片上存储器；或者

若所述片上存储器不能缓存一次卷积运算所需的所述特征图分块阵列的总数据量，但能够缓存所述卷积核分块阵列在第三方向上的数据量，将所述第二数据装载方式确定为所述目标数据装载方式，并控制所述读取电路将进行所述卷积运算时所需的特征图分块阵列依次装载于所述片上存储器，以及将进行所述卷积运算时在所述第三方向上的卷积计算相关联的所述卷积核分块阵列同时装载于所述片上存储器；或者

若所述片上存储器不能缓存一次卷积运算所需的所述特征图分块阵列的总数据量，并且不能缓存一次卷积运算所需的所述卷积核分块阵列在第三方向上的数据量，将所述第三数据装载方式确定为所述目标数据装载方式，并控制所述读取电路将进行所述卷积运算时所需的所述特征图分块阵列依次装载于所述片上存储器，以及将进行所述卷积运算时所需的所述卷积核分块阵列依次装载于所述片上存储器。

可选地，在一些实施例中，所述控制电路630还用于：

确定特征图分块在所述第一方向的大小以及在所述第三方向上的大小。

可选地，在一些实施例中，所述特征图分块在所述第一方向的大小满足以下中的至少一项：

等于所述输入特征图在所述第一方向的数据量大小；

小于所述片上存储器的空间大小；

等于在所述输入特征图的所述第一方向上所述卷积计算电路能够并行处理的最大数据量。

可选地，在一些实施例中，所述特征图分块在所述第三方向的大小满足以下中的至少一项：

等于所述输入特征图在所述第三方向的数据量大小；

小于所述片上存储器的空间大小；

等于在所述输入特征图的所述第三方向上所述卷积计算电路能够并行处理的最大数据量。

可选地，在一些实施例中，所述控制电路630具体用于：

若所述片上存储器的空间大小大于或等于一次卷积运算所需的卷积核的总数据量，将所述第四数据装载方式确定为所述目标数据装载方式，并控制所述读取电路将进行所述卷积运算时所需的所有卷积核分块阵列同时装载于所述片上存储器，以及将进行所述卷积运算时在所述第三方向上的卷积计算相关联的所述特征图分块阵列同时装载于所述片上存储器；或者

若所述片上存储器的空间大小小于一次卷积运算所需的所述卷积核的总数据量，将所述第五数据装载方式确定为所述目标数据装载方式，并控制所述读取电路将所述卷积核分块阵列依次装载于所述片上存储器，以及将进行所述卷积运算时在所述第三方向上的卷积计算相关联的所述特征图分块阵列同时装载于所述片上存储器。

可选地，在一些实施例中，所述控制电路630还用于：

若所述第四数据装载方式为所述目标数据装载方式，确定所述卷积核分块在所述第四方向上的大小为所述卷积核在所述第四方向上的大小；或者

若所述第五数据装载方式为所述目标数据装载方式，确定所述卷积核分块在所述第四方向上的大小为所述卷积计算电路所能输出的输出特征图的第三方向上的最大数据量。

可选地，在一些实施例中，所述控制电路630还用于：

确定所述卷积核分块在所述第三方向上的大小为所述卷积核在所述第三方向上的大小。

可选地，在一些实施例中，所述控制电路630还用于：

确定所述特征图分块在所述第三方向上的大小为所述输入特征图在所述第三方向上的大小；以及

确定所述特征图分块在所述第一方向上的大小满足以下中的至少一项：

等于所述输入特征图在所述第一方向的数据量大小；

小于所述片上存储器的空间大小；

可选地，在一些实施例中，所述第一方向为高度方向，所述第三方向为通道方向，所述第四方向为卷积核的个数方向；或

所述第一方向为宽度方向，所述第三方向为通道方向，所述第四方向为卷积核的个数方向。

在一些实施例中，本申请实施例的技术方案可以应用于可移动设备中。该可移动设备可以是无人机、无人驾驶船、自动驾驶车辆或机器人等，本申请实施例对此并不限定。

图8是根据本申请实施例的可移动设备700的示意性框图。该可移动设备700可以包括动力系统710、传感系统720和处理器730。

在一些实施例中，该可移动设备700可以为无人机、无人驾驶船、自动驾驶车辆或机器人等，本申请实施例对此并不限定。

以可移动设备700为无人机为例，无人机的动力系统可以包括电子调速器(简称为电调)、螺旋桨以及与螺旋桨相对应的电机。电机连接在电子调速器与螺旋桨之间，电机和螺旋桨设置在对应的机臂上；电子调速器用于接收控制系统产生的驱动信号，并根据驱动信号提供驱动电流给电机，以控制电机的转速。电机用于驱动螺旋桨旋转，从而为无人机的飞行提供动力。

传感系统720包括用于采集图像的传感器，例如摄像头722等，可以用于测量无人机的姿态信息，即无人机在空间的位置信息和状态信息，例如，三维位置、三维角度、三维速度、三维加速度和三维角速度等。

传感系统720例如可以包括陀螺仪、电子罗盘、惯性测量单元(Inertial Measurement Unit，IMU)、视觉传感器、全球定位系统(Global Positioning System，GPS)、气压计、空速计等传感器中的至少一种。

其中，该摄像头722还可以称为摄像组件，或者摄像头可以为无人机包括的用于获取图像帧的摄像组件的一部分。

其中，该处理器730可以用于实现上述方法实施例中的计算方法，为了简洁，在此不再赘述。

可选地，该处理器730可以置于飞行控制器中。该处理器730可以由多个处理器组成，例如一个处理器可以用于控制无人机的飞行，一个处理器可以用于进行本申请实施例提到的卷积神经网络的处理。

可选地，该可移动设备还可以包括片外存储器740，存储向处理器730输入的数据，以及可以存储处理器730输出的数据。

应理解，上述对于可移动设备700的各组成部件的划分和命名仅仅是示例性的，并不应理解为对本申请实施例的限制。

还应理解，可移动设备700还可以包括图8中未示出的其他部件，本申请实施例对此并不限定。

应理解，本文中的具体的例子只是为了帮助本领域技术人员更好地理解本申请实施例，而非限制本申请实施例的范围。

还应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，本说明书中描述的各种实施方式，既可以单独实施，也可以组合实施，本申请实施例对此并不限定。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种计算装置，其特征在于，包括：

片上存储器，用于缓存输入特征图和卷积核；

读取电路，用于将所述输入特征图和所述卷积核从片外存储器读取到所述片上存储器中；

控制电路，用于根据多种数据装载方式中的每种数据装载方式的数据搬移量，在所述多种数据装载方式中确定目标数据装载方式，并控制所述读取电路根据所述目标数据装载方式，将所述输入特征图和所述卷积核从所述片外存储器读取到所述片上存储器，其中，所述多种数据装载方式为向所述片上存储器装载所述输入特征图和所述卷积核的方式，所述每种数据装载方式的数据搬移量为将所述输入特征图和所述卷积核进行卷积运算所需搬移的总数据量；

卷积计算电路，用于对所述片上存储器中的所述输入特征图和所述卷积核进行卷积计算，得到输出特征图。
根据权利要求1所述的装置，其特征在于，所述控制电路还用于：

根据所述每种数据装载方式的数据搬移量，以及所述输入特征图的数据量，所述片上存储器的空间大小，所述卷积计算电路的处理能力和所述卷积核的数据量中的至少一项，在所述多种数据装载方式中确定所述目标数据装载方式。
根据权利要求1或2所述的装置，其特征在于，所述多种数据装载方式包括第一类数据装载方式和/或第二类数据装载方式，其中，

基于所述第一类数据装载方式，所述读取电路只将所述卷积核中的权重值向所述片上存储器中装载一次，所述卷积计算电路复用所述卷积核中的权重值，以将所述卷积核中的权重值和所述输入特征图进行卷积运算；

基于所述第二类数据装载方式，所述读取电路只将所述输入特征图中的特征值向所述片上存储器中装载一次，所述卷积计算电路复用所述输入特征图，以将所述输入特征图与所述卷积核进行卷积运算。
根据权利要求3所述的装置，其特征在于，所述读取电路具体用于：

当进行一次卷积运算时，若所述目标数据装载方式是所述第一类数据装载方式，则在所述卷积运算时所需用到的所有输入特征图与装载于所述片上存储器中的权重值进行计算并输出对应的输出特征图的计算结果之后，再装载下一次卷积运算时所需用到的权重值；或者

当进行一次卷积运算时，若所述目标数据装载方式是所述第二类数据装载方式，则在所述卷积运算时需用到的所有权重值与装载于所述片上存储器中的输入特征图进行计算并输出对应的输出特征图的计算结果之后，再装载下一次卷积运算时所需用到的输入特征图。
根据权利要求3或4所述的装置，其特征在于，

所述第一类数据装载方式包括第一数据装载方式和/或第二数据装载方式，其中，基于所述第一数据装载方式，所述读取电路只将所述输入特征图中的数据向所述片上存储器中装载一次；基于所述第二数据装载方式，所述读取电路将所述输入特征图中的数据向所述片上存储器中装载多次；

所述第二类数据装载方式包括第四数据装载方式和/或第五数据装载方式，其中，基于所述第四数据装载方式，所述读取电路只将所述卷积核中的权重值向所述片上存储器中装载一次；基于所述第五数据装载方式，所述读取电路将所述卷积核中的权重值向所述片上存储器中装载多次。
根据权利要求5所述的装置，其特征在于，所述多种数据装载方式还包括第三数据装载方式，基于所述第三数据装载方式，所述读取电路将所述卷积核中的权重值向所述片上存储器中装载多次，以及将所述输入特征图中的数据向所述片上存储器中装载多次。
根据权利要求6所述的装置，其特征在于，在一次卷积运算中，所述输入特征图包括α行β列的特征图分块阵列，所述特征图分块阵列中的特征图分块是将所述输入特征图沿第一方向和第三方向切分得到的，其中，所述α为所述输入特征图沿所述第一方向的分块个数，所述β为所述输入特征图沿所述第三方向的分块个数，其中α、β为整数；

所述卷积核包括β行γ列的卷积核分块阵列，所述卷积核分块阵列中的卷积核分块是将所述卷积核沿第三方向和第四方向切分得到的，其中，所述β为所述卷积核沿所述第三方向的分块个数，所述γ为所述卷积核沿所述第四方向的分块个数，其中γ为整数。
根据权利要求7所述的装置，其特征在于，所述控制电路还用于：

若所述片上存储器能够缓存一次卷积运算所需的所述特征图分块阵列的总数据量和所述卷积核分块阵列在所述第三方向上的数据量，将所述第一数据装载方式确定为所述目标数据装载方式，并控制所述读取电路将进行所述卷积运算时所需的所有特征图分块阵列同时装载于所述片上存储器，以及将进行所述卷积运算时在所述第三方向上的卷积计算相关联的所述卷积核分块阵列同时装载于所述片上存储器；或者

若所述片上存储器不能缓存一次卷积运算所需的所述特征图分块阵列的总数据量，但能够缓存所述卷积核分块阵列在第三方向上的数据量，将所述第二数据装载方式确定为所述目标数据装载方式，并控制所述读取电路将进行所述卷积运算时所需的特征图分块阵列依次装载于所述片上存储器，以及将进行所述卷积运算时在所述第三方向上的卷积计算相关联的所述卷积核分块阵列同时装载于所述片上存储器；或者

若所述片上存储器不能缓存一次卷积运算所需的所述特征图分块阵列的总数据量，并且不能缓存一次卷积运算所需的所述卷积核分块阵列在第三方向上的数据量，将所述第三数据装载方式确定为所述目标数据装载方式，并控制所述读取电路将进行所述卷积运算时所需的所述特征图分块阵列依次装载于所述片上存储器，以及将进行所述卷积运算时所需的所述卷积核分块阵列依次装载于所述片上存储器。
根据权利要求7或8所述的装置，其特征在于，所述控制电路还用于：

确定特征图分块在所述第一方向的大小以及在所述第三方向上的大小。
根据权利要求9所述的装置，其特征在于，所述特征图分块在所述第一方向的大小满足以下中的至少一项：

等于所述输入特征图在所述第一方向的数据量大小；

小于所述片上存储器的空间大小；

等于在所述输入特征图的所述第一方向上所述卷积计算电路能够并行处理的最大数据量。
根据权利要求9或10所述的装置，其特征在于，所述特征图分块在所述第三方向的大小满足以下中的至少一项：

等于所述输入特征图在所述第三方向的数据量大小；

小于所述片上存储器的空间大小；

等于在输入特征图的所述第三方向上所述卷积计算电路能够并行处理的最大数据量。
根据权利要求7所述的装置，其特征在于，所述控制电路具体用于：

若所述片上存储器的空间大小大于或等于一次卷积运算所需的卷积核的总数据量，将所述第四数据装载方式确定为所述目标数据装载方式，并控制所述读取电路将进行所述卷积运算时所需的所有卷积核分块阵列同时装载于所述片上存储器，以及将进行所述卷积运算时在所述第三方向上的卷积计算相关联的所述特征图分块阵列同时装载于所述片上存储器；或者

若所述片上存储器的空间大小小于一次卷积运算所需的所述卷积核的总数据量，将所述第五数据装载方式确定为所述目标数据装载方式，并控制所述读取电路将所述卷积核分块阵列依次装载于所述片上存储器，以及将进行所述卷积运算时在所述第三方向上的卷积计算相关联的所述特征图分块阵列同时装载于所述片上存储器。
根据权利要求12所述的装置，其特征在于，所述控制电路还用于：

若所述第四数据装载方式为所述目标数据装载方式，确定所述卷积核分块在所述第四方向上的大小为所述卷积核在所述第四方向上的大小；或者

若所述第五数据装载方式为所述目标数据装载方式，确定所述卷积核分块在所述第四方向上的大小为所述卷积计算电路所能输出的输出特征图的第三方向上的最大数据量。
根据权利要求12或13所述的装置，其特征在于，所述控制电路还用于：

确定所述卷积核分块在所述第三方向上的大小为所述卷积核在所述第三方向上的大小。
根据权利要求12至14中任一项所述的装置，其特征在于，所述控制电路还用于：

确定所述特征图分块在所述第三方向上的大小为所述输入特征图在所述第三方向上的大小；以及

确定所述特征图分块在所述第一方向上的大小满足以下中的至少一项：

等于所述输入特征图在所述第一方向的数据量大小；

小于所述片上存储器的空间大小；

等于在所述输入特征图的所述第一方向上所述卷积计算电路能够并行处理的最大数据量。
根据权利要求7至15中任一项所述的装置，其特征在于，

所述第一方向为高度方向，所述第三方向为通道方向，所述第四方向为卷积核的个数方向；或

所述第一方向为宽度方向，所述第三方向为通道方向，所述第四方向为卷积核的个数方向。
一种计算方法，其特征在于，应用于卷积计算的装置，所述计算方法包括：

根据多种数据装载方式中的每种数据装载方式的数据搬移量，在所述多种数据装载方式中确定目标数据装载方式，其中，所述多种数据装载方式为向所述装置的片上存储器装载所述输入特征图和所述卷积核的方式，所述每种数据装载方式的数据搬移量为将所述输入特征图和所述卷积核进行卷积运算所需搬移的总数据量；

根据所述目标数据装载方式，将所述输入特征图和所述卷积核从所述片外存储器读取到所述装置的片上存储器；

对所述片上存储器中的所述输入特征图和所述卷积核进行卷积计算，得到输出特征图。
根据权利要求17所述的方法，其特征在于，所述根据多种数据装载方式中的每种数据装载方式的数据搬移量，在所述多种数据装载方式中确定目标数据装载方式，包括：

根据所述每种数据装载方式的数据搬移量，以及所述输入特征图的数据量，所述片上存储器的空间大小，所述装置中的卷积计算电路的处理能力和所述卷积核的数据量中的至少一项，在所述多种数据装载方式中确定所述目标数据装载方式。
根据权利要求17或18所述的方法，其特征在于，所述多种数据装载方式包括第一类数据装载方式和/或第二类数据装载方式，其中，

基于所述第一类数据装载方式，只将所述卷积核中的权重值向所述片上存储器中装载一次，复用所述卷积核中的权重值以将所述卷积核中的权重值和所述输入特征图进行卷积运算；

基于所述第二类数据装载方式，只将所述输入特征图中的特征值向所述片上存储器中装载一次，复用所述输入特征图以将所述输入特征图与所述卷积核进行卷积运算。
根据权利要求19所述的方法，其特征在于，所述根据所述目标数据装载方式，将所述输入特征图和所述卷积核从所述片外存储器读取到所述装置的片上存储器，包括：

当进行一次卷积操作时，若所述目标数据装载方式是所述第一类数据装载方式，则在所述卷积运算时所需用到的所有输入特征图与装载于所述片上存储器中的权重值进行计算并输出对应的输出特征图的计算结果之后，再装载下一次卷积运算时所需用到的权重值；或者

当进行一次卷积运算时，若所述目标数据装载方式是所述第二类数据装载方式，则在所述卷积运算时需用到的所有权重值与装载于所述片上存储器中的输入特征图进行计算并输出对应的输出特征图的计算结果之后，再装载下一次卷积运算时所需用到的输入特征图。
根据权利要求19或20所述的方法，其特征在于，

所述第一类数据装载方式包括第一数据装载方式和/或第二数据装载方式，其中，基于所述第一数据装载方式，只将所述输入特征图中的数据向所述片上存储器中装载一次；基于所述第二数据装载方式，将所述输入特征图中的数据向所述片上存储器中装载多次；

所述第二类数据装载方式包括第四数据装载方式和/或第五数据装载方式，其中，基于所述第四数据装载方式，只将所述卷积核中的权重值向所述片上存储器中装载一次；基于所述第五数据装载方式，将所述卷积核中的权重值向所述片上存储器中装载多次。
根据权利要求21所述的方法，其特征在于，所述多种数据装载方式还包括第三数据装载方式，基于所述第三数据装载方式，将所述卷积核中的权重值向所述片上存储器中装载多次，以及将所述输入特征图中的数据向所述片上存储器中装载多次。
根据权利要求22所述的方法，其特征在于，在一次卷积运算中，所述输入特征图包括α行β列的特征图分块阵列，所述特征图分块阵列中的特征图分块是将所述输入特征图沿第一方向和第三方向切分得到的，其中，所述α为所述输入特征图沿所述第一方向的分块个数，所述β为所述输入特征图沿所述第三方向的分块个数，其中α、β为整数；

所述卷积核包括β行γ列的卷积核分块阵列，所述卷积核分块阵列中的卷积核分块是将所述卷积核沿第三方向和第四方向切分得到的，其中，所述β为所述卷积核沿所述第三方向的分块个数，所述γ为所述卷积核沿所述第四方向的分块个数，其中γ为整数。
根据权利要求23所述的方法，其特征在于，所述根据多种数据装载方式中的每种数据装载方式的数据搬移量，在所述多种数据装载方式中确定目标数据装载方式，包括：

若所述片上存储器能够缓存一次卷积运算所需的所述特征图分块阵列的总数据量和所述卷积核分块阵列在所述第三方向上的数据量，将所述第一数据装载方式确定为所述目标数据装载方式；或者

若所述片上存储器不能缓存一次卷积运算所需的所述特征图分块阵列的总数据量，但能够缓存所述卷积核分块阵列在第三方向上的数据量，将所述第二数据装载方式确定为所述目标数据装载方式；或者

若所述片上存储器不能缓存一次卷积运算所需的所述特征图分块阵列的总数据量，并且不能缓存一次卷积运算所需的所述卷积核分块阵列在第三方向上的数据量，将所述第三数据装载方式确定为所述目标数据装载方式。
根据权利要求24所述的方法，其特征在于，所述根据所述目标数据装载方式，将所述输入特征图和所述卷积核从所述片外存储器读取到所述装置的片上存储器，包括：

若所述目标数据装载方式为所述第一数据装载方式，将进行所述卷积运算时所需的所有特征图分块阵列同时装载于所述片上存储器，以及将进行所述卷积运算时在所述第三方向上的卷积计算相关联的所述卷积核分块阵列同时装载于所述片上存储器；或

若所述目标数据装载方式为所述第二数据装载方式，将进行所述卷积运算时所需的特征图分块阵列依次装载于所述片上存储器，以及将进行所述卷积运算时在所述第三方向上的卷积计算相关联的所述卷积核分块阵列同时装载于所述片上存储器；或

若所述目标数据装载方式为所述第三数据装载方式，将进行所述卷积运算时所需的所述特征图分块阵列依次装载于所述片上存储器，以及将进行所述卷积运算时所需的所述卷积核分块阵列依次装载于所述片上存储器。
根据权利要求24或25所述的方法，其特征在于，所述方法还包括：

确定所述特征图分块在所述第一方向的大小以及在所述第三方向上的大小。
根据权利要求26所述的方法，其特征在于，所述特征图分块在所述第一方向的大小满足以下中的至少一项：

等于所述输入特征图在所述第一方向的数据量大小；

小于所述片上存储器的空间大小；

等于在所述输入特征图的所述第一方向上所述装置中的卷积计算电路能够并行处理的最大数据量。
根据权利要求26或27所述的方法，其特征在于，所述特征图分块在所述第三方向的大小满足以下中的至少一项：

等于所述输入特征图在所述第三方向的数据量大小；

小于所述片上存储器的空间大小；

等于在所述输入特征图的所述第三方向上所述装置中的卷积计算电路能够并行处理的最大数据量。
根据权利要求23所述的方法，其特征在于，所述方法还包括：

若所述片上存储器的空间大小大于或等于一次卷积运算所需的卷积核的总数据量，将所述第四数据装载方式确定为所述目标数据装载方式；或者

若所述片上存储器的空间大小小于一次卷积运算所需的所述卷积核的总数据量，将所述第五数据装载方式确定为所述目标数据装载方式。
根据权利要求29所述的方法，其特征在于，所述根据所述目标数据装载方式，将所述输入特征图和所述卷积核从所述片外存储器读取到所述装置的片上存储器，包括：

若所述目标数据装载方式为所述第四数据装载方式，将进行所述卷积运算时所需的所有卷积核分块阵列同时装载于所述片上存储器，以及将进行所述卷积运算时在所述第三方向上的卷积计算相关联的所述特征图分块阵列同时装载于所述片上存储器；或

若所述目标数据装载方式为所述第五数据装载方式，将进行所述卷积运算时在所述第三方向上的卷积计算相关联的所述特征图分块阵列同时装载于所述片上存储器。
根据权利要求29或30所述的方法，其特征在于，所述方法还包括：

若所述第四数据装载方式为所述目标数据装载方式，确定所述卷积核分块在所述第四方向上的大小为所述卷积核在所述第四方向上的大小；或者

若所述第五数据装载方式为所述目标数据装载方式，确定所述卷积核分块在所述第四方向上的大小为所述装置中的卷积计算电路所能输出的输出特征图的第三方向上的最大数据量。
根据权利要求29至31中任一项所述的方法，其特征在于，所述方法还包括：

确定所述卷积核分块在所述第三方向上的大小为所述卷积核在所述第三方向上的大小。
根据权利要求29至32中任一项所述的方法，其特征在于，所述方法还包括：

确定所述特征图分块在所述第三方向上的大小为所述输入特征图在所述第三方向上的大小；以及

确定所述特征图分块在所述第一方向上的大小满足以下中的至少一项：

等于所述输入特征图在所述第一方向的数据量大小；

小于所述片上存储器的空间大小；

等于在所述输入特征图的所述第一方向上所述装置中的卷积计算电路能够并行处理的最大数据量。
根据权利要求23至33中任一项所述的方法，其特征在于，

所述第一方向为高度方向，所述第三方向为通道方向，所述第四方向为卷积核的个数方向；或

所述第一方向为宽度方向，所述第三方向为通道方向，所述第四方向为卷积核的个数方向。
一种处理器，其特征在于，包括根据权利要求1至15中任一项所述的计算装置。
一种可移动设备，其特征在于，包括：

根据权利要求1至15中任一项所述的计算装置；或者，

根据权利要求35所述的处理器。