WO2021134519A1

WO2021134519A1 - 在神经网络推理中实现数据同步的装置和方法

Info

Publication number: WO2021134519A1
Application number: PCT/CN2019/130638
Authority: WO
Inventors: 王岩岩; 冯源; 吴祖光; 周鹏
Original assignee: 华为技术有限公司
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-08
Also published as: CN113169989A; EP4075343A1; EP4075343A4

Abstract

本申请提供了在神经网络推理中实现数据同步的装置和方法。涉及人工智能(Artificial Intelligence，AI)领域，具体涉及神经网络推理技术。该装置包括：存储器，用于存储第一特征图；神经网络处理器NPU，用于：从所述存储器中获取所述第一特征图，所述第一特征图包含M个分块，M为正整数；利用异步方式对所述M个分块分别执行神经网络模型中至少两层的推理计算以得到M个推理结果，该异步方式是指对每个分块执行完所述神经网络模型中一层的推理计算所得到的中间结果不进行数据同步，并且继续对所述中间结果执行下一层的推理计算；将所述M个推理结果进行数据同步以得到同步后的数据。由于该NPU在执行完神经网络模型中至少两层的推理计算之后才进行数据同步，这使得在神经网络推理过程中进行数据同步的次数较少，进而产生较少的数据搬迁开销。

Description

在神经网络推理中实现数据同步的装置和方法

技术领域

本发明实施例涉及神经网络推理技术，尤其涉及一种在神经网络推理中实现数据同步的装置和方法。

背景技术

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

计算机视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断，和军事等领域中各种智能/自主系统中不可分割的一部分，它是一门关于如何运用照相机/摄像机和计算机来获取我们所需的，被拍摄对象的数据与信息的学问。形象地说，就是给计算机安装上眼睛(照相机/摄像机)和大脑(算法)用来代替人眼对目标进行识别、跟踪和测量等，从而使计算机能够感知环境。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。总的来说，计算机视觉就是用各种成像系统代替视觉器官获取输入信息，再由计算机来代替大脑对这些输入信息完成处理和解释。计算机视觉的最终研究目标就是使计算机能像人那样通过视觉观察和理解世界，具有自主适应环境的能力。

神经网络作为计算机视觉的一个重要方法，在目标分类、检测等领域应用广泛。输入图像数据，通过训练好的神经网络，计算出所需要的语义信息，例如物体的类别等，这个过程为神经网络推理(Neural Network Inference)。

图1为一种对图像数据执行神经网络推理的架构图，该架构图包括相机(或称摄像头)、图像信号处理器(Image Signal Processor，ISP)和神经网络处理器(Neural network Processing Unit，NPU)，具体地，NPU对相机采集的原始数据进行推理包括如下步骤：

步骤1：相机采集原始数据(Raw Data)，由于原始数据和相机滤镜相关，数据格式对肉眼和神经网络皆不友好，且包含较多的噪声数据和不必要的信息，因此，相机将原始数据发给ISP以进行图像处理。

步骤2：ISP在接收到原始数据之后，对原始数据进行相关处理，包括去噪、色域转换、锐化和压缩等步骤，将原始数据转换为图像数据；

步骤3：NPU读取ISP处理后的图像数据，并且加载训练好的神经网络模型，进行神经网络推理，从而得到推理结果。

在上述步骤3中，NPU在执行神经网络推理的过程中，需要对推理过程中产生的多个中间数据进行数据同步，然后基于同步后的数据继续执行后面的推理过程，所谓数据同步是指对产生的数据不继续执行下一步的操作，而是等多个数据到齐之后，将这个多个数据作为整体再执行下一步的操作。由于数据同步点的选择会影响到数据搬迁开销，因此，NPU在执行神经网络推理的过程中，选择何时进行数据同步将会影响到数据搬迁开销，进而影响NPU执行神经网络推理的性能。

发明内容

本申请提供一种在神经网络推理中实现数据同步的装置和方法，能够降低在存储器中进行数据搬迁的开销。

第一方面，本申请实施例提供一种在神经网络推理中实现数据同步的装置，包括：存储器，用于存储第一特征图；神经网络处理器NPU，用于：从该存储器中获取所述第一特征图，该第一特征图包含M个分块，M为正整数；利用第一异步方式对该M个分块分别执行神经网络模型中至少两层的推理计算以得到M个推理结果，该第一异步方式是指对每个分块执行完神经网络模型中一层的推理计算所得到的中间结果不进行数据同步，并且继续对该中间结果执行下一层的推理计算；将M个推理结果进行数据同步以得到同步后的数据。其中，第一特征图可以是输入图像或者其他的初始输入，也可以是神经网络推理过程中产生的特征图，分块是第一特征图中的一部分。

由上述第一方面可知，该NPU在执行完神经网络模型中至少两层的推理计算之后才进行数据同步，这使得在神经网络推理过程中进行数据同步的次数较少，进而产生较少的数据搬迁开销。

在一种可能的实现方式中，该第一特征图是输入图像，该装置还包括：数字图像信号处理器ISP，用于对摄像头采集的原始图像进行图像处理，并将图像处理结果作为该输入图像存储在该存储器；

相应地，该NPU从该存储器中获取该第一特征图时，具体用于：从该存储器中获取该输入图像。

上述的实现方式中，由于原始图像包含较多的噪声数据和不必要的信息，因此需要ISP对原始图像执行图像处理以得到适用于进行神经网络推理的输入图像。

在一种可能的实现方式中，该ISP对摄像头采集的原始图像进行图像处理，并将图像处理结果作为该输入图像存储在该存储器时，具体用于：将该原始图像划分成M个原始图像块；对该M个原始图像块依次进行图像处理以得到M个图像块；将该M个图像块作为该M个分块异步存入该存储器，其中，该M个图像块为该图像处理结果。由上述实现方式可知，ISP每生成一个图像块，则将生成的图像块存入该存储器，因此，ISP不对图像块执行数据同步过程，即异步处理，这可以降低因为数据同步而引入的数据搬迁开销，提高数据处理效率。

在一种可能的实现方式中，该ISP对摄像头采集的原始图像进行图像处理，并将图像处理结果作为该输入图像存储在该存储器时，具体用于：将该原始图像按块进行图像处理以得到多个图像块；将该多个图像块进行数据同步以得到该图像处理结果，并将该图像处理结果存储在该存储器。

由上述实现方式可知，该ISP对生成的多个图像块进行数据同步，即同步处理。

在一种可能的实现方式中，针对该ISP执行上述同步处理，在该NPU还用于：将获取的第一特征图划分成该M个分块。

在一种可能的实现方式中，该NPU包括多个处理器核，该多个处理器核共享一个缓存，该NPU还用于：将该同步后的数据存储在该存储器和该缓存中的一个。

在一种可能的实现方式中，该NPU将该同步后的数据存储在该存储器和该缓存中的一个，具体用于：将该同步后的数据的大小和该缓存的大小进行比较；在该同步后的数据的大小大于该缓存的大小时，将该同步后的数据存储在该存储器；在该同步后的数据的大小不大于该缓存的大小时，将该同步后的数据存储在该缓存。

由上述实现方式可知，NPU生成的同步后的数据可能存储在L2 cache而非存储器，这避免了NPU生成的所有同步后的数据全部存储在存储器，减少了在存储器中进行数据搬迁的开销。

在一种可能的实现方式中，该NPU还用于：从该存储器或该缓存中取出该同步后的数据；将该同步后的数据作为第二特征图执行该神经网络模型中一层或多层的推理计算；其中，该神经网络模型中一层或多层是该神经网络模型中所述至少两层的后续层。

在一种可能的实现方式中，该NPU还用于：利用该异步方式对该第二特征图中所包含的多个分块分别执行该神经网络模型中一层或多层的推理计算。

在一种可能的实现方式中，M的取值和第二特征图中所包含的多个分块的数量不同。

在一种可能的实现方式中，第二特征图所包含的多个分块中相邻的两个分块之间存在数据依赖。

在一种可能的实现方式中，该M个分块中相邻的两个分块之间存在数据依赖。

第二方面，本申请实施例提供一种在神经网络推理中实现数据同步的装置，包括：包括至少一个处理器核的计算引擎，用于：获取第一特征图，该第一特征图包含M个分块，M为正整数；利用异步方式对该M个分块分别执行神经网络模型中至少两层的推理计算以得到M个推理结果，该异步方式是指对每个分块执行完该神经网络模型中一层的推理计算所得到的中间结果不进行数据同步，并且继续对该中间结果执行下一层的推理计算；将该M个推理结果进行数据同步以得到同步后的数据。

在一种可能的实现方式中，该装置还包括缓存，该至少一个处理器核共享该缓存，该计算引擎还用于：将该同步后的数据存储在该缓存。

在一种可能的实现方式中，该计算引擎具体用于：在该同步后的数据的大小不大于该缓存的大小时，将该同步后的数据存储在该缓存。

在一种可能的实现方式中，该NPU还用于：从该缓存中取出该同步后的数据；将该同步后的数据作为第二特征图执行该神经网络模型中一层或多层的推理计算；其中，该神经网络模型中一层或多层是该神经网络模型中所述至少两层的后续层。

第三方面，本申请实施例提供一种在神经网络推理中实现数据同步的方法，该方法包括：神经网络处理器NPU获取第一特征图，该第一特征图包含M个分块，M为正整数；该NPU利用异步方式对该M个分块分别执行神经网络模型中至少两层的推理计算以得到M个推理结果，该异步方式是指对每个分块执行完该神经网络模型中一层的推理计算所得到的中间结果不进行数据同步，并且继续对该中间结果执行下一层的推理计算；该NPU将该M个推理结果进行数据同步以得到同步后的数据。

在一种可能的实现方式中，该第一特征图是输入图像，在该NPU获取第一特征图之前，该方法还包括：数字信号处理器ISP对摄像头采集的原始图像进行图像处理，并将图像处理结果作为该输入图像存储在存储器，该存储器为该NPU的外部存储器；

相应地，该NPU获取第一特征图，包括：该NPU从该存储器中获取该输入图像。

在一种可能的实现方式中，该ISP对摄像头采集的原始图像进行图像处理，并将图像处理结果作为该输入图像存储在存储器，包括：该ISP将该原始图像划分成M个原始图像块；该ISP对该M个原始图像块依次进行图像处理以得到M个图像块；该ISP将该M个图像块作为该M个分块异步存入该存储器，其中，该M个图像块为该图像处理结果。

在一种可能的实现方式中，该ISP对摄像头采集的原始图像进行图像处理，并将图像处理结果作为该输入图像存储在存储器，包括：该ISP将该原始图像按块进行图像处理以得到多个图像块；将该多个图像块进行数据同步以得到该图像处理结果，并将该图像处理结果存储在该存储器。

在一种可能的实现方式中，该NPU包括多个处理器核，该多个处理器核共享一个缓存，该方法还包括：该NPU将该同步后的数据存储在存储器和该缓存中的一个，该存储器为该NPU的外部存储器。

在一种可能的实现方式中，该方法还包括：该NPU从该存储器或该缓存中取出该同步后的数据；该NPU将该同步后的数据作为第二特征图执行该神经网络模型中一层或多层的推理计算；其中，该神经网络模型中一层或多层是该神经网络模型中所述至少两层的后续层。

需要说明的是，第三方面提供的实现数据同步的方法可以视为第一方面提供的实现数据同步的装置所执行的方法，第三方面提供的方法中的具体实现方式及相应技术效果可以参见第一方面中的相关描述，此处不再赘述。

第四方面，本申请实施例提供一种在神经网络推理中实现数据同步的装置，该装置包括用于执行第三方面中的方法的模块。

第五方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行第三方面中的方法。

第六方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第三方面中的方法。

第七方面，提供一种芯片，该芯片包括处理器与数据接口，该处理器通过该数据接口读取指令，执行第三方面中的方法。

附图说明

图1是一种对图像数据执行神经网络推理的架构图；

图2是本申请实施例提供的一种卷积神经网络CNN的结构示意图；

图3是本申请实施例提供的一种在神经网络推理中实现数据同步的系统架构图；

图4是本申请实施例提供的在神经网络推理中实现数据同步的流程图；

图5是本申请实施例的相邻分块的数据依赖图；

图6是本申请实施例提供的处理器核的示意性框图；

图7是本申请实施例提供的一种在神经网络推理中实现数据同步的流程图；

图8是本申请实施例提供的一种在神经网络推理中实现数据同步的装置结构图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

由于本申请实施例涉及大量神经网络的应用，为了便于理解，下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x _s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W _s为x _s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(Deep Neural Network，DNN)，也称多层神经网络，可以理解为具有很多层隐含层的神经网络，这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，则系数W和偏移向量

的数量也就很多了。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是：第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)卷积神经网络

卷积神经网络(CNN，Convolutional Neuron Network)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者特征图(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(4)循环神经网络(RNN,Recurrent Neural Networks)

RNN是用来处理序列数据的。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，而对于每一层层内之间的各个节点是无连接的。这种普通的神经网络虽然解决了很多难题，但是却仍然对很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐含层本层之间的节点不再无连接而是有连接的，并且隐含层的输入不仅包括输入层的输出还包括上一时刻隐含层的输出。理论上，RNN能够对任何长度的序列数据进行处理。对于RNN的训练和对传统的CNN或DNN的训练一样。同样使用误差反向传播算法，不过有一点区别：即，如果将RNN进行网络展开，那么其中的参数，如W，是共享的；而如上举例上述的传统神经网络却不是这样。并且在使用梯度下降算法中，每一步的输出不仅依赖当前步的网络，还依赖前面若干步网络的状态。该学习算法称为基于时间的反向传播算法Back propagation Through Time(BPTT)。

(5)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

本申请实施例提供的神经网络可以是卷积神经网络CNN。如前文的基础概念介绍所述，卷积神经网络是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元可以对输入其中的图像作出响应。

如图2所示，CNN200可以包括输入层210，卷积层/池化层220(其中池化层为可选的)，以及神经网络层230。

卷积层/池化层220：

卷积层：

如图2所示卷积层/池化层220可以包括如示例221-226层，举例来说：在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，在如图2中220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层230：

在经过卷积层/池化层220的处理后，卷积神经网络200还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层220只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络200需要利用神经网络层230来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层230中可以包括多层隐含层(如图2所示的231、232至23n)以及输出层240，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等。

在神经网络层230中的多层隐含层之后，也就是整个卷积神经网络200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络200的前向传播(如图2由210至240方向的传播为前向传播)完成，反向传播(如图2由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络200的损失，及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图2所示的卷积神经网络200仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在。

本申请的主要思想在于NPU利用异步方式对特征图中多个分块分别执行神经网络模型中至少两层的推理计算，然后再对多个推理结果进行数据同步，即解决NPU在神经网络模型推理过程中何时进行数据同步的问题，如下将结合图3说明一个针对图像进行神经网络推理的具体场景，需要说明的是，本申请NPU执行神经网络模型的推理计算并不限定在图像场景，凡是可以应用神经网络模型进行推理计算的场景都可以适用于本申请。

下面将结合图像处理场景介绍本申请实施例提供的系统架构。

参见图3，本发明实施例提供了一种系统架构100。该系统架构100包括相机101、 ISP102、存储器103和NPU104，其中，NPU104包括计算引擎1041和二级缓存(L2 cache)1042，L2 cache 1042为计算引擎1041中所包含的多个处理器核所共享的cache，L2 cache的大小一般远小于存储器103的大小。

相机101(或称摄像头)采集原始图像，并将采集的原始图像发送给ISP进行图像处理。

具体地，相机101可以将原始图像按照行/列的方式依次发送给ISP102，例如，相机101采集了一个大小为720*1280p的原始图像，按照行/列的方式每次发送大小为20*1280p的原始图像块，共发送36个原始图像块，进而完成原始图像的发送。

ISP102在接收到原始图像之后，对原始图像进行图像处理，然后将图像处理结果存储在存储器103中，并且NPU会将该图像处理结果作为输入图像以执行神经网络模型的推理计算，其中，该输入图像也可以理解成是特征图(feature map)。

具体地，ISP可以按照如下两种方式来处理：

1)ISP在接收到原始图像之后，将原始图像划分成M ₁个原始图像块，对M ₁个原始图像块依次进行图像处理以得到对应的M ₁个图像块，这M ₁个图像块组成图像处理结果，然后将这M ₁个图像块异步存入存储器103，这意味着ISP每生成一个图像块，则将生成的图像块存入存储器103，即ISP无需对这M ₁个图像块进行数据同步过程，此时M ₁个图像块可能分布在存储器103的不同存储区域，也可能分布在存储器103的连续存储区域。

NPU从存储器中依次获取这M ₁个图像块，即图像处理结果，并将M ₁个图像块作为输入图像以执行推理计算，并且每个图像块可以看作是该输入图像的分块，因此，该输入图像包含M ₁个分块，即ISP中原始图像所划分的原始图像块的数量和NPU执行推理计算的输入图像所包含的分块的数量相同，都是M ₁。

2)ISP在接收到原始图像之后，然后对该原始图像按块进行图像处理以得到多个图像块，然后将这多个图像块进行数据同步，再将同步后的数据存入存储器103，此时这多个图像块分布在存储器103的连续存储区域。该种情况下，ISP将多个图像块进行数据同步以得到图像处理结果，并将该图像处理结果存储在存储器103，然后NPU从存储器103中获取该图像处理结果作为输入图像，NPU在执行推理计算时再将该输入图像划分成M ₁个分块。此时，ISP中原始图像划分的块的数量和NPU执行推理计算的输入图像所划分的分块的数量M ₁之间不相关，即可以相等也可以不相等。

由上可知，在上述两种方式中，NPU执行推理计算的输入图像都包括M ₁个分块。

NPU104从存储器103中获取该输入图像，该输入图像包含M ₁个分块，对这M ₁个分块分别进行第1阶段(stage1)所有层的推理计算以得到对应的M ₁个推理结果，然后将这M ₁个推理结果进行数据同步，以得到第1阶段同步后的数据；其中，第1阶段的推理计算包含神经网络模型中一层或多层的推理计算，每个分块进行第1阶段的推理计算得到一个对应的推理结果。

需要说明的是，第1阶段同步后的数据是一个特征图，后面会对该特征图执行第2阶段的推理计算，当然上述每个推理结果其实也可以理解成是特征图或者特征图的一部分。

NPU104在获取第1阶段同步后的数据之后，将第1阶段同步后的数据的大小和L2cache的大小进行比较，如果第1阶段同步后的数据的大小大于L2 cache的大小，则将第1阶段同步后的数据存放在存储器103；如果第1阶段同步后的数据的大小不大于L2 cache的大小，则将第1阶段同步后的数据存放在L2 cache。当第1阶段同步后的数据存放在 L2 cache时，可以减少在存储器中进行数据搬迁的开销。

NPU104从存储器103或者L2 cache中取出第1阶段同步后的数据，将第1阶段同步后的数据作为特征图进行第2阶段(stage2)所有层的推理计算，与上述第1阶段的推理计算方式相同，在执行第2阶段的推理计算过程中，特征图也按照分块的方式进行推理计算，具体地，该特征图被划分为M ₂个分块，对这M ₂个分块分别进行第2阶段的推理计算以得到对应的M ₂个推理结果，然后将这M ₂个推理结果进行数据同步，以得到第2阶段同步后的数据；同样地，第2阶段的推理计算也包含该神经网络模型中一层或多层的推理计算。

NPU104在获取第2阶同步后的数据之后，也将其大小和L2 cache的大小进行比较，从而确定将第2阶段同步后的数据存放在存储器103或者L2 cache，具体可以参考上述对第1阶段同步后的数据的存放方式，此处不再赘述。

以此类推，NPU104采用与上述第1阶段和上述第2阶段相同的推理计算方式执行后续每个阶段的推理计算，从而完成N个阶段(stageN)的推理计算，即完成神经网络模型中所有层的推理计算，其中，第N个阶段的推理计算的输出是语义信息，比如图像识别的结果等。

需要说明的是，上述N个阶段中，每个阶段的推理计算包含神经网络模型中一层或多层的推理计算，且每个阶段的推理计算所包含的神经网络的层数和其他阶段的推理计算所包含的神经网络的层数可以相同，也可以不同。

存储器103为NPU104的外部存储器，存储器103可以为双倍数据率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random Access Memory，DDR SDRAM)、高带宽存储器(High Bandwidth Memory，HBM)或其他可读可写的存储器。

为了更清楚的说明NPU104在N个阶段执行推理计算的过程，图4为本申请实施例提供的一种在神经网络推理中实现数据同步的流程，其执行主体为NPU，具体地，该流程包括：

S401、对第i阶段的特征图所包含的M _i个分块分别执行第i阶段的推理计算，以得到M _i个推理结果；

其中，1≤i≤N，i的初始值为1，即从第1阶段开始进行推理计算，直至执行完第N阶段的推理计算。

S402、对M _i个推理结果进行数据同步以得到同步后的数据；

S403、将该同步后的数据的大小和L2 cache进行比较，如果该同步后的数据的大小大于L2 cache的大小，则执行S404；如果该同步后的数据的大小不大于L2 cache的大小，则执行S405；

S404、将该同步后的数据存入存储器；

S405、将该同步后的数据存入L2 cache；

S406、判断i是否为N，如果i不等于N，即i小于N，则执行S407；如果i等于N，则执行S408；

S407、设置i＝i+1，并且转到S401；

S408、推理计算结束。

需要说明的是，在不影响方案实现的前提下，上述步骤之间的执行顺序可以适当的调换，本申请对此不做限制。

由上可知，NPU在执行完每个阶段的推理计算之后才进行数据同步，即按照阶段的推理结果来进行数据同步，由于一般每个阶段的推理计算包含神经网络模型中多层的推理计算，即NPU在每执行完神经网络模型中多层的推理之后才进行一次数据同步，这使得在神经网络推理过程中进行数据同步的次数较少，进而产生较少的数据搬迁开销，从而使得NPU执行神经网络推理的性能较高。

如下将对每个阶段的推理计算过程进行具体描述，以N个阶段中第i阶段为例来进行说明。

第i阶段推理计算可以包含神经网络模型中一层或多层的推理计算，如果第i阶段包含神经网络模型中一层的推理计算，则对第i阶段获取的特征图进行一层神经网络推理计算，具体地，将第i阶段获取的特征图所包含的M _i个分块依次进行一层神经网络推理计算以得到M _i个推理结果，然后对这M _i个推理结果进行数据同步以得到第i阶段同步的数据；

如果第i阶段包含神经网络模型中多层的推理计算，则对第i阶段获取的特征图进行多层神经网络推理计算，具体地，将第i阶段获取的特征图所包含的M _i个分块依次完成第i阶段的推理计算，即对其中一个分块执行第i阶段所有层的神经网络推理之后，再对与该分块相邻的下一个块执行第i阶段所有层的神经网络推理，直至特征图中所包含的M _i个分块都执行第i阶段所有层的神经网络计算，进而得到M _i个推理结果，然后对这M _i个推理结果进行数据同步以得到第i阶段同步的数据；

进一步，利用异步方式对特征图中每个分块执行第i阶段所有层的推理计算，其中，该异步方式是指对每个分块执行完神经网络模型中一层的推理计算所得到的中间结果不进行数据同步，并且继续对该中间结果执行下一层的推理计算，直至执行完第i阶段所包含的所有层的推理计算；其中，每个分块在每层产生的中间结果可以被存储在L2 cache中，再从L2 cache中取出该中间结果以执行下一层的推理计算。由于中间结果没有存储在存储器中，而是存储在L2 cache中，因此，避免了在存储器中进行数据搬迁。

针对上述第i阶段推理计算过程的具体实现，需要说明如下几点：

1)数据依赖：在第i阶段的推理计算过程中，特征图会被划分为M _i个分块，然后按照分块依次完成第i阶段中所包含的各层的推理计算，其中，相邻的两个分块之间存在数据依赖，即存在重合数据。

比如，图5示意了三个相邻的分块A、B和C，分块A包含第0行到第4行数据，分块B包含第4行到第8行数据，分块C包含第8行到第12行数据，分块A的边缘部分，即第4行数据在分块B中，因此，分块A和分块B之间存在数据依赖，第4行数据是重合数据；分块B的边缘部分，即第8行数据在分块C中，因此，分块B和分块C之间存在数据依赖，第8行数据是重合数据；

2)L2 cache的大小一般较小，在执行一个阶段的推理计算中，该阶段获取的特征图的大小一定，如果该特征图所包含的分块的数量M比较大，即该特征图所包含的分块的数量比较多，则每个分块的大小较小，相应地，每个分块在每层推理的中间结果比较小，则中间结果可以存放在L2 cache中；反之，如果M比较小，即该特征图所包含的分块的数量比较少，则每个分块的大小较大，相应地，每个分块在每层推理的中间结果比较大，则中间结果无法存放在L2 cache中。因此，为了保证该阶段获取的特征图中每个分块在每层推理的中间结果能够存放在L2 cache中，需要对分块数量M选取合适的值；

3)在不同的阶段，获取的特征图的大小不同，因此，为了确保在每个阶段，每个分块在每层推理所产生的中间结果都可以存放在L2 cache中，需要对每个阶段获取的特征图所划分的分块的数量M分别设置一个合适的值，并且，在不同的阶段，M的取值可以相同，也可以不同。关于如何确定每个阶段M的取值，后文将会做进一步说明。

由上可知，NPU在执行上述整个推理计算过程中，L2 cache可以存放两类数据：

1)一个阶段同步后的数据，并且该同步后的数据的大小不大于L2 cache。随着神经网络层数的递增，越往后的阶段所产生的同步后的数据的大小越小，因此，在若干个阶段的推理计算后产生的同步后的数据可以存放在L2 cache；

2)在执行一个阶段推理计算过程中，获取的特征图所划分的分块在每层推理所产生的中间结果。

由于NPU在执行整个推理计算过程中，L2 cache可以存放上述两类数据，减少了存储器的存储负担，进而减少在存储器中进行数据搬迁的开销。

针对一个具体的神经网络模型，其所包含的神经网络层数是固定的，假设将这些神经网络层数分成N个阶段，即N个推理阶段，由于每个阶段同步后的数据才可能存放在存储器，每个推理阶段内部产生的中间结果不会存放在存储器，因此，N的取值越小，整个推理计算过程中产生的同步后的数据越少，即同步数据的次数越少，引起数据搬迁的开销越小，但是，由于N的取值越小，则每个阶段所包含的神经网络模型的层数越多，这会导致在每个阶段获取的特征图中M个分块之间的数据依赖增加，甚至是呈指数增加，进而增加每个阶段神经网络推理计算的计算量。因此，N的取值并非越小越好，需要确定一个合适的N值来实现数据搬迁开销和计算量之间的平衡。

由上可知，M和N的取值会影响到整个神经网络模型推理的性能，因此，如何确定N的值以及在每个阶段获取的特征图所划分的分块数量M的值是重要的。

针对一个确定的神经网络模型，为了求取适合该神经网络模型的M值(即M ₁到M _N这N个值)和N值，本申请提出建立一个关于时间的代价函数J，该代价函数J用于指示ISP进行图像处理的时间和NPU执行整个神经网络模型推理计算的时间的总和，即端到端的总时间，也可以称作端到端总时延。

具体地，J＝T1(M ₁)+T2(M _i,N,L _i)+T3(M _i,N,L _i)，其中：

T1(M1)用于指示ISP对1个原始图像块进行图像处理的时间，且T1(M ₁)受原始图像所划分的原始图像块的数量M ₁影响，M ₁也是第1阶段获取的特征图(即输入图像)所包含的分块的数量。

例如，

其中，τ表示ISP处理整个原始图像的时间，这个时间可以通过计算或者按照ISP流水的时间来确定。

T2(Mi N,Li)用于指示NPU执行从第1阶段(Stage1)到第N阶段(StageN)这N个阶段的推理计算的时间的总和，其中，第i个阶段的推理计算时间是指第i个阶段获取的特征图所有分块执行该阶段神经网络模型所有层数的计算时间的和，1≤i≤N；且T2(M _i,N,Li)受M _i，N和Li影响，其中，M _i用于指示第i阶段获取的特征图所划分的分块的数量，L _i用于指示第i阶段中首层神经网络在整个神经网络模型中的层数，比如，L ₂＝3，L ₃＝6，则表明第2阶段中首层神经网络在整个神经网络模型中处于第3层，这意味着第1阶段包含2层神经网络，并且是整个神经网络模型的前两层网络；第3阶段中首层神经网络在整个神经网络模型中处于第6层，这意味着第1阶段和第2阶段共包含5层神经网络，由于第1阶段包含2层神经网络，则第2阶段包含4层神经网络。因此，由N和L _i即可确定N个阶段中每个阶段所包含的神经网络层数，即N个阶段神经网络层数的分布情况；

例如，

其中，P表示NPU的功率,Cycles(l,m,i)表示第i阶段获取的特征图的第m个分块在整个神经网络模型第L层进行卷积运算所需要的理论周期(cycle)数，进一步，Cycles(l,m,i)批处理大小(batch size)、第m个分块的大小、卷积核大小、NPU上计算单元的数量等确定，本申请对Cycles(l,m,i)具体计算方式不再进一步展开。

T3(M _i,N,L _i)用于指示NPU执行从第1阶段(Stage1)到第N阶段(StageN)这N个阶段的推理计算过程中在存储设备中进行数据搬运所产生的时间，且T3(M _i,N,L _i)也受M _i，N和L _i影响，进一步，T3由批处理大小(batch size)、第m个分块的大小、卷积核大小、NPU上计算单元的数量等确定，本申请对于T3的计算方式不再进一步展开；

上述关于时间的代价函数J是一个非线性函数，该J函数包含多个未知变量，比如N，M _i和L _i等，设置这些未知变量满足一定的约束条件，比如，1≤i≤N，1≤N≤神经网络模型中总的下采样次数，M _i的取值保证每个分块在每层推理的中间结果的大小≤L2 cache的大小等，因此，通过求解一组满足上述约束条件的变量(N，M _i，L _i)的值，使得该目标函数J的值最小，即端到端的时延最低，此时求得的该组变量(N，M _i，L _i)的值即是能够保证整个神经网络模型推理的性能最优的一组值。

因此，针对一个确定的神经网络模型，基于上述非线性函数J求取一组合适的(N，M _i，L _i)的值，即确定了该神经网络模型总共划分的阶段、每个阶段中获取的特征图所划分的分块的数量和每个阶段包含该神经网络模型的哪几层，然后ISP和NPU按照求取的该组值分别执行ISP处理和整个神经网络的推理过程。

例如，当确定M ₁＝10，在ISP按照异步方式处理中，ISP将原始图像划分成10个图像块，并且NPU在第1阶段获取的特征图也包含10个分块，在ISP按照同步方式处理中，ISP将原始图像划分的图像块的数量不受10的约束，NPU将第1阶段获取的特征图划分成10个分块；当确定M ₂＝15，则NPU将第2阶段获取的特征图划分成15个分块。

由图3所示可知，NPU104包括计算引擎1041和L2 cache 1042，计算引擎1041中可以包括一个或者多个处理器核(图3以多个处理器核为示例)，计算引擎1041用于执行神经网络模型的推理计算，而神经网络模型的推理计算的核心又是由处理器核来实现，处理器核负责执行标量、向量和张量相关的计算，处理器核也可以称作AI处理器核，简称AI core。

图6示例的给出了一个处理器核的实现架构，处理器核包括矩阵计算单元、向量计算单元、标量计算单元和累加器，矩阵计算单元和累加器主要完成与矩阵相关的运算；向量计算单元负责执行向量运算，例如向量乘、向量加、指数运算和对数运算等；标量计算单元主要负责各类型的标量数据运算和程序的流程控制。

进一步，为了配合处理器核中数据的传输和搬运，处理器核中还分布式地设置一系列的片上缓冲区和寄存器，比如输入缓冲区和输出缓冲区，标量计算单元周围配置寄存器，比如通用寄存器和专用寄存器。

本申请实施例提供一种在神经网络推理中实现数据同步的方法，具体包括：

S701、NPU获取第一特征图，该第一特征图包含M个分块，M为正整数；

S702、NPU利用异步方式对该M个分块分别执行神经网络模型中至少两层的推理计算以得到M个推理结果；

其中，该异步方式是指对每个分块执行完该神经网络模型中一层的推理计算所得到的中间结果不进行数据同步，并且继续对该中间结果执行下一层的推理计算；

S703、NPU将该M个推理结果进行数据同步以得到同步后的数据。

进一步，在第一特征图是输入图像时，上述方法还包括：

S700、数字信号处理器ISP对摄像头采集的原始图像进行图像处理，并将图像处理结果作为该输入图像存储在存储器；其中，该存储器为该NPU的外部存储器；

具体地，ISP可以采用如下两种方式来对原始图像进行图像处理：

1)该ISP将该原始图像划分成M个原始图像块，该ISP对该M个原始图像块依次进行图像处理以得到M个图像块，然后该ISP将这M个图像块作为M个分块异步存入该存储器，其中，这M个图像块为图像处理结果。

2)该ISP将该原始图像按块进行图像处理以得到多个图像块，将该多个图像块进行数据同步以得到图像处理结果，并将该图像处理结果存储在该存储器。

对应地，S701中NPU获取该第一特征图包括：NPU从该存储器中获取该输入图像。

进一步，该NPU包括多个处理器核，该多个处理器核共享一个缓存，上述方法还包括：

S704、该NPU将该同步后的数据存储在存储器和该缓存中的一个，其中，该存储器为该NPU的外部存储器。

进一步，上述方法还包括：

S705、该NPU从该存储器或该缓存中取出该同步后的数据；

S706、该NPU将该同步后的数据作为第二特征图执行该神经网络模型中一层或多层的推理计算；其中，该神经网络模型中一层或多层是该神经网络模型中所述至少两层的后续层。

具体地，该NPU利用上述异步方式对该第二特征图中所包含的多个分块分别执行该神经网络模型中一层或多层的推理计算。

上述M的取值和第二特征图中所包含的多个分块的数量不同；第二特征图所包含的多个分块中相邻的两个分块之间存在数据依赖；该M个分块中相邻的两个分块之间存在数据依赖。

需要说明的是，上述数据同步的方法的具体实现可以参考前述装置实施例的相关实现，为描述方便，不再对数据同步的方法做进一步描述。

本申请实施例提供还一种在神经网络推理中实现数据同步的装置，具体包括：

获取模块801，用于获取第一特征图，该第一特征图包含M个分块，M为正整数；推理模块802，用于利用异步方式对该M个分块分别执行神经网络模型中至少两层的推理计算以得到M个推理结果；其中，该异步方式是指对每个分块执行完该神经网络模型中一层的推理计算所得到的中间结果不进行数据同步，并且继续对该中间结果执行下一层的推理计算；

同步模块803，用于将该M个推理结果进行数据同步以得到同步后的数据。

进一步，在第一特征图是输入图像时，实现数据同步的装置还包括：

图像处理模块800，用于对摄像头采集的原始图像进行图像处理，并将图像处理结果作为该输入图像。

进一步，该推理模块802，还用于：

将该同步后的数据作为第二特征图执行该神经网络模型中一层或多层的推理计算；其中，该神经网络模型中一层或多层是该神经网络模型中所述至少两层的后续层。具体地，利用上述异步方式对该第二特征图中所包含的多个分块分别执行该神经网络模型中一层或多层的推理计算。

需要说明的是，上述数据同步的装置的具体实现可以参考前述装置实施例的相关实现，为描述方便，不再对数据同步的装置做进一步描述。

需要说明的是，上述装置类示意图，如图3、图6和图8等，仅是本发明实施例提供的一种结构示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种在神经网络推理中实现数据同步的装置，其特征在于，包括：

存储器，用于存储第一特征图；

神经网络处理器NPU，用于：

从所述存储器中获取所述第一特征图，所述第一特征图包含M个分块，M为正整数；

利用异步方式对所述M个分块分别执行神经网络模型中至少两层的推理计算以得到M个推理结果，所述异步方式是指对每个分块执行完所述神经网络模型中一层的推理计算所得到的中间结果不进行数据同步，并且继续对所述中间结果执行下一层的推理计算；

将所述M个推理结果进行数据同步以得到同步后的数据。
根据权利要求1所述的装置，其特征在于，所述第一特征图是输入图像，所述装置还包括：

数字图像信号处理器ISP，用于对摄像头采集的原始图像进行图像处理，并将图像处理结果作为所述输入图像存储在所述存储器；

所述NPU从所述存储器中获取所述第一特征图时，具体用于：

从所述存储器中获取所述输入图像。
根据权利要求2所述的装置，其特征在于，所述ISP对摄像头采集的原始图像进行图像处理，并将图像处理结果作为所述输入图像存储在所述存储器时，具体用于：

将所述原始图像划分成M个原始图像块；

对所述M个原始图像块依次进行图像处理以得到M个图像块；

将所述M个图像块作为所述M个分块异步存入所述存储器，其中，所述M个图像块为所述图像处理结果。
根据权利要求2所述的装置，其特征在于，所述ISP对摄像头采集的原始图像进行图像处理，并将图像处理结果作为所述输入图像存储在所述存储器时，具体用于：

将所述原始图像按块进行图像处理以得到多个图像块；

将所述多个图像块进行数据同步以得到所述图像处理结果，并将所述图像处理结果存储在所述存储器。
根据权利要求4所述的装置，其特征在于，所述NPU还用于：

将获取的所述第一特征图划分成所述M个分块。
根据权利要求1-5任一所述的装置，其特征在于，所述NPU包括多个处理器核，所述多个处理器核共享一个缓存，所述NPU还用于：

将所述同步后的数据存储在所述存储器和所述缓存中的一个。
根据权利要求6所述的装置，其特征在于，所述NPU将所述同步后的数据存储在所述存储器和所述缓存中的一个，具体用于：

将所述同步后的数据的大小和所述缓存的大小进行比较；

在所述同步后的数据的大小大于所述缓存的大小时，将所述同步后的数据存储在所述存储器；

在所述同步后的数据的大小不大于所述缓存的大小时，将所述同步后的数据存储在所述缓存。
根据权利要求6或7所述的装置，其特征在于，所述NPU还用于：

从所述存储器或所述缓存中取出所述同步后的数据；

将所述同步后的数据作为第二特征图执行所述神经网络模型中一层或多层的推理计算。
根据权利要求8所述的装置，其特征在于，所述NPU在将所述同步后的数据作为第二特征图执行所述神经网络中一层或多层的推理计算时，用于：

利用所述异步方式对所述第二特征图中所包含的多个分块分别执行所述神经网络模型中一层或多层的推理计算。
根据权利要求1-9任一所述的装置，其特征在于，所述M个分块中相邻的两个分块之间存在数据依赖。
一种在神经网络推理中实现数据同步的装置，其特征在于，包括：

包括至少一个处理器核的计算引擎，用于：

获取第一特征图，所述第一特征图包含M个分块，M为正整数；

利用异步方式对所述M个分块分别执行神经网络模型中至少两层的推理计算以得到M个推理结果，所述异步方式是指对每个分块执行完所述神经网络模型中一层的推理计算所得到的中间结果不进行数据同步，并且继续对所述中间结果执行下一层的推理计算；

将所述M个推理结果进行数据同步以得到同步后的数据。
根据权利要求11所述的装置，其特征在于，所述装置还包括缓存，所述至少一个处理器核共享所述缓存，所述计算引擎还用于：

将所述同步后的数据存储在所述缓存。
根据权利要求12所述的装置，其特征在于，所述计算引擎具体用于：

在所述同步后的数据的大小不大于所述缓存的大小时，将所述同步后的数据存储在所述缓存。
根据权利要求12或13所述的装置，其特征在于，所述NPU还用于：

从所述缓存中取出所述同步后的数据；

将所述同步后的数据作为第二特征图执行所述神经网络模型中一层或多层的推理计算。
根据权利要求11-14任一所述的装置，其特征在于，所述M个分块中相邻的两个分块之间存在数据依赖。
一种在神经网络推理中实现数据同步的方法，其特征在于，包括：

神经网络处理器NPU获取第一特征图，所述第一特征图包含M个分块，M为正整数；

所述NPU利用异步方式对所述M个分块分别执行神经网络模型中至少两层的推理计算以得到M个推理结果，所述异步方式是指对每个分块执行完所述神经网络模型中一层的推理计算所得到的中间结果不进行数据同步，并且继续对所述中间结果执行下一层的推理计算；

所述NPU将所述M个推理结果进行数据同步以得到同步后的数据。
根据权利要求16所述的方法，其特征在于，所述第一特征图是输入图像，在所述NPU获取第一特征图之前，所述方法还包括：

数字信号处理器ISP对摄像头采集的原始图像进行图像处理，并将图像处理结果作为所述输入图像存储在存储器，所述存储器为所述NPU的外部存储器；

所述NPU获取第一特征图，包括：

所述NPU从所述存储器中获取所述输入图像。
根据权利要求17所述的方法，其特征在于，所述ISP对摄像头采集的原始图像进行图像处理，并将图像处理结果作为所述输入图像存储在存储器，包括：

所述ISP将所述原始图像划分成M个原始图像块；

所述ISP对所述M个原始图像块依次进行图像处理以得到M个图像块；

所述ISP将所述M个图像块作为所述M个分块异步存入所述存储器，其中，所述M个图像块为所述图像处理结果。
根据权利要求17所述的方法，其特征在于，所述ISP对摄像头采集的原始图像进行图像处理，并将图像处理结果作为所述输入图像存储在存储器，包括：

所述ISP将所述原始图像按块进行图像处理以得到多个图像块；

将所述多个图像块进行数据同步以得到所述图像处理结果，并将所述图像处理结果存储在所述存储器。
根据权利要求16-19任一所述的方法，其特征在于，所述NPU包括多个处理器核，所述多个处理器核共享一个缓存，所述方法还包括：

所述NPU将所述同步后的数据存储在存储器和所述缓存中的一个，所述存储器为所述NPU的外部存储器。
根据权利要求20所述的方法，其特征在于，还包括：

所述NPU从所述存储器或所述缓存中取出所述同步后的数据；

所述NPU将所述同步后的数据作为第二特征图执行所述神经网络模型中一层或多层的推理计算。
根据权利要求16-21任一所述的方法，其特征在于，所述M个分块中相邻的两个分块之间存在数据依赖。
一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行权利要求16-22任一所述的方法。
一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行权利要求16-22任一所述的方法。
一种芯片，该芯片包括处理器与数据接口，该处理器通过该数据接口读取指令，执行权利要求16-22任一所述的方法。