WO2021249192A1

WO2021249192A1 - 图像处理方法及装置、机器视觉设备、电子设备和计算机可读存储介质

Info

Publication number: WO2021249192A1
Application number: PCT/CN2021/096062
Authority: WO
Inventors: 彭海勇; 曹常锋; 刘新阳; 李火林; 田万廷
Original assignee: 中兴通讯股份有限公司
Priority date: 2020-06-12
Filing date: 2021-05-26
Publication date: 2021-12-16
Also published as: CN113807998A

Abstract

本申请实施例涉及计算机技术领域，并提供一种图像处理方法及装置、机器视觉设备、电子设备和计算机可读存储介质。图像处理方法包括：对待检测的图像进行预处理获得输入特征图，并提取输入特征图的第一深度并行度和纵向并行度；依据第一深度并行度和纵向并行度对输入特征图进行向量化处理，获得N个输入向量数据，其中，N为大于或等于1的整数；以及，使用N个输入向量数据与卷积核同时进行卷积运算，获得输出特征图。

Description

图像处理方法及装置、机器视觉设备、电子设备和计算机可读存储介质

技术领域

本申请涉及计算机技术领域。

背景技术

当前，基于现场可编程逻辑门阵列(Field Programmable Gate Array，FPGA)的深度卷积神经网络加速器架构大致可分为3种：基于运算模块的加速器架构、基于网络映射的加速器架构和基于脉冲阵列的加速器架构。

基于运算模块的加速器架构的关注点在卷积神经网络(Convolutional Neural Networks，CNN)的基本运算单元(如卷积、池化、全连接等)上，通过一定的设计得到若干个通用的计算模块，这些计算模块可以进行灵活的组合，以实现不同深浅、不同结构网络的正向推断过程。基于网络映射的加速器架构需要将层间计算结果缓存到芯片外部，使得带宽压力增加，若尝试按照网络结构将所有层映射到FPGA电路中，则运算时只需要从芯片外部加载输入数据以及将网络最终计算结果回存到芯片外部，可避免中间结果的缓存，实现CNN层内和层间流水结构，因此具有很高的效率，但当网络层数较深时，会受到硬件资源的限制。基于脉冲阵列的加速器架构能实现较高的时钟频率和较少的逻辑资源消耗，但在对CNN模型进行部署时，脉冲阵列处理单元(Processing Elements，PE)的配置较为复杂，不易实现。并且单纯的硬件设计受带宽、资源的限制，导致性能提升有限。

发明内容

本申请实施例的一个方面提供一种图像处理方法，包括：对待检测的图像进行预处理获得输入特征图，并提取输入特征图的第一深度并行度和纵向并行度；依据第一深度并行度和纵向并行度对输入特征图进行向量化处理，获得N个输入向量数据，其中，N为大于或等于1的整数；以及，使用N个输入向量数据与卷积核同时进行卷积运算，获得输出特征图(Output Feature Map)。

本申请实施例的另一方面提供一种图像处理装置，包括：预处理模块，被配置为对待检测的图像进行预处理获得输入特征图，并提取输入特征图的第一深度并行度和纵向并行度；以及，向量化处理模块，被配置为根据第一深度并行度和纵向并行度对输入特征图进行向量化处理，获得N个输入向量数据，其中，N为大于或等于1的整数；卷积运算模块，被配置为使用N个输入向量数据与卷积核同时进行卷积运算，获得输出特征图。

本申请实施例的再一方面提供一种机器视觉设备，包括：图像获取装置，被配置为获取待检测的图像，其中，待检测的图像包括待确定的目标物体；以及，图像处理装置，被配置为根据本申请实施例提供的图像处理方法对待检测的图像进行检测，并确定待确定的目标物体的类别。

本申请实施例的又一方面提供一种电子设备，包括：一个或多个处理器；存储器，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本申请实施例提供的图像处理方法的至少一个步骤。

本申请实施例的又一方面提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请实施例提供的图像处理方法的至少一个步骤。

附图说明

图1示出本申请实施例提供的图像处理方法的一种流程示意图。

图2示出本申请实施例提供的利用乘累加树进行卷积加速运算的方法的一种流程示意图。

图3示出本申请实施例提供的生成并行度模型并依据该并行度模型确定第一深度并行度和第二深度并行度的方法的一种流程示意图。

图4示出本申请实施例中的输出图像的性能参数和相关的基于FPGA加速的YOLO网络的性能参数的对比表。

图5示出本申请实施例提供的图像处理装置的一种结构示意图。

图6示出本申请实施例提供的目标检测系统的一种结构示意图。

图7示出本申请实施例提供的卷积运算内核中的依据并行度进行卷积运算的一种模块示意图。

图8示出本申请实施例提供的卷积运算内核中的处理单元的运算过程的一种示意图。

图9a示出本申请实施例提供的没有添加局部累加单元时的乘累加操作的一种示意图。

图9b示出本申请实施例提供的增加了局部累加单元后的乘累加操作的一种示意图。

图10示出本申请实施例提供的采用折叠存储形式的数据缓存区的一种结构示意图。

图11示出本申请实施例提供的数据缓存区的一种结构示意图。

图12示出本申请实施例提供的机器视觉设备的一种结构示意图。

图13示出本申请实施例提供的电子设备的一种示例性硬件架构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请实施例中的可实施方式及可实施方式中的特征可以相互任意组合。

基于FPGA的深度卷积神经网络加速器架构大致可分为基于运算模块的加速器架构、基于网络映射的加速器架构和基于脉冲阵列的加速器架构。这三种架构多是采用寄存器转换级(Register Transfer Level，RTL)电路开发方式设计实现，移植性和扩展性相对较差。

单纯的硬件设计受带宽、资源的限制，使得系统性能提升有限。一些研究人员采用软硬件协同设计的思想，以进一步提高FPGA的深度卷积神经网络加速器的性能。软硬结合的方式主要分为以下两个方面：1)为了缓解带宽压力，使用剪枝、量化等技术对数据进行处理。例如，将结构化剪枝方式直接部署到当前的深度卷积神经网络加速器架构中，使得可以规则地修剪CNN模型；而通过非结构化剪枝方式对数据进行处理(例如，随机裁剪权重节点等)，使得能提高深度卷积神经网络加速器的压缩率，但需存储额外的非零的权重值的位置信息，使得硬件电路设计具有一定难度。量化是目前比较通用的模型压缩方法。8bit定点数量化能基本保持原精度不变，受到了广泛使用，但压缩能力有限。为进一步压缩模型，一些研究人员对低比特/超低比特量化(例如，6bit，4bit等)进行研究，更有一些研究人员采用二值网络的方式，将乘法运算转化为逻辑运算，使得能够极大地提高深度卷积神经网络加速器的性能，但网络精度损失过多。2)为了减少运算量，可考虑在变换域(例如，Winograd变换，FFT变换等)进行运算。通过一维的Winograd变换，可减少约1/3的乘法次数；通过二维的Winograd变换，可减少约2.25倍的乘法次数。基于FFT变换的OaA(Overlap-andAdd)算法对数据进行卷积运算，相比于基于时域卷积对数据进行卷积运算，使得系统性能提升了约3.3倍。

使用单精度浮点数据类型，对YOLO和Faster-RCNN两种目标检测算法进行优化，但提升了系统资源和带宽的压力，致使数字信号处理器(Digital Signal Processor，DSP)的利用率不高。若基于Xilinx KU115板卡对YOLOv1网络进行加速设计，但只对卷积层进行了加速，当综合考虑全连接层时，YOLOv1网络的性能会下降。若采用轻量级的YOLOv2算法，其特征提取部分是采用二值网络实现的，分类和回归器是采用单精度浮点数实现的。二值网络的应用，一方面减少了计算量和传输带宽，另一方面也损失了数据的精度，导致数据的准确率降低。图形处理器(Graphics Processing Unit，GPU)的能耗较高，使得GPU的设计不能满足嵌入式应用的需求。

本申请提供一种图像处理方法及装置、机器视觉设备、电子设备和存储介质，用于解决CNN的移植性和扩展性较差的问题。

图1是本申请实施例提供的图像处理方法的一种流程示意图，该方法可应用于图像处理装置。如图1所示，图像处理方法可包括步骤110-步骤130。

在步骤110中，对待检测的图像进行预处理获得输入特征图，并提取输入特征图的第一深度并行度和纵向并行度。

例如，采用归一化、中心化和标准化中的任一项预处理方式，对输入的图像进行处理，获得输入特征图。其中，归一化是将输入的图像的像素值缩放到0-1范围内；中心化是将输入的图像的像素值中减去平均像素值，使新像素值的平均值为0；标准化是将输入的图像的像素值处理为标准高斯分布，即新像素值的平均值为0，标准差为1。

需要说明的是，在中心化和标准化中，可以在不同颜色通道上计算像素平均值和标准差，也可以计算一张图像、一批图像或整个训练数据集的平均值和标准差，以获得输入特征图。归一化通常是首先尝试的方法，因为输入的图像的像素值始终在0-255范围内，只需要把图片的所有像素除以255即可，该方法操作简单且易于实现的。中心化可采用全局中心化或局部中心化，也可以选取不同数量的图像进行平均值的计算，以上对于预处理方式仅是举例说明，可根据具体情况进行具体设定，其它未说明的预处理方式也在本申请的保护范围之内，在此不再赘述。

具体实现时，输入特征图可以是一个具有不同维度的图像，例如，输入特征图是具有三个维度的图像，则纵向并行度表示该输入特征图在Y轴上的长度，第一深度并行度表示该输入特征图在Z轴上的长度，该输入特征图在X轴上的长度可根据实际情况具体设定。以上对于输入特征图的维度信息仅是举例说明，可根据具体情况具体设定，其它未说明的输入特征图的维度信息也在本申请的保护范围之内，在此不再赘述。

在步骤120中，依据第一深度并行度和纵向并行度对输入特征图进行向量化处理，获得N个输入向量数据。

需要说明的是，N为大于或等于1的整数。输出特征图的第二深度并行度和卷积核的数量相同，第一深度并行度和第二深度并行度是依据并行度模型确定的并行度，并行度模型是依据硬件资源和内存带宽模型确定的模型。

卷积核的深度与纵向并行度相同，使得输入特征图在与卷积核进行卷积运算时，能够减少纵向的运算量，加快卷积运算速度。

例如，使用VEC_SIZE表示第一深度并行度，使用PE_NUM_Y表示纵向并行度，使用PE_NUM_Z表示第二深度并行度。对输入特征图在横向维度和纵向维度上，以VEC_SIZE*PE_NUM_Y为单位，对输入特征图进行向量化处理，使得能够获得N个VEC_SIZE*PE_NUM_Y大小的输入向量数据，然后在对每一个输入向量数据进行卷积处理，以增加卷积运算的速度。

由于硬件资源不同，使得在做卷积运算时，所用到的带宽资源也不同，通过硬件资源和内存带宽模型确定并行度模型，然后根据该并行度模型来确定VEC_SIZE和PE_NUM_Z，使得在有限的硬件资源环境下，保证卷积运算的速度得到最大的提升。

在步骤130中，使用N个输入向量数据与卷积核同时进行卷积运算，获得输出特征图。

例如，可将N个输入向量数据与一个卷积核同时进行卷积运算，以提高权重值的共享度；也可以将一个输入向量数据与多个卷积核同时进行卷积运算，以提高输入数据的共享度。使得卷积运算的速度加快，进而获得输出特征图。以上对于卷积运算的方式仅是举例说明，可根据实际情况具体设定，其它未说明的卷积运算的方式也在本申请的保护范围之内，在此不再赘述。

根据本申请实施例提供的图像处理方法，可通过输入特征图的第一深度并行度和纵向并行度对输入特征图进行向量化处理，获得N个输入向量数据，然后使用N个输入向量数据与卷积核同时进行卷积运算，获得输出特征图，从而使得一个卷积内核能够同时与N个输入向量数据进行卷积运算，保证在低能耗的情况下，加快卷积运算的速度，提升对输入特征图的处理速度。同时，输出特征图中的目标物体的精度优于输入特征图中的目标物体的精度，使得能够提升目标物体的精度，以使输入特征图中的目标物体的类别更准确，方便在机器视觉领域中的应用。

在一种可实施方式中，在步骤110之前，该图像处理方法还可包括：将输入特征图缓存到输入缓存区，其中，输入缓存区的存储形式至少包括折叠存储形式、双缓存机制和多端口加载形式中的任一项。

通过多种存储形式，使得输入缓存区对数据的存取操作的速度加快，方便为卷积运算提供高可靠的数据。同时，将输入特征图先缓存到输入缓存区，使得能够缓解与其它设备之间交互的带宽的压力。

在一种可实施方式中，将输入特征图缓存到输入缓存区，可包括：若确定输入缓存区的存储形式是折叠形式，则依据数据步长将输入特征图对应的数据进行折叠，并将折叠后的数据存储在输入缓存区中，其中，数据步长是依据纵向并行度、输入特征图在纵向维度上进行卷积运算所需的数据长度和单位步长确定的值；若确定输入缓存区的存储形式是多端口加载形式，依据端口的数量和加载一个数据缓冲区所需的时钟周期数，将输入特征图对应的数据缓存到输入缓存区。

例如，可采用公式H _row＝(PE_NUM_Y-1)×S+K，计算获得折叠的数据长度。其中，H _row表示输入特征图在纵向维度(Y维度)上的PE_NUM_Y个卷积运算所需的数据长度，S表示数据步长，K表示输入特征图的数据长度。依据纵向并行度(PE_NUM_Y)，使得输入特征图上的多个区域能够被同步处理。并且，可以减少行缓存的数目，同时提高CNN结构的通用性。

在一种可实施方式中，如图2所示，其为本申请实施例提供的利用乘累加树进行卷积加速运算的方法的一种流程示意图，步骤130可具体包括步骤131和步骤132。

在步骤131中，使用N个输入向量数据与卷积核同时进行卷积运算，获得输出向量数据。

例如，将N个输入向量数据与一个卷积核同时进行卷积运算，或将一个输入向量数据与多个卷积核进行卷积运算，获得输出向量数据。

在步骤132中，利用乘累加树对输出向量数据和对应的权重参数进行处理，获得输出特征图。

例如，对输出向量数据进行数据重排，将原按(W，H，N)排列的输入特征图对应的数据重排为(VEC_SIZE，W，H，N/VEC_SIZE)，并对VEC_SIZE进行向量化处理。其中，W表示输入向量数据的横向长度，H表示输入向量数据的纵向长度，N表示输入向量数据的深度。对应的权重参数也可以进行相应的数据重排，使得输出特征图更有利于卷积运算。然后，先对输出向量数据和其对应的权重参数进行点对点的乘法运算，再将获得的乘法运算结果进行相加运算，经过多次运算，可获得输出特征图。

在一种可实施方式中，依据输出向量数据的数据位宽和权重参数，对M个输出向量数据进行点对点的乘累加运算，获得第一累加结果，其中，M为大于或等于1的整数；将第一累加结果缓存到移位缓存区中；依据移位缓存区的深度，对第一累加结果进行局部累加，获得第二累加结果；将第二累加结果缓存到延时缓存区中；对延时缓存中的数据再次进行相加运算，获得输出特征图。

例如，采用char类型(数据位宽是8bit)来存储输出向量数据，然后将M个输出向量数据进行点对点的乘累加运算，即8bit上的每个bit位都需要与对应的权重参数的对应bit位上的数据进行乘法运算，获得8个乘积结果，然后再将这8个乘积结果依次进行累加运算，获得第一累加结果。当将第一累加结果荤菜到移位缓存区后，需要调节移位缓存区的深度，使得能够形成一条启动间隔为1的流水线，该流水线的深度为是依据VEC_SIZE确定的。然后依据移位缓存区的深度，对第一累加结果进行局部累加，获得第二累加结果，再将第二累加结果缓存到延时缓存区中；对延时缓存中的数据再次进行相加运算，获得输出特征图。

根据本申请实施例，通过不同的数据位宽，使得可以节省不必要的逻辑资源的浪费，并且根据输出向量数据的数据位宽和权重参数，对M个输出向量数据进行点对点的乘累加运算，获得第一累加结果，使得能够对具有不同的数据位宽的数据进行点对点的乘累加运算，提升数据的处理能力。并且，将第一累加结果缓存到移位缓存区和延时缓存区中，进行局部累加，使得能够形成一条启动间隔为1的流水先，提升对数据的处理速度。

在一种可实施方式中，在步骤132之后，图像处理方法还可包括：将输出特征图缓存至输出缓存区，其中，输出缓存区的存储形式包括多端口加载模式。

根据本申请实施例，通过将输出特征图缓存至存储形式为多端口加载模式的输出缓存区，使得能够通过不同的端口对输出特征图进行处理，例如，当端口数为时，每个端口将负责的行缓存区的个数为Ceil(行缓存区的个数/n)，使得数据加载时间可以缩减n倍，提升了数据加载的效率。

在一种可实施方式中，在步骤132之后，图像处理方法还可包括：依据第一深度并行度，对输出特征图进行重排，获得重排结果；将重排结果输出至输出缓存区。

其中，将重排结果输出至输出缓存区，包括：以多端口存储数据的形式，将重排结果输出至输出缓存区。

通过对输出特征图进行重排，可以为后续的最大池化操作提供并行度，并且还可以为下层卷积的输入提供正确的数据格式，使得数据能够得到尽快的处理，提升数据处理效率。

在一种可实施方式中，将重排结果输出至输出缓存区，包括：依据第一深度并行度对重排结果进行池化处理，获得池化后的结果；将池化后的结果以开放运算语言(Open Computing Language，OpenCL)管道(channel)的形式输出至输出缓存区。

通过将池化后的结果以OpenCL管道的形式输出至输出缓存区，其中的OpenCL管道可以保证数据的高效互通，使得能够在池化层与输出缓存区之间的形成深度流水线结构，提升数据处理效率。

在一种可实施方式中，可通过下面的方式获得输入特征图的第一深度并行度和输出特征图的第二深度并行度，使得第一深度并行度和第二深度并行度能够匹配，以适应不同的硬件环境。实际使用时，由于硬件参数较多，若某些参数发生变化时，使得卷积加速的最终性能也随之变化。采用下文中的步骤确定并行度模型，使得可以通过该并行度模型，来确定输入特征图的第一深度并行度和输出特征图的第二深度并行度的最佳匹配组合，以达到期望的性能指标。图3为本申请实施例提供的生成并行度模型并依据该并行度模型确定第一深度并行度和第二深度并行度的方法的一种流程示意图。如图3所示，生成并行度模型，并依据该并行度模型确定第一深度并行度和第二深度并行度可包括如下步骤301-步骤306。

在步骤301中,对硬件参数进行分析，获得输入特征图的纵向并行度。

例如，如表1所示，硬件参数包括数据读内核的端口数、数据写内核的端口数、输入特征图的第一深度并行度、输入特征图的纵向并行度和输出特征图的第二深度并行度。其中VEC_SIZE的取值是2的幂次(例如，2，4，8，16等)。PE_NUM_Y、PE_NUM_Z、n和m的取值可以是大于或等于0的正整数。

需要说明的是，其中，PE_NUM_Y的取值应尽可能的被输入特征图各层数据高整除。在PE_NUM_Y已知后，通过加载一个数据缓冲区所需时钟周期数的公式，以及将一个数据缓存区的数据传输到最大池化内核所需的时钟周期数的计算公式，即可算出n的最佳取值，再通过对输出缓存区的分析确定m的取值。

表1硬件参数列表

可变参数	表示的意义
n	数据读内核的端口数
m	数据写内核的端口数
VEC_SIZE	输入特征图的第一深度并行度
PE_NUM_Y	输入特征图的纵向并行度
PE_NUM_Z	输出特征图的第二深度并行度

在步骤302中,获取硬件资源信息。

其中，硬件资源信息包括：Logic资源、DSP芯片的数量和随机存取存储器(Random Access Memory，RAM)资源。

在一种可实施方式中，RAM资源包括片上缓存区和全局内存端口的数量。例如，数据读内核的数据缓存区的数据位宽为8，S _Line表示每条行缓存的数据长度，每条行缓存需要C _{Rd_Line}个M20K，如式(1)所示；数据缓存区总共需要M20K的个数为C _{Rd_f}，如式(2)所示，其中，2表示双缓存区。

权重缓存区需要的内存空间大小为h _w＝s _w*PE_NUM_Z，单位是Byte。权重缓存区的数据位宽为8，实际需M20K内存单元个数为C _{Rd_w}，如式(3)所示。基于Intel FPGA OpenCL的编译器默认按2的幂次开辟内存空间，当h _w的取值不是2的幂次时，编译器实际分配的内存空间将大于h _w。

最大池化层的内核的行缓存的长度为S _pool，需M20K内存单元C _Pool个，如式(4)所示。其中，2表示两条行缓存。行缓存的个数与池化窗口的大小有关。

数据写内核有n个数据加载端口，每个端口需要C _{Load_f}个M20K；权重加载端口需要C _{Load_w}个M20K；偏置加载端口需要C _{Load_b}个M20K。数据读内核的端口总共需要C _{Rd_Port}个M20K内存单元，如式(5)所示。

C _{Rd_Port}＝C _{Load_f}*n+C _{Load_w}+C _{Load_b} (5)

数据写内核有m个数据存储端口，每个端口需要C _{Store_f}个M20K，因此，总共需要C _{Wr_Port}个M20K内存单元，如式(6)所示。

C _{Wr_Port}＝C _{Store_f}*m (6)

其中C _{Load_f}、C _{Load_w}、C _{Load_b}和C _{Store_f}均与全局内存访问端口的数据类型有关，如式(7)到式(9)所示。

C _{Load_f}＝C ₁*VEC_SIZE+C ₀ (7)

C _{Load_w}＝C ₁*VEC_SIZEPE_NUM_Z+C ₀ (8)

C _{Load_b}＝C _{Store_f}＝C ₁+C ₀ (9)

综上所述，RAM资源的总使用情况如式(10)所示：其中，C ₀、C ₁和 C ₂均是与硬件平台有关的常量。

C _RAM＝C _{Rd_f}+C _{Rd_w}+C _Pool+C _{Rd_Port}+C _{Wr_Port}+C ₂ (10)

在一种可实施方式中，DSP的数量具体可通过如下公式计算获得。例如，若一个DSP支持两个8bit的乘法运算，则卷积运算内核中消耗的DSP的个数C _{DSP_CONV}可由式(11)计算获得。总的DSP的数量C _DSP如式(12)所示，其中，C ₃、C ₄、C ₅和C ₆均为常量。

C _DSP＝C ₃*VEC_SIZE*PE_NUM_Y*PE_NUM_Z+C ₄*n+C ₅*m+C ₆ (12)

在一种可实施方式中，Logic资源的使用情况如式(13)所示，其中，C _RAM表示Logic资源的数量，C ₇、C ₈和C ₉均为常量。C ₇～C ₉均为常量。

C _RAM＝(C ₇+C ₈*VEC_SIZE)*PE_NUM_Y*PE_NUM_Z+C ₉ (13)

通过以上公式计算可知，依据输入特征图的第一深度并行度和纵向并行度，以及输出特征图的第二深度并行度，使得能够计算获得不同类型的硬件资源信息，将输入特征图与各种不同的硬件资源相匹配，方便后续的模型分析，提升系统移植性。

在步骤303中,依据卷积运算的理论计算时间、训练图像的权重值、训练图像的偏置值和训练图像所占用的空间大小，确定平均内存带宽模型。

其中，理论计算时间是依据训练图像的并行度信息、卷积的运算量和训练后的图像的第二深度并行度计算获得的时间，其中，训练图像的并行度信息包括训练图像的第一深度并行度和训练图像的纵向并行度。

例如，首先，通过公式(14)计算卷积运算的获得理论计算时间。其中，F _req表示时钟频率，Op _l表示第l层卷积的运算量。

对一个特定网络模型，其整体性能(FPS)如式(15)所示：

对第l层卷积，输入特征图在三个维度上分别需经过

和

次预取，才能完成全部计算，其中，

和

可通过式(16)、和式(17)计算获得。

因此，对整个CNN模型，需从片外全局内存加载的输入特征图的大小H _f如式(19)所示，单位是Byte。其中，N _Line表示行缓存的个数，N _col表示每条行缓存内实际可执行的卷积的个数。

需从片外全局内存加载的权重值的大小H _w如式(20)所示，单位是Byte。

需从片外全局内存加载的偏置的大小H _b如式(21)所示，单位是Byte。

综上所述，平均内存带宽H _total如式(22)，单位是Byte/s。

通过以上公式的计算，可获得平均内存带宽模型，即式(22)，使得能够获知需使用的平均内存带宽，保证以该平均内存带宽可以对输入特征图进行处理，提升卷积运算速度。

在步骤304中,依据硬件资源信息和平均内存带宽模型，确定并行度模型。

通过将平均内存带宽模型与硬件资源信息相匹配，使得平均内存带宽模型能够在硬件资源受限的情况下，满足对输入特征图的卷积运算要求，通过多次训练，最终获得并行度模型。

例如，首先在目标板卡上进行几组快速编译，根据编译结果得到基础平台信息；然后通过函数拟合近似得到式(10)、式(12)和式(13)中C _{_0}～C _{_9}的取值；然后，通过对以上硬件资源信息的分析，确定可用的(PE_NUM_Z，VEC_SIZE)组合。在PE_NUM_Y、n、m确定的前提下，确定并行度模型，使得方便后续使用该并行度模型，确定可用的PE_ZUN_Z和VEC_SIZE的组合。

在步骤305中,将待验证特征图输入到并行度模型中进行验证，获得验证后的特征图和验证后的特征图的第二深度并行度。

其中，待验证特征图包括第一深度并行度和纵向并行度。

具体实现时，还需要对验证后的特征图继续进行池化处理和全连接处理，获得该验证后的特征图对应的输出图像。

在步骤306中,若确定验证后的特征图对应的输出图像符合系统的性能要求，则获得第一深度并行度和第二深度并行度。

例如，图4是本申请实施例中的输出图像的性能参数和相关的基于FPGA加速的YOLO网络的性能参数的对比表。如图4所示，通过不同的硬件资源，例如，型号为Zynq 7045的FPGA，型号为XILINX KU115的FPGA,型号为Zynq MPSoC的FPGA，或型号为Arria-10GX1150的FPGA等，DSP芯片对应不同的CNN框架(例如，采用YOLOv1算法，或YOLOv2算法等搭建的网络框架)，对应的精度不同，处理器的计算能力也不同，最终获得的网络吞吐量(Throughput)、画面每秒传输帧数(Frame Per Second，FPS)等都不尽相同。通过将验证图像输入到并行度模型中进行训练，当输出图像符合硬件系统的性能时，例如，获得较高的FPS或Throughput时，即确定该输出图像符合系统的性能要求，则将此时获得的(PE_NUM_Z，VEC_SIZE)组合作为最终的第一深度并行度和第二深度并行度。

其中，网络吞吐量是采用每秒的关键帧的周期(Group of picture，GOP)来衡量的，精度包括定点型数据和浮点型数据。

通过以上对于并行度模型的分析和搭建，使得可以获得与系统性能相匹配的第一深度并行度和第二深度并行度，然后依据该第一深度并行度和第二深度并行度进行卷积运算，以提高卷积运算速度，提升对输入特征图的处理速度。

根据本申请实施例提供的图像处理方法，通过输入特征图的第一深度并行度和纵向并行度对输入特征图进行向量化处理，获得N个输入向量数据，然后使用N个输入向量数据与卷积核同时进行卷积运算，获得输出特征图，使得一个卷积内核能够同时与N个输入向量数据进行卷积运算，保证在低能耗的情况下，加快卷积运算的速度，提升对输入特征图的处理速度。同时，输出特征图中的目标物体的精度优于输入特征图中的目标物体的精度，使得能够提升目标物体的精度，以使输入特征图中的目标物体的类别更准确，方便在机器视觉领域中的应用。

下面结合附图，详细介绍本申请实施例提供的节点设备。图5示出了本申请实施例提供的图像处理装置的一种结构示意图。图像处理装置可以使用FPGA来实现。如图5所示，该图像处理装置可包括预处理模块501、向量化处理模块502和卷积运算模块503。

预处理模块501，可被配置为对待检测的图像进行预处理获得输入特征图，并提取输入特征图的第一深度并行度和纵向并行度。向量化处理模块502，可被配置为依据第一深度并行度和纵向并行度，对输入特征图进行向量化处理，获得N个输入向量数据，其中，N为大于或等于1的整数。卷积运算模块503，可被配置为使用N个输入向量数据与卷积核同时进行卷积运算，获得输出特征图。

根据本申请实施例提供的图像处理装置，通过向量化处理模块依据输入特征图的第一深度并行度和纵向并行度对输入特征图进行向量化处理，获得N个输入向量数据，然后使用卷积运算模块将N个输入向量数据与卷积核同时进行卷积运算，获得输出特征图，使得一个卷积内核能够同时与N个输入向量数据进行卷积运算，保证在低能耗的情况下，加快卷积运算的速度，提升对输入特征图的处理速度。同时，输出特征图中的目标物体的精度优于输入特征图中的目标物体的精度，使得能够提升目标物体的精度，以使输入特征图中的目标物体的类别更准确，方便在机器视觉领域中的应用。

需要明确的是，本申请并不局限于上文中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁，这里省略了对已知方法的详细描述，并且上述描述的系统、模块和单元的具体工作过程，可以参考本申请实施例对图像处理方法的相关描述，在此不再赘述。

图6示出本申请实施例提供的目标检测系统的一种结构示意图。如图6所示，目标检测系统可以包括主机端61和设备端62，主机端61与设备端62之间通过离线双倍数据传输总线(off-chip Double Data Rate 3，off-chip DDR3)连接。其中，主机端61包括任务调度器(Task Scheduler)601和Reorg模块(Reorg Function)602。设备端62采用可重构的逻辑器件FPGA实现，其低功耗的特点使其在边缘端应用部署上具有明显优势，可高效的实现YOLOv2算法。设备端62包括数据读内核(MemRD Kernel)6100、数据写内核(MemWR Kernel)6200、卷积运算内核(Conv Kernel)6300和池化内核(MaxPool Kernel)6400。这些内核都采用单个工作项(Single Work Item)形式构造，使得设备端62实现高效流水线。同时，这些内核又通过OpenCL管道级联，形成内核与内核之间的深度流水线结构。

其中，MemRD Kernel 6100包括提取逻辑模块6110、权重缓存区6120和双缓存机制的输入缓存区6130。MemWR Kernel 6200包括重排模块6210和输出缓存区6220。Conv Kernel 6300包括多个脉冲阵列处理单元，例如，脉冲阵列处理单元6311、脉冲阵列处理单元6312和脉冲阵列处理单元6313等，还包括多个数据缓存区和多个权重缓存区，例如，与脉冲阵列处理单元6311相连接的数据缓存区6331和权重缓存区6321，与脉冲阵列处理单元6312相连接的数据缓存区6332和权重缓存区6322，与脉冲阵列处理单元6313相连接的数据缓存区6333和权重缓存区6323等。MaxPool Kernel 6400包括行缓存区(Line Buffer 1)6411和行缓存区(Line Buffer 2)6412和比较逻辑电路(MaxPool Logic)6420。其中，比较逻辑电路6420包括多个Max模块。行缓存区的个数与池化窗的大小有关，例如，3*3的池化窗需要两条行缓存，2*2的池化窗只需要1条行缓存。采用多尺度池化的方式，以提高该目标检测系统的可移植性。

其中，MemRD Kernel 6100负责为Conv Kernel 6300准备输入数据。MemRD Kernel 6100从全局内存中缓存一部分数据到本地内存，并将准备好的数据通过OpenCL管道传输到Conv Kernel 6300。以缓解带宽压力，保证系统的高吞吐率。MemWR Kernel 6200负责对卷积运算结果进行重排。MemWR Kernel 6200将卷积运算结果缓存到本地内存，并按一定的顺序重新排列。在有池化层时，将卷积运算结果通过OpenCL管道输出到MaxPool Kernel 6400，在没有池化层时，将卷积运算结果传回全局缓存区。Conv Kernel 6300主要用于加速CNN中计算密集型的卷积运算、全连接操作和数据激活。为了提高运算效率，采用多个PE实现卷积的并行运算。MaxPool Kernel 6400对输出特征图进行下采样操作。MaxPool Kernel 6400通过OpenCL管道读取数据并进行处理，最后将处理结果保存至全局内存。当有池化层时，MaxPool Kernel 6400以OpenCL管道的形式将数据输出；当没有池化层时，MaxPool Kernel 6400以多端口存储数据的方式将数据输出，以平衡卷积运算和结果存储的速度。

例如，MemWR Kernel 6200将VEC_SIZE单位大小的数据传输至MaxPool Kernel 6400，MaxPool Kernel 6400采用3*3的最大池化窗进行处理。MemRD Kernel 6100先将输入特征图的前两行缓存到片上行缓存区，当第三行的第一个数据进入时，通过第一行缓存数据和第二行缓存数据求最大值，获得池化窗口内每一列的最大值，然后将该最大值送入深度为3的移位寄存器暂存，再通过第二行缓存和第三行缓存求最大值，最终求得池化窗内的最大值，并将该最大值存储回全局内存中。依次更新两个行缓存区的内容，Line Buffer 2被Line Buffer 1的数据更新，Line Buffer 1被输入的新数据更新，循环往复。具体实现时，还可以对不同的行缓存求平均值，进而对行缓存区的内容进行更新。以上对于MemWR Kernel 6200的行缓存区的更新操作仅是举例说明，可根据实际情况具体设定，其它未说明的行缓存区的更新操作也在本申请的保护范围之内，在此不再赘述。

通过行缓存与寄存器的配合，使得MaxPool Kernel 6400中能够形成一条启动间隔为1的流水线，每个时钟周期都能输出一个最大池化结果。因池化层的运算量很小，MaxPool Kernel 6400中只设置纵向并行度(即VEC_SIZE)，其中，VEC_SIZE的取值与Conv Kernel6300中的纵向并行度保持一致，通过调整VEC_SIZE的大小，使得可以控制池化层的执行时间。

任务调度器601主要负责配置OpenCL的运行环境，以及通过OpenCL特定的应用程序接口(Application Programming Interface，API)来调度设备端62的内核的执行与同步。按照图3所示的方法，任务调度器601搭建完整的OpenCL执行环境。任务调度器601需基于上下文创建两个内存对象，分别用于存储卷积的输入特征图和输出特征图。每个内存对象都具有输入和输出两种属性，既可用于存储本层的输出，又可用于传输下层的输入。任务调度器601需在开始时将预处理后的输入数据以内存对象的形式，通过命令队列传输到FPGA片外全局内存区。

在每一层卷积执行之前，任务调度器601先通过特定API配置各个内核的参数，通过命令队列启动各个内核的执行，再通过事件监视各个内核是否执行完毕。池化层的执行由池化开关控制，当池化开关设为1时，启动MaxPool Kernel 6400的执行。待FPGA上的四个内核执行完毕后，任务调度器601将最终的输出结果通过命令队列的方式，保存至主机内存，以便执行后续操作。

Reorg模块602主要由Reorg函数实现，负责对卷积输出特征图进行重排。例如，Reorg模块602通过调整网络的执行顺序，Reorg模块602可与第14层卷积并行执行。FPGA执行地址连续的内存存取操作更为高效，因Reorg函数是对跳变内存地址进行读写操作，逻辑较为简单，且Reorg函数运算量极少，在CPU上的执行时间比第14层卷积的执行时间要短，且在网络中只使用一次，因此，将Reorg模块602放置于主机端61，可以节省FPGA片上资源，进而提高资源的利用率。

图7是本申请实施例提供的Conv Kernel 6300中的依据并行度进行卷积运算的一种模块示意图。为了实现高效卷积运算，发挥FPGA硬件架构的优势，Conv Kernel 6300采用三种并行度的设计，具体包括输入特征图的第一深度并行度(VEC_SIZE)、输入特征图的纵向并行度(PE_NUM_Y)和输出特征图的第二深度并行度(PE_NUM_Z)。

其中，PE_NUM_Y和PE_NUM_Z的乘积与Conv Kernel 6300中的PE的总量保持一致。并且，输出特征图的PE_NUM_Z和卷积核的数量相同，VEC_SIZE和PE_NUM_Z是依据并行度模型确定的并行度，并行度模型是依据硬件资源和内存带宽模型确定的模型。通过unroll的方式实现输入特征图的VEC_SIZE的向量化。一个卷积内核可以与输入特征图上的多个区域同时运算，以提高权重值的共享度；同时，输入特征图上的一个区域可以与多个卷积内核同时运算，以提高输入数据的共享度。

MemRD Kernel 6100，将原按(W，H，N)排列的输入特征图对应的数据重排为(VEC_SIZE，W，H，N/VEC_SIZE)，并对VEC_SIZE进行向量化处理。然后输入PE_NUM_Y*VEC_SIZE大小的数据和PE_NUM_Z*VEC_SIZE大小的权重值至Conv Kernel 6300，使得Conv Kernel 6300对输入的数据进行K2*N/VEC_SIZE次乘累加运算，获得PE_NUM_Y*PE_NUM_Z大小的数据，并将该PE_NUM_Y*PE_NUM_Z大小的数据输出至MemWR Kernel 6200。例如，如图7所示，其为本申请实施例提供的Conv Kernel 6300中的依据并行度进行卷积运算的一种模块示意图，MemRD Kernel 6100输入的输入特征图(Intput Feature Map)是160*160*3(W*H*N)的图像，共有PE_NUM_Z个卷积核，并且每个卷积核的大小定义为3*3*3(即K等于3,K为大于3的整数)。取一个卷积核与输入特征图的每一层进行运算，并且根据数据步长，对输入特征图依次进行横向取数(共计R个点)，然后将取出的数据依次与每一个卷积核进行运算，最后获得输出特征图，该输出特征图的大小为R*C*M。需要说明的是，在对输入特征图进行横向取数时，也可以多行一起取，以提高卷积的运算速度。

图8是本申请实施例提供的Conv Kernel 6300中的处理单元的运算过程的一种示意图。一个处理单元可包括：卷积运算逻辑单元810和激活函数逻辑单元820。其中，卷积运算逻辑单元810包括：自定义的MAC子单元811和局部累加子单元812。

1)MAC子单元811：可支持向量数据的输入，被配置为将向量化的输入数据(Vectorized data)和权重(Vectorized weight)输入至MAC子单元811中，使得MAC子单元811可以依据乘累加树，对输入的数据及对应的权重进行计算。具体地，可先对输入数据进行点对点的乘法运算，然后将获得的乘法运算结果进行相加运算，在经过K2ⅹN/VEC_SIZE次的运算后，获得MAC子单元811的输出结果。再将该输出结果输入至局部累加子单元812进行缓存。

需要说明的是，Intel FPGA板卡提供可变精度的DSP，即一个DSP可支持多种数据位宽的乘法运算，其中，d0、d1、……、dn-1、dn表示输入数据的每一个bit位上的数据，w0、w1、……、wn-1、wn表示权重值的每一个bit位上的数据，n为大于1的整数。例如，Intel Stratix V GXA7FPGA开发板中的一个DSP可执行1个27bit*27bit的乘法运算，也可执行3个9bit*9bit的乘法运算。实际使用时，可通过重新配置内核的相关参数，来改变数据位宽，并指定某个特定的DSP来进行对应数据位宽的计算，使得编译频率得以提高。

在C语言中，整数的数据类型包括char(8bit)类型、short(16bit)类型、int(32bit)类型和long(64bit)类型等，各个数据类型的数据位宽均为2的幂次。例如，若采用char类型来存储定点数，则两个8bit的整数相乘，获得的结果需用16bit的存储空间；若j个1bit的整数相加，获得的加和结果需用Ceil(Log2(j))位的存储空间，因此，j个8bit的整数在进行乘累加运算后，所获得的乘累加结果共需要(16+Ceil(Log2(j)))位的存储空间。其中，i、j均为大于或等于2的整数，Ceil表示对数据进行上取整。因此，MAC子单元811输出的乘累加结果的数据位宽为(16+Ceil(Log2(VEC_SIZE)))，延时缓存区的数据位宽为(16+Ceil(Log2(sw/h)))。其中，sw表示网络模型中各层单个卷积的最大运算量，h表示延时缓存区的深度。例如，在YOLOv2算法中第22层单个卷积运算量最大为32*1280，深度为6，则延时缓存区的数据位宽(16+Ceil(Log2(sw/h)))为29。通过对数据位宽的设置，使得可以节省不必要的逻辑资源浪费。

2)局部累加子单元812：被配置为实现手动时钟对齐，保证流水线的高饱和度的运行。局部累加单元在获得自定义的MAC子单元811输入的经过K2ⅹN/VEC_SIZE次的MAC子单元811的运算结果，会依据延时缓存的设计，对缓存的数据进行相加运算，获得卷积结果，此时的卷积结果的数据位宽大于向量化的输入数据的位宽，需要对卷积结果再进行截断操作，以使最终结果的数据位宽与向量化的输入数据的位宽相同。

图9a示出本申请实施例提供的没有添加局部累加子单元812时的乘累加操作的一种示意图。其中，以Fetch函数处理和MAC层及累加处理为一个处理单元，在时间轴上进行依次处理；但有与各个处理单元之间存在数据依赖(即数据之间的依赖关系)，使得在一个处理单元完成后，才能开始进行下一个处理单元的循环迭代，导致启动间隔Π大于1。而图9b示出本申请实施例提供的增加了局部累加子单元812后的乘累加操作的一种示意图。此时，MAC子单元811的输出被送入局部累加子单元812进行数据缓存。具体实现时，局部累加子单元812可由移位寄存器组成，使得通过调节移位寄存器的深度，就能形成一条启动间隔Π等于1的流水线，其中，流水线的深度为K2*N/VEC_SIZE。提高了流水线的处理效率。

3)激活函数逻辑单元820，被配置为对卷积运算逻辑单元810输入的最终结果进行激活处理。例如，将最终结果送入Leaky ReLU逻辑电路，根据符号位X选择是否执行移位操作(例如，如图8所示，若X<0，则需要向左移动3位，若X>＝0，则无需进行移位)，然后，通过OpenCL管道将处理单元的输出结果输入至MemWR Kernel 6200。

稀缺的片上存储单元与片上存储空间的高需求之间总是存在着冲突。一方面，由于片外内存区的带宽有限且访问延时高，使得片上存储单元的设计可以减轻片外内存区的带宽压力。另一方面，由于片上存储单元的存储空间非常稀少，不可能将整个神经网络模型都缓存到片上存储单元中，使得片上存储单元的设计成为保证系统吞吐率的关键。本申请中的设备端62包括三个缓存区，即输入数据缓存区(6130、6331、6332和6333)、权重和偏置缓存区(6120、6321、6322和6323)和输出缓存区6220。其中，各个数据缓存区可采用折叠存储形式、双缓存机制和多端口加载模式中的任一种存储形式。

图10示出本申请实施例提供的采用折叠存储形式的数据缓存区的一种结构示意图。其中，S表示数据步长，K表示输入特征图的数据长度。H _row表示输入特征图在纵向维度(Y维度)上的PE_NUM_Y个卷积运算所需的数据长度，具体如式(23)所示：

H _row＝(PE_NUM_Y-1)×S+K (23)

依据纵向并行度(PE_NUM_Y)，使得输入特征图上的多个区域能够被同步处理。使得可以减少行缓存的数目，同时提高CNN结构的通用性。当从全局内存加载数据到本地数据缓存区时，每条行缓存每次存储数据长度为S的数据，以便每条行缓存都能输出一个数据。

图11示出本申请实施例提供的数据缓存区的一种结构示意图。该数据缓存区可包括多条行缓存，是一个二维缓存区。与一维缓存区相比，二维缓存区具有更高的数据重用率。提高本地缓存区的数据重用率，也就意味着带宽的减少。实际使用时，该二维缓存区比一维缓存区可节省约57％的带宽。

其中，S _Line表示每条行缓存的长度，N _Line表示行缓存的个数，如式(24)所示；每条行缓存实际使用的长度为W _col(W _col≤S _Line)，W _col可根据输入特征图的深度和卷积步长动态调整，如式(25)所示；每条行缓存内实际可执行的卷积个数为N _col，由W _col决定，如式(26)所示；考虑到卷积运算的完整性，S _Line的取值要确保每个卷积层都至少有一个卷积区域被缓存。

N _col＝FLOOR((W _col-K)/S+1) (26)

其中，FLOOR(X)函数的功能是“向下取整”，即向下舍入或向零取舍，即取不大于X的最大整数。

其中，行缓存区可设计为双缓存机制。即一个数据缓存区从片外全局内存加载数据，另一个缓存区向Conv Kernel 6300传输预存的数据，这两个缓存区是交替并同时进行数据操作的。数据缓存区一次可从片外全局内存加载的数据大小为VEC_SIZE，并向Conv Kernel 6300传输的数据大小为(PE_NUM_Y*VEC_SIZE)。使得可以节省卷积等待数据加载的时间，提高数据传输效率，为高效卷积运算提供保障。

在一个具体实现中，双缓存机制会带来数据的并行传输和串行加载速度不匹配的问题。假设一个时钟周期能完成一个数据操作，那么从全局内存加载一个数据缓冲区所需的时钟周期数为T _load，如式(27)所示；将一个数据缓存区的数据传输到Conv Kernel 6300所需的时钟周期数为T _trans，如式(28)所示；若PE_NUM_Y设置的很大，则此时T _load>T _trans。因此，为平衡两个缓存区的速度，保证MemRD Kernel 6100、Conv Kernel6300和MemWR Kernel 6200三个内核之间的深度流水线的顺畅执行，需要进行多端口加载数据。

如图11所示，当端口数为n时，每个端口将负责

条行缓存区，数据加载时间将缩减n倍。

在一种可实施方式中，MemRD Kernel 6100依据第一深度并行度和纵向并行度对权重进行预重排。例如，将权重由原来的(K，K，N，M)顺序，重新排列为(VEC_SIZE，PE_NUM_Z，K，K，N/VEC_SIZE，M/PE_NUM_Z)顺序。MemRD Kernel 6100依据第二深度并行度，将偏置重新排列为(PE_NUM_Z，M/PE_NUM_Z)顺序。使得能够为MaxPool Kernel 6400提供并行度，并为下层卷积的输入提供正确的数据格式。

其中，单个卷积核的内存大小s _w如式(29)所示，取各层卷积的最大值；权重缓存区的总大小h _w如式(30)所示，单位为Byte。偏置缓存区所需的内存大小h _b如式(31)所示，单位为Byte。

s _w＝Max(K _l*K _l*N _l) (29)

h _w＝s _w*PE_NUM_Z (30)

h _b＝PE_NUM_Z (31)

需要说明的是，权重缓存区和偏置缓存区同样设置为双缓存机制，使得能够为Conv Kernel 6300的卷积运算提供高效数据传输，同时，在手动时钟对齐时，可使输入数据、权重和偏置能在同一时钟周期内通过OpenCL管道传出。

在一种可实施方式中，若输出缓存区6220的大小为(PE_NUM_Y*PE_NUM_Z)字节，则MemWR Kernel 6200在将输出缓存区6220的数据存储回全局内存时，需要进行(PE_NUM_Y*PE_NUM_Z)次操作，而进行一次完整卷积运算，需要进行(K*K*N/VEC_SIZE)次操作。当输入特征图的深度较浅或并行度的数值过大时，MemWR Kernel 6200在将卷积结果回存至全局内存时，所需的时间将明显大于卷积运算时间。因此，需要对输出缓存区6220采用多端口数据存储形式。例如，端口数为m时，每个端口需要负责将CEIL(PE_NUM_Y*PE_NUM_Z/m)个数据输出到片外全局内存区。

本申请实施例提供的目标检测系统，具有高移植性和可扩展性。在对数据进行卷积运算、归一化处理和激活处理时，采用原始网络结构，使得在保证很好的准确度的同时，能够考虑到权重值的变化对结果的影响。此外，采用8bit定点数量化，可以保证精度损失在可接受的范围内。

图12示出本申请实施例提供的机器视觉设备的一种结构示意图。该机器视觉设备可包括图像获取装置1201和图像处理装置1202。

图像获取装置1201，可被配置为获取待检测的图像，其中，待检测的图像包括待确定的目标物体；图像处理装置1202，可被配置为跟据本申请实施例提供的图像处理方法，对待检测的图像进行检测。

其中，输出特征图中的目标物体的精度优于输入特征图中的目标物体的精度。例如，在机器视觉的应用中，待检测的图像中包括的待确定的目标物体可能是一只狗或一辆自行车，但由于背景物体的颜色，及物体在图片中的位置等原因，使得机器人在观察该待检测的图像时，无法准确获取待检测的图像中的待确定的目标物体的类别和位置信息等，通过依据待检测的图像的第一深度并行度和纵向并行度对待检测的图像进行向量化处理，获得N个输入向量数据，并使用N个输入向量数据与卷积核同时进行卷积运算，获得输出特征图，所获得的输出特征图中的目标物体的类别更清晰，在机器人对该输出特征图进行观察时，可获得输出特征图中的目标物体是一只狗和一辆自行车，并可以更准确的获得狗和自行车的位置信息等，提高了对待确定的目标物体的检测精度。

根据本申请实施例提供的机器视觉设备，通过图像获取装置获取到待检测的图像，并使用图像处理装置依据图像处理方法对待检测的图像进行检测，加快在图像分析的过程中的卷积运算的速度，提升对待检测的图像的处理速度；并且提高待检测的图像的精度，使得待确定的目标物体的类别清晰可见，方便在机器视觉领域中的应用。

如图13所示，电子设备1300可包括输入设备1301、输入接口1302、中央处理器1303、存储器1304、输出接口1305、以及输出设备1306。其中，输入接口1302、中央处理器1303、存储器1304、以及输出接口1305通过总线1307相互连接，输入设备1301和输出设备1306分别通过输入接口1302和输出接口1305与总线1307连接，进而与电子设备1300的其它组件连接。

具体地，输入设备1301接收来自外部的输入信息，并通过输入接口1302将输入信息传送到中央处理器1303；中央处理器1303基于存储器1304中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器1304中，然后通过输出接口1305将输出信息传送到输出设备1306；输出设备1306将输出信息输出到电子设备1300的外部供用户使用。

在一种可实施方式中，图13所示的电子设备1300可以被实现为一种网络设备，该网络设备(即电子设备1300)可以包括：存储器，被配置为存储程序；处理器，被配置为运行存储器中存储的程序，以执行本申请实施例提供的图像处理方法的至少一个步骤。

一般来说，本申请实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如，一些方面可以被实现在硬件中，而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中，尽管本申请不限于此。

本申请实施例可以通过移动装置的数据处理器执行计算机程序指令来实现，例如在处理器实体中，或者通过硬件，或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。

本申请附图中的任何逻辑流程的框图可以表示程序步骤，或者可以表示相互连接的逻辑电路、模块和功能，或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现，例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型，例如但不限于通用计算机、专用计算机、微处理器、DSP、专用集成电路(ASIC)、FGPA以及基于多核处理器架构的处理器。

通过示范性和非限制性的示例，上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑，对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的，但不偏离本申请的范围。因此，本申请的恰当范围将根据权利要求确定。

Claims

一种图像处理方法，包括：

对待检测的图像进行预处理获得输入特征图，并提取所述输入特征图的第一深度并行度和纵向并行度；

依据所述第一深度并行度和所述纵向并行度对所述输入特征图进行向量化处理，获得N个输入向量数据，其中，N为大于或等于1的整数；以及

使用所述N个输入向量数据与卷积核同时进行卷积运算，获得输出特征图。
根据权利要求1所述的方法，其中，所述输出特征图的第二深度并行度和所述卷积核的数量相同，所述第一深度并行度和所述第二深度并行度是依据并行度模型确定的并行度，以及所述并行度模型是依据硬件资源和内存带宽模型确定的模型。
根据权利要求1所述的方法，其中，所述使用所述N个输入向量数据与卷积核同时进行卷积运算，获得输出特征图，包括：

使用所述N个输入向量数据与卷积核同时进行卷积运算，获得输出向量数据；以及

利用乘累加树对所述输出向量数据和对应的权重参数进行处理，获得所述输出特征图。
根据权利要求3所述的方法，其中，所述利用乘累加树对所述输出向量数据和对应的权重参数进行处理，获得所述输出特征图，包括：

依据所述输出向量数据的数据位宽和所述权重参数，对M个所述输出向量数据进行点对点的乘累加运算，获得第一累加结果，其中，M为大于或等于1的整数；

将所述第一累加结果缓存到移位缓存区中；

依据所述移位缓存区的深度，对所述第一累加结果进行局部累加，获得第二累加结果；

将所述第二累加结果缓存到延时缓存区中；以及

对所述延时缓存中的数据再次进行相加运算，获得所述输出特征图。
根据权利要求3所述的方法，在所述利用乘累加树对所述输出向量数据和对应的权重参数进行处理，获得所述输出特征图的步骤之后，还包括：

将所述输出特征图缓存至输出缓存区，其中，所述输出缓存区的存储形式包括多端口加载模式。
根据权利要求3所述的方法，在所述利用乘累加树对所述输出向量数据和对应的权重参数进行处理，获得所述输出特征图的步骤之后，还包括：

依据所述第一深度并行度，对所述输出特征图进行重排，获得重排结果；以及

将所述重排结果输出至输出缓存区。
根据权利要求6所述的方法，其中，所述将所述重排结果输出至输出缓存区，包括：

以多端口存储数据的形式，将所述重排结果输出至所述输出缓存区。
根据权利要求6所述的方法，其中，所述将所述重排结果输出至输出缓存区，包括：

依据所述第一深度并行度对所述重排结果进行池化处理，获得池化后的结果；以及

将所述池化后的结果以开放运算语言管道的形式输出至所述输出缓存区。
根据权利要求1至8中任一项所述的方法，在所述依据所述第一深度并行度和所述纵向并行度对所述输入特征图进行向量化处理，获得N个输入向量数据的步骤之前，还包括：

将所述输入特征图缓存到输入缓存区，其中，所述输入缓存区的存储形式至少包括折叠存储形式、双缓存机制和多端口加载形式中的任一项。
根据权利要求9所述的方法，其中，所述将所述输入特征图缓存到输入缓存区，包括：

响应于确定所述输入缓存区的存储形式是所述折叠形式，依据数据步长将所述输入特征图对应的数据进行折叠，并将折叠后的数据存储在所述输入缓存区中；其中，所述数据步长是依据所述纵向并行度、所述输入特征图在纵向维度上进行卷积运算所需的数据长度和单位步长确定的值；以及

响应于确定所述输入缓存区的存储形式是所述多端口加载形式，依据端口的数量和加载一个数据缓冲区所需的时钟周期数，将所述输入特征图对应的数据缓存到所述输入缓存区。
一种图像处理装置，包括：

预处理模块，被配置为对待检测的图像进行预处理获得输入特征图，并提取所述输入特征图的第一深度并行度和纵向并行度；

向量化处理模块，被配置为根据所述第一深度并行度和所述纵向并行度对所述输入特征图进行向量化处理，获得N个输入向量数据，其中，N为大于或等于1的整数；以及

卷积运算模块，被配置为使用所述N个输入向量数据与卷积核同时进行卷积运算，获得输出特征图。
一种机器视觉设备，包括：

图像获取装置，被配置为获取待检测的图像，其中，所述待检测的图像包括待确定的目标物体；以及

图像处理装置，被配置为执行根据权利要求1-10中任一项所述的图像处理方法对所述待检测的图像进行检测，并确定所述待确定的目标物体的类别。
一种电子设备，包括：

一个或多个处理器；以及

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1-10中任一项所述的图像处理方法。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1-10中任一项所述的图像处理方法。