WO2021139156A1

WO2021139156A1 - 卷积计算方法及相关设备

Info

Publication number: WO2021139156A1
Application number: PCT/CN2020/109062
Authority: WO
Inventors: 曹庆新; 李炜
Original assignee: 深圳云天励飞技术股份有限公司
Priority date: 2019-11-07
Filing date: 2020-08-14
Publication date: 2021-07-15
Also published as: CN111222465B; US20220215655A1; CN111222465A; US11551438B2

Abstract

一种基于卷积神经网络的图像分析方法及相关设备，方法包括：获得网络层A的输入矩阵，网络层A的输入矩阵是基于目标种类图像得到的；获得网络层A对应的目标卷积核和目标卷积步长，不同的网络层对应不同的卷积步长；根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵，网络层A的输出矩阵用于表征目标种类图像包括的多个特征；根据预存的种类图像与预设操作的映射关系确定目标种类图像对应的目标预设操作；根据目标种类图像包括的多个特征执行目标预设操作。采用该方法有助于提高在不同卷积步长下神经网络处理器的计算效率，进而间接提高图像分析的效率。

Description

卷积计算方法及相关设备

本申请要求于2020年1月7日提交中国专利局，申请号为202010015744.6、发明名称为“卷积计算方法及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及神经网络技术领域，具体涉及一种基于卷积神经网络的图像分析方法及相关设备。

背景技术

目前，神经网络处理器包括多个网络层，不同的网络层对应不同的卷积步长。网络层的输出矩阵(图像包括的多个特征)是神经网络处理器根据网络层的输入矩阵和卷积核进行多次卷积计算得到的；每次根据网络层的输入矩阵(基于输入图像得到的)和卷积核进行卷积计算的过程为：首先，神经网络处理器根据卷积步长从网络层的输入矩阵中选取运算矩阵；然后，神经网络处理器对运算矩阵和卷积核进行卷积计算。这种卷积计算方式导致在不同卷积步长下神经网络处理器的计算效率较低，进而间接降低图像分析的效率。

发明内容

本申请实施例提供一种基于卷积神经网络的图像分析方法及相关设备，用于提高在不同卷积步长下神经网络处理器的计算效率，进而间接提高图像分析的效率。

第一方面，本申请实施例提供一种基于卷积神经网络的图像分析方法，应用于神经网络处理器，包括：

获得网络层A的输入矩阵，网络层A为卷积神经网络模型包括的多个网络层中的其中一个，网络层A的输入矩阵是基于目标种类图像得到的；

获得网络层A对应的目标卷积核和目标卷积步长，不同的网络层对应不同的卷积步长；

根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵，目标卷积步长用于从网络层A的输入矩阵中筛选卷积计算所需的多个行输入数据，网络层A的输出矩阵用于表征目标种类图像包括的多个特征；

根据预存的种类图像与预设操作的映射关系确定目标种类图像对应的目标预设操作；

根据目标种类图像包括的多个特征执行目标预设操作。

在一个可能的示例中，目标种类图像为人脸图像，目标种类图像包括的多个特征为多个人脸特征，根据网络层A的输出矩阵执行目标预设操作，包括：

判断多个人脸特征组成的人脸特征集合是否与人脸特征库匹配；

若多个人脸特征组成的人脸特征集合与目标人脸特征集合匹配，则根据预存的人脸特征集合与人物信息的映射关系确定目标人脸特征集合对应的目标人物信息，目标人脸特征集合属于人脸特征库；

对目标人物信息执行输出操作。

在一个可能的示例中，目标种类图像为车牌图像，目标种类图像包括的多个特征为目标车牌号码，根据网络层A的输出矩阵执行目标预设操作，包括：

判断目标车牌号码是否与车牌号码库匹配；

若目标车牌号码与车牌号码库匹配，则根据预存的车牌号码与车辆登记信息的映射关系确定目标车牌号码对应的目标车牌登记信息；

对目标车牌登记信息执行输出操作。

在一个可能的示例中，目标卷积步长为S1×S2，网络层A的输入矩阵的大小为R1×R2，目标卷积核的大小为F×F，根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵，包括：

当S1和S2均为1时，获取网络层A的输入矩阵的第i行输入数据至第(i+F-1)行输入数据，i为1至(R1-F+1)中的任意一个；

对第i行输入数据至第(i+F-1)行输入数据和目标卷积核进行卷积计算，得到网络层A的输出矩阵的第i行输出数据；

根据(R1-F+1)行输出数据获得网络层A的输出矩阵，(R1-F+1)行输出数据包括第i行输出数据。

在一个可能的示例中，目标卷积步长为S3×S4，网络层A的输入矩阵的大小为R3×R4，目标卷积核的大小为F×F，根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵，包括：

当S3和S4均为2时，获取网络层A的输入矩阵的第(2j-1)行输入数据至第(2j+1)行输入数据，j为1至[(R3-F)/S4+1]中的任意一个；

根据目标卷积步长对第(2j-1)行输入数据至第(2j+1)行输入数据进行筛选，得到筛选后的第(2j-1)行输入数据至第(2j+1)行输入数据；

对筛选后的第(2j-1)行输入数据至第(2j+1)行输入数据和目标卷积核进行卷积计算，得到网络层A的输出矩阵的第j行输出数据；

根据[(R3-F)/S4+1]行输出数据获得网络层A的输出矩阵，[(R3-F)/S4+1]行输出数据包括第j行输出数据。

第二方面，本申请实施例提供一种基于卷积神经网络的图像分析装置，应用于神经网络处理器，包括：

第一获得单元，用于获得网络层A的输入矩阵，网络层A为卷积神经网络模型包括的多个网络层中的其中一个，网络层A的输入矩阵是基于目标种类图像得到的；

第一获得单元，用于获得网络层A对应的目标卷积核和目标卷积步长，不同的网络层对应不同的卷积步长；

计算单元，用于根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵，目标卷积步长用于从网络层A的输入矩阵中筛选卷积计算所需的多个行输入数据，网络层A的输出矩阵用于表征目标种类图像包括的多个特征；

确定单元，用于根据预存的种类图像与预设操作的映射关系确定目标种类图像对应的目标预设操作；

执行单元，用于根据目标种类图像包括的多个特征执行目标预设操作。

第三方面，本申请实施例提供一种神经网络处理器，上述神经网络处理器用于实现本申请实施例第一方面的方法的部分或全部步骤。

第四方面，本申请实施例提供一种神经网络处理器，上述神经网络处理器包括本申请实施例第二方面的卷积计算装置。

第五方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行如本申请实施例第一方面的方法中的部分或全部步骤的指令。

第六方面，本申请实施例提供一种计算机可读存储介质，上述计算机可读存储介质用于存储计算机程序，上述计算机程序被处理器执行，以实现本申请实施例第一方面的方法中所描述的部分或全部步骤。

第七方面，本申请实施例提供了一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行本申请实施例第一方面的方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，相较于每次根据网络层的输入矩阵(基于输入图像得到的)和卷积核进行卷积计算均需要神经网络处理器根据卷积步长从网络层的输入矩阵中选取运算矩阵，以及对运算矩阵和卷积核进行卷积计算，在本申请实施例中，对于不同的卷积步长来说，由于卷积步长用于从网络层A的输入矩阵(基于目标种类图像得到的)中筛选卷积计算所需的多个行输入数据，进而神经网络处理器对卷积计算所需的多个行输入数据和卷积核进行卷积计算，得到网络层A的输出矩阵(用于表征目标种类图像包括的多个特征)，这样有助于提高在不同卷积步长下神经网络处理器的计算效率。由于获得目标种类图像包括的多个特征的时间大大缩短，因此能够更快的基于目标种类图像包括的多个特征执行目标种类图像对应的目标预设操作，进而间接提高图像分析的效率。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1是本申请实施例提供的一种基于卷积神经网络的图像分析系统的架构示意图；

图2A是本申请实施例提供的一种基于卷积神经网络的图像分析方法的流程示意图；

图2B是本申请实施例提供的一种填充的示意图；

图2C是本申请实施例提供的一种确定对网络层A的第一输入矩阵进行卷积计算需要的P1个处理元件的示意图；

图2D是本申请实施例提供的一种多个处理元件的示意图；

图2E是本申请实施例提供的一种确定网络层A的输出矩阵的第i行输出数据的示意图；

图2F是本申请实施例提供的一种确定网络层A的输出矩阵的示意图；

图2G是本申请实施例提供的一种对第1行输入数据至第3层输入数据筛选的示意图；

图2H是本申请实施例提供的另一种确定网络层A的输出矩阵的示意图；

图3是本申请实施例提供的另一种基于卷积神经网络的图像分析方法的流程示意图；

图4是本申请实施例提供的一种基于卷积神经网络的图像分析装置的功能单元组成框图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

请参见图1，图1是本申请实施例提供的一种基于卷积神经网络的图像分析系统的架构示意图，该基于卷积神经网络的图像分析系统包括神经网络处理器，其中：

神经网络处理器，用于获得网络层A的输入矩阵，网络层A为卷积神经网络模型包括的多个网络层中的其中一个，网络层A的输入矩阵是基于目标种类图像得到的；

神经网络处理器，还用于获得网络层A对应的目标卷积核和目标卷积步长，不同的网络层对应不同的卷积步长；

神经网络处理器，还用于根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵，目标卷积步长用于从网络层A的输入矩阵中筛选卷积计算所需的多个行输入数据，网络层A的输出矩阵用于表征目标种类图像包括的多个特征；

神经网络处理器，还用于根据预存的种类图像与预设操作的映射关系确定目标种类图像对应的目标预设操作；

神经网络处理器，还用于根据目标种类图像包括的多个特征执行目标预设操作。

请参见图2A，图2A是本申请实施例提供的一种基于卷积神经网络的图像分析方法的流程示意图，应用于神经网络处理器，该基于卷积神经网络的图像分析方法包括步骤201-205，具体如下：

201、神经网络处理器获得网络层A的输入矩阵，网络层A为卷积神经网络模型包括的多个网络层中的其中一个，网络层A的输入矩阵是基于目标种类图像得到的。

N个网络层包括输入层、卷积层、池化层、全连接层和输出层。

网络层A的输入矩阵可以是基于人脸图像得到的，也可以是基于车牌图像得到的，在此不作限定。其中，人脸图像或车牌图像均是通过摄像头采集得到的。

202、神经网络处理器获得网络层A对应的目标卷积核和目标卷积步长，不同的网络层对应不同的卷积步长。

在一个可能的示例中，神经网络处理器获得网络层A对应的目标卷积核和目标卷积步长，包括：

神经网络处理器根据网络层与卷积核的映射关系获得网络层A对应的目标卷积核；

神经网络处理器根据网络层与卷积步长的映射关系获得网络层A对应的目标卷积步长。

网络层与卷积核的映射关系预先存储于神经网络处理器中，网络层与卷积核的映射关系如下表1所示：

表1

网络层	卷积核
输入层	第一卷积核
卷积层	第二卷积核
池化层	第三卷积核
全连接层	第四卷积核
输出层	第五卷积核

网络层与卷积步长的映射关系预先存储于神经网络处理器中，网络层与卷积步长的映射关系如下表2所示：

表2

网络层	卷积步长
输入层	第一卷积步长
卷积层	第二卷积步长
池化层	第三卷积步长
全连接层	第四卷积步长
输出层	第五卷积步长

神经网络处理器获得网络层A对应的目标卷积步长还可以通过向中央处理器发送携带网络层A的卷积步长获取请求，卷积步长获取请求用于指示中央处理器反馈网络层A的卷积步长；接收中央处理器针对卷积步长获取请求发送的网络层A的目标卷积步长。

203、神经网络处理器根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵，目标卷积步长用于从网络层A的输入矩阵中筛选卷积计算所需的多个行输入数据，网络层A的输出矩阵用于表征目标种类图像包括的多个特征。

在一个可能的示例中，神经网络处理器包括P2个处理元件，P2个处理元件中的每个处理元件包括Q个乘法累加单元，P2和Q均为大于1的整数，神经网络处理器根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵之前，方法还包括：

神经网络处理器根据目标卷积核和目标卷积步长对网络层A的输入矩阵进行填充，得到网络层A的第一输入矩阵；

神经网络处理器根据网络层A的第一输入矩阵、P2和Q确定对网络层A的第一输入矩阵进行卷积计算需要的P1个处理元件。

在一个可能的示例中，目标卷积核的大小为F×F，目标卷积步长为S5×S6，神经网络处理器根据目标卷积核和目标卷积步长对网络层A的输入矩阵进行填充，得到网络层A的第一输入矩阵，包括：

神经网络处理器获取网络层A的输入矩阵的大小R5×R6；

神经网络处理器计算(R5-F)/S6，得到第一余数，以及根据第一余数和S6确定网络层A的输入矩阵对应的行填充数据；

神经网络处理器计算(R6-F)/S5，得到第二余数，以及根据第二余数和S5确定网络层A的输入矩阵对应的列填充数据；

神经网络处理器根据行填充数据和列填充数据对网络层A的输入矩阵执行填充操作，得到网络层A的第一输入矩阵。

目标卷积步长包括水平卷积步长和垂直卷积步长，水平卷积步长为S5，垂直卷积步长为S6。

网络层A的输入矩阵包括R5行输入数据和R6列输入数据。

具体地，神经网络处理器根据第一余数和S6确定网络层A的输入矩阵对应的行填充数据的实施方式可以为：

若第一余数为0且S6＝1或2，则神经网络处理器确定网络层A的输入矩阵对应的行填充数据为第0行输入数据和第(R5+1)行输入数据；

若第一余数为0且S6为大于1的奇数，则神经网络处理器确定网络层A的输入矩阵对应的行填充数据为第[-(S6+1)/2+2]行输入数据至第0行输入数据和第(R5+1)行输入数据至第[R5+(S6+1)/2]行输入数据；

若第一余数为0且S6为大于2的偶数，则神经网络处理器确定网络层A的输入矩阵对应的行填充数据为第(-S6/2+1)行输入数据至第0行输入数据和第(R5+1)行输入数据至第(R5+S6/2)行输入数据。

若第一余数不为0且S6＝2，则神经网络处理器确定网络层A的输入矩阵对应的行填充数据为第0行输入数据、第(R5+1)行输入数据和第(R5+2)行输入数据；

若第一余数不为0、S6与第一余数的差值T1为1且S6为大于2的奇数，则神经网络处理器确定网络层A的输入矩阵对应的行填充数据为第[-(T1+1) /2+1]行输入数据至第0行输入数据和第(R5+1)行输入数据至第[R5+(T1+1)/2]行输入数据；

若第一余数不为0、S6与第一余数的差值T1为1且S6为大于2的偶数，则神经网络处理器确定网络层A的输入矩阵对应的行填充数据为第[-(T1+2)/2+2]行输入数据至第0行输入数据和第(R5+1)行输入数据至第[R5+(T1+2)/2]行输入数据；

若第一余数不为0且S6与第一余数的差值T1为大于1的奇数，则神经网络处理器确定网络层A的输入矩阵对应的行填充数据为第[-(T1+1)/2+2]行输入数据至第0行输入数据和第(R5+1)行输入数据至第[R5+(T1+1)/2]行输入数据；

若第一余数不为0且S6与第一余数的差值T1为大于1的偶数，则神经网络处理器确定网络层A的输入矩阵对应的行填充数据为第(-T1/2+1)行输入数据至第0行输入数据和第(R5+1)行输入数据至第(R5+T1/2)行输入数据。

具体地，神经网络处理器根据第二余数和S5确定网络层A的输入矩阵对应的列填充数据的实施方式可以为：

若第二余数为0且S5＝1或2，则神经网络处理器确定网络层A的输入矩阵对应的列填充数据为第0列输入数据和第(R6+1)列输入数据；

若第二余数为0且S5为大于1的奇数，则神经网络处理器确定网络层A的输入矩阵对应的列填充数据为第[-(S5+1)/2+2]列输入数据至第0列输入数据和第(R6+1)列输入数据至第[R6+(S5+1)/2]列输入数据；

若第二余数为0且S5为大于2的偶数，则神经网络处理器确定网络层A的输入矩阵对应的列填充数据为第(-S5/2+1)列输入数据至第0列输入数据和第(R6+1)列输入数据至第(R6+S5/2)列输入数据；

若第二余数不为0且S5＝2，则神经网络处理器确定网络层A的输入矩阵对应的列填充数据为第0列输入数据、第(R6+1)列输入数据和第(R6+2)列输入数据；

若第二余数不为0、S5与第二余数的差值T2为1且S5为大于2的奇数，则神经网络处理器确定网络层A的输入矩阵对应的列填充数据为第[-(S5+1)/2+1]列输入数据至第0列输入数据和第(R6+1)列输入数据至第[R6+(S5+1)/2]列输入数据；

若第二余数不为0、S5与第二余数的差值T2为1且S5为大于2的偶数，则神经网络处理器确定网络层A的输入矩阵对应的列填充数据为第[-(S5+2)/2+2]列输入数据至第0列输入数据和第(R6+1)列输入数据至第[R6+(S5+2)/2]列输入数据；

若第二余数不为0且S5与第二余数的差值T2为大于1的奇数，则神经网络处理器确定网络层A的输入矩阵对应的列填充数据为第[-(T2+1)/2+2]列输入数据至第0列输入数据和第(R6+1)列输入数据至第[R6+(T2+1)/2]列输入数据；

若第二余数不为0且S5与第二余数的差值T2为大于1的偶数，则神经网络处理器确定网络层A的输入矩阵对应的列填充数据为第(-T2/2+1)列输入数据至第0列输入数据和第(R6+1)列输入数据至第(R6+T2/2)列输入数据。

举例来说，如图2B所示，图2B是本申请实施例提供的一种填充的示意图，网络层A的输入矩阵的大小为8×8，目标卷积核的大小为3×3，目标卷积步长为2×2，神经网络处理器确定网络层A的输入矩阵对应的行填充数据为第0行输入数据、第9行输入数据和第10行输入数据，神经网络处理器确定网络层A的输入矩阵对应的列填充数据为第0列输入数据、第9列填充数据和第10列输入数据，神经网络处理器根据网络层A的输入矩阵对应的行填充数据和列填充数据对网络层A的输入矩阵进行填充，得到网络层A的第一输入矩阵。

在一个可能的示例中，神经网络处理器根据网络层A的第一输入矩阵、P2和Q确定对网络层A的第一输入矩阵进行卷积计算需要的P1个处理元件，包括：

神经网络处理器获取网络层A的第一输入矩阵的大小R7×R8；

神经网络处理器计算R8/Q，得到商和第三余数；

若第三余数为0，则神经网络处理器将商确定为P1，P1为对网络层A的第一输入矩阵进行卷积计算需要的处理元件的数量，以及确定P1个处理元件中的每个处理元件包括Q个乘法累加单元；

若第三余数不为0，则神经网络处理器将商加1确定为P1，P1为对网络层A的第一输入矩阵进行卷积计算需要的处理元件的数量，以及确定P1个处理元件中的第1个处理元件至第(P1-1)个处理元件中的每个处理元件包括Q个乘法累加单元和第P1个处理元件包括的乘法累加单元的数量为第三余数。

举例来说，如图2C所示，图2C是本申请实施例提供的一种确定对网络层A的第一输入矩阵进行卷积计算需要的P1个处理元件的示意图，网络层A的第一输入矩阵包括140列输入数据，P2＝32，Q＝14，神经网络处理器计算140/14，得到商为10和第三余数均为0，神经网络处理器确定对网络层A的第一输入矩阵进行卷积计算需要10个处理元件，10个处理元件中的每个处理元件包括14个乘法累加单元。

网络层A的输出矩阵的大小为R9×R10，R9＝(R7-F)/S6+1，R10＝(R8-F)/S5+1。

在一个可能的示例中，目标卷积步长为S1×S2，网络层A的输入矩阵的大小为R1×R2，目标卷积核的大小为F×F，神经网络处理器根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵，包括：

当S1和S2均为1时，神经网络处理器获取网络层A的输入矩阵的第i行输入数据至第(i+F-1)行输入数据，i为1至(R1-F+1)中的任意一个；

神经网络处理器对第i行输入数据至第(i+F-1)行输入数据和目标卷积核进行卷积计算，得到网络层A的输出矩阵的第i行输出数据；

神经网络处理器根据(R1-F+1)行输出数据获得网络层A的输出矩阵，(R1-F+1)行输出数据包括第i行输出数据。

具体地，目标卷积核包括的9个元素值为(c、b、a、f、e、d、i、h、g)，神经网络处理器使用P1个处理元件对第i行输入数据至第(i+F-1)行输入数据和目标卷积核执行卷积计算操作，得到网络层A的输出矩阵的第i行输出数据的实施方式可以为：

B1：神经网络处理器利用P1个处理元件将第i行输入数据与b相乘，得到R2个第一中间值；

B2：神经网络处理器利用P1个处理元件对第i行输入数据进行左移，将左移后的第i行输出数据与a相乘，得到R2个第二中间值，以及将R2个第二中间值分别与R2个第一中间值累加，得到R2个第三中间值；

B3：神经网络处理器利用P1个处理元件对第i行输入数据进行右移，将右移后的第i行输出数据与c相乘，得到R2个第四中间值，以及将R2个第四中间值分别与R2个第三中间值累加，得到R2个第五中间值；

B4：神经网络处理器利用P1个处理元件将第(i+1)行输入数据与e相乘，得到R2个第六中间值，以及将R2个第六中间值分别与R2个第五中间值累加，得到R2个第七中间值；

B5：神经网络处理器利用P1个处理元件对第(i+1)行输入数据进行左移，将左移后的第(i+1)行输出数据与d相乘，得到R2个第八中间值，以及将R2个第八中间值分别与R2个第七中间值累加，得到R2个第九中间值；

B6：神经网络处理器利用P1个处理元件对第(i+1)行输入数据进行右移，将右移后的第(i+1)行输出数据与f相乘，得到R2个第十中间值，以及将R2个第十中间值分别与R2个第九中间值累加，得到R2个第十一中间值；

B7：神经网络处理器利用P1个处理元件将第i行输入数据与h相乘，得到R2个第十二中间值，以及将R2个第十二中间值分别与R2个第十一中间值累加，得到R2个第十三中间值；

B8：神经网络处理器利用P1个处理元件对第(i+F-1)行输入数据进行左移，将左移后的第(i+F-1)行输出数据与g相乘，得到R2个第十四中间值，以及将R2个第十四中间值分别与R2个第十三中间值累加，得到R2个第十五中间值；

B9：神经网络处理器利用P1个处理元件对第(i+F-1)行输入数据进行右移，将右移后的第(i+F-1)行输出数据与i相乘，得到R2个第十六中间值，以及将R2个第十六中间值分别与R2个第十五中间值累加，得到R2个第十七中间值。

P1个处理元件中的每个处理元件包括的至少一个乘法累加单元并行运算。

第i行输入数据至第(i+F-1)行输入数据中的每行输入数据进行左移是通过左移程序实现的，第i行输入数据至第(i+F-1)行输入数据中的每行输入数据进行右移是通过右移程序实现的，左移程序和右移程序预先存储于神经网络处理器中。

参见图2D，图2D是本申请实施例提供的一种多个处理元件的示意图，多个处理元件包括1个High(高位)PE、多个Middle(中间)PE和1个Low(低位)PE，对于每个PE中任意两个相邻的MAC来说，左侧MAC为高位MAC，右侧MAC为低位MAC；

处理元件为Processing Elements，简称PE；乘法累加单元为Multiply Accumulate unit，简称MAC。

对于High PE来说，左移的时候，高位MAC从PE内右侧MAC获取数据，最低位MAC从右侧PE的高位MAC获取数据；右移的时候，最高位MAC从填充总线获取数据，低位MAC从PE内左侧MAC获取数据，填充总线用于填充数据与处理元件之间的数据传输；

对于Low PE来说，左移的时候，高位MAC从PE内右侧MAC获取数据，最低位MAC从填充总线获取数据；右移的时候，最高位MAC从左侧PE的低位MAC获取数据，低位MAC从PE内的左侧MAC获取数据；

对于Middle PE来说，左移的时候，高位MAC从PE内右侧MAC获取数据，最低位MAC从右侧PE高位MAC获取数据；右移的时候，最高位MAC从左侧PE的低位MAC获取数据，低位MAC从PE内左侧MAC获取数据。

在申请实施例中，一个处理件组包括的P1个处理元件并行处理一行输入数据，相邻处理元件之间数据可以相互的左移或右移，然而，现有的卷积计算方式每次使用处理元件组对输入矩阵和卷积核矩阵进行卷积计算时，相邻处理元件之间数据不可移动。

其中，当F不为3时，神经网络处理器使用P1个处理元件对第i行输入数据至第(i+F-1)行输入数据和目标卷积核进行卷积计算，得到网络层A的输出矩阵的第i行输出数据的实施方式参照当F为3时，神经网络处理器使用P1个处理元件对第i行输入数据至第(i+F-1)行输入数据和目标卷积核进行卷积计算，得到网络层A的输出矩阵的第i行输出数据的实施方式，在此不再叙述。

举例来说，如图2E所示，图2E是本申请实施例提供的一种确定网络层A的输出矩阵的第i行输出数据的示意图，P1＝1，Q＝7，R2＝7，F＝3，S1＝1，i＝1，网络层A的输入矩阵的第1行输入数据至第3行输入数据中的每行输入数据包括7个元素值，第一行输入数据中0和8均为填充数据，第二行输入数据中16和12均为填充数据，第三行输入数据中32和40均为填充数据，目标卷积核包括的9个元素值为(c、b、a、f、e、d、i、h、g)，神经网络处理器使用7个乘法累加单元对网络层A的输入矩阵的第1行输入数据至第3行输入数据和目标卷积核进行卷积计算，得到网络层A的输出矩阵的第1行输出数据为(U1、U2、U3、U4、U5、U6、U7)。

可见，在本示例中，神经网络处理器使用P1个处理元件对网络层A的输入矩阵的第i行输入数据至第(i+F-1)行输入数据和目标卷积核进行卷积计算，得到网络层A的输出矩阵的第i行输出数据。由于P1个处理元件并行运算，这样有助于提高神经网络处理器的计算效率。

具体地，目标卷积核还包括偏置值，神经网络处理器根据(R1-F+1)行输出数据获得网络层A的输出矩阵的实施方式可以为：神经网络处理器根据(R3-F+1)行输出数据确定网络层A的待输出矩阵；神经网络处理器将网络层A的待输出矩阵的第m行第n列的元素值、偏置值之和确定为网络层A的输出矩阵的第m行第n列的元素值；神经网络处理器对网络层A的待输出矩阵的[(R1-F+1)×(R2-F+1)]个元素值中除第m行第n列的元素值之外的[(R1-F+1)×(R2-F+1)-1]个元素值执行相同操作，得到网络层A的输出矩阵的[(R1-F+1) ×(R2-F+1)-1]个元素值，网络层A的输出矩阵的[(R1-F+1)×(R2-F+1)-1]个元素值与网络层A的待输出矩阵的[(R1-F+1)×(R2-F+1)]个元素值中除第m行第n列的元素值之外的[(R1-F+1)×(R2-F+1)-1]个元素值一一对应；神经网络处理器根据网络层A的输出矩阵的第m行第n列的元素值和网络层A的输出矩阵的[(R1-F+1)×(R2-F+1)-1]个元素值确定网络层A的输出矩阵。

举例来说，如图2F所示，图2F是本申请实施例提供的一种确定网络层A的输出矩阵的示意图，R1＝5，F＝3，网络层A的输出矩阵的第1行输出数据包括的3个元素值为(2、4、3)，网络层A的输出矩阵的第2行输出数据包括的3个元素值为(5、7、8)，网络层A的输出矩阵的第3行输出数据包括的3个元素值为(9、1、6)，偏置值为1，神经网络处理器确定网络层A的输出矩阵包括的9个元素值为(3、5、4、6、8、9、10、2、7)。

当S1为1时，网络层A的输出矩阵的第i行输出数据为(U1、U2、U3、U4、U5、U6、U7、U8、U9)，当S1为3时，网络层A的输出矩阵的第i行输出数据为(U1、U4、U7)。

当S1为1时，网络层A的输出矩阵的第i行输出数据为(U1、U2、U3、U4、U5、U6、U7、U8、U9、U10、U11、U12、U13、U14、U15)，当S1为5时，网络层A的输出矩阵的第i行输出数据为(U1、U6、U11)。

当S1为1时，网络层A的输出矩阵的第i行输出数据为(U1、U2、U3、U4、U5、U6、U7、U8、U9、U10、U11、U12、U13、U14、U15、U16、U17、U18、U19、U20、U21)，当S1为7时，网络层A的输出矩阵的第i行输出数据为(U1、U8、U15)。

在一个可能的示例中，目标卷积步长为S3×S4，网络层A的输入矩阵的大小为R3×R4，目标卷积核的大小为F×F，神经网络处理器根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵，包括：

当S3和S4均为2时，神经网络处理器获取网络层A的输入矩阵的第(2j-1)行输入数据至第(2j+1)行输入数据，j为1至[(R3-F)/S4+1]中的任意一个；

神经网络处理器对筛选后的第(2j-1)行输入数据至第(2j+1)行输入数据和目标卷积核进行卷积计算，得到网络层A的输出矩阵的第j行输出数据；

神经网络处理器根据[(R3-F)/S4+1]行输出数据获得网络层A的输出矩阵，[(R3-F)/S4+1]行输出数据包括第j行输出数据。

在一个可能的示例中，神经网络处理器根据目标卷积步长对第(2j-1)行输入数据至第(2j+1)行输入数据进行筛选，得到筛选后的第(2j-1)行输入数据至第(2j+1)行输入数据，包括：

神经网络处理器根据S3对第(2j-1)行输入数据进行F次筛选，得到筛选后的第(2j-1)行输入数据，筛选后的第(2j-1)行输入数据包括F个第(2j-1)行子输入数据，每个第(2j-1)行子输入数据的数据个数为第(2j-1)行输入数据的数据个数的一半；

神经网络处理器根据S3对第2j行输入数据进行F次筛选，得到筛选后的第2j行输入数据，筛选后的第2j行输入数据包括F个第2j行子输入数据，每个第2j行子输入数据的数据个数为第2j行输入数据的数据个数的一半；

神经网络处理器根据S3对第(2j+1)行输入数据进行F次筛选，得到筛选后的第(2j+1)行输入数据，筛选后的第(2j+1)行输入数据包括F个第(2j+1)行子输入数据，每个第(2j+1)行子输入数据的数据个数为第(2j+1)行输入数据的数据个数的一半。

举例来说，如图2G所示，图2G是本申请实施例提供的一种对第1行输入数据至第3行输入数据筛选的示意图，第1行输入数据至第3行输入数据中的每行输入数据的数据个数均为15，第1行输入数据中0和14均为填充数据，第2行输入数据中16和30均为填充数据，第3行输入数据中32和46均为填充数据，水平卷积步长S3为2，对第1行输入数据进行3次筛选，得到3个第1行子输入数据；对第2行输入数据进行3次筛选，得到3个第2行子输入数据；对第3行输入数据进行3次筛选，得到3个第3行子输入数据。

具体地，目标卷积核包括的9个元素值为(c、b、a、f、e、d、i、h、g)，神经网络处理器使用P1个处理元件对第(2j-1)行输入数据至第(2j+1)行输入数据和目标卷积核执行卷积计算操作，得到网络层A的输出矩阵的第j行输出数据的实施方式可以为：

C1：神经网络处理器根据S3从第(2j-1)行输入数据中选取R4/S3个第一待相乘元素值，使用P1个处理元件将R4/S3个第一待相乘元素值分别与b相乘，得到R4/S3个第十八中间值；

C2：神经网络处理器根据S3从(2j-1)行输入数据中选取R4/S3个第二待相乘元素值，使用P1个处理元件将R4/S3个第二待相乘元素值分别与a相乘，得到R4/S3个第十九中间值，以及将R4/S3个第十九中间值分别与R4/S3个第十八中间值累加，得到R4/S3个第二十中间值；

C3：神经网络处理器根据S3从第(2j-1)行输入数据中选取R4/S3个第三待相乘元素值，使用P1个处理元件将R4/S3个第三待相乘元素值分别与c相乘，得到R4/S3个第二十一中间值，以及将R4/S3个第二十一中间值分别与R4/S3个第二十中间值累加，得到R4/S3个第二十二中间值；

C4：神经网络处理器根据S3从第2j行输入数据中选取R4/S3个第四待相乘元素值，使用P1个处理元件将R4/S3个第四待相乘元素值分别与e相乘，得到R4/S3个第二十三中间值，以及将R4/S3个第二十三中间值分别与R4/S3个第二十二中间值累加，得到R4/S3个第二十四中间值；

C5：神经网络处理器根据S3从第2j行输入数据中选取R4/S3个第五待相乘元素值，使用P1个处理元件将R4/S3个第五待相乘元素值分别与d相乘，得到R4/S3个第十二五中间值，以及将R4/S3个第二十五中间值分别与R4/S3个第二十四中间值累加，得到R4/S3个第二十六中间值；

C6：神经网络处理器根据S3从第2j行输入数据中选取R4/S3个第六待相乘元素值，使用P1个处理元件将R4/S3个第六待相乘元素值分别与f相乘，得到R4/S3个第二十七中间值，以及将R4/S3个第二十七中间值分别与R4/S3个第二十六中间值累加，得到R4/S3个第二十八中间值；

C7：神经网络处理器根据S3从第(2j+1)行输入数据中选取R4/S3个第七待相乘元素值，使用P1个处理元件将R4/S3个第七待相乘元素值分别与h相乘，得到R4/S3个第二十九中间值，以及将R4/S3个第二十九中间值分别与R4/S3个第二十八中间值累加，得到R4/S3个第三十中间值；

C8：神经网络处理器根据S3从第(2j+1)行输入数据中选取R4/S3个第八待相乘元素值，使用P1个处理元件将R4/S3个第八待相乘元素值分别与g相乘，得到R4/S3个第三十一中间值，以及将R4/S3个第三十一中间值分别与R4/S3个第三十中间值累加，得到R4/S3个第三十二中间值；

C9：神经网络处理器根据S3从第(2j+1)行输入数据中选取R4/S3个第九待相乘元素值，使用P1个处理元件将R4/S3个第九待相乘元素值分别与i相乘，得到R4/S3个第三十三中间值，以及将R4/S3个第三十三中间值分别与R4/S3个第三十二中间值累加，得到R4/S3个第三十四中间值。

当F不为3时，神经网络处理器使用P1个处理元件组对第(2j-1)行输入数据至第(2j+1)行输入数据和目标卷积核进行卷积计算，得到网络层A的输出矩阵的第j行输出数据的实施方式参照当F为3时，神经网络处理器使用P1个处理元件对第(2j-1)行输入数据至第(2j+1)行输入数据和目标卷积核进行卷积计算，得到网络层A的输出矩阵的第j行输出数据的实施方式，在此不再叙述。

当S1＝2时，网络层A的输出矩阵的第j行输出数据为(V1、V2、V3、V4、V5、V6、V7、V8)，当S1＝4时，网络层A的输出矩阵的第j行输出数据为(V1、V3、V5、V7)。

当S1＝2时，网络层A的输出矩阵的第j行输出数据为(V1、V2、V3、V4、V5、V6、V7、V8、V9)，当S1＝6时，网络层A的输出矩阵的第j行输出数据为(V1、V4、V7)。

举例来说，如图2H所示，图2H是本申请实施例提供的另一种确定网络层A的输出矩阵的示意图，P1＝1，Q＝7，R4＝13，F＝3，S3＝2，i＝1，网络层A的输入矩阵的第1行输入数据至第3行输入数据中的每行输入数据包括13个元素值，第一行输入数据中0和14均为填充数据，第二行输入数据中16和30均为填充数据，第三行输入数据中32和46均为填充数据，目标卷积核包括的9个元素值为(c、b、a、f、e、d、i、h、g)，神经网络处理器使用7个乘法累加单元对网络层A的输入矩阵的第1行输入数据至第3行输入数据和目标卷积核进行卷积计算，得到网络层A的输出矩阵的第1行输出数据。

可见，在本示例中，神经网络处理器使用P1个处理元件对网络层A的输入矩阵的第(2j-1)行输入数据至第(2j+1)行输入数据和目标卷积核进行卷积计算，得到网络层A的输出矩阵的第j行输出数据。由于P1个处理元件并行运算，这样有助于提高神经网络处理器的计算效率。

神经网络处理器根据[(R3-F)/S4+1]行输出数据和偏置值确定网络层A的输出矩阵的实施方式参照神经网络处理器根据(R1-F+1)行输出数据和偏置值确定网络层A的输出矩阵的实施方式，在此不再叙述。

204、神经网络处理器根据预存的种类图像与预设操作的映射关系确定目标种类图像对应的目标预设操作。

种类图像与预设操作一一对应；如果种类图像为人脸图像，那么预设操作为基于人脸图像获得人物信息；如果种类图像为车牌图像，那么预设操作为基于车牌图像获得车牌登记信息。

205、神经网络处理器根据目标种类图像包括的多个特征执行目标预设操作。

在一个可能的示例中，目标种类图像为人脸图像，目标种类图像包括的多个特征为多个人脸特征，神经网络处理器根据网络层A的输出矩阵执行目标预设操作，包括：

神经网络处理器判断多个人脸特征组成的人脸特征集合是否与人脸特征库匹配；

若多个人脸特征组成的人脸特征集合与目标人脸特征集合匹配，则神经网络处理器根据预存的人脸特征集合与人物信息的映射关系确定目标人脸特征集合对应的目标人物信息，目标人脸特征集合属于人脸特征库；

神经网络处理器对目标人物信息执行输出操作。

人脸特征集合与人物信息的映射关系预先存储于神经网络处理器中，人脸特征集合与人物信息的映射关系如下表3所示：

表3

人脸特征集合	人物信息
第一人脸特征集合	第一人物信息
第二人脸特征集合	第二人物信息
第三人脸特征结合	第三人物信息
……	……

人脸特征集合与人物信息一一对应；如果人脸特征集合为第一人脸特征集合，那么人物信息为第一人物信息。

可见，在本示例中，由于获得多个人脸特征的时间大大缩短，因此能够更快的确定多个人脸特征组成的人脸特征集合对应的人物信息，进而间接提高基于人脸图像分析得到相应人物信息的效率。

在一个可能的示例中，目标种类图像为车牌图像，目标种类图像包括的多个特征为目标车牌号码，神经网络处理器根据网络层A的输出矩阵执行目标预设操作，包括：

神经网络处理器判断目标车牌号码是否与车牌号码库匹配；

若目标车牌号码与车牌号码库匹配，则神经网络处理器根据预存的车牌号码与车辆登记信息的映射关系确定目标车牌号码对应的目标车牌登记信息；

神经网络处理器对目标车牌登记信息执行输出操作。

车牌号码与车辆登记信息的映射关系预先存储于神经网络处理器中，车牌号码与车辆登记信息的映射关系如下表4所示：

表4

车牌号码	车辆登记信息
第一车牌号码	第一车辆登记信息
第二车牌号码	第二车辆登记信息
第三车牌号码	第三车辆登记信息
……	……

车牌号码与车辆登记信息一一对应；如果车牌号码为第一车牌号码，那么车辆登记信息为第一车辆登记信息。

可见，在本示例中，由于获得车牌号码的时间大大缩短，因此能够更快的确定车牌号码对应的车辆登记信息，进而间接提高基于车牌图像分析得到相应车牌登记信息的效率。

与上述图2A所示的实施例一致的，请参见图3，图3是本申请实施例提供的另一种基于卷积神经网络的图像分析方法的流程示意图，应用于神经网络处理器，该基于卷积神经网络的图像分析方法包括步骤301-311，具体如下：

301、神经网络处理器获得网络层A的输入矩阵，网络层A的输入矩阵的大小为R3×R4，网络层A为卷积神经网络模型包括的多个网络层中的其中一个，网络层A的输入矩阵是基于人脸图像得到的。

302、神经网络处理器根据网络层与卷积核的映射关系确定网络层A对应的目标卷积核，目标卷积核的大小为F×F。

303、神经网络处理器根据网络层与卷积步长的映射关系获得网络层A对应的目标卷积步长，目标卷积步长为S3×S4，不同的网络层对应不同的卷积步长。

304、当S3和S4均为2时，神经网络处理器获取网络层A的输入矩阵的第(2j-1)行输入数据至第(2j+1)行输入数据，j为1至[(R3-F)/S4+1]中的任意一个。

305、神经网络处理器根据S3对第(2j-1)行输入数据进行F次筛选，得到筛选后的第(2j-1)行输入数据，筛选后的第(2j-1)行输入数据包括F个第(2j-1)行子输入数据，每个第(2j-1)行子输入数据的数据个数为第(2j-1)行输入数据的数据个数的一半。

306、神经网络处理器根据S3对第2j行输入数据进行F次筛选，得到筛选后的第2j行输入数据，筛选后的第2j行输入数据包括F个第2j行子输入数据，每个第2j行子输入数据的数据个数为第2j行输入数据的数据个数的一半。

307、神经网络处理器根据S3对第(2j+1)行输入数据进行F次筛选，得到筛选后的第(2j+1)行输入数据，筛选后的第(2j+1)行输入数据包括F个第(2j+1)行子输入数据，每个第(2j+1)行子输入数据的数据个数为第(2j+1)行输入数据的数据个数的一半。

308、神经网络处理器对筛选后的第(2j-1)行输入数据至第(2j+1)行输入数据和目标卷积核进行卷积计算，得到网络层A的输出矩阵的第j行输出数据。

309、神经网络处理器根据[(R3-F)/S4+1]行输出数据获得网络层A的输出矩阵，[(R3-F)/S4+1]行输出数据包括第j行输出数据，网络层A的输出矩阵用于表征多个人脸特征。

310、若多个人脸特征组成的人脸特征集合与人脸特征库中的目标人脸特征集合匹配，则神经网络处理器根据预存的人脸特征集合与人物信息的映射关系确定目标人脸特征集合对应的目标人物信息。

311、神经网络处理器对目标人物信息执行输出操作。

需要说明的是，图3所示的方法的各个步骤的具体实现过程可参见上述方法的具体实现过程，在此不再叙述。

请参见图4，图4为本申请实施例提供的一种基于卷积神经网络的图像分析装置的功能单元组成框图，应用于神经网络处理器，该基于卷积神经网络的图像分析装置400包括：

第一获得单元401，用于获得网络层A的输入矩阵，网络层A为卷积神经网络模型包括的多个网络层中的其中一个，网络层A的输入矩阵是基于目标种类图像得到的；

第二获得单元402，用于获得网络层A对应的目标卷积核和目标卷积步长，不同的网络层对应不同的卷积步长；

计算单元403，用于根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵，目标卷积步长用于从网络层A的输入矩阵中筛选卷积计算所需的多个行输入数据，网络层A的输出矩阵用于表征目标种类图像包括的多个特征；

确定单元404，用于根据预存的种类图像与预设操作的映射关系确定目标种类图像对应的目标预设操作；

执行单元405，用于根据目标种类图像包括的多个特征执行目标预设操作。

在一个可能的示例中，目标种类图像为人脸图像，目标种类图像包括的多个特征为多个人脸特征，在根据网络层A的输出矩阵执行目标预设操作方面，上述执行单元405具体用于：

对目标人物信息执行输出操作。

在一个可能的示例中，目标种类图像为车牌图像，目标种类图像包括的多个特征为目标车牌号码，在根据网络层A的输出矩阵执行目标预设操作方面，上述执行单元405具体用于：

判断目标车牌号码是否与车牌号码库匹配；

对目标车牌登记信息执行输出操作。

在一个可能的示例中，在获得网络层A对应的目标卷积核和目标卷积步长方面，上述第二获得单元402具体用于：

根据网络层与卷积核的映射关系获得网络层A对应的目标卷积核；

根据网络层与卷积步长的映射关系获得网络层A对应的目标卷积步长。

在一个可能的示例中，目标卷积步长为S1×S2，网络层A的输入矩阵的大小为R1×R2，目标卷积核的大小为F×F，在根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵方面，上述计算单元403具体用于：

在一个可能的示例中，目标卷积步长为S3×S4，网络层A的输入矩阵的大小为R3×R4，目标卷积核的大小为F×F，在根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵方面，上述计算单元403具体用于：

在一个可能的示例中，在根据目标卷积步长对第(2j-1)行输入数据至第(2j+1)行输入数据进行筛选，得到筛选后的第(2j-1)行输入数据至第(2j+1)行输入数据方面，上述计算单元403具体用于：

根据S3对第(2j-1)行输入数据进行F次筛选，得到筛选后的第(2j-1)行输入数据，筛选后的第(2j-1)行输入数据包括F个第(2j-1)行子输入数据，每个第(2j-1)行子输入数据的数据个数为第(2j-1)行输入数据的数据个数的一半；

根据S3对第2j行输入数据进行F次筛选，得到筛选后的第2j行输入数据，筛选后的第2j行输入数据包括F个第2j行子输入数据，每个第2j行子输入数据的数据个数为第2j行输入数据的数据个数的一半；

根据S3对第(2j+1)行输入数据进行F次筛选，得到筛选后的第(2j+1)行输入数据，筛选后的第(2j+1)行输入数据包括F个第(2j+1)行子输入数据，每个第(2j+1)行子输入数据的数据个数为第(2j+1)行输入数据的数据个数的一半。

与上述图2A和图3所示的实施例一致的，请参见图5，图5是本申请实施例提供的一种电子设备的结构示意图，该电子设备500包括处理器、存储器、通信接口以及一个或多个程序，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行以下步骤的指令：

根据目标卷积步长定对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵，目标卷积步长用于从网络层A的输入矩阵中筛选卷积计算所需的多个行输入数据，网络层A的输出矩阵用于表征目标种类图像包括的多个特征；

根据目标种类图像包括的多个特征执行目标预设操作。

在一个可能的示例中，目标种类图像为人脸图像，目标种类图像包括的多个特征为多个人脸特征，在根据网络层A的输出矩阵执行目标预设操作方面，上述程序包括具体用于执行以下步骤的指令：

对目标人物信息执行输出操作。

在一个可能的示例中，目标种类图像为车牌图像，目标种类图像包括的多个特征为目标车牌号码，在根据网络层A的输出矩阵执行目标预设操作方面，上述程序包括具体用于执行以下步骤的指令：

判断目标车牌号码是否与车牌号码库匹配；

对目标车牌登记信息执行输出操作。

在一个可能的示例中，在获得网络层A对应的目标卷积核和目标卷积步长方面，上述程序包括具体用于执行以下步骤的指令：

在一个可能的示例中，目标卷积步长为S1×S2，网络层A的输入矩阵的大小为R1×R2，目标卷积核的大小为F×F，在根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵方面，上述程序包括具体用于执行以下步骤的指令：

当S1和S2均为1时，获取网络层A的第一输入矩阵的第i行输入数据至第(i+F-1)行输入数据，i为1至(R1-F+1)中的任意一个；

在一个可能的示例中，目标卷积步长为S3×S4，网络层A的输入矩阵的大小为R3×R4，目标卷积核的大小为F×F，在根据目标卷积步长对网络层A的输入矩阵和目标卷积核进行卷积计算，得到网络层A的输出矩阵方面，上述程序包括具体用于执行以下步骤的指令：

在一个可能的示例中，在根据目标卷积步长对第(2j-1)行输入数据至第(2j+1)行输入数据进行筛选，得到筛选后的第(2j-1)行输入数据至第(2j+1)行输入数据方面，上述程序包括具体用于执行以下步骤的指令：

本申请实施例还提供一种神经网络处理器，该神经网络处理器用于实现如上述方法实施例中记载的任一方法的部分或全部步骤。

本申请实施例还提供一种神经网络处理器，该神经网络处理器包括如上述装置实施例中记载的任一卷积计算装置。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

Claims

一种基于卷积神经网络的图像分析方法，其特征在于，应用于神经网络处理器，包括：

获得网络层A的输入矩阵，所述网络层A为卷积神经网络模型包括的多个网络层中的其中一个，所述网络层A的输入矩阵是基于目标种类图像得到的；

获得所述网络层A对应的目标卷积核和目标卷积步长，不同的网络层对应不同的卷积步长；

根据所述目标卷积步长对所述网络层A的输入矩阵和所述目标卷积核进行卷积计算，得到所述网络层A的输出矩阵，所述目标卷积步长用于从所述网络层A的输入矩阵中筛选卷积计算所需的多个行输入数据，所述网络层A的输出矩阵用于表征所述目标种类图像包括的多个特征；

根据预存的种类图像与预设操作的映射关系确定所述目标种类图像对应的目标预设操作；

根据所述目标种类图像包括的多个特征执行所述目标预设操作。
根据权利要求1所述的方法，其特征在于，所述目标种类图像为人脸图像，所述目标种类图像包括的多个特征为多个人脸特征，所述根据所述网络层A的输出矩阵执行所述目标预设操作，包括：

判断所述多个人脸特征组成的人脸特征集合是否与人脸特征库匹配；

若所述多个人脸特征组成的人脸特征集合与目标人脸特征集合匹配，则根据预存的人脸特征集合与人物信息的映射关系确定所述目标人脸特征集合对应的目标人物信息，所述目标人脸特征集合属于所述人脸特征库；

对所述目标人物信息执行输出操作。
根据权利要求1所述的方法，其特征在于，所述目标种类图像为车牌图像，所述目标种类图像包括的多个特征为目标车牌号码，所述根据所述网络层A的输出矩阵执行所述目标预设操作，包括：

判断所述目标车牌号码是否与车牌号码库匹配；

若所述目标车牌号码与所述车牌号码库匹配，则根据预存的车牌号码与车辆登记信息的映射关系确定所述目标车牌号码对应的目标车牌登记信息；

对所述目标车牌登记信息执行输出操作。
根据权利要求2或3所述的方法，其特征在于，所述获得所述网络层A对应的目标卷积核和目标卷积步长，包括：

根据网络层与卷积核的映射关系获得所述网络层A对应的目标卷积核；

根据网络层与卷积步长的映射关系获得所述网络层A对应的目标卷积步长。
根据权利要求4所述的方法，其特征在于，所述目标卷积步长为S1×S2，所述网络层A的输入矩阵的大小为R1×R2，所述目标卷积核的大小为F×F，所述根据所述目标卷积步长对所述网络层A的输入矩阵和所述目标卷积核进行卷积计算，得到所述网络层A的输出矩阵，包括：

当所述S1和所述S2均为1时，获取所述网络层A的输入矩阵的第i行输入数据至第(i+F-1)行输入数据，所述i为1至(R1-F+1)中的任意一个；

对所述第i行输入数据至第(i+F-1)行输入数据和所述目标卷积核进行卷积计算，得到所述网络层A的输出矩阵的第i行输出数据；

根据(R1-F+1)行输出数据获得所述网络层A的输出矩阵，所述(R1-F+1)行输出数据包括所述第i行输出数据。
根据权利要求4所述的方法，其特征在于，所述目标卷积步长为S3×S4，所述网络层A的输入矩阵的大小为R3×R4，所述目标卷积核的大小为F×F，所述根据所述目标卷积步长对所述网络层A的输入矩阵和所述目标卷积核进行卷积计算，得到所述网络层A的输出矩阵，包括：

当所述S3和所述S4均为2时，获取所述网络层A的输入矩阵的第(2j-1)行输入数据至第(2j+1)行输入数据，所述j为1至[(R3-F)/S4+1]中的任意一个；

根据所述目标卷积步长对所述第(2j-1)行输入数据至第(2j+1)行输入数据进行筛选，得到筛选后的所述第(2j-1)行输入数据至第(2j+1)行输入数据；

对所述筛选后的所述第(2j-1)行输入数据至第(2j+1)行输入数据和所述目标卷积核进行卷积计算，得到所述网络层A的输出矩阵的第j行输出数据；

根据[(R3-F)/S4+1]行输出数据获得所述网络层A的输出矩阵，所述[(R3-F)/S4+1]行输出数据包括所述第j行输出数据。
根据权利要求6所述的方法，其特征在于，所述根据所述目标卷积步长对所述第(2j-1)行输入数据至第(2j+1)行输入数据进行筛选，得到筛选后的所述第(2j-1)行输入数据至第(2j+1)行输入数据，包括：

根据所述S3对所述第(2j-1)行输入数据进行F次筛选，得到筛选后的所述第(2j-1)行输入数据，所述筛选后的所述第(2j-1)行输入数据包括F个第(2j-1)行子输入数据，每个第(2j-1)行子输入数据的数据个数为所述第(2j-1)行输入数据的数据个数的一半；

根据所述S3对所述第2j行输入数据进行F次筛选，得到筛选后的所述第2j行输入数据，所述筛选后的所述第2j行输入数据包括F个第2j行子输入数据，每个第2j行子输入数据的数据个数为所述第2j行输入数据的数据个数的一半；

根据所述S3对所述第(2j+1)行输入数据进行F次筛选，得到筛选后的所述第(2j+1)行输入数据，所述筛选后的所述第(2j+1)行输入数据包括F个第(2j+1)行子输入数据，每个第(2j+1)行子输入数据的数据个数为所述第(2j+1)行输入数据的数据个数的一半。
一种基于卷积神经网络的图像分析装置，其特征在于，应用于神经网络处理器，包括：

第一获得单元，用于获得网络层A的输入矩阵，所述网络层A为卷积神经网络模型包括的多个网络层中的其中一个，所述网络层A的输入矩阵是基于目标种类图像得到的；

第二获得单元，用于获得所述网络层A对应的目标卷积核和目标卷积步长，不同的网络层对应不同的卷积步长；

计算单元，用于根据所述目标卷积步长对所述网络层A的输入矩阵和所述目标卷积核进行卷积计算，得到所述网络层A的输出矩阵，所述目标卷积步长用于从所述网络层A的输入矩阵中筛选卷积计算所需的多个行输入数据，所述网络层A的输出矩阵用于表征所述目标种类图像包括的多个特征；

确定单元，用于根据预存的种类图像与预设操作的映射关系确定所述目标种类图像对应的目标预设操作；

执行单元，用于根据所述目标种类图像包括的多个特征执行所述目标预设操作。
一种神经网络处理器，其特征在于，所述神经网络处理器用于实现如权利要求1-7任一项所述的方法的部分或全部步骤。
一种神经网络处理器，其特征在于，所述神经网络处理器包括如权利要求8所述的卷积计算装置。
一种电子设备，其特征在于，包括处理器、存储器、通信接口以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-7任一项所述的方法中的部分或全部步骤的指令。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行，以实现如权利要求1-7任一项所述的方法。