WO2018077295A1

WO2018077295A1 - 一种卷积神经网络的数据处理方法和装置

Info

Publication number: WO2018077295A1
Application number: PCT/CN2017/108468
Authority: WO
Inventors: 张阳明; 高剑林; 章恒
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-10-31
Filing date: 2017-10-31
Publication date: 2018-05-03
Also published as: US11222240B2; US20190147299A1; US20220067447A1; US11593594B2; CN107742150A; CN107742150B

Abstract

一种卷积神经网络的数据处理方法和装置，该方法应用于计算设备，包括在所述计算设备的处理器或协处理器上执行如下步骤：获取特征矩阵的矩阵参数（101），根据该矩阵参数通过第一总线从第一缓冲空间中读取图像数据矩阵中相应的数据，得到待展开数据矩阵，并通过第二总线将所述待展开数据矩阵发送至第二预设缓冲空间并保存（102）；通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据该矩阵参数对待展开数据矩阵进行数据展开，得到展开后的数据（103），通过第一总线从所述第一缓冲空间中读取图像数据矩阵中预设数量的未展开数据，通过第二总线将所述未展开数据发送至第二预设缓冲空间并保存，并根据该未展开数据更新第二预设缓冲空间中保存的该待展开数据矩阵（104），返回执行所述通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据该矩阵参数对待展开数据矩阵进行展开的步骤（103）。

Description

一种卷积神经网络的数据处理方法和装置

本申请要求于2016年10月31日提交中国专利局、申请号为201610933471.7、发明名称为“一种卷积神经网络的数据处理方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及神经网络技术领域，具体涉及一种卷积神经网络的数据处理方法和装置。

发明背景

神经网络及深度学习算法已经获得了非常成功的应用，并处于迅速发展的过程中。业界普遍预期这种新的计算方式有助于实现更为普遍和更为复杂的智能应用。

其中，卷积神经网络(Convolutional Neural Network，CNN)因为其在图像领域的突出效果，在深度学习中有着重要的位置，是运用最为广泛的神经网络之一。

卷积神经网络的卷积运算主要集中在卷积层，卷积神经网络的卷积运算可以分为数据展开和矩阵乘法两个过程。然而，在卷积神经网络的数据展开过程中有些数据会被重复读取多次，容易造成卷积运算所需的数据带宽的增加或者存储空间的增大，降低了卷积神经网络处理系统的数据处理能力。

发明内容

本发明实施例提供一种卷积神经网络的数据处理方法和装置及非易失性计算机可读存储介质，可以提升卷积神经网络处理系统的数据处理能力。

本发明实施例提供一种卷积神经网络的数据处理方法，应用于计算设备，包括在所述计算设备的处理器或协处理器上执行如下步骤：

获取特征矩阵的矩阵参数；

根据所述矩阵参数通过第一总线从第一缓冲空间中读取图像数据矩阵中相应的数据，得到待展开数据矩阵，并通过第二总线将所述待展开数据矩阵发送至第二预设缓冲空间并保存；

通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据所述矩阵参数对待展开数据矩阵进行数据展开，得到展开后的数据；

通过第一总线从所述第一缓冲空间中读取图像数据矩阵中预设数量的未展开数据，通过第二总线将所述未展开数据发送至第二预设缓冲空间并保存，并根据所述未展开数据更新第二预设缓冲空间中保存的所述待展开数据矩阵；

返回执行所述通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据所述矩阵参数对待展开数据矩阵进行展开的步骤。

本发明实施例还提一种卷积神经网络的数据处理装置，包括一个或一个以上处理器和一个或一个以上非易失性存储介质，所述一个或一个以上非易失性存储介质存储一个或多个计算机可读指令，经配置由所述一个或者一个以上处理器执行；所述一个或一个以上计算机可读指令包括：

获取单元，用于获取特征矩阵的矩阵参数；

读取单元，用于根据所述矩阵参数通过第一总线从第一缓冲空间中读取图像数据矩阵中相应的数据，得到待展开数据矩阵；

保存单元，用于通过第二总线将所述待展开数据矩阵发送至第二预设缓冲空间并保存；

数据展开单元，用于通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据所述矩阵参数对待展开数据矩阵进行数据展开，得到展开后的数据；

更新单元，用于通过第一总线从所述第一缓冲空间中读取图像数据矩阵中相应数量的未展开数据，通过第二总线将所述未展开数据发送至第二预设缓冲空间并保存，根据所述未展开数据更新第二预设缓冲空间中保存的所述待展开数据矩阵，并触发所述数据展开单元执行所述通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据所述矩阵参数对待展开数据矩阵进行展开的步骤。

本发明实施例提供一种非易失性计算机可读存储介质，存储有计算机可读指令，所述计算机可读指令能够使至少一个处理器执行如上所述的卷积神经网络的数据处理方法。

附图简要说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的卷积神经网络的数据处理方法的流程图；

图2a至图2d是本发明实施例提供的数据滑动展开的示意图；

图3a至图3i是卷积神经网络的数据展开的示意图；

图4是卷积神经网络的矩阵乘法的示意图；

图5是本发明实施例提供的卷积神经网络处理系统的架构示意图；

图6a是在CPU上进行卷积神经网络的数据展开的示意图；

图6b是在FPGA上进行卷积神经网络的数据展开的示意图；

图7a至图7c是本发明实施例提供的卷积神经网络的数据展开的示意图；

图8a是本发明实施例提供的卷积神经网络的数据处理方法的另一流程图；

图8b是本发明实施例提供的环形缓冲器的读写示意图；

图8c是本发明实施例提供的基于卷积神经网络的业务场景的架构示意图；

图9a是本发明实施例提供的卷积神经网络的数据处理装置的结构示意图；

图9b是本发明实施例提供的卷积神经网络的数据处理装置的另一结构示意图；

图9c是本发明实施例提供的一种协处理器的结构示意图。

实施本发明的方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种卷积神经网络的数据处理方法和装置。以下分别进行详细说明。

本实施例将从卷积神经网络的数据处理装置的角度进行描述，该数据处理装置具体可以集成在计算设备的处理器中，该处理器可以为CPU，或者集成在FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application Specific Integrated Circuit，专用集成电路)、GPU(Graphics Processing Unit，图形处理器)等协处理器中。

一种卷积神经网络的数据处理方法，获取特征矩阵的矩阵参数，然后，根据该矩阵参数读取图像数据矩阵中相应的数据，得到待展开数据矩阵，根据该矩阵参数对待展开数据矩阵进行数据展开，得到展开后的数据，读取图像数据矩阵中预设数量的未展开数据，并根据该未展开数据更新该待展开数据矩阵，返回执行根据该矩阵参数对待展开数据矩阵进行展开的步骤。

如图1所示，一种卷积神经网络的数据处理方法，应用于计算设备，所述计算设备的处理器或协处理器执行的具体流程可以如下：

步骤101、获取特征矩阵的矩阵参数。

该特征矩阵为卷积运算的卷积核，也称为权重矩阵，该特征矩阵可以根据实际需求设定。其中，特征矩阵的矩阵参数可以包括矩阵行列数，可称为卷积核的尺寸。

步骤102、根据该矩阵参数通过第一总线从第一缓冲空间中读取图像数据矩阵中相应的数据，得到待展开数据矩阵，并通过第二总线将所述待展开数据矩阵发送至第二预设缓冲空间并保存。

该图像数据矩阵中的元素为图像像素对应的像素数据，如经过处理后的像素值。图像数据矩阵的行列数表示图像的大小。

其中，该图像数据矩阵可以存储在卷积神经网络处理系统的加速卡中，比如，存储在加速卡的DDR(Double Data Rate，双倍速率同步动态随机存储器)存储器中。如果图像数据矩阵存储在DDR中，则上述第一总线为处理器或协处理与DDR之间连接的总线。也即步骤102中的“根据该矩阵参数通过第一总线从第一缓冲空间中读取图像数据矩阵中相应的数据”可以包括：根据矩阵参数通过处理器或协处理与DDR之间连接的总线从DDR读取图像数据矩阵中相应的数据。

本实施例中，可以根据矩阵参数读取图像数据矩阵中相应行数或者列数的矩阵。

在矩阵参数包括特征矩阵的行列数时，读取的行数可以与特征矩阵行数对应，或者读取的列数可以与特征矩阵列数对应。

比如，图像数据矩阵为N*N的矩阵，特征矩阵为K*K的矩阵时，可以读取N*N图像数据矩阵中K行数据，得到K*N的待展开数据矩阵；该K和N为正整数，且K≤N。

该读取数据的起始位置可以根据实际需求设定，比如，可以从图像数据矩阵的第一行开始读取K行数据，也可以是从第2行开始读取K行数据等等。

又比如，图像数据矩阵为N*N的矩阵，特征矩阵为K*M的矩阵时，可以读取N*N图像数据矩阵中M列数据，得到N*M的待展开数据矩阵，该M为正整数，且M≤N。

在得到待展开数据矩阵后，可以通过第二总线将所述待展开数据矩阵发送至第二预设缓冲空间并保存。该第二预设缓冲空间可以为预设缓冲器，例如，该预设缓冲器可以为协处理器中的缓冲器或者DDR，第二总线为处理器或协处理器与预设缓冲器之间连接的总线。

步骤103、通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据该矩阵参数对待展开数据矩阵进行数据展开，得到展开后的数据。

具体地，可以根据特征矩阵的行列数对待展开数据矩阵进行数据展开，展开之后可以得到若干数据组，在完成图像数据矩阵的数据展开后，可以根据该数据组形成一个数据矩阵，即展开后数据矩阵。后续可以根据展开后数据矩阵和特征矩阵作矩阵乘法，得到相应的数据，完成数据的卷积运算。

比如，在得到K*N的待展开数据矩阵之后，可以根据特征矩阵的行列数对该K*N的待展开数据矩阵进行展开。

此时，步骤103中的“根据该矩阵参数对待展开数据矩阵进行数据展开”可以包括：

根据该矩阵参数和该待展开数据矩阵的数据在第二预设缓冲空间内的存储地址，对该待展开数据矩阵进行数据展开。

如，将K*N的待展开数据矩阵写入第二预设缓冲空间内，然后，根据K*K特征矩阵的行列数以及K*N待展开数据矩阵内数据在第二预设缓冲空间内的存储地址，对该K*N待展开数据矩阵进行数据展开。

本实施例中对待展开数据矩阵可以进行滑动数据展开，具体地，在待展开数据矩阵上滑动窗口，然后对每次滑动后的窗口内数据进行数据展开，展开之后可以得到若干数据组。也即步骤“根据该矩阵参数和该待展开数据矩阵的数据在预设第二缓冲空间内的存储地址，对该待展开数据矩阵进行数据展开”可以包括：

根据该矩阵参数确定滑动窗口；

根据预设滑动方向和预设滑动步长在该待展开数据矩阵上滑动该滑动窗口；

在每次滑动后获取该滑动窗口内数据在该第二预设缓冲空间内的存储地址；

根据该存储地址从该第二预设缓冲空间读出相应的数据，以完成数据展开。

具体地，根据特征矩阵的行列数据可以确定相应尺寸的滑动窗口，比如，特征矩阵为K*K的矩阵时，可以确定一个K*K的滑动窗口。该滑动窗口用于从待展开数据矩阵中选取相应的数据进行展开。

其中，预设滑动方向可以包括：图像数据矩阵的行方向、列方向等等。实际应用中，该预设滑动方向可以与步骤102的数据读取方式对应，比如，在读取图像数据矩阵的若干行数据时，该预设滑动方向可以为图像数据矩阵的行方向；又比如，在读取图像数据矩阵的若干列数据时，该预设滑动方向可以为图像数据矩阵的列方向。

该预设滑动步长为需要滑动的距离，可以根据实际数据展开需求设定，其可用在数据矩阵上需要滑动的数据个数来表示。比如，该预设滑动步长为1个、2个、3个数据等等。

在得到预设滑动步长、预设滑动方向和滑动窗口之后，可以沿着预设滑动方向以预设滑动步长在待展开数据矩阵上滑动窗口，在每次滑动窗口之后，可以获取窗口内数据在第二预设缓冲空间内的地址，然后，根据该地址和预设读取顺序从预设缓冲内读取相应的数据，以完成数据展开，也即采用跳地址方式读取数据实现数据展开。

如图2a-图2d所示的数据滑动展开的示意图，以从图像数据矩阵读取相应行的数据为例，参考图2a，假设图像数据矩阵为5*5的矩阵、特征矩阵为3*3的矩阵。首先从5*5图像数据矩阵中读取3行数据得到3*5待展开数据矩阵，即图2b-图2d中的矩阵，并写入第二预设缓冲空间，之后根据3*3特征矩阵的行列数确定滑动窗口，即图2b-图2d中的虚线框。参考图2b-图2d，可沿着行方向以一个数据的滑动步长在3*5待展开数据矩阵上滑动该滑动窗口，即从左到右滑动该滑动窗口。

参考图2b，在初始滑动位置，即第0次滑动之后，可以获取该滑动窗口内数据在第二预设缓冲空间内的存储地址，然后，根据该存储地址跳地址从第二预设缓冲空间中读取相应的数据，得到数据组(11、12、13、21、22、23、31、32、33)，称为第一数据组。参考图2c，在得到第一数据组之后，在行方向以一个数据的滑动步长滑动该窗口，接着获取该滑动窗口内数据在第二预设缓冲空间内的存储地址，并根据该存储地址跳地址从第二预设缓冲空间中读取相应的数据，得到数据组(12、13、14、22、23、24、32、33、34)，称为第二数据组。参考图2d，在得到第二数据组之后，继续在行方向以一个数据的滑动步长滑动该窗口，接着获取该滑动窗口内数据在第二预设缓冲空间内的存储地址，并根据该存储地址跳地址从第二预设缓冲空间中读取相应的数据，得到数据组(13、14、15、23、24、25、33、34、35)，称为第三数据组，至此便完成了对3*5待展开数据矩阵的数据展开。

其中，本实施例中滑动窗口在待展开数据矩阵上的初始位置，可以根据实际需求设定，比如，参考图2b，可以自待展开数据矩阵的第一列开始滑动，在其他实施例中，还可以自待展开数据矩阵的第二或者三列开始滑动。

同理，在从图像数据矩阵读取相应列的数据形成待展开数据矩阵的情况下，其也可以根据特征矩阵的行列数确定滑动窗口，然后，沿着待展开数据矩阵的列方向以预定滑动步长滑动该窗口，在每次滑动窗口后获取窗口内数据在第二预设缓冲空间内的存储地址，基于该存储地址从第二预设缓冲空间中读取相应的数据。其数据滑动展开的过程与上述实施例介绍的数据滑动展开类似，可以参考图2a-2d，此处不再赘述。

步骤104、通过第一总线从所述第一缓冲空间中读取图像数据矩阵中预设数量的未展开数据，通过第二总线将所述未展开数据发送至第二预设缓冲空间并保存，并根据该未展开数据更新第二预设缓冲空间中保存的该待展开数据矩阵，返回执行步骤103。

具体地，通过第一总线从第一缓冲空间中读取图像数据矩阵中预设数量的未展开数据，通过第二总线将将读取的未展开数据发送至第二预设缓冲空间内并保存，并根据该未展开数据更新第二预设缓冲空间中保存的该待展开数据矩阵。

其中，未展开数据的数量可以根据实际需求设定，如1个、5个、1行、2行、或者1列、2列等等。

具体地，可以基于卷积步进通过第一总线从第一缓冲空间中读取图像数据矩阵中预设数量的未展开数据。该卷积步进表示在对待展开数据矩阵展开后需要从图像数据矩阵中读取的未展开数据的行数或列数。

以图像数据矩阵为N*N的矩阵，特征矩阵为K*K的矩阵为例，在对K*N待展开数据矩阵进行数据展开之后，可以基于卷积步进从第一缓冲空间中保存的N*N图像数据矩阵中读取若干数量的数据，如相应行数或者列数的未展开数据。比如当卷积步进S＝1时，可以根据卷积步进从N*N图像数据矩阵中读取一行或者一列未展开数据，然后，根据读取的未展开数据更新第二预设缓冲空间中保存的该待展开数据矩阵。

具体地，以从图像数据矩阵读取行数据组成待展开数据矩阵为例；当卷积步进S＝1时，在对待展开数据矩阵进行数据展开之后，可以从第一缓冲空间中保存的图像数据矩阵中读取第K+1行数据，并根据该第K+1行数据更新第二预设缓冲空间中保存的待展开数据矩阵。在更新完待展开数据矩阵之后返回步骤102通过第二总线从第二预设缓冲空间中读取更新后的待展开数据矩阵，并对更新后的待展示数据矩阵进行数据展开，在展开完成之后，再次从第一缓冲空间中保存的图像数据矩阵中读取第K+2行数据，并根据该K+2行数据更新当前待展开数据矩阵，返回步骤102通过第二总线从第二预设缓冲空间中读取更新后的待展开数据矩阵，并对更新后的待展示数据矩阵进行数据展开。在展开完成之后再次从第一缓冲空间中保存的图像数据矩阵中读取第K+3行数据……以此类推，直到读取完图像数据矩阵内所有的数据为止。

其中，步骤104中的“根据该未展开数据更新第二预设缓冲空间中保存的该待展开数据矩阵”可以包括：通过第二总线从所述第二预设缓冲空间中读取所述未展开数据，从该未展开数据中选取预设数量的目标数据，根据该目标数据覆盖第二预设缓冲空间中保存的该待展开数据矩阵内对应的数据。比如，在读取图像数据矩阵中至少两行或者两列未展开数据时，可以从两行数据中选取一行或者一列数据来更新待展开数据矩阵。

在其他实施例中，如果读取的未展开数据的数量与目标数据对应的预设数量相等时，可以直接根据该未展开数据更新待展开数据矩阵，比如，目标数据对应的预设数量为一行数量的数据时，可以在读取图像数据矩阵中一行数据之后，直接根据该行数据更新待展开数据矩阵。例如，在读取第K+1行数据后，直接根据该第K+1行数据更新待展开数据矩阵。

本实施例中，更新待展开数据矩阵的方式可以包括数据覆盖方式，即根据选取的目标数据覆盖待展开数据矩阵中相应的数据，以完成更新。

在本实施例数据处理方法中，因为已经保存至第二预设缓冲空间的待展开数据矩阵中的一些数据可以复用，因此只需要从第一缓冲空间中读取图像数据矩阵中预设数量的未展开数据，即未被保存到第二预设缓冲空间的数据，从而避免了在数据展开时对某些数据重复读取，减小了卷积神经网络处理系统内存储空间。而且，因为只需要通过第一总线读取图像数据矩阵中预设数量的未展开数据，通过第二总线将未展开数据发送至第二预设缓冲空间，因此可以减少数据传输量，节省第一总线和第二总线的传输带宽，进而提升了处理系统的数据处理能力。下面将介绍本发明实施例的几种卷积运算中数据处理方法的具体实现过程。

以图2a所示的图像数据矩阵和特征矩阵为例，图3a-3i为采用一数据处理方法进行数据展开的过程。在数据展开之后，参考图4可以作展开后数据矩阵和卷积核乘法，以完成卷积运算。

由图3a-图3i可知，该数据处理方法在数据展开时会有些数据会被重复读取多次，容易造成数据带宽的增加和存储空间的增大，降低了处理系统的处理能力。

实际情况中，如果在卷积神经网络处理系统采用图3a-图3i所示的数据展开方式，会导致数据展开所需的数据传输带宽增加以及存储空间增大，降低了处理系统的数据处理能力。

以图5所示的卷积神经网络处理系统为例来说明采用图3a-图3i所示的数据展开方式的具体实现过程。该处理系统包括协处理器，服务器的CPU和记忆单元(memory)，以及加速卡上的DDR存储器；服务器的CPU和协处理器之间一般通过PCI-e(Peripheral Component Interconnect Express，总线和接口标准)总线进行连接，进行数据交互和命令交互，如通过CMD path(命令路径)进行命令交互，通过data path(数据路径)进行数据交互。

该协处理器可以为FPGA或者其他辅助处理器，该协处理器可以包括：DDR控制器、InputBuf(input buffer，输入数据缓存单元)，OutputBuf(output buffer，输出数据缓存单元)，PE(Processing Element，处理单元)。该PE为协处理器中用于完成数据卷积的单元。

目前卷积运算中数据展开可以在处理系统的CPU、或者协处理器完成。如下：

在本发明一实施例中，通过系统的CPU完成数据展开。

参考图6a，CPU数据展开的方案包括：处理系统CPU采用图3a-图3i的方式对数据进行展开，完整展开后将展开后的数据存放在CPU内存中，通过PCI-e DMA传送到加速卡上的DDR RAM中，协处理器通过加载逻辑再从加速卡上的DDR RAM将数据加载到PE处理单元。由图6a可知，在系统的CPU中采用图3a-图3i所示的数据处理方法会导致数据展开效率比较低以及数据传输量增大，这样所需的PCI-e和DDR的读取带宽将会增大，降低了系统的处理能力。

然而，如果在系统的CPU上应用本实施例图2b-图2d所示的数据处理方法，由于不需要重复读取数据，可以提升数据展开效率。如果在系统的协处理器应用本实施例图2b-图2d所示的数据处理方法，可以减小数据传输量，降低所需的PCI-e和DDR的传输带宽。

在本发明另一实施例中，通过系统的协处理器完成数据展开。

参考图6b，在协处理器进行数据展开的方案包括：将未展开的数据存放在server(服务器)内存、加速卡DDR存储器和FPGA中，FPGA采用图3a-图3i的方式对数据进行展开。由图6b可知，该方案由于采用了图3a-图3i所示的方式进行数据展开，会重复读取某些数据，导致数据展开的效率较低、DDR数据传输量增大、需要消耗大量FPGA片上的存储单元。

以下将以图5所示的系统以及图2a所示的图像数据矩阵、特征矩阵为例，来介绍本发明实施例提供的数据处理方法，其中，假设卷积步进S＝1，本实施例数据处理装置集成在协处理器中。

参考图7a-图7c，图像数据矩阵保存在加速卡的DDR存储器。具体地数据展开过程如下：

(1)读取图像数据矩阵中K＝3行数据[11,12,13,14,15]、[21,22,23,24,25]、[31,32,33,34,35]，得到待展开数据矩阵，将该待展开数据矩阵加载到协处理器的存储器中，如图7a所示。

(2)对存储器中的待展开数据矩阵进行数据滑动展开，得到展开后的数据[11,12,13,21,22,23,31,32,33]、[12,13,14,22,23,24,32,33,34]、13,14,15,23,24,25,33,34,35]，如图7a所示。

具体地，可以采用根据特征矩阵的行列数据确定滑动窗口，然后，沿着待展开数据矩阵的行方向以一个数据的滑动步长进行滑动窗口，在每次滑动窗口后基于窗口内数据在存储器的存储地址从该存储器中跳地址读取相应的数据，以实现数据展开。

(3)将图像数据矩阵中第4行数据[41,42,43,44,45]加载到存储器，并覆盖当前待展开数据矩阵中第一行数据[11,12,13,14,15](即当前存储时间最早的一行数据)，以更新待展开数据矩阵，如图7b所示。

(4)对更新后的待展开数据矩阵进行数据滑动展开，得到展开后的数据[21,22,23,31,32,33,41,42,43]、[22,23,24,32,33,34,42,43,44]、[23,24,25,33,34,35,43,44,45]，如图7b所示。

(5)将图像数据矩阵中第5行数据[51,52,53,54,55]加载到存储器，并覆盖当前待展开数据矩阵中第一行数据[21,22,23,24,25]，以更新待展开数据矩阵，如图7c所示。

(6)对更新后的待展开数据矩阵进行数据滑动展开，得到展开后的数据[31,32,33,41,42,43,51,52,53]、[32,33,34,42,43,44,52,53,54]、[33,34,35,43,44,45,53,54,55]，如图7c所示。

基于上述对数据展开方案的介绍，图7a-图7c所示的数据展开方案可以提高数据展开的效率；另外由于本发明实施例提供的方案在协处理器中进行数据展开以及采用复用读取方式进行数据展开，因此还可以降低读取数据量，进而降低了对PCI-e和DDR的读取带宽的需求，提升了系统的处理能力。

因此，图7a-图7c所示的数据展开方案可以提高数据展开的效率，还可以节省协处理器的存储空间，降低数据展开对应存储空间的需求，提升系统处理能力。

为了提高从DDR读取数据的效率以及提高数据展开效率，本实施例方法可以根据固定数据大小来从图像数据矩阵中读取预设数量的数据；也即步骤104中的“读取图像数据矩阵中预设数量的未展开数据”可以包括：

根据第一预定数据量读取图像数据矩阵中预设数量的未展开数据；

将该未展开数据保存至该预设缓冲空间内。

其中，第一预定数据量可以根据实际需求设定，比如为8Kbyte、16Kbyte等，第一预定数据量的未展开数据可以称为一个数据包(packet)。第一预设数据量可以基于图像数据矩阵的行数据或者列数据的数据量设定，比如，可以是行数据或者列数据的数据量的整数倍。

为了提高数据展开效率以及缓冲空间的利用率，本发明实施例可以在预设缓冲空间的剩余空间足够加载新的packet时进行数据的读取加载，也即步骤“根据第一预定数据量读取图像数据矩阵中预设数量的未展开数据”可以包括：

获取该预设缓冲空间的剩余可用容量；

当该预设缓冲空间的剩余可用容量大于或等于该第一预定数据量时，根据第一预定数据量读取图像数据矩阵中预设数量的未展开数据。

由于第一预定数据量根据实际需求设定，每次加载的packet大于图像数据矩阵一行或者一列的数据量，因此，在加载新的packet之后，可以从该packet选取一定数量的目标数据来更新待展开数据矩阵。也即步骤“根据该未展开数据更新该待展开数据矩阵”可以包括：

从该未展开数据中选取预设数量的目标数据；

根据该目标数据更新该待展开数据矩阵。

具体地，可以选取在图像数据矩阵中属于同一行或者同一列的数据；比如，第一预定数据量为8个数据的数据量，即一个packet包含8个图像数据矩阵中的数据的情况下，对待展开数据矩阵展开完成之后，可以从图像数据矩阵中读取8个未展开数据，假设为图7a中的[41,42,43,44,45,51,52,53]，然后，从8个未展开数据中选取位于同一行的目标数据，即[41,42,43,44,45]，根据该目标数据更新待展开数据矩阵。此外，在选取目标数据时还需要考虑与待展开数据矩阵的最后一行或者最后一列数据之间的关系。

为了提高数据展开速度，本实施例方法可以在预设缓冲空间当前缓存的数据足够进行数据展开时便可以进行数据展开，也即步骤“根据该矩阵参数和该待展开数据矩阵的数据在预设缓冲空间内的存储地址，对该待展开数据矩阵进行数据展开”可以包括：

获取该预设缓冲空间当前的缓存数据量；

当该缓存数据量大于或等于第二预定数据量时，根据该矩阵参数和该待展开数据矩阵的数据在预设缓冲空间内的存储地址，对该待展开数据矩阵进行数据展开。

其中，第二预定数据量可以根据特征矩阵和图像数据矩阵的行列数来确定，比如，以图像数据矩阵为N*N的矩阵，特征矩阵为K*K的矩阵为例，该第二预设数据量可以为K*N个数据的数据量。

由上可知，本发明实施例采用获取特征矩阵的矩阵参数，然后，根据该矩阵参数读取图像数据矩阵中相应的数据，得到待展开数据矩阵，根据该矩阵参数对待展开数据矩阵进行数据展开，得到展开后的数据，读取图像数据矩阵中预设数量的未展开数据，并根据该未展开数据更新该待展开数据矩阵，返回执行根据该矩阵参数对待展开数据矩阵进行展开的步骤。该方案在卷积过程中可以复用读出的图像数据以实现数据展开，避免对某些数据重复读取，降低了卷积神经网络数据展开对数据带宽或存储空间的需求，因此，可以提升卷积神经网络处理系统的数据处理能力和数据展开的效率。

根据图1所示的实施例所描述的方法，以下将举例对卷积神经网络的数据处理方法作进一步详细说明。

在本实施例中，将以该卷积神经网络的数据处理装置集成在计算设备的协处理器中，以图5所示的系统架构为例进行说明。该协处理器可以为FPGA、ASIC、或其他类型的协处理器。

本实施例中，图像数据矩阵保存在处理系统DDR存储器中。

如图8a所示，一种卷积神经网络的数据处理方法，具体流程可以如下：

步骤201、协处理器获取系统参数，该系统参数包括特征矩阵的矩阵参数。

该矩阵参数可以包括特征矩阵的行列数。本实施例中该系统参数还可以包括图形数据矩阵的行列数、预定数据量B、预定数据量A、滑动方向、滑动步进等等。

步骤202、协处理器根据特征矩阵的矩阵参数从DDR存储器中读取相应行数的数据，得到待展开数据矩阵Q。

比如，从DDR存储器中读取N*N图像数据矩阵的K行数据，得到K*N的待展开数据矩阵Q，具体地，可以读取N*N图像数据矩阵的第1-K行数据。

以图2a所示的5*5图像数据矩阵以及3*3特征矩阵为例，FPGA可以从5*5图像数据矩阵读取第1-3行的数据，组成3*5的待展开数据矩阵Q。

步骤203、协处理器将该待展开数据矩阵Q写入协处理器的缓冲器内。

比如，FPGA将该3*5的待展开数据矩阵Q写入FPGA内的缓冲器。

步骤204、协处理器在缓冲器当前缓存的数据量大于预定数据量A时，根据特征矩阵的矩阵参数对该数据矩阵Q进行数据滑动展开，得到展开后的数据。

其中，预定数据量A可以为3*5个数据的数据量，具体可以根据实际需求设定。

本实施例中，缓冲器可以为环形缓冲器，参考图8b，该环形缓冲器具有两个指标，一个LenBufSpaceReady，用于表示环形缓冲器剩余空间大小或者剩余可用容量大小；另一个是LenBufDataValid，用于表示环形缓冲器当前缓存的缓存数据量。

其中，在写入数据后LenBufSpaceReady减1，LenBufDataValid加1，展开读出数据时LenBufSpaceReady加1，LenBufDataValid减1。本实施例中数据的加载写入和展开读取可以并行地进行，以提升数据展开效率。

在协处理器确定LenBufDataValid大于预定数据量A时，则根据特征矩阵的矩阵参数对该数据矩阵Q进行数据滑动展开；否则，不进行数据滑动展开。

以图2a所示的5*5图像数据矩阵以及3*3特征矩阵为例，FPGA可以通过图2b-图2d所示的方式对3*5的待展开数据矩阵Q进行数据滑动展开，得到展开后的数据(11、12、13、21、22、23、31、32、33)、(12、13、14、22、23、24、32、33、34)、(13、14、15、23、24、25、33、34、35)。

步骤205、协处理器在缓冲器的剩余可用容量大于预定数据量B时，根据预定数据量B从DDR存储器中读取相应数量的未展开数据，并写入该缓冲器。

比如，协处理器在确定LenBufSpaceReady大于预定数据量B时，则从DDR存储器中读取预定数据量B的未展开数据，并写入该缓冲器。

该预定数据量B为一个固定数据量，即固定数据大小，可以根据实际需求设定，比如，该预定数据量B可以为8Kbyte等，该预定数据量B可以根据图像数据矩阵中一行或者一列的数据量设定。

例如，参考图7a-图7b，在对3*3待展开数据矩阵进行数据滑动展开之后，可以读取第4行未展开数据[41,42,43,44,45]，写入缓冲器。

本实施例中，在预定数据量B为图像数据矩阵中一行或者一列的数据量，即预定数据量B对应的图像数据个数等于矩阵的列数或者行数时，协处理器可以从DDR存储器中读取图像数据矩阵的一行或者一列未展开数据；比如，可以读取第K+1行的未展开数据，即N个未展开数据。

在其他实施例中，预定数据量B对应的图像数据个数会大于N个，且不为N的整数倍，比如，可能为N+1个等等。例如，在3*3待展开数据矩阵进行数据滑动展开之后，可以根据预定数据量B读取7个未展开数据[41,42,43,44,45,51,52]写入缓冲器中。

步骤206、协处理器根据写入的未展开数据更新待展开数据矩阵Q，返回步骤204。

例如，在写入第K+1行的未展开数据之后，可以基于该第K+1行的未展开数据更新待展开数据矩阵Q，比如，根据该K+1行的数据覆盖矩阵Q的第一行数据。

又例如，在写入N+1个未展开数据之后，可以选取相应的N个未展开数据，然后，根据该选取的N个未展开数据覆盖矩阵Q的第一行数据。

本发明实施例数据处理方法应用在以FPGA为协处理器的异构处理系统或者纯CPU的处理系统所能实现的所有服务中，比如该方法可以应用在以色情图片检测过滤为目标的业务场景中。参考图8c，一般通过Caffe,Tensor Flow等开源深度学习平台进行实现。在实现卷积神经网络模型(如AlexNet，Googlenet，VGG等)时，学习平台会调用BLAS库(Basic Linear Algebra Subprograms，基础线性代数程序集)进行矩阵运算，在纯CPU的处理系统中这些矩阵运算由CPU计算；在异构处理系统中，矩阵运算可以offload到FPGA中进行计算(一般通过PCI-e进行交互)。计算过程中，CPU和FPGA通过共享DDR RAM的方式进行数据交互。

由上可知，本发明实施例采用协处理器获取特征矩阵的矩阵参数，然后，根据该矩阵参数读取图像数据矩阵中相应的数据，得到待展开数据矩阵，根据该矩阵参数对待展开数据矩阵进行数据展开，得到展开后的数据，读取图像数据矩阵中相应数量的未展开数据，并根据该未展开数据更新该待展开数据矩阵，返回执行根据该矩阵参数对待展开数据矩阵进行展开的步骤。该方案在卷积过程中可以复用读出的图像数据以实现数据展开，避免对某些数据重复读取，降低了卷积神经网络数据展开对数据带宽或存储空间的需求，因此，可以提升卷积神经网络处理系统的数据处理能力和数据展开的效率。

为了更好地实施上述方法，本发明实施例还提供一种卷积神经网络的数据处理装置，该数据处理装置具体可以集成在计算设备的处理器中，该处理器可以为FPGA、ASIC、GPU或者其它类型的协处理器。如图9a所示，该卷积神经网络的数据处理装置可以包括获取单元301、读取单元302、数据展开单元303和更新单元304，如下：

获取单元301，用于获取特征矩阵的矩阵参数。

读取单元302，用于根据该矩阵参数通过第一总线从第一缓冲空间中读取图像数据矩阵中相应的数据，得到待展开数据矩阵。

比如，读取单元302，可以用于根据矩阵参数通过第一总线从第一缓冲空间中读取图像数据矩阵中相应行数或者列数的矩阵。

保存单元305，用于在读取单元302得到该待展开数据矩阵之后，该数据展开单元303对数据展开之前，通过第二总线将所述待展开数据矩阵发送至第二预设缓冲空间并保存。

数据展开单元303，用于通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据该矩阵参数对待展开数据矩阵进行数据展开，得到展开后的数据。

比如，数据展开单元303，用于根据矩阵参数对待展开数据矩阵进行数据滑动展开。

数据展开单元，具体用于根据该矩阵参数和该待展开数据矩阵的数据在第二预设缓冲空间内的存储地址，对该待展开数据矩阵进行数据展开。

具体地，数据展开单元303可以包括：

确定子单元，用于根据该矩阵参数确定滑动窗口；

滑动子单元，用于根据预设滑动方向和预设滑动步长在该待展开数据矩阵上滑动该滑动窗口；

地址获取子单元，用于在每次滑动后获取该滑动窗口内数据在该第二预设缓冲空间内的存储地址；

读出子单元，用于根据该存储地址从该第二预设缓冲空间读出相应的数据，以完成数据展开。

其中，确定子单元，可以用于根据特征矩阵的行列数据可以确定相应尺寸的滑动窗口，比如，特征矩阵为K*K的矩阵时，可以确定一个K*K的滑动窗口。该滑动窗口用于从待展开数据矩阵中选取相应的数据进行展开。

其中，预设滑动方向可以包括：图像数据矩阵的行方向、列方向等等。该预设滑动步长为需要滑动的距离，可以根据实际数据展开需求设定，其可用在数据矩阵上需要滑动的数据个数来表示。比如，该预设滑动步长为1个、2个、3个数据等等。

该滑动子单元，可以具体用于沿着预设滑动方向以预设滑动步长在待展开数据矩阵上滑动窗口。本实施例中滑动窗口在待展开数据矩阵上的初始位置，可以根据实际需求设定，比如，参考图2b，可以自待展开数据矩阵的第一列开始滑动，在其他实施例中，还可以自待展开数据矩阵的第二或者三列开始滑动。

更新单元304，用于通过第一总线从所述第一缓冲空间中读取图像数据矩阵中预设数量的未展开数据，通过第二总线将所述未展开数据发送至第二预设缓冲空间并保存，根据该未展开数据更新第二预设缓冲空间中保存的该待展开数据矩阵，并触发该数据展开单元303执行所述通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据该矩阵参数对待展开数据矩阵进行展开的步骤。

比如，更新单元304可以包括：

读取子单元，用于根据第一预定数据量通过第一总线从所述第一缓冲空间中读取图像数据矩阵中预设数量的未展开数据，通过第二总线将该未展开数据发送至该第二预设缓冲空间内并保存；

更新子单元，用于根据该未展开数据更新第二预设缓冲空间中保存的该待展开数据矩阵；

触发子单元，用于在更新子单元更新该待展开数据矩阵后触发该数据展开单元303执行所述通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据该矩阵参数对待展开数据矩阵进行展开的步骤。

其中，读取子单元，具体用于：

获取该第二预设缓冲空间的剩余可用容量；

当该第二预设缓冲空间的剩余可用容量大于或等于该第一预定数据量时，根据第一预定数据量通过第一总线从第一缓冲空间中读取图像数据矩阵中预设数量的未展开数据。

该更新子单元，具体用于：

通过第二总线从第二预设缓冲空间中读取所述未展开数据，从该未展开数据中选取预设数量的目标数据；

根据该目标数据更新第二预设缓冲空间中保存的该待展开数据矩阵。

本实施例中，数据展开单元303可以具体用于：

获取该第二预设缓冲空间当前的缓存数据量；

当该缓存数据量大于或等于第二预定数据量时，根据该矩阵参数和该待展开数据矩阵的数据在第二预设缓冲空间内的存储地址，对该待展开数据矩阵进行数据展开。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

比如，实际应用中获取单元301的功能可以由数据展开控制器实现，读取单元302的功能可以由数据展开控制器和DDR读数据控制器实现，数据展开单元303的功能可以由数据展开控制器、数据扫描控制器和地址生成器实现，更新单元304的功能可以由数据展开控制器、DDR读数据控制器实现。

如图9c，本实施例还提供了一种协处理器，包括：数据展开控制器401、DDR读数据控制器402、数据缓存单元403、数据扫描控制器404、地址生成器405、处理单元(PE)406。

数据展开控制器401，用于获取特征矩阵的矩阵参数，根据该矩阵参数控制DDR读数据控制器402读取图像数据矩阵中相应的数据，得到待展开数据矩阵，并将该待展开数据矩阵写入数据缓存单元403中。

该数据展开控制器401，还用于根据系统参数(如特征矩阵的矩阵参数)控制数据扫描控制器404和地址生成器405对待展开数据矩阵进行数据展开，得到展开后的数据；控制DDR读数据控制器402读取图像数据矩阵中预设数量的未展开数据，以及控制DDR读数据控制器402根据该未展开数据更新该待展开数据矩阵，并触发数据扫描控制器404和地址生成器405对待展开数据矩阵进行展开。

比如，数据展开控制器401可以根据系统参数(如特征矩阵的矩阵参数)和数据缓存单元403的状态(如当前存缓存的数据量)控制数据扫描控制器404和地址生成器405对待展开数据矩阵进行数据展开。数据展开控制器401还可以根据数据缓存单元403的状态(如剩余可用容量)控制DDR读数据控制器402读取图像数据矩阵中预设数量的未展开数据。

DDR读数据控制器402，用于在数据展开控制器401的控制下读取图像数据矩阵中相应的数据，得到待展开数据矩阵，读取图像数据矩阵中预设数量的未展开数据，根据该未展开数据更新该待展开数据矩阵，以及读取的数据写入数据缓存单元403。

数据缓存单元403，用于缓存DDR读数据控制器402读取的数据，以及输出展开后的数据给处理单元。

数据扫描控制器404和地址生成器405，用于在数据展开控制器401的控制下对待展开数据矩阵进行数据展开。

处理单元(PE)406，用于对展开后的数据和特征矩阵作乘法运算，以实现卷积运算。

本实施例中卷积神经网络的数据处理装置具体可以集成在CPU或者FPGA、ASIC、GPU等协处理器设备中。

本发明实施例还提供了一种卷积神经网络的数据处理装置，该装置包括一个或多个处理器以及存储介质。该处理器包括CPU或者FPGA、ASIC、GPU等协处理器设备，该存储介质可以为非易失性计算机可读存储介质，用于存储一个或多个计算机可读指令。所述一个或多个计算机可读指令包括获取单元、读取单元、数据展开单元和更新单元。在另一个实施例中，所述一个或多个计算机可读指令还包括保存单元。该处理器用于读取存储介质中存储的一个或多个计算机可读指令，以实现上述实施例中卷积神经网络的数据处理方法的步骤以及卷积神经网络的数据处理装置中各单元的功能。

由上可知，本发明实施例采用获取单元301获取特征矩阵的矩阵参数，然后，由读取单元302根据该矩阵参数读取图像数据矩阵中相应的数据，得到待展开数据矩阵，由数据展开单元303根据该矩阵参数对待展开数据矩阵进行数据展开，得到展开后的数据，由更新单元304读取图像数据矩阵中相应数量的未展开数据，并根据该未展开数据更新该待展开数据矩阵，返回执行根据该矩阵参数对待展开数据矩阵进行展开的步骤。该方案在卷积过程中可以复用读出的图像数据以实现数据展开，避免对某些数据重复读取，降低了卷积神经网络数据展开对数据带宽或存储空间的需求，因此，可以提升卷积神经网络处理系统的数据处理能力和数据展开的效率。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

以上对本发明实施例所提供的一种卷积神经网络的数据处理方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种卷积神经网络的数据处理方法，应用于计算设备，包括在所述计算设备的处理器或协处理器上执行如下步骤：

获取特征矩阵的矩阵参数；

根据所述矩阵参数通过第一总线从第一缓冲空间中读取图像数据矩阵中相应的数据，得到待展开数据矩阵，并通过第二总线将所述待展开数据矩阵发送至第二预设缓冲空间并保存；

通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据所述矩阵参数对待展开数据矩阵进行数据展开，得到展开后的数据；

通过第一总线从所述第一缓冲空间中读取图像数据矩阵中预设数量的未展开数据，通过第二总线将所述未展开数据发送至第二预设缓冲空间并保存，并根据所述未展开数据更新第二预设缓冲空间中保存的所述待展开数据矩阵；

返回执行所述通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据所述矩阵参数对待展开数据矩阵进行展开的步骤。
如权利要求1所述的数据处理方法，其中，所述根据所述矩阵参数对待展开数据矩阵进行数据展开，包括：

根据所述矩阵参数和所述待展开数据矩阵的数据在第二预设缓冲空间内的存储地址，对所述待展开数据矩阵进行数据展开。
如权利要求2所述的数据处理方法，其中，根据所述矩阵参数和所述待展开数据矩阵的数据在第二预设缓冲空间内的存储地址，对所述待展开数据矩阵进行数据展开，包括：

根据所述矩阵参数确定滑动窗口；

根据预设滑动方向和预设滑动步长在所述待展开数据矩阵上滑动所述滑动窗口；

在每次滑动后获取所述滑动窗口内数据在所述第二预设缓冲空间内的存储地址；

根据所述存储地址从所述第二预设缓冲空间读出相应的数据，以完成数据展开。
如权利要求2所述的数据处理方法，其中，所述通过第一总线从所述第一缓冲空间中读取图像数据矩阵中预设数量的未展开数据，包括：

根据第一预定数据量通过第一总线从所述第一缓冲空间中读取图像数据矩阵中预设数量的未展开数据。
如权利要求4所述的数据处理方法，其中，所述根据第一预定数据量通过第一总线从所述第一缓冲空间中读取图像数据矩阵中预设数量的未展开数据，包括：

获取所述第二预设缓冲空间的剩余可用容量；

当所述第二预设缓冲空间的剩余可用容量大于或等于所述第一预定数据量时，根据第一预定数据量通过第一总线从所述第一缓冲空间中读取图像数据矩阵中预设数量的未展开数据。
如权利要求4所述的数据处理方法，其中，根据所述未展开数据更新第二预设缓冲空间中保存的所述待展开数据矩阵，包括：

通过第二总线从所述第二预设缓冲空间中读取所述未展开数据，从所述未展开数据中选取预设数量的目标数据；

根据所述目标数据更新第二预设缓冲空间中保存的所述待展开数据矩阵。
如权利要求5所述的数据处理方法，其中，根据所述矩阵参数和所述待展开数据矩阵的数据在预设第二缓冲空间内的存储地址，对所述待展开数据矩阵进行数据展开，包括：

获取所述第二预设缓冲空间当前的缓存数据量；

当所述缓存数据量大于或等于第二预定数据量时，根据所述矩阵参数和所述待展开数据矩阵的数据在第二预设缓冲空间内的存储地址，对所述待展开数据矩阵进行数据展开。
一种卷积神经网络的数据处理装置，包括一个或一个以上处理器和一个或一个以上非易失性存储介质，所述一个或一个以上非易失性存储介质存储一个或多个计算机可读指令，经配置由所述一个或者一个以上处理器执行；所述一个或一个以上计算机可读指令包括：

获取单元，用于获取特征矩阵的矩阵参数；

读取单元，用于根据所述矩阵参数通过第一总线从第一缓冲空间中读取图像数据矩阵中相应的数据，得到待展开数据矩阵；

保存单元，用于通过第二总线将所述待展开数据矩阵发送至第二预设缓冲空间并保存；

数据展开单元，用于通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据所述矩阵参数对待展开数据矩阵进行数据展开，得到展开后的数据；

更新单元，用于通过第一总线从所述第一缓冲空间中读取图像数据矩阵中相应数量的未展开数据，通过第二总线将所述未展开数据发送至第二预设缓冲空间并保存，根据所述未展开数据更新第二预设缓冲空间中保存的所述待展开数据矩阵，并触发所述数据展开单元执行所述通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据所述矩阵参数对待展开数据矩阵进行展开的步骤。
如权利要求8所述的数据处理装置，其中，所述数据展开单元，具体用于根据所述矩阵参数和所述待展开数据矩阵的数据在第二预设缓冲空间内的存储地址，对所述待展开数据矩阵进行数据展开。
如权利要求9所述的数据处理装置，其中，所述数据展开单元包括：

确定子单元，用于根据所述矩阵参数确定滑动窗口；

滑动子单元，用于根据预设滑动方向和预设滑动步长在所述待展开数据矩阵上滑动所述滑动窗口；

地址获取子单元，用于在每次滑动后获取所述滑动窗口内数据在所述第二预设缓冲空间内的存储地址；

读出子单元，用于根据所述存储地址从所述第二预设缓冲空间读出相应的数据，以完成数据展开。
如权利要求9所述的数据处理装置，其中，所述更新单元包括：

读取子单元，用于根据第一预定数据量通过第一总线从所述第一缓冲空间中读取图像数据矩阵中相应数量的未展开数据，通过第二总线将所述未展开数据发送至所述第二预设缓冲空间内并保存；

更新子单元，用于根据所述未展开数据更新第二预设缓冲空间中保存的所述待展开数据矩阵；

触发子单元，用于在更新子单元更新所述待展开数据矩阵后触发所述数据展开单元执行所述通过第二总线从所述第二预设缓冲空间中读取所述待展开数据矩阵，并根据所述矩阵参数对待展开数据矩阵进行展开的步骤。
如权利要求11所述的数据处理装置，其中，所述读取子单元，具体用于：

获取所述第二预设缓冲空间的剩余可用容量；

当所述第二预设缓冲空间的剩余可用容量大于或等于所述第一预定数据量时，根据第一预定数据量通过第一总线从所述第一缓冲空间中读取图像数据矩阵中相应数量的未展开数据。
如权利要求11所述的数据处理装置，其中，所述更新子单元，具体用于：

通过第二总线从所述第二预设缓冲空间中读取所述未展开数据，从所述未展开数据中选取相应数量的目标数据；

根据所述目标数据更新第二预设缓冲空间中保存的所述待展开数据矩阵。
如权利要求12所述的数据处理装置，其中，所述数据展开单元具体用于：

获取所述第二预设缓冲空间当前的缓存数据量；

当所述缓存数据量大于或等于第二预定数据量时，根据所述矩阵参数和所述待展开数据矩阵的数据在第二预设缓冲空间内的存储地址，对所述待展开数据矩阵进行数据展开。
一种非易失性计算机可读存储介质，存储有计算机可读指令，所述计算机可读指令能够使至少一个处理器执行如权利要求1-7任一项所述的方法。