WO2020073164A1

WO2020073164A1 - 数据存储的装置、方法、处理器和可移动设备

Info

Publication number: WO2020073164A1
Application number: PCT/CN2018/109327
Authority: WO
Inventors: 韩峰; 王耀杰; 高明明
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2020-04-16
Also published as: CN110770763A

Abstract

一种数据存储的装置（600）、方法、处理器和可移动设备。该装置（600）包括：拼装模块（610），用于获取乘累加单元乘累加后的计算结果，所述计算结果包括至少一个输出特征图的数据单元，将所述至少一个输出特征图中每一个输出特征图的数据单元拼装为预定大小的数据单元组；存储模块（620），用于将所述数据单元组存储到存储器中，其中，所述预定大小为所述存储器中存储单元的大小。能够提高数据存储的效率。

Description

数据存储的装置、方法、处理器和可移动设备

版权申明

技术领域

本申请涉及信息技术领域，并且更具体地，涉及一种数据存储的装置、方法、处理器和可移动设备。

背景技术

卷积神经网络(Convolutional Neural Network，CNN)是一种机器学习算法，它被广泛应用于目标识别、目标检测以及图像的语义分割等计算机视觉任务。

卷积神经网络的计算结果的输出格式与存储器，如静态随机存取存储器(Static Random Access Memory，SRAM)中存储的格式不同，因此在存储时需要转换为存储器中存储的格式。因此，如何提高数据存储的效率，成为卷积神经网络设计中一个亟待解决的技术问题。

发明内容

本申请实施例提供了一种数据存储的装置、方法、处理器和可移动设备，能够提高数据存储的效率。

第一方面，提供了一种数据存储的装置，包括：拼装模块，用于获取乘累加单元乘累加后的计算结果，所述计算结果包括至少一个输出特征图的数据单元，将所述至少一个输出特征图中每一个输出特征图的数据单元拼装为预定大小的数据单元组；存储模块，用于将所述数据单元组存储到存储器中，其中，所述预定大小为所述存储器中存储单元的大小。

第二方面，提供了一种数据存储的方法，包括：获取乘累加单元乘累加后的计算结果，所述计算结果包括至少一个输出特征图的数据单元；将所述至少一个输出特征图中每一个输出特征图的数据单元拼装为预定大小的数据单元组；将所述数据单元组存储到存储器中，其中，所述预定大小为所述存储器中存储单元的大小。

第三方面，提供了一种处理器，包括第一方面的数据存储的装置。

第四方面，提供了一种可移动设备，包括第一方面的数据存储的装置；或者，第三方面的处理器。

第五方面，提供了一种计算机存储介质，该计算机存储介质中存储有程序代码，该程序代码可以用于指示执行上述第二方面的方法。

本申请实施例的技术方案，将乘累加单元乘累加后的计算结果中每一个输出特征图的数据单元拼装为预定大小的数据单元组存储到存储器中，由于数据单元的拼装基于存储器中存储单元的大小，不会占用太多资源，而且便于将数据单元组存储到存储器中，因此能够提高数据存储的效率。

附图说明

图1是本申请实施例的卷积神经网络的卷积操作过程的示意图。

图2是应用本申请实施例的技术方案的架构图。

图3是本申请实施例的乘累加单元输出的计算结果的示意图。

图4是本申请实施例的特征图在存储器中的存储格式的示意图。

图5是本申请实施例的可移动设备的示意性架构图。

图6是本申请一个实施例的数据存储的装置的示意图。

图7是本申请另一个实施例的数据存储的装置的示意图。

图8是本申请又一个实施例的数据存储的装置的示意图。

图9是本申请又一个实施例的数据存储的装置的示意图。

图10是本申请实施例的采用轮询算法读出数据的示意性流程图。

图11是本申请又一个实施例的数据存储的装置的示意图。

图12是本申请实施例的数据单元分发的示意图。

图13是本申请又一个实施例的数据存储的装置的示意图。

图14是本申请实施例的数据单元拼装的示意图。

图15是本申请实施例的数据存储的方法的示意性流程图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

应理解，本文中的具体的例子只是为了帮助本领域技术人员更好地理解本申请实施例，而非限制本申请实施例的范围。

还应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，本说明书中描述的各种实施方式，既可以单独实施，也可以组合实施，本申请实施例对此并不限定。

本申请实施例的技术方案可以应用于各种深度学习算法中，例如卷积神经网络，但本申请实施例对此并不限定。

图1示出了卷积神经网络的卷积操作过程的示意图。

如图1所示，卷积神经网络的卷积操作会对输入的一组权重值和一组输入特征图(Input Feature Map，IFM)进行运算后输出一组输出特征图(Output Feature Map，OFM)。输入的权重值被称为滤波器(Filter)或卷积核。输入特征图为上一层的输出特征图。输出特征图为输入特征图经过当前层运算后得到的特征图。卷积核和输入、输出特征图都可以被表示为一个多维矩阵，卷积神经网络的卷积层的一次卷积运算为输入特征矩阵的至少部分特征值(数据单元)与卷积核矩阵的权重值进行内积操作。

卷积层的卷积运算可以采用滑动窗口方式，以输入特征值矩阵的左上角为起点，以卷积核的大小为窗口，依次滑动窗口到输入特征矩阵的右下角，产生一个完整的二维输出特征矩阵。每次滑动窗口后，卷积计算装置都会从输入特征值矩阵中提取一个窗口大小的输入特征值，将其与卷积核进行内积操作，产生一个输出特征值。依照上述方式，依次产生所有的二维输出特征矩阵后，便可得到该卷积层的三维输出特征矩阵。

图2是应用本申请实施例的技术方案的架构图。

如图2所示，系统200可以包括卷积计算装置210和存储器220。

存储器220用于存储待处理的数据，例如，输入特征图和权重值，以及存储处理后的数据，例如输出特征图。存储器220可以为SRAM。

卷积计算装置210包括乘累加单元(Multiply Accumulate Unit，MAU)211、IFM输入模块212、权重值输入模块213和OFM存储模块214。权重值输入模块213负责从存储器220中读出权重值，并按特定格式送到MAU 211。IFM输入模块212负责将输入特征图数据从存储器220中读出，并将其送到MAU 211中进行卷积运算。MAU211可以包括脉动阵列和用来存储中间计算结果的缓存。进行卷积运算时，MAU211首先将权重值输入模块213送入的权重值装载到脉动阵列，之后，当输入特征图数据从IFM输入模块212送入脉动阵列后，将其与提前装载的权重值进行乘累加。如果MAU 211中的缓存中缓存了中间结果，则脉动阵列输出结果还会继续与该缓存中的中间结果再进行一次乘累加。乘累加的结果如果仍为卷积运算的中间结果，则将其存储到MAU的缓存中，否则输出到下级模块OFM存储模块214中进行后续处理。OFM存储模块214将MAU 211输出的卷积计算结果组装为存储器220中存储的数据格式，然后将其写入存储器220。

MAU211输出的计算结果如图3所示。图3中[k,m,n]表示三维特征矩阵中第k个特征图的第m行第n列的特征值。脉动阵列每个周期(cycle)输出图3中一行特征值。脉动阵列每列输出一个二维的输出特征矩阵，对应一个输出特征图，相邻两列输出的第一个有效特征值之间的延迟大于或等于1个周期。

在存储器220中，特征图则以预定大小的单元连续存储。其存储格式如图4所示，图中[k,m,n]表示三维特征矩阵中第k个特征图的第m行第n列的特征值，图4中示例的预定大小为32个特征值的大小。

从图3和图4中可以看出，图3中MAU211每个周期输出的一行特征值属于多个不同的特征图，而存储器220中的存储格式则为将每个特征图以预定大小的单元连续存储。因此，MAU211的计算结果的输出格式与存储器220中的存储格式不同。

鉴于此，本申请实施例提供了一种数据存储的技术方案，可以高效地将卷积计算结果组装为存储器中存储的数据格式进行存储，从而能够提高数据存储的效率。

在一些实施例中，本申请实施例的技术方案可以应用于可移动设备中。该可移动设备可以是无人机、无人驾驶船、自动驾驶车辆或机器人等，本申请实施例对此并不限定。

图5是本申请实施例的可移动设备500的示意性架构图。

如图5所示，可移动设备500可以包括动力系统510、控制系统520、传感系统530和处理系统540。

动力系统510用于为该可移动设备500提供动力。

以无人机为例，无人机的动力系统可以包括电子调速器(简称为电调)、螺旋桨以及与螺旋桨相对应的电机。电机连接在电子调速器与螺旋桨之间，电机和螺旋桨设置在对应的机臂上；电子调速器用于接收控制系统产生的驱动信号，并根据驱动信号提供驱动电流给电机，以控制电机的转速。电机用于驱动螺旋桨旋转，从而为无人机的飞行提供动力。

传感系统530可以用于测量可移动设备500的姿态信息，即可移动设备500在空间的位置信息和状态信息，例如，三维位置、三维角度、三维速度、三维加速度和三维角速度等。传感系统530例如可以包括陀螺仪、电子罗盘、惯性测量单元(Inertial Measurement Unit，IMU)、视觉传感器、全球定位系统(Global Positioning System，GPS)、气压计、空速计等传感器中的至少一种。

传感系统530还可用于采集图像，即传感系统530包括用于采集图像的传感器，例如相机等。

控制系统520用于控制可移动设备500的移动。控制系统520可以按照预先设置的程序指令对可移动设备500进行控制。例如，控制系统520可以根据传感系统530测量的可移动设备500的姿态信息控制可移动设备500的移动。控制系统520也可以根据来自遥控器的控制信号对可移动设备500进行控制。例如，对于无人机，控制系统520可以为飞行控制系统(飞控)，或者为飞控中的控制电路。

处理系统540可以处理传感系统530采集的图像。例如，处理系统540可以为图像信号处理(Image Signal Processing,ISP)类芯片。

处理系统540可以为图2中的系统200，或者，处理系统540可以包括图2中的系统200。

应理解，上述对于可移动设备500的各组成部件的划分和命名仅仅是示例性的，并不应理解为对本申请实施例的限制。

还应理解，可移动设备500还可以包括图5中未示出的其他部件，本申请实施例对此并不限定。

图6示出了本申请一个实施例的数据存储的装置600的示意图。该装置600可以为图2中的OFM存储模块214。

如图6所示，该装置600可以包括拼装模块610和存储模块620。

应理解，本申请实施例中的各种模块具体可以由电路实现，例如，拼装模块610可以为拼装电路，但本申请实施例对此并不限定，它们也可以由其他方式实现。

拼装模块610用于获取乘累加单元乘累加后的计算结果，所述计算结果包括至少一个输出特征图的数据单元，将所述至少一个输出特征图中每一个输出特征图的数据单元拼装为预定大小的数据单元组。

存储模块620用于将所述数据单元组存储到存储器中，其中，所述预定大小为所述存储器中存储单元的大小。

在本申请实施例中，通过拼装模块610进行计算结果的格式转换。拼装模块610将每一个输出特征图的数据单元拼装为存储器中存储单元的大小的数据单元组。相应地，存储模块620可以将拼装好的数据单元组存储到存储器中的存储单元。由于数据单元的拼装基于存储器中存储单元的大小，不会占用太多资源，而且便于将数据单元组存储到存储器中，因此能够提高数据存储的效率。

可选地，在本申请的一个实施例中，如图7所示，所述拼装模块610包括N个拼装单元611，其中，所述N个拼装单元611中每个拼装单元611用于将一个输出特征图的数据单元拼装为所述预定大小的数据单元组，N为大于1的正整数。

具体而言，在本实施例中，采用多个拼装单元611实现数据单元的拼装。每个拼装单元611负责一个输出特征图的数据单元拼装。例如，第一个拼装单元负责第一个输出特征图的数据单元拼装，第二个拼装单元负责第二个输出特征图的数据单元拼装，以此类推。这样，N个拼装单元611可以实现N个输出特征图的数据单元拼装。

若乘累加单元的输出数据位宽为N个数据单元，乘累加单元可以一次输出N个数据单元，该N个数据单元分别属于N个输出特征图。如图3所示，乘累加单元一次输出一行数据单元，其中每个数据单元属于一个输出特征图，一行N个数据单元分别属于N个输出特征图。N个拼装单元611可以分别对应这N个输出特征图。

在这种情况下，可选地，在本申请的一个实施例中，如图7所示，所述装置600还包括：

分发模块630，用于将所述N个数据单元分别分发至所述N个拼装单元611。

分发模块630将乘累加单元一次输出的一行N个数据单元分别分发至N个拼装单元611。N个拼装单元611中每个拼装单元611中连续多次输入的数据单元拼装为所述预定大小的数据单元组。

也就是说，每个拼装单元611每次接收到该拼装单元611对应的输出特征图的一个数据单元，将其与之前接收到的数据单元拼装，直到拼装为所述预定大小的数据单元组。

应理解，存储器中存储单元的大小，即所述预定大小，一般要小于特征图中的一行的大小，特征图中的一行的大小可以为所述预定大小的整数倍，若特征图中的一行的大小不为所述预定大小的整数倍，则每一行的最后一个数据单元组仅包括最后剩下的数据单元，即，其大小要小于所述预定大小。

若存储器的访问数据位宽为N个数据单元的大小，即所述预定大小为N个数据单元的大小，则所述N个拼装单元611中每个拼装单元611中连续N次输入的数据单元拼装为所述预定大小的数据单元组。

可选地，在本申请的一个实施例中，如图8所示，所述N个拼装单元611中每个拼装单元611包括第一缓存612。

所述第一缓存612的大小可以为所述预定大小。可选地，所述第一缓存612可以通过寄存器实现。所述第一缓存612用于进行数据单元拼装。相应地，所述存储模块620用于将所述第一缓存612拼装后的数据单元组存储到所述存储器中。

拼装单元611中的第一缓存612的大小要确保可以实现所述预定大小的数据单元组的拼装，因此，第一缓存612的大小最小可以为所述预定大小。在这种情况下，每当第一缓存612中拼装完一个数据单元组时，存储模块620需要立刻将拼装完的数据单元组存储到存储器中。

可选地，在本申请的一个实施例中，如图9所示，所述N个拼装单元611中每个拼装单元611包括第一缓存612和第二缓存613。

所述第一缓存612和所述第二缓存613的大小均为所述预定大小。所述第一缓存612用于进行数据单元拼装，并将拼装后的数据单元组缓存至所述第二缓存613。相应地，所述存储模块620用于将所述第二缓存613中拼装后的数据单元组存储到所述存储器中。

在本实施例中，采用第一缓存612和第二缓存613实现拼装单元611。两个缓存的大小均为所述预定大小。可选地，第一缓存612和第二缓存613 可以通过寄存器实现。第一缓存612用于拼装，第二缓存613用于缓存拼装后的数据单元组。

应理解，第一缓存612和第二缓存613可以是物理上分离的，也可以是一体的。也就是说，第一缓存612和第二缓存613可以是两个独立的缓存，也可以是一个缓存的两个部分，本申请实施例对此并不限定。

还应理解，第一缓存612和第二缓存613的大小也可以大于所述预定大小，只要可以实现所述预定大小的数据单元组的拼装和缓存即可，本申请实施例对此也不限定。

由于第二缓存613的存在，方便了存储模块620对拼装后的数据单元组的存储。

例如，存储模块620可以根据轮询(round-robin)算法，依次从所述N个拼装单元611中每个拼装单元611的第二缓存613中读取拼装后的数据单元组并存储到所述存储器中。

图10示出了采用轮询算法读出数据的示意性流程图。如图10所示，存储模块620可以循环执行1001，1002，1003，1004，…，1005，1006，依次从每个拼装单元611中读出拼装后的数据单元组并存储到所述存储器中。例如，在1001中，判断第一个拼装单元中是否有拼装好的数据单元组，若是，则执行1002，将第一个拼装单元中拼装好的数据单元组读出。再执行1003，判断第二个拼装单元中是否有拼装好的数据单元组，若是，则执行1004，将第二个拼装单元中拼装好的数据单元组读出，以此类推。

可选地，在本申请的一个实施例中，如图7所示，所述装置600还可以包括：

控制模块640，用于控制所述乘累加单元输出计算结果的速度。

具体而言，乘累加单元输出计算结果的速度有可能与装置600处理数据的速度不匹配。因此，在本申请实施例中，通过控制模块640控制乘累加单元输出计算结果的速度。例如，当乘累加单元送入数据的速度太快时，控制模块640可以触发反压信号给乘累加单元。乘累加单元接收到该反压信号后会停止计算，直到反压信号撤销再继续计算。

在上述实施例中，通过N个拼装单元实现数据单元的拼装。对于数据单元的拼装，还可以采用其他方式，也就是说，拼装模块610还可以采用其他实现方式。下面描述本申请另一个实施例的实现方式。

可选地，在本申请的一个实施例中，如图11所示，所述拼装模块610包括第一拼装单元616和第二拼装单元617。

所述第一拼装单元616用于将特定奇数行的数据单元拼装为所述预定大小的数据单元组，所述第二拼装单元617用于将特定偶数行的数据单元拼装为所述预定大小的数据单元组，其中，所述特定奇数行表示所述至少一个输出特征图中每一个输出特征图的奇数行，所述特定偶数行表示所述至少一个输出特征图中每一个输出特征图的偶数行。

具体而言，在本实施例中，采用第一拼装单元616和第二拼装单元617实现数据单元的拼装。第一拼装单元616用于拼装每一个输出特征图的奇数行的数据单元，第二拼装单元616用于拼装每一个输出特征图的偶数行的数据单元。

在这种情况下，可选地，在本申请的一个实施例中，如图11所示，所述装置600还包括：

分发模块635，用于将所述特定奇数行的数据单元分发至所述第一拼装单元616，将所述特定偶数行的数据单元分发至所述第二拼装单元617。

具体而言，分发模块635可以对每个特征图的数据单元分别进行计数，根据输入数据单元的行号分发数据单元到不同的拼装单元。例如，如图12所示，每个特征图奇数行的数据单元分发给第一拼装单元616，偶数行的数据单元分发给第二拼装单元617。图12中，[k,m,n]表示三维特征矩阵中第k个特征图的第m行第n列的特征值(数据单元)，特征图的宽度(每行的数据单元数量)为56，特征图的个数为32。

可选地，在本申请的一个实施例中，如图13所示，所述第一拼装单元616和所述第二拼装单元617均包括N个先入先出队列(First Input First Output，FIFO)。可选地，该FIFO可以为随机存取存储器(Random Access Memory，RAM)实现的双端口FIFO。

所述特定奇数行的数据单元中的第p*N+i个数据单元被输入到所述第一拼装单元616的第i个FIFO中，所述第一拼装单元的N个FIFO中所述特定奇数行的N个数据单元拼装为所述预定大小的数据单元组；

所述特定偶数行的数据单元中的第p*N+i个数据单元被输入到所述第二拼装单元617的第i个FIFO中，所述第二拼装单元的N个FIFO中所述特定偶数行的N个数据单元拼装为所述预定大小的数据单元组，其中，N 为大于1的正整数，i为不大于N的正整数，p为零或正整数。

在乘累加单元的输出数据位宽为N个数据单元时，乘累加单元可以一次输出N个数据单元，该N个数据单元分别属于N个输出特征图。如图3所示，乘累加单元一次输出一行数据单元，其中每个数据单元属于一个输出特征图，一行N个数据单元分别属于N个输出特征图。

在这种情况下，所述分发模块635用于将所述N个数据单元分别分发至对应的FIFO中，其中，所述特定奇数行数据单元中的第p*N+i个数据单元分发至所述第一拼装单元616的第i个FIFO中，所述特定偶数行数据单元中的第p*N+i个数据单元分发至所述第二拼装单元617的第i个FIFO中。

例如，如图14所示，[0,0,0]为第一个特征图的第一行的第一个数据单元，因此将[0,0,0]分发至第一拼装单元616的第1个FIFO中；[0,0,1]为第一个特征图的第一行的第二个数据单元，因此将[0,0,1]分发至第一拼装单元616的第2个FIFO中；[1,0,0]为第二个特征图的第一行的第一个数据单元，因此将[1,0,0]分发至第一拼装单元616的第1个FIFO中；[0,0,2]为第一个特征图的第一行的第三个数据单元，因此将[0,0,2]分发至第一拼装单元616的第3个FIFO中；[1,0,1]为第二个特征图的第一行的第二个数据单元，因此将[1,0,0]分发至第一拼装单元616的第2个FIFO中；[2,0,0]为第三个特征图的第一行的第一个数据单元，因此将[2,0,0]分发至第一拼装单元616的第1个FIFO中；以此类推。当第一个特征图的第一行的第N(图14中N为32)个数据单元[0,0,31]分发至第一拼装单元616的第32个FIFO中后，第一拼装单元616的32个FIFO中第一个特征图的第一行的32个数据单元，即，[0,0,0]，[0,0,1]，…，[0,0,31]拼装为一个数据单元组。

相应地，在本实施例中，所述存储模块620用于将所述第一拼装单元616或所述第二拼装单元617的N个FIFO中拼装后的数据单元组存储到所述存储器中。

存储模块620根据分发模块635的分发规则，轮流从两个拼装单元中读出拼装好的数据单元组，存入存储器中。例如，上述举例中，第一拼装单元616的32个FIFO中第一个特征图的第一行的32个数据单元，即，[0,0,0]，[0,0,1]，…，[0,0,31]拼装为一个数据单元组后，存储模块620将该数据单元组读出并存储到存储器中。

与前述实施例类似，在本实施例中，如图11所示，所述装置600也可以包括：控制模块640，用于控制所述乘累加单元输出计算结果的速度。相关描述可参见前述实施例，为了简洁，在此不再赘述。

在本实施例中，通过FIFO实现数据单元拼装，而FIFO可以通过RAM实现。根据现场可编程门阵列(FieldProgrammable Gate Array，FPGA)查找表(Look Up Table，LUT)的构造，RAM比同等规模的寄存器需要的LUT资源更少，所以本实施例的技术方案需要的LUT资源更少。

以上描述了本申请实施例的数据存储的装置，下面描述本申请实施例的数据存储的方法。本申请实施例的数据存储的方法为前述本申请实施例的数据存储的装置或包括本申请实施例的数据存储的装置的设备实施本申请实施例的技术方案时的方法，相关描述可以参考前述实施例，以下为了简洁，在此不再赘述。

图15示出了本申请实施例的数据存储的方法1500的示意性流程图。

如图15所示，所述方法1500包括：

1510，获取乘累加单元乘累加后的计算结果，所述计算结果包括至少一个输出特征图的数据单元；

1520，将所述至少一个输出特征图中每一个输出特征图的数据单元拼装为预定大小的数据单元组；

1530，将所述数据单元组存储到存储器中，其中，所述预定大小为所述存储器中存储单元的大小。

可选地，在本申请一个实施例中，通过N个拼装单元中每个拼装单元将一个输出特征图的数据单元拼装为所述预定大小的数据单元组，N为大于1的正整数。

可选地，在本申请一个实施例中，获取所述乘累加单元一次输出的N个数据单元，所述N个数据单元分别属于N个输出特征图；所述方法1500还包括：将所述N个数据单元分别分发至所述N个拼装单元。

可选地，在本申请一个实施例中，将所述N个拼装单元中每个拼装单元中连续多次输入的数据单元拼装为所述预定大小的数据单元组。

可选地，在本申请一个实施例中，所述预定大小为N个数据单元的大小；将所述N个拼装单元中每个拼装单元中连续N次输入的数据单元拼装为所述预定大小的数据单元组。

可选地，在本申请一个实施例中，所述N个拼装单元中每个拼装单元包括第一缓存，所述第一缓存的大小为所述预定大小；通过所述第一缓存将一个输出特征图的数据单元拼装为所述预定大小的数据单元组；将所述第一缓存拼装后的数据单元组存储到所述存储器中。

可选地，在本申请一个实施例中，所述N个拼装单元中每个拼装单元包括第一缓存和第二缓存，所述第一缓存和所述第二缓存的大小均为所述预定大小；通过所述第一缓存将一个输出特征图的数据单元拼装为所述预定大小的数据单元组；将所述第一缓存拼装后的数据单元组缓存至所述第二缓存；将所述第二缓存中拼装后的数据单元组存储到所述存储器中。

可选地，在本申请一个实施例中，根据轮询算法，依次从所述N个拼装单元中每个拼装单元的第二缓存中读取拼装后的数据单元组并存储到所述存储器中。

可选地，在本申请一个实施例中，通过第一拼装单元将特定奇数行的数据单元拼装为所述预定大小的数据单元组，其中，所述特定奇数行表示所述至少一个输出特征图中每一个输出特征图的奇数行；通过第二拼装单元将特定偶数行的数据单元拼装为所述预定大小的数据单元组，其中，所述特定偶数行表示所述至少一个输出特征图中每一个输出特征图的偶数行。

可选地，在本申请一个实施例中，所述方法1500还包括：将所述特定奇数行的数据单元分发至所述第一拼装单元，将所述特定偶数行的数据单元分发至所述第二拼装单元。

可选地，在本申请一个实施例中，所述第一拼装单元和所述第二拼装单元均包括N个先入先出队列FIFO；将所述特定奇数行的数据单元中的第p*N+i个数据单元分发至所述第一拼装单元的第i个FIFO中；将所述第一拼装单元的N个FIFO中所述特定奇数行的N个数据单元拼装为所述预定大小的数据单元组；将所述特定偶数行的数据单元中的第p*N+i个数据单元分发至所述第二拼装单元的第i个FIFO中；将所述第二拼装单元的N个FIFO中所述特定偶数行的N个数据单元拼装为所述预定大小的数据单元组，其中，N为大于1的正整数，i为不大于N的正整数，p为零或正整数。

可选地，在本申请一个实施例中，获取所述乘累加单元一次输出的N个数据单元，所述N个数据单元分别属于N个输出特征图；将所述N个数据单元中所述特定奇数行的数据单元中的第p*N+i个数据单元分发至所述第一拼装单元的第i个FIFO中；将所述N个数据单元中所述特定偶数行的数据单元中的第p*N+i个数据单元分发至所述第二拼装单元的第i个FIFO中。

可选地，在本申请一个实施例中，将所述第一拼装单元或所述第二拼装单元的N个FIFO中拼装后的数据单元组存储到所述存储器中。

可选地，在本申请一个实施例中，所述方法1500还包括：控制所述乘累加单元输出计算结果的速度。

本申请实施例还提供了一种处理器，该处理器包括乘累加单元以及前述本申请实施例的数据存储的装置。

该乘累加单元用于进行乘累加计算，并向该数据存储的装置输出计算结果，该数据存储的装置采用本申请实施例的技术方案向存储器中存储数据。

例如，该处理器可以为图2中的卷积计算装置210，其中，OFM存储模块214可以为本申请实施例的数据存储的装置。

本申请实施例还提供了一种可移动设备，该可移动设备可以包括上述本申请实施例的数据存储的装置；或者，包括上述本申请实施例的处理器。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序代码，该程序代码可以用于指示执行上述本申请实施例的数据存储的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种数据存储的装置，其特征在于，包括：

拼装模块，用于获取乘累加单元乘累加后的计算结果，所述计算结果包括至少一个输出特征图的数据单元，将所述至少一个输出特征图中每一个输出特征图的数据单元拼装为预定大小的数据单元组；

存储模块，用于将所述数据单元组存储到存储器中，其中，所述预定大小为所述存储器中存储单元的大小。
根据权利要求1所述的装置，其特征在于，所述拼装模块包括N个拼装单元，其中，所述N个拼装单元中每个拼装单元用于将一个输出特征图的数据单元拼装为所述预定大小的数据单元组，N为大于1的正整数。
根据权利要求2所述的装置，其特征在于，所述乘累加单元一次输出N个数据单元，所述N个数据单元分别属于N个输出特征图；

所述装置还包括：

分发模块，用于将所述N个数据单元分别分发至所述N个拼装单元。
根据权利要求3所述的装置，其特征在于，所述N个拼装单元中每个拼装单元中连续多次输入的数据单元拼装为所述预定大小的数据单元组。
根据权利要求4所述的装置，其特征在于，所述预定大小为N个数据单元的大小，所述N个拼装单元中每个拼装单元中连续N次输入的数据单元拼装为所述预定大小的数据单元组。
根据权利要求2至5中任一项所述的装置，其特征在于，所述N个拼装单元中每个拼装单元包括第一缓存，所述第一缓存的大小为所述预定大小；

所述第一缓存用于进行数据单元拼装；

所述存储模块用于将所述第一缓存拼装后的数据单元组存储到所述存储器中。
根据权利要求2至5中任一项所述的装置，其特征在于，所述N个拼装单元中每个拼装单元包括第一缓存和第二缓存，所述第一缓存和所述第二缓存的大小均为所述预定大小；

所述第一缓存用于进行数据单元拼装，并将拼装后的数据单元组缓存至所述第二缓存；

所述存储模块用于将所述第二缓存中拼装后的数据单元组存储到所述存储器中。
根据权利要求7所述的装置，其特征在于，所述存储模块用于根据轮询算法，依次从所述N个拼装单元中每个拼装单元的第二缓存中读取拼装后的数据单元组并存储到所述存储器中。
根据权利要求1所述的装置，其特征在于，所述拼装模块包括第一拼装单元和第二拼装单元，其中，所述第一拼装单元用于将特定奇数行的数据单元拼装为所述预定大小的数据单元组，所述第二拼装单元用于将特定偶数行的数据单元拼装为所述预定大小的数据单元组，其中，所述特定奇数行表示所述至少一个输出特征图中每一个输出特征图的奇数行，所述特定偶数行表示所述至少一个输出特征图中每一个输出特征图的偶数行。
根据权利要求9所述的装置，其特征在于，所述装置还包括：

分发模块，用于将所述特定奇数行的数据单元分发至所述第一拼装单元，将所述特定偶数行的数据单元分发至所述第二拼装单元。
根据权利要求9或10所述的装置，其特征在于，所述第一拼装单元和所述第二拼装单元均包括N个先入先出队列FIFO；

所述特定奇数行的数据单元中的第p*N+i个数据单元被输入到所述第一拼装单元的第i个FIFO中，所述第一拼装单元的N个FIFO中所述特定奇数行的N个数据单元拼装为所述预定大小的数据单元组；

所述特定偶数行的数据单元中的第p*N+i个数据单元被输入到所述第二拼装单元的第i个FIFO中，所述第二拼装单元的N个FIFO中所述特定偶数行的N个数据单元拼装为所述预定大小的数据单元组，其中，N为大于1的正整数，i为不大于N的正整数，p为零或正整数。
根据权利要求11所述的装置，其特征在于，所述乘累加单元一次输出N个数据单元，所述N个数据单元分别属于N个输出特征图；

所述分发模块用于将所述N个数据单元分别分发至对应的FIFO中，其中，所述特定奇数行数据单元中的第p*N+i个数据单元分发至所述第一拼装单元的第i个FIFO中，所述特定偶数行数据单元中的第p*N+i个数据单元分发至所述第二拼装单元的第i个FIFO中。
根据权利要求11或12所述的装置，其特征在于，所述存储模块用于将所述第一拼装单元或所述第二拼装单元的N个FIFO中拼装后的数据单元组存储到所述存储器中。
根据权利要求2至13中任一项所述的装置，其特征在于，所述装置还包括：

控制模块，用于控制所述乘累加单元输出计算结果的速度。
一种数据存储的方法，其特征在于，包括：

获取乘累加单元乘累加后的计算结果，所述计算结果包括至少一个输出特征图的数据单元；

将所述至少一个输出特征图中每一个输出特征图的数据单元拼装为预定大小的数据单元组；

将所述数据单元组存储到存储器中，其中，所述预定大小为所述存储器中存储单元的大小。
根据权利要求15所述的方法，其特征在于，所述将所述至少一个输出特征图中每一个输出特征图的数据单元拼装为预定大小的数据单元组包括：

通过N个拼装单元中每个拼装单元将一个输出特征图的数据单元拼装为所述预定大小的数据单元组，N为大于1的正整数。
根据权利要求16所述的方法，其特征在于，所述获取乘累加单元乘累加后的计算结果，包括：

获取所述乘累加单元一次输出的N个数据单元，所述N个数据单元分别属于N个输出特征图；

所述方法还包括：

将所述N个数据单元分别分发至所述N个拼装单元。
根据权利要求17所述的方法，其特征在于，所述通过N个拼装单元中每个拼装单元将一个输出特征图的数据单元拼装为所述预定大小的数据单元组，包括：

将所述N个拼装单元中每个拼装单元中连续多次输入的数据单元拼装为所述预定大小的数据单元组。
根据权利要求18所述的方法，其特征在于，所述预定大小为N个数据单元的大小；

所述将所述N个拼装单元中每个拼装单元中连续多次输入的数据单元拼装为所述预定大小的数据单元组，包括：

将所述N个拼装单元中每个拼装单元中连续N次输入的数据单元拼装为所述预定大小的数据单元组。
根据权利要求16至19中任一项所述的方法，其特征在于，所述N个拼装单元中每个拼装单元包括第一缓存，所述第一缓存的大小为所述预定大小；

所述通过N个拼装单元中每个拼装单元将一个输出特征图的数据单元拼装为所述预定大小的数据单元组，包括：

通过所述第一缓存将一个输出特征图的数据单元拼装为所述预定大小的数据单元组；

所述将所述数据单元组存储到存储器中，包括：

将所述第一缓存拼装后的数据单元组存储到所述存储器中。
根据权利要求16至19中任一项所述的方法，其特征在于，所述N个拼装单元中每个拼装单元包括第一缓存和第二缓存，所述第一缓存和所述第二缓存的大小均为所述预定大小；

所述通过N个拼装单元中每个拼装单元将一个输出特征图的数据单元拼装为所述预定大小的数据单元组，包括：

通过所述第一缓存将一个输出特征图的数据单元拼装为所述预定大小的数据单元组；

所述方法还包括：

将所述第一缓存拼装后的数据单元组缓存至所述第二缓存；

所述将所述数据单元组存储到存储器中，包括：

将所述第二缓存中拼装后的数据单元组存储到所述存储器中。
根据权利要求21所述的方法，其特征在于，所述将所述第二缓存中拼装后的数据单元组存储到所述存储器中，包括：

根据轮询算法，依次从所述N个拼装单元中每个拼装单元的第二缓存中读取拼装后的数据单元组并存储到所述存储器中。
根据权利要求15所述的方法，其特征在于，所述将所述至少一个输出特征图中每一个输出特征图的数据单元拼装为预定大小的数据单元组包括：

通过第一拼装单元将特定奇数行的数据单元拼装为所述预定大小的数据单元组，其中，所述特定奇数行表示所述至少一个输出特征图中每一个输出特征图的奇数行；

通过第二拼装单元将特定偶数行的数据单元拼装为所述预定大小的数据单元组，其中，所述特定偶数行表示所述至少一个输出特征图中每一个输出特征图的偶数行。
根据权利要求23所述的方法，其特征在于，所述方法还包括：

将所述特定奇数行的数据单元分发至所述第一拼装单元，将所述特定偶数行的数据单元分发至所述第二拼装单元。
根据权利要求24所述的方法，其特征在于，所述第一拼装单元和所述第二拼装单元均包括N个先入先出队列FIFO；

所述将所述特定奇数行的数据单元分发至所述第一拼装单元，包括：

将所述特定奇数行的数据单元中的第p*N+i个数据单元分发至所述第一拼装单元的第i个FIFO中；

所述通过第一拼装单元将特定奇数行的数据单元拼装为所述预定大小的数据单元组，包括：

将所述第一拼装单元的N个FIFO中所述特定奇数行的N个数据单元拼装为所述预定大小的数据单元组；

所述将所述特定偶数行的数据单元分发至所述第二拼装单元，包括：

将所述特定偶数行的数据单元中的第p*N+i个数据单元分发至所述第二拼装单元的第i个FIFO中；

所述通过第二拼装单元将特定偶数行的数据单元拼装为所述预定大小的数据单元组，包括：

将所述第二拼装单元的N个FIFO中所述特定偶数行的N个数据单元拼装为所述预定大小的数据单元组，其中，N为大于1的正整数，i为不大于N的正整数，p为零或正整数。
根据权利要求25所述的方法，其特征在于，所述获取乘累加单元乘累加后的计算结果，包括：

获取所述乘累加单元一次输出的N个数据单元，所述N个数据单元分别属于N个输出特征图；

所述将所述特定奇数行的数据单元中的第p*N+i个数据单元分发至所述第一拼装单元的第i个FIFO中，包括：

将所述N个数据单元中所述特定奇数行的数据单元中的第p*N+i个数据单元分发至所述第一拼装单元的第i个FIFO中；

所述将所述第二拼装单元的N个FIFO中所述特定偶数行的N个数据单元拼装为所述预定大小的数据单元组，包括：

将所述N个数据单元中所述特定偶数行的数据单元中的第p*N+i个数据单元分发至所述第二拼装单元的第i个FIFO中。
根据权利要求25或26所述的方法，其特征在于，所述将所述数据单元组存储到存储器中，包括：

将所述第一拼装单元或所述第二拼装单元的N个FIFO中拼装后的数据单元组存储到所述存储器中。
根据权利要求16至27中任一项所述的方法，其特征在于，所述方法还包括：

控制所述乘累加单元输出计算结果的速度。
一种处理器，其特征在于，包括乘累加单元以及根据权利要求1至14中任一项所述的数据存储的装置。
一种可移动设备，其特征在于，包括：

根据权利要求1至14中任一项所述的数据存储的装置；或者，

根据权利要求29所述的处理器。