WO2022134465A1

WO2022134465A1 - 加速可重构处理器运行的稀疏化数据处理方法和装置

Info

Publication number: WO2022134465A1
Application number: PCT/CN2021/096490
Authority: WO
Inventors: 唐士斌; 欧阳鹏
Original assignee: 北京清微智能科技有限公司
Priority date: 2020-12-24
Filing date: 2021-05-27
Publication date: 2022-06-30
Also published as: CN112286864B; US20230068450A1; CN112286864A

Abstract

一种加速可重构处理器运行的稀疏化数据处理方法和装置，所述可重构处理器包括PE阵列，所述PE阵列包括P×Q个PE单元。所述方法包括：将待计算的稀疏化权重矩阵划分为至少一个单元块（S101）；将所述至少一个单元块分组为至少一个计算组（S102）；以及获取计算组中的每一有效权重的有效权重地址（S103）。该方法采用硬件友好的分组规则稀疏化策略更有利算法精度收敛，在同样的算法精度下，可以提供更高的稀疏率。

Description

加速可重构处理器运行的稀疏化数据处理方法和装置

技术领域

本发明涉及可重构处理器领域，具体涉及加速可重构处理器运行的稀疏化数据处理方法和装置。

背景技术

基于深度学习的神经网络计算在图像检测、图像识别、语音识别等领域被广泛的应用，而神经网络中的卷积运算与全连接运算消耗大量的存储资源、计算资源与带宽资源，成为神经网络在智能摄像头、智能耳机、智能音箱等智能设备上实施的瓶颈。可重构处理器可被应用于基于深度学习的神经网络计算。

稀疏化技术是一种通过训练的方式约束卷积计算与全连接运算中用到权重中非零权重的比例，以此降低存储权重的存储开销的技术。同时研究发现，稀疏化同样可以用于减少卷积计算与全连接计算的乘加次数，并减少数据传输的带宽。然而，训练过程中随机的稀疏化权重不利于充分挖掘硬件的计算资源与带宽资源。

稀疏化技术包括规则稀疏化。例如，现有技术提出一种聚集规则稀疏化方法。但是这种聚集规则稀疏化在算法精度收敛和稀疏率方便存在不足。

发明内容

本发明的目的是提供一种加速可重构处理器运行的稀疏化数据处理方法和装置，其采用硬件友好的分组规则稀疏化策略，更有利于算法精度收敛，并且在同样的算法精度下，可以提供更高的稀疏率。

根据本发明的一个方面，提供了一种加速可重构处理器运行的稀疏化数据处理方法，所述可重构处理器包括PE阵列，所述PE阵列包括P×Q个PE单元，所述方法包括：将待计算的稀疏化权重矩阵划分为至少一个单元块；将所述至少一个单元块分组为至少一个计算组；以及获取计算组中的每一有效权重的有效权重地址。

可选地，将待计算的稀疏化权重矩阵划分为至少一个单元块的步骤进一步包括：通过沿所述稀疏化权重矩阵的行列方向以P×Q为一个划分单元，将所述稀疏化权重矩阵划分为至少一个单元块，其中每个单元块中包括至少一个有效权重。

可选地，将所述至少一个单元块分组为至少一个计算组的步骤进一步包括：沿权重矩阵的列向将所述稀疏化权重矩阵中的单元块分组为至少一个组，每组包括至少一个单元块；判断每一组单元块中的有效权重的总数量是否多于P×Q/2；如果一组单元块中的有效权重的总数量多于P×Q/2，则沿所述稀疏化权重矩阵的列向将该组平均拆分为两个组；重复上述判断和拆分步骤，直到所述稀疏化权重矩阵中的每一组单元块中的有效权重的总数量均少于P×Q/2；获取所述稀疏化权重矩阵中的每一组中包含的单元块的最小数量作为分组划分数量n，并根据该分组划分数量n沿所述稀疏化权重矩阵的列向将所述稀疏化权重矩阵划分为多个计算组。

可选地，获取所述至少一个单元块的有效权重地址的步骤进一步包括：由PE阵列依次读取计算组中的每一有效权重；将当前有效权重与上一有效权重之间间隔的零权重的数量作为当前有效权重的有效权重地址，存入与所述计算组的当前有效权重对应的存储地址中。

可选地，该稀疏化数据处理方法进一步包括：读取卷积计算值；以及执行卷积或全连接层计算。

可选地，读取卷积计算值的步骤进一步包括：通过PE阵列中的P×Q个PE单元，根据稀疏化权重矩阵的每个计算组的有效权重地址获取与该有效权重地址所对应的有效权重以及所述有效权重在非稀疏化权重矩阵中的存储地址；以及根据所述有效权重在非稀疏化权重矩阵中的存储地址，读取所述有效权重对应的卷积计算值。

可选地，执行卷积或全连接层计算的步骤进一步包括：根据每个计算组中的有效权重所对应的卷积计算值来执行深度学习的神经网络模型中的卷积或全连接层计算。

可选地，所述PE阵列中的P×Q个PE单元为8×8的PE单元。

根据本发明的一个方面，提供了一种用于可重构处理器的稀疏化数据处理装置，所述可重构处理器包括至少一个PE阵列，每个PE阵列包括P×Q个PE单元，所述装置包括：权重矩阵划分单元，被配置为将待计算的稀疏化权重矩阵划分为至少一个单元块；计算组分组单元，被配置为将所述至少一个单元块分组为至少一个计算组；以及有效权重地址获取单元，被配置为获取计算组中的每一有效权重的有效权重地址。

可选地，所述权重矩阵划分单元进一步配置为：通过沿所述稀疏化权重矩阵的行列方向以P×Q为一个划分单元，将所述稀疏化权重矩阵划分为至少一个单元块，其中每个单元块中包括至少一个有效权重。

可选地，所述计算组分组单元进一步配置为：沿所述稀疏化权重矩阵的列向将所述稀疏化权重矩阵中的单元块分组为至少一个组，每组包括至少一个单元块；判断每一组单元块中的有效权重的总数量是否多于P×Q/2；如果一组单元块中的有效权重的总数量多于P×Q/2，则沿所述稀疏化权重矩阵的列向将该组平均拆分为两个组；重复上述判断和拆分步骤，直到所述稀疏化权重矩阵中的每一组单元块中的有效权重的总数量均少于P×Q/2；获取所述稀疏化权重矩阵中的每一组中包含的单元块的最小数量作为分组划分数量n，并根据该分组划分数量n沿所述稀疏化权重矩阵的列向将所述稀疏化权重矩阵划分为多个计算组。

可选地，根据权利要求9所述的稀疏化数据处理装置，其中所述有效权重地址获取单元进一步配置为：由PE阵列依次读取计算组中的每一有效权重；将当前有效权重与上一有效权重之间间隔的零权重的数量作为当前有效权重的有效权重地址，存入与所述计算组的当前有效权重对应的存储地址中。

可选地，稀疏化数据处理装置进一步包括：提取单元，被配置为读取卷积计算值；以及计算单元，被配置为执行卷积或全连接层计算。

可选地，所述提取单元进一步配置为：通过PE阵列中的P×Q个PE单元，根据稀疏化权重矩阵的每个计算组的有效权重地址获取与该有效权重地址所对应的有效权重以及所述有效权重在非稀疏化权重矩阵中的存储地址；以及根据所述有效权重在非稀疏化权重矩阵中的存储地址，读取所述有效权重对应的卷积计算值。

可选地，所述计算单元进一步配置为：根据每个计算组中的有效权重所对应的卷积计算值来执行深度学习的神经网络模型中的卷积或全连接层计算。

可选地，所述PE阵列中的P×Q个PE单元为8×8的PE单元。

附图说明

图1是示出根据本发明第一实施例的加速可重构处理器运行的稀疏化数据处理方法的流程示意图。

图2是示出根据本发明第二实施例的加速可重构处理器运行的稀疏化数据处理方法的流程示意图。

图3是示出根据本发明第三实施例的加速可重构处理器运行的稀疏化数据处理方法的流程示意图。

图4是示出根据本发明实施例的加速可重构处理器运行的稀疏化数据处理装置的结构示意图。

图5是用于说明根据本发明实施例的稀疏化权重矩阵的单元块分组的一个示例的示意图。

图6是用于说明根据本发明实施例的稀疏化权重矩阵的单元块分组的另一示例的示意图。

图7是用于说明根据本发明实施例的稀疏化矩阵存储格式的示例存储向量的示意图。

图8是用于说明根据本发明实施例的稀疏化矩阵存储格式的示例矩阵的示意图。

图9是用于说明根据本发明实施例的稀疏化矩阵存储格式的示例特征向量的示意图。

具体实施方式

为了对发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式，在各图中相同的标号表示结构相同或结构相似但功能相同的部件。

在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁，各图中只示意性地表示出了与本示例性实施例相关的部分，它们并不代表其作为产品的实际结构及真实比例。

图1是示出根据本发明第一实施例的加速可重构处理器运行的稀疏化数据处理方法的流程示意图。可重构处理器包括PE阵列。PE阵列包括P×Q个PE单元。

在神经网络中的卷积计算与全连接运算中会使用到权重矩阵。在保证适当学习精度前提下，神经网络的神经元个数应该尽可能少(结构稀疏化)，以降低成本，提高稳健性和推广精度。因此，通常采用稀疏化技术对权重矩阵中的非零权重的比例进行约束，以降低存储权重的存储开销、减少计算中的乘加次数和减少数据传输的带宽。

而本发明提供了硬件友好的分组规则稀疏化方法与加速硬件设计，以利于算法精度收敛，并且在同样的算法精度下，提供更高的稀疏率。

具体来讲，如图1所示，根据本发明的加速可重构处理器运行的稀疏化数据处理方法包括：

在步骤S101，将待计算的稀疏化权重矩阵划分为至少一个单元块。

在实施例中，可以通过沿稀疏化权重矩阵的行列方向以P×Q为一个划分单元，将稀疏化权重矩阵划分为至少一个单元块。每个单元块中可包括至少一个有效权重。

例如，对于M×N的权重矩阵，可以以P×Q为粒度，将该权重矩阵划分为(M/P)×(N/Q)个单元块。

以具体实例来讲，如图5所示，当PE阵列包括8×8个PE单元时(即P＝8，Q＝8)，可将64×64的权重矩阵(即M＝64，N＝64)划分为(64/8)×(64/8)＝64个单元块，即单元块1-64(通过图中的方框内的数字来表示)。。

如图5所示，所划分的单元块1.......64(对应划分区域1、2.....64)中的每个单元块包括8×8个单元，从而将整个64×64的权重矩阵分成了8×8个矩阵。

接下来，在步骤S102，将所述至少一个单元块分组为至少一个计算组。

可沿稀疏化权重矩阵的列方向或行方向将单元块分组为计算组。为便于说明，在下文中，将以沿列方向将单元块分组为计算组为例进行描述。

在将单元块分组为计算组时，每一计算组中的全部单元块中的有效权重(即非零权重)的总数量不应超过P×Q/2。

这是因为，在使用P×Q个PE单元处理每一计算组时，除了有效权重外，还需要预留P×Q个PE单元中的1/2，作为有效权重的地址存储位置。

因此，将单元块分组为计算组可通过以下步骤来实现：

-沿稀疏化权重矩阵的列向将稀疏化权重矩阵中的单元块分组为至少一个组，每组包括至少一个单元块(例如，对于M×N的权重矩阵中的N个列，可将每一列的M个单元块分组为一组，总共可获得N个组；或者，也可以将每一列的少于M个单元块甚至一个单元块分组为一组)；

-判断每一组单元块中的有效权重的总数量是否多于P×Q/2；

-如果一组单元块中的有效权重的总数量多于P×Q/2，则沿稀疏化权重矩阵的列向将该组平均拆分为两个组；

-重复上述判断和拆分步骤，直到稀疏化权重矩阵中的每一组单元块中的有效权重的总数量均少于P×Q/2；

-获取稀疏化权重矩阵中的每一组中包含的单元块的最小数量作为分组划分数量n，并根据该分组划分数量n沿稀疏化权重矩阵的列向将稀疏化权重矩阵划分为多个计算组。

通过以上分组，可获得约束矩阵K×Q，其中K＝nP。从而，对于M×N的权重矩阵，可以以K×Q为粒度，将该权重矩阵划分为(M/K)×(N/Q)＝(M/(n×P))×(N/Q)个子矩阵。

例如，以图5中的示例为例，64×64权重矩阵总共包括8个列，每一列包括8个单元块。可沿该权重矩阵的列向，将每一列的单元块分组为一组，总共可获得8个组，包括第一组单元块1～8，第二组单元块9～16，第三组单元块17～24，第四组单元块25～32，第五组单元块33～40，第六组单元块41～48，第七组单元块49～56，第八组单元块57～64。

然后，判断每一组单元块中的有效权重的总数量是否多于P×Q/2＝(8×8)/2＝32。

现在假设第一组单元块1～8中的有效权重的总数量为20，第二组单元块9～16中的有效权重的总数量为15，第三组单元块17～24中的有效权重的总数量为10，第四组单元块25～32中的有效权重的总数量为31，第五组单元块33～40中的有效权重的总数量为30，第六组单元块41～48中有效权重的总数量为28，第七组单元块49～56中的有效权重的总数量为8，第八组单元块57～64中的有效权重的总数量为11。

由于上述各个单元块的有效权重的总数量均未超过32，因而不需要进一步拆分各组。因此，可以将当前每一组中包含的单元块数量8作为分组划分数量n，即n＝8，并根据该分组划分数量8沿权重矩阵的列向将权重矩阵划分为8个计算组。

进一步参考图6，图6示出将权重矩阵的单元块分组为计算组的另一示例。

图6同样示出64×64权重矩阵，其中包括64个8×8的单元块。可以以与图5类似的方式，首先将每一列的单元块分组为一组，总共获得8个组。

但是，在图6的示例中，假设第一组单元块1～8中的有效权重的总数量为56，超过了P×Q/2＝(8×8)/2＝32。因此，沿权重矩阵的列向将第一组单元块1～8平均拆分为两个组，每组包含4个单元块，即第一子组为单元块1～4，第二子组为单元块5～8。由于除了第一组之外的其他组中的单元块中的有效权重的总数量均少于32，因此不再对其他组进行拆分。

结果，在权重矩阵的当前分组中，每一组中包含的单元块的最小数量为4。因此，可将分组划分数量设为n＝4。然后，可以根据该分组划分数量4，沿权重矩阵的列向将权重矩阵划分为总共16个计算组。

可按照对工程应用需求的不同，灵活选取不同的分组策略。如在图5的示例中，可以将八个单元块分组为一个计算组，记为G8，每个G8的区域中包含8个8×8单元块。而在图6的示例中，可以将四个单元块分组为一个计算组，记为G4，每个G4的区域中包含4个8×8单元块。

进一步，在神经网络的计算中：

-对于全连接计算的权重矩阵，M＝fo，N＝fi；其中，fo为：输出特征通道数；fi为：输入特征通道数。

-对于卷积计算的卷积权重模板，M＝fo，N＝kx*ky*fi；其中，fo为：输出特征通道数；fi为：输入特征通道数；kx、ky为：卷积模板的尺寸。

因此，本专利采用的分组稀疏化方式同时适用于卷积、全连接计算的权重稀疏化。此外，相比于现有技术提出的聚集规则稀疏化，本专利采用的硬件友好的分组规则稀疏化策略更有利算法精度收敛，在同样的算法精度下，可以提供更高的稀疏率。

步骤S103，获取计算组中的每一有效权重的有效权重地址。

在实施例中，可通过以下方式获取有效权重地址：

由PE阵列依次读取计算组中的每一有效权重；

将当前有效权重与上一有效权重之间间隔的零权重的数量作为当前有效权重的有效权重地址，存入与所述计算组的当前有效权重对应的存储地址中。

应注意的是，如果当前有效权重位于计算组的起点处，则所述间隔位数(有效权重地址)可被设为0。

在本发明中，可采用稀疏化编码的方式对稀疏化后的权重矩阵进行存储，其中利用有效权重与有效权重之间的间隔位数作为有效权重地址，实现了对权重矩阵的压缩。如在图5所示的G8(每个计算组包括八个单元块)的情况下，可以达到压缩4倍的效果。

接下来将参考图7描述这种稀疏化矩阵存储格式。

图7示例性地示出一个16位的向量，其中由数字A、B、C和D标示的格子表示有效权重，而空白的格子表示零权重。即，该向量可表示为A000B0000000C00D。

如图7所示，有效权重A是起点，因此其有效权重地址被设为0。有效权重B与上一有效权重A之间间隔的零权重的数量为3，因此其有效权重地址为3。有效权重C与上一有效权重B之间间隔的零权重的数量为7，因此其有效权重地址为7。有效权重D与上一有效权重C之间间隔的零权重的数量为2，因此其有效权重地址为2。因此，根据本发明的存储格式，该示例向量可以表示为(A,0)(B,3)(C,7)(D,2)。

相较于原存储向量A000B0000000C00D，根据本发明的存储格式能够有效降低所需的存储容量，减少数据传输的带宽。

进一步参考图8，图8示例性地示出一个6×4的稀疏化矩阵。该稀疏化矩阵的存储格式如下。

从该矩阵的左上角开始，从上到下，从左到右，依次获取该矩阵中的每一有效权重的有效权重地址。如图8所示，该矩阵中存在有效权重(非零权重)1，2，4，3，5(在图中通过粗阴影框标示)。按照从上到下和从左到右的顺序，位于最左上角的有效权重1相对于上一有效权重(此处为起点)的零权重的间隔位数为0；接下来，有效权重2相对于有效权重1的零权重的间隔位数为3；有效权重4相对于有效权重2的零权重的间隔位数为5，以此类推。最终，得到该矩阵的稀疏化编码为(1,0)(2,3)(4,5)(3,6)(5,5)，其中，括号中的前一数值表示有效权重，后一数值表示该有效权重的有效权重地址。

在具体硬件加速设计中，本发明可采用P×Q的MAC(乘加)阵列来加速卷积与稀疏化操作。

在正常模式下，可以由P×Q的MAC阵列每次读入一个P维的输入特征向量、以及P×Q个权重，计算得到Q维的输出特征向量。

而在根据本发明的稀疏化模式下，可以由P×Q的MAC阵列每次读入K维的输入特征向量、稀疏化后的P×Q/2个有效权重。在计算时，可通过提取每个有效权重的有效权重地址(即存储格式中的间隔长度数值)，还原约束矩阵K×Q，以获得K维的输入特征向量中与每个有效权重对应的向量值。然后，计算得到Q维的输出特征向量。

在还原约束矩阵K×Q时，可进行如下稀疏化解码：根据稀疏化编码，从矩阵的左上角开始，从上到下，从左到右补全K×Q矩阵。

再次以图8中的6×4矩阵为例，如上所述，他的稀疏化编码(1,0)(2,3)(4,5)(3,6)(5,5)。

此时，将上述稀疏化编码解码成为有效权重和有效权重地址的形式，(有效权重，有效权重地址)。在图5的G8示例中，约束矩阵K×Q＝8×8×8，总共包括2 ⁹个单元，因此其地址长度可为9比特。应注意的是，在约束矩阵K×Q中，每一列只允许最多P个有效权重，以与P×Q的MAC阵列相适应。

然后，例如通过逻辑电路，读出有效权重以及该有效权重在约束矩阵K×Q中所在列的序号。根据所在列的序号，取出在K维输入特征向量中的对应序号下的数值。将此列中的每个有效权重分别与从输入特征向量中的对应序号下取出的数值进行乘加操作，以得到输出数值。依序对K×Q矩阵的每个列重复上述操作，总共可得到Q个输出数值，从而构成一个Q维的输出特征向量。

接下来参考图8和图9中的具体示例，进一步详细说明上述步骤。

如图8所示，在6×4矩阵的第1列中存在两个有效权重。第一个有效权重为1，它在此列中的序号是1；第二个有效权重为2，它在此列中的序号是5。因此，根据上述序号，从图9所示的输入特征向量中分别取出对应序号1和5下的数值，也就是2和9，如图9所示。然后，将第1列中的所有有效权重1和2分别与从输入特征向量中的相同序号下取出的数值2和9进行乘加操作，从而得到输出数值1x2+2x9＝20。

接下来，参看图8所示矩阵的第2列，在第2列中，只有一个有效权重4，序号是5，因此从输入特征向量中取出序号5下的数值9，得到输出数值4x9＝36。

接下来，在矩阵的第3列中，取出有效权重3，其序号是6，然后与从输入特征向量中的序号6下取出的数值8进行乘加操作，得到输出数值3x8＝24。

接下来，在矩阵的第4列中，取出有效权重5，其序号是6，然后与从输入特征向量中的序号6下取出的数值8进行乘加操作，得到输出数值5x8＝40。

经过上述操作，总共得到四个输出数值：20,36,24,40，从而获得输出特征向量(20,36,24,40)。

图2是示出根据本发明第二实施例的加速可重构处理器运行的稀疏化数据处理方法的流程示意图。可重构处理器包括PE阵列。PE阵列包括P×Q个PE单元。

如图2所示，该稀疏化数据处理方法包括以下步骤。

在步骤S201，将待计算的稀疏化权重矩阵划分为至少一个单元块。

在步骤S202，将所述至少一个单元块分组为至少一个计算组。

在步骤S203，获取计算组中的每一有效权重的有效权重地址。

上述步骤S201至S203与根据第一实施例的稀疏化数据处理方法中的步骤S101至S103相同，因此在此不再重复描述。

相比于根据第一实施例的稀疏化数据处理方法，根据第二实施例的稀疏化数据处理方法的不同之处在于进一步包括步骤S240和S250。

在步骤S204，读取卷积计算值。

在实施例中，可通过PE阵列中的P×Q个PE单元，根据稀疏化权重矩阵的每个计算组的有效权重地址获取与该有效权重地址所对应的有效权重以及所述有效权重在非稀疏化权重矩阵中的存储地址。根据所述有效权重在非稀疏化权重矩阵中的存储地址，读取所述有效权重对应的卷积计算值。

接下来，在步骤S205，执行卷积或全连接层计算。

在实施例中，可根据每个计算组中的有效权重所对应的卷积计算值来执行深度学习的神经网络模型中的卷积或全连接层计算。

图3是示出根据本发明第三实施例的加速可重构处理器运行的稀疏化数据处理方法的流程示意图。可重构处理器包括PE阵列。PE阵列包括P×Q个PE单元。

如图3所示，该稀疏化数据处理方法包括以下步骤。

在步骤S301，将待计算的稀疏化权重矩阵划分为至少一个单元块。

在步骤S302，将所述至少一个单元块分组为至少一个计算组。

在步骤S303，获取计算组中的每一有效权重的有效权重地址。

在步骤S304，读取卷积计算值。

在步骤S305，执行卷积或全连接层计算。

上述步骤S301至S305与根据第二实施例的稀疏化数据处理方法中的步骤S201至S205相同，因此在此不再重复描述。

相比于根据第二实施例的稀疏化数据处理方法，根据第三实施例的稀疏化数据处理方法的不同之处在于进一步包括步骤S306。

在步骤S306，输出卷积或全连接层计算的结果。

在实施例中，可输出神经网络模型中的卷积或全连接层计算的结果。

图4是示出根据本发明实施例的加速可重构处理器运行的稀疏化数据处理装置的结构示意图。可重构处理器包括PE阵列。PE阵列包括P×Q个PE单元

如图4所示，该稀疏化数据处理装置包括权重矩阵划分单元401、计算组分组单元402和有效权重地址获取单元403。

权重矩阵划分单元401被配置为将待计算的稀疏化权重矩阵划分为至少一个单元块。

在实施例中，权重矩阵划分单元401可被配置为通过沿稀疏化权重矩阵的行列方向以P×Q为一个划分单元，将稀疏化权重矩阵划分为至少一个单元块。每个单元块中可包括至少一个有效权重。

计算组分组单元402被配置为将所述至少一个单元块分组为至少一个计算组。

在实施例中，计算组分组单元402可被配置为：

沿稀疏化权重矩阵的列向将稀疏化权重矩阵中的单元块分组为至少一个组，每组包括至少一个单元块；

判断每一组单元块中的有效权重的总数量是否多于P×Q/2；

如果一组单元块中的有效权重的总数量多于P×Q/2，则沿稀疏化权重矩阵的列向将该组平均拆分为两个组；

重复上述判断和拆分步骤，直到稀疏化权重矩阵中的每一组单元块中的有效权重的总数量均少于P×Q/2；

获取稀疏化权重矩阵中的每一组中包含的单元块的最小数量作为分组划分数量n，并根据该分组划分数量n沿稀疏化权重矩阵的列向将稀疏化权重矩阵划分为多个计算组。

有效权重地址获取单元403被配置为获取计算组中的每一有效权重的有效权重地址。

在实施例中，有效权重地址获取单元403可被配置为：

通过PE阵列依次读取计算组中的每一有效权重；

在实施例中，该稀疏化数据处理装置可进一步包括提取单元404和计算单元405，如图4的虚线所标示。

提取单元404被配置为读取卷积计算值。

在实施例中，提取单元404可被配置为：

通过PE阵列中的P×Q个PE单元，根据稀疏化权重矩阵的每个计算组的有效权重地址获取与该有效权重地址所对应的有效权重以及所述有效权重在非稀疏化权重矩阵中的存储地址；以及

根据所述有效权重在非稀疏化权重矩阵中的存储地址，读取所述有效权重对应的卷积计算值。

计算单元405被配置为执行卷积或全连接层计算。

在实施例中，计算单元405可被配置为根据每个计算组中的有效权重所对应的卷积计算值来执行深度学习的神经网络模型中的卷积或全连接层计算。

在实施例中，该稀疏化数据处理装置可进一步包括输出单元(图中未示出)。

该输出单元被配置为输出卷积或全连接层计算的结果。

在实施例中，该输出单元可被配置为输出神经网络模型中的卷积或全连接层计算的结果。

在实施例中，PE阵列中的PE单元为8×8的PE单元。

应当理解，虽然本说明书是按照各个实施方式中描述的，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

一种加速可重构处理器运行的稀疏化数据处理方法，所述可重构处理器包括PE阵列，所述PE阵列包括P×Q个PE单元，所述方法包括：

将待计算的稀疏化权重矩阵划分为至少一个单元块；

将所述至少一个单元块分组为至少一个计算组；以及

获取计算组中的每一有效权重的有效权重地址。
根据权利要求1所述的稀疏化数据处理方法，其中将待计算的稀疏化权重矩阵划分为至少一个单元块的步骤进一步包括：

通过沿所述稀疏化权重矩阵的行列方向以P×Q为一个划分单元，将所述稀疏化权重矩阵划分为至少一个单元块，其中每个单元块中包括至少一个有效权重。
根据权利要求1所述的稀疏化数据处理方法，其中将所述至少一个单元块分组为至少一个计算组的步骤进一步包括：

沿所述稀疏化权重矩阵的列向将所述稀疏化权重矩阵中的单元块分组为至少一个组，每组包括至少一个单元块；

判断每一组单元块中的有效权重的总数量是否多于P×Q/2；

如果一组单元块中的有效权重的总数量多于P×Q/2，则沿所述稀疏化权重矩阵的列向将该组平均拆分为两个组；

重复上述判断和拆分步骤，直到所述稀疏化权重矩阵中的每一组单元块中的有效权重的总数量均少于P×Q/2；

获取所述稀疏化权重矩阵中的每一组中包含的单元块的最小数量作为分组划分数量n，并根据该分组划分数量n沿所述稀疏化权重矩阵的列向将所述稀疏化权重矩阵划分为多个计算组。
根据权利要求1所述的稀疏化数据处理方法，其中获取计算组中的每一有效权重的有效权重地址的步骤进一步包括：

由PE阵列依次读取所述计算组中的每一有效权重；

将当前有效权重与上一有效权重之间间隔的零权重的数量作为当前有效权重的有效权重地址，存入与所述计算组的当前有效权重对应的存储地址中。
根据权利要求1所述的稀疏化数据处理方法，进一步包括：

读取卷积计算值；以及

执行卷积或全连接层计算。
根据权利要求5所述的稀疏化数据处理方法，其中读取卷积计算值的步骤进一步包括：

通过PE阵列中的P×Q个PE单元，根据稀疏化权重矩阵的每个计算组的有效权重地址获取与该有效权重地址所对应的有效权重以及所述有效权重在非稀疏化权重矩阵中的存储地址；以及

根据所述有效权重在非稀疏化权重矩阵中的存储地址，读取所述有效权重对应的卷积计算值。
根据权利要求5所述的稀疏化数据处理方法，其中执行卷积或全连接层计算的步骤进一步包括：

根据每个计算组中的有效权重所对应的卷积计算值来执行深度学习的神经网络模型中的卷积或全连接层计算。
根据权利要求1所述的稀疏化数据处理方法，其中所述PE阵列中的P×Q个PE单元为8×8的PE单元。
一种用于可重构处理器的稀疏化数据处理装置，所述可重构处理器包括至少一个PE阵列，每个PE阵列包括P×Q个PE单元，所述装置包括：

权重矩阵划分单元，被配置为将待计算的稀疏化权重矩阵划分为至少一个单元块；

计算组分组单元，被配置为将所述至少一个单元块分组为至少一个计算组；以及

有效权重地址获取单元，被配置为获取计算组中的每一有效权重的有效权重地址。
根据权利要求9所述的稀疏化数据处理装置，其中所述权重矩阵划分单元进一步配置为：

通过沿所述稀疏化权重矩阵的行列方向以P×Q为一个划分单元，将所述稀疏化权重矩阵划分为至少一个单元块，其中每个单元块中包括至少一个有效权重。
根据权利要求9所述的稀疏化数据处理装置，其中所述计算组分组单元进一步配置为：

沿所述稀疏化权重矩阵的列向将所述稀疏化权重矩阵中的单元块分组为至少一个组，每组包括至少一个单元块；

判断每一组单元块中的有效权重的总数量是否多于P×Q/2；

如果一组单元块中的有效权重的总数量多于P×Q/2，则沿所述稀疏化权重矩阵的列向将该组平均拆分为两个组；

重复上述判断和拆分步骤，直到所述稀疏化权重矩阵中的每一组单元块中的有效权重的总数量均少于P×Q/2；

获取所述稀疏化权重矩阵中的每一组中包含的单元块的最小数量作为分组划分数量n，并根据该分组划分数量n沿所述稀疏化权重矩阵的列向将所述稀疏化权重矩阵划分为多个计算组。
根据权利要求9所述的稀疏化数据处理装置，其中所述有效权重地址获取单元进一步配置为：

通过PE阵列依次读取计算组中的每一有效权重；

将当前有效权重与上一有效权重之间间隔的零权重的数量作为当前有效权重的有效权重地址，存入与所述计算组的当前有效权重对应的存储地址中。
根据权利要求9所述的稀疏化数据处理装置，进一步包括：

提取单元，被配置为读取卷积计算值；以及

计算单元，被配置为执行卷积或全连接层计算。
根据权利要求13所述的稀疏化数据处理装置，其中所述提取单元进一步配置为：

通过PE阵列中的P×Q个PE单元，根据稀疏化权重矩阵的每个计算组的有效权重地址获取与该有效权重地址所对应的有效权重以及所述有效权重在非稀疏化权重矩阵中的存储地址；以及

根据所述有效权重在非稀疏化权重矩阵中的存储地址，读取所述有效权重对应的卷积计算值。
根据权利要求13所述的稀疏化数据处理装置，其中所述计算单元进一步配置为：

根据每个计算组中的有效权重所对应的卷积计算值来执行深度学习的神经网络模型中的卷积或全连接层计算。
根据权利要求9所述的稀疏化数据处理装置，其中所述PE阵列中的P×Q个PE单元为8×8的PE单元。