WO2022133686A1

WO2022133686A1 - 有/无符号乘累加装置及方法

Info

Publication number: WO2022133686A1
Application number: PCT/CN2020/138119
Authority: WO
Inventors: 尹首一; 谷江源; 孙庆斌; 张淞; 刘雷波; 魏少军
Original assignee: 清华大学
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2022-06-30

Abstract

一种有/无符号乘累加装置及方法，适用于粗粒度可重构处理器架构，所述装置包含拆分模块、运算模块、处理模块和输出模块；拆分模块用于获取配置控制信号，根据配置控制信号将输入的大于预设位宽的二进制被乘数、乘数和加数，按预设拆分规则拆分生成多组小于预设位宽的二进制数；运算模块用于根据配置控制信号中的动态配置文件，通过多个MAC运算单元对多组小于预设位宽的二进制数进行对应的分组后，分别进行乘累加计算和/或并行乘累加计算获得多个计算结果；处理模块用于将多个计算结果按预设调整规则分别进行移位和有效位扩展处理获得多个大于预设位宽的处理结果；输出模块用于将多个处理结果进行累加获得运算结果。

Description

有/无符号乘累加装置及方法

技术领域

本发明涉及处理器设计领域，尤指一种有/无符号乘累加装置及方法。

背景技术

粗粒度可重构处理器架构以其低能耗、高性能和高能效和灵活动态可重构的特性，正得到越来越多的关注。粗粒度可重构计算架构是一种综合了通用处理器的灵活性和专用集成电路的高性能计算架构，非常适用于对于数据和计算密集型等并行度非常高的应用的处理，比如人工智能、数字信号处理、视频图像处理、科学计算和通信加密等领域的应用。同时，随着人工智能、神经网络、大数据、云计算、5G通信等应用的迅速兴起，其带来的更加密集的数据和更加密集的运算，而这些应用往往都会涉及到大量的不同位宽需求的乘法(Multiplication，MUL)运算和“乘累加(Multiplication-and-Addition Operation,MAC)”运算。

2017年，Google为神经网络应用的加速，构建了一个专用的集成电路加速器TPU(Tensor Processing Unit)，其主要采用乘累加器的MAC单元，在一个256x256的MAC阵列上，让乘累加运算以脉动阵列(systolic array)的方式进行执行，从而取得高达92TOPS@8bit的计算能力和4TOPS/W@8bit的能效比。然后它只支持8-bit的MAC。然而，在很多图像视频处理、语音识别和神经网络等应用中，其往往需求的计算精度是不一样的。有些只需要较低位宽的数据，就能满足其计算精度的需求。那么，如果我们能够在一个支持高位宽运算的硬件处理单元中，支持多组低位宽数据的并行执行，那么就能在有限的硬件资源下，将计算能力和计算性能近乎成倍提高，而不会带来太大的功耗开销，并极大挺高其计算的能效比。

而目前的可重构处理架构，都是单一位宽的乘法运算和加法运算，并且是单独分离的运算操作。所以，其往往无法根据具体应用需求，支持灵活的位宽精度调节。同时，一个MAC运算往往需要两个或者更多的运算周期，第一个周期将乘数和被乘数做乘法运算；第二个周期将前一个周期的运算结果通过累加器与被加数相加。这样，极大限制了可重构处理器得对上述等任务进行灵活高效的处理。为此，业内亟需一种新的方法及装置以提高效率。

发明内容

本发明目的在于提供提高一种有/无符号乘累加装置及方法，以有效地用于粗粒度可重构处理器架构中，通过灵活的运算数据位宽的动态配置，在充分利用其运算资源的前提下，实现多组不同位宽的乘法/乘累加运算的并行处理，从而几乎成倍的提高其计算吞吐率和计算性能和能效。同时，在同一套乘累加器电路里，可以有效灵活的支持有、无符号的乘法运算/乘累加运算，在非常低的功耗和面积开销下，充分保障并实现可重构处理器的动态可重构特性。

为达上述目的，本发明所提供的一种有/无符号乘累加装置，适用于粗粒度可重构处理器架构，所述装置包含拆分模块、运算模块、处理模块和输出模块；所述拆分模块用于获取配置控制信号，根据配置控制信号将输入的大于预设位宽的二进制被乘数、乘数和加数，按预设拆分规则拆分生成多组小于预设位宽的二进制数；所述运算模块用于根据所述配置控制信号中的动态配置文件，通过多个MAC运算单元对多组小于预设位宽的二进制数进行对应的分组后，分别进行乘累加计算和/或并行乘累加计算获得多个计算结果；所述处理模块用于将多个所述计算结果按预设调整规则分别进行移位和有效位扩展处理获得多个大于预设位宽的处理结果；所述输出模块用于将多个所述处理结果进行累加获得运算结果。

本发明还提供一种有/无符号乘累加方法，适用于粗粒度可重构处理器架构，所述方法包含：获取配置控制信号，根据配置控制信号将输入的大于预设位宽的二进制被乘数、乘数和加数，按预设拆分规则拆分生成多组小于预设位宽的二进制数；根据所述配置控制信号中的动态配置文件，通过多个MAC运算单元对多组小于预设位宽的二进制数进行对应的分组后，分别进行乘累加计算和/或并行乘累加计算获得多个计算结果；将多个所述计算结果按预设调整规则分别进行移位和有效位扩展处理获得多个大于预设位宽的处理结果；将多个所述处理结果进行累加获得运算结果。

本发明的有益技术效果在于：支持有/无符号的乘法和乘累加运算，将有无符号的运算统一于一种运算电路，不仅节省了面积和功耗开销，而且可以通过配置重构同时满足多种应用的需求，具有很好的可重构性和更广泛的适用性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例所提供的有/无符号乘累加装置的结构示意图；

图2为本发明一实施例所提供的有/无符号乘累加装置的应用结构示意图；

图3为本发明一实施例所提供的有/无符号乘累加装置的运算原理示意图；

图4为本发明一实施例所提供的任意精度可配MAC运算的乘累加运算原理示意图；

图5为本发明一实施例所提供的有/无符号乘累加方法的流程示意图；

图6为本发明一实施例所提供的一组完整的高位宽的无符号数的MAC乘累加运算示意图；

图7为本发明一实施例所提供的一组完整的高位宽的无符号数的MAC乘累加运算的应用示意图；

图8为本发明一实施例所提供的两组并行的低位宽的无符号数MAC乘累加运算示意图；

图9为本发明一实施例所提供的两组并行的低位宽的无符号数MAC乘累加计算的应用示意图；

图10为本发明一实施例所提供的一组完整的高位宽的有符号数的MAC乘累加运算示意图；

图11为本发明一实施例所提供的一组完整的高位宽的无符号数的MAC乘累加运算的应用示意图；

图12为本发明一实施例所提供的两组并行的低位宽的有符号数的MAC乘累加运算示意图；

图13为本发明一实施例所提供的两组并行的低位宽的有符号数的MAC乘累加运算的应用示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

请参考图1所示，本发明所提供的一种有/无符号乘累加装置，适用于粗粒度可重构处理器架构，所述装置包含拆分模块、运算模块、处理模块和输出模块；所述拆分模块用于获取配置控制信号，根据配置控制信号将输入的大于预设位宽的二进制被乘数、乘数和加数，按预设拆分规则拆分生成多组小于预设位宽的二进制数；所述运算模块用于根据所述配置控制信号中的动态配置文件，通过多个MAC运算单元对多组小于预设位宽的二进制数进行对应的分组后，分别进行乘累加计算和/或并行乘累加计算获得多个计算结果；所述处理模块用于将多个所述计算结果按预设调整规则分别进行移位和有效位扩展处理获得多个大于预设位宽的处理结果；所述输出模块用于将多个所述处理结果进行累加获得运算结果。由此，通过将乘法/乘累加运算需要的高位宽的二进制数，拆分成几组低位宽的二进制数，然后通过几个低位宽的乘累加器，经过适当计算，最后实现了位宽精度可调的有/无符号乘累加器。

在本发明一实施例中，所述运算模块包含多个MAC运算单元；所述MAC运算单元用于解析所述动态配置文件中的功能标识和运算种类标识；根据所述功能标识和所述运算种类标识获得各所述MAC运算单元对接收到二进制数的运算方式；根据所述运算方式对接收到的二进制数进行对应的乘累计算获得对应的计算结果。

如图2所示，在实际工作中，上述各模块的主要执行功能如下：

所述拆分模块主要根据配置控制信号Config，将输入的高位宽的二进制被乘数A、乘数B和加数C，进行适当合理的拆分，变成几组低位宽的二进制数。这里假设拆成2组任意低位宽的数据。

输入信号：3位的配置控制信号Config、M位被乘数A、N位乘数B和L位加数C；输出信号：经过拆分处理的m位A _L和M-m位A _H；n位B _L和N-n位B _H；l位C _L和L-l位C _H。

所述运算模块主要是将进行拆分的处理的各被乘数、乘数和加数进行乘累加计算，包括有符号数乘累加、无符号数乘累加以及有符号数和无符号数乘累加。如根据配置信息Config1～Config4，判断要进行是1组高位宽的有/无符号乘法/乘累加运算，还是2组并行计算的低位宽的有/无符号乘法/乘累加运算；并根据具体的被加数A_in是否为零，判断要进行乘法运算还是乘累加运算。

输入信号：m位AL和M-m位AH；n位BL和N-n位BH；l位CL和L-l位CH；两位config信号；输出信号：经过乘累加计算的结果P1、P2、P3和P4。

所述处理模块主要将几个小位宽数据计算的乘法/乘累加运算的最后结果，进行适当的移位和最高有效位扩展操作。其中，第一个MAC产生的结果P1，不进行移位；第二个MAC产生的结果P2，左移m位；第三个MAC产生的结果P3，左移n位；第四个MAC产生的结果P4，左移m+n位。然后，再将所有移位操作后的结果，进行最高有效位扩展，最终都扩展至M+N位。

输入信号：乘累加计算的结果P1、P2、P3和P4；输出信号：P1、P2、P3和P4经过移位和最高有效位扩展后的结果：P1_ext、P2_ext、P3_extt和P4_ext。

所述输出模块主要将前几部分模块计算后的结果进行累加得到最终的结果。

输入信号：移位和扩展后的结果P1_ext、P2_ext、P3_extt和P4_ext。输出信号：多比特位乘累加的最终结果Product。

在上述实施例中，控制信号Config的功能如表1，其为一个3-bit位宽的配置信号。

表1

为实现精度可调，本发明进一步对控制信号Config进行动态配置，在其内部生成配置控制信号Config1～Config4，为一个2-bit位宽的配置信号，其对应MAC的运算方式如表2。

表2

Config1～Config4的取值	MAC进行的运算种类
00	乘数和被乘数全为无符号数的乘累加运算
01	有符号的乘数和无符号的被乘数混合的乘累加运算
10	有符号的被乘数和无符号的乘数混合的乘累加运算
11	乘数和被乘数全为有符号数的乘累加运算

由此，不同的MAC运算单元最终的运算方式和功能可基于上述表格的对应关系予以确定，具体如以下表3所示。

表3

在本发明一实施例中，所述MAC运算单元还包含：识别小于预设位宽的二进制数中的符号情况；根据所述符号情况对所述二进制数进行对应的有符号位扩展或无符号数扩展；对扩展后的所述二进制数进行部分积和加数移位处理后，通过乘累计算获得计算结果。在实际工作中，所述有/无符号乘累加装置统一于一套硬件架构进行计算，可以像处理乘法部分积一样，处理乘累加中的被加数，从而可以像处理乘法部分积一样，处理乘累加中的被加数，从而实现将被加数隐藏在乘法之中采用部分积加法树中(如Wallace Tree)，统一进行压缩和累加处理，最终能够在基本不增加面积开销的情况下，完成乘累加运算操作。其中，各MAC运算单元在运算过程中，首先对输入的地位宽数有/无符号的判别后，分别进行有符号位扩展和无符号数扩展。然后根据乘累加的设计对基为4的Booth算法进行改进，将部分积和加数移位处理后，进行累加计算，在实现了将被加数隐藏在乘法计算之中的同时，完成了乘累加运算的计算。具体可参考图3所示，有符号数的符号位扩展和无符号数的最高位的扩展处理，以及对部分积Booth编码后的计算，其最终结果会有四位符号位的增加，因此要得到最终结果需要进行截断处理，从而减少器硬件资源的开销，以及减少面积和功耗开销，并且降低乘累加器的计算延时，提高工作频率和能效。此处，S为乘累加运算中的部分积和被加数进行Booth编码后操作后的最高位；N为乘累加运算中的部分积，在进行Booth编码中是否为负数编码时，是否进行的取反加1的操作；M表示任意位宽的有无符号乘累加运算的数据位宽。

在本发明一实施例中，所述运算模块还包含：根据应用的调用需求获得各MAC运算单元的运算类别，根据所述运算类别获得各MAC运算单元的被加数取值；所述MAC运算单元根据所述被加数取值对扩展后的所述二进制数进行部分积和加数移位处理。进一步的，所述处理模块还可包含根据所述计算结果的有/无符号情况和所述运算类别，对所述计算结果按预设调整规则分别进行移位和有效位扩展处理获得多个大于预设位宽的处理结果。具体的，可参考图4所示，假设其中M＝N＝L，n＝l，m>n，在进行任意精度可调的有/无符号乘累加计算时，本发明MAC运算单元的运算原理如在图4所示，将被乘数A、被乘数B和被加数C，进行拆分为2组低位宽的数据，分别为A _H、A _L、B _H、B _L、C _H和C _L；然后将A _H、A _L、B _H、B _L、C _H、C _L分别对应组合，得到图4所示的4个低位宽的MAC运算部分，标记为①②③④。其中，①和③是普通的乘累加运算，其计算的被加数分别为C _L和0；②和④是表示的乘累加运算，其计算的被加数可能为C _H或者0；当进行1组高位宽的乘累加运算时，②和④是表示的乘累加运算的被加数分别为C _H和0，当并行进行2组低位宽的乘累加运算时，②和④是表示的乘累加运算的被加数分别为0和C _H。如果进行1组高位宽的乘累加运算，则要将这4个模块进行的MAC乘累加运算后的结果，再进行移位和最高位扩展操作。

由此，本发明设计的精度可调的有/无符号乘累加装置中，其可以根据不同应用的不同精度和计算性能的需求，灵活选择最终输出的是一组高位宽的有/无符号乘法/乘累加运算结果，还是几组并行计算的低位宽的有/无符号乘法/乘累加运算结果；而且，将有无符号的运算统一于一种运算电路，不仅节省了面积和功耗开销，而且可以通过配置重构同时满足多种应用的需求，具有很好的可重构性和更广泛的使用性。

请参考图5所示，本发明还提供一种有/无符号乘累加方法，适用于粗粒度可重构处理器架构，所述方法包含：

S501获取配置控制信号，根据配置控制信号将输入的大于预设位宽的二进制被乘数、乘数和加数，按预设拆分规则拆分生成多组小于预设位宽的二进制数；

S502根据所述配置控制信号中的动态配置文件，通过多个MAC运算单元对多组小于预设位宽的二进制数进行对应的分组后，分别进行乘累加计算和/或并行乘累加计算获得多个计算结果；

S503将多个所述计算结果按预设调整规则分别进行移位和有效位扩展处理获得多个大于预设位宽的处理结果；

S504将多个所述处理结果进行累加获得运算结果。

在上述实施例中，通过多个MAC运算单元对多组小于预设位宽的二进制数进行对应的分组后，分别进行乘累加计算和/或并行乘累加计算获得多个计算结果包含：解析所述动态配置文件中的功能标识和运算种类标识；根据所述功能标识和所述运算种类标识获得各所述MAC运算单元对接收到二进制数的运算方式；根据所述运算方式对接收到的二进制数进行对应的乘累计算获得对应的计算结果。其中，根据所述运算方式对接收到的二进制数进行对应的乘累计算获得对应的计算结果包含：识别小于预设位宽的二进制数中的符号情况；根据所述符号情况对所述二进制数进行对应的有符号位扩展或无符号数扩展；对扩展后的所述二进制数进行部分积和加数移位处理后，通过乘累计算获得计算结果。具体应用实例可参考图4及上述对应实施例，在此就不再一一详述。

在本发明一实施例中，将多个所述计算结果按预设调整规则分别进行移位和有效位扩展处理获得多个大于预设位宽的处理结果还包含：根据应用的调用需求获得各MAC运算单元的运算类别，根据所述运算类别获得各MAC运算单元的被加数取值；所述MAC运算单元根据所述被加数取值对扩展后的所述二进制数进行部分积和加数移位处理。其中，所述运算类别包含：高位宽的有/无符号MAC运算和并行的低位宽的有/无符号MAC运算。

为便于更清楚的理解本发明所提供的上述实施例的具体应用方式，以下以具体实例对高位宽的有/无符号MAC运算和并行的低位宽的有/无符号MAC运算的作详细说明，本领域相关技术人员当可知该实例仅为便于理解本发明所提供的上述实施例的一种应用方式，并不对其做任何限定。

一组完整的高位宽的无符号MAC运算可参考图6所示，假设其中M＝N＝L，n＝l，m>n，当输入A、B和C为无符号数时，A _H、A _L、B _H、B _L、C _H和C _L都是无符号数，因此，4个低位宽的MAC运算部分，进行的都是无符号的运算。本发明所提供的有/无符号乘累加方法，能够将无符号数统一化为有符号数进行计算，所以对于4组无符号数的MAC运算，这里都需要进行符号位的扩展。即按照MAC运算单元的前述逻辑，添加两位无符号扩展后进行计算。由于图6中的③和④两个MAC部分积的计算不存在加数，所以对于乘累加器而言，需要将被加数视为0处理。其具体处理方法如下：

第一步：对于①进行的是A _L×B _L+C _L的计算，对其结果不进行移位。其中，A _L,B _L,C _L均进行无符号扩展；

第二步：对于②进行的是A _H×B _L+C _H的计算，对其结果逻辑左移m位(A _L的位宽)。其中A _H,B _L,C _H均进行无符号扩展；

第三步：对于③进行的是A _L×B _H+0的计算，对其结果逻辑左移n位(B _L的位宽)。其中A _L,B _H均进行无符号扩展；

第四步：对于④进行的是A _H×B _H+0的计算，对其结果逻辑左移m+n位(A _L+B _L的位宽)。其中A _H,B _H均进行无符号扩展；

第五步：①、②、③和④的MAC运算都将得到四个计算结果，将这四个结果再进行累加得到最终无符号高位宽结果。

再请参考图7所示，为本发明仅进行一组高位宽无符号MAC运算的例子，在计算无符号乘累加运算A◇B+C，以A＝155,B＝161,C＝88进行计算说明；其对高位宽拆分为2组低位宽数据，并对低位宽数进行无符号扩展处理，再进行乘或乘累加计算，最后将所得的P ₁、P ₂、P ₃和P ₄进行移位处理后，相加即可得到高位宽的最终结算结果；该实施例证明采用本发明提供的乘累加方法可以对于无符号数进行准确的精度可调的乘或乘累加计算。

在另一实施例中，两组并行的低位宽的无符号MAC运算可参考图8所示，在图8中，假设其中M＝N＝L，m>n，当输入A、B和C为无符号数时，A _H、A _L、B _H、B _L、C _H和C _L都是无符号数，因此，中②③可以不被使能，降低相应的计算功耗；①④计算2组低位宽的MAC运算部分P ₁＝A _L×B _L+C _L和P ₄＝A _H×B _H+C _H，其进行的都是无符号的运算。但本发明设计的MAC运算，能够将无符号数统一化为有符号数进行计算，所以对于4组无符号数的MAC运算，这里都需要进行符号位的扩展。即按照MAC乘法器的上述逻辑，添加两位无符号扩展后进行计算。所以，为同时分别获得两组低位宽乘累加的结果，其具体流程如下所示：

第二步：对②和③将不使能，不进行计算，其输入的数据信号全部置0。

第三步：对于④进行的是A _H×B _H+C _H的计算，对其结果逻辑左移m+n位(A _L+B _L的位宽)。

第四步：对其中A _H、B _H和C _H均进行无符号扩展。最后输出的两组结果是P ₁和P _4，即分别是2组低位宽无符号数MAC乘累加运算的结算结果。

再请参考图9所示，以A _H＝9,B _H＝10,C _H＝5和A _L＝11,B _L＝1,C _L＝8，进行举例说明。在计算无符号乘法A _H◇B _H+C _H时，①MAC运算单元工作进行无符号乘累加计算得到结果P ₄＝95，②MAC运算单元并行进行A _L◇B _L+C _L无符号的乘累加，计算结果为P ₁＝19；该实施例证明采用本发明所提供的乘累加方法，可以对于两组低位宽无符号数同时并行计算获取两组准确的结果。

在本发明一实施例中，一组完整的高位宽的有符号MAC运算如图10所示，假设其中M＝N＝L，n＝l，m>n，当输入A、B和C为有符号数时，则4个MAC运算需要进行分类讨论，其中E表示需要进行扩展的数据的符号位。假设其中A _H、B _H和C _H是有符号数，A _L、B _L和C _L是无符号数，4低位宽的MAC运算，各部分对应4中不同的MAC运算。其中，①进行的是无符号运算；②进行的是有符号数和无符号数相乘加有符号数；③进行的是有符号数乘无符号数运算；④进行的是有符号运算。因此，要对各个运算进行分别讨论，按照如下方法进行计算：

第一步：如图10中①所示，首先在进行A _L×B _L+C _L计算时，是无符号计算，需要对A _L,B _L,C _L进行无符号扩展，即扩展两位0。然后将原计算结果的前3位符号位进行舍弃处理来节省面积开销，实际计算结果P ₁保留m+n+1位。最后并进行补位处理，将计算结果P ₁进行MSB(Most Significant Bit)扩展，一直扩展补充到M+N位。

第二步：如图10中②所示，首先在进行A _H×B _L+C _H计算的时，其中A _H和C _H是有符号数，B _L是无符号数，所以不能进行直接进行计算，所以需要将无符号数B _L进行无符号扩展，即扩展两位0；将有符号数有进行符号位扩展，即扩展两位符号位E。然后将原计算结果的前3位符号位进行舍弃处理来节省面积开销，实际计算结果P ₂保留M-m+n+1位。接着，进行移位处理将P ₂左移m位。最后，进行补位处理，将计算结果P ₂进行MSB扩展，一直扩展补充到M+N位。

第三步：如图10中③所示，首先进行A _L×B _H+0计算时，其中A _L是无符号数，B _H是有符号数，所以不能直接进行计算，所以需要将无符号数A _L进行无符号扩展，即扩展两位0；将有符号数进行符号位扩展，即扩展两位符号位E。然后将原来计算结果前3位符号位进行舍弃处理来节省面积开销，实际计算结果P ₃保留N-n+m+1位。接着进行移位处理，将P ₃左移n位。最后进行补位处理，将计算结果P ₃进行MSB扩展，一直扩展到M+N位。

第四步：如图10中④所示，首先进行A _H×B _H+0计算时，其中A _H和B _H是有符号数，所以进行的是有符号计算，对A _H和B _H要进行符号位的扩展，即扩展两位符号位E。然后将原计算结果的前四位符号位进行舍弃处理，与步骤一、二、三不同的是将计算结果前4位进行舍弃处理来节省面积开销，实际计算结果P ₄保留N-n+M-m位。最后进行移位处理，将P ₄左移m+n位。如图10所示在进行移位处理不需要再进行MSB的扩展。

第五步：最后，①、②、③和④各自计算得到四个结果将这四个结果再进行累加得到最终有符号结果。

再请参考图11所示，为一组高位宽的有符号乘法的例子A◇B+C，以A＝-1,B＝21,C＝-1进行举例说明。其对高位宽拆分为两组低位宽数据，并对低位宽数进行有符号数符号位扩展和无符号扩展处理。由于本发明所提供的MAC运算单元能将有符号数相乘/乘累加、无符号数相乘/乘累加以及有/无符号数相乘/乘累加三种不同的运算统一于一套运算电路，实现了各种符号数的乘法或乘累加运算的准确计算；最后，其再将所得的P ₁、P ₂、P ₃和P ₄进行移位处理，然后相加即可得到一组高位宽MAC运算的最终结果；该实施例证明采用本发明所提供的乘累加方法，可以对于有符号数进行准确的精度可调的乘或乘累加计算。

在本发明一实施例中，两组并行的低位宽的有符号MAC运算如图12所示，假设其中M＝N＝L，m>n，在进行有符号数乘累加计算时，其中A _H、B _H、C _H和A _L、B _L、C _L是两组有符号数。则①②③④为4个低位宽的有符号的MAC乘累加计算，需要将A _H、B _H、C _H和A _L、B _L、C _L均进行有符号扩展，其中E表示需要进行扩展的数据的符号位。然后，其中②③可以不被使能，降低相应的计算功耗；①④计算P ₁＝A _L×B _L+C _L和P ₄＝A _H×B _H+C _H，为同时分别获得两组低位宽乘累加的结果，采用本发明所设计的乘累加器原理，其具体方法如下：

第一步：对于①进行的是A _L×B _L+C _L的计算，对其结果不进行移位。其中，A _L,B _L,C _L均进行有符号扩展；

第二步：对于②和③两组将不使能，不进行相应的计算，其输入数据信号全部置0。

第三步：对于④进行的是A _H×B _H+C _H的计算，其中A _H、B _H和C _H均进行有符号扩展。

第四步：最后并行输出的两组MAC运算的结果是P ₁和P ₄，分别是两组低位宽有符号MAC乘累加运算的结算结果。

如图13所示，为一组高位宽的有符号乘法的例子，以A _H＝-1,B _H＝1,C _H＝-1和A _L＝-1,B _L＝5,C _L＝-1，进行举例说明。其中，有符号运算A _H◇B _H+C _H，此时①运算单元工作进行有符号MAC乘累加计算得到结果P ₄＝-2，同时②运算单元并行进行A _L◇B _L+C _L有符号MAC乘累加运算，计算结果为P ₁＝-6；该实施例证明采用本发明所提供的乘累加方法，可以对于两组高位宽有符号数同时并行计算，仍然能获取两组准确的计算结果。

本发明技术通过将乘法/乘累加运算需要的高位宽的二进制数，拆分成几组低位宽的二进制数，然后通过几个低位宽的乘累加器即MAC运算单元，经过适当计算，最后实现了位宽精度可调的有/无符号乘累加器；其在充分利用了硬件资源在非常低的额外开销下，能够同时支持各种位宽精度的有/无符号乘法和乘累加/乘法运算；更重要的是可以根据具体应用，在计算精度允许的前提下，实现多组不同低位宽的乘法/乘累加运算的并行执行，来满足应用计算性能的需求。

虽然本发明以拆分成两组低位宽的数据为例，但是我们的方法可以将输入的数据拆分成任意多个低位宽数据，进一步提高了灵活性满足不同精度的计算要求。如果其扩展拆分成4组低位宽的数据，用16个低位宽的MAC运算单元，可以实现4组低位宽的有无符号乘累加/乘法的并行运算，或者2组较低位宽的有无符号乘累加/乘法的并行运算，或者1组高位宽有的无符号乘累加/乘法的单独运算；比如，8/16/32或者4/8/16等不同数据位宽精度的运算，同样，以此类推，我们所提出的方法是可以推广到任意精度可调的计算应用之中，将高位宽数拆分为任意多个低位宽数，进行灵活的位宽精度设计；因此本发明设计的高能效的位宽精度可调的有/无符号乘累加器，可以应用到多种不同需求的硬件加速电路中，如CGRA、FPGA、GPU、DSP、TPU和神经网络加速芯片(NPU)等，具有非常高的通用性和广泛的适用性。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种有/无符号乘累加装置，适用于粗粒度可重构处理器架构，其特征在于，所述装置包含拆分模块、运算模块、处理模块和输出模块；

所述拆分模块用于获取配置控制信号，根据配置控制信号将输入的大于预设位宽的二进制被乘数、乘数和加数，按预设拆分规则拆分生成多组小于预设位宽的二进制数；

所述运算模块用于根据所述配置控制信号中的动态配置文件，通过多个MAC运算单元对多组小于预设位宽的二进制数进行对应的分组后，分别进行乘累加计算和/或并行乘累加计算获得多个计算结果；

所述处理模块用于将多个所述计算结果按预设调整规则分别进行移位和有效位扩展处理获得多个大于预设位宽的处理结果；

所述输出模块用于将多个所述处理结果进行累加获得运算结果。
根据权利要求1所述的有/无符号乘累加装置，其特征在于，所述运算模块包含多个MAC运算单元；

所述MAC运算单元用于解析所述动态配置文件中的功能标识和运算种类标识；

根据所述功能标识和所述运算种类标识获得各所述MAC运算单元对接收到二进制数的运算方式；

根据所述运算方式对接收到的二进制数进行对应的乘累计算获得对应的计算结果。
根据权利要求2所述的有/无符号乘累加装置，其特征在于，所述MAC运算单元还包含：

识别小于预设位宽的二进制数中的符号情况；

根据所述符号情况对所述二进制数进行对应的有符号位扩展或无符号数扩展；

对扩展后的所述二进制数进行部分积和加数移位处理后，通过乘累计算获得计算结果。
根据权利要求3所述的有/无符号乘累加装置，其特征在于，所述运算模块还包含：根据应用的调用需求获得各MAC运算单元的运算类别，根据所述运算类别获得各MAC运算单元的被加数取值；所述MAC运算单元根据所述被加数取值对扩展后的所述二进制数进行部分积和加数移位处理。
根据权利要求4所述的有/无符号乘累加装置，其特征在于，所述处理模块还包含根据所述计算结果的有/无符号情况和所述运算类别，对所述计算结果按预设调整规则分别进行移位和有效位扩展处理获得多个大于预设位宽的处理结果。
一种有/无符号乘累加方法，适用于粗粒度可重构处理器架构，其特征在于，所述方法包含：

获取配置控制信号，根据配置控制信号将输入的大于预设位宽的二进制被乘数、乘数和加数，按预设拆分规则拆分生成多组小于预设位宽的二进制数；

根据所述配置控制信号中的动态配置文件，通过多个MAC运算单元对多组小于预设位宽的二进制数进行对应的分组后，分别进行乘累加计算和/或并行乘累加计算获得多个计算结果；

将多个所述计算结果按预设调整规则分别进行移位和有效位扩展处理获得多个大于预设位宽的处理结果；

将多个所述处理结果进行累加获得运算结果。
根据权利要求1所述的有/无符号乘累加方法，其特征在于，通过多个MAC运算单元对多组小于预设位宽的二进制数进行对应的分组后，分别进行乘累加计算和/或并行乘累加计算获得多个计算结果包含：

解析所述动态配置文件中的功能标识和运算种类标识；

根据所述功能标识和所述运算种类标识获得各所述MAC运算单元对接收到二进制数的运算方式；

根据所述运算方式对接收到的二进制数进行对应的乘累计算获得对应的计算结果。
根据权利要求7所述的有/无符号乘累加方法，其特征在于，根据所述运算方式对接收到的二进制数进行对应的乘累计算获得对应的计算结果包含：

识别小于预设位宽的二进制数中的符号情况；

根据所述符号情况对所述二进制数进行对应的有符号位扩展或无符号数扩展；

对扩展后的所述二进制数进行部分积和加数移位处理后，通过乘累计算获得计算结果。
根据权利要求8所述的有/无符号乘累加方法，其特征在于，将多个所述计算结果按预设调整规则分别进行移位和有效位扩展处理获得多个大于预设位宽的处理结果还包含：

根据应用的调用需求获得各MAC运算单元的运算类别，根据所述运算类别获得各MAC运算单元的被加数取值；

所述MAC运算单元根据所述被加数取值对扩展后的所述二进制数进行部分积和加数移位处理。
根据权利要求9所述的有/无符号乘累加方法，其特征在于，所述运算类别包含：高位宽的有/无符号MAC运算和并行的低位宽的有/无符号MAC运算。