WO2022088157A1

WO2022088157A1 - 一种浮点数计算电路以及浮点数计算方法

Info

Publication number: WO2022088157A1
Application number: PCT/CN2020/125676
Authority: WO
Inventors: 蒋东龙; 董镇江; 谢环; 李震桁
Original assignee: 华为技术有限公司
Priority date: 2020-10-31
Filing date: 2020-10-31
Publication date: 2022-05-05
Also published as: US20230266941A1; EP4220379A4; EP4220379A1; CN115812194A

Abstract

一种浮点数计算电路（100）以及浮点数计算方法，浮点数计算电路（100）包括的拆分电路（102）拆分第一浮点数的尾数部分与第二浮点数的尾数部分。指数处理电路（104）得到拆分后的各尾数部分的第二移位数。计算电路（105）根据拆分后的各尾数部分以及拆分后的各尾数部分的第二移位数计算第一浮点数与所述第二浮点数的尾数部分的乘积。该浮点数计算电路（100）可以把位数较大的浮点数拆分为位数较小的浮点数，从而采用较小位数的乘法器来计算该位数较大的浮点数，该浮点数计算电路（100）时序开销短，硬件设计代价低，合理的利用了乘法器的计算性能。

Description

一种浮点数计算电路以及浮点数计算方法

技术领域

本申请实施例涉及计算机领域，进一步涉及人工智能(artificial intelligence，AI)技术在计算机领域中的应用，尤其是一种浮点数计算电路以及浮点数计算方法。

背景技术

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

卷积神经网络(convolution neural network,CNN)目前被广泛应用于多种类型的图像处理应用中，此类应用在使用浮点数(floating point，FP)16数据对模型进行网络训练时，由于FP16数据精度不足，会导致网络训练不收敛或者收敛速度慢，所以需要使用更高精度的FP32数据来保证网络训练效果。此外，在超算应用中，需要使用更高精度的FP64数据来进行数值计算。

现有的数据计算方案中，通常采用较大位数的乘法器来计算数据。例如，通常复用用于计算FP64数据的乘法器来计算FP64数据和FP32数据。现有的计算方案设计了一个54比特(binarb digit，bit)的乘法器，用于直接支持FP64数据的尾数(mantissa)的计算。当该乘法器计算FP32数据时，逻辑上将54bit的乘法器分为两个27bit部分，分别用于支持两对FP32数据的mantissa部分的计算。至于指数(eaponential，eap)部分的处理，则直接将FP64部分的eap处理单元拷贝了一份，用作处理额外的FP32的eap部分。然而，从面积比例来看，一个FP64乘法器的面积开销，约等于四个FP32乘法器。但复用FP64乘法器计算FP32数据时，只实现了两倍FP32乘法器的计算性能，且FP64乘法器的时序开销长，硬件设计代价较高。因此，采用较大位数的乘法器来计算数据时时序开销以及硬件设计等方面的表现令人不甚满意。

发明内容

本申请实施例提供了一种浮点数计算电路以及浮点数计算方法，该浮点数计算电路可以把位数较大的浮点数拆分为位数较小的浮点数，从而采用较小位数的乘法器来计算该位数较大的浮点数，该浮点数计算电路时序开销短，硬件设计代价低，合理的利用了乘法器的计算性能。

本申请实施例第一方面提供一种浮点数计算电路，该浮点数计算电路包括：内存控制器、拆分电路、存储电路、指数处理电路以及计算电路；所述拆分电路的输入端与所述内存控制器的输出端电连接，所述拆分电路的输出端与所述存储电路的输入端电连接；所述指数处理电路的输入端与所述存储电路的第一输出端电连接，所述指数处理电路的输出端与所述计算电路的第一输入端电连接；所述计算电路的第二输入端与所述存储电路的第二输出端电连接；所述内存控制器用于获取第一浮点数以及第二浮点数；所述拆分电路用于拆分所述第一浮点数的尾数部分与所述第二浮点数的尾数部分以及得到拆分后的各尾数部分的第一移位数；所述存储电路用于存储拆分后的各尾数部分、拆分后的各尾数部分对应的指数部分以及所述拆分后的各尾数部分的第一移位数；所述指数处理电路用于将所述第一浮点数的指数部分以及所述第二浮点数的指数部分相加以得到第一运算结果，以及，将所述拆分后的各尾数部分的第一移位数与拆分后的各尾数部分对应的指数部分相加以得到多个第二运算结果，根据多个第二运算结果得到拆分后的各尾数部分的第二移位数；所述计算电路用于根据所述拆分后的各尾数部分以及所述拆分后的各尾数部分的第二移位数计算所述第一浮点数与所述第二浮点数的尾数部分的乘积。

本申请实施例提供了一种浮点数计算电路，该浮点数计算电路包括的拆分电路拆分第一浮点数的尾数部分与第二浮点数的尾数部分。指数处理电路得到拆分后的各尾数部分的第二移位数。计算电路根据拆分后的各尾数部分以及拆分后的各尾数部分的第二移位数计算第一浮点数与第二浮点数的尾数部分的乘积。该浮点数计算电路可以把位数较大的浮点数拆分为位数较小的浮点数，从而采用较小位数的乘法器来计算该位数较大的浮点数，本申请提供的浮点数计算电路时序开销短，硬件设计代价低，合理的利用了乘法器的计算性能。

在第一方面的一种可能的实现方式中，所述拆分电路用于将所述第一浮点数的尾数部分拆分为第一高位尾数与第一低位尾数，将所述第二浮点数的尾数部分拆分为第二高位尾数与第二低位尾数，所述第一移位数用于指示各个高位尾数的最高位与各个低位尾数的最高位之间的移位差值。

该种可能的实现方式中，本申请提供的浮点数计算电路可以把第一浮点数位数较大的尾数部分拆分为位数较小的第一高位尾数与第一低位尾数，把第二浮点数位数较大的尾数部分拆分为位数较小的第二高位尾数与第二低位尾数，从而采用较小位数的乘法器来计算拆分后的各尾数部分的乘积，降低了硬件的设计成本，合理的利用了乘法器的计算性能。

在第一方面的一种可能的实现方式中，所述第一高位尾数包括第一尾数，所述第一低位尾数包括第二尾数，所述第二高位尾数包括第三尾数，所述第二低位尾数包括第四尾数。

该种可能的实现方式中，提供了对于浮点数尾数部分的一种具体的拆分方式，将FP32类型的浮点数的尾数部分采用该种拆分方式进行拆分后，可以使用FP16类型的乘法器来进行计算。同理，将FP64类型的浮点数的尾数部分采用该种拆分方式进行拆分后，可以使用FP32类型的乘法器来进行计算，将FP128类型的浮点数的尾数部分采用该种拆分方式进行拆分后，可以使用FP64类型的乘法器来进行计算。该种拆分方式可以实现采用较小位数的乘法器来计算位数较大的尾数部分的乘积。

在第一方面的一种可能的实现方式中，所述第一高位尾数包括第一尾数，所述第一低位尾数包括第二尾数、第三尾数、第四尾数以及第五尾数，所述第二高位尾数包括第六尾数，所述第二低位尾数包括第七尾数、第八尾数，第九尾数以及第十尾数。

该种可能的实现方式中，提供了对于浮点数尾数部分的一种具体的拆分方式，将FP64类型的浮点数的尾数部分采用该种拆分方式进行拆分后，可以使用FP16类型的乘法器来进行计算。同理，将FP128类型的浮点数的尾数部分采用该种拆分方式进行拆分后，可以使用FP32类型的乘法器来进行计算。该种拆分方式可以实现采用较小位数的乘法器来计算位数较大的尾数部分的乘积。

在第一方面的一种可能的实现方式中，所述指数处理电路包括第一加法器、选择电路以及第二加法器；所述第一加法器的输入端与所述存储电路的第一输出端电连接，所述第一加法器的输出端与所述第二加法器的第一输入端电连接；所述第二加法器的第二输入端与所述选择电路的输出端电连接，所述第二加法器的输出端与所述计算电路的第一输入端电连接；所述第一加法器用于将所述拆分后的各尾数部分的第一移位数与拆分后的各尾数部分对应的指数部分相加以得到多个第二运算结果；所述选择电路用于选择所述多个第二运算结果中的最大值；所述第二加法器用于将所述多个第二运算结果中的最大值分别与各第二运算结果相减以得到所述拆分后的各尾数部分的第二移位数。

该种可能的实现方式提供了一种硬件方面具体的实现形式，提升了方案的可实现性。

在第一方面的一种可能的实现方式中，所述计算电路包括乘法器、移位寄存器以及第三加法器；所述乘法器的输入端与所述存储电路的第二输出端电连接，所述乘法器的输出端与所述移位寄存器的第一输入端电连接；所述移位寄存器的第二输入端与所述第二加法器的输出端电连接；所述移位寄存器的输出端与所述第三加法器的输入端电连接；所述乘法器用于将第一高位尾数以及第一低位尾数拆分出的各尾数部分分别与第二高位尾数以及第二低位尾数拆分出的各尾数部分相乘得到多个乘法数据；所述移位寄存器用于根据所述拆分后的各尾数部分的第二移位数对所述多个乘法数据做移位处理；所述第三加法器用于对移位处理后的多个乘法数据做加法运算以得到所述第一浮点数与所述第二浮点数的尾数部分的乘积。

本申请实施例第二方面提供了一种浮点数计算方法，该方法包括：获取第一浮点数以及第二浮点数；拆分所述第一浮点数的尾数部分与所述第二浮点数的尾数部分以及得到拆分后的各尾数部分的第一移位数；存储拆分后的各尾数部分、拆分后的各尾数部分对应的指数部分以及所述拆分后的各尾数部分的第一移位数；将所述第一浮点数的指数部分以及所述第二浮点数的指数部分相加以得到第一运算结果，以及，将所述拆分后的各尾数部分的第一移位数与拆分后的各尾数部分对应的指数部分相加以得到多个第二运算结果，根据多个第二运算结果得到拆分后的各尾数部分的第二移位数；根据所述拆分后的各尾数部分以及所述拆分后的各尾数部分的第二移位数计算所述第一浮点数与所述第二浮点数的尾数部分的乘积。

本申请实施例中，拆分第一浮点数的尾数部分与第二浮点数的尾数部分后得到拆分后的各尾数部分的第二移位数。然后，根据拆分后的各尾数部分以及拆分后的各尾数部分的第二移位数计算第一浮点数与所述第二浮点数的尾数部分的乘积。该方法可以把位数较大的浮点数拆分为位数较小的浮点数，从而采用较小位数的乘法器来计算该位数较大的浮点数，本申请提供的浮点数计算方法使得计算装置时序开销短，硬件设计代价低，合理的利用了计算装置中包括的乘法器的计算性能。

在第二方面的一种可能的实现方式中，所述拆分所述第一浮点数的尾数部分与所述第二浮点数的尾数部分，包括：将所述第一浮点数的尾数部分拆分为第一高位尾数与第一低位尾数，将所述第二浮点数的尾数部分拆分为第二高位尾数与第二低位尾数，所述第一移位数用于指示各个高位尾数的最高位与各个低位尾数的最高位之间的移位差值。

该种可能的实现方式中，本申请提供的浮点数计算方法可以把第一浮点数位数较大的尾数部分拆分为位数较小的第一高位尾数与第一低位尾数，把第二浮点数位数较大的尾数部分拆分为位数较小的第二高位尾数与第二低位尾数，从而采用较小位数的乘法器来计算拆分后的各尾数部分的乘积，降低了硬件的设计成本，合理的利用了乘法器的计算性能。

在第二方面的一种可能的实现方式中，所述第一高位尾数包括第一尾数，所述第一低位尾数包括第二尾数，所述第二高位尾数包括第三尾数，所述第二低位尾数包括第四尾数。

在第二方面的一种可能的实现方式中，所述第一高位尾数包括第一尾数，所述第一低位尾数包括第二尾数、第三尾数、第四尾数以及第五尾数，所述第二高位尾数包括第六尾数，所述第二低位尾数包括第七尾数、第八尾数，第九尾数以及第十尾数。

本申请实施例第三方面提供了一种计算装置，所述计算装置包括控制电路以及浮点数计算电路。所述浮点数计算电路在所述控制电路的控制下计算数据，所述浮点数计算电路为如上述第一方面或第一方面任意一种可能实现方式中所描述的浮点数计算电路。

附图说明

图1为本申请提供的卷积神经网络的处理原理图；

图2为本申请实施例提供的FP32类型的浮点数的组成示意图；

图3为本申请实施例提供的浮点数计算电路的一结构示意图；

图4为本申请实施例提供的浮点数计算电路的一实施例示意图；

图5为本申请实施例提供的浮点数计算电路的另一结构示意图；

图6为本申请实施例提供的浮点数计算电路的另一实施例示意图；

图7为本申请实施例提供的浮点数计算电路的另一实施例示意图；

图8为本申请实施例提供的浮点数计算电路的另一实施例示意图；

图9为本申请实施例提供的浮点数计算电路的另一实施例示意图；

图10为本申请实施例提供的浮点数计算电路的另一实施例示意图；

图11为本申请实施例提供的浮点数计算电路的另一实施例示意图；

图12为本申请实施例提供的浮点数计算电路的另一实施例示意图；

图13为本申请实施例提供的浮点数计算电路的另一实施例示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图，对本申请的实施例进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号，并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤，已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序，只要能达到相同或者相类似的技术效果即可。

图1为本申请提供的卷积神经网络的处理原理图。

卷积神经网络CNN在图像、语音识别等领域有广泛的应用前景。如图1所示，卷积神经网络需要对多个卷积核以及一张或者多张特征图进行卷积运算。具体的，对于每一个卷积核，将其从特征图的第一个像素开始，延行方向逐像素移动，当到达此行的终点时，在列方向下移一个像素，行方向的回到起点，并且重复行方向移动过程，直到遍历特征图的所有像素。在卷积核移动的过程中，将卷积核中的参数和特征图相中对应位置的数据作为卷积运算的两部分输入，进行卷积操作(两两相乘再将乘积逐个累加)，得到卷积结果后输出该卷积结果。

卷积神经网络(convolution neural network,CNN)目前被广泛应用于多种类型的图像处理应用中，图像处理应用在使用浮点数(floating point，FP)16类型的数据对模型进行网络训练时，由于FP16类型的数据精度不足，会导致网络训练不收敛或者收敛速度慢，所以需要使用更高精度的FP32类型的数据来保证网络训练效果。此外，在某些应用中，需要使用更高精度的FP64类型的数据以及FP128类型的数据来进行模型训练。

需要说明的是，本发明中涉及的浮点数计算电路除了可以应用于人工智能领域外，还可以应用于数据信号处理领域，比如图像处理系统，雷达系统和通讯系统。此电路和方法可以优化数字信号处理(digital signal processing，DSP)或其它数字设备的性能。比如应用于长期演进(long term evolution,LTE)、通用移动通信系统(universal mobile telecommunications system，UMTS)、全球移动通信系统(global system for mobile communications，GSM)等现行通讯系统中的数字设备。

现有的数据计算方案中，通常采用较大位数的乘法器来计算数据。例如，通常复用用于计算FP64数据的乘法器来计算FP64数据和FP32数据。某些计算方案设计了一个54bit的乘法器，用于直接支持FP64数据的尾数(mantissa)的计算。当该乘法器计算FP32数据时，逻辑上将54bit的乘法器分为两个27bit部分，分别用于支持两对FP32数据的mantissa部分的计算。然而，从面积比例来看，一个FP64乘法器的面积开销，约等于四个FP32乘法器。但现有技术复用FP64乘法器计算FP32数据时，只实现了两倍FP32乘法器的计算性能，且FP64乘法器的时序开销长，硬件设计代价较高。因此，采用较大位数的乘法器来计算数据时时序开销以及硬件设计等方面的表现令人不甚满意。

针对现有的数据计算方案所存在的上述问题，本申请实施例提供了一种浮点数计算电路，该浮点数计算电路包括的拆分电路拆分第一浮点数的尾数部分与第二浮点数的尾数部分以及得到拆分后的各尾数部分的第一移位数，指数处理电路将拆分后的各尾数部分的第一移位数与拆分后的各尾数部分对应的指数部分相加以得到多个第二运算结果，根据多个第二运算结果得到拆分后的各尾数部分的第二移位数。计算电路根据拆分后的各尾数部分以及拆分后的各尾数部分的第二移位数计算所述第一浮点数与所述第二浮点数的尾数部分的乘积。该浮点数计算电路可以把位数较大的浮点数拆分为位数较小的浮点数，从而采用较小位数的乘法器来计算该位数较大的浮点数，合理的利用了乘法器的计算性能，时序开销短，硬件设计代价较低。

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例中不再进行赘述。还需说明的是，本申请实施例中所示出的各种部件的长度、宽度、高度(或厚度)仅为示例性说明，并非对本申请的存储单元的限定。

目前有四种格式的浮点数较为常见，分别为FP16、FP32、FP64以及FP128。其中，每种浮点数都由三部分组成，分别是符号位(sign)、指数位(exp)和尾数位(mantissa)。一个浮点数的实际值等于sign*2 ^exp*mantissa。

图2为本申请实施例提供的FP32类型的浮点数的组成示意图。

如图2所示，FP32类型的浮点数有1bit的sign，8bit的exp和24bit的mantissa，显示存储的共计32bit。其中mantissa的最高位隐式存储(如果exp不为0，则hiden bit为1，否则hiden bit为0)，三部分共计32bit。

在计算浮点数A*B时，指数部分的计算过程为A_exp+B_exp，尾数部分的计算过程为A_mantissa*B_mantissa。然后将新得到的exp和mantissa按照标准中的格式生成新的浮点数。

在计算浮点数A+B时，先求出A_exp和B_exp中较大的一个。假设，A_exp比B_exp大n。然后在mantissa相加时，就需要先将B_mantissa右移n个bit，然后再与A_mantissa相加，得到新的mantissa，再根据标准生成新的的浮点数。在计算多个浮点数一起相加时，会先求得其中最大的exp，然后根据最大的exp与各个浮点数的exp之间的差值，对mantissa做相应的移位，然后再将移位后的mantissa相加。

图3是本申请实施例提供的浮点数计算电路的一结构示意图。

请参阅图3，本申请提供的浮点数计算电路100包括：内存控制器101、拆分电路102、存储电路103、指数处理电路104以及计算电路105。

本申请实施例中，拆分电路102的输入端与内存控制器101的输出端电连接，拆分电路102的输出端与存储电路103的输入端电连接。指数处理电路104的输入端与存储电路103的第一输出端电连接，指数处理电路104的输出端与计算电路105的第一输入端电连接。计算电路105的第二输入端与存储电路103的第二输出端电连接。

本申请实施例中，内存中存储有第一浮点数以及第二浮点数，内存控制器101用于获取第一浮点数以及第二浮点数，可选的，该内存可以是双倍数据速率(double data rate，DDR)内存，也可以是其他内存，具体此处不做限定。该内存控制器可以是DDR控制器，也可以是其他类型的内存控制器，具体此处不做限定。

本申请实施例中，拆分电路102用于拆分第一浮点数的尾数部分与第二浮点数的尾数部分以及得到拆分后的各尾数部分的第一移位数。存储电路103用于存储拆分后的各尾数部分、拆分后的各尾数部分对应的指数部分以及拆分后的各尾数部分的第一移位数。

例如，若第一浮点数为FP32类型的浮点数，假设第一浮点数的mantissa部分为100000000000000000000001。拆分电路102可以将第一浮点数的尾数部分拆分为长度为12bit的A部分以及长度为12bit的B部分，A部分为100000000000，B部分为000000000001。若以A部分作为基准，拆分后得到的B部分要右移12位后再与A部分相加才会得到第一浮点数的mantissa部分，因此，拆分电路102得到拆分后的B部分的第一移位数为右移12位。

上述拆分方式仅用于举例说明，可选的，第一浮点数可以是FP32类型的浮点数，第一浮点数也可以是FP64类型的浮点数，第一浮点数还可以是FP128类型的浮点数，具体此处不做限定。可选的，第一浮点数的尾数部分拆分时可以拆分为两个部分，也可以拆分为多个部分，具体此处不做限定。拆分后的各尾数部分的位数可以相等，拆分后的各尾数部分的位数也可以不相等，具体此处不做限定。

本申请实施例中，第二浮点数的数据类型与第一浮点数的数据类型相类似，第二浮点数的尾数部分的拆分方式与第一浮点数的尾数部分的拆分方式相类似，具体此处不做赘述。

本申请实施例中，指数处理电路104用于将第一浮点数的指数部分以及第二浮点数的指数部分相加以得到第一运算结果，该第一运算结果则为第一浮点数与第二浮点数相乘时指数部分的运算结果。指数处理电路104还用于将拆分后的各尾数部分的第一移位数与拆分后的各尾数部分对应的指数部分相加以得到多个第二运算结果，根据多个第二运算结果得到拆分后的各尾数部分的第二移位数。计算电路105用于根据拆分后的各尾数部分以及拆分后的各尾数部分的第二移位数计算第一浮点数与第二浮点数的尾数部分的乘积。

图4是本申请实施例提供的浮点数计算电路的一实施例示意图。

请参阅图4，可选的，拆分电路可以将第一浮点数的尾数部分拆分为第一高位尾数与第一低位尾数，将第二浮点数的尾数部分拆分为第二高位尾数与第二低位尾数。第一移位数用于指示各个高位尾数的最高位与各个低位尾数的最高位之间的移位差值。

本申请中，提供了两种第一高位尾数与第一低位尾数的具体的拆分方式，将在下面的实施例中详细说明。

方式1：第一高位尾数包括第一尾数，第一低位尾数包括第二尾数，第二高位尾数包括第三尾数，第二低位尾数包括第四尾数。

例如，若第一浮点数为FP32类型的浮点数，假设第一浮点数的mantissa部分为100000000011000000000001。拆分电路102可以将第一浮点数的尾数部分拆分为长度为11bit的第一尾数以及长度为13bit的第二尾数，第一尾数为10000000001，第二尾数为1000000000001。

本实施例中，第一尾数属于第一高位尾数，第二尾数属于第一低位尾数。第一移位数用于指示各个高位尾数的最高位与各个低位尾数的最高位之间的移位差值，即第一尾数的移位数为0，第二尾数的第一移位数为第二尾数的首位与第一尾数的首位之间的移位差值11位，所以第二尾数的第一移位数为右移11位。

本实施例中，第二高位尾数与第一高位尾数的拆分方式相类似，第二低位尾数与第一低位尾数的拆分方式相类似，具体此处不做赘述。

方式2：第一高位尾数包括第一尾数，第一低位尾数包括第二尾数、第三尾数、第四尾数以及第五尾数，第二高位尾数包括第六尾数，第二低位尾数包括第七尾数、第八尾数，第九尾数以及第十尾数。

例如，若第一浮点数为FP64类型的浮点数。假设拆分电路102可以将第一浮点数的尾数部分拆分为长度为5bit的第一尾数10001、长度为12bit的第二尾数100000000001、长度为12bit的第三尾数100000000011、长度为12bit的第四尾数100000000111以及长度为12bit的第五尾数100000001111。

本实施例中，第一尾数属于第一高位尾数，第二尾数、第三尾数、第四尾数、第五尾数属于第一低位尾数。第一移位数用于指示高位尾数的最高位与各个低位尾数的最高位之间的移位差值，即第一尾数的移位数为0，第二尾数的第一移位数为第二尾数的首位与第一尾数的首位之间的移位差值5位，与第一尾数的位数相同，所以第二尾数的第一移位数为右移5位。第三尾数的第一移位数为第三尾数的首位与第一尾数的首位之间的移位差值17位，与第一尾数和第二尾数的移位数之和相同，所以第三尾数的第一移位数为右移17位。第四尾数的第一移位数为第四尾数的首位与第一尾数的首位之间的移位差值29位，与第一尾数、第二尾数以及第三尾数的移位数之和相同，所以第四尾数的第一移位数为右移29位。第五尾数的第一移位数为第五尾数的首位与第一尾数的首位之间的移位差值41位，与第一尾数、第二尾数、第三尾数以及第四尾数的移位数之和相同，所以第五尾数的第一移位数为右移41位。

本实施例中，第一高位尾数与第二高位尾数还可以有其他不同的拆分方式，例如，第一位数长度为9bit，第二尾数、第三尾数、第四尾数与第五尾数均为11bit，具体此处不做限定。

本申请实施例中，除上述方式1、方式2所提供的拆分方式外，浮点数计算电路计算浮点数的乘积时还可以采用其他的拆分方式，具体此处不做限定。

图5是本申请实施例提供的浮点数计算电路的另一结构示意图。

请参阅图5，本申请实施例中,指数处理电路包括第一加法器、选择电路以及第二加法器。

本申请实施例中，第一加法器的输入端与存储电路的第一输出端电连接，第一加法器的输出端与第二加法器的第一输入端电连接。第二加法器的第二输入端与选择电路的输出端电连接，第二加法器的输出端与计算电路的第一输入端电连接。

本申请实施例中，第一加法器用于将拆分后的各尾数部分的第一移位数与拆分后的各尾数部分对应的指数部分相加以得到多个第二运算结果。选择电路用于选择多个第二运算结果中的最大值。第二加法器用于将多个第二运算结果中的最大值分别与各第二运算结果相减以得到拆分后的各尾数部分的第二移位数。

可选的，计算电路可以包括乘法器、移位寄存器以及第三加法器。

本申请实施例中，乘法器的输入端与存储电路的第二输出端电连接，乘法器的输出端与移位寄存器的第一输入端电连接。移位寄存器的第二输入端与第二加法器的输出端电连接。移位寄存器的输出端与第三加法器的输入端电连接。

本申请实施例中，乘法器用于将第一高位尾数以及第一低位尾数拆分出的各尾数部分分别与第二高位尾数以及第二低位尾数拆分出的各尾数部分相乘得到多个乘法数据。移位寄存器用于根据拆分后的各尾数部分的第二移位数对多个乘法数据做移位处理。第三加法器用于对移位处理后的多个乘法数据做加法运算以得到第一浮点数与第二浮点数的尾数部分的乘积。

示例1：

图6是本申请实施例提供的浮点数计算电路的另一实施例示意图。

请参阅图6，若第一浮点数A与第二浮点数B均为FP32类型的浮点数，在处理FP32 类型的浮点数的计算时，将第一浮点数的mantissa部分拆分为A _MSB与A _LSB两个部分。将第二浮点数的mantissa部分拆分为B _MSB与B _LSB两个部分，A _MSB、A _LSB、B _MSB与B _LSB均为12bit。则第一浮点数A的mantissa部分与第二浮点数B的mantissa部分的乘法，可以表示为公式1。

公式1：

A _mantissa*B _mantissa

＝(A _MSB+A _LSB＞＞12bit)*(B _MSB+B _LSB＞＞12bit)

＝A _MSB*B _MSB+A _MSB*B _LSB＞＞12bit+A _LSB*B _MSB＞＞12bit+A _LSB*B _LSB＞＞24bit

如图6所示，A _MSB对应的指数部分为A_EXP,与B _MSB对应的指数部分为B_EXP，根据拆分电路得到的A _MSB的移位数为0，B _MSB的移位数也为0，因此，EXP offset(第一加法器)将A _MSB-0与B _MSB-0的结果相加得到A_EXP+B_EXP,A_EXP+B_EXP便是A _MSB*B _MSB所对应的第二运算结果，该第二运算结果就可以表示A _MSB*B _MSB所对应的指数部分相乘之后的运算结果。

A _MSB对应的指数部分为A_EXP,与B _LSB对应的指数部分为B_EXP，根据拆分电路得到的A _MSB的移位数为0，B _LSB的移位数为-12。为了方便计算，可以将移位数-12拆分为-6与-6，指数部分分别记录为A_EXP-6与B_EXP-6。EXP offset(第一加法器)将A _MSB-6与B _LSB-6的结果相加得到A_EXP+B_EXP-12,A_EXP+B_EXP-12便是A _MSB*B _LSB所对应的第二运算结果，该第二运算结果就可以表示A _MSB*B _LSB所对应的指数部分相乘之后的运算结果。

A _LSB对应的指数部分为A_EXP,与B _MSB对应的指数部分为B_EXP，根据拆分电路得到的A _LSB的移位数为-12，B _MSB的移位数为0。为了方便计算，可以将移位数-12拆分为-6与-6，指数部分分别记录为A_EXP-6与B_EXP-6。EXP offset(第一加法器)将A _LSB-6与B _MSB-6的结果相加得到A_EXP+B_EXP-12,A_EXP+B_EXP-12便是A _LSB*B _MSB所对应的第二运算结果，该第二运算结果就可以表示A _LSB*B _MSB所对应的指数部分相乘之后的运算结果。

A _LSB对应的指数部分为A_EXP,与B _LSB对应的指数部分为B_EXP，根据拆分电路得到的A _LSB的移位数为-12，B _LSB的移位数为-12。EXP offset(第一加法器)将A _LSB-12与B _LSB-12的结果相加得到A_EXP+B_EXP-24,A_EXP+B_EXP-24便是A _LSB*B _LSB所对应的第二运算结果，该第二运算结果就可以表示A _LSB*B _LSB所对应的指数部分相乘之后的运算结果。

计算得到多个第二运算结果之后，选择电路得到MAX EXP(多个第二运算结果中的最大值)后将MAX EXP输入各个delta(第二加法器)。各个delta将MAX EXP分别与各第二运算结果相减以得到拆分后的各尾数部分的第二移位数。

各13 bit Mul单元(乘法器)分别计算A _MSB*B _MSB、A _MSB*B _LSB、A _LSB*B _MSB和A _LSB*B _LSB以得到多个乘法数据，shift(移位寄存器)接收到delta发送的第二移位数后对输入的各部分乘法数据进行移位，adder(第三加法器)将移位后的多个乘法数据相加则得到第一浮点数与第二浮点数尾数部分的乘积。

本实施例中，可选的，移位数-12还可以有其他的拆分方式，可以拆分为-3与-9、-4与-8或其他多种拆分方式，满足拆分后的两部分移位数的总数为-12即可，具体此处不做限定。同理，移位数-24也可以有不同的拆分方式，具体此处不做限定。

图7为本申请实施例提供的浮点数计算电路的另一实施例示意图。

本申请实施例中，请参阅图7，将上述图6所示的实施例视为一个计算模块，若多个计算模块对多对浮点数进行乘法运算时，选择电路可以选择多个计算模块中所有的第二运算结果的最大值(max exp)，将所有的第二运算结果中的最大值返回至各个计算模块，各个计算模块根据该所有的第二运算结果中的最大值得到拆分后的各尾数部分的第二移位数。

示例2：若第一浮点数A与第二浮点数B均为FP64类型的浮点数，在处理FP64类型的浮点数的计算时，将第一浮点数的mantissa部分拆分为a0、a1、a2、a3、a4和a5五个部分。将第一浮点数的mantissa部分拆分为b0、b1、b2、b3、b4和b5五个部分。其中，a1、a2、a3、a4、b1、b2、b3、b4的位数均为12bit，a0、b0的位数为5bit。第一浮点数A的mantissa部分与第二浮点数B的mantissa部分的乘法可以表示为公式2。

公式2：

A _mantissa*B _mantissa

＝(a0＜＜48bit+a1＜＜36bit+a2＜＜24bit+a3＜＜12bit+a4)*

(b0＜＜48bit+b1＜＜36bit+b2＜＜24bit+b3＜＜12bit+b4)

＝a0*b0＜＜96bit

+(a0*b1+b0*a1)＜＜84bit

+(a0*b2+b0*a2+a1*b1)＜＜72bit

+(a0*b3+b0*a3+a1*b2+b1*a2)＜＜60bit

+(a0*b4+b0*a4+a1*b3+b1*a3+b2*a2)＜＜48bit

+(a1*b4+b1*a4+a2*b3+b2*a3)＜＜36bit

+(a2*b4+b2*a4+a3*b3)＜＜24bit

+(a3*b4+b3*a4)＜＜12bit

+a4*b4

指数电路以及计算电路计算第一浮点数与第二浮点数尾数部分的乘积的过程与上述示例1所示的实施例相类似，具体此处不做赘述。

本实施例中，由于FP64类型的浮点数的mantissa部分长度为53bit，所以，A_mantissa*B_mantissa计算后得到的尾数部分的总长度数为106bit。如果想在一个计算模块内直接完成一对FP64类型的浮点数的尾数部分的计算，adder(第三加法器)需要扩位成支持长度为106bit的数据计算的加法器，括位后的adder的面积代价和时序代价均过高。因此，可以选择将一对FP64的mantissa的乘法拆成两个部分来做。

图8为本申请实施例提供的浮点数计算电路的另一实施例示意图。

请参阅图8，本实施例中，可选的，浮点数计算电路可以将其中较高位的13对部分乘法组合到一起组成高位部分(part1)，较低位的12对部分乘法组合为另一部分组成低位部分(part2)。高位部分共需60bit位宽的加法树，低位部分实际所需计算的bit数为53bit。

图9为本申请实施例提供的浮点数计算电路的另一实施例示意图。

如图9所示，分别是part1、part2各部分在计算后得到的计算结果在加法树中的对应位置。60bit的加法树能覆盖part1的计算。在进行part2的计算时，最低的几个bit加法树无法完全覆盖，但这些bit同样也不用参与计算。在处理这部分加法书无法覆盖的数据时，可以选择将该部分数据存储下来，进而将该部分存储好的数据参与后续的计算，也可以选择直接截掉该部分数据，具体此处不做限定。

本申请实施例中提供的浮点数计算电路可以应用于卷积神经网络中，具体的应用过程在下面的实施例中进行详细的说明。

假设第一浮点数A与第二浮点数B均为FP32类型的浮点数，且第一浮点数A是特征图像中的数据。

图10为本申请实施例提供的浮点数计算电路的另一实施例示意图。

步骤一：请参阅图10，第二浮点数B是滤波矩阵中的数据。DDR控制器(内存控制器)从DDR(内存)中读取多个第一浮点数A与第二浮点数B，通过高低位拆分逻辑(拆分电路)将第一浮点数A的mantissa部分拆分为MSB和LSB两个部分并且存入数据RAM(存储电路)，图10中I、II、…X中包括的内容即为各第一浮点数A的mantissa拆分后得到的A_MSB与A_LSB，以及各A_MSB、A_LSB所对应的指数部分EXP，将第二浮点数B的mantissa部分拆分为MSB和LSB两个部分并且存入权重RAM(存储电路)，图10中1、2、N中包括的内容即为各第二浮点数B的mantissa拆分后得到的B_MSB与B_LSB，以及各B_MSB、B_LSB所对应的指数部分EXP。

图11为本申请实施例提供的浮点数计算电路的另一实施例示意图。

步骤二：请参阅图11，权重RAM中拆分之后的mantissa预加载到卷积计算单元中，同时EXP(拆分后各尾数部分对应的指数部分)经过EXP offset(第二加法器)处理后，同样预加载到卷积计算单元中。

图12为本申请实施例提供的浮点数计算电路的另一实施例示意图。

步骤三：请参阅图12，从数据RAM中提取第一段mantissa数据(I部分)，同样EXP部分也先经过exp offset处理后，放置到卷积计算单元中，与预加载的参数(1部分)进行计算并且获得结果。

步骤四：请参阅图13，卷积处理单元1将第一段数据(I部分)转发给计算单元2，并且从数据RAM中获取第二段数据(II部分)。计算单元1在获取II部分数据之后、计算单元2在获取I部分数据之后完成运算生成结果。此后每个时钟，计算单元2～N将上一个时钟处理完毕的数据转发给下一个计算单元，计算单元1每次从数据RAM中获取新的数据。

步骤五：重复步骤四直到所有的数据完成运算，生成结果。

以上对本申请实施例所提供的浮点数计算电路以及浮点数计算方法进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种浮点数计算电路，其特征在于，所述浮点数计算电路包括：内存控制器、拆分电路、存储电路、指数处理电路以及计算电路；

所述拆分电路的输入端与所述内存控制器的输出端电连接，所述拆分电路的输出端与所述存储电路的输入端电连接；

所述指数处理电路的输入端与所述存储电路的第一输出端电连接，所述指数处理电路的输出端与所述计算电路的第一输入端电连接；

所述计算电路的第二输入端与所述存储电路的第二输出端电连接；

所述内存控制器用于获取第一浮点数以及第二浮点数；

所述拆分电路用于拆分所述第一浮点数的尾数部分与所述第二浮点数的尾数部分以及得到拆分后的各尾数部分的第一移位数；

所述存储电路用于存储拆分后的各尾数部分、拆分后的各尾数部分对应的指数部分以及所述拆分后的各尾数部分的第一移位数；

所述指数处理电路用于将所述第一浮点数的指数部分以及所述第二浮点数的指数部分相加以得到第一运算结果，以及，将所述拆分后的各尾数部分的第一移位数与拆分后的各尾数部分对应的指数部分相加以得到多个第二运算结果，根据多个第二运算结果得到拆分后的各尾数部分的第二移位数；

所述计算电路用于根据所述拆分后的各尾数部分以及所述拆分后的各尾数部分的第二移位数计算所述第一浮点数与所述第二浮点数的尾数部分的乘积。
根据权利要求1所述的浮点数计算电路，其特征在于，

所述拆分电路用于将所述第一浮点数的尾数部分拆分为第一高位尾数与第一低位尾数，将所述第二浮点数的尾数部分拆分为第二高位尾数与第二低位尾数，所述第一移位数用于指示各个高位尾数的最高位与各个低位尾数的最高位之间的移位差值。
根据权利要求2所述的浮点数计算电路，其特征在于，

所述第一高位尾数包括第一尾数，所述第一低位尾数包括第二尾数，所述第二高位尾数包括第三尾数，所述第二低位尾数包括第四尾数。
根据权利要求2所述的浮点数计算电路，其特征在于，

所述第一高位尾数包括第一尾数，所述第一低位尾数包括第二尾数、第三尾数、第四尾数以及第五尾数，所述第二高位尾数包括第六尾数，所述第二低位尾数包括第七尾数、第八尾数，第九尾数以及第十尾数。
根据权利要求3或4所述的浮点数计算电路，其特征在于，

所述指数处理电路包括第一加法器、选择电路以及第二加法器；

所述第一加法器的输入端与所述存储电路的第一输出端电连接，所述第一加法器的输出端与所述第二加法器的第一输入端电连接；

所述第二加法器的第二输入端与所述选择电路的输出端电连接，所述第二加法器的输出端与所述计算电路的第一输入端电连接；

所述第一加法器用于将所述拆分后的各尾数部分的第一移位数与拆分后的各尾数部分对应的指数部分相加以得到多个第二运算结果；

所述选择电路用于选择所述多个第二运算结果中的最大值；

所述第二加法器用于将所述多个第二运算结果中的最大值分别与各第二运算结果相减以得到所述拆分后的各尾数部分的第二移位数。
根据权利要求5所述的浮点数计算电路，其特征在于，

所述计算电路包括乘法器、移位寄存器以及第三加法器；

所述乘法器的输入端与所述存储电路的第二输出端电连接，所述乘法器的输出端与所述移位寄存器的第一输入端电连接；

所述移位寄存器的第二输入端与所述第二加法器的输出端电连接；

所述移位寄存器的输出端与所述第三加法器的输入端电连接；

所述乘法器用于将第一高位尾数以及第一低位尾数拆分出的各尾数部分分别与第二高位尾数以及第二低位尾数拆分出的各尾数部分相乘得到多个乘法数据；

所述移位寄存器用于根据所述拆分后的各尾数部分的第二移位数对所述多个乘法数据做移位处理；

所述第三加法器用于对移位处理后的多个乘法数据做加法运算以得到所述第一浮点数与所述第二浮点数的尾数部分的乘积。
一种浮点数计算方法，其特征在于，

获取第一浮点数以及第二浮点数；

拆分所述第一浮点数的尾数部分与所述第二浮点数的尾数部分以及得到拆分后的各尾数部分的第一移位数；

存储拆分后的各尾数部分、拆分后的各尾数部分对应的指数部分以及所述拆分后的各尾数部分的第一移位数；

将所述第一浮点数的指数部分以及所述第二浮点数的指数部分相加以得到第一运算结果，以及，将所述拆分后的各尾数部分的第一移位数与拆分后的各尾数部分对应的指数部分相加以得到多个第二运算结果，根据多个第二运算结果得到拆分后的各尾数部分的第二移位数；

根据所述拆分后的各尾数部分以及所述拆分后的各尾数部分的第二移位数计算所述第一浮点数与所述第二浮点数的尾数部分的乘积。
根据权利要求7所述的浮点数计算方法，其特征在于，所述拆分所述第一浮点数的尾数部分与所述第二浮点数的尾数部分，包括：

将所述第一浮点数的尾数部分拆分为第一高位尾数与第一低位尾数，将所述第二浮点数的尾数部分拆分为第二高位尾数与第二低位尾数，所述第一移位数用于指示各个高位尾数的最高位与各个低位尾数的最高位之间的移位差值。
根据权利要求8所述的浮点数计算方法，其特征在于，

所述第一高位尾数包括第一尾数，所述第一低位尾数包括第二尾数，所述第二高位尾数包括第三尾数，所述第二低位尾数包括第四尾数。
根据权利要求8所述的浮点数计算方法，其特征在于，

所述第一高位尾数包括第一尾数，所述第一低位尾数包括第二尾数、第三尾数、第四尾数以及第五尾数，所述第二高位尾数包括第六尾数，所述第二低位尾数包括第七尾数、第八尾数，第九尾数以及第十尾数。
一种计算装置，其特征在于，所述计算装置包括控制电路以及浮点数计算电路；

所述浮点数计算电路在所述控制电路的控制下计算数据，所述浮点数计算电路为如权利要求1至6中任一项所述的浮点数计算电路。