WO2022121090A1

WO2022121090A1 - 支持高吞吐多精度乘法运算的处理器

Info

Publication number: WO2022121090A1
Application number: PCT/CN2021/073517
Authority: WO
Inventors: 景乃锋; 王琴; 张茂全; 徐磊; 蒋剑飞
Original assignee: 上海交通大学
Priority date: 2020-12-09
Filing date: 2021-01-25
Publication date: 2022-06-16
Also published as: CN112506468B; CN112506468A

Abstract

本发明提供了一种支持高吞吐多精度乘法运算的RISC-V通用处理器，包括独立的乘法器数据通路，所述乘法器数据通路将多精度乘法器的数据通路与其他运算单元的数据通路分离，且多精度指令在执行阶段之后直接进入寄存器回写阶段而不用经过访存阶段，减少流水线寄存器的使用并节省面积和功耗，所述多精度乘法器具有独立的数据通路，进行将浮点乘法的结果写入矢量化寄存器文件VRF。本发明提供的一种支持高吞吐多精度乘法运算的RISC-V通用处理器能高效地处理多精度计算需求。

Description

支持高吞吐多精度乘法运算的处理器

技术领域

本发明涉及通用处理器的技术领域，具体地，涉及一种支持高吞吐多精度乘法运算的RISC-V通用处理器。

背景技术

自英特尔80386以来，在通用处理器中使用32位或64位字已成为常规的方法，在当今的算术逻辑单元(ALU)、体系结构和算法设计中，这已被视为常规方法。深度神经网络的流行使得加速神经网络成为了新的设计方向，已经可以通过对神经网络进行量化和压缩来获得位宽更小的权重数据，可以减少算力的需求和内存带宽的开销。例如，Google的TPU支持浮点格式为BF16的低精度格式；NVIDIA在其最新的GPU中加入了面向多精度计算的TensorCore核心，用以加速通用矩阵乘法。

到目前为止，通用处理器尚未在普通逻辑运算单元中加入多精度的支持。通用处理器在运算电路设计上仍然坚持使用32位或64位的字宽，主要原因有：1)在通用工作负载中的操作数通常具有不同的字宽，为了不失一般性，通用处理器不能像神经网络加速器那样快速的将内部的运算单元位宽降低为低精度位宽。2)为了保证向后兼容性，即可以最新的通用处理器可以运行老旧的程序代码，很难将通用处理器迅速更改为低精度处理器。

因此，如果通用处理器想要使用低精度运算对某些应用进行加速，同时能够实现32位宽或64位宽的通用计算，那么该通用处理器必须是具有多精度运算能力的。在通用处理器中所有的运算电路中，乘法器占据着核心地位，因此，目前的通用处理器具有无法处理多精度计算的缺陷。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种支持高吞吐多精度乘法运算的RISC-V通用处理器。

根据本发明提供的一种支持高吞吐多精度乘法运算的RISC-V通用处理器，包括独立的乘法器数据通路，所述乘法器数据通路将多精度乘法器的数据通路与其他运算单元的数据通路分离，且多精度指令可以在执行阶段之后直接进入寄存器回写阶段而不用经过访存阶段，减少流水线寄存器的使用并节省面积和功耗，所述多精度乘法器具有独立的数据通路，可以进行快速的将浮点乘法的结果写入矢量化寄存器文件VRF。

优选地，还包括通用寄存器和向量寄存器结合的寄存器文件，所述通用寄存器文件GRF主要是给整数运算指令提供整数类型的操作，在通用寄存器文件的基础上，添加了矢量化寄存器文件VRF，用于给浮点运算指令和低精度浮点乘法指令提供浮点操作数。

优选地，所述矢量化寄存器文件VRF被设置为两组独立的寄存器文件，每组寄存器文件的宽度为128bit，深度为16，均具有两读一写端口。第一组寄存器bank0的寄存器地址编号均为偶数，即从上到下的寄存器地址分别为v0，v2，v4…v30，第二组寄存器bank1的寄存器地址编号均为奇数，即从上到下的寄存器地址分别为v1、v3、v5…v31。

优选地，所有精度的乘法结果均通过固定的延迟进入寄存器写回阶段，等待的数据为FP16的乘法结果，那么在第一个乘法周期便可以将结果数据转发至译码阶段；需要的数据为FP32和FP64的乘法结果，那么需要在第二个或第三个乘法周期才能将乘法结果转发至译码阶段。

优选地，以SIMD形式进行低精度乘法运算的扩展指令。vfmul.{precision}vrd,vrs1,vrs2为低精度矢量乘法指令，{precision}指定了乘法指令的精度，有两个选项single(FP32)和half(FP16)；vfmadd.{precision}vrd,vrs1,vrs2,vrs3为低精度矢量乘累加指令，vfmul.single可以进行4个FP32乘法，vfmul.half可以进行16个FP16乘法；vld.{precision}vrd,rs1,imm为矢量加载指令，用于从存储器中连续读取数据并送入到向量寄存器中；vst.{precision}vrs1,rs2,imm用于将向量寄存器中的数据存入存储器中；ldcvt.{dprec}{sprec}vrd,rs1,index用于将rs1中的数据转换精度后存入到向量寄存器中。cvt.{dprec}{sprec}rd,rs1用于将rs1中的数据转换精度后存入到普通的标量寄存器。broadcast.{width}vrd,rs1用于将rs1的数据复制多份后存入向量寄存器。

与现有技术相比，本发明具有如下的有益效果：在本发明中，使用了具有三种精度FP64/FP32/FP16的浮点乘法器作为基本的乘法单元，可以计算一个FP64乘法或4个FP32乘法或16个FP16乘法，提出了一种多精度RISC-V处理器的微体系结构，以解决计算低精度乘法时的带宽翻倍、延迟、数据和结构冲突问题，同时可以执行常规的浮点乘法操作。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明多精度RISC-V处理器架构图；

图2为本发明寄存器堆提供操作数示意图；

图3为本发明多精度乘法器数据转发示意图；

图4为本发明转发检测电路；

图5为本发明RISC-V多精度扩展指令。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明提供的一种支持高吞吐多精度乘法运算的RISC-V通用处理器，如图1所示，提出了基于高吞吐率多精度乘法器的通用RISC-V处理器微架构设计，具有基本的五级流水线设计，分别是取指、译码、执行、访存、回写。具体的微架构创新点如下：

1、独立的乘法器数据通路

由于使用多精度乘法器的指令将不涉及到数据的存储，因此多精度指令可以在执行阶段之后直接进入寄存器回写阶段而不用经过访存阶段，这样可以减少流水线寄存器的使用并节省面积和功耗。此外，如果多精度乘法指令使用与普通指令相同的数据路径，则多精度乘法器的延迟可能会影响Load/Store指令的性能，因为其他指令可以通过数据转发消除延迟的影响，而Load指令只有在经过访存阶段后才能得到想要的数据。

同时由于多精度乘法器在特定领域的计算中往往以高吞吐率为目标，因此本发明将多精度乘法器的数据通路其与其他运算单元(如整数加法器、逻辑移位器和浮点加法器)的数据通路分离。如图1所示，多精度乘法器具有独立的数据通路，可以进行快速的将浮点乘法的结果写入矢量化寄存器文件(VRF)

2、寄存器文件设计

在常规设计中，当一个处理器的运算单元具有固定的位宽w时，它通常会具有一个深度为32，位宽为w的通用寄存器文件，并且具有2个读端口和1个写端口。当使用多精度乘法器时，在计算FP64时，只需要2个64位的浮点操作数；在计算FP32乘法时，由于可以一次性计算4个FP32乘法，因此需要8个32位的操作数，或者是2个128位的操作数；在计算FP16乘法时，由于一次可以计算16个FP16乘法操作，因此需要32个16位的操作数，或者是2个256位的操作数。因此，可以看到由于使用多精度乘法器，低精度的吞吐率是高精度的4倍，会导致在计算低精度时需要的操作数带宽是计算高精度时的2倍，如果支持三种精度，那么计算最低精度时的操作数带宽是计算最高精度时带宽的4倍。

为了解决计算不同精度时需要的带宽不同的问题，本发明设计了图2所示的寄存器文件结构。图2左侧的通用寄存器文件GRF主要是给整数运算指令提供整数类型的操作，在通用寄存器文件的基础上，添加了矢量化寄存器文件VRF，用于给浮点运算指令和低精度浮点乘法指令提供浮点操作数。

矢量化寄存器文件VRF被设置为两组独立的寄存器文件，每组寄存器文件的宽度为128bit，深度为16，均具有两读一写端口。第一组寄存器bank0的寄存器地址编号均为偶数，即从上到下的寄存器地址分别为v0，v2，v4…v30，第二组寄存器bank1的寄存器地址编号均为奇数，即从上到下的寄存器地址分别为v1、v3、v5…v31。

当指令为FP64乘法指令时，两个64位的浮点操作数可以来自32个向量寄存器种的任意两个，既可以在同一组(因为每一组有两个寄存器读端口)，可以在不同组，由于只需要两个64位的操作数，因此只需读取两个寄存器的低64位。当指令为计算FP32的低精度乘法指令时，两个128位的浮点操作数同样可以来自32个向量寄存器种的任意两个。当指令为计算FP16的低精度乘法指令时，两个256位的浮点操作数需要来自4个128位的浮点寄存器，由于每组寄存器只有两个寄存器读端口，因此需要每一组寄存器各自提供两个128位的操作数。又由于RISC-V的指令编码格式有限，无法容纳下4个源操作数寄存器地址和2个目的操作数寄存器地址，因此在本发明中，在使用FP16低精度乘法指令时，源寄存器和目的寄存器的地址都被强制设置为偶数寄存器号，这样在读取操作数时，当硬件电路检测到指令的opcode为FP16乘法时，会读取指令中源寄存器rs1对应的数据和与其在同一行的奇数寄存器数据，将两者数据打包为一个256位的操作数，同时会读取指令中源寄存器rs2对应的数据和与其在同一行的奇数寄存器数据，将两者数据打包为另一个256位的操作数。

3、多精度指令调度

由于使用的多精度乘法器在计算不同精度时的延迟不同，例如在计算FP16时，可以在一个时钟周期后便得到FP16乘法的结果，FP32的乘法结果需要在两个周期后才能得到，FP64的乘法结果需要在三个周期后才能得到。乘法器单元可变的延迟可能会导致更多的数据冲突和结构冲突，当一条FP32乘法指令后面紧跟着一条FP16指令时，两条指令的乘法结果同时有效，如果同时提交至寄存器回写阶段，会导致结构冲突。在本发明中采用了图3所示的乘法器数据转发电路，所有精度的乘法结果均通过固定的延迟进入寄存器写回阶段，这就避免了同时提交的结构冲突；在产生了read-after-write数据冲突时，如果等待的数据为FP16的乘法结果，那么在第一个乘法周期便可以将结果数据转发至译码阶段，如果需要的数据为FP32和FP64的乘法结果，那么需要在第二个或第三个乘法周期才能将乘法结果转发至译码阶段。

具体的转发调度电路如图4所示，首先检测译码阶段的源寄存器vrs1或者vrs2是否与M1阶段的目的寄存器相同，如果相同且M1的opcode为FP32或FP64，则阻塞流水线；如果相同且M1的opcode为FP16，则将M1的乘法结果数据直接转发至译码阶段。然后检测译码阶段的源寄存器vrs1或者vrs2是否与M2阶段的目的寄存器相同，如果相同且M2的opcode为FP64，则阻塞流水线；如果相同且M2的opcode为FP32，则将M2的乘法结果数据直接转发至译码阶段。最后检测译码阶段的源寄存器vrs1或者vrs2是否与M3阶段的目的寄存器相同，如果相同且M3的opcode为FP64，则将M3的乘法结果数据直接转发至译码阶段。

4、RISC-V多精度扩展指令

本发明提出了以SIMD形式进行低精度乘法运算的扩展指令。如图5所示，vfmul.{precision}vrd,vrs1,vrs2为低精度矢量乘法指令，{precision}指定了乘法指令的精度，有两个选项single(FP32)和half(FP16)；vfmadd.{precision}vrd,vrs1,vrs2,vrs3为低精度矢量乘累加指令，vfmul.single可以进行4个FP32乘法，vfmul.half可以进行16个FP16乘法；vld.{precision}vrd,rs1,imm为矢量加载指令，用于从存储器中连续读取数据并送入到向量寄存器中；vst.{precision}vrs1,rs2,imm用于将向量寄存器中的数据存入存储器中；ldcvt.{dprec}{sprec}vrd,rs1,index用于将rs1中的数据转换精度后存入到向量寄存器中。cvt.{dprec}{sprec}rd,rs1用于将rs1中的数据转换精度后存入到普通的标量寄存器。broadcast.{width}vrd,rs1用于将rs1的数据复制多份后存入向量寄存器。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

一种支持高吞吐多精度乘法运算的RISC-V通用处理器，其特征在于，包括独立的乘法器数据通路，所述乘法器数据通路将多精度乘法器的数据通路与其他运算单元的数据通路分离，且多精度指令在执行阶段之后直接进入寄存器回写阶段而不用经过访存阶段，减少流水线寄存器的使用并节省面积和功耗，所述多精度乘法器具有独立的数据通路，进行将浮点乘法的结果写入矢量化寄存器文件VRF。
根据权利要求1所述的一种支持高吞吐多精度乘法运算的RISC-V通用处理器，其特征在于，还包括通用寄存器和向量寄存器结合的寄存器文件，所述通用寄存器文件GRF主要是给整数运算指令提供整数类型的操作，在通用寄存器文件的基础上，添加了矢量化寄存器文件VRF，用于给浮点运算指令和低精度浮点乘法指令提供浮点操作数。
根据权利要求2所述的一种支持高吞吐多精度乘法运算的RISC-V通用处理器，其特征在于，所述矢量化寄存器文件VRF被设置为两组独立的寄存器文件，每组寄存器文件的宽度为128bit，深度为16，均具有两读一写端口；

第一组寄存器bank0的寄存器地址编号均为偶数，从上到下的寄存器地址分别为v0，v2，v4…v30，第二组寄存器bank1的寄存器地址编号均为奇数，从上到下的寄存器地址分别为v1、v3、v5…v31。
根据权利要求1所述的一种支持高吞吐多精度乘法运算的RISC-V通用处理器，其特征在于，所有精度的乘法结果均通过固定的延迟进入寄存器写回阶段，等待的数据为FP16的乘法结果，那么在第一个乘法周期便将结果数据转发至译码阶段；需要的数据为FP32和FP64的乘法结果，那么需要在第二个或第三个乘法周期才能将乘法结果转发至译码阶段。
根据权利要求1所述的一种支持高吞吐多精度乘法运算的RISC-V通用处理器，其特征在于，以SIMD形式进行低精度乘法运算的扩展指令；

vfmul.{precision}vrd,vrs1,vrs2为低精度矢量乘法指令，{precision}指定了乘法指令的精度，有两个选项single(FP32)和half(FP16)；vfmadd.{precision}vrd,vrs1,vrs2,vrs3为低精度矢量乘累加指令，vfmul.single进行4个FP32乘法，vfmul.half进行16个FP16乘法；vld.{precision}vrd,rs1,imm为矢量加载指令，用于从存储器中连续读取数据并送入到向量寄存器中；vst.{precision}vrs1,rs2,imm用于将向量寄存器中的数据存入存储器中；ldcvt.{dprec}{sprec}vrd, rs1,index用于将rs1中的数据转换精度后存入到向量寄存器中。cvt.{dprec}{sprec}rd,rs1用于将rs1中的数据转换精度后存入到普通的标量寄存器。broadcast.{width}vrd,rs1用于将rs1的数据复制多份后存入向量寄存器。