WO2022134729A1

WO2022134729A1 - 一种基于risc-v的人工智能推理方法和系统

Info

Publication number: WO2022134729A1
Application number: PCT/CN2021/122287
Authority: WO
Inventors: 贾兆荣
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2020-12-24
Filing date: 2021-09-30
Publication date: 2022-06-30
Also published as: US20230367593A1; US11880684B2; CN112633505B; CN112633505A

Abstract

一种基于RISC-V的人工智能推理方法和系统，基于RISC-V的人工智能推理方法包括以下步骤：通过直接存储器访问接口获取人工智能推理的指令和数据并写入存储器（S101）；从存储器获取和翻译指令，基于指令将数据从存储器加载到对应的寄存器（S103）；响应于指令是向量指令，而由卷积控制单元基于向量指令在向量处理单元处理对应的向量数据（S105）；及反馈处理过的向量数据以完成推理（S107）。

Description

一种基于RISC-V的人工智能推理方法和系统

相关申请的交叉引用

本申请要求在2020年12月24日提交中国专利局，申请号为202011554149.6，发明名称为“一种基于RISC-V的人工智能推理方法和系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，更具体地，特别是指一种基于RISC-V的人工智能推理方法和系统。

背景技术

目前，AI(Artificial Intelligence，人工智能)芯片大致的分类如下：从应用场景角度看，AI芯片主要有两个方向，一个是在数据中心部署的云端，一个是在消费者终端部署的终端。从功能角度看，AI芯片主要做两个事情，一是Training(训练)，二是Inference(推理)。目前AI芯片的大规模应用分别在云端和终端。云端的AI芯片同时做两个事情：Training和Inference。Training即用大量标记过的数据来“训练”相应的系统，使之可以适应特定的功能，比如给系统海量的“猫”的图片，并告诉系统这个就是“猫”，之后系统就“知道”什么是猫了；Inference即用训练好的系统来完成任务，接上面的例子，就是你将一张图给之前训练过的系统，让它得出这张图是不是猫这样的结论。

云端的AI芯片目前主要是GPU(graphics processing unit，图形处理器)，由于训练需要的数据量大、算力大、功耗大，需要大规模的散热，Training将在很长一段时间里集中在云端，Inference的完成目前也主要集中在云端，但随着越来越多厂商的努力，很多的应用将逐渐转移到终端，如目前应用比较多的自动驾驶芯片。

在终端完成Inference，主要是满足终端低延时的需求，云端推理的延时与网络相关，一般延时较大，难以满足终端(如自动驾驶)的需求；满足终端多样化需求；以及初步筛选终端的数据，将有效数据传送到云端等等。

RISC-V是一个基于精简指令集(RISC)原则的开源指令集架构(ISA)，与大多数指令集相比，RISC-V指令集可以自由地用于任何目的，允许任何人设计、制造和销售RISC-V芯片和软件而不必支付给任何公司专利费。虽然这不是第一个开源指令集，但它具有重要意义，因为其设计使其适用于现代计算设备(如仓库规模云计算机、高端移动电话和微小嵌入式系统)。设计者考虑到了这些用途中的性能与功率效率。该指令集还具有众多支持的软件，这解决了新指令集通常的弱点。

RISC-V指令集的设计考虑了小型、快速、低功耗的现实情况来实做，但并没有对特定的微架构做过度的设计。指令集因为位于硬件和软件之间，所以是电脑主要的沟通桥梁，因此如果有一个设计良好的指令集是开源而且可以被任何人使用的，就可以让更多的资源能够重复利用，而大大的减少软件的成本。而这样的指令集也会增加硬件供应商市场的竞争力，因为硬件供应商们可以挪用更多资源来进行设计，减少处理软件支持的事务。然而，RISC-V指令集缺少处理器的硬件设计和软件支持，导致其不能用作AI芯片的推理计算。

针对现有技术中RISC-V指令集缺少处理器的硬件设计和软件支持、不能用作AI芯片的推理计算的问题，目前尚无有效的解决方案。

发明内容

在一些实施方式中，本申请公开了一种基于RISC-V的人工智能推理方法，包括执行以下步骤：

通过直接存储器访问接口获取人工智能推理的指令和数据并写入存储器；

从存储器获取和翻译指令，基于指令将数据从存储器加载到对应的寄存器；

响应于指令是向量指令，而由卷积控制单元基于向量指令在向量处理单元处理对应的向量数据；及

反馈处理过的向量数据以完成推理。

其中，响应于指令是向量指令是指确定人工智能推理的指令中包括向量指令，并响应于该向量指令。

在一些实施方式中，存储器包括向量数据存储器、指令存储器、和标量数据存储器；寄存器包括向量寄存器和标量寄存器。

在一些实施方式中，基于指令将数据从存储器加载到对应的寄存器的步骤包括：基于环境参数确定单次向量操作个数，根据指令中的向量加载指令将单次向量操作个数的向量数据加载到向量寄存器。

在一些实施方式中，基于RISC-V的人工智能推理方法还包括以下步骤：由卷积控制单元基于指令中的寄存器配置指令确定环境参数，环境参数包括向量有效位宽、向量寄存器每组个数、寄存器位宽、和当前需要操作向量个数；

基于环境参数确定单次向量操作个数的步骤包括：根据寄存器位宽、向量有效位宽以及向量寄存器每组个数确定允许操作向量最大个数，并将允许操作向量最大个数和当前需要操作向量个数中的较小值确定为单次向量操作个数。

在一些实施方式中，由卷积控制单元基于向量指令在向量处理单元处理对应的向量数据的步骤包括：

响应于向量寄存器有数据、向量处理单元的影子寄存器为空、并且卷积控制单元允许，将向量数据从向量寄存器缓存到影子寄存器；

在影子寄存器中依次对向量数据执行重排序处理和预处理，并存入向量处理单元的乘法器输入缓存；

由向量处理单元的乘法器阵列从乘法器输入缓存获取向量数据以在卷积控制单元的控制下执行乘积运算；

由向量处理单元的乘积累加器从乘法器阵列获取向量数据以在卷积控制单元的控制下执行累加运算；及

由向量处理单元的向量激活单元从乘积累加器获取向量数据以在卷积控制单元的控制下使用查找表执行非线性向量运算。

在一些实施方式中，基于RISC-V的人工智能推理方法还包括以下步骤：由卷积控制单元基于指令中的查找表激活指令为向量激活单元配置查找表的缓存区；及

由卷积控制单元基于指令中的实时控制指令使向量数据选择性地执行乘积运算、累加运算、或非线性向量运算。

在一些实施方式中，基于RISC-V的人工智能推理方法还包括以下步骤：

响应于指令是标量指令，而基于标量指令在算数/逻辑运算单元处理对应的标量数据；及

反馈处理过的标量数据以完成推理。

其中，响应于指令是标量指令是指确定人工智能推理的指令中还包括标量指令，并响应于该标量指令。

在一些实施方式中，公开了一种基于RISC-V的人工智能推理系统，该系统包括处理器和存储器；存储器存储有处理器可执行的计算机可读指令，计算机可读指令在被处理器执行时，使得处理器执行以下步骤：

反馈处理过的向量数据以完成推理。

在一些实施方式中，存储器包括向量数据存储器、指令存储器、和标量数据存储器；寄存器包括向量寄存器和标量寄存器；基于指令将数据从存储器加载到对应的寄存器的步骤包括：基于环境参数确定单次向量操作个数，根据指令中的向量加载指令将单次向量操作个数的向量数据加载到向量寄存器；

处理器在执行计算机可读指令时还执行以下步骤：由卷积控制单元基于指令中的寄存器配置指令确定环境参数，环境参数包括向量有效位宽、向量寄存器每组个数、寄存器位宽、和当前需要操作向量个数；基于环境参数确定单次向量操作个数包括：根据寄存器位宽、向量有效位宽乘以及向量寄存器每组个数确定允许操作向量最大个数，并将允许操作向量最大个数和当前需要操作向量个数中的较小值确定为单次向量操作个数。

在一些实施方式中，由卷积控制单元基于向量指令在向量处理单元处理对应的向量数据的步骤包括：响应于向量寄存器有数据、向量处理单元的影子寄存器为空、并且卷积控制单元允许，将向量数据从向量寄存器缓存到影子寄存器；在影子寄存器中依次对向量数据执行重排序处理和预处理，并存入向量处理单元的乘法器输入缓存；由向量处理单元的乘法器阵列从乘法器输入缓存获取向量数据以在卷积控制单元的控制下执行乘积运算；由向量处理单元的乘积累加器从乘法器阵列获取向量数据以在卷积控制单元的控制下执行累加运算；及由向量处理单元的向量激活单元从乘积累加器获取向量数据以在卷积控制单元的控制下使用查找表执行非线性向量运算。

在一些实施方式中，公开了一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

反馈处理过的向量数据以完成推理。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请的一些实施方式中，基于RISC-V的人工智能推理方法的流程示意图；

图2为本申请的一些实施方式中，基于RISC-V的人工智能推理方法的模块示意图；

图3为本申请的一些实施方式中，基于RISC-V的人工智能推理方法的指令获取流程图；

图4为本申请的一些实施方式中，基于RISC-V的人工智能推理方法的向量处理单元结构图；

图5为本申请的一些实施方式中，基于RISC-V的人工智能推理方法的向量重排序流程图；

图6为本申请的一些实施方式中，基于RISC-V的人工智能推理方法的向量处理单元整体流程图；

图7为本申请的一些实施方式中，基于RISC-V的人工智能推理方法的卷积控制单元示意图；

图8为本申请的一些实施方式中，基于RISC-V的人工智能推理方法的处理器片上互联结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请实施例进一步详细说明。

需要说明的是，本申请实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”和“第二”仅为了表述的方便，不应理解为对本申请实施例的限定，后续实施例对此不再一一说明。

图1示出的是本一个实施方式中，基于RISC-V的人工智能推理方法的流程示意图。

基于RISC-V的人工智能推理方法，如图1所示，包括以下步骤：

步骤S101，通过直接存储器访问接口获取人工智能推理的指令和数据并写入存储器；

步骤S103，从存储器获取和翻译指令，基于指令将数据从存储器加载到对应的寄存器；

步骤S105，响应于指令是向量指令，而由卷积控制单元基于向量指令在向量处理单元处理对应的向量数据；及

步骤S107，反馈处理过的向量数据以完成推理。

其中，步骤S103中的指令是指人工智能推理的指令。响应于指令是向量指令是指确定人工智能推理的指令中包括向量指令，并响应于该向量指令。

本申请公开了一种基于RISC-V指令集的AI芯片架构，能够完成卷积计算或矩阵计算，也可以作为AI 推理加速器、协助处理器完成卷积/矩阵计算。由于完全兼容RISC-V精简指令集，本申请可以在RISC-V软件工具链上做进一步的开发，因而大大减小了软件工具链的开发难度。本申请设计核心是基于RISC-V指令集的卷积运算架构，可以完成标量运算、向量运算、卷积运算、矩阵运算、非线性激活运算等，能够满足人工智能推理的所有计算需求。AI芯片也可以通过片上网格(Mesh)互联网络(NoC)互联起来，组成更大算力的架构，满足不同的终端算力需求。

本领域普通技术人员可以理解实现上述实施方式中的全部或部分流程，可以通过计算机可读指令来指令相关硬件来完成，前述的计算机可读指令可存储于一非易失性计算机可读存储介质中，该计算机可读指令在被执行时，可实现基于RISC-V的人工智能推理方法的流程。其中，前述的非易失性计算机可读存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。前述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

在一些实施方式中，基于指令将数据从存储器加载到对应的寄存器的步骤包括：基于环境参数确定单次向量操作个数，以使用指令中的向量加载指令将单次向量操作个数个向量数据加载到向量寄存器(即：基于环境参数确定单次向量操作个数，根据指令中的向量加载指令将单次向量操作个数的向量数据加载到向量寄存器)。

基于环境参数确定单次向量操作个数的步骤包括：基于寄存器位宽除以向量有效位宽乘以向量寄存器每组个数而确定允许操作向量最大个数，并将允许操作向量最大个数和当前需要操作向量个数中的较小值确定为单次向量操作个数。

在一些实施方式中，方法还包括：由卷积控制单元基于指令中的查找表激活指令为向量激活单元配置查找表的缓存区；

由卷积控制单元基于指令中的实时控制指令使向量处理单元选择性地执行乘积运算、累加运算、或非线性向量运算。

在一些实施方式中，基于RISC-V的人工智能推理方法还包括执行以下步骤：

反馈处理过的标量数据以完成推理。

下面根据具体实施例进一步阐述本申请的具体实施方式。

本申请的架构顶层原理图参见图2。如图2所示，本申请包括DMA(Direct Memory Access，直接存储器访问)接口、标量数据存储单元、指令存储单元、向量存储单元、指令取指、指令译码、指令预测、32 个标量寄存器、32个向量寄存器、控制寄存器、标量算术逻辑单元(或称算术逻辑单元)、向量处理单元、卷积控制单元以及乘法器阵列。

DMA接口负责将DDR(Double Data Rate SDRAM，双倍速率同步动态随机存储器)中的指令与数据加载到相应的存储单元；标量/向量/指令存储单元都是紧密耦合存储器，相比于缓存(cache)而言，这种紧密耦合存储器功耗低、延时固定，不存在cache不命中的情况，可以满足处理器的实时性、可靠性的需求。

取指/译码/预测单元是处理器从指令存储单元中读取指令、指令译码、分支预测的单元。取指是指读取指令、获取指令或取出指令。参见图3所示取指流程示意图(基于RISC-V的人工智能推理方法的指令获取流程图)，取指后处理器判断取出的指令是向量指令还是标量指令，然后执行向量/标量的数据加载、执行、写回的操作。取指/译码/预测单元还有指令预测功能，每条指令取出之后，就会生成下一条指令地址，若预译码单元判断出本条指令为分支指令，处理器会重新计算下一条指令的地址，并取出备用。

向量寄存器/标量寄存器是RISC-V架构中规定的寄存器。标量寄存器为32个32位寄存器，向量寄存器是32个位宽可自定义的向量寄存器。标量寄存器的功能有缓存函数调用返回地址、堆指针、临时变量、函数参数或返回值等。向量寄存器是用于缓存向量数据变量、掩码数据、中间计算结果等。该处理器中的向量功能单元(如向量处理单元)和标量功能单元(如标量算术逻辑单元)共用处理器的配置寄存器和状态寄存器。

其中，标量算术逻辑单元(或称算术逻辑单元)完成标量算术/逻辑运算；向量处理单元主要完成除卷积/乘积之外的向量运算，如矩阵转置、变形、非线性运算、向量累加等功能；卷积控制单元负责向量指令译码、模块寄存器配置、非线性函数查找表缓存、向量逻辑控制等；乘法器阵列单元主要完成卷积和矩阵乘的功能，内部集成了8个(可自定义为其他数量)乘法器模块，每个模块集成了64个8位乘法器(乘法器数量可根据架构自定义)。

向量处理单元的结构详见图4。向量寄存器的位宽N是硬件设计时确定下的寄存器长度，例如，N的长度可以是128、512或1024等。向量处理单元涉及的数据处理流程如下：

1)用指令vsetvli(RISC-V指令集向量大小设置命令)设置向量有效位宽SEW，每组中向量寄存器的个数LMUL，当前需要操作的向量个数Nw，以及允许操作的最大向量个数为Ne；由于向量寄存器的限制，Ne为(N/SEW)*LMUL；若Nw>Ne,则每次操作的向量个数为Ne，若Nw小于或等于Ne，则每次操作的向量个数为Nw。

2)用向量加载指令加载向量数据到向量寄存器中，该向量加载指令可以是vlen.v(n＝8,16,32,…)。

3)向量数据被缓存到影子寄存器(或称向量影子寄存器)中。影子寄存器是用于缓存向量寄存器中的数据，受向量加载指令、卷积控制和自身状态共同控制。当向量寄存器中有了新数据，且卷积允许运行，且影子寄存器空状态，才允许把向量寄存器中的数据加载到影子寄存器中。

4)对影子寄存器中的向量根据卷积控制单元的配置在向量数据重排序单元中进行数据重排序，以如图5所示的方式将二维矩阵转换为三维矩阵，根据矩阵乘的原理，增加矩阵数据的重复利用率。向量数据重排序单元还有矩阵转置等功能，负责使数据的排列满足乘法器直接调用的需求。

5)向量预处理单元负责将向量进行缩放、偏移、截取等。

6)处理好的数据，进入乘法器输入缓存中。缓存的目的是：如上图所示的矩阵乘，第一个矩阵的行数据要与第二个矩阵的所有的列数据相乘，得到输出矩阵的行数据，这个过程中很多数据可以复用，因此设置一个输入缓存单元，缓存复用数据。这种机制可以有效减少处理器对DDR的访问次数，降低了处理器对DDR带宽的需求。

7)缓存的数据进入乘法器阵列做乘积运算，得到乘积数据。乘法器阵列是根据向量寄存器能够加载的数据量的最大值设置的，能够满足数据吞吐的峰值需求，也不会出现冗余，充分利用硬件资源，而不浪费。

8)乘积数据被输入乘积累加器做累加运算。乘积累加器中设有累加缓存单元，存储中间结果，当累加值为最后输出结果时，才会被输出到下一个单元。

9)向量激活单元负责非线性向量运算，使用查找表的方法。查找表的配置通过数据加载指令把参数加载到向量激活单元的缓存区。

10)最终的计算结果，在向量存储指令的控制下，通过向量寄存器，存储到相应的位置。整个计算过程受卷积控制单元控制，不需要的环节可设置为bypass(绕过)。整个过程在图6中被完整地示出。

卷积控制单元的结构详见图7。卷积控制单元根据向量指令，控制着整个卷积/矩阵乘的过程。取指译码单元发送过来的向量指令在卷积控制单元中译码。

1)若向量指令为卷积控制寄存器配置命令，则配置寄存器。配置寄存器是映射到处理器存储空间上。当向量指令的寻址是此空间地址段，则认为是配置寄存器的命令，寄存器根据地址进行区分。配置寄存器包括不同单元模块的寄存器，如向量数据重排序单元的数据大小、数据输入维度、数据输出维度、是否转置等寄存器；再如向量预处理单元的数据缩放系数、数据偏移系数、截取系数等寄存器。

2)若向量指令为配置向量激活单元的查找表，则直接将数据配置到向量激活单元的查找表缓存区。

3)若为卷积实时控制指令，则根据指令实时控制，如数据乘、数据加载、数据存储指令。

另外，本申请的处理器可以通过片上网格(Mesh)互联网络(NoC)，将多个处理器互联起来，组成更大算力的架构，如人工智能处理器(AIPU)，其结构详见图8。处理器数目可大可小，非常灵活，可适用于不同的硬件规模应用中。通过网络互联的处理器架构支持单指令多数据(SIMD)或多指令多数据(MIMD)模式，软件编程更加灵活。

从上述实施方式中可以看出，基于RISC-V的人工智能推理方法，通过直接存储器访问接口获取人工智能推理的指令和数据并写入存储器；从存储器获取和翻译指令，基于指令将数据从存储器加载到对应的寄存器；响应于指令是向量指令(即其确定人工智能推理的指令中包括向量指令，并响应于该向量指令)，而由卷积控制单元基于向量指令在向量处理单元处理对应的向量数据；反馈处理过的向量数据以完成推理的技术方案，能够将RISC-V指令集应用到AI芯片的推理计算中，便于人工智能推理的应用和落地。

需要特别指出的是，上述基于RISC-V的人工智能推理方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于基于RISC-V的人工智能推理方法也应当属于本申请的保护范围，并且不应将本申请的保护范围局限在前述实施例之中。

在一些实施方式中，本申请公开了了一种便于人工智能推理的应用和落地的基于RISC-V的人工智能推理系统，该系统包括处理器和存储器，存储器存储有处理器可执行的计算机可读指令，计算机可读指令在被处理器执行时，使得处理器执行以下步骤：

反馈处理过的向量数据以完成推理。

在一些实施方式中，存储器包括向量数据存储器、指令存储器、和标量数据存储器；寄存器包括向量寄存器和标量寄存器；计算机可读指令在被处理器执行时实现基于指令将数据从存储器加载到对应的寄存器的步骤包括：基于环境参数确定单次向量操作个数，以使用指令中的向量加载指令将单次向量操作个数个向量数据加载到向量寄存器(即：基于环境参数确定单次向量操作个数，根据指令中的向量加载指令将单次向量操作个数的向量数据加载到向量寄存器)。

计算机可读指令在被处理器执行时还实现以下步骤：由卷积控制单元基于指令中的寄存器配置指令确定环境参数，环境参数包括向量有效位宽、向量寄存器每组个数、寄存器位宽、和当前需要操作向量个数；计算机可读指令在被处理器执行时实现基于环境参数确定单次向量操作个数的步骤包括：基于寄存器位宽除以向量有效位宽乘以向量寄存器每组个数而确定允许操作向量最大个数，并将允许操作向量最大个数和当前需要操作向量个数中的较小值确定为单次向量操作个数。

在一些实施方式中，计算机可读指令在被处理器执行时实现由卷积控制单元基于向量指令在向量处理单元处理对应的向量数据的步骤包括：响应于向量寄存器有数据、向量处理单元的影子寄存器为空、并且卷积控制单元允许，将向量数据从向量寄存器缓存到影子寄存器；在影子寄存器中依次对向量数据执行重排序处理和预处理，并存入向量处理单元的乘法器输入缓存；由向量处理单元的乘法器阵列从乘法器输入缓存获取向量数据以在卷积控制单元的控制下执行乘积运算；由向量处理单元的乘积累加器从乘法器阵列获取向量数据以在卷积控制单元的控制下执行累加运算；及由向量处理单元的向量激活单元从乘积累加器获取向量数据以在卷积控制单元的控制下使用查找表执行非线性向量运算。

在一些实施方式中，计算机可读指令在被处理器执行时还实现以下步骤：

由卷积控制单元基于指令中的查找表激活指令为向量激活单元配置查找表的缓存区；及

反馈处理过的标量数据以完成推理。

其中，响应于指令是向量指令是指确定人工智能推理的指令中包括向量指令，并响应于该向量指令。其中，响应于指令是标量指令是指确定人工智能推理的指令中还包括标量指令，并响应于该标量指令。

从上述实施例可以看出，本申请实施例提供的系统，通过直接存储器访问接口获取人工智能推理的指令和数据并写入存储器；从获取存储器获取和翻译指令，基于指令将数据从存储器加载到对应的寄存器；响应于指令是向量指令，而由卷积控制单元基于向量指令在向量处理单元处理对应的向量数据；反馈处理过的向量数据以完成推理的技术方案，能够将RISC-V指令集应用到AI芯片的推理计算中，便于人工智能推理的应用和落地。

需要特别指出的是，上述基于RISC-V的人工智能推理系统的实施例采用了基于RISC-V的人工智能推理方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到基于RISC-V的人工智能推理方法的其他实施例中。当然，由于基于RISC-V的人工智能推理方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于基于RISC-V的人工智能推理系统也应当属于本申请的保护范围，并且不应将本申请的保护范围局限在前述的实施例之上。

反馈处理过的向量数据以完成推理。

在一些实施方式中，计算机可读指令被处理器执行时，实现基于指令将数据从存储器加载到对应的寄存器的步骤包括：基于环境参数确定单次向量操作个数，以使用指令中的向量加载指令将单次向量操作个数个向量数据加载到向量寄存器(即：基于环境参数确定单次向量操作个数，根据指令中的向量加载指令将单次向量操作个数的向量数据加载到向量寄存器)。

在一些实施方式中，计算机可读指令被处理器执行时，还实现以下步骤：由卷积控制单元基于指令中的寄存器配置指令确定环境参数，环境参数包括向量有效位宽、向量寄存器每组个数、寄存器位宽、和当前需要操作向量个数；

在一些实施方式中，计算机可读指令被处理器执行时，实现基于环境参数确定单次向量操作个数的步骤包括：基于寄存器位宽除以向量有效位宽乘以向量寄存器每组个数而确定允许操作向量最大个数，并将允许操作向量最大个数和当前需要操作向量个数中的较小值确定为单次向量操作个数。

在一些实施方式中，计算机可读指令被处理器执行时，实现由卷积控制单元基于向量指令在向量处理单元处理对应的向量数据的步骤包括：

在一些实施方式中，计算机可读指令被处理器执行时，还实现以下步骤：

反馈处理过的标量数据以完成推理。其中，响应于指令是标量指令是指确定人工智能推理的指令中还包括标量指令，并响应于该标量指令。

以上是本申请公开的示例性实施例，但是应当注意，在不背离权利要求限定的本申请实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本申请实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请实施例公开的范围(包括权利要求)被限于这些例子；在本申请实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上前述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

一种基于RISC-V的人工智能推理方法，包括以下步骤：

通过直接存储器访问接口获取人工智能推理的指令和数据并写入存储器；

从所述存储器获取和翻译所述指令，基于所述指令将所述数据从所述存储器加载到对应的寄存器；

响应于所述指令是向量指令，而由卷积控制单元基于所述向量指令在向量处理单元处理对应的向量数据；及

反馈处理过的所述向量数据以完成推理。
根据权利要求1所述的方法，其特征在于，所述存储器包括向量数据存储器、指令存储器、和标量数据存储器；所述寄存器包括向量寄存器和标量寄存器。
根据权利要求2所述的方法，其特征在于，所述基于所述指令将所述数据从所述存储器加载到对应的寄存器的步骤包括：基于环境参数确定单次向量操作个数，根据所述指令中的向量加载指令将单次向量操作个数的所述向量数据加载到所述向量寄存器。
根据权利要求3所述的方法，其特征在于，还包括以下步骤：由所述卷积控制单元基于所述指令中的寄存器配置指令确定环境参数，所述环境参数包括向量有效位宽、向量寄存器每组个数、寄存器位宽、和当前需要操作向量个数；

所述基于环境参数确定单次向量操作个数的步骤包括：根据所述寄存器位宽、所述向量有效位宽以及所述向量寄存器每组个数确定允许操作向量最大个数，并将所述允许操作向量最大个数和所述当前需要操作向量个数中的较小值确定为所述单次向量操作个数。
根据权利要求1所述的方法，其特征在于，所述由卷积控制单元基于所述向量指令在向量处理单元处理对应的向量数据的步骤包括：

响应于所述向量寄存器有数据、所述向量处理单元的影子寄存器为空、并且所述卷积控制单元允许，将所述向量数据从所述向量寄存器缓存到所述影子寄存器；

在所述影子寄存器中依次对所述向量数据执行重排序处理和预处理，并存入所述向量处理单元的乘法器输入缓存；

由所述向量处理单元的乘法器阵列从所述乘法器输入缓存获取所述向量数据以在所述卷积控制单元的控制下执行乘积运算；

由所述向量处理单元的乘积累加器从所述乘法器阵列获取所述向量数据以在所述卷积控制单元的控制下执行累加运算；及

由所述向量处理单元的向量激活单元从所述乘积累加器获取所述向量数据以在所述卷积控制单元的控制下使用查找表执行非线性向量运算。
根据权利要求5所述的方法，其特征在于，还包括以下步骤：

由所述卷积控制单元基于所述指令中的查找表激活指令为所述向量激活单元配置所述查找表的缓存区；及

由所述卷积控制单元基于所述指令中的实时控制指令使所述向量数据选择性地执行乘积运算、累加运算、或非线性向量运算。
根据权利要求1所述的方法，其特征在于，还包括以下步骤：

响应于所述指令是标量指令，而基于所述标量指令在算数/逻辑运算单元处理对应的标量数据；及

反馈处理过的所述标量数据以完成推理。
一种基于RISC-V的人工智能推理系统，包括处理器和存储器；

所述存储器存储有处理器可执行的计算机可读指令，所述计算机可读指令在被所述处理器执行时，使得所述处理器执行以下步骤：

通过直接存储器访问接口获取人工智能推理的指令和数据并写入存储器；

从所述存储器获取和翻译所述指令，基于所述指令将所述数据从所述存储器加载到对应的寄存器；

响应于所述指令是向量指令，而由卷积控制单元基于所述向量指令在向量处理单元处理对应的向量数据；及

反馈处理过的所述向量数据以完成推理。
根据权利要求8所述的系统，其特征在于，所述存储器包括向量数据存储器、指令存储器、和标量数据存储器；所述寄存器包括向量寄存器和标量寄存器；所述基于所述指令将所述数据从所述存储器加载到对应的寄存器，包括：基于环境参数确定单次向量操作个数，根据所述指令中的向量加载指令将单次向量操作个数的所述向量数据加载到所述向量寄存器；

所述处理器在执行所述计算机可读指令时还执行以下步骤：由所述卷积控制单元基于所述指令中的寄存器配置指令确定环境参数，所述环境参数包括向量有效位宽、向量寄存器每组个数、寄存器位宽、和当前需要操作向量个数；

所述基于环境参数确定单次向量操作个数的步骤包括：根据所述寄存器位宽、所述向量有效位宽以及所述向量寄存器每组个数确定允许操作向量最大个数，并将所述允许操作向量最大个数和所述当前需要操作向量个数中的较小值确定为所述单次向量操作个数。
根据权利要求8所述的系统，其特征在于，所述由卷积控制单元基于所述向量指令在向量处理单元处理对应的向量数据的步骤包括：响应于所述向量寄存器有数据、所述向量处理单元的影子寄存器为空、并且所述卷积控制单元允许，将所述向量数据从所述向量寄存器缓存到所述影子寄存器；在所述影子寄存器中依次对所述向量数据执行重排序处理和预处理，并存入所述向量处理单元的乘法器输入缓存；由所述向量处理单元的乘法器阵列从所述乘法器输入缓存获取所述向量数据以在所述卷积控制单元的控制下执行乘积运算；由所述向量处理单元的乘积累加器从所述乘法器阵列获取所述向量数据以在所述卷积控制单元的控制下执行累加运算；及由所述向量处理单元的向量激活单元从所述乘积累加器获取所述向量数据以在所述卷积控制单元的控制下使用查找表执行非线性向量运算。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

通过直接存储器访问接口获取人工智能推理的指令和数据并写入存储器；

从所述存储器获取和翻译所述指令，基于所述指令将所述数据从所述存储器加载到对应的寄存器；

响应于所述指令是向量指令，而由卷积控制单元基于所述向量指令在向量处理单元处理对应的向量数据；及

反馈处理过的所述向量数据以完成推理。