WO2017185390A1

WO2017185390A1 - 一种用于执行向量超越函数运算的装置和方法

Info

Publication number: WO2017185390A1
Application number: PCT/CN2016/081071
Authority: WO
Inventors: 韩栋; 张潇; 陈天石; 陈云霁
Original assignee: 北京中科寒武纪科技有限公司
Priority date: 2016-04-26
Filing date: 2016-05-05
Publication date: 2017-11-02
Also published as: US20190146793A1; EP3451153A4; CN107315564A; CN111651200B; CN107315564B; CN111651200A; EP3451153A1; US20190065191A1; EP3451153B1

Abstract

一种用于执行向量超越函数运算装置和方法，该装置包括：存储单元，存储向量运算指令相关的向量数据；寄存器单元，用于存储向量运算指令相关的标量数据；控制单元，用于对向量运算指令进行译码，并控制向量运算指令的运算过程；超越函数计算单元，用于对向量运算指令进行超越函数计算；其中，所述超越函数计算单元包括预处理部分和迭代计算部分，其中预处理部分对输入向量数据进行预处理，使其处于CORDIC算法能够处理的范围之内，所述迭代计算部分利用CORDIC算法对经过预处理的输入向量数据进行迭代运算，得到结果向量数据。该装置能够硬件实现超越函数运算指令的精简指令运算，通过一条指令实现一完整的向量超越函数运算。

Description

一种用于执行向量超越函数运算的装置和方法

技术领域

本发明涉及计算机处理技术领域，尤其涉及一种用于执行向量超越函数运算的装置和方法。该装置可以根据指令对一组向量数据进行各种超越函数运算，能够以较高的效率得到高精确度的超越函数计算结果。本发明装置及方法在进行针对向量的超越函数运算上有着区别于传统方法的显著优势。

背景技术

超越函数，包括但不限于指数运算、对数运算和三角函数运算。这类运算区别于传统的四则运算，不是有限多项式的形式，变量之间的关系也不能用有限次的加、减、乘、除、乘方、开方来等价。其运算难度和代价远远大于传统的加减乘除。而当前的计算机领域中，确实存在着许多对一整列向量数据甚至向量数据进行超越函数运算的要求，例如许多机器学习算法中就需要对大量数据进行指数和对数运算。因此，就要求有一种能够针对向量数据高效实现各种超越函数计算的装置和方法。

在现有技术中，一种最常用的实现向量超越函数计算的方案是使用通用处理器。该方法通过通用寄存器堆和通用功能部件来执行通用指令，从而执行向量运算。然而，因为通用处理器并没有专门用于计算超越函数的运算部件，必须采用泰勒展开的形式用高次多项式来逼近得到激活函数的结果，需要多条指令的执行才能够完成整个运算。同时，通用处理器面向标量运算，在实现对于向量数据的超越函数运算时需要逐个执行，这就进一步降低了运算效率。

在另一种现有技术中，使用图形处理器(GPU)来针对向量数据进行超越函数运算，其中，通过使用通用寄存器堆和通用流处理单元执行通用SIMD指令来进行运算。该方案虽然解决了通用处理器串行计算的问题，但仍需要采用泰特展开的方式使用高次多项式来计算得到高精度的结果。同时，GPU片上缓存太小，在进行大规模超越函数运算时需要不断进行片外数据搬运，片外带宽成为了主要性能瓶颈。

在另一种现有技术中，使用专门定制的计算装置来进行向量超越函数计算，其中，使用定制的寄存器堆和定制的处理单元进行运算。然而，根据这种方法，目前已有的专用超越函数运算装置受限于寄存器堆的设计，不能够灵活地支持不同长度的向量运算。

综上所述，现有的不管是通用处理器、还是图形处理器或者其他的定制计算装置都无法进行灵活高效的向量超越函数运算，并且这些现有技术在处理向量乘运算问题时存在着代码量大，速度慢，效率低，片上缓存不够，支持的向量规模不够灵活等问题。

发明内容

本发明旨在提供一种用于解决向量超越函数运算任务的装置和方法，能够根据指令快速、灵活执行针对不同长度的向量数据的各种超越函数计算，即对于向量X，针对其中的每一个元素xi快速计算出相应的超越函数值yi＝f(xi)，其中f可以是各种超越函数，包括但不限于指数函数、对数函数、三角函数和反三角函数。

根据本发明一方面，提供了一种向量超越函数运算装置，该装置包括：

存储单元，用于存储向量运算指令相关的向量数据；

寄存器单元，用于存储向量运算指令相关的标量数据；

控制单元，用于对向量运算指令进行译码，并控制向量运算指令的运算过程；

超越函数计算单元，用于对向量运算指令进行超越函数计算；

其中，所述超越函数计算单元包括预处理部分和迭代计算部分，其中预处理部分对输入向量数据进行预处理，使其处于CORDIC算法能够处理的范围之内，所述迭代计算部分利用CORDIC算法对经过预处理的输入向量数据进行迭代运算，得到结果向量数据。

可选地，所述超越函数计算单元利用硬件实现。

可选地，所述存储单元为高速暂存存储器。

可选地，所述寄存器单元所存储的标量数据包括向量运算指令相关的输入向量数据起始地址、输出向量数据存储地址、输入向量数据长度；其中，所述输入向量数据的起始地址以及输出向量数据存储地址为所述存储单元中的地址。

可选地，所述超越函数计算单元还包括后处理部分，其用于对所述迭代计算部分输出结果向量数据进行后处理。

可选地，所述控制单元包括：

指令队列模块，用于对译码后的向量运算指令进行顺序存储，并获取向量运算指令相关的标量数据。

可选地，所述控制单元包括：

依赖关系处理单元，用于在超越函数计算单元获取当前向量运算指令前，判断当前向量运算指令与之前未执行完的运算指令是否存在依赖关系。

可选地，所述控制单元包括：

存储队列模块，用于在当前向量运算指令与之前未执行完的运算指令存在依赖关系时，暂时存储当前向量运算指令，并且在该依赖关系消除时，将暂存的向量运算指令送往超越函数计算单元。

可选地，所述装置还包括：

指令缓存单元，用于存储待执行的向量运算指令；

输入输出单元，用于将向量运算指令相关的向量数据存储于存储单元，或者，从存储单元中获取向量运算指令的运算结果。

可选地，所述向量运算指令包括操作码和操作域；

所述操作码用于指示执行何种超越函数；

所述操作域包括立即数和/或寄存器号，指示向量运算相关的标量数据，其中寄存器号用于指向所述寄存器单元地址。

根据本发明第二方面，提供了一种向量超越函数运算装置，包括：

取指模块，用于从指令序列中取出下一条要执行的向量运算指令，并将该向量运算指令传给译码模块；

译码模块，用于对该向量运算指令进行译码，并将译码后的向量运算指令传送给指令队列模块；

指令队列模块，用于暂存译码后的向量运算指令，并从向量运算指令或标量寄存器获得向量指令运算相关的标量数据；获得所述标量数据后，将所述向量运算指令送至依赖关系处理单元；

标量寄存器堆，包括多个标量寄存器，用于存储向量运算指令相关的标量数据；

依赖关系处理单元，用于判断所述向量运算指令与之前未执行完的运算指令之间是否存在依赖关系；如果存在依赖关系，则将所述向量运算指令送至存储队列模块，如果不存在依赖关系，则将所述向量运算指令送至超越函数计算单元；

存储队列模块，用于存储与之前运算指令存在依赖关系的向量运算指令，并且在所述依赖关系解除后，将所述向量运算指令送至超越函数计算单元；

超越函数计算单元，用于根据接收到向量运算指令对输入向量数据进行超越函数计算；

高速暂存存储器，用于存储输入向量数据和输出向量数据；

输入输出存取模块，用于直接访问所述高速暂存存储器，负责从所述高速暂存存储器中读取输入向量数据和写入输出向量数据。

可选地，所述超越函数计算单元包括：

预处理模块，用于对输入向量数据进行预处理，将所述输入向量数据转换至CORDIC能够处理的范围之内；

迭代计算模块，用于对预处理后的输入向量数据进行CORDIC计算，得到超越函数运算结果；

后处理模块，用于对所述运算结果进行后处理，得到输出向量数据。

可选地，所述超越函数计算单元由硬件实现。

根据本发明一方面，提供了一种向量超越函数运算方法，该方法包括：

取值模块从指令序列中取出下一条要执行的向量运算指令，并将该向量运算指令传给译码模块；

译码模块对该向量运算指令进行译码，并将译码后的向量运算指令传送给指令队列模块；

指令队列模块暂存译码后的向量运算指令，并从向量运算指令或标量寄存器获得向量指令运算相关的标量数据；获得所述标量数据后，将所述向量运算指令送至依赖关系处理单元；

依赖关系处理单元判断所述向量运算指令与之前未执行完的运算指令之间是否存在依赖关系；如果存在依赖关系，则将所述向量运算指令送至存储队列模块，如果不存在依赖关系，则将所述向量运算指令送至超越函数计算单元；

存储队列模块存储与之前运算指令存在依赖关系的向量运算指令，并且在所述依赖关系解除后，将所述向量运算指令送至超越函数计算单元；

超越函数计算单元根据接收到向量运算指令，通过输入输出存取模块从高速暂存存储器取出输入向量数据，然后对输入向量数据进行超越函数运算，并通过输入输出存取模块将运算结果写入高速暂存存储器。

可选地，所述超越函数计算单元对输入向量数据进行预处理，将所述输入向量数据转换至CORDIC能够处理的范围之内；之后对预处理后的输入向量数据进行CORDIC计算，得到超越函数运算结果；最后对所述运算结果进行后处理，得到输出向量数据。

本发明提供的向量超越函数运算装置，能够硬件实现超越函数运算指令的精简指令运算，其可通过一条指令实现一完整的向量超越函数运算。本发明通过将参与计算的向量数据暂存在高速暂存存储器上(Scratchpad Memory)，使得向量运算过程中可以更加灵活有效地支持不同宽度的数据，同时超越函数运算单元通过硬件实现，能够更加高效地实现各种超越函数运算，提升包含大量超越函数计算任务的算法执行性能。

本发明可以应用于以下场景中(包括但不限于)：数据处理、机器人、电脑、打印机、扫描仪、电话、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备等各类电子产品；飞机、轮船、车辆等各类交通工具；电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机等各类家用电器；以及包括核磁共振仪、B超、心电图仪等各类医疗设备。

附图说明

图1是本发明提供的向量超越函数运算装置的结构示意图。

图2是本发明提供的向量运算指令集的格式示意图。

图3是本发明实施例提供的向量超越函数运算装置的结构示意图。

图4是本发明实施例提供的装置执行超越函数运算的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明提供一种向量超越函数计算装置，包括存储单元、寄存器单元、控制单元和超越函数计算单元，存储单元中存储有向量，寄存器单元中存储有向量存储地址和其他标量参数，控制单元执行译码操作，根据指令控制各个模块，超越函数计算单元根据运算指令在指令中或寄存器单元中获取向量地址、长度和其他参数，然后，根据该地址和长度在存储单元中获取相应的向量数据，接着，对向量数据进行超越函数运算，得到运算结果。本发明将参与计算的向量数据暂存在高速暂存存储器上，使得运算过程中可以更加灵活有效地支持不同宽度的向量数据，提升包含大量向量超越函数计算任务的算法执行性能。

图1是本发明提供的向量超越函数计算装置的结构示意图，如图1所示，所述装置包括：

存储单元，用于存储向量数据，在一种实施方式中，该存储单元可以是高速暂存存储器(Scratchpad Memory)，能够支持不同大小的向量数据；本发明将必要的计算数据暂存在高速暂存存储器上，使得本装置在进行超越函数运算的过程中可以更加灵活有效地支持不同宽度的数据。高速暂存存储器可以通过各种不同存储器件如SRAM、DRAM、eDRAM、忆阻器、3D-DRAM和非易失存储等实现。

寄存器单元，用于存储向量运算指令相关的标量数据，包括输入向量数据的起始地址以及长度，输出向量数据的存储地址，也可用于存储其他运算过程中用到的标量数据，其中，输入向量数据的起始地址和输出向量数据的存储地址为所述存储单元中存储的地址；

控制单元，对向量运算指令进行译码，并控制向量运算指令的运算过程；在一种实施方式中，控制单元读取准备好的向量运算指令，对其进行译码生成控制信号，发送给装置中的其他单元，其他单元根据得到的控制信号执行相应的操作。

超越函数计算单元，该单元根据控制单元的控制实现对指定向量数据的指定超越函数计算。该单元是向量运算单元，同时对所有输入的向量数据进行相同的运算，即对向量中的每一个元素执行相同的超越函数运算。需要注意的是，本单元是定制的超越函数计算单元，采用不同于传统泰勒展开的方法来实现超越函数计算。定制的超越函数计算单元的硬件电路使用坐标旋转数字计算(Coordinate Rotation Digital Computer，CORDIC)算法，该硬件电路对输入的向量数据进行预处理，将其转换至CORDIC算法能够处理的范围之内，并对CORDIC算法的计算结果进行后处理，如输出结果的符号变换及相应四则运算等。本发明中将超越函数计算单元的预处理和后处理全部硬件化，因此提供了一个更加完备的硬件运算模块，进一步提高了整个运算过程的速度。

超越函数计算单元需要进行三个阶段的运算，包括预处理、CORDIC计算和后处理。首先是预处理模块，CORDIC方法虽然可以很高效地计算各种超越函数值，但都仅适用于有限的输入范围，因此，本发明中通过硬件电路将将输入数据转换至CORDIC可以处理的范围内，之后CORDIC计算电路对预处理后的数据进行计算相应计算，计算结构输出至后处理电路进行处理后输出。

在一实施例中，超越函数计算单元包括预处理模块、迭代计算模块和后处理模块，预处理模块将输入的向量数据转化至合理的可计算域范围内，迭代计算模块利用CORDIC算法计算转化后数据的超越函数值，后处理模块将得到的超越函数值进行后处理，其中预处理模块、迭代计算模块和后处理模块都采用硬件实现。

在一实施例中，所述超越函数计算单元通过以下硬件电路实现(包括但不限于)：FPGA、CGRA、专用集成电路ASIC、模拟电路和忆阻器等。

根据本发明的一种实施方式，所述向量超越函数计算装置还包括：指令缓存单元，用于存储待执行的向量运算指令。指令在执行过程中，同时也被缓存在指令缓存单元中，当一条指令执行完之后，该指令将被提交。

根据本发明的一种实施方式，所述向量超越函数计算装置的控制单元还包括：指令队列模块，用于对译码后的向量运算指令进行顺序存储，并在获得向量运算指令所需的标量数据后，将其送至依赖关系处理模块。

根据本发明的一种实施方式，所述向量超越函数计算装置的控制单元还包括：依赖关系处理单元，用于在超越函数计算单元获取指令前，判断该运算指令与之前未执行完的运算指令是否存在依赖关系，即是否访问相同的向量存储地址，若是，将该向量运算指令存储在存储队列模块中，待前一向量运算指令执行完毕后，将存储队列模块中的该向量运算指令提供给所述超越函数计算单元；否则，直接将该向量运算指令提供给所述超越函数计算单元。具体地，向量运算指令访问高速暂存存储器时，前后指令可能会访问同一块存储空间，为了保证指令执行结果的正确性，当前指令如果被检测到与之前的指令的数据存在依赖关系，该指令必须在存储队列内等待至依赖关系被消除。

根据本发明的一种实施方式，所述向量超越函数计算装置的控制单元还包括：存储队列模块，该模块包括一个有序队列，与之前指令在数据上有依赖关系的指令被存储在该有序队列内直至依赖关系被消除，在依赖关系消除后，其将运算指令提供给超越函数计算单元。

根据本发明的一种实施方式，所述向量超越函数计算装置还包括：输入输出单元，用于将向量运算数据存储于存储单元，或者，从存储单元中获取向量运算结果。其中，输入输出单元可直接访问存储单元，负责从内存中读取向量数据或写入向量数据。

根据本发明的一种实施方式，本发明的指令设计采用精简化的方式，一条指令可以完成一次完整的向量超越函数计算。

在本发明执行向量超越函数运算的过程中，所述向量超越函数计算装置取出指令进行译码，然后送至指令队列存储，根据译码结果，获取指令中的各个参数，这些参数可以是直接写在指令的操作域中，也可以是根据指令操作域中的寄存器号从指定的寄存器中读取。这种使用寄存器存储参数的好处是无需改变指令本身，只要用指令改变寄存器中的值，就可以实现大部分的循环，因此大大节省了在解决某些实际问题时所需要的指令条数。在获取了全部操作数之后，依赖关系处理单元会判断指令实际需要使用的数据与之前运算指令中的数据是否存在依赖关系，这决定了这条指令是否可以被立即发送至超越函数计算单元中执行。一旦发现与之前运算指令中的数据之间存在依赖关系，则该条指令必须等到它依赖的指令执行完毕之后才可以送至运算单元执行。在定制的超越函数计算单元中，该条指令将快速执行完毕，并将结果，即生成的随机向量写回至指令提供的地址，该条指令执行完毕。

图2是本发明提供的超越函数运算指令的格式示意图，如图2所示，超越函数运算指令包括一操作码和至少一操作域，其中，操作码用于指示进行哪一种超越函数计算，操作域用于指示该运算指令的数据信息，其中，数据信息包括立即数和/或寄存器号，例如，要获取一个向量时，根据寄存器号可以在相应的寄存器中获取向量起始地址和向量长度，再根据向量起始地址和向量长度在存储单元中获取相应地址存放的向量。

有下列几种向量超越函数运算指令：

指数运算指令(EXP)，根据该指令，装置从高速暂存存储器的指定地址取出指定大小的向量数据，在超越函数计算单元中对向量进行指数计算，即Y＝exp(X)并将计算结果写回至指令中指定的高速暂存存储器的地址。

对数运算指令(LOG)，根据该指令，装置从高速暂存存储器的指定地址取出指定大小的向量数据，在超越函数计算单元中对向量进行对数计算，即Y＝log(X)并将计算结果写回至指令中指定的高速暂存存储器的地址。

正弦运算指令(SIN)，根据该指令，装置从高速暂存存储器的指定地址取出指定大小的向量数据，在超越函数计算单元中对向量进行正弦计算，即Y＝sin(X)并将计算结果写回至指令中指定的高速暂存存储器的地址。

余弦运算指令(COS)，根据该指令，装置从高速暂存存储器的指定地址取出指定大小的向量数据，在超越函数计算单元中对向量进行余弦计算，即Y＝cos(X)并将计算结果写回至指定的高速暂存存储器的地址。

正切运算指令(TAN)，根据该指令，装置从高速暂存存储器的指定地址取出指定大小的向量数据，在超越函数计算单元中对向量进行正切计算，即Y＝tan(X)并将计算结果写回至指定的高速暂存存储器的地址。

余切运算指令(COT)，根据该指令，装置从高速暂存存储器的指定地址取出指定大小的向量数据，在超越函数计算单元中对向量进行余切计算，即Y＝cot(X)并将计算结果写回至指定的高速暂存存储器的地址。

反正弦运算指令(ARCSIN)，根据该指令，装置从高速暂存存储器的指定地址取出指定大小的向量数据，在超越函数计算单元中对向量进行反正弦计算，即Y＝arcsin(X)并将计算结果写回至指定的高速暂存存储器的地址。

反余弦运算指令(ARCCOS)，根据该指令，装置从高速暂存存储器的指定地址取出指定大小的向量数据，在超越函数计算单元中对向量进行反余弦计算，即Y＝arccos(X)并将计算结果写回至指定的高速暂存存储器的地址。

反正切运算指令(ARCTAN)，根据该指令，装置从高速暂存存储器的指定地址取出指定大小的向量数据，在超越函数计算单元中对向量进行反正切计算，即Y＝arctan(X)并将计算结果写回至指定的高速暂存存储器的地址。

反余切运算指令(ARCCOT)，根据该指令，装置从高速暂存存储器的指定地址取出指定大小的向量数据，在超越函数计算单元中对向量进行反余切计算，即Y＝arccot(X)并将计算结果写回至指令中指定的高速暂存存储器的地址。

通用CPU不提供这种类型的机器指令，它们通常是由高层的库函数来实现的，每个库函数都包含了多条机器指令，本发明通过硬件结构实现了上述向量超越函数指令。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图3是本发明一实施例提供的向量超越函数计算装置的结构示意图，如图3所示，该装置包括取指模块、译码模块、指令队列模块、标量寄存器堆、依赖关系处理单元、存储队列模块、超越函数计算单元、高速暂存器、IO内存存取模块；

取指模块，该模块负责从指令序列中取出下一条将要执行的指令，并将该指令传给译码模块；

译码模块，该模块负责对指令进行译码，并将译码后得到的指令传给指令队列模块；

指令队列模块，该模块用于暂存从译码模块获得的指令，并从指令或标量寄存器获得指令运算相应的数据，包括向量数据的起始地址和大小以及一些标量常数。获得数据后，指令被送至依赖关系处理单元；

标量寄存器堆，提供运算过程中所需的标量寄存器；

依赖关系处理单元，该单元用于处理指令与前一条指令可能存在的存储依赖关系。向量运算指令会访问高速暂存存储器以获取运算向量，前后指令可能会访问同一块存储空间。为了保证指令执行结果的正确性，当前指令如果被检测到与之前的指令的数据存在依赖关系，该指令被送至存储队列模块内等待至依赖关系被消除。即检测本条指令的输入数据的存储区间与之前没有执行完毕的指令的输出数据的存储区间是否有重叠，存储区间是由起始地址和数据长度决定的。如果有重叠，则说明本条指令实际上是需要之前指令的执行结果作为输入的，因此必须等到那条指令执行完毕后，这条指令才能开始执行。在这个过程中，指令实际被暂存在存储队列模块中。

存储队列模块，该模块包括一个有序队列，与之前指令在数据上有依赖关系的指令被存储在该有序队列内直至存储关系被消除；依赖关系被消除的指令被送至超越函数计算单元；

超越函数计算单元，该单元负责超越函数计算操作，包括但不限于指数运算、对数运算、三角函数运算和反三角函数。实际上，所有常见的超越函数基本包含在指数、对数、三角、反三角运算以及他们的四则组合中。超越函数的计算通过CORDIC方法实现，该方法是一种迭代计算的方法，对于某超越函数f(x)，一次迭代可以算出结果中的一位精度，所以对于16位精度的结果要求，则最多只需要迭代16次，即可算出该结果。同时超越函数计算模块同时还包括预处理和后处理的部分，预处理是将输入数据转换至合理的计算区间内，即将输入数据转换至CORDIC算法能够处理的计算范围内，后处理则根据超越函数本身的不同对CORDIC的计算结果进行后处理，如对输出数据的符号的变换以及一些四则运算。现有技术中预处理和后处理通常由软件完成，在本装置中全部由硬件电路实现；

高速暂存存储器，该存储器是向量数据专用的暂存存储装置，能够支持不同大小的向量数据；其用于存储待运算的向量数据和运算结果；

IO内存存取模块，该模块用于直接访问高速暂存存储器，负责从高速暂存存储器中读取数据或写入数据。

图4是本发明实施例提供的向量超越函数运算装置执行向量超越函数运算指令的流程图，如图4所示，执行向量超越函数运算的过程包括：

S1，取指模块取出该条向量超越函数运算指令，并将该指令送往译码模块。

S2，译码模块对该指令译码，并将译码后的指令送往指令队列模块。

S3，在指令队列模块中，从指令立即数或寄存器中获取所需的标量数据，即指令操作域对应的数据，包括输入向量地址、输入向量长度、输出向量地址以及超越函数运算所需的常数。

S4，在取得需要的标量数据后，指令队列模块将该指令送往依赖关系处理单元。

S5，依赖关系处理单元分析该指令与前面尚未执行结束的指令在数据上是否存在依赖关系。如果存在依赖关系，则将该条指令送入存储队列模块中等待至其与前面的未执行结束的指令在数据上不再存在依赖关系为止，并由存储队列模块将其送往超越函数计算单元。如果不存在依赖关系，则直接将该条指令送往超越函数计算单元；

S6，超越函数计算单元根据向量存储地址和长度通过输入输出单元从高速暂存器中取出运算数据中所需要的一部分向量数据。

S7，超越函数计算单元中的预处理模块将输入数据变换至坐标旋转数字计算算法CORDIC能够计算的收敛域内。

S8，超越函数计算单元中的迭代计算模块并行地计算出所取出的一部分向量数据的超越函数值。

S9，转步骤S6，超越函数计算单元继续取出向量数据的下一部分进行计算，直至完成全部输入向量数据的超越函数计算。

S10，运算完成后，将运算结果向量通过输入输出单元写回至高速暂存存储器的向量输出地址中。

综上所述，本发明提供向量超越函数计算装置，并配合相应的指令，能够很好地解决当前计算机领域越来越多的针对向量的超越函数的计算任务，包括目前表现十分出色的人工神经网络算法。相比于已有的传统解决方案，本发明可以具有指令精简、使用方便、支持的向量长度灵活、片上缓存充足等优点。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种用于执行向量超越函数运算的装置，其中，该装置包括：

存储单元，用于存储向量运算指令相关的向量数据；

寄存器单元，用于存储向量运算指令相关的标量数据；

控制单元，用于对向量运算指令进行译码，并控制向量运算指令的运算过程；

超越函数计算单元，用于对向量运算指令进行超越函数计算；

其中，所述超越函数计算单元包括预处理部分和迭代计算部分，其中预处理部分对输入向量数据进行预处理，使其处于CORDIC算法能够处理的范围之内，所述迭代计算部分利用CORDIC算法对经过预处理的输入向量数据进行迭代运算，得到结果向量数据。
如权利要求1所述的装置，其中，所述超越函数计算单元利用硬件实现。
如权利要求1所述的装置，其中，所述存储单元为高速暂存存储器。
如权利要求1-3任一项所述的装置，其中，所述寄存器单元所存储的标量数据包括向量运算指令相关的输入向量数据起始地址、输出向量数据存储地址、输入向量数据长度；其中，所述输入向量数据的起始地址以及输出向量数据存储地址为所述存储单元中的地址。
如权利要求1-3任一项所述的装置，其中，所述超越函数计算单元还包括后处理部分，其用于对所述迭代计算部分输出结果向量数据进行后处理。
如权利要求1所述的装置，其中，所述控制单元包括：

指令队列模块，用于对译码后的向量运算指令进行顺序存储，并获取向量运算指令相关的标量数据。
如权利要求1或6所述的装置，其中，所述控制单元包括：

依赖关系处理单元，用于在超越函数计算单元获取当前向量运算指令前，判断当前向量运算指令与之前未执行完的运算指令是否存在依赖关系。
如权利要求1或6所述的装置，其中，所述控制单元包括：

存储队列模块，用于在当前向量运算指令与之前未执行完的运算指令存在依赖关系时，暂时存储当前向量运算指令，并且在该依赖关系消除时，将暂存的向量运算指令送往超越函数计算单元。
如权利要求1-3、6任一项所述的装置，其中，所述装置还包括：

指令缓存单元，用于存储待执行的向量运算指令；

输入输出单元，用于将向量运算指令相关的向量数据存储于存储单元，或者，从存储单元中获取向量运算指令的运算结果。
如权利要求1所述的装置，其中，所述向量运算指令包括操作码和操作域；

所述操作码用于指示执行何种超越函数；

所述操作域包括立即数和/或寄存器号，指示向量运算相关的标量数据，其中寄存器号用于指向所述寄存器单元地址。
一种用于执行向量超越函数运算的装置，其中，包括：

取指模块，用于从指令序列中取出下一条要执行的向量运算指令，并将该向量运算指令传给译码模块；

译码模块，用于对该向量运算指令进行译码，并将译码后的向量运算指令传送给指令队列模块；

指令队列模块，用于暂存译码后的向量运算指令，并从向量运算指令或标量寄存器获得向量指令运算相关的标量数据；获得所述标量数据后，将所述向量运算指令送至依赖关系处理单元；

标量寄存器堆，包括多个标量寄存器，用于存储向量运算指令相关的标量数据；

依赖关系处理单元，用于判断所述向量运算指令与之前未执行完的运算指令之间是否存在依赖关系；如果存在依赖关系，则将所述向量运算指令送至存储队列模块，如果不存在依赖关系，则将所述向量运算指令送至超越函数计算单元；

存储队列模块，用于存储与之前运算指令存在依赖关系的向量运算指令，并且在所述依赖关系解除后，将所述向量运算指令送至超越函数计算单元；

超越函数计算单元，用于根据接收到向量运算指令对输入向量数据进行超越函数计算；

高速暂存存储器，用于存储输入向量数据和输出向量数据；

输入输出存取模块，用于直接访问所述高速暂存存储器，负责从所述高速暂存存储器中读取输入向量数据和写入输出向量数据。
如权利要求11所述的装置，其中，所述超越函数计算单元包括：

预处理模块，用于对输入向量数据进行预处理，将所述输入向量数据转换至CORDIC能够处理的范围之内；

迭代计算模块，用于对预处理后的输入向量数据进行CORDIC计算，得到超越函数运算结果；

后处理模块，用于对所述运算结果进行后处理，得到输出向量数据。
如权利要求11或12所述的装置，其中，所述超越函数计算单元由硬件实现。
一种用于执行向量超越函数运算的方法，其中，该方法包括：

取值模块从指令序列中取出下一条要执行的向量运算指令，并将该向量运算指令传给译码模块；

译码模块对该向量运算指令进行译码，并将译码后的向量运算指令传送给指令队列模块；

指令队列模块暂存译码后的向量运算指令，并从向量运算指令或标量寄存器获得向量指令运算相关的标量数据；获得所述标量数据后，将所述向量运算指令送至依赖关系处理单元；

依赖关系处理单元判断所述向量运算指令与之前未执行完的运算指令之间是否存在依赖关系；如果存在依赖关系，则将所述向量运算指令送至存储队列模块，如果不存在依赖关系，则将所述向量运算指令送至超越函数计算单元；

存储队列模块存储与之前运算指令存在依赖关系的向量运算指令，并且在所述依赖关系解除后，将所述向量运算指令送至超越函数计算单元；

超越函数计算单元根据接收到向量运算指令，通过输入输出存取模块从高速暂存存储器取出输入向量数据，然后对输入向量数据进行超越函数运算，并通过输入输出存取模块将运算结果写入高速暂存存储器。
如权利要求14所述的方法，其中，所述超越函数计算单元对输入向量数据进行预处理，将所述输入向量数据转换至CORDIC能够处理的范围之内；之后对预处理后的输入向量数据进行CORDIC计算，得到超越函数运算结果；最后对所述运算结果进行后处理，得到输出向量数据。