WO2020220935A1

WO2020220935A1 - 运算装置

Info

Publication number: WO2020220935A1
Application number: PCT/CN2020/083280
Authority: WO
Inventors: 刘少礼; 赵永威
Original assignee: 中科寒武纪科技股份有限公司
Priority date: 2019-04-27
Filing date: 2020-04-03
Publication date: 2020-11-05
Also published as: CN111860804A; CN111860804B; CN111860807B; EP3964950A4; EP4012556A2; CN111860805A; CN111860806A; US20220188614A1; CN111860803A; EP3998528A1; CN111860805B; CN111860807A; EP4012556A3; WO2020221170A1; CN111860808A; EP3964950A1; US20220261637A1

Abstract

一种运算装置。所述运算装置可以包括处理器、内存控制器、存储单元以及多个运算节点，其中，处理器用于接收输入指令，内存控制器用于加载操作数到存储单元，运算节点用于根据输入指令以及操作数执行输入指令以实现输入指令对操作数的处理。运算装置可以提高运算效率。

Description

运算装置

本申请主张2019年4月27日提交的中国专利申请号为201910347027.0的优先权、以及2019年6月21日提交的中国专利申请号为201910544723.0、201910544726.4、201910545271.8、201910545270.3、201910545272.2的优先权，其全部内容通过引用包含于此。

技术领域

本公开涉及人工智能技术领域，尤其涉及一种运算装置。

背景技术

在人工智能技术领域，神经网络算法是最近非常流行的一种机器学习算法，在各种领域中都取得了非常好的效果，比如图像识别，语音识别，自然语言处理等。随着神经网络算法的发展，算法的复杂度也越来越高，为了提高识别度，模型的规模也在逐渐增大。用GPU和CPU处理起这些大规模的模型，要花费大量的计算时间，并且耗电量很大。

发明内容

本公开提出了一种运算装置，通过多层迭代的方式构建运算装置的层级架构，该运算装置的每个运算节点的结构是相同的，不同层的运算节点、不同规模的计算机上都具有相同的编程接口和指令集架构，能够执行相同格式的程序，简化用户编程的复杂性，且运算装置的扩展或者程序在不同运算装置之间的移植都非常容易。

根据本公开的第一方面，提供了一种运算装置，包括：至少两层运算节点，每一个运算节点包括内存组件、处理器以及下一层运算节点；

对于任意一个运算节点，所述任意一个运算节点中的处理器用于对所述任意一个运算节点的输入指令进行分解，获得并行子指令，并将并行子指令发送给所述任意一个运算节点的下一层运算节点；

所述任意一个运算节点还用于从上一层运算节点的内存组件中加载执行所述并行子指令需要的操作数到所述任意一个运算节点的内存组件，以使所述任意一个运算节点的下一层运算节点根据所述操作数并行执行所述并行子指令。

结合第一方面的第一种可能的实现方式中，所述任意一个运算节点还包括：内存控制器，

所述任意一个运算节点的内存组件与所述任意一个运算节点的上一层运算节点和下一层运算节点的内存组件之间连接有数据通路，所述内存控制器连接所述数据通路，控制所述数据通路将输入指令的操作数从一个内存组件送往另一个内存组件。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述处理器包括：串行分解器、并行分解器以及译码器，所述内存控制器连接所述串行分解器和所述译码器；

其中，所述串行分解器用于根据所述任意一个运算节点的内存组件的容量、以及所述输入指令需要的内存容量，对所述输入指令进行串行分解得到串行子指令；

所述译码器用于对所述串行子指令进行译码处理后发送给所述并行分解器、并根据串行子指令向所述内存控制器发送控制信号，所述内存控制器根据所述控制信号从上一层运算节点的内存组件中加载执行所述串行子指令需要的操作数到所述任意一个运算节点的内存组件；

所述并行分解器用于根据所述下一层运算节点的数量，对译码后的串行子指令进行并行分解得到并行子指令，并将并行子指令发送给所述下一层运算节点，以使所述下一层运算节点根据所述操作数执行并行子指令。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，若所述输入指令需要的内存大于所述任意一个运算节点的内存组件的容量，则所述串行分解器根据所述输入指令需要的内存和所述任意一个运算节点的内存组件的容量，对所述输入指令进行串行分解得到串行子指令。

结合第一方面的第一、第二或第三种可能的实现方式，在第四种可能的实现方式中，所述任意一个运算节点的内存组件包括静态内存段以及动态内存段，若所述输入指令的操作数包括共用操作数以及其他操作数，则串行分解器根据所述共用操作数需要的内存容量与所述静态内存段的剩余容量之间的大小关系、以及所述其他操作数需要的内存容量与动态内存段的容量之间的大小关系，对所述输入指令进行串行分解得到串行子指令，

其中，所述共用操作数为所述串行子指令共同使用的操作数，其他操作数为所述输入指令的操作数中除了所述共用操作数以外的数据。

结合第一方面的第四种可能的实现方式，在第五种可能的实现方式中，分解得到的串行子指令包括头部指令和主体指令，所述译码器根据所述头部指令向所述内存控制器发送第一控制信号，所述内存控制器根据所述第一控制信号从上一层运算节点的内存组件中加载所述共用操作数到所述静态内存段；

所述译码器根据所述主体指令向所述内存控制器发送第二控制信号，所述内存控制器根据所述第二控制信号从上一层运算节点的内存组件中加载所述其他数据到所述动态内存段。

结合第一方面的第二种可能的实现方式，在第六种可能的实现方式中，并行分解得到的并行子指令对应的操作数之间不存在重叠的部分。

结合第一方面的第一至第六种可能的实现方式种的任意一种，在第七种可能的实现方式中，所述处理器还包括控制单元，所述任意一个运算节点还包括本地处理单元，

所述控制单元的输入端连接所述译码器的输出端，所述控制单元的输出端连接所述本地处理单元的输入端。

结合第一方面的第七种可能的实现方式，在第八种可能的实现方式中，若所述串行子指令存在输出依赖，所述控制单元根据所述串行子指令控制所述本地处理单元对所述下一层运算节点的运算结果进行归约处理得到所述输入指令的运算结果；

其中，所述串行子指令存在输出依赖是指，需要对所述串行子指令的运算结果进行归约处理才能得到所述输入指令的运算结果。

结合第一方面的第八种可能的实现方式，在第九种可能的实现方式中，若所述控制单元检测到对所述下一层运算节点的运算结果进行归约处理所需要的资源大于所述本地处理单元的资源上限，则所述控制单元根据所述串行子指令向所述并行分解器发送委托指令，

所述并行分解器根据所述委托指令控制所述下一层运算节点对所述下一层运算节点的运算结果进行归约处理得到所述输入指令的运算结果。

通过多层迭代的方式构建运算装置的层级架构，该运算装置的每个运算节点的结构是相同的，不同层的运算节点、不同规模的计算机上都具有相同的编程接口和指令集架构，能够执行相同格式的程序，层与层之间隐式装载数据，用户无需管理内存空间，简化用户编程的复杂性，且运算装置的扩展或者程序在不同运算装置之间的移植都非常容易。

根据本公开的第二方面提供了一种运算装置，所述运算装置包括多层运算节点，每一个运算节点包括处理器以及下一层运算节点；

对于任意一个运算节点，所述任意一个运算节点中的所述处理器控制所述下一层运算节点，以流水线的方式分多个阶段执行所述任意一个运算节点的输入指令对应的操作；

其中，所述多个阶段包括：操作执行EX，所述下一层运算节点用于以流水线的方式分所述多个阶段执行所述操作执行。

结合第二方面的第一种可能的实现方式中，所述任意一个运算节点还包括：本地处理单元、内存组件、内存控制器，所述处理器包括：流水线控制单元、译码器、归约控制单元，

所述译码器的输入端接收所述输入指令，所述译码器的输出端连接所述内存控制器的输入端，

所述任意一个运算节点的内存组件与所述任意一个运算节点的上一层运算节点和下一层运算节点的内存组件之间连接有数据通路，

所述内存控制器连接所述数据通路，控制所述数据通路将输入指令的操作数从一个内存组件送往另一个内存组件，

所述译码器的输出端还连接下一层运算节点的输入端以及所述归约控制单元的输入端，所述归约控制单元连接所述本地处理单元，

所述流水线控制单元连接所述译码器、所述归约控制单元、所述内存控制器。

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述任意一个运算节点还包括：流水线锁存器，所述译码器和所述内存控制器之间、所述内存控制器和所述下一层运算节点之间、下一层运算节点和所述本地处理单元之间、以及所述本地处理单元和所述内存控制器之间分别设置有流水线锁存器；

所述流水线控制器通过控制所述流水线锁存器同步所述多个阶段。

结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述多个阶段还包括：指令译码ID、数据加载LD、操作归约RD以及数据写回WB，所述流水线按照指令译码ID、数据加载LD、操作执行EX、操作归约RD以及数据写回WB的顺序传播，

所述译码器用于指令译码，所述内存控制器用于数据加载：将所述输入指令的操作数加载到所述内存组件，所述归约控制单元用于控制本地处理单元进行操作归约得到所述输入指令的运算结果，所述内存控制器还用于将所述运算结果写回到所述任意一个运算节点的上一层运算节点的内存组件中。

结合第二方面的第二种可能的实现方式，在第四种可能的实现方式中，所述流水线控制器在接收到所述译码器、内存控制器、下一层运算节点以及所述归约控制单元发送的第一反馈信号后，分别向各个所述流水线锁存器发送第一控制信号，各个所述流水线锁存器根据所述第一控制信号更新输出。

结合第二方面的第二种可能的实现方式，在第五种可能的实现方式中，DD在检测到串行子指令存在数据依赖，则DD停止从SQ中获取串行子指令。

结合第二方面的第一至第五种可能的实现方式中的任意一种，在第六种可能的实现方式中，所述处理器还包括串行分解器，所述串行分解器连接所述译码器的输入端，所述串行分解器用于对所述输入指令进行串行分解得到串行子指令；

所述处理器控制所述下一层运算节点，以流水线的方式分多个阶段执行所述串行子指令对应的操作。

结合第二方面的第六种可能的实现方式，在第七种可能的实现方式中，所述译码器在检测到当前译码的串行子指令的输入操作数与之前的多条串行子指令的输出操作数不存在重叠时，将当前译码的串行子指令译码后预加载到所述下一层运算节点上。

结合第二方面的第七种可能的实现方式，在第八种可能的实现方式中，所述处理器还包括并行分解器，所述并行分解器的输入端连接所述译码器的输出端，所述并行分解器的输出端连接所述下一层运算节点的输入端，

所述并行分解器用于根据所述下一层运算节点的数量，对译码后的串行子指令进行并行分解得到并行子指令，并将并行子指令发送给所述下一层运算节点。

结合第二方面的第六种可能的实现方式，在第九种可能的实现方式中，所述串行分解器和所述译码器之间设置有子指令队列SQ，所述子指令队列SQ用于暂存所述串行子指令。

根据本公开的第三方面提供了一种运算装置，所述运算装置包括多层运算节点，每一个运算节点包括内存组件、处理器以及下一层运算节点，所述内存组件包括静态内存段和循环内存段，

处理器用于对任意一个运算节点的输入指令进行分解得到多个子指令；

如果所述多个子指令之间存在共用操作数，则所述处理器在所述静态内存段中为所述共用操作数分配内存空间，在所述循环内存段中为所述多个子指令的其他操作数分配内存空间；

其中，所述共用操作数为：所述任意一个运算节点中的下一层运算节点执行所述多个子指令时都要使用的操作数，所述其他操作数为：所述多个子指令的操作数中除了所述共用操作数以外的操作数。

结合第三方面的第一种可能的实现方式中，所述处理器中设置有第一计数器，所述循环内存段包括多段子内存块，

所述处理器在所述循环内存段中为所述多个子指令的其他操作数分配内存空间，包括：

所述处理器从所述循环内存段中与所述第一计数器的计数值对应的子内存块内，为所述其他操作数分配内存空间。

结合第三方面的第二种可能的实现方式中，所述处理器中设置有第二计数器，

所述处理器在所述静态内存段中为所述共用操作数分配内存空间，包括：

所述处理器从所述静态内存段中的第一起始端开始为所述共用操作数分配内存空间，其中，所述第一起始端为与所述第二计数器的计数值对应的起始端。

结合第三方面的第二种可能的实现方式，在第三种可能的实现方式中，所述处理器包括串行分解器SD，

处理器用于对任意一个运算节点的输入指令进行分解得到多个子指令，包括：

所述SD根据所述输入指令需要的内存容量、所述静态内存段的容量以及所述循环内存段的容量，对所述输入指令进行串行分解得到串行子指令。

结合第三方面的第二种可能的实现方式，在第四种可能的实现方式中，所述处理器包括串行分解器SD，所述SD根据所述第二计数器的数值确定为所述共用操作数分配内存空间的第一起始端，

所述SD计算从所述第一起始端开始，所述静态内存段剩余的内存容量，所述SD根据所述静态内存段剩余的内存容量以及所述共用操作数需要的内存容量对所述输入指令进行第一串行分解得到第一串行子指令；

所述SD根据所述循环内存段的内存容量以及所述其他操作数需要的内存容量对所述第一串行子指令进行第二串行分解得到所述串行子指令。

结合第三方面的第一种可能的实现方式，在第五种可能的实现方式中，所述处理器还包括译码器DD，所述DD用于对所述多个子指令进行指令译码，

所述DD在对所述多个子指令进行指令译码过程中，从所述循环内存段中与所述第一计数器的计数值对应的子内存块内，为所述其他操作数分配内存空间。

结合第三方面的第三种可能的实现方式，在第六种可能的实现方式中，所述串行子指令包括头部指令和主体指令，所述头部指令用于加载所述共用操作数，所述头部指令记录了为所述共用操作数分配的内存空间的地址，所述主体指令用于加载所述其他操作数、以及对所述共用操作数和其他操作数进行计算。

结合第三方面的第三种或第六种可能的实现方式，在第七种可能的实现方式中，所述任意一个运算节点中的所述处理器控制所述下一层运算节点，以流水线的方式分多个阶段执行所述任意一个运算节点的串行子指令对应的操作；

所述多个阶段包括：指令译码ID、数据加载LD、操作执行EX、操作归约RD以及数据写回WB，所述流水线按照指令译码ID、数据加载LD、操作执行EX、操作归约RD以及数据写回WB的顺序传播。

结合第三方面的第七种可能的实现方式，在第八种可能的实现方式中，所述任意一个运算节点还包括：本地处理单元LFU、第二内存控制器DMA，所述处理器包括：译码器DD、归约控制单元RC，

所述译码器DD用于指令译码ID，

所述DMA用于数据加载LD：将所述输入指令的操作数加载到所述内存组件，

所述下一层运算节点用于根据操作数和译码后的指令进行操作执行EX得到执行结果，

所述归约控制单元RC用于控制所述LFU对所述执行结果进行操作归约RD得到所述输入指令的运算结果，

所述DMA还用于将所述运算结果写回到所述任意一个运算节点的上一层运算节点的内存组件中。

结合第三方面的第八种可能的实现方式，在第九种可能的实现方式中，所述循环内存段包括多段子内存块，

在所述流水线传播的过程中，所述DMA、下一层运算节点以及LFU按顺序循环使用所述多段子内存块。

结合第三方面的第九种可能的实现方式，在第十种可能的实现方式中，所述多段子内存块的内存容量大小相同。

根据本公开的第四方面提供了一种操作数的获取方法，所述方法包括：

在数据地址信息表中查找操作数是否已保存在本地内存组件上；

若操作数已保存在本地内存组件上，则根据操作数在外部存储空间上的存储地址和数据地址信息表确定所述操作数在本地内存组件上的存储地址；

将所述操作数在本地内存组件上的存储地址赋值给获取所述操作数的指令。

结合第四方面的第一种可能的实现方式中，所述方法还包括：

若操作数未保存在本地内存组件上，则根据所述操作数的存储地址生成加载操作数的控制信号，所述加载操作数的控制信号用于将所述操作数从所述操作数的存储地址加载到本地内存组件上。

结合第四方面的第二种可能的实现方式中，所述数据地址信息表记录有地址对应关系，所述地址对应关系包括：操作数在本地内存组件上的存储地址和操作数在外部存储空间上的存储地址的对应关系。

结合第四方面的第二种可能的实现方式，在第三种可能的实现方式中在数据地址信息表中查找操作数是否已保存在本地内存组件上，包括：

在所述地址对应关系中包含全部所述操作数在外部存储空间上的存储地址时，确定所述操作数已保存在本地内存组件上。

结合第四方面的第三种可能的实现方式，在第四种可能的实现方式中，根据操作数在外部存储空间上的存储地址和数据地址信息表确定所述操作数在本地内存组件上的存储地址，包括：

将所述地址对应关系中，与所述操作数在外部存储空间上的存储地址对应的本地内存组件上的存储地址，作为所述操作数在本地内存组件上的存储地址。

结合第四方面的第五种可能的实现方式中，所述方法还包括：

当从外部存储空间上加载操作数到本地内存组件时，根据加载的操作数在外部存储空间上的存储地址和在本地内存组件上的存储地址更新所述数据地址信息表。

结合第四方面的第五种可能的实现方式，在第六种可能的实现方式中，根据加载的操作数在外部存储空间上的存储地址和在本地内存组件上的存储地址更新所述数据地址信息表，包括：

在数据地址信息表中记录加载的操作数在外部存储空间上的存储地址和在本地内存组件上的存储地址的对应关系。

结合第四方面的第五种可能的实现方式，在第七种可能的实现方式中，所述本地内存组件包括：静态内存段，

当从外部存储空间上加载操作数到本地内存组件时，根据加载的操作数在外部存储空间上的存储地址和在本地内存组件上的存储地址更新所述数据地址信息表，包括：

当从外部存储空间上加载操作数到所述静态内存段时，根据第一计数器的计数值确定待更新的数据地址信息表；其中，所述第一计数器的计数值用于表示在静态内存段上的存储位置信息；

根据加载的操作数在外部存储空间上的存储地址和在静态内存段上的存储地址更新所述待更新数据地址信息表。

结合第四方面的第五种可能的实现方式，在第八种可能的实现方式中，所述本地内存组件还包括：循环内存段，所述循环内存段包括多个子内存块，

当从外部存储空间上加载操作数到循环内存段上的多个子内存块中的任一子内存块时，根据加载的操作数在外部存储空间上的存储地址和在本地内存组件上的存储地址更新与所述任一子内存块对应的数据地址信息表。

结合第四方面的第二种至第八种可能的实现方式中的任意一种，在第九种可能的实现方式中，所述方法应用于运算装置，所述运算装置包括：多层运算节点，每一个运算节点包括本地内存组件、处理器以及下一层运算节点，

所述外部存储空间为所述运算节点的上一层运算节点的内存组件或者下一层运算节点的内存组件。

根据本公开的第五方面，提供了一种运算装置，所述运算装置包括：多层运算节点，每一个运算节点包括本地内存组件、处理器以及下一层运算节点，

所述处理器要从当前运算节点的上一层运算节点的内存组件中加载操作数到本地内存组件时，在数据地址信息表中查找操作数是否已保存在本地内存组件上；

若操作数已保存在本地内存组件上，则处理器根据操作数在外部存储空间上的存储地址和数据地址信息表确定所述操作数在本地内存组件上的存储地址；并将所述操作数在本地内存组件上的存储地址赋值给获取所述操作数的指令。

结合第五方面的第一种可能的实现方式中，若操作数未保存在本地内存组件上，则处理器根据所述操作数的存储地址生成加载操作数的控制信号，所述加载操作数的控制信号用于将所述操作数从所述操作数的存储地址加载到本地内存组件上。

结合第五方面或者第五方面的第一种可能的实现方式，在第二种可能的实现方式中，所述数据地址信息表记录有地址对应关系，所述地址对应关系包括：操作数在本地内存组件上的存储地址和操作数在外部存储空间上的存储地址的对应关系。

结合第五方面的第二种可能的实现方式，在第三种可能的实现方式中，所述本地内存组件包括静态内存段和循环内存段，

结合第五方面的第三种可能的实现方式，在第四种可能的实现方式中，所述处理器内设置有与所述静态内存段对应的至少一个数据地址信息表，以及与所述循环内存段对应的多个数据地址信息表。

结合第五方面的第四种可能的实现方式，在第五种可能的实现方式中，所述处理器在静态内存段中为共用操作数分配内存空间之前，先在与所述静态内存段对应的至少一个数据地址信息表中查找共用操作数是否已保存在本地内存组件的静态内存段上，

若已经保存在了本地内存组件的静态内存段上，则根据共用操作数在上一层运算节点的内存组件上的存储地址和所述与所述静态内存段对应的至少一个数据地址信息表确定所述共用操作数在本地内存组件上的存储地址；

将所述共用操作数在本地内存组件上的存储地址赋值给加载共用操组数的指令。

结合第五方面的第四种可能的实现方式，在第六种可能的实现方式中，所述处理器在循环内存段上为其他操作数分配内存空间之前，先在所述与所述循环内存段对应的多个数据地址信息表中查找其他操作数是否已保存在本地内存组件的循环内存段上，

若已经保存在了本地内存组件的循环内存段上，则根据其他操作数在上一层运算节点的内存组件上的存储地址和所述与所述循环内存段对应的多个数据地址信息表确定所述其他操作数在本地内存组件上的存储地址，

将所述其他操作数在本地内存组件上的存储地址赋值给获取其他操作数的指令；

若未保存在本地内存组件的循环内存段上，则加载数据。

结合第五方面的第五种或第六种可能的实现方式，在第七种可能的实现方式中，当从上一层运算节点的内存组件上加载操作数到所述静态内存段时，所述处理器根据第一计数器的计数值确定待更新的数据地址信息表；其中，第一计数器的计数值用于确定所述静态内存段的两端对应的不同的数据地址信息表；

根据加载的操作数在上一层运算节点的内存组件上的存储地址和在静态内存段上的存储地址更新所述待更新数据地址信息表。

结合第五方面的第五种或第六种可能的实现方式，在第八种可能的实现方式中，当从外部存储空间上加载其他操作数到循环内存段上的多个子内存块中的任一子内存块时，处理器根据加载的其他操作数在外部存储空间上的存储地址和在本地内存组件上的存储地址更新与所述任一子内存块对应的数据地址信息表。

根据本公开的第六方面，提供了一种操作数的获取装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器用于执行指令时实现第四方面的任意一种可能的实现方式的方法。

根据本公开的第七方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现第四方面任意一种可能的实现方式的方法。

根据本公开的第八方面，提供了一种运算装置，所述运算装置包括：多层运算节点，任意一个运算节点包括本地内存组件、处理器、下一层运算节点、以及内存控制器，所述处理器连接下一层运算节点和内存控制器；

其中，所述处理器用于接收输入指令，并对输入指令进行分解得到多个子指令，将所述多个子指令发送给所述下一层运算节点；所述内存控制器用于从所述任意一个运算节点的上一层运算节点的内存组件加载多个子指令对应的第一操作数中的第二操作数到所述本地内存组件；所述下一层运算节点用于根据所述多个子指令的运算符和所述多个子指令的第二操作数执行所述多个子指令；

所述输入指令和多个子指令具有相同的格式。

结合第八方面的第一种可能的实现方式中，所述输入指令和所述多个子指令都包括：运算符、操作数参数，所述操作数参数是指向指令的操作数的参数，所述操作数参数包括全局参数和局部参数，全局参数是表示指令对应的第一操作数的大小的参数，局部参数是表示指令的第二操作数在所述第一操作数中的起始位置和第二操作数的大小的参数；

所述内存控制器用于根据所述操作数参数从所述任意一个运算节点的上一层运算节点的内存组件加载多个子指令对应的第一操作数中的第二操作数到所述本地内存组件。

结合第八方面或者第八方面的第一种可能的实现方式，在第二种可能的实现方式中，

所述本地内存组件与所述任意一个运算节点的上一层运算节点和下一层运算节点的内存组件之间连接有数据通络，所述内存控制器连接所述数据通路。

结合第八方面的第二种可能的实现方式，在第三种可能的实现方式中，

所述处理器还用于根据多个子指令生成对应的多个控制信号，并将多个控制信号发送给内存控制器；

所述内存控制器根据每个控制信号控制所述数据通路，从上一层运算节点的内存组件中加载该控制信号对应的子指令的操作数到本地内存组件。

结合第八方面的第三种可能的实现方式，在第四种可能的实现方式中，

所述内存控制器包括第一内存控制器和第二内存控制器，第一内存控制器通过第二内存控制器连接数据通路，第一内存控制器还用于根据控制信号生成加载指令，将加载指令发送给第二内存控制器，第二内存控制器用于根据加载指令控制数据通路。

结合第八方面的第四种可能的实现方式，在第五种可能的实现方式中，第一内存控制器根据控制信号确定基地址、起始偏移量、加载数据的数量、跳转的偏移量，根据基地址、起始偏移量、加载数据的数量、跳转的偏移量数生成加载指令；

其中，基地址为操作数在内存组件中存储的起始地址，起始偏移量为第二操作数的起始位置相对于第一操作数的起始位置的偏移量，加载数据的数量为从起始偏移量开始加载的操作数的个数，跳转的偏移量为下一个读取数据的起始偏移量相对于上一个读取数据的起始偏移量的偏移量。

结合第八方面的第五种可能的实现方式，在第六种可能的实现方式中，

所述处理器包括串行分解器、译码器以及并行分解器，其中，串行分解器的输入端连接上一层运算节点的处理器中的并行分解器的输出端，串行分解器的输出端连接译码器的输入端，译码器的输出端连接并行分解器的输入端，并行分解器的输出端连接下一层运算节点的输入端。

结合第八方面的第六种可能的实现方式，在第七种可能的实现方式中，串行分解器用于根据所述任意一个运算节点的内存组件的容量、以及所述输入指令需要的内存容量，对所述输入指令进行串行分解得到串行子指令；

译码器用于对所述串行子指令进行译码处理后发送给并行分解器、并根据串行子指令向所述内存控制器发送控制信号，所述内存控制器根据所述控制信号从上一层运算节点的内存组件中加载执行所述串行子指令需要的操作数到所述任意一个运算节点的内存组件；

并行分解器用于根据所述下一层运算节点的数量，对译码后的串行子指令进行并行分解得到并行子指令，并将并行子指令发送给所述下一层运算节点，以使所述下一层运算节点根据所述操作数执行并行子指令。

结合第八方面的第七种可能的实现方式，在第八种可能的实现方式中，

所述任意一个运算节点的内存组件包括静态内存段以及动态内存段，

分解得到的串行子指令包括头部指令和主体指令，译码器还用于根据所述头部指令向所述内存控制器发送第一控制信号，所述内存控制器根据所述第一控制信号从上一层运算节点的内存组件中加载共用操作数到所述静态内存段；

译码器还用于根据所述主体指令向所述内存控制器发送第二控制信号，所述内存控制器根据所述第二控制信号从上一层运算节点的内存组件中加载其他数据到所述动态内存段。

结合第八方面的第五种可能的实现方式，在第九种可能的实现方式中，

所述第一内存控制器根据局部参数中的起始位置确定起始偏移量，根据局部参数中的大小确定加载数据的数量，根据全部参数或局部参数确定跳转的偏移量。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出2012年-2018年期间机器学习计算机的能效增长的曲线图。

图2示出了传统的机器学习计算机的组织形式的一个示例。

图3示出根据本公开一实施例的运算装置的框图。

图4a和图4b分别示出根据本公开一实施例的运算节点的框图。

图5示出根据本公开一实施方式的串行分解的过程的流程图。

图6示出根据本公开一示例的流水线的示意图。

图7示出根据本公开一示例的运算节点的框图。

图8示出根据本公开一示例的运算节点以及流水线运行过程的示意图。

图9示出根据本公开一实施例的操作数的示意图。

图10a示出根据本公开一实施例的运算节点的框图。

图10b示出根据本公开一实施例的流水线的示例。

图11示出根据本公开一实施例的内存组件的划分的示例的示意图。

图12示出根据本公开一实施例的内存组件的划分的示例的示意图。

图13示出根据本公开一实施例的内存组件的示意图。

图14示出根据本公开一实施例的静态内存段的内存空间分配方法的示意图。

图15示出根据本公开一实施例的静态内存段的内存空间分配方法的示意图。

图16示出根据本公开一实施例的应用情景示意图。

图17示出根据本公开一实施例的操作数的获取方法的流程图。

图18示出根据本公开一实施例的操作数的获取方法的流程图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

为了便于更好的理解本申请所描述的技术方案，下面先解释本申请实施例所涉及的技术术语：

计算原语：机器学习为计算及访存密集型技术，在不同层次上是高度并行的，本公开将机器学习分解为基于矩阵和向量的运算，例如，将向量乘法矩阵和矩阵乘法向量等操作聚合为矩阵相乘，将矩阵加/减矩阵、矩阵乘法标量和向量基本算数运算等操作聚合为逐元素运算，等等。通过将机器学习进行分解、聚合可以得到七个主要的计算原语，包括：内积(IP，inner production)，卷积(CONV)，池化(POOL)，矩阵相乘(MMM，matrix multiplying matrix)，逐元素运算(ELTW，element-wise operation)，排序(SORT)和计数(COUNT)。以上计算原语概括了机器学习的主要特征，并且这些计算原语都是可以分解的运算。

可以分解的运算：如果一个运算g(·)满足以下公式(1)

f(X)＝g(f(X _A),f(X _B),...) (1)

则带有操作数X的f(·)运算称为可以分解的运算，其中，f(·)是目标算子，g(·)是检索算子，X表示f(·)所有的操作数，X _A、X _B，...表示操作数X的子集，其中，X可以为张量数据。

举例来说，如果f(X)＝X×k，其中，k为标量，那么f(X)可以分解为：

f(X)＝[X _A，X _B，...]×k＝g(f(X _A),f(X _B),…)，

其中，运算g(·)就是根据分解X的方式，将f(X _A)、f(X _B)…的运算结果合并成矩阵或向量的形式。

运算的分类：对于上文所述的可以分解的运算，基于分解后的操作数X _A、X _B…和X之间的关系，可以将运算分为三类：独立运算、输入依赖运算和输出依赖运算。

独立运算：可以是指，分解后的操作数X _A、X _B...彼此独立且不重合，每个子集X _A、X _B...可以做局部运算，且只需要组合每个子集做局部运算的结果即可得到最终的运算结果。以向量加法运算作为示例来解释说明独立运算，首先可以将X分成两个操作数(即两个输入向量x,y)用于加法运算，由于x,y可以分为两个子集(x _A，x _B)和(y _A，y _B)，所以两个子集可以独立完成局部向量加法运算，即z _A＝x _A+y _A和z _B＝x _B+y _B，最终的运算结果只需要组合每个局部运算的结果即可，即z＝[z _A,z _B]。

输入依赖运算：可以是指，分解后的操作数X _A、X _B...有重合，分解后的局部运算的操作数之间有重合，即有输入冗余。以一维卷积为示例来解释说明输入依赖运算，使用x、y表示两个操作数，并且 x＝[x _A，x _B]，z＝[z _A，z _B]＝x*y＝[x _A，x _B]*y，运算仍分成两部分，然而这两部分局部运算的操作数有重叠，还额外需要部分x _A和部分x _B(分别为x _a,x _b)，即z _A＝[x _A,x _b]*y、z _B＝[x _a,x _B]*y，每一部分的局部运算可以独立进行，而最终的运算结果只需要组合每个局部运算的结果即可，即z＝[z _A,z _B]。

输出依赖运算：可以是指，最终的运算结果需要对分解后每个局部运算的结果进行归约处理后得到。以内积运算为示例来解释说明输出依赖运算，内积运算(z＝x·y)可以分成两部分局部运算，其中，每个部分的局部运算仍然执行内积运算z _A＝x _A·y _A和z _B＝x _B·y _B，但要获得最终的运算结果，则需要对每个局部运算的结果进行求和，即z＝z _A+z _B。因此，g(·)为求和操作，g(·)＝sum(·)。需要注意的是，有些运算在分解后既可以是输入依赖，也可以是输出依赖，具体的依赖性与分解方式有关。

在一种可能的实现方式中，可以将上述计算原语划分为三类，但是，需要注意的是，不同的分解方式会导致依赖性的不同，具体可以参见如下表1所示。

表1计算原语分析

计算原语	分解方式	依赖性	g(·)	数据冗余
IP	长度	输出依赖	相加
CONV	特征	输出依赖	相加
CONV	N维度(批量)	输入依赖		权值
CONV	H或者W维度(空间)	输入依赖		权值，重合
POOL	特征	独立
POOL	H或者W维度(空间)	输入依赖		重合
MMM	左侧，垂直	输出依赖	相加
MMM	右侧，垂直	输入依赖		左矩阵
ELTW	任意	独立
SORT	任意	输出依赖	合并
COUNT	任意	输出依赖	相加

其中，IP的分解方式中的长度可以是指对向量的长度方向进行分解。卷积操作的操作数可以为采用NHWC(batch,height,width,channels)表示的张量数据，在特征方向分解可以是指在C维度方向进行分解，POOL操作对操作数在特征方向分解也是同样的含义，卷积操作在N维度方向分解存在输入依赖，输入冗余为权值，也就是卷积核，在空间上进行分解也存在输入依赖，输入冗余除了权值还包括分解后的两个张量数据的重合。MMM的分解方式中的左侧、右侧是指对MMM的左侧操作数或者右侧操作数进行分解，垂直可以是指在矩阵的垂直方向进行分解。ELTW操作对操作数的任意分解方式都是独立的，SORT和COUNT操作对操作数的任意分解方式都存在输出依赖。

根据上述分析可知，机器学习的计算原语都是可以分解的运算，采用本公开的运算装置进行机器学习技术的运算时，可以根据实际的需求对计算原语进行分解后运算。

输入指令：可以是描述了机器学习的操作的指令，机器学习的操作可以由上文中的计算原语或者由计算原语组成，输入指令可以包括操作数和操作符等。

共用操作数：一个运算被分解后的多个子运算之间共同使用的操作数为共用操作数，或者说，一条输入指令被分解为多个子指令后，多个子指令共同使用的操作数。

机器学习广泛应用于图像识别、语音识别、面部认知、视频分析、广告推荐和游戏等领域。近年来，许多不同规模的专用机器学习计算机已经部署在了嵌入式设备、服务器和数据中心中。目前，大多数机器学习计算机的架构仍然关注优化性能和能效，如图1所示为2012年-2018年期间，机器学习加速器使得机器学习计算机的能效以惊人的速度增长。

图2示出了传统的机器学习计算机的组织形式的一个示例。传统的机器学习计算机往往有许多异构并行组件以分层方式组织，例如图2中所示的CPU(Central Processing Unit，中央处理器)和GPU(Graphics Processing Unit，图形处理器)的异构组织形式，包含2个CPU和8个GPU，GPU作为运算单元。各层具体结构是不同的，存储方式和控制方式都有区别，导致每一层可能有不同的编程接口，编程复杂，代码量很大。对于图2所示的示例，编程多个GPU需要基于MPI(Message Passing Interface，消息通信接口)或NCCL(Nvidia Collective multi-GPU Communication Library)的手动工作，编程单个GPU芯片需要使用CUDA(Compute Unified Device Architecture，统一计算设备架构)语言来操纵数千个GPU线程；为CPU编程需要通过C/C++和并行API(Application Programming Interface，应用程序编程接口)编写包含数十条CPU线程的并行程序。

另外，单个GPU内的软件堆栈也很复杂，其中，软件堆栈包括CUDA PTX(Parallel Thread Execution)和微代码，CUDA PTX用于编程GPU中的网格/块/线程，微代码用于编程流处理器。

由于以上编程复杂以及软件堆栈开发难的问题，导致现有的机器学习计算机在扩展和程序移植上存在很大的困难。

为了解决上述技术问题，本公开提供了一种运算装置，该运算装置在每一层上提供给用户的编程接口和指令集架构是相同的：不同层的运算节点、不同规模的计算机上都具有相同的编程接口和指令集架构，能够执行相同格式的程序，操作数存储于最上层，其它层隐式装载数据，用户无需管理内存空间，简化用户编程的复杂性，且运算装置的扩展或者程序在不同运算装置之间的移植都非常容易。

本公开一实施方式的运算装置可以包括：多层(至少两层)运算节点，每一个运算节点包括内存组件、处理器以及下一层运算节点。

图3示出根据本公开一实施例的运算装置的框图。如图3所示，运算装置的第一层可以为一个运算节点，该运算节点可以包括处理器、内存组件以及下一层(第二层)运算节点，第二层运算节点可以有多个，具体的数量本公开不作限定。如图3所示，第二层每个运算节点内也可以包括：处理器、内存组件以及下一层(第三层)运算节点。同样的，第i层每个运算节点内可以包括：处理器、内存组件以及第i+1层运算节点，其中，i为自然数。

其中，处理器可以以硬件的形式实现，例如可以是数字电路，模拟电路等等；硬件结构的物理实现包括但不局限于晶体管，忆阻器等等，处理器也可以通过软件的方式实现，本公开对此不作限定。内存组件可以为随机存储器(RAM)，只读存储器(ROM)，以及高速缓存(CACHE)等，本公开内存组件的具体形式不作限定。

需要说明的是，尽管附图3中只画出了第一层运算节点中包括的第二层运算节点中的一个运算节点的展开结构(图3示出的第二层)，可以理解的是图3仅仅是示意图，其他第二层运算节点的展开结构中同样包括处理器、内存组件以及第三层运算节点，图3为了简化没有示出其他第二层运算节点的展开结构，第i层运算节点同样也是如此。其中，不同的第i层运算节点中包括的第i+1层运算节点的个数可能相同，也可能不同，本公开对此不作限定。

采用本公开的运算装置，在对机器学习指令进行处理时，对于任意一个运算节点，所述任意一个运算节点中的处理器可以用于对所述任意一个运算节点的输入指令进行分解得到并行子指令，并将并行子指令发送给所述任意一个运算节点的下一层运算节点；所述任意一个运算节点从上一层运算节点的内存组件中加载执行所述并行子指令需要的操作数到所述任意一个运算节点的内存组件，以使所述任意一个运算节点的下一层运算节点根据所述操作数并行执行所述并行子指令。

其中，分解得到的并行子指令是可以并行执行的，每个运算节点可以包括一个或多个下一层运算节点，如果包括多个下一层运算节点，多个下一层运算节点可以独立运行，在一种可能的实现方式中，处理器可以根据下一层运算节点的数量对输入指令进行分解得到并行子指令。

对于可以分解的运算，在采用本公开的运算装置执行运算对应的输入指令时，可以由处理器将运算对应的输入指令和操作数分解后，将分解后的并行子指令以及分解后的操作数分别发送给下一层的运算节点，由下一层的运算节点并行执行。

在一种可能的实现方式中，处理器对输入指令进行分解可以包括三个阶段：串行分解阶段、(降级)译码阶段和并行分解阶段，因此，处理器可以包括串行分解器、译码器以及并行分解器。

其中，所述串行分解器用于根据所述任意一个运算节点的内存组件的容量、以及所述输入指令需要的内存容量，对所述输入指令进行串行分解得到串行子指令。串行分解可以是指将输入指令分解成多个可以按顺序串行执行的指令。

在一种可能的实现方式中，若所述输入指令需要的内存大于所述任意一个运算节点的内存组件的容量，则所述串行分解器根据所述输入指令需要的内存和所述任意一个运算节点的内存组件的容量，对所述输入指令进行串行分解得到串行子指令；若所述输入指令需要的内存小于或等于所述任意一个运算节点的内存组件的容量，则将所述输入指令发送给译码器，由译码器直接对输入指令进行译码处理后发送给并行分解器。

对于分解后的串行子指令，所述译码器用于对串行子指令进行译码处理后发送给所述并行分解器。所述任意一个运算节点可以从上一层运算节点的内存组件中加载执行所述串行子指令需要的操作数到所述任意一个运算节点的内存组件。在一种可能的实现方式中，所述任意一个运算节点还包括：内存控制器，所述内存控制器连接所述译码器。所述译码器可以根据串行子指令向所述内存控制器发送控制信号，所述内存控制器可以根据所述控制信号从上一层运算节点的内存组件中加载执行所述串行子指令需要的操作数到所述任意一个运算节点的内存组件。内存控制器可以通过硬件电路或者软件程序的方式实现，本公开对此不作限定。

图4a和图4b分别示出根据本公开一实施例的运算节点的框图。如图4a所示，所述处理器可以包括串行分解器SD(Sequential decomposer)、译码器DD(Demotion Decoder，这里的降级可以是指从上一层到下一层运算节点)以及并行分解器PD(Parallel decomposer)。其中，SD的输入端可以连接上一层运算节点的处理器中的PD的输出端，SD的输出端可以连接DD的输入端，DD的输出端可以连接PD的输入端，PD的输出端可以连接下一层运算节点的输入端。

在一种可能的实现方式中，任意一个运算节点的内存组件与所述任意一个运算节点的上一层运算节点和下一层运算节点的内存组件之间连接有数据通路，如图4a所示，内存组件i连接内存组件i-1,内存组件i连接下一层运算节点可以是指连接下一层运算节点的内存组件i+1。内存控制器可以连接数据通路，内存控制器可以根据运算节点中的其他组件发送的控制信号控制所述数据通路将输入指令的操作数从一个内存组件送往另一个内存组件。例如，内存控制器可以根据DD发送的控制信号将输入指令的操作数从上一层运算节点的内存组件加载到本地内存组件，或者，也可以将输入指令的运算结果从本地内存组件写回到上一层运算节点的内存组件。

在一种可能的实现方式中，如图4b所示，SD的输入端可以连接指令队列IQ(Instruction Queue)，也就是说，处理器可以先将上一层运算节点的输出指令作为本层运算节点的输入指令加载到指令队列IQ，本层运算节点可以是指处理器所属的运算节点，SD从IQ中获取输入指令，考虑到硬件的限制，SD可以将输入指令分解为多个可以串行执行的串行子指令。通过设置IQ作为SD与上一层运算节点之间的缓冲，可以省去SD与上一层运算节点之间严格的同步执行关系。IQ可以简化电路设计，同时提高执行效率，例如，允许SD和上一层运算节点之间独自异步执行，减少SD等待上一层运算节点发送输入指令的时间等。

其中，输入指令可以是描述了机器学习的操作的指令，机器学习的操作可以由上文中的计算原语组成，输入指令可以包括操作数和操作符等。对输入指令的串行分解可以包括对输入指令的操作数的分解以及对输入指令的分解。在进行串行分解时，为了更有效的利用运算节点的资源，串行分解得到的串行子指令将具有尽可能大的分解粒度，串行分解得到的串行子指令的分解粒度由运算节点的资源以及输入指令需要的资源决定，例如，运算节点的资源可以为运算节点的内存组件的容量，输入指令需要的资源可以是指存储输入指令的操作数需要的内存容量。这里的分解粒度可以指分解后的操作数的维度。

输入指令需要的内存容量可以根据存储输入指令的操作数需要的内存容量、以及存储操作符对操作数进行处理后的中间结果需要的内存容量等确定，在确定输入指令需要的内存容量后，可以判断本层运算节点的内存组件的容量是否满足输入指令需要的内存容量，如果不满足，则可以根据本层运算节点的内存组件的容量以及输入指令需要的内存容量对输入指令进行串行分解得到串行子指令。

以矩阵相乘运算作为示例说明SD的功能，假设输入指令为对矩阵X和Y相乘，SD可以根据矩阵X和矩阵Y的大小确定输入指令需要的内存容量，可以将输入指令需要的内存容量与本层运算节点的内存组件的容量进行比较，如果输入指令需要的内存容量大于本层运算节点的内存组件的容量，则需要对输入指令进行串行分解。具体的过程可以为，对操作数进行分解，从而将输入指令分为多个串行子指令，该多个串行子指令可以串行执行，例如，可以对矩阵X或者矩阵Y进行分解，或者对矩阵X和矩阵Y都进行分解，以对矩阵X进行分解为例，可以将输入指令串行分解为多个矩阵相乘的串行子指令以及求和的串行子指令，在串行执行完多个矩阵相乘的串行子指令后，根据多个矩阵相乘的串行子指令的运算结果以及求和的串行子指令进行求和得到输入指令的运算结果。需要说明的是，上述对于矩阵相乘的串行分解方式仅仅是本公开为了说明SD的功能的一个示例，不以任何方式限制本公开。

在一种可能的实现方式中，串行分解器根据所述任意一个运算节点的内存组件的容量、以及所述输入指令需要的内存容量，对所述输入指令进行串行分解得到串行子指令，具体可以包括：确定输入指令的操作数的维度的分解优先级，按照分解优先级的顺序依次选择对操作数分解的维度并以二分法方式确定最大分解粒度，直到分解后的操作数需要的内存容量小于或等于本层运算节点的内存组件的容量。

在一种可能的实现方式中，为了提高分解的效率，对于任一选择的对操作数分解的维度，在该维度方向上以二分法方式确定最大分解粒度之前，可以先确定在该维度方向上分解为原子大小之后的操作数需要的内存容量与本层运算节点的内存组件的容量之间的大小关系：如果在该维度方向上分解为原子大小之后的操作数需要的内存容量<本层运算节点的内存组件的容量，则可以在该维度方向上以二分法方式拆分操作数；如果在该维度方向上分解为原子大小之后的操作数需要的内存容量>本层运算节点的内存组件的容量，则可以按照分解优先级在下一个维度方向上重复以上过程；如果在该维度方向上分解为原子大小之后的操作数需要的内存容量＝本层运算节点的内存组件的容量，则可以直接确定分解的维度，结束分解操作数的过程。其中，分解为原子大小可以指分解粒度为1。

图5示出根据本公开一实施方式的串行分解的过程的流程图。如图5所示：(1)在步骤S50中，可以先确定输入指令的操作数的维度的分解优先级，在一种可能的实现方式中，可以按照操作数的维度的大小确定分解优先级，维度越大分解优先级越高，优先分解操作数的最大维度，比如说，操作数X为N维张量，维度分别为t1、t2、…ti、…tN，其中，t1<t2<…ti…<tN，其中，i表示不同的维度，i为正整数且i≤N，那么在确定对操作数X的维度的分解优先级时，tN维度最大，分解优先级最高，其次为tN-1…ti…t2、t1。(2)按照分解优先级的顺序选择对操作数分解的维度，将i初始化为N，此时，在步骤S51中，可以判断i＝N>0；在步骤S52中，在tN方向上确定分解粒度为1，在步骤S53中，判断在tN方向分解为1后的操作数需要的内存容量与本层运算节点的内存组件的容量的大小关系，若小于，则在tN维度方向上以二分法方式分解操作数，具体过程可以为：步骤S54，确定最小分解粒度min＝0，最大分解粒度max＝tN；步骤S55，确定在tN方向上分解粒度为[(max-min)/2]；步骤S56，判断在tN方向上分解为[(max-min)/2]的操作数需要的内存容量与本层运算节点的内存组件的容量的大小关系，若分解为[(max-min)/2]的操作数需要的内存容量＝本层运算节点的内存组件的容量，则可以结束分解的过程，在tN方向上按照分解粒度[(max-min)/2]对操作数进行分解；若分解为[(max-min)/2]的操作数需要的内存容量<本层运算节点的内存组件的容量，则步骤S57设置最小分解粒度min＝[(max-min)/2]，若分解为[(max-min)/2]的操作数需要的内存容量>本层运算节点的内存组件的容量，则步骤S58设置最大分解粒度max＝[(max-min)/2]；步骤S59，判断此时最大分解粒度与最小分解粒度的差值是否为1，如果为1，则执行步骤S60，在tN方向上确定分解粒度为min，若不为1，则返回步骤S55继续再确定在tN方向上分解粒度为[(max-min)/2]，重复以上S55-S60的过程。(3)回到刚才的步骤S51，若在tN方向分解为1后的操作数需要的内存容量等于本层运算节点的内存组件的容量，则可以确定分解的维度，结束分解操作数的过程；若在tN方向分解为1维后的操作数需要的内存容量大于本层运算节点的内存组件的容量，则令i＝i-1，并返回到步骤S51，判断此时i＝N-1>0，则执行步骤S52，重复上述过程，直到确定出分解后的操作数需要的内存容量满足本层运算节点的内存组件的容量。

在分解完操作数后，可以根据分解的操作数对输入指令进行分解，具体可以包括：将输入指令分解为多个串行子指令，多个串行子指令中包括负责分解后的各子集的操作数的运算的串行子指令，若串行分解后存在输出依赖，则多个串行子指令中还可以包括归约指令。

需要说明的是，图5仅仅是对操作数分解的过程的一个示例，不以任何方式限制本公开。可以理解的是，还可以通过其他方式确定分解粒度，比如，分解优先级可以通过其他方式选择，对维度分解的方式也不限于二分法，只要能选择尽可能大的分解粒度即可。

如图4b所示，在一种可能的实现方式中，本公开的SD的输出端和DD的输入端之间还可以连接有子指令队列SQ(sub-level instruction Queue)，SD的输出端连接SQ的输入端，SQ的输出端连接DD的输入端。SQ作为SD与DD之间的缓冲，可以省去SD与DD之间严格的同步执行关系。SQ可以简化电路设计，同时提高执行效率，例如，允许SD独自异步执行，减少DD等待SD对输入指令进行串行分解的时间等。

SD可以将串行分解后的串行子指令输出到SQ中，DD从SQ中获取串行子指令，DD可以根据串行子指令对应的操作数的存储需求为串行子指令分配本层运算节点的内存组件上的内存空间，并将分配的内存空间的地址(本地地址)绑定到串行子指令中获取操作数的指令上，从而实现译码处理。DD还可以根据串行子指令向内存控制器发送控制信号，内存控制器可以根据控制信号将串行子指令对应的操作数加载到为其分配的内存空间中，也就是说根据串行子指令中记载的输入指令对应的操作数的地址从上一层运算节点的内存组件中查找到串行子指令对应的操作数的存储位置，并读取操作数，然后根据本地地址写入到本层运算节点的内存组件中。

如图4b所示，DD对串行子指令进行译码处理后发送给PD，PD可以根据PD连接的下一层运算节点的数量对译码处理后的串行子指令进行并行分解，并行分解可以是指分解后的并行子指令可以并行执行。举例来说，假设串行子指令为对向量A和B相加，其中，A＝(A1,A2…Aj,…An)，B＝(B1,B2…Bj,…Bn)，其中，n表示向量A和B中元素的个数，n为正整数，j表示元素的序号，j为正整数且j≤n，那么PD可以根据下一层运算节点的数量将串行子指令并行分解为多个并行子指令，每个并行子指令负责处理向量中部分数据的相加操作，例如，假设n＝4，PD连接了4个下一层运算节点，则PD可以对串行子指令并行分解得到4个并行子指令，4个并行子指令分别为对A1和B1、A2和B2、A3和B3以及A4和B4相加，PD可以将4个并行子指令发送给所述下一层运算节点。需要说明的是，以上举例仅仅是为了说明并行分解的示例，不以任何方式限制本公开。

在一种可能的实现方式中，PD在进行并行分解时，可以解除串行子指令的输入依赖，也就是说，并行分解得到的并行子指令对应的操作数之间不存在重叠的部分。例如，根据表1所示，可以选择分解的维度以解除输入依赖，这样可以尽量避免输入冗余，节省内存空间。

在另一种可能的实现方式中，所述任意一个运算节点的内存组件包括静态内存段以及动态内存段，若所述输入指令的操作数包括共用操作数以及其他操作数，则串行分解器根据所述共用操作数需要的内存容量与所述静态内存段的剩余容量之间的大小关系、以及所述其他操作数需要的内存容量与动态内存段的容量之间的大小关系，对所述输入指令进行串行分解得到串行子指令。

其中，所述共用操作数为所述串行子指令共同使用的操作数，其他操作数为所述输入指令的操作数中除了所述共用操作数以外的数据，静态内存段的剩余容量可以是指静态内存段中未被使用的容量。

处理器中的SD、DD和PD是分开的，内存分配在时间上可以很好地错开。具体来说，PD总是在DD之后分配内存空间，但分配的内存空间释放得更早，DD总是在SD之后分配内存空间，但分配的内存空间同样释放得更早。而用于SD进行串行分解的内存空间可能会在多个串行子指令中用到，因此，为SD设置了静态内存段，而其他部分共用内存组件中除了静态内存段外的内存(动态内存段)。

举例来说，对于机器学习中的一些运算，这些运算被分解后的几部分运算之间会共用一部分操作数，对于这部分操作数，本公开称作共用操作数。以矩阵相乘运算作为示例，假设输入指令为对矩阵X和Y相乘，如果仅仅对矩阵X进行分解，那么对输入指令进行串行分解得到的串行子指令需要共同使用操作数Y，操作数Y为共用操作数。对于共用操作数，本公开的串行分解器SD可以在进行串行分解时生成一条提示性指令(“装载”)，并在提示性指令中指明将共用操作数装载到静态内存段中，DD将提示性指令作为一条只需要装载数据至静态内存段、而无需执行、规约或写回的普通串行子指令处理，DD根据提示性指令向内存控制器发送第一控制信号以将共用操作数加载到静态内存段，以避免频繁存取数据、节约带宽资源。对于其他操作数，DD可以生成第二控制信号，DD可以将生成的第二控制信号发送给内存控制器，由内存控制器根据控制信号将其他操作数加载到动态内存段中。

因此，串行分解器可以根据所述共用操作数需要的内存容量与所述静态内存段的剩余容量之间的大小关系、以及所述其他操作数需要的内存容量与动态内存段的容量之间的大小关系，对所述输入指令进行串行分解得到串行子指令。

如果共用操作数需要的内存容量小于或等于所述静态内存段的剩余容量，且其他操作数需要的内存容量小于或等于动态内存段的容量，则串行分解器可以将所述输入指令发送给译码器，由译码器直接对输入指令进行译码处理后发送给并行分解器。

如果共用操作数需要的内存容量大于所述静态内存段的剩余容量，或者，其他操作数需要的内存容量大于动态内存段的容量，则需要对输入指令进行串行分解。

如果其他操作数需要的内存容量大于动态内存段的容量，而共用操作数需要的内存容量小于或等于所述静态内存段的剩余容量，则串行分解器可以根据动态内存段的容量对其他操作数进行分解，并对输入指令进行串行分解。其中，根据动态内存段的容量对其他操作数进行拆分，并对输入指令进行串行分解的具体过程可以为：确定对其他操作数的维度的分解优先级，按照分解优先级的顺序依次选择对其他操作数分解的维度，并以二分法方式确定最大分解粒度，直到分解后的其他操作数需要的内存容量小于动态内存段的容量。具体的过程，可以参见图5以及上文的相关描述。

如果共用操作数需要的内存容量大于所述静态内存段的剩余容量，其他操作数需要的内存容量小于或等于动态内存段的容量，则串行分解器可以根据静态内存段的剩余容量对共用操作数进行分解，并对输入指令进行串行分解。具体的分解方式同样可以参见图5的过程。

在一种可能的实现方式中，对于存在共用操作数的输入指令，分解得到的串行子指令可以包括头部指令和主体指令，所述译码器可以根据所述头部指令向内存控制器发送控制信号，以从上一层运算节点的内存组件中加载所述共用操作数到所述静态内存段；所述译码器根据所述主体指令向内存控制器发送控制信号，以从上一层运算节点的内存组件中加载所述其他数据到所述动态内存段。

在一种可能的实现方式中，如图4b所示，所述处理器还可以包括控制单元RC(Reduction Controller，也叫归约控制器)，所述任意一个运算节点还可以包括本地处理单元(LFU，local functional units，图4b中的处理单元)，所述控制单元RC的输入端连接所述译码器DD的输出端，所述控制单元RC的输出端连接所述本地处理单元LFU的输入端，本地处理单元LFU连接内存组件。其中，所述本地处理单元LFU主要用于对存在输出依赖的串行子指令的运算结果进行归约处理，RC可以用于向LFU发送归约指令。LFU都可以通过硬件电路或者软件程序的方式实现，本公开对此不作限定。

在一种可能的实现方式中，若所述串行子指令存在输出依赖，所述控制单元RC根据所述串行子指令控制所述本地处理单元对所述下一层运算节点的运算结果进行归约处理得到所述输入指令的运算结果；其中，所述串行子指令存在输出依赖是指，需要对所述串行子指令的运算结果进行归约处理才能得到所述输入指令的运算结果。

DD会发送串行子指令到RC，RC可以对串行子指令的输出依赖的情况进行检查，若串行子指令存在输出依赖，由RC根据串行子指令向LFU发送归约指令，以使得LFU对下一层运算节点的运算结果进行归约处理得到所述输入指令的运算结果。具体的过程可以为，下一层运算节点(中的内存控制器)可以将对并行子指令的运算结果写回到本层运算节点的内存组件中，LFU可以从本层运算节点的内存组件中读取多个串行子指令的运算结果，该多个串行子指令可以是由同一条输入指令串行分解得到的，LFU对多个串行子指令的运算结果进行归约处理可以得到对应的输入指令的运算结果，将运算结果存储在内存组件中，处理器在确定本层输入指令执行完成后，可以向内存控制器发送写回信号，内存控制器可以根据写回信号将运算结果写回到上一层运算节点的内存组件中，直到第一层运算节点完成所有指令的运算。

在一种可能的实现方式中，若所述控制单元RC检测到对所述下一层运算节点的运算结果进行归约处理所需要的资源大于所述本地处理单元的资源上限，则所述控制单元RC根据所述串行子指令向所述并行分解器发送委托指令，所述并行分解器根据所述委托指令控制所述下一层运算节点对所述下一层运算节点的运算结果进行归约处理得到所述输入指令的运算结果。

RC可以根据串行子指令评估进行归约处理需要的资源(例如，计算资源等)，本地处理单元可以具有预设的资源上限，因此，RC可以判断对所述下一层运算节点的运算结果进行归约处理所需要的资源是否大于本地处理单元的资源上限，若大于，那么LFU的处理速度可能会对整个运算节点的性能产生很大的影响，因此，RC可以根据串行子指令向PD发送委托指令，PD可以根据委托指令控制下一层运算节点对所述下一层运算节点的运算结果进行归约处理得到输入指令的运算结果，通过委托的方式可以提高处理的效率。

在一种可能的实现方式中，处理器还可以包括CMR(Commission Register，委托寄存器)，在RC判断对所述下一层运算节点的运算结果进行归约处理所需要的资源大于本地处理单元的资源上限时，RC可以根据串行子指令向CMR写入委托指令，PD可以定期检查CMR中是否存在委托指令，若存在委托指令，则根据委托指令控制下一层运算节点对所述下一层运算节点的运算结果进行归约处理得到输入指令的运算结果。其中的定期检查可以是根据处理的周期检查，处理的周期可以根据下一层运算节点处理完一条串行子指令的时间等确定，本公开对此不作限定。通过设置CMR可以提高整个运算节点的处理效率。

对于具有父子连接关系的运算节点的运算装置，最高级(0级)运算节点(父节点)译码并将指令发送到其下一层运算节点(子节点)，其中，每个下一层运算节点重复译码、发送过程直到叶子运算节点执行为止。叶子运算节点将计算结果返回到其父节点，该操作一直重复到最高级运算节点(父节点)为止。在该过程中，当叶子运算节点的上层运算节点译码指令时，叶子运算节点处于空闲状态，影响运算的效率。

为了解决上述技术问题，本公开提供的运算装置的运算节点中的处理器控制下一层运算节点以流水线的方式分多个阶段执行所述运算节点的输入指令对应的操作。在一种可能的实现方式中，对于任意一个运算节点，所述任意一个运算节点中的所述处理器控制所述下一层运算节点，以流水线的方式分多个阶段执行所述任意一个运算节点的输入指令对应的操作；其中，所述多个阶段包括：操作执行EX(Execution)，所述下一层运算节点用于以流水线的方式分所述多个阶段执行所述操作执行EX。其中，输入指令可以是描述了机器学习技术的操作的指令，输入指令可以包括操作数和操作符等。

在一种可能的实现方式中，所述多个阶段还可以包括：指令译码ID(Instruction Decoding)、数据加载LD(Loading)、操作归约RD(Reduction)以及数据写回WB(Writing Back)，所述流水线按照指令译码ID、数据加载LD、操作执行EX、操作归约RD以及数据写回WB的顺序传播。需要说明的是，以上实施方式中的多个阶段仅仅是本公开的一个示例，不以任何方式限制本公开，例如，多个阶段还可以包括指令输入等。

对于运算装置中的任意一层运算节点，其中，指令译码ID可以是指对接收到的上一层(或者输入端)发送的输入指令进行译码处理，具体可以包括：根据输入指令对应的操作数的存储需求为输入指令分配本层运算节点的内存组件上的内存空间，并将分配的内存空间的地址(本地地址)绑定到输入指令中写操作数的指令上，等等。数据加载LD可以是指根据输入指令中记载的输入指令对应的读取操作数的地址从上一层运算节点的内存组件中查找到输入指令对应的操作数的存储位置，并读取操作数，然后根据本地地址写入到本层运算节点的内存组件中。操作执行EX可以是指根据操作符以及操作数获得运算结果的过程。如上所述，由于下一层运算节点可能有多个，或者，本层运算节点的内存组件的容量小于存储输入指令需要的数据所需要的内存的容量，因此处理器还可以对输入指令进行分解，有些操作还需要对分解后的指令的运算结果进行归约，即操作归约RD，才能得到输入指令的运算结果。数据写回WB可以是指将本层运算节点的输入指令的运算结果写回到上一层运算节点中。

图6示出根据本公开一示例的流水线的示意图。下面结合图3所示的运算装置以及图6对以流水线的方式分多个阶段执行输入指令对应的操作的过程进行说明。如图3所示，以第i层运算节点为例，第i层运算节点接收上一层(第i-1层)运算节点的输入指令，并对输入指令进行指令译码ID得到译码后的指令，加载运行输入指令需要的数据，然后将译码后的指令发送给下一层(第i+1层)运算节点，由下一层(第i+1层)运算节点根据加载的数据执行译码后的指令以完成操作执行EX阶段。由于下一层(第i+1层)运算节点可能有多个，或者，本层运算节点的内存组件的容量可能小于存储输入指令需要的数据所需要的内存的容量，因此处理器还可以对输入指令进行分解，有些操作还需要对分解后的指令的运算结果进行归约，即操作归约阶段RD，才能得到输入指令的运算结果，如果第i层运算节点不是第一层运算节点，第i层运算节点的处理器还可以将输入指令的运算结果写回到上一层(第i-1 层)运算节点中。需要说明的是，下一层(第i+1层)运算节点也是以流水线的方式分所述多个阶段执行所述操作执行EX，如图6所示，也就是说，下一层(第i+1层)运算节点在接收到本层(第i层)运算节点的处理器发送的指令(作为下一层(第i+1层)运算节点的输入指令)后，可以对输入指令进行指令译码，从本层的内存组件中加载输入指令需要的数据，将译码后的指令发送给下一层(第i+1层)运算节点的下一层(第i+2层)运算节点以进行操作执行阶段……，换言之，下一层(第i+1层)运算节点按照指令译码ID、数据加载LD、操作执行EX、操作归约RD以及数据写回WB的顺序以流水线的形式执行下一层(第i+1层)运算节点的上一层(第i层)运算节点发送的输入指令对应的操作。

本公开实施例的运算装置通过多层迭代的方式构建运算装置的层级架构，该运算装置的每个运算节点的结构是相同的，不同层的运算节点、不同规模的计算机上都具有相同的编程接口和指令集架构，执行相同格式的程序，层与层之间隐式装载数据。运算装置的层级架构使得可以通过迭代的流水线的方式执行输入指令对应的操作，高效利用每一层级的运算节点，提高了运算的效率。

在一种可能的实现方式中，所述任意一个运算节点还可以包括：本地处理单元LFU(local functional units)、内存控制器(例如，可以为DMA，Direct Memory Access)，所述处理器可以包括：流水线控制单元、译码器DD(Demotion Decoder，这里的降级可以是指从上一层到下一层运算节点)、归约控制单元RC(Reduction Controller，也叫归约控制器)。

图7示出根据本公开一示例的运算节点的框图。如图7所示，译码器DD的输入端接收输入指令，译码器DD的输出端连接内存控制器的输入端，内存组件可以通过数据通路连接任意一个运算节点的上一层运算节点和下一层运算节点的内存组件，内存控制器连接上述数据通路，如图7所示内存组件i连接内存组件i-1，内存组件i-1可以表示当前运算节点的上一层运算节点的内存组件，内存组件i连接下一层运算节点表示连接下一层运算节点的内存组件，内存控制器连接内存组件之间的数据通路。数据通路在内存控制器的控制下将数据从一个内存组件送往另一个内存组件。译码器DD的输出端还连接下一层运算节点的输入端以及归约控制单元RC的输入端，归约控制单元RC连接本地处理单元LFU。

译码器DD用于指令译码ID，内存控制器用于数据加载LD：将输入指令的操作数从上一层运算节点的内存组件加载到本地内存组件，归约控制单元RC用于控制LFU执行操作归约RD得到输入指令的运算结果，内存控制器还用于将运算结果写回到所述任意一个运算节点的上一层运算节点的内存组件中。

流水线控制单元连接译码器DD、归约控制单元RC、内存控制器以及下一层运算节点，流水线控制单元根据译码器DD、归约控制单元RC、内存控制器以及下一层运算节点的反馈同步多个阶段。例如，所述流水线控制单元在接收到所述译码器DD、内存控制器、下一层运算节点以及所述归约控制单元RC发送的第一反馈信号后，控制流水线按顺序向下传播，其中，第一反馈信号可以是指表示译码器DD、内存控制器、下一层运算节点以及所述归约控制单元RC执行完当前指令的相应阶段的信号。

示例性的，假设有输入指令1、输入指令2、输入指令3、输入指令4和输入指令5、输入指令6，内存控制器对输入指令1进行数据写回WB，RC控制本地处理单元LFU对输入指令2进行操作归约RD，下一层运算节点对输入指令3进行操作执行EX，内存控制器对输入指令4进行数据加载LD，DD对输入指令5进行指令译码ID。在DMAC、RC、下一层运算节点以及DD执行完当前指令的相应阶段的处理后，可以向流水线控制单元发送第一反馈信号，流水线控制单元在接收到内存控制器、RC、下一层运算节点以及DD发送的第一反馈信号后，可以控制流水线按顺序向下传播：内存控制器对输入指令2进行数据写回WB，RC控制本地处理单元对输入指令3进行操作归约RD，下一层运算节点对输入指令4进行操作执行EX，内存控制器对输入指令5进行数据加载LD，DD对输入指令6进行指令译码ID。

图8示出根据本公开一示例的运算节点以及流水线运行过程的示意图。在一种可能的实现方式中，所述处理器还可以包括串行分解器SD(Sequential decomposer)，串行分解器SD连接译码器DD的输入端，串行分解器SD用于对所述输入指令进行串行分解得到串行子指令；所述处理器控制所述下一层运算节点，以流水线的方式分多个阶段执行所述串行子指令对应的操作。串行分解器SD和译码器DD之间还可以设置有子指令队列SQ(sub-level instruction Queue)，子指令队列SQ用于暂存所述串行子指令，DD还用于对串行子指令进行译码得到译码后的串行子指令。设置SQ暂存串行子指令，对于需要做串行分解的输入指令，可以加速流水线的传播，提高运算效率。

如图8所示，SD的输入端还可以连接指令队列IQ(Instruction Queue)，也就是说，处理器可以先将上一层运算节点的输出指令作为本层运算节点的输入指令加载到IQ，本层运算节点可以是指处理器所属的运算节点，SD从IQ中获取输入指令，考虑到硬件的限制，SD可以将输入指令分解为多个可以串行执行的串行子指令，并暂存到SQ中，DD从SQ中获取串行子指令进行译码。

通过设置IQ作为SD与上一层运算节点之间的缓冲，可以省去SD与上一层运算节点之间严格的同步执行关系。IQ可以简化电路设计，同时提高执行效率，例如，允许SD和上一层运算节点之间独自异步执行，减少SD等待上一层运算节点发送输入指令的时间等。SQ作为SD与DD之间的缓冲，可以省去SD与DD之间严格的同步执行关系。SQ可以简化电路设计，同时提高执行效率，例如，允许SD独自异步执行，减少DD等待SD对输入指令进行串行分解的时间等。通过设置IQ和SQ可以提高运算装置的处理效率。

对输入指令的串行分解可以包括对输入指令的操作数的分解以及对输入指令的分解。在进行串行分解时，为了更有效的利用运算节点的资源，串行分解得到的串行子指令将具有尽可能大的分解粒度，串行分解得到的串行子指令的分解粒度由运算节点的资源决定，例如，运算节点的资源可以为运算节点的内存组件的容量。这里的分解粒度可以指分解操作数的维度。

输入指令需要的内存容量可以根据存储输入指令的操作数需要的内存容量、以及存储操作符对操作数进行处理后的中间结果需要的内存容量等确定，在确定输入指令需要的内存容量后，可以判断本层运算节点的内存组件的容量是否满足输入指令需要的内存容量，如果不满足，则可以根据本层运算节点的内存组件的容量对输入指令进行串行分解得到串行子指令。

在一种可能的实现方式中，如图8所示，处理器还可以包括并行分解器PD(Parallel decomposer)，所述并行分解器PD的输入端连接译码器DD的输出端，并行分解器PD的输出端连接下一层运算节点的输入端，并行分解器PD用于根据所述下一层运算节点的数量，对译码后的串行子指令进行并行分解得到并行子指令，并将并行子指令发送给所述下一层运算节点，以使所述下一层运算节点根据并行子指令对应的操作数并行运行并行子指令。其中，并行分解可以是指分解后的并行子指令可以并行执行，举例来说，假设串行子指令为对向量A和B相加，其中，A＝(A1,A2…Aj,…An)，B＝(B1,B2…Bj,…Bn)，其中，n表示向量A和B中元素的个数，n为正整数，j表示元素的序号，j为正整数且j≤n，那么PD可以根据下一层运算节点的数量将串行子指令并行分解为多个并行子指令，每个并行子指令负责处理向量中部分数据的相加操作，例如，假设n＝4，PD连接了4个下一层运算节点，则PD可以对串行子指令并行分解得到4个并行子指令，4个并行子指令分别为对A1和B1、A2和B2、A3和B3以及A4和B4相加，PD可以将4个并行子指令发送给所述下一层运算节点。需要说明的是，以上举例仅仅是为了说明并行分解的示例，不以任何方式限制本公开。

在一种可能的实现方式中，所述内存控制器可以包括DMA(内存控制器，Direct Memory Access)以及DMAC(Direct Memory Access Controller)，本文中称DMAC为第一内存控制器、DMA为第二内存控制器。其中，DMA连接数据通路，DMAC连接DMA以及DD、SD、流水线控制单元、下一层运算节点等。DMAC可以根据控制信号生成加载指令，将加载指令发送给DMA，由DMA根据加载指令控制数据通路，实现数据的加载。DMAC还可以向流水线控制单元发送上文所述的第一反馈信号，在DMA执行完数据加载或者数据写回后可以通知DMAC，DMAC收到通知后可以向流水线控制单元发送第一反馈信号。

输入指令可以包括：运算符、操作数参数，所述操作数参数可以是指向输入指令的操作数的参数，所述操作数参数可以包括全局参数和局部参数，全局参数是表示输入指令对应的第一操作数的大小的参数，局部参数是表示输入指令的第二操作数在所述第一操作数中的起始位置和第二操作数的大小的参数。也就是说，第二操作数可以是第一操作数中的部分数据或者全部数据，执行输入指令时可以实现对第二操作数的处理，对第二操作数的处理可以是与输入指令的运算符对应的处理。

就是说，本公开的运算装置采用的指令可以是一个三元组<O，P，G>，其中，O表示运算符，P表示一个操作数的有限集，G表示粒度指标，具体的表现形式可以为“O，P[N][n1][n2]”，其中，N可以为正整数，表示全局参数，根据张量维度的不同可以设置多个不同的N，n1和n2为小于N的自然数，表示局部参数，其中，n1表示对操作数进行运算时的起始位置，n2表示大小，执行上述指令可以实现对操作数P中n1到n1+n2的操作数的运算O，同样的，根据张量维度的不同可以设置多个不同的n1和n2。本公开的运算装置的每一层接收到的输入指令的格式都是相同的，因此，可以自动完成指令的分解、执行指令对应的操作，等等。

任意一个(当前)运算节点在接收到上一层运算节点发送的输入指令后，可以根据输入指令的操作数参数从上一层运算节点的内存组件中读取相应的操作数，并保存在当前运算节点的内存组件中，任意一个运算节点在执行完输入指令得到运算结果后，还可以将运算结果写回到上一层运算节点的内存组件中。举例来说，当前运算节点的处理器可以根据输入指令的操作数参数向DMAC发送控制信号， DMAC可以根据控制信号控制DMA，DMA控制当前运算节点的内存组件和上一层运算节点的内存组件之间连接的数据通路，从而将输入指令的操作数加载到当前运算节点的内存组件中。

在一种可能的实现方式中，DMAC可以根据控制信号生成加载指令，将加载指令发送给DMA，由DMA根据加载指令控制数据通路，实现数据的加载。

DMAC可以根据控制信号确定基地址、起始偏移量、加载数据的数量、跳转的偏移量等参数，然后根据基地址、起始偏移量、加载数据的大小、跳转的偏移量等参数生成加载指令，还可以根据操作数的维度设置循环加载数据的次数。其中，基地址可以是操作数在内存组件中存储的起始地址，起始偏移量为要读的操作数在原操作数中开始的位置，起始偏移量可以根据局部参数中的起始位置确定，加载数据的数量可以根据局部参数中的大小确定，跳转的偏移量表示下一部分要读的操作数在原操作数中开始的位置相对于上一部分读的操作数在原始操作数中开始的位置之间的偏移，也就是说，跳转的偏移量为下一个读取数据的起始偏移量相对于上一个读取数据的起始偏移量的偏移量跳转的偏移量可以根据全部参数或局部参数确定。例如，可以将起始位置作为起始偏移量，将局部参数中的大小作为一次加载的数据的数量，可以将局部参数中的大小作为跳转的偏移量。

在一种可能的实现方式中，可以根据基地址以及起始偏移量确定开始读取操作数的起始地址，根据加载数据的数量以及起始地址可以确定一次读取操作数的结束地址，根据起始地址以及跳转的偏移量可以确定下一部分要读的操作数的起始地址，同样的，可以根据加载数据的数量以及下一部分要读的操作数的起始地址确定本次读取操作数的结束位置……重复以上过程，直到达到循环加载操作数的次数。其中的一次读取操作数和本次读取操作数可以是指：读取同一个操作数需要一次或多次完成，每次读取同一个操作数中的部分操作数，上述一次和本次可以是指多次中的一次。

也就是说，读取一个操作数可能需要循环多次读取完成，第一内存控制器可以根据基地址、起始偏移量、加载数据的数量、跳转的偏移量确定每次读取操作数时的起始地址和结束地址，例如，针对每次读取过程，可以根据上一次读取过程的起始地址和跳转的偏移量确定本次读取过程的起始地址，可以根据本次读取过程的起始地址和加载数据的数量(以及数据的格式)确定本地读取过程的结束地址。其中，跳转的偏移量可以根据跳转的数据的数量以及数据的格式确定。

示例性的，图9示出根据本公开一实施例的操作数的示意图，如图9所示，假设操作数P为M行N列的矩阵P[M,N]，控制信号为“Load P[M,N][0,0][M,N/2]，P’”。DMAC根据控制信号可以设置在行和列方向的起始偏移量均为0，加载数据的数量为N/2，跳转的偏移量为N，循环的次数为M。如图9所示，从第一行第一列开始读取N/2列数据，跳转到第二行第一列读取N/2列数据……循环M次可以完成数据的加载。

需要说明的是，以上示例仅仅是为了说明本公开的运算装置加载数据的方式，不以任何方式限制本公开。

在一种可能的实现方式中，所述任意一个运算节点还可以包括：流水线锁存器，所述译码器DD和所述内存控制器之间、所述内存控制器和所述下一层运算节点FFU(Fractal Functional Units)之间、下一层运算节点FFU和所述本地处理单元LFU之间、以及所述本地处理单元LFU和所述内存控制器之间分别设置有流水线锁存器。流水线锁存器用于缓存下一阶段要处理的指令。所述流水线控制单元通过控制所述流水线锁存器同步所述多个阶段。

在一种可能的实现方式中，所述流水线控制单元在接收到所述译码器DD、内存控制器、下一层运算节点LFU以及所述归约控制单元RC发送的第一反馈信号后，分别向各个所述流水线锁存器发送第一控制信号，各个所述流水线锁存器根据所述第一控制信号更新输出。其中，所述第一控制信号可以是高电平信号或者低电平信号，本公开对此不作限定。更新输出是指流水线锁存器在接收到第一控制信号(如图8所示，流水线控制单元向流水线锁存器发送的控制信号)时，输出跟随输入的并行子指令或者与输入指令的操作相关的控制信号而变化，这里输入的并行子指令或者与输入指令的操作相关的控制信号是指图8中从流水线锁存器的左侧输入的。

仍然以上文所述的输入指令1、输入指令2、输入指令3、输入指令4和输入指令5、输入指令6为例，结合图8对流水线的处理过程进行说明。

(1.1)DMAC接收到流水线锁存器4输出的控制信号，根据控制信号控制DMA对输入指令1进行数据写回WB；

(1.2)本地处理单元LFU接收流水线锁存器3输出的控制信号，对输入指令2进行操作归约RD，将归约结果(输入指令2的运算结果)存储到内存组件中；

(1.3)下一层运算节点接收流水线锁存器2中的并行子指令(对输入指令3分解后得到的)，对输入指令3进行操作执行EX，将执行结果写回到内存组件中；

(1.4)DMAC接收流水线锁存器1发送的控制信号，根据控制信号控制DMA将输入指令4的输入操作数加载到内存组件中；

(1.5)DD对输入指令5进行指令译码ID，并将译码后的输入指令5发送给PD和RC，将数据加载、以及数据写回等相关的控制信号缓存在流水线锁存器1中，PD对译码后的输入指令5进行并行分解得到并行子指令，将并行子指令缓存在流水线锁存器1中，RC将输入指令5的操作归约对应的控制信号缓存在流水线锁存器1中。

在DMAC、RC、下一层运算节点以及DD执行完当前指令的相应阶段的处理后，可以向流水线控制单元发送第一反馈信号，流水线控制单元在接收到DMAC、RC、下一层运算节点以及DD发送的第一反馈信号后，可以向各个所述流水线锁存器发送第一控制信号，控制流水线按顺序向下传播，各流水线锁存器在接收到第一控制信号后，输出的控制信号跟随输入信号变化。例如，(1)针对输入指令2的数据写回对应的控制信号从流水线锁存器4输出、针对输入指令3的数据写回对应的控制信号从流水线锁存器3输出到流水线锁存器4；(2)针对输入指令3的操作归约对应的控制信号从流水线锁存器3输出、针对输入指令2的操作归约对应的控制信号从流水线锁存器2输出到流水线锁存器3、针对输入指令1的操作归约对应的控制信号从流水线锁存器1输出到流水线锁存器2；(3)针对输入指令4的并行子指令从流水线锁存器2输出、针对输入指令5的并行子指令从流水线锁存器1输出到流水线锁存器2；(4)针对输入指令5的数据加载对应的控制信号从流水线锁存器1输出；(5)输入指令6输入到DD中，DD对输入指令6进行指令译码ID，并将译码后的输入指令6发送给PD和RC，将数据加载、以及数据写回等相关的控制信号缓存在流水线锁存器1中，PD对译码后的输入指令6进行并行分解得到并行子指令，将并行子指令缓存在流水线锁存器1中，RC将输入指令6的操作归约对应的控制信号缓存在流水线锁存器1中。DMAC、RC、下一层运算节点以及DD的执行过程如下：

(2.1)DMAC接收到流水线锁存器4输出的控制信号，控制DMA对输入指令2的运算结果进行数据回写WB；

(2.2)LFU接收流水线锁存器3输出的控制信号，根据控制信号从内存组件中获取对输入指令3进行操作执行EX后的执行结果，对输入指令3的指令结果进行操作归约RD，将归约结果(输入指令3的运算结果)存储到内存组件中；

(2.3)下一层运算节点接收流水线锁存器2输出的针对输入指令4的并行子指令，对输入指令4进行操作执行EX，将执行结果写回到内存组件中；

(2.4)DMAC接收流水线锁存器1发送的控制信号，根据控制信号控制DMA将输入指令5的输入操作数加载到内存组件中；

(2.5)DD从SQ中获取输入指令6，对输入指令6进行指令译码ID。

在一种可能的实现方式中，DD在从SQ中获取到串行子指令时，可以检测串行子指令的数据依赖情况，若检测到串行子指令存在数据依赖，则DD可以停止从SQ中获取串行子指令。

串行子指令存在数据依赖可以是指串行子指令的输入操作数与之前的多条串行子指令的输出操作数存在重叠(数据依赖)。之前的多条串行子指令的条数可以根据流水线的级数确定，比如在本公开实施例的5级流水线的示例中，之前的多条串行子指令可以是指之前的4条串行子指令。当前译码的串行子指令的输入操作数与之前的多条串行子指令的输出操作数存在重叠，可以是指当前译码的串行子指令的输入操作数与之前的多条串行子指令中的任意一条或多条的输出操作数存在重叠，本公开对此不作限定。

由于当前译码的串行子指令的输入操作数与之前的多条串行子指令的输出操作数存在重叠，也就是说，当前译码的串行子指令的输入操作数是之前的多条串行子指令的输出操作数中的部分或全部，因此，需要之前多条串行子指令执行完得到输出操作数之后才能够加载当前译码的串行子指令的输入操作数。所以，需要暂停流水线的传播，直到运行完之前的多条串行子指令得到输出操作数，继续流水线的传播过程。具体过程可以为，DD停止从SQ中获取串行子指令，DD的输出不变，DD之后的第一个流水线锁存器不再输出锁存的控制信号，而是输出空泡控制信号，收到空泡控制信号的各功能部件不进行操作，仅立刻向流水线控制单元发送第一反馈信号。流水线控制单元继续按原条件发射第一控制信号，让流水线带着从第一个流水线锁存器注入的空泡继续执行，直到数据依赖得以解决。数据依赖解决后，DD继续从SQ中取指令，第一个流水线锁存器继续输出锁存的控制信号。

根据上述实施方式的流水线控制过程，可以灵活的控制流水线的进程，避免计算结果出错。

在一种可能的实现方式中，所述译码器在检测到当前译码的串行子指令的输入操作数与之前的多条串行子指令的输出操作数不存在重叠时，将当前译码的串行子指令译码后预加载到所述下一层运算节点上。

根据上文描述的过程可知，对于一条串行子指令，在译码完成后，需要等待数据加载LD完成后，才会加载到下一层运算节点上进行操作执行EX。根据上文中的示例，在(2.3)中下一层运算节点对输入指令4进行操作执行EX时，(2.5)DD从SQ中获取输入指令6，对输入指令6进行指令译码ID，输入指令的并行子指令被缓存在流水线锁存器1中，还没有加载到下一层运算节点上，在下一个第一控制信号到来时，才会加载到下一层运算节点上。

对于输入操作数与之前的多条串行子指令的输出操作数不存在重叠的情况，译码器可以向流水线控制单元发送预加载信号。如果下一层运算节点已经完成了输入指令4的并行子指令的操作执行并向流水线控制单元发送了第一反馈信号，这时，流水线控制单元可以根据预加载信号，向流水线锁存器1发送第一控制信号，流水线锁存器1根据第一控制信号预先将输入指令6的并行子指令输出到下一层运算节点(也就是预加载串行子指令，如图8中的流水线锁存器1到FFU的虚线箭头所示)，以使下一层运算节点提前对输入指令6的进行操作执行EX，从而提升运算装置的运算效率。

在以上示例中，对于当前译码的串行子指令的输入操作数与之前的多条串行子指令的输出操作数是否存在重叠，译码器DD可以通过检测之前多条(例如5条)串行子指令的输出操作数的地址以及当前译码的串行子指令的输入操作数的地址和大小描述符来确定。

通过本实施方式可以在输入操作数与之前的多条串行子指令的输出操作数不存在重叠的情况，采用指令预加载的方式加快处理的速度，提高运算装置的处理效率。

如上所述机器学习为计算及访存密集型技术，为了提高机器学习的运算效率，本公开提供了一种运算装置采用的内存管理方法。

在一种可能的实现方式中，所述内存组件可以包括静态内存段和循环内存段。图11示出根据本公开一实施例的内存组件的划分的示例的示意图。如图11所示，可以所述内存组件的内存空间划分为静态内存段和循环内存段。

对于机器学习中的一些运算，这些运算被分解后的几部分运算之间会共用一部分操作数，对于这部分操作数，本公开称作共用操作数。以矩阵相乘运算作为示例，假设输入指令为对矩阵X和Y相乘，如果仅仅对矩阵X进行分解，那么对输入指令进行串行分解得到的串行子指令需要共同使用操作数Y，操作数Y为共用操作数。

如上文所述，输入指令可以是描述了机器学习的操作(运算)的指令，机器学习的操作(运算)以由上文中的计算原语组成，输入指令可以包括操作数和操作符等。也就是说，对于任意一个运算节点的输入指令：处理器对输入指令进行分解得到的多个子指令，这多个子指令可能会共用一部分操作数，这部分操作数即共用操作数。

在一种可能的实现方式中，被分解后的运算或者指令是否存在共用操作数可以根据操作类型和被分解的维度确定，其中操作类型可以是指具体的操作或运算，例如，矩阵乘法；被分解的维度可以是指输入指令的操作数(张量)被分解的维度，举例来说，假设操作数的表示形式为NHWC(batch,height,width,channels)，根据图5所示的过程确定分解的维度为C维度，那么操作数被分解的维度为C维度。

如果所述多个子指令之间存在共用操作数，则所述处理器在所述静态内存段中为所述共用操作数分配内存空间，在所述循环内存段中为所述多个子指令的其他操作数分配内存空间；其中，所述共用操作数为：所述任意一个运算节点中的下一层运算节点执行所述多个子指令时都要使用的操作数，所述其他操作数为：所述多个子指令的操作数中除了所述共用操作数以外的操作数。

对于共用操作数，为了避免频繁的读写，本公开在内存组件中设置静态内存段专门用于存储共用操作数，对于多个子指令的共用操作数，在执行多条子指令之前，只需要执行一次将共用操作数从任意一个运算节点的上一层运算节点的内存组件中加载共用操作数到所述静态内存段的操作即可，可以避免频繁存取数据、节约带宽资源。

上述其他操作数可以是指，输入指令的操作数中被分解的操作数、执行子指令得到的中间结果、归约结果，等等，其中，归约结果可以是对中间结果进行操作归约得到的，操作归约可以是指上文中提到的归约处理。

在一种可能的实现方式中，处理器用于对任意一个运算节点的输入指令进行分解得到多个子指令，可以包括：所述SD根据所述输入指令需要的内存容量、所述静态内存段的容量以及所述循环内存段的容量，对所述输入指令进行串行分解得到串行子指令。

在一个示例中，对于分解后不存在共用操作数的输入指令，可以根据输入指令需要的内存容量以及循环内存段的容量，对所述输入指令进行串行分解得到串行子指令。

在一个示例中，对于分解后存在共用操作数的输入指令，可以根据共用操作数需要的内存容量与所述静态内存段的剩余容量之间的大小关系、以及所述其他操作数需要的内存容量与循环内存段的容量之间的大小关系，对所述输入指令进行串行分解得到串行子指令。

对于分解后存在共用操作数的输入指令，如果共用操作数需要的内存容量大于所述静态内存段的剩余容量，或者，其他操作数需要的内存容量大于循环内存段的容量，则需要对输入指令进行串行分解。

对于共用操作数：SD可以计算所述静态内存段剩余的内存容量，所述SD根据所述静态内存段剩余的内存容量以及所述共用操作数需要的内存容量对所述输入指令进行第一串行分解得到第一串行子指令。具体地，可以确定共用操作数的维度的分解优先级，按照分解优先级的顺序依次选择对共用操作数分解的维度并以二分法方式确定最大分解粒度，直到分解后的共用操作数需要的内存容量小于或等于本层运算节点的静态内存段剩余的内存容量。具体的过程可以参见关于图5部分的描述，不再赘述。然后可以根据对共用操作数的分解方式对输入指令进行分解。

对于其他操作数：SD可以根据所述循环内存段的内存容量以及所述其他操作数需要的内存容量对所述第一串行子指令进行第二串行分解得到所述串行子指令。同样的，可以确定其他操作数的维度的分解优先级，按照分解优先级的顺序依次选择对其他操作数分解的维度并以二分法方式确定最大分解粒度，直到分解后的其他操作数需要的内存容量小于或等于本层运算节点的循环内存段剩余的内存容量。具体的过程可以参见关于图5部分的描述，不再赘述。然后可以根据对其他操作数的分解方式对输入指令进行分解。

举例来说，假设输入指令为对矩阵X和Y相乘，操作数Y为共用操作数，其他操作数包括操作数X。根据本公开的实施方式，可以确定存储操作数Y需要的内存容量以及静态内存段的容量，如果存储操作数Y需要的内存容量小于静态内存段的容量，那么可以不对操作数Y进行分解，如果存储操作数Y需要的内存容量大于静态内存段的容量，那么可以根据图5所示的过程对操作数Y的分解方式。根据对操作数Y的分解方式可以对输入指令进行串行分解。还可以确定存储操作数X、中间结果以及归约结果需要的内存容量，其中，存储中间结果、归约结果需要的内存容量可以结合操作数X以及上述分解后的操作数Y确定，如果存储其他操作数需要的内存容量小于循环内存段的容量，那么可以不对操作数X进行分解，如果存储其他操作数需要的内存容量大于静态内存段的容量，那么可以根据图5所示的过程对操作数X的分解方式，只不过每次需要判断的是存储其他操作数需要的内存容量与循环内存段的容量的大小，而不单单是操作数X。

SD确定对操作数的分解方式后，对输入指令进行串行分解后得到的串行子指令包括头部指令和主体指令，所述头部指令用于加载共用操作数，SD可以在静态内存段中为所述共用操作数分配内存空间，头部指令记录了为所述共用操作数分配的内存空间的地址，所述主体指令用于加载所述其他操作数、以及对所述共用操作数和其他操作数进行计算。

如图10a所示，本公开的运算节点中设置有本地处理单元LFU(local functional units)、第一内存控制器(DMAC，Direct Memory Access Controller)以及第二内存控制器(DMA，Direct Memory Access)，第一内存控制器可以通过硬件电路或者软件程序的方式实现，本公开对此不作限定。第一内存控制器连接第二内存控制器。其他内容可以参见上文的介绍，不再赘述。

第一内存控制器分别连接SD、DD，根据SD或DD发送的控制信号从上一层运算节点的内存组件中读取操作数、并写入当前运算节点的内存组件中。第一内存控制器除了负责数据的读取、写入，还负责不同层运算节点之间的数据写回，例如，将i+1层运算节点的运算结果写回到第i层运算节点。

在一种可能的实现方式中，每一个运算节点的内存组件还连接同一运算节点内的本地处理单元LFU。译码器DD的输出端还连接归约控制单元RC，归约控制单元RC连接本地处理单元LFU。归约控制单元RC用于控制LFU执行操作归约RD得到输入指令的运算结果，并将运算结果写入到内存组件中，第一内存控制器可以控制第二内存控制器将内存组件中的运算结果写回到上一层运算节点的内存组件中。

SD可以将串行分解后的串行子指令输出到SQ中，DD从SQ中获取串行子指令，DD主要根据主体指令存储数据的需求在循环内存段上分配内存空间，DD可以根据主体指令对应的操作数的存储需求为串行子指令分配本层运算节点的内存组件上的内存空间，并将分配的内存空间的地址(本地地址)绑定到主体指令中获取操作数的指令上，从而实现译码处理。

DD还可以根据串行子指令向第一内存控制器DMAC发送控制信号，第一内存控制器DMAC可以根据控制信号控制第二内存控制器DMA将串行子指令对应的操作数加载到为其分配的内存空间中，也就是说根据串行子指令中记载的输入指令对应的操作数的地址从上一层运算节点的内存组件中查找到串行子指令对应的操作数的存储位置，并读取操作数，然后根据本地地址写入到本层运算节点的内存组件中。

在一种可能的实现方式中，所述任意一个运算节点中的所述处理器控制所述下一层运算节点，以流水线的方式分多个阶段执行所述任意一个运算节点的串行子指令对应的操作。图10b示出根据本公开一实施例的流水线的示例。

如图10b所示，多个阶段可以包括：指令译码ID(Instruction Decoding)、数据加载LD(Loading)、操作执行EX(Execution)、操作归约RD(Reduction)以及数据写回WB(Writing Back)，所述流水线按照指令译码ID、数据加载LD、操作执行EX、操作归约RD以及数据写回WB的顺序传播。

DD用于对所述多个子指令(串行子指令)进行指令译码ID。译码器根据所述头部指令向所述第一内存控制器发送第一控制信号，以使第一内存控制器根据第一控制信号控制第二内存控制器加载共用操作数。对于所述主体指令，DD可以根据主体指令对应的其他操作数的存储需求分配本层运算节点的循环内存段上的内存空间，并将分配的内存空间的地址(本地地址)绑定到主体指令中获取或者存储其他操作数的指令上，从而实现译码处理。译码器还可以根据主体指令向第一内存控制器发送第二控制信号，以使内存控制器根据第二控制信号控制第二内存控制器存取其他操作数。

第二内存控制器DMA用于数据加载LD：将输入指令的操作数加载到内存组件，具体包括：根据与所述头部指令对应的第一控制信号从上一层运算节点的内存组件中加载所述共用操作数到所述静态内存段，根据与所述主体指令对应的第二控制信号从上一层运算节点的内存组件中加载所述其他数据到所述循环内存段。所述第二内存控制器根据所述第二控制信号从上一层运算节点的内存组件中加载所述其他数据到所述循环内存段，这里主要是加载的其他操作数中的部分操作数，主要是输入操作数中的一部分，而不是中间结果或者归约结果。

DD对串行子指令进行译码处理后发送给PD，PD可以根据PD连接的下一层运算节点的数量对译码处理后的串行子指令进行并行分解，并行分解可以是指分解后的并行子指令可以并行执行。

下一层运算节点可以以流水线的方式分所述多个阶段执行所述操作执行EX，得到执行结果。RC用于控制LFU对所述执行结果进行操作归约RD，得到所述输入指令的运算结果，所述DMA还用于数据写回WB：将运算结果写回到所述任意一个运算节点的上一层运算节点的内存组件中。以流水线的方式分多个阶段执行输入指令对应的操作的过程可以参照上文中结合图3以及图6进行说明的示例。

处理器中的SD、DD和PD是分开的，内存分配在时间上可以很好地错开。具体来说，PD总是在DD之后分配内存空间，但分配的内存空间释放得更早，DD总是在SD之后分配内存空间，但分配的内存空间同样释放得更早。而用于SD进行串行分解的内存空间可能会在多个串行子指令中用到，因此，为SD设置了静态内存段，而其他部分共用内存组件中除了静态内存外的内存(循环内存段)。

在以上流水线的多个阶段中，除了ID外其他4个阶段均涉及内存的访问，因此，最多有4条指令同时需要访问内存。而LD和WB阶段都是DMA访问内存段，LD和WB的先后顺序由DMAC控制，访问内存时不会产生冲突，也就是说只有3条指令同时需要访问循环内存段，因此，可以将循环内存段划分为多段子内存块，例如可以划分为3段子内存块。在DD需要为串行子指令的操作数分配内存空间时，可以按照串行子指令的输入顺序依次在3段子内存块中为串行子指令的操作数分配内存空间，这样的话，可以降低内存管理复杂性、并且可以提高内存空间利用率。

在一种可能的实现方式中，所述处理器中设置有第一计数器，所述循环内存段包括多段子内存块，所述处理器在所述循环内存段中为所述多个子指令的其他操作数分配内存空间，包括：所述处理器从所述循环内存段中与所述第一计数器的计数值对应的子内存块内，为所述其他操作数分配内存空间。

在一种可能的实现方式中，控制器中的DD在对所述多个子指令进行指令译码过程中，从所述循环内存段中与所述第一计数器的计数值对应的子内存块内，为所述其他操作数分配内存空间。

图12以及图13示出根据本公开一实施例的内存组件的划分的示例的示意图。如图12和图13所示，将循环内存段划分为3段子内存块，所述3段子内存块的内存容量大小可以相同，也可以不同，本公开对此不作限定。处理器中可以设置有计数器1，DD从SQ中获取串行子指令后，对于串行子指令中的主体指令，可以按照主体指令以及计数器1的计数值顺序为其分配循环内存段的内存空间。举例来说，若获取了一条主体指令1，计数器1的计数值为0，那么DD将在循环内存段0中为主体指令1的操作数分配内存空间；然后获取了一条主体指令2，此时计数器1的计数值为1，那么DD将在循环内存段1中为主体指令2的操作数分配内存空间；然后获取了一条主体指令3，此时计数器1的计数值为2，那么DD 将在循环内存段2中为主体指令3的操作数分配内存空间……。

在一种可能的实现方式中，在所述流水线传播的过程中，所述DMA、下一层运算节点以及LFU按顺序循环使用所述3段子内存块。图12中还示出根据本公开一实施例的多条指令的流水线传播过程的示意图。下面结合上述分配内存空间的示例以及流水线的传播过程对此进行说明。

如图12所示，在T1时，在DD为主体指令1分配内存空间后发送给PD由PD对主体指令1进行并行分解得到(多个)并行子指令1。

在T2时，DD为主体指令2在循环内存段1中分配内存空间，对于主体指令1，在LD阶段，由DMA将主体指令1的输入操作数加载到循环内存段0中，也就是此时由DMA使用循环内存段0。

在T3时，DD为主体指令3在循环内存段2中分配内存空间；对于主体指令2，在LD阶段，由DMA将主体指令2的输入操作数加载到循环内存段1中，也就是此时由DMA使用循环内存段1；对于主体指令1，在EX阶段，由下一层运算节点FFU(Fractal Functional Units)执行并行指令1，并将执行结果写回到循环内存段0，也就是此时由FFU使用循环内存段0。

在T4时，对于主体指令4，DD为主体指令3在循环内存段0中分配内存空间；对于主体指令3，在LD阶段，由DMA将主体指令3的输入操作数加载到循环内存段2中，也就是此时由DMA使用循环内存段2；对于主体指令2，在EX阶段，由FFU执行并行指令2，并将执行结果写回到循环内存段1，也就是此时由FFU使用循环内存段1；对于主体指令1，LFU对执行结果进行操作归约RD，也就是此时由LFU使用循环内存段0。

在T5时，对于主体指令1，在WB阶段，DMA将循环内存段0中的归约结果写回到上一层运算节点的内存组件上，对于主体指令4，在LD阶段，由DMA将主体指令4的输入操作数加载到循环内存段0中，也就是此时由DMA使用循环内存段0；对于主体指令3，在EX阶段，由FFU执行并行指令3，并将执行结果写回到循环内存段2，也就是此时由FFU使用循环内存段2；对于主体指令2，LFU对执行结果进行操作归约RD，也就是此时由LFU使用循环内存段1。

通过以上过程可知，在流水线传播的过程中，DMA、下一层运算节点(FFU)以及LFU按顺序循环使用3段子内存块。能够降低内存管理的复杂性，并提高内存空间利用率。

需要说明的是，五级流水线并不是在每条指令执行的过程中都具备。示例，比如对输入指令：排序SORT A,B，进行串行分解，会产生规约，SD会得到串行子指令：

SORT A1,K1；

SORT A2,K2；

MERGE K1,K2,B；

其中A1，A2，B位于上一层运算节点的内存组件中，K1，K2被SD分配于静态内存段。

所以执行串行子指令SORT A1,K1时，DD不对T1进行降级，因此，也就不需要写回，WB阶段会成为空泡，RD阶段LFU将结果写到静态内存段的K1上；执行串行子指令SORT A2,K2的过程和执行串行子指令SORT A1,K1的过程类似。

而执行MERGE T1,T2,B时，DD也不对T1,T2进行降级，也就会说，不需要加载数据，LD阶段会成为空泡，EX阶段FFU会直接访问静态内存段来取数据。

在一种可能的实现方式中，如果三条相邻(或者相距比较近)的输入指令都存在共用操作数时，由于本公开的运算装置采用流水线的方式处理输入指令，那么对于三条相邻的输入指令都存在共用操作数时，SD在静态内存段为共用操作数分配内存空间时，就有可能出现静态内存段碎片化的问题，造成内存空间利用率低。举例来说，假设三条相邻的输入指令的共用操作数分别为操作数1、操作数2和操作数3。

图14示出根据本公开一实施例的静态内存段的内存空间分配方法的示意图。如图14所示，SD先为输入指令1的操作数1分配内存空间，再为第二条输入指令2的操作数2分配内存空间，此时操作数1还在使用，因此可以在操作数1存储的相邻的位置为操作数分配内存空间；在第三条输入指令3到达时，操作数1可能已经使用完成，操作数2还在使用，此时可以在操作数1存储的位置为操作数3分配内存空间，但是操作数3需要的内存空间可能稍微小于存储操作数1的内存空间，此时，存储操作数3和操作数2的内存空间之间可能就会有一部分内存空间无法利用。或者，存储操作数3需要的内存空间可能稍微大于存储操作数1的内存空间，此时，可能需要在图14中操作数2的右侧为操作数3分配内存空间。导致内存管理复杂，并且内存空间利用率低。

为了解决上述技术问题，本公开还在所述处理器中设置有第二计数器(可以称作计数器2)，计数器2为不同的计数值时，SD可以按照串行分解产生的头部指令的顺序以及计数器2的值，在静态内存段中不同的端为共用操作数分配内存空间。

在一种可能的实现方式中，处理器在所述静态内存段中为所述共用操作数分配内存空间，可以包括：所述处理器从所述静态内存段中的第一起始端开始为所述共用操作数分配内存空间，其中，所述第一起始端为与所述第二计数器的计数值对应的起始端。举例来说，计数器2的计数值可以包括0和1，其中，0可以对应静态内存段的一端，1可以对应静态内存段的另一端。

图15示出根据本公开一实施例的静态内存段的内存空间分配方法的示意图。结合图15对SD为共用操作数分配静态内存段的内存空间的过程进行说明。SD从SQ中获取输入指令1，对输入指令1进行串行分解后得到多个串行子指令1，多个串行子指令1共用操作数1，SD要从静态内存段中为操作数1分配内存空间，假设此时计数器2的计数值为0，那么SD可以从图15所示的左侧一端为操作数1分配内存空间。SD从SQ中获取输入指令2，对输入指令2进行串行分解后得到多个串行子指令2，多个串行子指令2共用操作数2，SD要从静态内存段中为操作数2分配内存空间，假设此时计数器2的计数值为1，那么SD可以从图15所示的右侧一端为操作数2分配内存空间。SD从SQ中获取输入指令3，对输入指令3进行串行分解后得到多个串行子指令3，多个串行子指令3共用操作数3，SD要从静态内存段中为操作数3分配内存空间，假设此时计数器2的计数值为0，那么SD可以从图15所示的左侧一端为操作数3分配内存空间。

在一种可能的实现方式中，所述SD可以根据所述第二计数器的计数值确定为所述共用操作数分配内存空间的第一起始端，SD计算从所述第一起始端开始，所述静态内存段剩余的内存容量，所述SD根据所述静态内存段剩余的内存容量以及所述共用操作数需要的内存容量对所述输入指令进行第一串行分解得到第一串行子指令。也就是说，在本实施方式中，SD在计算静态内存段剩余的内存容量时，可以根据第二计数器的计数值确定计算的起始端，然后从起始端开始计算静态内存段剩余的内存容量，然后根据存储共用操作数需要的内存容量与静态内存段剩余的内存容量之间的大小关系确定是否要对共用操作数以及对应的输入指令进行分解。

通过以上内存管理的方式，本公开的运算装置可以降低内存管理复杂性，并且提高内存空间利用率。

机器学习为计算及访存密集型技术，频繁的存取数据对进行机器学习运算的运算装置的带宽提出了很高的要求，为了降低运算装置的带宽的压力，本公开提供了一种操作数的获取方法，该方法可以应用于处理器，所述处理器可以为通用处理器，例如，处理器可以为中央处理单元CPU(Central Processing Unit)、图形处理单元GPU(Graphics Processing Unit)等。所述处理器还可以为用于执行人工智能运算的人工智能处理器，人工智能运算可包括机器学习运算，类脑运算等。其中，机器学习运算包括神经网络运算、k-means运算、支持向量机运算等。该人工智能处理器可例如包括NPU(Neural-Network Processing Unit，神经网络处理单元)、DSP(Digital Signal Processor，数字信号处理单元)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)芯片中的一种或组合。人工智能处理器可以包括多个运算单元，多个运算单元可以并行执行运算。本公开提供的操作数的获取方法也可以应用于上文所述的运算装置中。

图16示出根据本公开一实施例的应用情景示意图。如图16所示，处理器在执行输入指令时，需要将输入指令的操作数从外部存储空间加载到本地内存组件上，执行完输入指令后，再将输入指令的运算结果输出到外部存储空间。频繁的加载和输出的过程需要很大的带宽，为了降低带宽压力，本公开的实施方式通过设置数据地址信息表记录本地内存组件上存储的数据，从而可以实现在从外部存储空间加载输入指令的操作数之前先检查本地内存组件上是否已存储有该操作数，如果已经存储了上述操作数，则无需将输入指令的操作数从外部存储空间加载到本地内存组件上，直接使用本地内存组件上存储的操作数即可，可以节省带宽资源。

其中，所述数据地址信息表中可以记录有地址对应关系，所述地址对应关系可以包括：操作数在本地内存组件上的存储地址和操作数在外部存储空间上的存储地址的对应关系。

表1示出根据本公开一实施例的数据地址信息表的示例。

需要说明的是，表1中的Out_addr1、In_addr1等仅仅是一个表示地址的符号，本公开实施方式的数据地址信息表中记录的地址可以是起始地址+粒度标识的形式，起始地址可以指操作数存储的内存空间的起始地址，粒度标识可以表示操作数的大小，也就是说记录了数据存储的起始地址以及数据的大小等信息。

表1数据地址信息表

外部存储空间上的存储地址	本地内存组件上的存储地址
Out_addr1	In_addr1
Out_addr2	In_addr2

图17示出根据本公开一实施例的操作数的获取方法的流程图。如图17所述，所述方法可以包括：

步骤S11，在数据地址信息表中查找操作数是否已保存在本地内存组件上；

步骤S12，若操作数已保存在本地内存组件上，则根据操作数在外部存储空间上的存储地址和数据地址信息表确定所述操作数在本地内存组件上的存储地址；

步骤S13，将所述操作数在本地内存组件上的存储地址赋值给获取所述操作数的指令。

处理器在接收到数据加载指令后，可以执行数据加载指令以加载操作数到本地内存组件上。具体地，数据加载指令绑定有操作数在外部存储空间上的存储地址，根据数据加载指令(绑定的存储地址)生成加载数据的控制信号，由DMA(Direct Memory Access)根据控制信号执行数据加载的过程。

而根据本公开的实施例，在生成加载数据的控制信号加载操作数之前，可以执行步骤S11，在数据地址信息表中查找要加载的操作数是否已保存在本地内存组件上。

如上所述，数据地址信息表中可以记录有地址对应关系，可以在地址对应关系中包含全部操作数在外部存储空间上的存储地址时，确定所述操作数已保存在本地内存组件上，在地址对应关系中未包含全部操作数在外部存储空间上的存储地址时，确定操作数未保存在本地内存组件上。具体地，可以在数据地址信息表中记录的外部存储空间上的存储地址中查找操作数是否已保存在本地内存组件上，换言之，假设之前存储过要加载的操作数，那么会在数据地址信息表中记录有操作在外部存储空间上的存储地址和在本地内存组件上的存储地址的对应关系，在下一次要加载同样的操作数时，如果发现数据地址信息表中记录的外部存储空间上的存储地址包含要加载的操作数在外部存储空间上的存储地址，那么就说明要加载的操作数已经存储在本地内存组件上了，直接使用就可以了，不需要重复加载。

示例性的，有些情况下操作数可能不仅仅是一个数，而有可能是多个数或者包含多个数的向量、矩阵、张量，等等。在这种情况下，数据加载指令绑定的操作数在外部存储空间上的存储地址可以为一段存储空间的地址，在地址对应关系中的外部存储空间上的存储地址完全包含数据加载指令绑定的操作数在外部存储空间上的存储地址时，可以确定操作数已保存在本地内存组件上；若地址对应关系中的外部存储空间上的存储地址不包含或者仅包含一部分数据加载指令绑定的操作数在外部存储空间上的存储地址时，可以确定操作数未保存在本地内存组件上。

在一种可能的实现方式中，检查两段地址之间是否为包含关系的方法可以不用遍历操作数中的所有数据的地址进行检查，而是只需要检查操作数的两个点的数据的地址是否落在数据地址信息表中记录的任意一条地址对应关系中的外部存储空间的存储地址上即可。举例来说，如果操作数为矩阵，只要检查矩阵对角线上的两个顶点的数据的存储地址是否被数据地址信息表中记录的任意一条地址对应关系中的外部存储空间的存储地址包含即可，不需要检查矩阵中的每一个数据的存储地址是否被数据地址信息表中记录的任意一条地址对应关系中的外部存储空间的存储地址包含。推广至N维空间，在N维空间中两个平行的超立方，也只需要检查操作数的主对角线上的两个顶点的数据的存储地址是否被数据地址信息表中记录的任意一条地址对应关系中的外部存储空间的存储地址包含即可。每一个表项的硬件结构除了表项记录所需的寄存器外，还可以配备两个判别器，两个判别器可以用于判断两个对角线的顶点是否满足包含条件，如果两个判别器均给出肯定判别，则认为表项命中，也就是说待查询的操作数在外部存储空间上的存储地址落入(表项)地址对应关系中的外部存储空间的存储地址中，表明待查询的操作数已保存在本地内存组件上。举例来说，假设：

记录表项10000[10,11][1,2][20,21]，

待查询项10053[4,5][6,7][18,19]

由记录表项的粒度标识，可以知道地址为10000+21*x1+x0的数据位于此张量内的条件为：

0<＝x0<21

2<＝x0<2+11

0<＝x1<20

1<＝x1<1+10

由待查询项的粒度标识，可以知道地址为10053+19*y1+y0的数据位于此张量内的条件为：

0<＝y0<19

7<＝y0<7+5

0<＝y1<18

6<＝y1<6+4

检查待查询项在主对角线上的两个顶点：y0,y1同时取极小值的点，和y0,y1同时取极大值的点，也分别对应着数据地址范围中的最小值和最大值。最小值为y0＝7,y1＝6，地址为10174；最大值为y0＝11,y1＝9，地址为10235。

检查10174和10235是否位于记录表项内部，首先要反求坐标x0和x1。令

10000+21*x1+x0＝10174

21*x1+x0＝174

因为，低维度变量(x0)的常数(1)总是高维度变量(x1)的常数(21)的因数，求解这个方程只需要做整数除法即可。(维度为1时可以直接得解；维度为2时需要一次整数除法；维度为n时需要连续做n-1次整数除法，每一次将余数作为被除数，从高维度向低维度依次赋值)

174/21＝8余6，舍去尾数，令x1＝8，则x0＝6。如此即可得到x的唯一解。

接下来判断x1＝8，x0＝6是否满足位于张量内部的条件。由于1<＝x1<11,2<＝x0<13，这个点是位于张量内部的。

如上判别器需要一个减法器(10174-10000)、n个整数除法器、2n个比较器可以实现。n为最大维度，通常在8以内。

两个判别器对两个顶点分别进行判断。如果两个判别器均给出肯定判别，则认为表项命中。

每一个TTT内不需要预留很多项，例如可以为8～32项，因为运算中处理的张量数量不多。做查询时，首先将极大、极小两个地址计算出来，将地址广播至每一个TTT、每一项记录的两个判别器，所有判别器都同时工作，TTT只需要返回任意一项给出肯定判别的表项。

对于步骤S12，若确定操作数已保存在本地内存组件上，则可以根据操作数在外部存储空间上的存储地址和数据地址信息表中记录的地址对应关系确定操作数在本地内存组件上的存储地址。具体可以为：将所述地址对应关系中，与所述操作数在外部存储空间上的存储地址对应的本地内存组件上的存储地址，作为所述操作数在本地内存组件上的存储地址。举例来说，如表1所示，若操作数在外部存储空间的存储地址为Out_addr1，那么根据表1中的地址对应关系可以确定操作数在本地内存组件上的存储地址为In_addr1；或者，若操作数在外部存储空间的存储地址为Out_addr1中的一部分，那么根据地址对应关系可以确定In_addr1中相应的部分为操作数在本地内存组件上的存储地址，具体地，Out_addr1为addr11～addr12，操作数在外部存储空间的存储地址为addr11～addr12中的一段addr13～ addr14，那么In_addr1中与addr13～addr14段对应的地址为操作数在本地内存组件上的存储地址。

对于步骤S13，其中的获取所述操作数的指令可以是指数据加载指令，在步骤S12中确定了操作数在本地内存组件上的存储地址后，可以将操作数在本地内存组件上的存储地址绑定到与操作数对应的数据加载指令上，这样，处理器可以直接执行数据加载指令，从本地内存组件上获取操作数，省去了从外部存储空间加载操作数到本地内存组件的过程，节省带宽资源。

图18示出根据本公开一实施例的操作数的获取方法的流程图。如图18所示，所述方法还可以包括：

步骤S14，若操作数未保存在本地内存组件上，则根据所述操作数的存储地址生成加载操作数的控制信号，所述加载操作数的控制信号用于将所述操作数从所述操作数的存储地址加载到本地内存组件上。

如果操作数没有保存在本地内存组件上，则可以按照正常的过程将操作数从外部存储空间加载到本地内存组件上。具体过程可以为，可以在本地内存组件上为操作数分配内存空间，确定分配的内存空间的地址，根据数据加载指令绑定的操作数的存储地址以及分配的内存空间的地址生成加载操作数的控制信号，将加载操作数的控制信号发送给DMA，DMA根据控制信号将操作数从操作数的存储地址加载到本地内存组件上。

在一种可能的实现方式中，如图18所述，所述方法还可以包括：

步骤S15，当从外部存储空间上加载操作数到本地内存组件时，根据加载的操作数在外部存储空间上的存储地址和在本地内存组件上的存储地址更新所述数据地址信息表。

在一种可能的实现方式中，加载的操作数覆盖了本地内存组件上原来存储的操作数，可以用加载的操作数在外部存储空间上的存储地址和在本地内存组件上的存储地址的对应关系，替换数据地址信息表中上述原来存储的操作数的地址对应关系。具体过程也可以为，先判断记载的操作数在外部存储空间上的存储地址与地址对应关系中的外部存储空间上的存储地址是否存在重叠，如果存在重叠，则可以无效原来记录的地址对应关系，并记录新加载的操作数的地址对应关系，也就是记录加载的操作数在外部存储空间上的存储地址和在本地内存组件上的存储地址的对应关系。

举例来说，如表1所示，处理器将In_addr1的内存空间分配给了上述操作数，加载操作数后覆盖了In_addr1的内存空间处原来存储的数据，此时，可以将数据地址信息表中Out_addr1和In_addr1的地址对应关系无效，替换为Out_addr3和In_addr1的地址对应关系。需要说明的是，以上仅仅是本公开的一个示例，不以任何方式限制本公开，例如，In_addr1表示的是一段内存空间，处理器只是分配了其中的一部分内存空间In_addr3给上述操作数，那么可以采用Out_addr3和In_addr3的地址对应关系替换原来的Out_addr1和In_addr1的地址对应关系。

在一种可能的实现方式中，将数据地址信息表中原来的地址对应关系替换为：加载的操作数在外部存储空间上的存储地址和在本地内存组件上的存储地址的对应关系。在本实施方式中，数据地址信息中只记录最近一次加载的操作数的地址对应关系。因此，在从外部存储空间上加载操作数到本地内存组件时，直接将数据地址信息表中原来的地址对应关系替换为：加载的操作数在外部存储空间上的存储地址和在本地内存组件上的存储地址的对应关系。具体过程也可以包括上述无效的过程，也就是可以设置老化时间，在记录了一条地址对应关系后，可以开始计时，在到达老化时间时，可以设置相应的地址对应关系无效，即使要加载新的操作数时，查找到数据地址信息表中记录了本地内存组件已经保存了要加载的操作数，但是由于地址对应关系已经无效了，返回的结果仍然是未保存在本地内存组件上。

其中，老化时间的长短可以根据对带宽和效率的需求平衡而设置，本公开对老化时间的长短不作具体限定。在一种可能的实现方式中，老化时间可以设置为大于或等于两个流水线周期，一个流水线周期可以是指运算节点的流水线向前传播一级需要的时间。

也就是说，对于步骤S11，在地址对应关系有效，且地址对应关系中的在外部存储空间上的存储地址包含要加载的操作数在外部存储空间上的存储地址时，才会返回操作数已保存在本地内存组件上的结果，以上两个条件中的任何一个不满足，都不会返回操作数以保存在本地内存组件上的结果，比如说，地址对应关系无效，不会返回操作数以保存在本地内存组件上的结果，或者虽然地址对应关系有效，但地址对应关系中的在外部存储空间上的存储地址不包含要加载的操作数在外部存储空间上的存储地址，则不会返回操作数以保存在本地内存组件上的结果。

在一种可能的实现方式中，还可以在数据地址信息表中记录地址对应关系的无效标识位，无效标识位可以表示地址对应关系是否有效，例如，无效标识位为1表示有效，为0可以表示无效。相应的，在记录一条地址对应关系后，可以设置对应的无效标识位为1，到达老化时间时，将无效标识设置为0。

根据本公开上述实施方式的操作数的获取方法，在操作数已保存在本地内存组件上时，处理器可以直接执行数据加载指令，从本地内存组件上获取操作数，省去了从外部存储空间加载操作数到本地内存组件的过程，节省带宽资源。

在一种可能的实现方式中，本公开的方法可以应用于运算装置，该运算装置可以包括：多层运算节点，每一个运算节点包括本地内存组件、处理器以及下一层运算节点，所述外部存储空间可以为所述运算节点的上一层运算节点的内存组件或者下一层运算节点的内存组件。

下面结合图3所示的运算装置对本申请的实施方式进行说明，在一种可能的实现方式中，运算装置中可以设置有张量置换表(数据地址信息表的一个示例)，张量置换表中可以记录静态内存段中存储的操作数在外部存储空间上的存储地址和在静态内存段中的存储地址的对应关系，此处的外部存储空间可以指上一层运算节点的内存组件。

SD在静态内存段中为共用操作数分配内存空间之前时，可以先在张量置换表中查找共用操作数是否已保存在本地内存组件的静态内存段上，若已经保存在了本地内存组件的静态内存段上，则根据共用操作数在外部存储空间上的存储地址(操作数在上一层运算节点的内存组件上的存储地址)和张量置换表确定所述共用操作数在本地内存组件上的存储地址；将所述共用操作数在本地内存组件上的存储地址赋值给上述头部指令。

对于图15中对应的操作数分配地址的实施方式，在本公开的实施方式中可以设置多个张量置换表分别记录静态内存段的不同端存储的操作数在外部存储空间上的存储地址和在静态内存段中的存储地址的对应关系。这样，步骤S15，可以包括：当从外部存储空间上加载操作数到所述静态内存段时，根据第二计数器的计数值确定待更新的数据地址信息表(张量置换表)；根据加载的操作数在外部存储空间上的存储地址和在静态内存段上的存储地址更新所述待更新数据地址信息表(张量置换表)。其中的外部存储空间可以是当前运算节点的上一层运算节点的内存组件。

举例来说，运算节点中可以设置有张量置换表1和张量置换表2，张量置换表1用于记录静态内存段左侧一端存储的操作数的地址的对应关系，张量置换表2用于记录静态内存段右侧一端存储的操作数的地址的对应关系。

以上文中的示例为例，SD从SQ中获取输入指令1，对输入指令1进行串行分解后得到多个串行子指令1，多个串行子指令1共用操作数1，SD要从静态内存段中为操作数1分配内存空间，SD在张量置换表1和张量置换表2中查找共用操作数1是否已保存在静态内存段上，若没有保存在静态内存段上，假设此时计数器2的计数值为0，那么SD可以从图15所示的左侧一端为操作数1分配内存空间，并在张量置换表1中记录共用操作数1在上一层运算节点的内存组件中的存储地址与本地内存组件中的存储地址的对应关系。

SD从SQ中获取输入指令2，对输入指令2进行串行分解后得到多个串行子指令2，多个串行子指令2共用操作数2，SD要从静态内存段中为操作数2分配内存空间，SD在张量置换表1和张量置换表2中查找共用操作数3是否已保存在静态内存段上，若没有保存在静态内存段上，假设此时计数器2的计数值为1，那么SD可以从图15所示的右侧一端为操作数2分配内存空间，并在张量置换表2中记录共用操作数2在上一层运算节点的内存组件中的存储地址与本地内存组件中的存储地址的对应关系。

在张量置换表中记录地址对应关系后，SD可以分别设置与地址对应关系相应计时器开始计时，在计时器到达老化时间时，SD可以设置与计时器相应的地址对应关系无效。如上所述的示例，针对共用操作数1的地址对应关系，可以设置计时器1，针对共用操作数2的地址对应关系可以设置计时器2，在计时器1、计时器2到达老化时间之前，共用操作数1的地址对应关系和共用操作数2的地址对应关系都是有效的，在计时器1到达老化时间后，可以设置共用操作数1的地址对应关系无效，在计时器2到达老化时间后，可以设置共用操作数2的地址对应关系无效。

SD从SQ中获取输入指令3，对输入指令3进行串行分解后得到多个串行子指令3，多个串行子指令3共用操作数3，SD要从静态内存段中为操作数3分配内存空间，SD在张量置换表1和张量置换表2中查找共用操作数3是否已保存在静态内存段上，若查找到已保存的共用操作数1中的一部分为共用操作数3，则直接将与共用操作数3对应的共用操作数1的存储地址绑定到头部指令上。

需要说明的是，如果共用操作数1的地址对应关系无效时，是不会返回共用操作数3以保存在静态内存上的结果的，在共用操作数1的地址对应关系相应的计时器1未到达老化时间，且共用操作数1的地址对应关系中的在外部存储空间上的存储地址包含共用操作数3在外部存储空间上的存储地址，才会返回共用操作数3以存储在静态内存段上的结果。

通过上述实施方式的内存分配方式，可以在降低内存管理复杂性，并且提高内存空间利用率的同时，节省带宽资源。

对于本实施方式的内存管理方式，可以设置多个张量置换表(数据地址信息表的示例)分别记录循环内存段的不同子内存块存储的操作数。DD在循环内存段上为操作数分配内存空间之前，可以先在与循环内存段对应的多个张量置换表中查找操作数是否已保存在本地内存组件的循环内存段上，若已经保存在了本地内存组件的循环内存段上，则根据张量置换表确定所述操作数在本地内存组件上的存储地址，将所述操作数在本地内存组件上的存储地址赋值给获取操作数的指令；若未保存在本地内存组件的循环内存段上，则加载数据。

在图12所示的内存管理方式的实施方式中，同样可以在张量置换表中记录地址对应关系的无效标识位，并且，在记录一条地址对应关系后，可以设置计时器进行计时，在计时器到达老化时间时，将地址对应关系设置为无效。而且，在张量置换表中的地址对应关系为有效，且地址对应关系中的在外部存储空间上的存储地址包含要加载的操作数在外部存储空间上的存储地址，才会返回要加载的操作数已经保存在了本地内存组件的循环内存段上的结果。

在本实施方式中，步骤S15可以包括：当从外部存储空间上加载操作数到循环内存段上的多个子内存块中的任一子内存块时，DD可以根据加载的操作数在外部存储空间上的存储地址和在本地内存组件上的存储地址更新与所述任一子内存块对应的数据地址信息表(张量置换表)。

例如，对于任一子内存块，分别设置与该任一子内存块对应的张量置换表，对于包含3个子内存块的示例：循环内存段0、循环内存段1和循环内存段2，可以设置张量置换表4、张量置换表5和张量置换表6分别与循环内存段0、循环内存段1和循环内存段2对应。这样，当从外部存储空间上加载操作数到循环内存段0时，根据加载的操作数在外部存储空间上的存储地址和在本地内存组件上的存储地址更新张量置换表4。

在一种可能的实现方式中，所述处理器中设置有第三计数器，所述循环内存段包括多段子内存块，所述处理器在所述循环内存段中为所述多个子指令的其他操作数分配内存空间，包括：所述处理器从所述循环内存段中与所述第三计数器的计数值对应的子内存块内，为所述其他操作数分配内存空间。

在一种可能的实现方式中，处理器中的DD在对所述多个子指令进行指令译码过程中，从所述循环内存段中与所述第三计数器的计数值对应的子内存块内，为所述其他操作数分配内存空间。

如图12所示，将循环内存段划分为多段子内存块，例如3段子内存块，所述3段子内存块的内存容量大小可以相同，也可以不同，本公开对此不作限定。处理器中可以设置有计数器3，DD从SQ中获取串行子指令后，对于串行子指令中的主体指令，可以按照主体指令以及计数器3的计数值顺序为其分配循环内存段的内存空间，在分配内存空间之前，DD可以在与循环内存段对应的多个张量置换表中查找操作数是否已保存在本地内存组件的循环内存段上，若已经保存在了本地内存组件的循环内存段上，则将所述操作数在本地内存组件上的存储地址赋值给获取操作数的指令。

举例来说，若获取了一条主体指令1，在张量置换表4、张量置换表5和张量置换表6中查找主体指令1的操作数是否已保存在本地内存组件的循环内存段上，若未保存在循环内存段上，且计数器3的计数值为0，那么DD将在循环内存段0中为主体指令1的操作数分配内存空间；然后获取了一条主体指令2，在张量置换表4、张量置换表5和张量置换表6中查找主体指令2的操作数是否已保存在本地内存组件的循环内存段上，若未保存在循环内存段上，且此时计数器3的计数值为1，那么DD将在循环内存段1中为主体指令2的操作数分配内存空间；然后获取了一条主体指令3，在张量置换表4、张量置换表5和张量置换表6中查找主体指令3的操作数是否已保存在本地内存组件的循环内存段上，若保存在循环内存段上，那么DD将操作数在本地内存组件上的存储地址赋值给获取操作数的指令，这样PD在执行主体指令3时可以直接从本地内存组件的循环内存段上获取操作数，不需要DMAC上上一层运算节点加载到本地内存组件的循环内存段上。

在一种可能的实现方式中，本公开的操作数的获取方法支持以“流水线前递”的形式进行数据重用，下一条指令可使用前一条指令的结果作为输入，从而使两条指令在流水线执行时没有气泡阻隔。

举例说明。现在有两条指令：

ELTW A,B；

ELTW B,C

假设它们都不需要RD。

在没有张量置换表时，B需要先被第一条指令WB，然后再被第二条指令LD。流水线是：

ID LD EX RD WB；

__ __ __ __ ID LD EX RD WB；

加入了张量置换表之后，张量置换表会记录到第一条指令输出操作数B存储在本地的内存组件上的地址，且输出操作数会在EX阶段结束后准备完毕；相应地，第二条指令的输入操作数地址被替换为本地内存组件上的地址后，LD阶段变为空泡，EX作为指令的初始阶段被直接安排在数据准备完毕的那一拍。流水线是：

ID LD EX RD WB；

__ ID LD EX RD WB；

流水线的执行变得和没有依赖一样，数据被从第一条指令的EX直接传递至第二条指令的EX。这种技术在传统静态流水线处理器里被称为“流水线前递”，是通过增加额外数据通路实现的，而在本案通过张量置换表实现了相同的效果，相比于传统的静态流水线可以简化数据通路，降低处理器结构的复杂度。

为了更好的实现可以分解的运算，本公开还提供了一种指令集架构，该指令集架构中的指令在执行时是可以分解的。

对于上文所述的可以分解的运算，对运算分解后，对应的输入指令也被分解为多条子指令，执行子指令可以完成输入指令的操作数中部分操作数的运算。

在一种可能的实现方式中，所述处理器还用于根据多个子指令生成对应的多个控制信号，并将多个控制信号发送给内存控制器；所述内存控制器根据每个控制信号控制所述数据通路，从上一层运算节点的内存组件中加载该控制信号对应的子指令的操作数到本地内存组件。

对于任意一个运算节点，其中的处理器可以接收上一层运算节点发送的输入指令或者通过其他方式输入(例如用户编程)的输入指令。输入指令可以包括：运算符、操作数参数，所述操作数参数可以是指向输入指令的操作数的参数，所述操作数参数可以包括全局参数和局部参数，全局参数是表示输入指令对应的第一操作数的大小的参数，局部参数是表示输入指令的第二操作数在所述第一操作数中的起始位置和第二操作数的大小的参数。也就是说，第二操作数可以是第一操作数中的部分数据或者全部数据，执行输入指令时可以实现对第二操作数的处理，对第二操作数的处理可以是与输入指令的运算符对应的处理。

在一种可能的实现方式中，所述内存控制器用于根据所述操作数参数从所述任意一个运算节点的上一层运算节点的内存组件加载多个子指令对应的第一操作数中的第二操作数到所述本地内存组件。

也就是说，本公开的运算装置采用的指令可以是一个三元组<O，P，G>，其中，O表示运算符，P表示一个操作数的有限集，G表示粒度指标，具体的表现形式可以为“O，P[N][n1][n2]”，其中，N可以为正整数，表示全局参数，根据张量维度的不同可以设置多个不同的N，n1和n2为小于N的自然数，表示局部参数，其中，n1表示对操作数进行运算时的起始位置，n2表示大小，执行上述指令可以实现对操作数P中n1到n1+n2的操作数的运算O，同样的，根据张量维度的不同可以设置多个不同的n1和n2。

本公开的运算装置的每一层接收到的输入指令的格式都是相同的，因此，可以自动完成指令的分解、执行指令对应的操作，等等。不同层的运算节点、不同规模的计算机上都具有相同的编程接口和指令集架构，能够执行相同格式的程序，层与层之间隐式装载数据，简化用户编程的复度性，且运算装置的扩展或者程序在不同运算装置之间的移植都非常容易。

以图3所示的示例为例对本公开的运算装置采用的指令集架构进行说明，假设第一层运算节点接收的外部输入的输入指令为C＝“ADD，A[N][0][N]，B[N][0][N]”，其中，“ADD”表示运算符，A[N][0][N]和B[N][0][N]为操作数及操作数参数，第一个N表示操作数A和B的大小，“0”表示对操作数A和B执行加运算时的起始位置，第二个N表示执行加运算的操作数的大小。执行上述指令可以实现对操作数A和B的加运算。

在一种可能的实现方式中，任意一个运算节点都可以对输入指令进行分解得到多个子指令，所述输入指令和多个子指令具有相同的格式，至少部分子指令的运算符与输入指令的运算符是相同的。

在一种可能的实现方式中，任意一个运算节点在收到输入指令后，可以根据下一层运算节点的数量对输入指令进行分解得到多个并行子指令，执行一个并行子指令可以完成输入指令对应的操作数的部分操作数的运算，执行全部并行子指令可以完成输入指令对应的运算。

第一层运算节点可以根据下一层运算节点的数量对接收到的输入指令进行分解得到多个并行子指令，如图1所示，第一层运算节点包括3个下一层运算节点，因此，可以将上述输入指令分解为至少三个并行子指令：

C1＝“ADD，A[N][0][N/3]，B[N][0][N/3]”，

C2＝“ADD，A[N][(N/3)+1][N/3]，B[N][(N/3)+1][N/3]”，

C3＝“ADD，A[N][(2N/3)+1][N/3]，B[N][(2N/3)+1][N/3]”，

C1、C2和C3与C的格式都相同。

第一层运算节点可以将分解后的并行子指令发送给下一层运算节点，下一层运算节点接收到并行子指令C1、C2和C3，可以进行类似的分解，直到最后一层运算节点。

对于操作数的存储，为了避免不用层之间频繁的数据交换，任意一个(当前)运算节点在接收到上一层运算节点发送的输入指令后，可以根据输入指令的操作数参数从上一层运算节点的内存组件中读取相应的操作数，并保存在当前运算节点的内存组件中，任意一个运算节点在执行完输入指令得到运算结果后，还可以将运算结果写回到上一层运算节点的内存组件中。例如，当前运算节点的处理器可以根据输入指令的操作数参数向内存控制器发送控制信号，内存控制器可以根据控制信号控制当前运算节点的内存组件和上一层运算节点的内存组件之间连接的数据通路，从而将输入指令的操作数加载到当前运算节点的内存组件中。

在一种可能的实现方式中，任意一个运算节点的所述内存控制器包括第一内存控制器和第二内存控制器，第一内存控制器可以通过第二内存控制器(例如，DMA，Direct Memory Access，直接内存存取)连接数据通路，第一内存控制器可以为DMAC(Direct Memory Access controller)，第一内存控制器可以根据控制信号生成加载指令，将加载指令发送给第二内存控制器，由第二内存控制器根据加载指令控制数据通路，实现数据的加载。第一内存控制器可以通过硬件电路或者软件程序的方式实现，本公开对此不作限定。

第一内存控制器可以根据控制信号确定基地址、起始偏移量、加载数据的数量、跳转的偏移量等参数，然后根据基地址、起始偏移量、加载数据的数量、跳转的偏移量等参数生成加载指令，还可以根据操作数的维度设置循环加载数据的次数。其中，基地址可以是原操作数在内存组件中存储的起始地址；起始偏移量可以为要读的操作数在原操作数中开始的位置，起始偏移量可以根据局部参数中的起始位置确定；加载数据的数量可以为从起始偏移量开始加载的操作数的个数，加载数据的数量可以根据局部参数中的大小确定；跳转的偏移量表示下一部分要读的操作数在原操作数中开始的位置相对于上一部分读的操作数在原始操作数中开始的位置之间的偏移，也就是说，跳转的偏移量为下一部分读取数据的起始偏移量相对于上一部分读取数据的起始偏移量的偏移量，跳转的偏移量可以根据全部参数或局部参数确定。

举例来说，可以将起始位置作为起始偏移量，将局部参数中的大小作为一次加载的数据的数量，可以将局部参数中的大小作为跳转的偏移量。

示例性的，仍然以上文中的示例为例，第二层运算节点在接收到输入指令C1时，处理器可以根据输入指令C1生成控制信号“Load A[N][0][N/3]，A’”以及“Load B[N][0][N/3]，B’”，其中，A’和B’是处理器在第二层运算节点的内存组件上分配的内存空间。第一内存控制器可以根据控制信号设置起始偏移量为0，加载数据的数量为N/3，由于操作数A为一维向量，所以，可以不设置跳转的偏移量以及循环加载数据的次数。对于操作数B可以采用同样的方式生成加载指令进行数据加载。

示例性的，如图9所示，假设操作数P为M行N列的矩阵P[M,N]，控制信号为“Load P[M,N][0,0][M,N/2]，P’”。第一内存控制器根据控制信号可以设置在行和列方向的起始偏移量均为0，加载数据的数量为N/2，跳转的偏移量为N，循环的次数为M。如图9所示，从第一行第一列开始读取N/2列数据，跳转到第二行第一列读取N/2列数据……循环M次可以完成数据的加载。

下面结合图5、图9和图10a所示的示例，对本公开加载操作数的过程进行详细的说明。

第i层的一个运算节点的处理器中的SD从IQ中获取输入指令，输入指令的操作数为P[M,N][0,0][M,N/2]，SD确定存储操作数P[M,N][0,0][M,N/2]需要的内存容量大于内存组件的容量，需要对输入指令进行串行分解。根据图5所示的过程确定分解的粒度为M、N/4，也就是说，串行子指令的操作数分别为P[M,N][0,0][M,N/4]和P[M,N][0,(N/4)+1][M,N/2]。SD将串行子指令输出到SQ，DD从SQ中获取串行子指令。DD可以为串行子指令的操作数分配内存空间，并将分配的内存空间的地址(本地地址)绑定到串行子指令中获取操作数的指令上，也就是说，DD可以生成控制信号：

Load P[M,N][0,0][M,N/4],P1’；

第一内存控制器根据控制信号可以设置在行和列方向的起始偏移量均为0，加载数据的数量为N/4，跳转的偏移量为N，循环的次数为M。如图9所示，从第一行第一列开始读取N/4列数据写到本地内存组件P1’的位置，跳转到第二行第一列读取N/4列数据……循环M次可以完成数据的加载。第一内存控制器可以根据确定的基地址、起始偏移量、加载数据的数量、跳转的偏移量数生成加载指令，将加载指令发送给第二内存控制器，第二内存控制器根据加载指令以上述方式读取操作数并写入到本地内存组件中。

DD在获取到与操作数P[M,N][0,(N/4)+1][M,N/2]对应的串行子指令时，还可以生成控制信号：

Load P[M,N][0,(N/4)+1][M,N/2],P2’；

第一内存控制器根据控制信号可以设置在行起始偏移量为0，在列方向的起始偏移量为(N/4)+1，加载数据的数量为N/4，跳转的偏移量为N，循环的次数为M。如图9所示，从第一行第(N/4)+1列开始读取N/4列数据写到本地内存组件P1’的位置，跳转到第二行第(N/4)+1列读取N/4列数据……循环M次可以完成数据的加载。

需要说明的是，以上仅仅是为了更清楚的说明本公开的数据加载的方法而列举的示例，不以任何方式限制本公开。

在一种可能的实现方式中，所述任意一个运算节点的内存组件包括静态内存段以及动态内存段，若所述输入指令的操作数包括共用操作数以及其他操作数，则串行分解器根据所述共用操作数需要的内存容量与所述静态内存段的剩余容量之间的大小关系、以及所述其他操作数需要的内存容量与动态内存段的容量之间的大小关系，对所述输入指令进行串行分解得到串行子指令。

举例来说，对于机器学习中的一些运算，这些运算被分解后的几部分运算之间会共用一部分操作数，对于这部分操作数，本公开称作共用操作数。以矩阵相乘运算作为示例，假设输入指令为对矩阵X和Y相乘，如果仅仅对矩阵X进行分解，那么对输入指令进行串行分解得到的串行子指令需要共同使用操作数Y，操作数Y为共用操作数。

对于共用操作数，本公开的串行分解器SD可以在进行串行分解时生成一条提示性指令(“装载”)，并在提示性指令中指明将共用操作数装载到静态内存段中，DD将提示性指令作为一条只需要装载数据至静态内存段、而无需执行、规约或写回的普通串行子指令处理，DD根据提示性指令向第一内存控制器发送第一控制信号以将共用操作数加载到静态内存段，以避免频繁存取数据、节约带宽资源。对于其他操作数，DD可以生成第二控制信号，DD可以将生成的第二控制信号发送给第一内存控制器，由第一内存控制器根据控制信号控制第二内存控制器将其他操作数加载到动态内存段中。内存控制器加载共用操作数和其他操作数的过程都可以参见上文描述的过程，不再赘述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本披露并不受所描述的动作顺序的限制，因为依据本披露，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本披露所必须的。

进一步需要说明的是，虽然图中的各个模块按照箭头的指示依次显示，但是这些并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，执行顺序并没有严格的顺序限制。

应该理解，上述的装置实施例仅是示意性的，本披露的装置还可通过其它的方式实现。例如，上述实施例中所述单元/模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，多个单元、模块或组件可以结合，或者可以集成到另一个系统，或一些特征可以忽略或不执行。

另外，若无特别说明，在本披露各个实施例中的各功能单元/模块可以集成在一个单元/模块中，也可以是各个单元/模块单独物理存在，也可以两个或两个以上单元/模块集成在一起。上述集成的单元/模块既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元/模块如果以硬件的形式实现时，该硬件可以是数字电路，模拟电路等等。硬件结构的物理实现包括但不局限于晶体管，忆阻器等等。若无特别说明，处理器可以是任何适当的硬件处理器，比如CPU、GPU、FPGA、DSP和ASIC等等。若无特别说明，所述内存组件可以是任何适当的磁存储介质或者磁光存储介质，比如，阻变式存储器RRAM(Resistive Random Access Memory)、动态随机存取存储器DRAM(Dynamic Random Access Memory)、静态随机存取存储器SRAM(Static Random-Access Memory)、增强动态随机存取存储器EDRAM(Enhanced Dynamic Random Access Memory)、高带宽内存HBM(High-Bandwidth Memory)、混合存储立方HMC(Hybrid Memory Cube)等等。

所述集成的单元/模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本披露的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本披露各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM， Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。上述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种运算装置，其特征在于，包括：至少两层运算节点，每一个运算节点包括内存组件、处理器以及下一层运算节点；

对于任意一个运算节点，所述任意一个运算节点中的处理器用于对所述任意一个运算节点的输入指令进行分解，获得并行子指令，并将并行子指令发送给所述任意一个运算节点的下一层运算节点；

所述任意一个运算节点还用于从上一层运算节点的内存组件中加载执行所述并行子指令需要的操作数到所述任意一个运算节点的内存组件，以使所述任意一个运算节点的下一层运算节点根据所述操作数并行执行所述并行子指令。
根据权利要求1所述的运算装置，其特征在于，所述任意一个运算节点还包括：内存控制器，

所述任意一个运算节点的内存组件与所述任意一个运算节点的上一层运算节点和下一层运算节点的内存组件之间连接有数据通路，所述内存控制器连接所述数据通路，控制所述数据通路将输入指令的操作数从一个内存组件送往另一个内存组件。
根据权利要求2所述的运算装置，其特征在于，所述处理器包括：串行分解器、并行分解器以及译码器，所述内存控制器连接所述串行分解器和所述译码器；

其中，所述串行分解器用于根据所述任意一个运算节点的内存组件的容量、以及所述输入指令需要的内存容量，对所述输入指令进行串行分解得到串行子指令；

所述译码器用于对所述串行子指令进行译码处理后发送给所述并行分解器、并根据串行子指令向所述内存控制器发送控制信号，所述内存控制器根据所述控制信号从上一层运算节点的内存组件中加载执行所述串行子指令需要的操作数到所述任意一个运算节点的内存组件；

所述并行分解器用于根据所述下一层运算节点的数量，对译码后的串行子指令进行并行分解得到并行子指令，并将并行子指令发送给所述下一层运算节点，以使所述下一层运算节点根据所述操作数执行并行子指令。
根据权利要求3所述的运算装置，其特征在于，若所述输入指令需要的内存大于所述任意一个运算节点的内存组件的容量，则所述串行分解器根据所述输入指令需要的内存和所述任意一个运算节点的内存组件的容量，对所述输入指令进行串行分解得到串行子指令。
根据权利要求2-4任意一项所述的运算装置，其特征在于，所述任意一个运算节点的内存组件包括静态内存段以及动态内存段，若所述输入指令的操作数包括共用操作数以及其他操作数，则串行分解器根据所述共用操作数需要的内存容量与所述静态内存段的剩余容量之间的大小关系、以及所述其他操作数需要的内存容量与动态内存段的容量之间的大小关系，对所述输入指令进行串行分解得到串行子指令，

其中，所述共用操作数为所述串行子指令共同使用的操作数，其他操作数为所述输入指令的操作数中除了所述共用操作数以外的数据。
根据权利要求5所述的运算装置，其特征在于，分解得到的串行子指令包括头部指令和主体指令，所述译码器根据所述头部指令向所述内存控制器发送第一控制信号，所述内存控制器根据所述第一控制信号从上一层运算节点的内存组件中加载所述共用操作数到所述静态内存段；

所述译码器根据所述主体指令向所述内存控制器发送第二控制信号，所述内存控制器根据所述第二控制信号从上一层运算节点的内存组件中加载所述其他数据到所述动态内存段。
根据权利要求3所述的运算装置，其特征在于，并行分解得到的并行子指令对应的操作数之间不存在重叠的部分。
根据权利要求2-7任意一项所述的运算装置，其特征在于，所述处理器还包括控制单元，所述任意一个运算节点还包括本地处理单元，

所述控制单元的输入端连接所述译码器的输出端，所述控制单元的输出端连接所述本地处理单元的输入端。
根据权利要求8所述的运算装置，其特征在于，

若所述串行子指令存在输出依赖，所述控制单元根据所述串行子指令控制所述本地处理单元对所述下一层运算节点的运算结果进行归约处理得到所述输入指令的运算结果；

其中，所述串行子指令存在输出依赖是指，需要对所述串行子指令的运算结果进行归约处理才能得到所述输入指令的运算结果。
根据权利要求9所述的运算装置，其特征在于，若所述控制单元检测到对所述下一层运算节点的运算结果进行归约处理所需要的资源大于所述本地处理单元的资源上限，则所述控制单元根据所述串行子指令向所述并行分解器发送委托指令，

所述并行分解器根据所述委托指令控制所述下一层运算节点对所述下一层运算节点的运算结果进行归约处理得到所述输入指令的运算结果。