WO2024065869A1

WO2024065869A1 - 一种用于图计算的指令执行方法及装置

Info

Publication number: WO2024065869A1
Application number: PCT/CN2022/124006
Authority: WO
Inventors: 王宏升; 陈�光; 曾令仿; 潘爱民
Original assignee: 之江实验室
Priority date: 2022-09-27
Filing date: 2022-10-09
Publication date: 2024-04-04
Also published as: US20240118897A1; CN115269016A

Abstract

本发明公开了一种用于图计算的指令执行方法及装置，包括以下步骤：步骤S1：将用于神经网络计算的计算图中每个节点的算子下发到算子解释器；步骤S2：算子解释器构建运行时的指令；步骤S3：定义指令依赖关系；步骤S4：构建指令依赖关系图；步骤S5：构建并行指令的拓扑顺序；步骤S6：将并行指令调度到硬件资源上；步骤S7：构建并行指令的最短调度：在硬件资源限制的条件下并行指令执行所需的最短时间；步骤S8：释放已经执行完的指令。本发明从全局角度分析计算图执行过程中节点所包含指令之间的依赖关系以及基于依赖关系推导全局计算图中可并行执行指令的拓扑顺序，提供了将并行指令最快地调度到硬件资源上的方法和装置，优化了计算图的编译效率。

Description

一种用于图计算的指令执行方法及装置

相关申请的交叉引用

本发明要求于2022年9月27日向中国国家知识产权局提交的申请号为CN 202211177797.3、发明名称为“一种用于图计算的指令执行方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及一种基于特定计算模型的计算机系统技术领域，尤其涉及一种用于图计算的指令执行方法及装置。

背景技术

随着近几年神经网络模型的落地，面向神经网络编译的技术变得越来越重要。已有的计算图编译技术仍未从全局角度分析计算图执行过程中节点所包含指令之间的依赖关系以及基于依赖关系推导全局计算图中可并行执行指令的拓扑顺序。本发明通过分析计算图执行过程中指令之间的依赖关系，构建并行指令拓扑顺序，提供了将并行指令最快地调度到硬件资源上的方法和装置，提供了一种用于图计算的指令执行方法及装置的编译技术。

发明内容

本发明的目的在于提供一种用于图计算的指令执行方法及装置，解决了如何从全局角度分析计算图执行过程中节点所包含指令之间的依赖关系以及基于依赖关系推导全局计算图中可并行执行指令的拓扑顺序，将并行指令最快地调度到硬件资源上的问题。

本发明采用的技术方案如下：

一种用于图计算的指令执行方法，包括以下步骤：

步骤S1：将用于神经网络计算的计算图中每个节点的算子下发到算子解释器；

步骤S2：算子解释器构建运行时的指令；

步骤S3：定义指令依赖关系；

步骤S4：构建指令依赖关系图；

步骤S5：构建并行指令的拓扑顺序；

步骤S6：将并行指令调度到硬件资源上；

步骤S7：构建并行指令的最短调度：在硬件资源限制的条件下并行指令执行所需的最短时间；

步骤S8：释放已经执行完的指令。

进一步地，所述步骤S3所述指令依赖关系包括写读强依赖关系、读写弱依赖关系和写写弱依赖关系。

进一步地，所述写读强依赖关系为：根据指令操作先写寄存器，后读同一寄存器，且后读同一寄存器的指令操作依赖先写寄存器的指令操作。

进一步地，所述读写弱依赖关系为：根据指令操作先读寄存器，后写同一寄存器，且后写同一寄存器的指令操作依赖先读寄存器的指令操作。

进一步地，所述写写弱依赖关系为：根据指令操作先写寄存器，后写同一寄存器，且后写同一寄存器的指令操作依赖先写寄存器的指令操作。

进一步地，所述步骤S4的具体步骤为：根据计算图的拓扑结构依次遍历每个节点，并通过分析每个节点指令与其后继节点指令的依赖关系，构建每个节点的依赖关系边构成指令依赖关系图。

进一步地，所述步骤S5的具体步骤为：根据计算图的拓扑结构依次遍历每个计算节点，同时根据所述指令依赖关系图获得执行流中每一步并行执行指令，得到并行指令的拓扑顺序。

进一步地，所述步骤S6的具体步骤为：根据所述指令依赖关系图的拓扑顺序，将每一步并行执行指令调度到对应的硬件资源上。

本发明还提供一种用于图计算的指令执行装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中任一项所述的一种用于图计算的指令执行方法。

本发明还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中任一项所述的一种用于图计算的指令执行方法。

本发明的有益效果是：本发明从全局角度分析计算图执行过程中节点所包含指令之间的依赖关系以及基于依赖关系推导全局计算图中可并行执行指令的拓扑顺序，提供了将并行指令最快地调度到硬件资源上的方法和装置。通过分析和设计并行计算操作来提高图计算的指令执行效率，并且提供了一种用于图计算的指令执行方法及装置的编译技术。研究人员和工程应用者开发算法模型的过程中，利用所述的一种用于图计算的指令执行方法及装置优化模型，优化了计算图的编译效率，推动了深所述关系图中度神经网络模型落地应用的发展。

附图说明

图1为本发明一种用于图计算的指令执行方法的流程示意图；

图2为实施例用于图计算的指令执行方法的架构图；

图3为实施例用于神经网络计算的计算图；

图4为实施例算子解释器构建运行时的指令；

图5为实施例指令之间的依赖关系；

图6为实施例分析指令依赖关系；

图7为实施例第一步并行执行指令；

图8为实施例第二步并行执行指令；

图9为实施例第三步并行执行指令；

图10为实施例第四步并行执行指令；

图11为实施例第五步并行执行指令；

图12为实施例第六步并行执行指令；

图13为实施例第七步并行执行指令；

图14为实施例第八步并行执行指令；

图15为实施例分析指令并行执行顺序；

图16为实施例最短调度并行指令；

图17为本发明一种用于图计算的指令执行装置的结构示意图。

具体实施方式

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，一种用于图计算的指令执行方法，包括以下步骤：

步骤S2：算子解释器构建运行时的指令；

步骤S3：定义指令依赖关系；

所述指令依赖关系包括写读强依赖关系、读写弱依赖关系和写写弱依赖关系；

进一步地，所述写读强依赖关系为：根据指令操作先写寄存器，后读同一寄存器，且后读同一寄存器的指令操作依赖先写寄存器的指令操作；

进一步地，所述读写弱依赖关系为：根据指令操作先读寄存器，后写同一寄存器，且后写同一寄存器的指令操作依赖先读寄存器的指令操作；

步骤S4：构建指令依赖关系图；

根据计算图的拓扑结构依次遍历每个节点，并通过分析每个节点指令与其后继节点指令的依赖关系，构建每个节点的依赖关系边构成指令依赖关系图。

步骤S5：构建并行指令的拓扑顺序；

根据计算图的拓扑结构依次遍历每个计算节点，同时根据所述指令依赖关系图获得执行流中每一步并行执行指令，得到并行指令的拓扑顺序。

步骤S6：将并行指令调度到硬件资源上；

根据所述指令依赖关系图的拓扑顺序，将每一步并行执行指令调度到对应的硬件资源上。

步骤S7：构建并行指令的最短调度：在硬件资源限制的条件下并行指令执行所需的最短时间。

步骤S8：释放已经执行完的指令。

实施例：参见图2，展示了用于图计算的指令执行方法的架构图；

一种用于图计算的指令执行方法，包括以下步骤：

参见图3，步骤S1：将用于神经网络计算的计算图中每个节点的算子下发到算子解释器；

tf.matmul(x，y)：表示张量x与张量y进行矩阵乘法操作；

tf.subtract(x，y)：表示张量x与张量y进行矩阵相减操作；

tf.add(x，y)：表示张量x与张量y进行矩阵相加操作；

参见图4，步骤S2：算子解释器构建运行时的指令；

LDr _i，x：所述指令表示写寄存器指令，表示将内存中张量变量x的值写入寄存器中r _i中；

MULr _i，r _j，r _k：表示执行矩阵相乘操作，分别读取寄存器r _j和寄存器r _k中的张量变量，利用所得张量变量进行矩阵乘运算，将计算所得结果写入寄存器r _i中；

ADDr _i，r _j，r _k：表示执行矩阵相加操作，分别读取寄存器r _j和寄存器r _k中的张量变量，利用所得张量变量进行矩阵相加运算，将计算所得结果写入寄存器r _i中；

SURr _i，r _j，r _k：表示执行矩阵相减操作，分别读取寄存器r _j和寄存器r _k中的张量变量，利用所得张量变量进行矩阵相减运算，将计算所得结果写入寄存器r _i中。

参见图5，步骤S3：定义指令依赖关系；

STY，r _i：所述指令表示读寄存器指令，表示读取寄存器中r _i中的值并写入内存中张量变量y中；

写 ¹r ₁：表示所述前者写寄存器r _i操作；

读 ¹r _i：表示所述前者读寄存器r _i操作；

写 ²r _i：表示所述后者写寄存器r _i操作；

读 ²r _i：表示所述后者读寄存器r _i操作。

步骤S4：构建指令依赖关系图；

根据计算图的拓扑结构依次遍历每个节点，并通过分析每个节点指令与其后继节点指令的依赖关系，构建每个节点的依赖关系边构成指令依赖关系图；

所述分析每个节点指令与其后继节点指令的依赖关系是指分析每个节点指令与其后继节点指令的依赖关系，所述依赖关系包含一种写读强依赖关系、一种读写弱依赖关系和一种写写弱依赖关系。

参见图6，展示了为每个节点构建依赖关系边的分析过程；

V _i→V _j：表示V _j节点强依赖于V _i节点，也就是说V _i节点与V _j节点具有写读依赖关系。

V _i→V _j：表示V _j节点弱依赖于V _i节点，也就是说V _i节点与V _j节点具有读写依赖关系。

表示第1步可同时执行的并行指令包含V _i节点处的指令。

节点V ₁：节点V ₁包含写寄存器r ₁，节点V ₃包含读寄存器r ₁，因此节点V ₁与节点V ₃存在指令之间写读强依赖关系。

节点V ₂：节点V ₂包含写寄存器r ₂，节点V ₃包含读寄存器r ₂，因此节点V ₂与节点V ₃存在指令之间写读强依赖关系。

节点V ₃：1)节点V ₃包含读寄存器r ₂，节点V ₄包含写寄存器r ₂，因此节点V ₃与节点V ₄存在指令之间读写弱依赖关系。2)节点V ₃包含写寄存器r ₁，节点V ₇包含读寄存器r ₁，因此节点V ₃与节点V ₇存在指令之间写读强依赖关系。

节点V ₄：节点V ₄包含写寄存器r ₂，节点V ₆包含读寄存器r ₂，因此节点V ₄与节点V ₆存在指令之间写读强依赖关系。

节点V ₅：节点V ₅包含写寄存器r ₃，节点V ₆包含读寄存器r ₃，因此节点V ₅与节点V ₆存在指令之间写读强依赖关系。

节点V ₆：1)节点V ₆包含写寄存器r ₂，节点V ₇包含读寄存器r ₂，因此节点V ₆与节点V ₇存在指令之间写读强依赖关系。2)节点V ₆包含读寄存器r ₃，节点V ₉包含写寄存器r ₃，因此节点V ₆与节点V ₉存在指令之间读写弱依赖关系。

节点V ₇：节点V ₇包含读寄存器r ₂，节点V ₈包含写寄存器r ₂，因此节点V ₇与节点V ₈存在指令之间读写弱依赖关系。

节点V ₈：节点V ₈包含写寄存器r ₂，节点V ₁₀包含读寄存器r ₂，因此节点V ₈与节点V ₁₀存在指令之间写读强依赖关系。

节点V ₉：节点V ₉包含写寄存器r ₃，节点V ₁₀包含读寄存器r ₃，因此节点V ₉与节点V ₁₀存在指令之间写读强依赖关系。

节点V ₁₀：节点V ₁₀包含写寄存器r ₂，节点V ₁₁包含读寄存器r ₂，因此节点V ₁₀与节点V ₁₁存在指令之间写读强依赖关系。

步骤S5：构建并行指令的拓扑顺序；

根据计算图的拓扑结构依次遍历每个计算节点，同时根据所述指令依赖关系图获得执行流中每一步并行执行指令，得到并行指令的拓扑顺序；

所述每一步并行执行指令是指运行时执行到当前待分析指令的状态时，如果所述当前待分析指令在所述指令依赖关系图中没有可依赖的前驱节点，那么当前可并行执行的指令包含所述当前待分析指令。

参见图7，展示了第一步并行执行指令，如图中符号①所标识的灰色矩形阴影覆盖的指令；

第一步可并行执行指令：由于节点V ₁、节点V ₂和节点V ₅所包含的指令没有依赖关系，所以第一步可并行执行节点V ₁、节点V ₂和节点V ₅所包含指令。

参见图8，展示了第二步并行执行指令，如图中符号②所标识的灰色矩形阴影覆盖的指令。

第二步可并行执行指令：由于节点V ₃依赖节点V ₁和节点V ₂所包含指令，所以第二步可执行节点V ₃所包含指令。由于节点V ₆除了依赖节点V ₅外，还依赖节点V ₄，节点V ₄又依赖节点V ₃，所以节点V ₆与节点V ₃存在间接依赖关系，因此第二步不能执行节点V ₆所包含指令。最终分析得出，第二步可并行执行节点V ₃所包含指令。

参见图9，展示了第三步并行执行指令，如图中符号③所标识的灰色矩形阴影覆盖的指令。

第三步可并行执行指令：由于直接依赖节点V ₃的节点包含V ₄节点和V ₇节点。而且节点V ₄只依赖于节点V ₃，所以第三步可执行节点V ₄所包含指令。由于节点V ₇除了依赖节点V ₃外，还依赖节点V ₆，节点V ₆又依赖节点V ₄，所以节点V ₇与节点V ₄存在间接依赖关系，因此第三步不能执行节点V ₇所包含指令。最终分析得出，第三步可并行执行节点V ₄所包含指令。

参见图10，展示了第四步并行执行指令，如图中符号④所标识的灰色矩形阴影覆盖的指令。

第四步可并行执行指令：由于直接依赖节点V ₄的节点只包含V ₆节点。虽然节点V ₆除了依赖节点V ₄外，还依赖节点V ₅，但是第一步已经执行完节点V ₅所包含指令，所以当第四步时可以看作，节点V ₆只依赖节点V ₄。所以第四步可执行节点V ₆所包含指令。最终分析得出，第四步可并行执行节点V ₆所包含指令。

参见图11，展示了第五步并行执行指令，如图中符号⑤所标识的灰色矩形阴影覆盖的指令。

第五步可并行执行指令：由于直接依赖节点V ₆的节点包含V ₇节点和V ₉节点，而且节点V ₉只依赖于节点V ₆。最终分析得出，第五步可并行执行节点V ₇和节点V ₉所包含指令。

参见图12，展示了第六步并行执行指令，如图中符号⑥所标识的灰色矩形阴影覆盖的指令。

第六步可并行执行指令：由于直接依赖节点V ₇的节点包含V ₈节点，直接依赖节点V ₉的节点包含V ₁₀节点，但是节点V ₁₀依赖于节点V ₈。最终分析得出，第六步可并行执行节点V ₈所包含指令。

参见图13，展示了第七步并行执行指令，如图中符号⑦所标识的灰色矩形阴影覆盖的指令。

第七步可并行执行指令：由于直接依赖节点V ₈的节点包含V ₁₀节点，虽然V ₁₀节点还依赖于V ₉节点，但是第五步时已经执行完V ₉节点所包含指令。最终分析得出，第七步可并行执行节点V ₁₀所包含指令。

参见图14，展示了第八步并行执行指令，如图中符号⑧所标识的灰色矩形阴影覆盖的指令。

第八步可并行执行指令：由于直接依赖节点V ₁₀的节点只包含V ₁₁节点，最终分析得出，第八可并行执行节点V ₁₁所包含指令。

步骤S6：将并行指令调度到硬件资源上；

根据所述指令依赖关系图的拓扑顺序，将每一步并行执行指令调度到对应的硬件资源上；

所述每一步并行执行指令调度到对应的硬件资源上，其中将关于数据搬运的数据加载指令LD和数据存储指令ST调度到内存单元，将关于算术运算的指令调度到算术逻辑单元。所述将指令调度到硬件资源上是指将每一步并行指令调度到对应硬件资源的最早能开始执行的位置。考虑到关于硬件内存端口的资源正在一直被所述当前指令所依赖的前驱节点所包含指令使用，因此所述硬件资源最早能开始执行的位置是指所述关于指令依赖关系的拓扑结构图中当前指令所依赖的前驱节点所包含指令执行结束的位置。

调度第一步并行指令：所述调度第一步并行指令包含如下过程，1)由于第一步并行指令包含节点V ₁、节点V ₂和节点V ₅所包含指令，并且所述指令均属于数据搬运指令，所以将节点V ₁、节点V ₂和节点V ₅所包含指令调度到内存单元。2)将节点V ₁、节点V ₂和节点V ₅所包含指令调度到内存单元最早能开始执行的位置，也就是内存单元的起始位置，如图15中算术逻辑单元中符号①所标识的位置。

调度第二步并行指令：所述调度第二步并行指令包含如下过程，1)由于第二步并行指令包含节点V ₃所包含指令，并且所述指令均属于算术运算指令，所以将节点V ₃所包含指令调度到算术逻辑单元。2)将节点V ₃所包含指令调度到算术逻辑单元最早能开始执行的位置，如图15中算术逻辑单元中符号②所标识的位置。

调度第三步并行指令：所述调度第三步并行指令包含如下过程，1)由于第三步并行指令包含节点V ₄所包含指令，并且所述指令属于数据搬运指令，所以将节点V ₄所包含指令调度到内存单元。2)将节点V ₄所包含指令调度到内存单元最早能开始执行的位置，如图15中算术逻辑单元中符号③所标识的位置。

调度第四步并行指令：所述调度第四步并行指令包含如下过程，1)由于第四步并行指令包含节点V ₆所包含指令，并且所述指令均属于算术运算指令，所以将节点V ₆所包含指令调度到算术逻辑单元。2)将节点V ₆所包含指令调度到算术逻辑单元最早能开始执行的位置，如图15中算术逻辑单元中符号④所标识的位置。

调度第五步并行指令：所述调度第五步并行指令包含如下过程，1)由于第五步并行指令包含节点V ₇和节点V ₉所包含指令，并且节点V ₉所含指令属于数据搬运指令，节点V ₇所含指令属于算术运算指令，所以将节点V ₉所包含指令调度到内存单元，将节点V ₇所含指令调度到算术逻辑单元。2)将节点V ₉所包含指令调度到内存单元最早能开始执行的位置，如图15中算术逻辑单元中符号⑤所标识的位置。将节点V ₇所包含指令调度到算术逻辑单元最早能开始执行的位置，如图15中算术逻辑单元中符号⑤所标识的位置。

调度第六步并行指令：所述调度第六步并行指令包含如下过程，1)由于第六步并行指令包含节点V ₈所包含指令，并且所述指令属于数据搬运指令，所以将节点V ₈所包含指令调度到内存单元。2)将节点V ₈所包含指令调度到内存单元最早能开始执行的位置，如图15中算术逻辑单元中符号⑥所标识的位置。

调度第七步并行指令：所述调度第七步并行指令包含如下过程，1)由于第七步并行指令包含节点V ₁₀所包含指令，并且所述指令均属于算术运算指令，所以将节点V ₁₀所包含指令调度到算术逻辑单元。2)将节点V ₁₀所包含指令调度到算术逻辑单元最早能开始执行的位置，如图15中算术逻辑单元中符号⑦所标识的位置。

调度第八步并行指令：所述调度第八步并行指令包含如下过程，1)由于第八步并行指令包含节点V ₁₁所包含指令，并且所述指令均属于算术运算指令，所以将节点V ₁₁所包含指令调度到算术逻辑单元。2)将节点V ₁₁所包含指令调度到算术逻辑单元最早能开始执行的位置，如图15中算术逻辑单元中符号⑧所标识的位置。

所述构建并行指令的最短调度是指在硬件资源限制的条件下并行指令执行所需的最短时间。假设所有指令操作都需要一个时钟周期，所述数据加载指令LD除外，所述数据加载指令LD需要两个时钟周期。考虑到硬件资源对于先加载然后立即进行存储的情形采用先将待加载的数据缓存到一张临时表中，然后当需要执行数据存储指令时再从临时表中将数据存储到内存资源中的机制，因此同一个存储位置上的数据存储指令ST可以在所述位置上的数据加载指令LD开始后的一个时钟开始执行。所述构建并行指令的最短调度的过程中，由于每条数据搬运指令执行时会占用硬件内存端口，所以对于存在多条数据搬运指令需要并行执行时，一次只能执行一条数据搬运指令，所述执行的顺序可以根据优先执行关于指令依赖关系的拓扑结构图中最早能开始执行的指令的顺序原则。

所述构建并行指令的最短调度包含如下过程：

最短调度第一步并行指令：由于第一步并行指令包含节点V ₁、节点V ₂和节点V ₅均包含数据搬运指令中的数据加载指令LD，每条数据加载指令的执行时间需要两个时钟周期，所以按照指令依赖关系的拓扑结构图中最早能开始执行的指令的顺序原则，依次执行节点V ₁、节点V ₂和节点V ₅所包含的数据加载指令LD，所述操作一共需要6个时钟周期。

最短调度第二步并行指令：由于第二步并行指令包含节点V ₃所包含算术运算指令SUB指令，执行所述操作一共需要1个时钟周期。

最短调度第三步并行指令：由于第三步并行指令包含节点V ₄所包含数据搬运指令中的数据加载指令LD，执行所述操作一共需要2个时钟周期。

最短调度第四步并行指令：由于第四步并行指令包含节点V ₆所包含算术运算指令MUL指令，执行所述操作一共需要1个时钟周期。

最短调度第五步并行指令：由于第五步并行指令包含节点V ₇所含的属于算术运算指令ADD指令和节点V ₉所包含的数据搬运指令中的数据加载指令LD，所以可同时执行节点V ₇所包含的ADD指令和节点V ₉所包含的数据加载指令LD，执行节点V ₇所包含的ADD指令需要1个时钟周期，执行节点V ₉所包含的数据加载指令LD需要2个时钟周期，因此所述操作一共需要2个时钟周期。

最短调度第六步并行指令：由于第六步并行指令包含节点V ₈所包含数据搬运指令中的数据加载指令LD，执行所述操作一共需要2个时钟周期。

最短调度第七步并行指令：由于第七步并行指令包含节点V ₁₀所包含算术运算指令ADD指令，执行所述操作一共需要1个时钟周期。

最短调度第八步并行指令：由于第八步并行指令包含节点V ₁₁所包含算术运算指令SUB指令，执行所述操作一共需要1个时钟周期。

执行整张所述指令依赖关系的拓扑结构图所需的时间是将上述每一步最短调度并行指令所需的时间进行累加。因此执行上述整张所述指令依赖关系的拓扑结构图所需的时间是6+1+2+1+2+2+1+1，也就是说执行所述拓扑图一共需要16个时钟周期，如图16所示。

图16里对应符号意义：

a表示第c步并行指令执行需要a个时钟周期，如①：6表示第一步并行指令执行需要6个时钟周期。

步骤S8：释放已经执行完的指令。

与前述一种用于图计算的指令执行方法的实施例相对应，本发明还提供了一种用于图计算的指令执行装置的实施例。

参见图17，本发明实施例提供的一种用于图计算的指令执行装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的一种用于图计算的指令执行方法。

本发明一种用于图计算的指令执行装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图17所示，为本发明一种用于图计算的指令执行装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图17所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种用于图计算的指令执行方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种用于图计算的指令执行方法，其特征在于，包括以下步骤：

步骤S1：将用于神经网络计算的计算图中每个节点的算子下发到算子解释器；

步骤S2：算子解释器构建运行时的指令；

步骤S3：定义指令依赖关系；

步骤S4：构建指令依赖关系图；

步骤S5：构建并行指令的拓扑顺序；

步骤S6：将并行指令调度到硬件资源上；

步骤S7：构建并行指令的最短调度：在硬件资源限制的条件下并行指令执行所需的最短时间；

步骤S8：释放已经执行完的指令。
如权利要求1所述的一种用于图计算的指令执行方法，其特征在于，所述步骤S3所述指令依赖关系包括写读强依赖关系、读写弱依赖关系和写写弱依赖关系。
如权利要求2所述的一种用于图计算的指令执行方法，其特征在于，所述写读强依赖关系为：根据指令操作先写寄存器，后读同一寄存器，且后读同一寄存器的指令操作依赖先写寄存器的指令操作。
如权利要求2所述的一种用于图计算的指令执行方法，其特征在于，所述读写弱依赖关系为：根据指令操作先读寄存器，后写同一寄存器，且后写同一寄存器的指令操作依赖先读寄存器的指令操作。
如权利要求2所述的一种用于图计算的指令执行方法，其特征在于，所述写写弱依赖关系为：根据指令操作先写寄存器，后写同一寄存器，且后写同一寄存器的指令操作依赖先写寄存器的指令操作。
如权利要求1所述的一种用于图计算的指令执行方法，其特征在于，所述步骤S4的具体步骤为：根据计算图的拓扑结构依次遍历每个节点，并通过分析每个节点指令与其后继节点指令的依赖关系，构建每个节点的依赖关系边构成指令依赖关系图。
如权利要求1所述的一种用于图计算的指令执行方法，其特征在于，所述步骤S5的具体步骤为：根据计算图的拓扑结构依次遍历每个计算节点，同时根据所述指令依赖关系图获得执行流中每一步并行执行指令，得到并行指令的拓扑顺序。
如权利要求1所述的一种用于图计算的指令执行方法，其特征在于，所述步骤S6的具体步骤为：根据所述指令依赖关系图的拓扑顺序，将每一步并行执行指令调度到对应的硬件资源上。
一种用于图计算的指令执行装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8中任一项所述的一种用于图计算的指令执行方法。
一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-8中任一项所述的一种用于图计算的指令执行方法。