WO2023082901A1

WO2023082901A1 - 一种用于计算图编译的优化方法及装置

Info

Publication number: WO2023082901A1
Application number: PCT/CN2022/124001
Authority: WO
Inventors: 王宏升; 何水兵; 陈�光
Original assignee: 之江实验室
Priority date: 2022-09-27
Filing date: 2022-10-09
Publication date: 2023-05-19
Also published as: US20240127027A1; CN115268936B; CN115268936A

Abstract

一种用于计算图编译的优化方法及装置，包括以下步骤：步骤S1：将计算图转换为中间表示；步骤S2：分析依赖关系；步骤S3：构建工作栈；步骤S4：初始化为未激活状态；步骤S5：弹出栈顶节点元素，并更新当前轮迭代输入节点集合；步骤S6：将依赖所述步骤S5的栈顶节点的元素依次添加到栈顶位置，直到工作栈清空为止；步骤S7：采用位向量实现达到不动点状态的中间表示；步骤S8：为达到不动点状态的中间表示的节点包含的有效张量变量分配寄存器。由此提供了一种解析所述中间表示节点动态地执行至不动点状态的方法，并且优化了为所述中间表示不动点状态下各节点所包含的张量变量分配空闲寄存器的实现方法，提升计算图在运行时的执行效率。

Description

一种用于计算图编译的优化方法及装置

本申请要求于2022年9月27日向中国国家知识产权局提交的发明专利申请号为202211177796.9，发明名称为“一种用于计算图编译的优化方法及装置”的中国专利申请的优先权权益，其全部内容通过引用合并于本申请。

技术领域

本发明涉及一种基于特定计算模型的计算机系统技术领域，尤其涉及一种用于计算图编译的优化方法及装置。

背景技术

随着近几年神经网络模型的落地，面向神经网络编译的技术变得越来越重要。已有的计算图编译技术仍未从全局角度分析计算图执行过程中节点之间的约束关系以及基于约束关系分析计算图节点在执行过程中不同状态下所包含的张量变量的生命周期的动态变化情况。

为此，本发明提出将计算图执行过程中节点状态的动态变化过程抽象为基于约束的集合表示方法，提供一种基于包含有效张量变量的节点集合的中间表示技术。

发明内容

本发明为了解决上述技术问题，在此提供一种用于计算图编译的优化方法及装置。

本发明采用的技术方案如下：

一种用于计算图编译的优化方法，包括以下步骤：

步骤S1：将计算图转换为基于包含有效张量变量的节点集合的中间表示；

步骤S2：分析所述计算图中节点之间的依赖关系；

步骤S3：构建保存待处理节点的工作栈；

步骤S4：初始化所述工作栈中包含的节点元素为未激活状态；

步骤S5：所述工作栈弹出栈顶节点元素，利用所述步骤S2的依赖关系推导栈顶节点元素的输入节点集合，并更新当前轮迭代所得的栈顶节点元素的输入节点集合；

步骤S6：将依赖所述步骤S5的栈顶节点的元素依次添加到栈顶位置，并更新当前工作栈，重复所述步骤S5，直到工作栈清空为止；

步骤S7：采用位向量实现达到不动点状态的中间表示；

步骤S8：为达到不动点状态的中间表示的节点包含的有效张量变量分配寄存器。

进一步地，所述步骤S1具体包括以下子步骤：

步骤S11：将包含有效张量变量的计算图的节点表示为：由张量变量的定义和使用张量变量的表达式组成的等式；

步骤S12：定义所述计算图的节点关于包含有效张量变量节点的输入节点集合，所述输入节点集合为所述计算图的节点的所有前驱节点的并集；

步骤S13：定义所述计算图的节点关于包含有效张量变量节点的输出节点集合，所述输出节点集合为所述输入节点集合移除重定义有效张量变量的节点集合，然后再与有效张量变量的节点位置包含有效张量变量的节点集合取并集；

步骤S14：获取中间表示的包含有效张量变量节点的集合需要迭代地推导每个节点包含有效张量变量的节点，直至所有节点的所述输入节点集合和所述输出节点集合不再变化，达到固定节点，将达到固定节点的集合定义为所述基于包含有效张量变量的节点集合的中间表示。

进一步地，所述步骤S2具体为：分析推导所述计算图的各节点之间的输入节点集合之间的关系。

进一步地，所述步骤S3具体为：按照拓扑顺序遍历所述计算图，依次将所述计算图中的节点压入工作栈中。

进一步地，所述步骤S4具体为：将还未开始执行的所述计算图的各个节点初始化为未激活状态。

进一步地，所述步骤S5具体包括以下子步骤：

步骤S51：工作栈弹出栈顶节点元素，即将工作栈的栈顶节点元素弹出栈；

步骤S52：利用所述步骤S2的依赖关系，将被弹出所述栈顶节点元素的输入节点集合添加到所述工作栈，并更新当前轮迭代所得的栈顶节点元素的输入节点集合。

进一步地，所述步骤S7具体为：将所述计算图的中间表示中各个节点的输入节点集合达到不动点状态时所包含的节点元素映射为1，其他节点元素映射为0。

进一步地，所述步骤S8具体为：将为步骤7中输入节点集合达到不动点状态时所包含的节点元素映射为1的节点所包含的张量变量分配空闲寄存器。

本发明还提供一种用于计算图编译的优化装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中任一项所述的一种用于计算图编译的优化方法。

本发明还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中任一项所述的一种用于计算图编译的优化方法。

本发明的有益效果是：本发明公开了一种用于计算图编译的优化方法及装置，所述的方法是一种用于计算图编译的优化方法。本发明提出一种将计算图转换为基于包含有效变量节点集合的中间表示，提供了一种解析所述中间表示节点动态地执行至不动点状态的方法，并且优化了为所述中间表示不动点状态下各节点所包含的张量变量分配空闲寄存器的实现方法。本发明提出的用于计算图编译的优化方法既提升了计算图在运行时的执行效率。研究人员和工程应用者开发算法模型的过程中，利用所述的一种用于计算图编译的优化方法及装置优化模型，优化了计算图的编译效率，推动了所述关系图中度神经网络模型落地应用的发展。

附图说明

图1为本发明一种用于计算图编译的优化方法的架构图；

图2为本发明实施例神经网络编译生成的计算图；

图3为本发明实施例基于集合的中间表示的定义；

图4为本发明实施例第一轮迭代推导所述中间表示的包含有效变量节点集合；

图5为本发明实施例第二轮迭代推导所述中间表示的包含有效变量节点集合；

图6为本发明实施例计算图的各个节点输入集合之间的约束关系图；

图7为本发明一种用于计算图编译的优化装置的结构示意图。

具体实施方式

以下对至少一个示范性实施例的描述实际上仅仅是说明性的，其并不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，一种用于计算图编译的优化方法，包括以下步骤：

步骤S2：分析所述计算图中节点之间的依赖关系；

分析推导所述计算图的各节点之间的输入节点集合之间的关系。

步骤S3：构建保存待处理节点的工作栈；

按照拓扑顺序遍历所述计算图，依次将所述计算图中的节点压入工作栈中。

将还未开始执行的所述计算图的各个节点初始化为未激活状态。

步骤S7：采用位向量实现达到不动点状态的中间表示；

将所述计算图的中间表示中各个节点的输入节点集合达到不动点状态时所包含的节点元素映射为1，其他节点元素映射为0。

步骤S8：为达到不动点状态的中间表示的节点包含的有效张量变量分配寄存器；

将为步骤7中输入节点集合达到不动点状态时所包含的节点元素映射为1的节点所包含的张量变量分配空闲寄存器。

实施例：

本实施例中的{ }表示为空集，标记为■的为未激活状态；

tf.matmul(x，y)：表示张量x与张量y进行矩阵乘法操作；

tf.ones(a _i.shape)：表示创建一个与张量a _i形状相同且所有元素都为1的张量；

tf.nn.relu(x)：表示将张量x输入整流线性单元；

|x|：表示张量变量的x的模。

一种用于计算图编译的优化方法，包括以下步骤：

参见图2，其展示了神经网络编译生成的计算图，步骤S1：将计算图转换为基于包含有效张量变量的节点集合的中间表示；

参见图3，其展示了包含有效变量的节点集合的中间表示的定义过程。将包含有效张量变量v的计算图的节点V表示为：由张量变量v的定义和使用张量变量v的表达式E组成的等式。

所述关于包含有效张量变量v的节点的输入节点集合定义为节点V的所有前驱节点V _pred的并集。

步骤S13：定义所述计算图的节点关于包含有效张量变量节点的输出节点集合，所述输出节点集合为所述输入节点集合移除重定义有效张量变量v的节点集合，然后再与有效张量变量的节点位置包含有效张量变量的节点集合取并集；

其中所述包含定义有效张量变量v的节点集合表示为：{(节点V，变量v)}。其中包含重定义有效张量变量v的节点集合表示为：{重定义(变量v)}，其中所述中间表示的包含有效张量变量v的节点的集合元素是包含节点和有效张量变量的二维信息，如V(有效变量v)，其中包含了节点信息V和节点所包含的有效张量变量v的信息。

获取所述中间表示的包含有效变量的节点的集合需要迭代地推导每个节点包含有效张量变量的节点，直至所有节点的所述输入节点集合和所述输出节点集合不再变化为止，也就是说直至所有集合所包含节点元素达到不动点为止。所述迭代过程如下：

参见图4，其展示了第一轮迭代推导所述中间表示的包含有效变量的节点集合的过程。

第一轮迭代，所述各节点的输入节点集合和输出节点集合的变化如下：

(1)关于V ₀节点的集合表示：

1.1关于V ₀节点包含张量变量的输入节点集合：V ₀节点的输入节点集合为空集，表示为V ₀_IN＝{ }；

1.2关于V ₀节点包含张量变量的输出节点集合：因为V ₀节点定义了张量变量x，所以V ₀节点的输出节点集合为包含张量变量x的V ₀节点，表示为V ₀_OUT＝{0 _x}。

(2)关于V ₁节点的集合表示：

2.1关于V ₁节点包含张量变量的输入节点集合：按照节点顺序访问计算图的各节点，开始访问V ₁节点，V ₁节点的输入节点集合等于V ₀节点的输出节点集合，表示为V ₁_IN＝{0 _x}；

2.2关于V ₁节点包含张量变量的输出节点集合：V ₁节点的输出节点集合等于V ₁节点的输入节点集合，表示为V ₁_OUT＝{0 _x}。

(3)关于V ₂节点的集合表示：

3.1关于V ₂节点包含张量变量的输入节点集合：V ₂节点的输入节点集合等于V ₁节点的输出节点集合，表示为V ₂_IN＝{0 _x}；

3.2关于V ₂节点包含张量变量的输出节点集合：由于V ₂节点定义了张量变量y，所以V ₂节点的输出节点集合是取V ₂节点的输入节点集合与包含定义张量变量y的V ₂节点集合的并集，表示为V ₂_OUT＝{0 _x，2 _y}。

(4)关于V ₃节点的集合表示：

4.1关于V ₃节点包含张量变量的输入节点集合：V ₃节点的输入节点集合等于V ₃节点的输出节点集合，表示为V ₃_IN＝{0 _x，2 _y}；

4.2关于V ₃节点包含张量变量的输出节点集合：V ₃节点的输出节点集合等于V ₃节点的输入节点集合，表示为V ₃_OUT＝{0 _x，2 _y}。

(5)关于V ₄节点的集合表示：

5.1关于V ₄节点包含张量变量的输入节点集合：V ₄节点的输入节点集合等于V ₃节点的输出节点集合，表示为V ₄_OUT＝{2 _y，4 _x}；

5.2关于V ₄节点包含张量变量的输出节点集合：由于V ₄节点重新定义了张量变量x，所以V ₄节点的输出节点集合为V ₄节点的输入节点集合移除包含张量变量x的V ₀节点，然后再取与包含张量变量x定义的V ₄节点集合的并集，表示为：V ₄OUT＝{2 _y，4 _x}。

(6)关于V ₅节点的集合表示：

6.1关于V ₅节点包含张量变量的输入节点集合：V ₅节点的输入节点集合是取其前驱V ₃节点和V ₄节点的输出节点集合的并集，表示为V ₅_IN＝V ₃_OUT U V ₄OUT＝{0 _x，2 _y，4 _x}；

6.2关于V ₅节点包含张量变量的输出节点集合：由于V ₅节点定义了张量变量z，所以V ₅节点的输出节点集合为取V ₅节点的输入节点集合与包含张量变量z定义的V ₅节点集合的并集，表示为：V ₅_OUT＝{0 _x，2 _y，4 _x，5 _z}。

(7)关于V ₆节点的集合表示：

7.1关于V ₆节点包含张量变量的输入节点集合：V ₆节点的输入节点集合等于V ₅节点的输出节点集合，表示为V ₆_IN＝{0 _x，2 _y，4 _x，5 _z}；

7.2关于V ₆节点包含张量变量的输出节点集合：V ₆节点的输出节点集合等于V ₆节点的输入节点集合，表示为V ₆_OUT＝{0 _x，2 _y，4 _x，5 _z}。

(8)关于V ₇节点的集合表示：

8.1关于V ₇节点包含张量变量的输入节点集合：V ₇_IN＝V ₆_OUT＝{0 _x，2 _y，4 _x，5 _z}；

8.2关于V ₇节点包含张量变量的输出节点集合：由于V ₇节点重新定义了张量变量x，所以V ₇节点的输出节点集合为V ₇节点的输入节点集合移除包含张量变量x的V ₀节点和V ₄节点，然后再取与包含张量变量x定义的V ₇节点集合的并集，表示为：V ₇_OUT＝{2 _y，5 _z，7 _x}。

(9)关于V ₈节点的集合表示：

9.1关于V ₈节点包含张量变量的输入集合：V ₈节点的输入节点集合是取其前驱V ₆节点和V ₇节点的输出节点集合的并集，表示为V ₈_IN＝V ₆_OUT U V ₇_OUT＝{0 _x，2 _y，4 _x，5 _z，7 _x}。

9.2关于V ₈节点包含张量变量的输出集合：由于V ₈节点重新定义了张量变量z，所以V ₈节点的输出节点集合为V ₈节点的输入节点集合移除包含张量变量z的V ₅节点，然后再取与包含张量变量z定义的V ₈节点集合的并集，表示为：V ₈_OUT＝{0 _x，2 _y，4 _x，7 _x，8 _z}。

(10)关于V ₉节点的集合表示：

10.1关于V ₉节点包含张量变量的输入节点集合：V ₉节点的输入节点集合是取其前驱V ₁节点的输出节点集合，表示为V ₉_IN＝V ₁_OUT＝{0 _x}。

参见图5，其展示了第二轮迭代推导所述中间表示的包含有效张量变量的节点集合的过程。

第二轮迭代，所述各节点的输入节点集合和输出节点集合的变化如下：

(1)关于V ₀节点的集合表示：

1.1关于V ₀节点包含张量变量的输入节点集合：V ₀节点的输入节点集合为空集，表示为V ₀_IN＝{ }。

1.2关于V ₀节点包含张量变量的输出节点集合：因为V ₀节点定义了张量变量x，所以V ₀节点的输出节点集合为包含张量变量x的V ₀节点，表示为V ₀_OUT＝{0 _x}；

(2)关于V ₁节点的集合表示：

2.1关于V ₁节点包含张量变量的输入节点集合：按照节点顺序访问计算图的各节点，开始访问V ₁节点，V ₁节点的输入节点集合是取其前驱V ₀节点和V ₈节点的输出节点集合的并集，表示为V ₁_IN＝V ₀_OUT U V ₈_OUT＝{0 _x，2 _y，4 _x，7 _x，8 _z}；

2.2关于V ₁节点包含张量变量的输出节点集合：V ₁节点的输出节点集合等于V ₁节点的输入节点集合，表示为V ₁_OUT＝{0 _x，2 _y，4 _x，7 _x，8 _z}；

关于V ₂节点的集合表示为：

V ₂_IN＝V ₁_OUT＝{0 _x，2 _y，4 _x，7 _x，8 _z}，

V ₂_OUT＝V ₂_IN＝{0 _x，2 _y，4 _x，7 _x，8 _z}；

关于V ₃节点的集合表示为：

V ₃_IN＝V ₂_OUT＝{0 _x，2 _y，4 _x，7 _x，8 _z}，

V ₃_OUT＝V ₃_IN＝{0 _x，2 _y，4 _x，7 _x，8 _z}；

关于V ₄节点的集合表示为：

V ₄_IN＝V ₃_OUT＝{0 _x，2 _y，4 _x，7 _x，8 _z}，，

V ₄_OUT＝(V ₃_IN\{0 _x，4 _x，7 _x})U{4 _x}＝{2 _y，4 _x，8 _z}；

关于V ₅节点的集合表示为：

V ₅_IN＝V ₃_OUT U V ₄_OUT＝{0 _x，2 _y，4 _x，7 _x，8 _z}，

V ₅_OUT＝(V ₅_IN\{8 _z})U{5 _z}＝{0 _x，2 _y，4 _x，7 _x，5 _z}；；

关于V ₆节点的集合表示为：

V ₆_IN＝V ₅_OUT＝{0 _x，2 _y，4 _x，7 _x，5 _z}，

V ₆_OUT＝V ₆_IN＝{0 _x，2 _y，4 _x，7 _x，5 _z}；

关于V ₇节点的集合表示为：

V ₇_IN＝V ₆_OUT＝{0 _x，2 _y，4 _x，7 _x，5 _z}，

V ₇_OUT＝(V ₇_IN\{0 _x，4 _x，7 _x})U{7 _x}＝{2 _y，5 _z，7 _x}；

关于V ₈节点的集合表示为：

V ₈_IN＝V ₆_OUT U V ₇_OUT＝{0 _x，2 _y，4 _x，7 _x，5 _z}，

V ₈_OUT＝(V ₈_IN\{5 _z})U{8 _z}＝{0 _x，2 _y，4 _x，7 _x，8 _z}；

关于V ₉节点的集合表示为：V ₉IN＝V ₁_OUT＝{0 _x，2 _y，4 _x，7 _x，8 _z}。

经过上述两轮迭代，所述中间表示的包含有效变量节点集合所包含节点元素不再变化，达到固定节点。将所述达到不动点的集合定义为所述基于包含有效变量节点集合的中间表示。

参见图6，其展示了计算图的各个节点的输入节点集合之间的依赖关系图，步骤S2：分析所述计算图中节点之间的依赖关系；

分析推导所述计算图的各节点之间的输入节点集合之间的关系；

因为各节点的输出节点集合可以由输入节点集合表示，所以只需要推导各节点的输入节点集合之间的关系。

所述推导图6所示的计算图的各节点的输入节点集合之间的关系包含如下过程：

V ₁_IN＝{ }；

V ₂_IN＝V ₁_IN U(V ₃_IN\{V ₃，V ₅，V ₆})U{V ₃}；

V ₁_IN＝V ₂_IN；

V ₄_IN＝V ₁_IN U(V ₅_IN\{V ₃，V ₅，V ₆})U{V ₅}；

V ₅_IN＝V ₄_IN；

V ₆_IN＝V ₂_IN U V ₄_IN。

步骤S3：构建保存待处理节点的工作栈；

按照拓扑顺序遍历所述计算图，依次将所述计算图中的节点压入工作栈中；

将还未开始执行的所述计算图的各个节点初始化为未激活状态；

步骤S3-步骤S6迭代地推导基于包含有效张量变量节点的不动点集合包含如下过程：

第一步，构建保存待处理节点的工作栈。将所述保存待处理节点的工作栈构建为[V ₁_IN，V ₂_IN，V ₃_IN，V ₄_IN，V ₅_IN，V ₆_IN]。

第二步，初始化工作栈中包含的节点元素为未激活状态。将所述工作栈中元素初始化为标记为■的未激活状态。如表1所示工作栈中各个节点的输入节点集合的状态。

表1

第三步，处理位于工作栈栈顶的元素。所述处理位于工作栈栈顶的元素过程包含如下过程：

第一，工作栈弹出栈顶V ₁_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₁_IN节点元素弹出栈，由于V ₁_IN节点的输入节点集合是空集，所以V ₁_IN节点从未激活状态■更新为空集状态{ }。

第二，将依赖被弹出V ₁_IN节点的节点集合添加到工作栈。所述将依赖被弹出V ₁_IN节点的节点集合添加到工作栈的过程如下：由于依赖V ₁_IN节点的集合包含V ₂_IN节点和V ₄_IN节点，所以向栈顶添加依赖节点集合{V ₂_IN，V ₄_IN}。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表2所示。

表2

第三，工作栈弹出栈顶V ₂_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₂_IN节点元素弹出栈，根据V ₂_IN＝V ₁_IN U(V ₃_IN\{V ₃，V ₅，V ₆})U{V ₃}，而且V ₁_IN＝{ }，推导出V ₂_IN＝{V ₃}。所以V ₂_IN节点从未激活状态■更新为{V ₃}状态。

第四，将依赖被弹出V ₂_IN节点的节点集合添加到工作栈。所述将依赖被弹出V ₂_IN节点的节点集合添加到工作栈的过程如下：由于依赖V ₂_IN节点的集合包含V ₃_IN节点和V ₆_IN节点，所以向栈顶添加依赖节点集合{V ₃_IN，V ₆_IN}。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表3所示。

表3

第五，工作栈弹出栈顶V ₃_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₃_IN节点元素弹出栈，根据V ₃_IN＝V ₂_IN＝V ₁_IN U(V ₃_IN\{V ₃，V ₅，V ₆})U{V ₃}，而且V ₁_IN＝{ }，推导出V ₃_IN＝{V ₃}。所以V ₃_IN节点从未激活状态■更新为{V ₃}状态。

第六，将依赖被弹出V ₃_IN节点的节点集合添加到工作栈。所述将依赖被弹出V ₃_IN节点的节点集合添加到工作栈的过程如下：由于依赖V ₃_IN节点的集合包含V ₂_IN节点，所以向栈顶添加依赖节点集合{V ₂_IN}。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表4所示。

表4

第七，工作栈弹出栈顶V ₂_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₂_IN节点元素弹出栈，根据V ₂_IN＝V ₁_IN U(V ₃_IN\{V ₃，V ₅，V ₆})U{V ₃}，而且V ₁_IN＝{ }，推导出V ₂_IN＝{V ₃}。由于V ₂_IN节点的集合元素没变，所以V ₂_IN节点保持激活状态为{V ₃}状态不变。

第八，将依赖被弹出V ₂_IN节点的节点集合添加到工作栈。由于V ₂_IN节点的集合元素没变，所以没有依赖V ₂_IN节点的节点集合被添加到工作栈中。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表5所示。

表5

第九，工作栈弹出栈顶V ₆_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₆_IN节点元素弹出栈，根据V ₆_IN＝V ₂_IN U V ₄_IN，而且V ₂_IN＝{V ₃}，推导出V ₆_IN＝{V ₃}。所以V ₆_IN节点从未激活状态■更新为{V ₃}状态。

第十，将依赖被弹出V ₆_IN节点的节点集合添加到工作栈。由于没有依赖V ₆_IN节点的其他节点，所以没有依赖V ₆_IN节点的节点集合被添加到工作栈中。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表6所示。

表6

第十一，工作栈弹出栈顶V ₄_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₄_IN节点元素弹出栈，根据V ₄_IN＝V ₁_IN U(V ₅_IN\{V ₃，V ₅，V ₆})U{V ₅}，而且V ₁_IN＝{ }，推导出V ₄_IN＝{V ₅}。所以V ₄_IN节点从未激活状态■更新为{V ₅}状态。

第十二，将依赖被弹出V ₄_IN节点的节点集合添加到工作栈。由于依赖V ₄_IN节点的集合包含V ₅_IN节点和V ₆_IN节点，所以向栈顶添加依赖节点集合{V ₅_IN，V ₆_IN}。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表7所示。

表7

第十三，工作栈弹出栈顶V ₅_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₅_IN节点元素弹出栈，根据V ₅_IN＝V ₄_IN＝{V ₅}，推导出V ₅_IN＝{V ₅}。所以V ₅_IN节点从未激活状态■更新为{V ₅}状态。

第十四，将依赖被弹出V ₅_IN节点的节点集合添加到工作栈。由于依赖V ₅_IN节点的集合包含V ₄_IN节点，所以向栈顶添加依赖节点集合{V ₄_IN}。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表8所示。

表8

第十五，工作栈弹出栈顶V ₄_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₄_IN节点元素弹出栈，根据V ₄_IN＝V ₁_IN U(V ₅_IN\{V ₃，V ₅，V ₆})U{V ₅}，而且V ₁_IN＝{ }，推导出V ₄_IN＝{V ₅}。所以V ₄_IN节点保持激活状态为{V ₅}状态。

第十六，将依赖被弹出V ₄_IN节点的节点集合添加到工作栈。由于V ₄_IN节点的集合元素没变，所以没有依赖V ₄_IN节点的节点集合被添加到工作栈中。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表9所示。

表9

第十七，工作栈弹出栈顶V ₆_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₆_IN节点元素弹出栈，根据V ₆_IN＝V ₂_IN U V ₄_IN，推导出V ₆_IN＝{V ₃，V ₅}。所以V ₆_IN节点的激活状态更新为{V ₃，V ₅}状态。

第十八，将依赖被弹出V ₆_IN节点的节点集合添加到工作栈。由于没有依赖V ₆_IN节点的其他节点，所以没有依赖V ₆_IN节点的节点集合被添加到工作栈中。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表10所示。

表10

第十九，工作栈弹出栈顶V ₄_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₄_IN节点元素弹出栈，根据V ₄_IN＝V ₁_IN U(V ₅_IN\{V ₃，V ₅，V ₆})U{V ₅}，而且V ₁_IN＝{ }，推导出V ₄_IN＝{V ₅}。所以V ₄_IN节点保持激活状态为{V ₅}状态。

第二十，将依赖被弹出V ₄_IN节点的节点集合添加到工作栈。由于V ₄_IN节点的集合元素没变，所以没有依赖V ₄_IN节点的节点集合被添加到工作栈中。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表11所示。

表11

第二十一，工作栈弹出栈顶V ₂_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₂_IN节点元素弹出栈，根据V ₂_IN＝V ₁_IN U(V ₃_IN\{V ₃，V ₅，V ₆})U{V ₃}，而且V ₁_IN＝{ }，推导出V ₂_IN＝{V ₃}。由于V ₂_IN节点的集合元素没变，所以V ₂_IN节点保持激活状态为{V ₃}状态不变。

第二十二，将依赖被弹出V ₂_IN节点的节点集合添加到工作栈。由于V ₂_IN节点的集合元素没变，所以没有依赖V ₂_IN节点的节点集合被添加到工作栈中。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表12所示。

表12

第二十三，工作栈弹出栈顶V ₃_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₃_IN节点元素弹出栈，根据V ₃_IN＝V ₂_IN＝V ₁_IN U(V ₃_IN\{V ₃，V ₅，V ₆})U{V ₃}，而且V ₁_IN＝{ }，推导出V ₃_IN。所以V ₃_IN节点的激活状态保持为{V ₃}状态。

第二十四，将依赖被弹出V ₃_IN节点的节点集合添加到工作栈。所述将依赖被弹出V ₃_IN节点的节点集合添加到工作栈的过程如下：由于V ₃_IN节点的集合元素没变，所以没有依赖V ₃_IN节点的节点集合被添加到工作栈中。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表13所示。

表13

第二十五，工作栈弹出栈顶V ₄_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₄_IN节点元素弹出栈，根据V ₄_IN＝V ₁_IN U(V ₅_IN\{V ₃，V ₅，V ₆})U{V ₅}，而且V ₁_IN＝{ }，推导出V ₄_IN＝{V ₅}。所以V ₄_IN节点保持激活状态为{V ₅}状态。

第二十六，将依赖被弹出V ₄_IN节点的节点集合添加到工作栈。由于V ₄_IN节点的集合元素没变，所以没有依赖V ₄_IN节点的节点集合被添加到工作栈中。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表14所示。

表14

第二十七，工作栈弹出栈顶V ₅_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₅_IN节点元素弹出栈，根据V ₅_IN＝V ₄_IN＝{V ₅}，推导出

所以V ₅_IN点的激活状态保持为{V ₅}状态。

第二十八，将依赖被弹出V ₅_IN节点的节点集合添加到工作栈。由于V ₅_IN节点的集合元素没变，所以没有依赖V ₅IN节点的节点集合被添加到工作栈中。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表15所示。

表15

第二十九，工作栈弹出栈顶V ₆_IN节点元素。所述工作栈弹出栈顶节点元素是指将工作栈的栈顶的V ₆_IN节点元素弹出栈，根据V ₆_IN＝V ₂_IN U V ₄_IN，而且V ₂_IN＝{V ₃}，V ₄_IN＝{V ₅}，推导出V ₆_IN＝{V ₃，V ₅}。所以V ₆_IN节点的激活状态保持为{V ₃，V ₅}状态。

第三十，将依赖被弹出V ₆_IN节点的节点集合添加到工作栈。由于没有依赖V ₆_IN节点的其他节点，所以没有依赖V ₆_IN节点的节点集合被添加到工作栈中。经过上述步骤，工作栈中各个节点的输入节点集合的状态更新为表16所示。

表16

步骤S7：采用位向量实现达到不动点状态的中间表示；

参见表17，其展示了达到不动点状态的中间表示的位向量表示。

表17

与前述一种用于计算图编译的优化方法的实施例相对应，本发明还提供了一种用于计算图编译的优化装置的实施例。

参见图7，本发明实施例提供的一种用于计算图编译的优化装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的一种用于计算图编译的优化方法。

本发明一种用于计算图编译的优化装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，为本发明一种用于计算图编译的优化装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种用于计算图编译的优化方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种用于计算图编译的优化方法，其特征在于，包括以下步骤：

步骤S1：将计算图转换为基于包含有效张量变量的节点集合的中间表示；

步骤S2：分析所述计算图中节点之间的依赖关系；

步骤S3：构建保存待处理节点的工作栈；

步骤S4：初始化所述工作栈中包含的节点元素为未激活状态；

步骤S5：所述工作栈弹出栈顶节点元素，利用所述步骤S2的依赖关系推导栈顶节点元素的输入节点集合，并更新当前轮迭代所得的栈顶节点元素的输入节点集合；

步骤S6：将依赖所述步骤S5的栈顶节点的元素依次添加到栈顶位置，并更新当前工作栈，重复所述步骤S5，直到工作栈清空为止；

步骤S7：采用位向量实现达到不动点状态的中间表示；

步骤S8：为达到不动点状态的中间表示的节点包含的有效张量变量分配寄存器。
如权利要求1所述的用于计算图编译的优化方法，其特征在于，所述步骤S1具体包括以下子步骤：

步骤S11：将包含有效张量变量的计算图的节点表示为：由张量变量的定义和使用张量变量的表达式组成的等式；

步骤S12：定义所述计算图的节点关于包含有效张量变量节点的输入节点集合，所述输入节点集合为所述计算图的节点的所有前驱节点的并集；

步骤S13：定义所述计算图的节点关于包含有效张量变量节点的输出节点集合，所述输出节点集合为所述输入节点集合移除重定义有效张量变量的节点集合，然后再与有效张量变量的节点位置包含有效张量变量的节点集合取并集；

步骤S14：获取中间表示的包含有效张量变量节点的集合需要迭代地推导每个节点包含有效张量变量的节点，直至所有节点的所述输入节点集合和所述输出节点集合不再变化，达到固定节点，将达到固定节点的集合定义为所述基于包含有效张量变量的节点集合的中间表示。
如权利要求2所述的用于计算图编译的优化方法，其特征在于，所述步骤S2具体为：分析推导所述计算图的各节点之间的输入节点集合之间的关系。
如权利要求1所述的用于计算图编译的优化方法，其特征在于，所述步骤S3具体为：按照拓扑顺序遍历所述计算图，依次将所述计算图中的节点压入工作栈中。
如权利要求1所述的用于计算图编译的优化方法，其特征在于，所述步骤S4具体为：将还未开始执行的所述计算图的各个节点初始化为未激活状态。
如权利要求2所述的用于计算图编译的优化方法，其特征在于，所述步骤S5具体包括以下子步骤：

步骤S51：工作栈弹出栈顶节点元素，即将工作栈的栈顶节点元素弹出栈；

步骤S52：利用所述步骤S2的依赖关系，将被弹出所述栈顶节点元素的输入节点集合添加到所述工作栈，并更新当前轮迭代所得的栈顶节点元素的输入节点集合。
如权利要求1所述的用于计算图编译的优化方法，其特征在于，所述步骤S7具体为：将所述计算图的中间表示中各个节点的输入节点集合达到不动点状态时所包含的节点元素映射为1，其他节点元素映射为0。
如权利要求7所述的用于计算图编译的优化方法，其特征在于，所述步骤S8具体为：将为步骤7中输入节点集合达到不动点状态时所包含的节点元素映射为1的节点所包含的张量变量分配空闲寄存器。
一种用于计算图编译的优化装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8中任一项所述的用于计算图编译的优化方法。
一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-8中任一项所述的用于计算图编译的优化方法。