WO2021259041A1

WO2021259041A1 - Ai计算图的排序方法、装置、设备及存储介质

Info

Publication number: WO2021259041A1
Application number: PCT/CN2021/098307
Authority: WO
Inventors: 邹伟; 熊超; 蔡权雄; 牛昕宇
Original assignee: 深圳鲲云信息科技有限公司
Priority date: 2020-06-22
Filing date: 2021-06-04
Publication date: 2021-12-30
Also published as: CN111752691A; CN111752691B

Abstract

一种AI计算图的排序方法、装置、设备及存储介质，所述AI计算图的排序方法包括：获取基于数据流架构的计算图，所述计算图包括多个计算节点（S110）；对所述多个计算节点进行拓扑排序，得到所述计算图的第一排列顺序（S120）；根据所述计算图中的多个分支的分支排序确定所述多个计算节点中的多个分支计算节点的第二排列顺序（S130）；将所述第一排列顺序中的所述多个分支计算节点的排列顺序替换为所述多个分支计算节点对应的所述第二排列顺序，得到所述计算图的目标排列顺序（S140）。

Description

AI计算图的排序方法、装置、设备及存储介质

本申请要求在2020年06月22日提交中国专利局、申请号为202010577847.1的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，例如涉及一种人工智能(Artificial Intelligence，AI)计算图的排序方法、装置、设备及存储介质。

背景技术

深度学习模型本质是一个计算图，如卷积神经网络模型，其本质上是一个有向无环计算图，计算图里面含有大量的计算节点，每个计算节点代表一个计算操作，并且存在输入依赖，即当前计算节点的输入节点都计算完，才能执行当前计算节点。

人工智能芯片的开发大多是基于中央处理单元(Central Processing Unit，CPU)和图形处理单元(Graphics Processing Unit，GPU)的指令集架构，而CPU和GPU中通常具有指令控制单元和成熟的缓存机制，因此计算图可以直接输入到指令集架构的人工智能芯片中运行。

一种基于数据流架构开发的人工智能芯片因其利用率高和延迟低而深受人们重视，但是数据流架构与指令集架构不是同一种架构，指令集架构的指令控制单元和缓存机制无法复用到数据流架构中，并且，基于数据流架构开发的人工智能芯片不设置指令控制单元，只根据预先优化好的计算图的顺序来执行，因此，急需一种处理方法提前对计算图的节点排序进行优化，以使基于数据流架构开发的人工智能芯片能够正常对计算图进行运算。

发明内容

本申请提供一种AI计算图的排序方法、装置、设备及存储介质，以实现基于数据流架构的计算图的排序，提高基于数据流架构的芯片缓存的使用率，提升芯片性能。

提供一种AI计算图的排序方法，包括：

获取基于数据流架构的计算图，其中，所述计算图包括多个计算节点；对所述多个计算节点进行拓扑排序，得到所述计算图的第一排列顺序；根据所述计算图中的多个分支的分支排序确定所述多个计算节点中的多个分支计算节点的第二排列顺序；将所述第一排列顺序中的所述多个分支计算节点的排列顺序替换为所述多个分支计算节点对应的所述第二排列顺序，得到所述计算图的目标排列顺序。

还提供一种AI计算图的排序装置，包括：

计算图获取模块，设置为获取基于数据流架构的计算图，其中，所述计算图包括多个计算节点；拓扑排序排序模块，设置为对所述多个计算节点进行拓扑排序，得到所述计算图的第一排列顺序；分支排序模块，设置为根据所述计算图中的多个分支的分支排序确定所述多个计算节点中的多个分支计算节点的第二排列顺序；目标排列顺序确定模块，设置为将所述第一排列顺序中的所述多个分支计算节点的排列顺序替换为所述多个分支计算节点对应的所述第二排列顺序，得到所述计算图的目标排列顺序。

还提供一种设备，包括：

一个或多个处理器；存储装置，设置为存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的AI计算图的排序方法。

还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的AI计算图的排序方法。

附图说明

图1A为本申请实施例一提供的一种AI计算图的排序方法的流程示意图；

图1B为本申请实施例一提供的一种计算图的结构示意图；

图2A为本申请实施例二提供的一种AI计算图的排序方法的流程示意图；

图2B为本申请实施例二提供的一种确定分支权重的方法的流程示意图；

图2C为本申请实施例二提供的一种计算图的结构示意图；

图2D为本申请实施例二提供的一种计算图的乒乓缓存分配示意图；

图2E为本申请实施例二提供的一种拓扑排序后计算图中多个计算节点的计算顺序的示意图；

图2F为本申请实施例二提供的一种分支排序后计算图中多个计算节点的计算顺序的示意图；

图3为本申请实施例三提供的一种AI计算图的排序装置的结构示意图；

图4为本申请实施例四提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请进行说明。

在讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将多个步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，多个步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

此外，术语“第一”、“第二”等可在本文中用于描述多种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”、“批量”的含义是至少两个，例如两个，三个等，除非另有限定。

实施例一

图1A为本申请实施例一提供的一种AI计算图的排序方法的流程示意图，本实施例可适用于基于数据流架构的深度学习模型计算图的节点排序，该方法可由AI计算图的排序装置实施，并可通过硬件或软件的方式实现。如图1A所示，本申请实施例一提供的AI计算图的排序方法包括：

S110、获取基于数据流架构的计算图，所述计算图包括多个计算节点。

基于数据流架构的计算图是指基于数据流架构开发的深度学习模型的计算图。计算图是一种以有向无环图(Directed Acyclic Graph，DAG)为数据结构的计算流程，其中包括多个计算节点，每一个计算节点表示一种算术操作或者物理操作，算术操作如加减乘数等，物理操作如多维数据的形状变换和切片操作等。

S120、对所述多个计算节点进行拓扑排序，得到所述计算图的第一排列顺序。

对一个有向无环图G进行拓扑排序，就是将G中所有顶点排成一个线性序列，对于图中任意一对顶点u和v，若边(u,v)∈E(G)，则u在线性序列中出现在v之前。那么对计算图进行拓扑排序，就是根据计算图中的数据流向对计算图中的所有计算节点进行排序，将拓扑排序的结果称为第一排列顺序。

通常，当一个计算节点的输出有多个时，拓扑排序得到的排序结果并不是唯一的。示例性的，如图1B所示的计算图，对其进行拓扑排序后得到的第一排列顺序可以是：A->B->C->D->E->F->G->H，也可以是：A->B->C->D->F->E->G->H，还可以是：A->B->C->E->G->H->D->F。

S130、根据所述计算图中的多个分支的分支排序确定多个分支计算节点的第二排列顺序。

当一个计算节点的输出数量有多个时，这个计算节点沿每个输出方向都可以构成一个分支，这个计算节点称为分支起始节点，分支中的计算节点都称为分支计算节点，一个分支起始节点至少可以构成两个分支。对每个分支起始节点的多个分支进行分支排序，就可以唯一确定多个分支执行的先后顺序，也就唯一确定了基于该分支起始节点而形成的分支的所有分支计算节点的排列顺序，所有分支计算节点的排列顺序称为第二排列顺序。

可选的，可以根据每个分支的权重对多个分支进行分支升序排序，分支的权重可以根据预设规则生成，例如，直接将分支所包含的分支计算节点的数量设为分支的权重，或者，根据计算节点的节点类型设置权重。示例性的，如图1B所示的计算图，图中包括的分支有：B->C、B->D->F和B->E->G->H，将分支B->C记为分支1，将分支B->D->F记为分支2，将分支B->E->G->H记为分支3，以分支所包含的分支计算节点的数量作为分支的权重，那么分支1的权重为2，分支2的权重为3，分支3的权重为4，根据权重进行升序排序，可以得到分支的排列顺序为123，即，先执行分支1，再执行分支2，最后执行分支3，进而得到所有分支计算节点的第二排列顺序：B->C>D->F>E->G->H。

S140、将所述第一排列顺序中的所述多个分支计算节点的排列顺序替换为所述多个分支计算节点对应的第二排列顺序，得到所述计算图的目标排列顺序。

由于在拓扑排序中，分支起始节点附近的计算节点的排列顺序通常不是唯一的，也就是第一排列顺序中分支计算节点的排列顺序不是惟一的，而分支排序确定的分支计算节点的第二排列顺序是唯一的，因此，用分支计算节点的第二排列顺序替换掉第一排列顺序中对应分支计算节点的排列顺序，从而可以得到一个唯一的计算图排列顺序，即计算图的目标排列顺序。

示例性的，如图1B所示的计算图，对其进行拓扑排序得到的第一排列顺序为：A->B->C->D->E->F->G->H，分支计算节点的第二排列顺序为：B->C>D->F>E->G->H，用分支计算节点的第二排列顺序替换掉第一排列顺序中对应分支计算节点的排列顺序，得到计算图的目标排列顺序为：A->B->C>D->F->E->G->H。

本申请实施例一提供的AI计算图的排序方法通过对计算图进行拓扑排序和分支排序，实现了基于数据流架构的计算图的排序，能够唯一确定计算图中多个计算节点的执行顺序，提升了基于数据流架构的芯片性能。

实施例二

图2A为本申请实施例二提供的一种AI计算图的排序方法的流程示意图，本实施例是对上述实施例的说明。如图2A所示，本申请实施例二提供的AI计算图的排序方法包括：

S210、获取基于数据流架构的计算图，所述计算图包括多个计算节点。

S220、对所述多个计算节点进行拓扑排序，得到所述计算图的第一排列顺序。

S230、确定多个分支起始节点以及每个分支起始节点所对应的多个分支。

深度学习模型的计算图是一个有向无环图，通常计算节点数量众多，结构比较复杂，因此分支起始节点也有多个，每一个分支都基于其对应的分支起始节点而来，要确定分支，则需要先确定分支起始节点。

确定多个分支起始节点以及每个分支起始节点所对应的多个分支包括步骤S231～S233(图中未示出)。

S231、若计算节点的输出数量大于1，则将所述计算节点作为分支起始节点。

当一个计算节点的输出数量有多个时，也即，计算节点的输出数量大于1，那么就将这个计算节点称为分支起始节点。示例性的，参考图1B所示的计算图，可以确定计算节点B为分支起始节点。

S232、若位于所述分支起始节点之后的计算节点的输出数量大于1或等于0，则将所述计算节点作为分支终止节点，其中，一个分支起始节点对应至少两个分支终止节点。

分支终止节点是指分支的最后一个计算节点，那么分支终止节点必然位于分支起始节点之后，当一个位于分支起始节点之后的计算节点的输出数量大于1时，则说明该计算节点可以作为其他分支的分支起始节点，那么当前分支应该到该计算节点为止，即该计算节点应该作为当前分支起始节点对应的一个分支终止节点；当一个位于分支起始节点之后的计算节点的输出数量等于0时，说明该计算节点已是最后一个计算节点，那么该计算节点也作为当前分支起始节点对应的一个分支终止节点。分支起始节点是输出数量大于1的计算节点，也就是分支起始节点的输出至少连接了2个计算节点，因此，一个分支起始节点对应至少两个分支终止节点。示例性的，参考图1B所示的计算图，可以确定为分支起始节点B所对应的分支终止节点包括计算节点C、计算节点F和计算节点H。

S233、根据所述计算图的方向，从所述分支起始节点到所述分支终止节点形成分支。

一个分支就相当于一条线性排列，分别确定其起点和终点，那么根据数据流向，即计算图的方向，就确定了这个分支。示例性的，参考图1B所示的计算图，由分支起始节点B和分支终止节点C所组成的分支为：B->C，由分支起始节点B和分支终止节点F所组成的分支为：B->D->F，由分支起始节点B和分支终止节点H所组成的分支为：B->E->G->H。

S240、根据每个分支包括的分支计算节点数量确定每个分支的权重。

根据分支包括的分支计算节点数据确定分支权重，就是将分支所包含的分支计算节点的数量设为分支的权重。示例性的，参考图1B所示的计算图，分支B->C的分支计算节点的数量为2，则分支B->C的权重为2，分支B->D->F的分支计算节点的数量为3，则分支B->F的权重为3，分支B->E->G->H的分支计算节点的数量为4，则分支B->H的权重为4。

如图2B所示，确定分支权重的方法包括：

S241、确定当前分支中是否存在复合计算节点，所述复合计算节点为除分支起始节点外的当前分支与其他分支共有的计算节点。

由于计算图的结构复杂，很有可能一个计算节点存在于多个分支之中，将多个分支共有的计算节点，称为复合计算节点，由于一个分支起始节点对应多个分支，其自然存在于多个分支中，故分支起始节点不作为复合计算节点。若当前分支存在复合计算节点，说明当前分支与其他分支存在相同的计算节点，则执行步骤S242，否则执行步骤S243。

S242、若当前分支中不存在复合计算节点，则将当前分支所包括的分支计算节点的数量作为当前分支的权重。

若当前分支中不存在复合计算节点，则说明当前分支是单一分支，即当前分支不与其他分支存在交叉关系，则可将当前分支所包括的分支计算节点的数量作为当前分支的权重。示例性的，参考图1B所示的计算图，分支B->C、B->D->F和B->E->G->H均为单一分支，那么对应的权重可设置为：2、3和4。

S243、若当前分支中存在复合计算节点，则确定所述复合计算节点是否为其他分支的分支起始节点。

若当前分支中存在复合计算节点，那么复合计算节点有两种情况，一种情况是，复合计算节点为当前分支的分支终止节点，但是该分支终止节点的输出数量大于1，那么该分支终止节点同时是其他分支的分支起始节点，此时执行步骤S244。

另一种情况是，复合计算节点是当前分支当中除分支起始节点和分支终止节点之外的计算节点，那么说明，该复合计算节点的输入数量大于1，输出数量为1，也就该复合计算节点的输入至少依赖2个计算节点的输出，该复合计算节点也是其他分支当中除分支起始节点和分支终止节点之外的计算节点，此时执行步骤S245。

S244、若所述复合计算节点是其他分支的分支起始节点，则将当前分支的分支起始节点所对应的分支计算节点的数量作为当前分支的权重。

若复合计算节点为其他分支的分支起始节点，则说明当前分支之后还有待计算的计算节点，即当前分支的分支终止节点的输出数据并不是最终输出数据，这时当前分支的分支起始节点所对应的所有分支中，当前分支的权重应该设为最大，即使当前分支最后执行，避免对其他分支进行数据覆盖。可选的，将当前分支的权重设为最大，可以是将当前分支的分支起始节点所对应的分支计算节点的数量作为当前分支的权重，也可以是将当前分支的分支起始节点所对应的所有分支的权重之和，设为当前分支的权重。示例性的，参考图2C所示的计算图，当前分支B->E->G中存在复合计算节点G，该复合计算节点G为其他分支的分支起始节点，当前分支的分支起始节点B所对应的分支包括：B->C、B->D->F和B->E->G，且每个分支对应的权重为：2、3和3，将所有分支权重之和设为当前分支的权重，那么当前分支的权重为2+3+3＝8，若将当前分支的分支起始节点B所对应的分支计算节点的数量设为当前分支的权重，分支起始节点B所对应的分支计算节点的数量为6个，那么当前分支的权重为6。最终分支起始节点B所对应的分支B->C、B->D->F和B->E->G的权重分别为：2、3和8，或对应的权重分别为：2、3和6。

S245、若所述复合计算节点不是其他分支的分支起始节点，则将当前分支的权重设为无穷大。

S246、当所述复合计算节点所在的其他分支完成分支排序后，将当前分支所包括的分支计算节点的数量作为当前分支的权重。

当复合计算节点不是其他分支的分支起始节点时，即复合计算节点是当前分支当中除分支起始节点和分支终止节点之外的计算节点，那么说明，当前分支在运行的过程中，还依赖其他分支的输出数据作为输入，根据计算图的输入依赖特性，当前分支需要在其对应的所有输入计算节点都计算完成之后，才能够正常运行，因此，此时将当前分支的权重设为无穷大，等待复合计算节点所在的其他分支完成分支排序，使当前分支对应的所有输入计算节点在其之前进行计算，再将当前分支的权重恢复为正常情况，即将当前分支所包括的分支计算节点的数量作为当前分支的权重。

S250、根据每个分支的权重对每个分支起始节点所对应的多个分支进行分支排序。

S260、根据所述分支排序确定每个分支起始节点所对应的多个分支计算节点的第二排列顺序。

S270、将所述第一排列顺序中的分支计算节点的排列顺序替换为所述分支计算节点对应的第二排列顺序，得到所述计算图的目标排列顺序。

S280、根据所述计算图的目标排列顺序对所述计算图分配乒乓缓存。

在基于数据流的芯片中，数据计算过程通常采用乒乓缓存机制，即计算过程中，数据交替缓存在两个片上高速缓存中，最终的输出数据缓存在外部低速缓存中，但同时外部低速缓存也会对每个计算节点的计算数据进行备份。计算节点在片上高速缓存之间的数据交换更快，计算节点将输出传输到外部低速缓存所需的时间更长，但是片上高速缓存的存储空间通常较小，外部低速缓存的存储空间较大。根据目标排列顺序对计算图分配乒乓缓存，使计算图运行过程中的数据尽量存储在片上高速缓存中，从而可以大大降低计算图的计算时间，提升芯片性能。

示例性的，对于如图1B所示的计算图，假设存在两个片上高速缓存B1和B2，一个外部低速缓存D1，对图1B的计算图进行乒乓缓存的分配，可以得到如图2D所示的缓存分配图，图中标注的缓存方式均表示每个计算节点计算完成后数据的缓存位置，计算节点A计算完成的数据存放在高速缓存B1中，根据乒乓缓存的机制，计算节点B计算完成的数据存放在高速缓存B2中，计算节点D和计算节点E计算完成的数据都要存放在高速缓存B1中，由于计算节点C、计算节点F和计算节点H都没有输出，故计算节点C、计算节点F和计算节点H的输出数据都作为最终输出数据，存放在低速缓存D1中。

若仅对图1B所示的计算图进行拓扑排序，可能得到的排序方式为：A->B->C->D->E->F->G->H，将多个计算节点的计算顺序用图形表示，则拓扑排序后计算图中多个计算节点的计算顺序如图2E所示，如，计算节点A对应的计算顺序为1，表示计算节点A第1个执行。由图2E可知，当计算节点B完成计算并将数据存放在高速缓存B2中之后，计算节点C从高速缓存B2中获取数据进行计算，并将得到的数据存放在低速缓存D1中；然后计算节点D从高速缓存B2中获取数据进行计算，并将数据存放在高速缓存B1中；接下来进行计算的是计算节点E，计算节点E也是从高速缓存B2中获取数据进行计算，并将数据存放在高速缓存B1中。那么当计算节点E完成计算之后，高速缓存B1中存放的是计算节点E的数据，计算节点D的数据被覆盖，对于接下来进行计算的计算节点F来说，其输入数据被覆盖，那么就需要从低速缓存D1中加载备份的计算节点D的数据，这样就大大增加了数据传输耗时，并且，若加载备份数据出错则会导致计算错误。

然而，使用本申请实施例提供的AI计算图的排序方法对计算图进行拓扑排序和分支排序后，得到的计算图的目标排列顺序为：A->B->C>D->F->E->G->H，多个计算节点的计算顺序的表示如图2F所示。由图2F可知，计算节点D完成计算将数据缓存至高速缓存B1中，接下来计算节点F从高速缓存B1中获取计算节点D的数据进行计算，计算节点F计算完成之后，计算节点E从高速缓存B2中获取计算节点B的数据进行计算并将数据缓存至高速缓存B1中，然后计算节点G从高速缓存B1中获取计算节点E的数据进行计算并将数据缓存至高速缓存B2中，由此可见，这种排序方式下，计算节点的数据能够最大化的缓存到高速缓存中，加快了计算速度，避免了计算过程中的数据覆盖，同时也避免了数据传输出错。

本申请实施例一提供的AI计算图的排序方法通过对计算图进行拓扑排序和分支排序，能够唯一确定计算图中多个计算节点的执行顺序，实现了基于数据流架构的计算图的排序，并且使计算图的计算过程能够更加适用于数据流架构内部的乒乓缓存机制，提高了基于数据流架构的芯片高速缓存的使用率，使得计算图的计算速度更快，提升了芯片整体性能。

实施例三

图3为本申请实施例三提供的一种AI计算图的排序装置的结构示意图，本实施例可适用于基于数据流架构的深度学习模型计算图的节点排序，该装置可以实现本申请任意实施例提供的AI计算图的排序方法，具备实现方法的相应功能结构和效果，本实施例中未详尽描述的内容可参考本申请任意方法实施例的描述。

如图3所示，本申请实施例三提供的AI计算图的排序装置包括：计算图获取模块310、拓扑排序排序模块320、分支排序模块330和目标排列顺序确定模块340。

计算图获取模块310设置为获取基于数据流架构的计算图，所述计算图包括多个计算节点；拓扑排序排序模块320设置为对所述多个计算节点进行拓扑排序，得到所述计算图的第一排列顺序；分支排序模块330设置为根据所述计算图中的多个分支的分支排序确定多个分支计算节点的第二排列顺序；目标排列顺序确定模块340设置为将所述第一排列顺序中的所述多个分支计算节点的排列顺序替换为所述多个分支计算节点对应的第二排列顺序，得到所述计算图的目标排列顺序。

分支排序模块330包括：

分支确定单元，设置为确定多个分支起始节点以及每个分支起始节点所对应的多个分支；权重确定单元，设置为根据每个分支包括的分支计算节点数量确定每个分支的权重；分支排序单元，设置为根据每个分支的权重对每个分支起始节点所对应的多个分支进行分支排序；第二排列顺序单元，设置为根据所述分支排序确定每个分支起始节点所对应的多个分支计算节点的第二排列顺序。

所述分支确定单元设置为：

若计算节点的输出数量大于1，则将所述计算节点作为分支起始节点；若位于所述分支起始节点之后的计算节点的输出数量大于1或等于0，则将所述计算节点作为分支终止节点，其中，一个分支起始节点对应至少两个分支终止节点；根据所述计算图的方向，从所述分支起始节点到所述分支终止节点形成分支。

所述权重确定单元设置为：

确定当前分支中是否存在复合计算节点，所述复合计算节点为除分支起始节点外的当前分支与其他分支共有的计算节点；若当前分支中不存在复合计算节点，则将当前分支所包括的分支计算节点的数量作为当前分支的权重；若当前分支中存在复合计算节点，则确定所述复合计算节点是否为其他分支的分支起始节点；若复合计算节点是其他分支的分支起始节点，则将当前分支的分支起始节点所对应的分支计算节点的数量作为当前分支的权重；若复合计算节点不是其他分支的分支起始节点，则将当前分支的权重设为无穷大；当所述复合计算节点所在的其他分支完成分支排序后，将当前分支所包括的分支计算节点的数量作为当前分支的权重。

所述装置还包括：乒乓缓存分配模块，设置为根据所述计算图的目标排列顺序对所述计算图分配乒乓缓存。

本申请实施例三提供的AI计算图的排序装置通过对计算图进行拓扑排序和分支排序，实现了基于数据流架构的计算图的排序，能够唯一确定计算图中多个计算节点的执行顺序，提升了基于数据流架构的芯片性能。

实施例四

图4为本申请实施例四提供的一种设备的结构示意图。图4示出了适于用来实现本申请实施方式的示例性设备412的框图。图4显示的设备412仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，设备412以通用设备的形式表现。设备412的组件可以包括但不限于：一个或者多个处理器416，存储装置428，连接不同系统组件(包括存储装置428和处理器416)的总线418。

总线418表示几类总线结构中的一种或多种，包括存储装置总线或者存储装置控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry Subversive Alliance，ISA)总线，微通道体系结构(Micro Channel Architecture，MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

设备412包括多种计算机系统可读介质。这些介质可以是任何能够被设备412访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置428可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)430和/或高速缓存存储器432。设备412可以包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统434可以设置为读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供设置为对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘，例如光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)，数字多功能盘只读存储器(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请实施例的功能。

具有一组(至少一个)程序模块442的程序/实用工具440，可以存储在例如存储装置428中，这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或一种组合中可能包括网络环境的实现。程序模块442通常执行本申请所描述的实施例中的功能和/或方法。

设备412也可以与一个或多个外部设备414(例如键盘、指向终端、显示器424等)通信，还可与一个或者多个使得用户能与该设备412交互的终端通信，和/或与使得该设备412能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口422进行。并且，设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器420通过总线418与设备412的其它模块通信。尽管图中未示出，可以结合设备412使用其它硬件和/或软件模块，包括但不限于：微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器416通过运行存储在存储装置428中的程序，从而执行多种功能应用以及数据处理，例如实现本申请任意实施例所提供的AI计算图的排序方法，该方法可以包括：

获取基于数据流架构的计算图，所述计算图包括多个计算节点；对所述计算图进行拓扑排序，得到所述多个计算节点的第一排列顺序；根据所述计算图中的多个分支的分支排序确定多个分支计算节点的第二排列顺序；将所述第一排列顺序中的所述多个分支计算节点的排列顺序替换为所述多个分支计算节点对应的第二排列顺序，得到所述计算图的目标排列顺序。

实施例五

本申请实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请任意实施例所提供的AI计算图的排序方法，该方法可以包括：

本申请实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM或闪存)、光纤、CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括LAN或WAN—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

Claims

一种人工智能AI计算图的排序方法，包括：

获取基于数据流架构的计算图，其中，所述计算图包括多个计算节点；

对所述多个计算节点进行拓扑排序，得到所述计算图的第一排列顺序；

根据所述计算图中的多个分支的分支排序确定所述多个计算节点中的多个分支计算节点的第二排列顺序；

将所述第一排列顺序中的所述多个分支计算节点的排列顺序替换为所述多个分支计算节点对应的所述第二排列顺序，得到所述计算图的目标排列顺序。
如权利要求1所述的方法，其中，所述根据所述计算图中的多个分支的分支排序确定所述多个计算节点中的多个分支计算节点的第二排列顺序，包括：

确定所述多个计算节点中的多个分支起始节点以及每个分支起始节点所对应的多个分支；

根据每个分支包括的分支计算节点数量确定所述每个分支的权重；

根据每个分支的权重对每个分支起始节点所对应的多个分支进行分支排序；

根据所述分支排序确定每个分支起始节点所对应的多个分支计算节点的第二排列顺序。
如权利要求2所述的方法，其中，所述确定所述多个计算节点中多个分支起始节点以及每个分支起始节点所对应的多个分支，包括：

在一计算节点的输出数量大于1的情况下，将所述一计算节点作为分支起始节点；

在位于所述分支起始节点之后的计算节点的输出数量大于1或等于0的情况下，将所述分支起始节点之后的计算节点作为分支终止节点，其中，一个分支起始节点对应至少两个分支终止节点；

根据所述计算图的方向，从所述分支起始节点到所述分支终止节点形成分支。
如权利要求3所述的方法，其中，所述根据每个分支包括的分支计算节点数量确定所述每个分支的权重，包括：

确定当前分支中是否存在复合计算节点，其中，所述复合计算节点为除所述当前分支的分支起始节点外的所述当前分支与其他分支共有的计算节点；

响应于所述当前分支中不存在所述复合计算节点，将所述当前分支所包括的分支计算节点的数量作为所述当前分支的权重。
如权利要求4所述的方法，在所述确定当前分支中是否存在复合计算节点之后，还包括：

响应于所述当前分支中存在所述复合计算节点，确定所述复合计算节点是否为其他分支的分支起始节点；

响应于所述复合计算节点是其他分支的分支起始节点，将所述当前分支的分支起始节点所对应的分支计算节点的数量作为所述当前分支的权重。
如权利要求5所述的方法，在所述确定所述复合计算节点是否为其他分支的分支起始节点之后，还包括：

响应于所述复合计算节点不是其他分支的分支起始节点，将所述当前分支的权重设为无穷大；

在所述复合计算节点所在的其他分支完成分支排序后，将所述当前分支所包括的分支计算节点的数量作为所述当前分支的权重。
如权利要求2所述的方法，在所述得到所述计算图的目标排列顺序之后，还包括：

根据所述计算图的目标排列顺序对所述计算图分配乒乓缓存。
一种人工智能AI计算图的排序装置，包括：

计算图获取模块，设置为获取基于数据流架构的计算图，其中，所述计算图包括多个计算节点；

拓扑排序排序模块，设置为对所述多个计算节点进行拓扑排序，得到所述计算图的第一排列顺序；

分支排序模块，设置为根据所述计算图中的多个分支的分支排序确定所述多个计算节点中的多个分支计算节点的第二排列顺序；

目标排列顺序确定模块，设置为将所述第一排列顺序中的所述多个分支计算节点的排列顺序替换为所述多个分支计算节点对应的所述第二排列顺序，得到所述计算图的目标排列顺序。
一种设备，包括：

至少一个处理器；

存储装置，设置为存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7中任一项所述的人工智能AI计算图的排序方法。
一种计算机可读存储介质，存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-7中任一项所述的人工智能AI计算图的排序方法。