WO2022143419A1

WO2022143419A1 - 一种计算图的节点融合方法及设备

Info

Publication number: WO2022143419A1
Application number: PCT/CN2021/140906
Authority: WO
Inventors: 张兆创; 高雄; 曾子韬
Original assignee: 华为技术有限公司
Priority date: 2020-12-28
Filing date: 2021-12-23
Publication date: 2022-07-07
Also published as: CN114692860A; EP4258175A1; US20230334292A1; EP4258175A4

Abstract

本申请实施例公开了一种计算图的节点融合方法及设备，可应用于人工智能领域，具体可应用于深度学习框架，方法包括：将神经网络转换为计算图，并基于计算图中节点间的依赖关系从计算图提取一个或多个可并行分支组，依赖关系用于指示如下关系中的至少一种：可并行分支组拥有共同父节点、可并行分支组拥有共同子节点、可并行分支组无父节点、可并行分支组无子节点，最后对任一个可并行分支组中分别来自不同子分支的多个节点进行融合，得到新的计算图。本申请考虑了其他一些可并行的分支的可能性，从而找到不同于现有技术规则限定的可并行的分支组合，即可在计算图的节点融合中，融合这些分支组合中的节点，从而扩展了能够获取的可融合节点的范围。

Description

一种计算图的节点融合方法及设备

本申请要求于2020年12月28日提交中国专利局、申请号为202011595030.3、申请名称为“一种计算图的节点融合方法及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及机器学习领域，尤其涉及一种计算图的节点融合方法及设备。

背景技术

计算图(computational graph)是一种通用的计算过程表示方法，用于描述函数的有向无环图，普遍应用在各类数据处理平台上，一个计算图包括多个节点和有向边。在机器学习领域中，计算图则用于表示神经网络涉及的计算逻辑，计算图中的每个节点表示神经网络所进行的相应运算(如，add节点代表一个加法运算)，该相应运算也可称为计算任务，一个节点代表一个计算任务，有向边将前一个节点(可称为前节点或父节点)连接至后一个节点(可称为后节点或子节点)，表示父节点的输出作为子节点的输入。

深度学习框架对计算图的具体执行方式的一般做法是：首先，将用户定义好的神经网络转换为一张计算图(该计算图已经过优化处理)，再按照计算图中各节点的拓扑序将这些排好序的节点对应的计算任务一一加载到加速硬件(如，图形处理器(graphics processing unit，GPU)、张量处理器(tensor processing unit，TPU)、昇腾处理器(如，昇腾910和昇腾310)等)上具体执行计算任务的模块device上执行。如图1所示，图1中的左图部分为计算图，图1中的右图部分为对应该计算图的拓扑排序结果。在整个神经网络的执行过程中，由于执行顺序的影响，device上的每一个计算任务必须在前一拓扑序的计算任务执行结束后才能开始，这意味着排序会隐式地在数据独立的计算任务间添加上执行上的依赖关系，如图1中，节点C和节点D对应的计算任务间本来无明确的依赖，但确定拓扑排序后，执行上节点C得先执行，而后节点D才能执行。最终该device上总的网络执行时间为各个独立计算任务的耗时总和加上交互、通信等带来的额外耗时。

但随着神经网络表现出来的网络体量越来越大(如图2所示)，其网络结构也越来越复杂，如，网络模型Bert-Large有1024个隐藏层、网络模型GPT-3有2048个隐藏层，这使得对深度学习框架的性能要求越来越苛刻。而由于这类网络结构含有众多的分支结构，且表现出直接或间接的计算独立性，固而在执行上这些分支结构拥有并行执行的可能性，因此，为了获得更高的执行性能，对于具有多分支结构的神经网络，将多个可并行执行且消耗算力资源小的节点的计算逻辑进行整合后再执行。目前已有的计算图的节点融合方式主要有水平融合(horizontal fusion)方式和算子级并行(operator level parallelism)方式，其中，horizontal fusion方式是加速线性代数(accelerated linear algebra，XLA)编译器针对GPU的一个优化步骤，这种融合方式在寻找融合节点时保守，实现上以计算图的返回节点为起点往回查找可融合的节点，且查找过程中一旦中断就停止，且待融合的节点需要有相同的数据排布和输出数据类型；operator level parallelism方式是深度学习框架MXNet的一个优化步骤，其要求被融合的多个节点的输入数据都来自于同一个父节点。已有的这些计算图的节点融合方式都具有很多约束条件，无法充分搜索可融合的节点，因此，一种高效的计算图的节点融合方式亟待推出。

发明内容

本申请实施例提供了一种计算图的节点融合方法及设备，相较于现有技术，考虑了其他一些可并行的分支的可能性，从而找到不同于现有技术的规则限定的可以并行的分支的组合，也就可以在计算图的节点融合中，融合这些分支的组合中的节点，从而扩展了能够获取的可融合节点的范围。

基于此，本申请实施例提供以下技术方案：

第一方面，本申请实施例首先提供一种计算图的节点融合方法，可用于人工智能领域中，该方法包括：

第一方面，本申请实施例首先提供一种计算图的节点融合方法，可用于人工智能领域中，具体可应用于深度学习框架，该方法包括：首先，深度学习框架可以先获取神经网络的网络结构，该网络结构可以是通过深度学习框架提供的API自定义神经网络的网络结构，也可以是从网络模型库(model zoo)中直接获取已经预定义好的神经网络的网络结构，具体本申请对深度学习框架如何获取神经网络的方式不做限定。在获得神经网络的网络结构后，深度学习框架将进一步将该神经网络转换成一张计算图，得到的该计算图可称为第一计算图。深度学习框架得到该第一计算图之后，会基于该第一计算图中各个节点之间的连接关系从第一计算图中提取到一个或多个可并行分支组，其中，每个可并行分支组都包括多个子分支(即至少2个子分支)，子分支为不存在分叉的顺序串联结构，每个可并行分支组中的每个子分支包括一个或多个节点。该可并行分支组就指示该可并行分支组的多个子分支支持被并行执行。这里需要注意的是，属于同一个可并行分支组的子分支需要满足两个条件：一个是各子分支之间不存在依赖关系；二是属于不同子分支的任意两个或两个以上节点融合成一个节点后的计算图不存在环结构，即融合后的计算图中不存在环结构。在本申请实施例中，可并行分支组中包括的至少一个可并行分支组(可称为第一可并行分支组)满足以下条件中的至少一种：该第一可并行分支组内的所有子分支的输入来自于同一节点且该第一可并行分支组内的至少两个子分支的输出指向不同的节点、该第一可并行分支组内的所有子分支的输出指向同一节点且该第一可并行分支组内的至少两个子分支的输入来自不同的节点、该第一可并行分支组内的所有子分支的第一个节点没有父节点、该第一可并行分支组内的所有子分支的最后一个节点没有子节点。经过上述步骤后，深度学习框架可得到一个或多个可并行分支组，针对每一个可并行分支组，深度学习框架可对每个可并行分支组中分别来自不同子分支的多个节点进行融合，从而得到第二计算图。需要注意的是，本申请实施例所述的一个或多个可并行分支组不限定都是基于所述提取步骤得到的全部可并行分支组，也包括基于现有方式能搜索到的分支组，为便于描述，本申请仅对于区别于现有搜索方式不同的地方进行阐述，无论是何种方式提取到的可并行分支组，都可基于本申请所述的融合方式对每个可并行分支组的多个节点进行融合，以得到第二计算图。

在本申请上述实施方式中，提供了一种计算图的节点融合方法，相较于现有技术，考虑了其他一些可并行的分支的可能性，从而找到不同于现有技术的规则限定的可以并行的分支的组合，也就可以在计算图的节点融合中，融合这些分支的组合中的节点，从而扩展了能够获取的可融合节点的范围。

在第一方面的一种可能的实现方式中，在可并行分支组为多个的情况下，该可并行分支组还包括至少一个第二可并行分支组，该第二可并行分支组满足以下条件：该第二可并行分支组内的所有子分支的输入来自于同一节点且该第二可并行分支组内的至少两个子分支的输出指向同一节点，该第二可并行分支组内的每个子分支包括至少两个节点。

在本申请上述实施方式中，基于第一计算图中各节点之间的连接关系得到可并行分支组的方式可以是如上述得到第二可并行分支组的方式，具备广泛适用性。

在第一方面的一种可能的实现方式中，由于深度学习框架一开始得到的一个或多个可并行分支组中的某些子分支上可能依然保留有一些不可融合的节点或不适合并行执行的节点，这类节点可统称为不可融合节点，这些节点之所以在提取可并行分支组时被保留下来，是为了让分支保留有完整性，使得分支在搜索过程中不被个别节点打断，一旦打断，将导致潜在的可并行执行的节点被遗漏。深度学习框架得到一个或多个可并行分支组之后，还可以从每个可并行分支组(即目标可并行分支组)中的每个子分支中剔除掉不可融合节点，从而得到剔除了不可融合节点的各个可并行分支组(可称为第三可并行分支组)，而目标可并行分支组中的任意一个子分支可称为目标子分支。之后，将剔除了不可融合节点的各可并行分支组(即第三可并行分支组)中分别来自不同子分支的多个节点(指的是可以进行融合的节点，但还未融合的节点，即待融合的节点)进行融合，得到融合节点，该第二计算图中包括融合节点与第一计算图中的未融合节点(未融合节点是指没有被融合的节点)，该第三可并行分支组中的多个节点中的每个节点所属的子分支都与该多个节点中的其他任何一个节点所属的子分支不同。需要说明的是，在本申请实施例中，不可融合节点具体可以是具有排他性运算操作的节点，例如，使用的编译套件不提供某些节点融合后的kernel编译方案；也可以是属于特定运算操作的节点，例如，神经网络的矩阵乘操作、卷积操作等特定运算操作，其本身计算密集度高，大多数情况下在device上执行时都会尽可能的将device上的算力资源使用完全。

在本申请上述实施方式中，阐述了得到第二计算图的具体方式，即先从第一计算图中剔除掉不可融合节点，再对可剩余的可融合节点进行融合，从而得到第二计算图，由于从第一计算图中事先剔除了不可融合节点，因此可提高融合效率。

在第一方面的一种可能的实现方式中，为了尽可能将所有可融合节点进行融合，上述将第三可并行分支组中分别来自不同子分支的多个节点进行融合的过程是迭代进行的，即重复执行上述将第三可并行分支组中分别来自不同子分支的多个节点进行融合的步骤，直至该第三可并行分支组中未融合节点的数量少于2个。

在本申请上述实施方式中，保证了能将可融合节点尽可能多的被融合为融合节点，提高了融合覆盖面。

在第一方面的一种可能的实现方式中，在本申请的一些实施方式中，深度学习框架在剔除了不可融合节点得到各个第三可并行分支组后，对第三可并行分支组中分别来自不同子分支的多个节点进行融合，得到融合节点的过程可以基于组合搜索(也可称为并行融合搜索)的方式得到，该组合搜索的原则是：在任意一个第三可并行分支组中，每个子分支都包括有一个或多个节点，来自不同子分支的节点可以组合起来作为融合节点，相同子分支上的节点由于前后连接关系则无法进行融合，在每个第三可并行分支组上，可基于搜索算法得到融合节点。具体的搜索过程可以是：首先，从第三可并行分支组中的多个子分支中各自选择(如，可以是随机选择)一个未融合节点，得到n个未融合节点，该未融合节点为未被融合的节点，n≥2，之后基于选出的n个未融合节点生成m个节点组合，m个节点组合中的每个节点组合包括至少两个未融合节点，m≥1且2m≤n，并通过构建的算力评估模型对该m个节点组合各自所需的算力进行评估，以得到m个评估结果，该m个评估结果中的每个评估结果用于表征如下情形一种：所述m个节点组合中每个节点组合所需耗费的算力资源、所述m个节点组合中每个节点组合所节省的算力资源。在第一评估结果满足预设条件的情况下，将与该第一评估结果对应的第一节点组合进行融合，以得到第一融合节点，并将该第一节点组合中的各个未融合节点标记为已融合节点，所述第一评估结果为这m个评估结果中的一个，该第一节点组合为该m个节点组合中的一个。

在本申请上述实施方式中，阐述了如何基于组合搜索的方式对节点进行融合，得到融合节点，并可以进一步通过构建的算力评估模型指导搜索融合节点，可保证被融合的节点组合可以带来符合预期的收益。

在第一方面的一种可能的实现方式中，可以在得到当前轮次的一个评估结果之后，就判断该评估结果是否满足预设条件，再基于判断结果进行后续处理；也可以是在进行多轮次搜索候选节点组合得到多个评估结果之后(即至少两个评估结果)再判断该多个评估结果是否存在满足预设条件的评估结果，再基于判断结果进行后续处理，因此，本申请实施例中第一评估结果满足预设条件至少包括如下一种情形：在m个评估结果中的每个评估结果用于表征m个节点组合中每个节点组合所需耗费的算力资源的情况下，第一评估结果达到目标加速硬件上具体执行计算任务的模块(device)的算力要求、在m个评估结果中的每个评估结果用于表征m个节点组合中每个节点组合所节省的算力资源的情况下，第一评估结果在所述m个评估结果中最优、在m个评估结果中的每个评估结果用于表征m个节点组合中每个节点组合所节省的算力资源的情况下，第一评估结果在x个评估结果中最优，该x个评估结果为该m个评估结果中的至少两个评估结果。

在本申请上述实施方式中，阐述了判断第一评估结果是否满足预设条件可以有多种具体的判断方式，用户可基于自身需求选择，具备灵活性。

在第一方面的一种可能的实现方式中，由于第一计算图中不同的分支结构特征可以用3种结构特征来描述，分别可称为多分叉结构、无汇聚结构、散落结构，多分叉结构为拥有同一父节点(也可称为共同父节点，为便于阐述，在本申请实施例中统称为共同父节点)或拥有同一子节点(也可称为共同子节点，为便于阐述，在本申请实施例中统称为共同子节点)的分支结构，无汇聚结构则是指那些分支结构的第一个节点没有父节点或分支结构的最后一个节点没有子节点的分支结构，除了多分叉结构和无汇聚结构，第一计算图中剩下的节点就可以统称为散落结构。因此，基于第一计算图中节点之间的连接关系从第一计算图中提取一个或多个可并行分支组的一种方式可以是：在第一计算图中搜索拥有同一父节点(可称为第一共同父节点或共同的第一父节点，为便于阐述，在本申请实施例中统称为第一共同父节点)的多个分支(可称为第一分支)，并根据该多个第一分支得到一个可并行分支组；和/或，在第一计算图中搜索拥有同一子节点(可称为第一共同子节点或共同的第一子节点，为便于阐述，在本申请实施例中统称为第一共同子节点)的多个分支(可称为第二分支)，并根据该多个第二分支得到一个可并行分支组。这种搜索方式也可称为多分叉结构单向搜索。

在本申请上述实施方式中，阐述了基于第一计算图中节点之间的连接关系从第一计算图中提取一个或多个可并行分支组的一种搜索方式，该搜索方式是基于是否有共同父节点或是否有共同子节点来进行的，而共同父节点或共同子节点广泛存在于神经网络转换而来的计算图中，这种搜索方式可搜索得到大量的可并行分支组。

在第一方面的一种可能的实现方式中，深度学习框架得到多个第一分支之后，根据该多个第一分支得到一个可并行分支组的具体实现方式可以是：以该第一共同父节点为起始点，根据节点间的连接关系，沿该多个第一分支中的每个第一分支各自向下搜索，直至在向下搜索过程中遇到第一计算图中的其他共同父节点(可称为第二共同父节点)或共同子节点时停止，在向下搜索过程中每个第一分支遍历到的节点各自构成一个子分支，例如，若有4个第一分支，那么经过上述向下搜索过程就可得到4个子分支，每个子分支可称为第一子分支，得到的多个第一子分支构成一个可并行分支组，例如，上述4个子分支就构成一个可并行分支组。这里需要注意的是，多个第一子分支中的每个第一子分支不包括第一共同父节点和共同子节点，也就是说，每个第一子分支都不包括作为起始点的第一共同父节点，且在每个第一分支向下搜索过程中，若遇到其他共同父节点(即第二共同父节点)，就将该第二共同父节点纳入到对应的第一子分支中，若遇到共同子节点，则在对应的第一子分支中排除该共同子节点。

在本申请上述实施方式中，具体阐述了深度学习框架如何根据多个第一分支得到一个可并行分支组，即从共同父节点出发进行向下搜索，这种从共同父节点出发提取可并行分支组的方法，可以保证属于同一可并行分支组中不同子分支的节点不存在不一致的依赖行为，例如，基于共同父节点出发向下搜索得到的子分支中不存在共同子节点的情形，从而可保证分支间节点的融合不会形成环结构。目前已有的计算图的节点融合方式中，都需要判断节点融合后是否成环，而判断是否成环是个很繁杂的操作，本申请实施例所述的搜索方式保证了不会出现环结构，因此无需额外对每次得到的组合进行成环判断，简化了操作流程。

在第一方面的一种可能的实现方式中，深度学习框架得到多个第二分支之后，根据该多个第二分支得到一个可并行分支组的具体实现方式可以是：以该第一共同子节点为起始点，根据节点间的连接关系，沿该多个第二分支中的每个第二分支各自向上搜索，直至在向上搜索过程中遇到第一计算图中的其他共同子节点或共同父节点时停止，在向上搜索过程中每个第二分支遍历到的节点各自构成一个子分支，例如，若有3个第二分支，那么经过上述向上搜索过程就可得到3个子分支，每个子分支可称为第二子分支，得到的多个第二子分支构成一个可并行分支组，例如，上述3个子分支就构成一个可并行分支组。这里需要注意的是，多个第二子分支中的每个第二子分支不包括该第一共同子节点和共同父节点，也就是说，每个第二子分支都不包括作为起始点的第一共同子节点，且在每个第二分支向上搜索过程中，若遇到其他共同子节点，就将该其他共同子节点纳入到对应的第二子分支中，若遇到共同父节点，则在对应的第二子分支中排除该共同父节点。

在本申请上述实施方式中，具体阐述了深度学习框架如何根据多个第二分支得到一个可并行分支组，即从共同子节点出发进行向上搜索，这种从共同子节点出发提取可并行分支组的方法，可以保证属于同一可并行分支组中不同子分支的节点不存在不一致的依赖行为，例如，基于共同子节点出发向上搜索得到的子分支中不存在共同父节点的情形，从而可保证分支间节点的融合不会形成环结构。因此，本申请实施例所述的搜索方式同样保证了不会出现环结构，无需额外对每次得到的组合进行成环判断，简化了操作流程。

在第一方面的一种可能的实现方式中，基于第一计算图中节点之间的连接关系从第一计算图中提取一个或多个可并行分支组的方式还可以是：从第一计算图中搜索多个第三分支，并根据该多个第三分支得到一个可并行分支组，其中，每个第三分支的第一个节点没有父节点；和/或，从第一计算图中搜索没有子节点的多个第四分支，并根据该多个第四分支得到一个可并行分支组，其中，每个第三分支的第一个节点没有父节点。

在本申请上述实施方式中，阐述了基于第一计算图中节点之间的连接关系从第一计算图中提取一个或多个可并行分支组的另一种搜索方式，该搜索方式是基于没有父节点或没有子节点的节点来进行的，而没有父节点或没有子节点的节点在神经网络转换而来的计算图中也广泛存在，因此，除了上述基于共同父节点或共同子节点的搜索方式外，这种搜索方式依然可搜索出大量的可并行分支组。这种搜索方式也可称为无汇聚结构单向搜索。

在第一方面的一种可能的实现方式中，深度学习框架得到多个第三分支之后，根据该多个第三分支得到一个可并行分支组的具体实现方式可以是：首先，深度学习框架从该第一计算图中搜索到没有父节点的一个或多个节点，并以该没有父节点的节点为起始点，根据节点间的连接关系，沿该多个第三分支中的每个第三分支各自向下搜索，直至在向下搜索过程中遇到第一计算图中的共同父节点或共同子节点时停止，在向下搜索过程中每个第三分支遍历到的节点各自构成一个子分支，例如，若有2个第三分支，那么经过上述向下搜索过程就可得到2个子分支，每个子分支可称为第三子分支，得到的多个第三子分支构成一个可并行分支组，例如，上述2个子分支就构成一个可并行分支组。这里需要注意的是，多个第三子分支中的每个第三子分支不包括向下搜索过程中遇到的共同子节点，也就是说，每个第三子分支可以包括作为起始点的节点，且在每个第三分支向下搜索过程中，若遇到共同父节点，可以将该共同父节点纳入到对应的第三子分支中，若遇到共同子节点，则在对应的第三子分支中排除该共同子节点。

在本申请上述实施方式中，具体阐述了深度学习框架如何根据多个第三分支得到一个可并行分支组，即从无父节点的节点出发进行向下搜索，这种从没有父节点的节点出发提取可并行分支组的方法，同样可以保证属于同一可并行分支组中不同子分支的节点不存在不一致的依赖行为，例如，基于没有父节点的节点出发向下搜索得到的子分支中不存在共同子节点的情形，从而可保证分支间节点的融合不会形成环结构。因此，本申请实施例所述的搜索方式同样可保证不会出现环结构，无需额外对每次得到的组合进行成环判断，简化了操作流程。

在第一方面的一种可能的实现方式中，深度学习框架得到多个第四分支之后，根据该多个第四分支得到一个可并行分支组的具体实现方式可以是：首先，深度学习框架从该第一计算图中搜索到没有子节点的一个或多个节点，并以该没有子节点的节点为起始点，根据节点间的直接连接关系，沿该多个第四分支中的每个第四分支各自向上搜索，直至在向上搜索过程中遇到第一计算图中的共同父节点或共同子节点时停止，在向上搜索过程中每个第四分支遍历到的节点各自构成一个子分支，例如，若有4个第四分支，那么经过上述向上搜索过程就可得到4个子分支，每个子分支可称为第四子分支，得到的多个第四子分支构成一个可并行分支组，例如，上述4个子分支就构成一个可并行分支组。这里需要注意的是，多个第四子分支中的每个第四子分支不包括向上搜索过程中遇到的共同父节点，也就是说，每个第四子分支可以包括作为起始点的节点，且在每个第四分支向下搜索过程中，若遇到共同子节点，可以将该共同子节点纳入到对应的第四子分支中，若遇到共同父节点，则在对应的第四子分支中排除该共同父节点。

在本申请上述实施方式中，具体阐述了深度学习框架如何根据多个第四分支得到一个可并行分支组，即从无子节点的节点出发进行向上搜索，这种从没有子节点的节点出发提取可并行分支组的方法，同样可以保证属于同一可并行分支组中不同子分支的节点不存在不一致的依赖行为，例如，基于没有子节点的节点出发向上搜索得到的子分支中不存在共同父节点的情形，从而可保证分支间节点的融合不会形成环结构。因此，本申请实施例所述的搜索方式同样可保证不会出现环结构，无需额外对每次得到的组合进行成环判断，简化了操作流程。

在第一方面的一种可能的实现方式中，由于多分叉结构单向搜索和无汇聚结构单向搜索都是基于节点之间的直接连接关系进行的，因此可以直接根据向上搜索或向下搜索找到各自对应的可并行分支组。但在上述两种搜索中，为了避免繁杂的成环判定操作，其停止条件较为严格，这将使按上述搜索方式处理第一计算图后，仍有部分潜在的可并行执行的节点散落在第一计算图中，这些节点可称为散落节点。这些散落节点可能是一些前后节点已经被并入可并行分支组后遗落的独立节点，也可能是一些特殊的节点结构，如，局部的菱形结构，即由一个节点散出，中间或经过多级分流，但最终汇入另一个节点的结构，这些散落节点由于自身特殊的结构或所处位置等原因打断了被找到的机会，或因为相关分支上无有效节点而被抛弃。这类节点结构都可称为散落结构，在散落结构中找到可并行执行的节点相对于直接基于节点间的连接关系查找而言，搜索成本较高，同时为了保证其有效性，还需进行成环判定。因此，在这种情况下，基于第一计算图中节点之间的连接关系从第一计算图中提取一个或多个可并行分支组的方式还可以是：从第一计算图中确定出未被划分进任意一个可并行分支组的目标节点，在该目标节点不属于所述不可融合节点的情况下，对目标节点周围的局部结构进行化简，得到第五分支，之后，在该第五分支为多个的情况下，根据所述多个第五分支得到一个可并行分支组。这种搜索方式也可称为散落结构无环搜索。

在本申请上述实施方式中，阐述了基于第一计算图中节点之间的连接关系从第一计算图中提取一个或多个可并行分支组的另一种搜索方式，该搜索方式是基于散落结构来进行的，该搜索方式作为上述两种方式的补充搜索方式，可以最大程度从第一计算图中搜索到可融合节点。使得搜索范围更加广泛。

在第一方面的一种可能的实现方式中，深度学习框架在得到该第二计算图之后，还可以进一步对该第二计算图进行编译，以得到编译后的第二计算图，该编译后的第二计算图就可直接加载至目标加速硬件去执行，对第二计算图的编译过程包括两部分，一部分是对普通节点编译，即对未融合的节点(包括不可融合节点以及未被融合的节点)进行的编译，而另一部分则是对融合节点编译，即对融合节点进行的编译，得到与融合节点对应的kernel。

在本申请上述实施方式中，阐述了对第二计算图的编译过程还包括对融合节点的编译过程，具备可实现性。

在第一方面的一种可能的实现方式中，为了保留融合节点前的各节点间的并行性，本申请在对融合节点编译生成kernel时，通过分段合并的方式完成kernel的生成，并在其中通过代码分支方式让各代码段间保持明确的独立性。分段合并将IR生成分为两阶段：1)对各个节点进行独立调度，得到第一阶段的与节点数相等数量的子IR；2)然后对这些子IR进行融合和修正，得到第二阶段的总IR。具体地，假设某融合节点是由p个节点融合得到，那么对该融合节点进行编译得到对应的kernel的方式具体可以是：首先，对该p个节点各自进行独立调度，得到p个子IR，再对该p个子IR进行融合，得到一个总IR，最后对该总IR进行编译，得到与该融合节点对应的kernel。

在本申请上述实施方式中，独立对各个节点进行调度分析提高了融合的灵活度，并保证融合节点代码的正确生成，且生成的kernel间依旧保有并行性，允许对应的目标加速硬件进行更深层次的并行优化。

在第一方面的一种可能的实现方式中，深度学习框架可以是多种具体表现形式的AI框架，例如，可以是mindspore、tensorflow、tensornetwork、pytorch、mxnet、caffe、theano等主流的深度学习框架，也可以是其他小众的深度学习框架，只要该深度学习框架能够对计算图进行优化、编译的处理过程，都可以认为是本申请实施例所述的深度学习框架，具体本申请对深度学习框架的表现形式不做限定。

在本申请上述实施方式中，对深度学习框架的几种常见的具体表现形式进行了说明，具备广泛性。

本申请实施例第二方面提供一种深度学习框架，该深度学习框架具有实现上述第一方面或第一方面任意一种可能实现方式的方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

本申请实施例第三方面提供一种计算机设备，可以包括存储器、处理器以及总线系统，其中，存储器用于存储程序，处理器用于调用该存储器中存储的程序以执行本申请实施例第一方面或第一方面任意一种可能实现方式的方法。

本申请第四方面提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当该指令在计算机上运行时，使得计算机可以执行上述第一方面或第一方面任意一种可能实现方式的方法。

本申请实施例第五方面提供了一种计算机程序或计算机程序产品，当该计算机程序或计算机程序产品在计算机上运行时，使得计算机执行上述第一方面或第一方面任意一种可能实现方式的方法。

本申请实施例第六方面提供了一种芯片，该芯片包括至少一个处理器和至少一个接口电路，该接口电路和该处理器耦合，至少一个接口电路用于执行收发功能，并将指令发送给至少一个处理器，至少一个处理器用于运行计算机程序或指令，其具有实现如上述第一方面或第一方面任意一种可能实现方式的方法的功能，该功能可以通过硬件实现，也可以通过软件实现，还可以通过硬件和软件组合实现，该硬件或软件包括一个或多个与上述功能相对应的模块。此外，该接口电路用于与该芯片之外的其它模块进行通信，例如，该接口电路可将芯片上处理器得到的第二计算图发送给目标加速硬件(如，CPU、NPU、GPU、TPU、ASIC、FPGA等)。

附图说明

图1为对计算图进行拓扑排序的一个示意图；

图2为不同类型神经网络的网络体量的一个示意图；

图3为本申请实施例提供的不同加速硬件包括的device与计算单元的一个结构示意图；

图4为本申请实施提供的神经网络的计算图中多个节点的编译过程(普通节点编译)的一个示意图；

图5为水平融合方式的一个示意图；

图6为算子级并行方式的一个示意图；

图7为本申请实施例提供的为人工智能主体框架的一种结构示意图；

图8为本申请实施例提供的深度学习框架处理计算图的一个处理流程图；

图9为本申请实施例提供的计算图的节点融合方法的一个流程示意图；

图10为本申请实施例提供的对第一计算图进行优化的一个流程示意图；

图11为本申请实施例提供的第一计算图中不同的分支结构特征的一个示意图；

图12为本申请实施例提供的根据多个第一分支得到一个可并行分支组的一个示意图；

图13为本申请实施例提供的根据多个第二分支得到一个可并行分支组的一个示意图；

图14为本申请实施例提供的根据多个第三分支得到一个可并行分支组的一个示意图；

图15为本申请实施例提供的根据多个第四分支得到一个可并行分支组的一个示意图；

图16为本申请实施例提供的对目标节点周围的局部结构进行化简的一个示意图；

图17为本申请实施例提供的从第一计算图中找到另外2个第五分支的一个示意图；

图18为本申请实施例提供的一种典型的散落结构内包含有可并行执行的节点的示意图；

图19为本申请实施例提供的散落结构无环搜索的具体实例的一个示意图；

图20为本申请实施例提供的深度学习框架得到的一个可并行分支组的示意图；

图21为本申请实施例提供的对第一可并行分支组剔除不可融合节点得到第二可并行分支组的一个示意图；

图22为本申请实施例提供的3个不同节点各自编译成kernel后在device上的算力使用情况的一个示意图；

图23为本申请实施例提供的组合搜索的搜索过程的一个示意图；

图24为本申请实施例提供的普通节点编译与融合节点编译的一个对比示意图；

图25为本申请实施例提供的对分段合并的一个具体的代码实例；

图26为本申请实施例提供的对分段合并的另一个具体的代码实例；

图27为本申请实施例提供的计算图的节点融合方法的流程的一个示意图；

图28为本申请实施例提供的节点融合前后的kernel在device上执行时的收益的一个示意图；

图29为本申请实施例提供的深度学习框架的一种结构示意图；

图30为本申请实施例提供的计算机设备的一种结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

本申请实施例涉及了许多关于神经网络、计算图等相关知识，为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及相关术语和概念进行介绍。应理解的是，相关的概念解释可能会因为本申请实施例的具体情况有所限制，但并不代表本申请仅能局限于该具体情况，在不同实施例的具体情况可能也会存在差异，具体此处不做限定。

(1)神经网络

神经网络可以是由神经单元组成的，具体可以理解为具有输入层、隐含层、输出层的神经网络，一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。其中，具有很多层隐含层的神经网络则称为深度神经网络(deep neural network，DNN)。神经网络中的每一层的工作可以用数学表达式

来描述，从物理层面，神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作，完成输入空间到输出空间的变换(即矩阵的行空间到列空间)，这五种操作包括：1、升维/降维；2、放大/缩小；3、旋转；4、平移；5、“弯曲”。其中1、2、3的操作由

完成，4的操作由“+b”完成，5的操作则由“a()”来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物，而是一类事物，空间是指这类事物所有个体的集合，其中，W是神经网络各层的权重矩阵，该矩阵中的每一个值表示该层的一个神经元的权重值。该矩阵W决定着上文所述的输入空间到输出空间的空间变换，即神经网络每一层的W控制着如何变换空间。训练神经网络的目的，也就是最终得到训练好的神经网络的所有层的权重矩阵。因此，神经网络的训练过程本质上就是学习控制空间变换的方式，更具体的就是学习权重矩阵。

(2)计算图(computational graph)

计算图是一种通用的计算过程表示方法，用于描述函数的有向无环图，普遍应用在各类数据处理平台上，一个计算图包括多个节点和有向边。

在机器学习领域中，由于神经网络是使用一个或多个神经网络层(如，隐藏层、输出层等)来为接收到的输入生成输出，每个隐藏层的输出被用作下一层(如，神经网络的下一个隐藏层或输出层)的输入，神经网络的每一层则根据该层当前的相关参数(如，权重)的当前值由接收到的输入生成输出。因此，在机器学习领域中，计算图用于表示神经网络涉及的计算逻辑，计算图中的每个节点表示神经网络所进行的相应运算(如，add节点代表一个加法运算)，该相应运算也可称为计算任务，一个节点代表一个计算任务，有向边的箭头方向表示的是数据的流向，带箭头的有向边将前一个节点(可称为前节点或父节点)连接至后一个节点(可称为后节点或子节点)，表示父节点的输出作为子节点的输入。

如图1的左图部分所示，带箭头的线段中箭头所指向的节点就为该线段尾端连接的节点的子节点，该线段尾端连接的节点就为该线段箭头所指向的节点的父节点，例如，图1中左图部分的节点B为节点A的子节点，节点B同时又是节点C和节点D的父节点。此外，若某个节点的输出作为不同节点的输入，那么该某节点就称为该不同节点的同一父节点(也可称为共同父节点，为便于阐述，在本申请实施例中统称为共同父节点)，例如，图1中左图部分的节点B同时是节点C和节点D的父节点，那么节点B就称为节点C和节点D的共同父节点。类似地，若某个节点的输入来自不同节点的输出，那么该某节点就称为该不同节点的同一子节点(也可称为共同子节点，为便于阐述，在本申请实施例中统称为共同子节点)，例如，图1中左图部分的节点E同时是节点C和节点D的子节点，那么节点E就称为节点C和节点D的共同子节点。

需要注意的是，在本申请实施例中，对计算图进行搜索的过程包括下向搜索和向上搜索，其中，向下搜索的过程指的是以选定的某个节点为起始点，基于计算图中有向边的箭头指向(即箭头所指示的方向)进行搜索的过程；而向上搜索的过程指的是以选定的某个节点为起始点，基于计算图中有向边的箭头指向的反方向(即箭头尾端所指示的方向)进行搜索的过程。

(3)计算图的节点融合

计算图的节点融合是指将计算图中两个或两个以上节点的计算逻辑进行整合，得到一个新节点，该新节点就称为融合节点，已被融合的节点在融合前可称为待融合节点或未融合节点，即可以进行融合的节点但还处于未被融合的状态，新节点的输入为融合前各个节点的输入集合，新节点的输出包括融合前各个节点的输出。通过节点融合，可将所述各个节点各自对应的计算任务整合成一个计算任务加载到对应的加速硬件上具体的计算任务的模块(该模块可称为device)上进行执行。在本申请实施例中，还有一些不适合进行融合的节点或不能融合的节点，这类节点则可以统称为不可融合节点。

(4)加速硬件和device

加速硬件也可以称为硬件加速器、硬件加速芯片等，随着神经网络表现出来的网络体量越来越大，其网络结构也越来越复杂，为了承担繁重的计算任务，专用的计算加速硬件应运而生，如，GPU、TPU、昇腾处理器(如，昇腾910和昇腾310)等，这些加速硬件加强了密集计算的能力，而且在设计初期或演进过程中拥有了越来越大的并行计算空间。

具体地，神经网络的计算图被编译后由加速硬件上具体执行计算任务的device执行，一般来说，每个加速硬件上都有一个或多个device，device数量越多，该加速硬件并行计算的能力就越强，每个device内又被划分为一个或多个小的计算单元，不同类型的GPU、TPU等加速硬件包括的device数量不同，且不同加速硬件内device包括的计算单元略有不同，例如，GPU内device包括的计算单元为基本执行单元(streaming multiprocessor，SM)，如图3中的(a)子示意图所示；TPU(或昇腾处理器)内包括的计算单元则为计算核心(core)，如图3中的(b)子示意图所示。需要注意的是，图3中的GPU、TPU包括的device数量以及各个device内包括的SM数量或core数量仅为示意，具体此处不再举例示意。如下表1所示，不同型号的GPU、DPU、昇腾处理器所包括的SM或core的数量都十分可观，且可并行执行的计算单元数量呈上升增长趋势。

表1：不同加速硬件中可并行执行的计算单元的数量

(5)中间表示(intermediate representation，IR)和算子核(kernel)

IR是程序编译过程中，源代码与目标代码之间翻译的中介。根据编译原理知识，编译器不是直接将源代码翻译成目标代码，而是先将其翻译成一种“中间语言”，之后，再由“中间语言”翻译成目标代码。因此，通常将编译器的编译过程分为前端和后端，其中，前端会对所输入的源代码进行词法分析、语法分析、语义分析等，然后生成中间表达形式(即IR)，后端再对IR进行优化，生成目标代码，该目标代码可直接在目标设备(如，各种加速硬件)上运行。

在深度学习领域中，神经网络被转换为计算图后，计算图中的节点所代表的计算任务就可看作是源代码，对计算图中的各个节点进行调度后就可得到各节点各自对应的IR，再对各个IR进行编译，就可得到各节点各自对应的目标代码，该目标代码就称为kernel，生成的kernel可被对应的加速硬件识别，由对应的加速硬件上具体执行计算任务的device来执行。

为便于理解，下面举例说明：请参阅图4，图4为本申请实施提供的神经网络的计算图中多个节点的编译过程的一个示意图，图4以3个节点为例进行示意，首先，编译器(也可称为编码器)对节点A、节点B、节点C各自进行调度，得到这3个节点各自对应的中间表示IR1、IR2、IR3，再进一步对IR1、IR2、IR3进行编译，得到与节点A、节点B、节点C各自对应的kernel1、kernel2、kernel3，得到的这3个kernel就可直接依次加载至对应的加速硬件内的device上，由device上的计算单元(如，SM、core等)依次执行对应的kernel。

(6)加速线性代数(accelerated linear algebra，XLA)编译器

XLA编译器是一种针对特定领域的线性代数编译器，能够加快tensorflow模型的运行速度，而且可能不需要更改源代码。tensorflow模型是一种常见的深度学习框架。

(7)自动算子核生成器(auto kernel generator，AKG)

AKG是深度学习框架中常见的一种编译器，是神经网络中kernel的自动生成器。

此外，在介绍本申请实施例之前，先对目前神经网络的计算图的节点融合的常见方式进行简单介绍，使得后续便于理解本申请实施例。

目前已有的计算图的节点融合方式主要有水平融合(horizontal fusion)方式和算子级并行(operator level parallelism)方式。其中，水平融合方式是XLA针对GPU的一个优化步骤，启用该优化步骤后，计算图中的许多小kernel(如，更新神经网络的训练参数时的乘法、加法等操作)将被融合起来。如图5所示，图5为水平融合方式的一个示意图，其实现上，为了保证不引入环结构，该方式从计算图的返回节点(即图5中左部分的(ROOT)tuple节点)向上搜索作为输入的节点，符合融合条件的节点则融合在一起，如图5中的右部分所示，从(ROOT)tuple节点往上找到Mul节点和Add节点这两个节点，然后通过添加类似Reshape、Concatenate、Slice的操作将其融合为一个新的节点。

算子级并行方式则是深度学习框架MXNet的一个优化步骤，其实现上，通过识别来自同一共同父节点的所有子节点，将其融合成一个新节点。由于有共同父节点，各子节点各自对应的计算任务相互独立，所以融合产生的新节点表现出了子节点的并行特性。如图6所示，图6示意的是算子级并行方式的一个示意图，具体地，从图6中的左部分图里的Split节点找到该Split的子节点Embeding0～Embeding25，并融合成图6中的右部分图的ParallelOP节点。按照类似的方式，在整个计算图上处理符合这种特征的节点，即完成了对计算图的优化。

由上述可知，水平融合方式在实现上有如下局限：1)寻找可融合的节点时很保守，实现上以计算图的返回节点为起点往回查找可融合的节点(即只作用在(ROOT)tuple节点上)，且查找过程中一旦中断就停止；2)待融合的节点需要有相同的数据排布和输出数据类型。而算子级并行方式在实现上的局限是：要求被融合的多个节点的输入数据都来自于共同父节点，也就是要求待融合的节点(如，图6中的各个Embeding节点)与共同父节点(如，图6中的Split节点)必须有直接连接关系。

已有的这些计算图的节点融合方式都具有很多约束条件，无法充分搜索可融合的节点，因此，如何在计算图中搜索可融合节点时覆盖面更为广泛、所受限制更小成为亟待解决的问题。基于此，本申请实施提供了一种计算图的节点融合方法，该方法只基于计算图中节点之间的连接关系搜索可并行分支组，搜索过程不会被个别不可融合节点所打断，提高了神经网络中可融合节点的搜索命中率。

下面结合附图，对本申请的实施例进行描述。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

首先对人工智能系统总体工作流程进行描述，请参见图7，图7示出的为人工智能主体框架的一种结构示意图，下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中，“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(也可称为AI芯片)提供，例如，CPU、NPU、GPU、TPU、ASIC、FPGA等硬件加速芯片提供，在本申请实施例中，智能芯片也包括昇腾系列(如，昇腾910、昇腾310等)的处理器；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能终端、智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶、平安城市等。

本申请可以应用人工智能领域的各个领域中，例如，计算机视觉领域(如，图像处理领域)、语义分析领域等等，具体的，结合图7来讲，本申请实施例中计算图的节点融合方法属于上述“(3)数据处理”中的一种具体的数据处理方式，该计算图的节点融合方法应用于深度学习框架，通过深度学习框架将计算图中的可融合的节点进行融合，得到融合节点，并将得到的融合节点以及普通节点(即未被融合的节点)通过深度学习框架中的编译器处理成智能芯片(如，上述所述的GPU、TPU等加速硬件)能识别的kernel，最后由对应的加速硬件上的device具体执行各个kernel。

由于本申请实施例提供的计算图的节点融合方法应用于深度学习框架，因此在介绍本申请实施例前，先对本申请涉及到的深度学习框架进行介绍，请参阅图8，图8为本申请实施例提供的深度学习框架处理计算图的一个处理流程图，深度学习框架对计算图的处理流程主体上可分为4个步骤，分别为网络定义、计算图优化、编译、硬件加载，下面分别进行介绍：

(1)网络定义

用户通过深度学习框架提供的应用程序接口(application programming interface，API)自定义神经网络的网络结构，或从网络模型库(model zoo)中直接获取已经预定义好的神经网络的网络结构。

(2)计算图优化

神经网络的网络结构转化为原始的计算图后，将通过公共子表达式消除(common subexpression elimination，CSE)和死码消除(dead code elimination，DCE)等优化步骤进行优化，这些优化步骤将依次修改优化计算图，得到优化后的计算图。

在本申请实施例中，额外增加了并行融合这一优化步骤，用来融合计算图中潜在的可并行执行的节点(即可融合节点)，得到融合节点。

(3)编译

经过上述计算图优化后，深度学习框架中的编译器将负责依据计算图中的各个节点(包括融合节点)编译出加速硬件序所需要的kernel。

这里需要注意的是，深度学习框架的类型不同，所采用的编译器也略有不同，例如，在各个主流深度学习框架中，常见的编译器有AKG、LLVM(low level virtual machine)等，LLVM是架构编译器(compiler)的框架系统，以C++编写而成，用于优化以任意程序语言编写的程序的编译时间(compile-time)、链接时间(link-time)、运行时间(run-time)以及空闲时间(idle-time)，对开发者保持开放，并兼容已有脚本。

在本申请实施中，在编译时区分开了普通节点编译和融合节点编译，其中，普通节点编译是指对未进行融合的计算图中的节点进行编译，与现有的编译过程类似，而融合节点编译是指对得到的各个融合节点进行编译，编译过程与现有的普通节点的编译过程不同。

(4)硬件加载

对上述各个节点(包括普通节点和融合节点)编译完成后，就可得到各个节点各自对应的kernel，各个kernel就可被加载至对应的加速硬件(如，GPU、TPU、昇腾910、昇腾310等)，由对应的加速硬件上的device具体执行各个节点的计算任务，加速硬件上具有与对应加速硬件相关的如内存分配、数据拷贝、设备管理等功能。

需要说明的是，在本申请的一些实施方式中，深度学习框架可以是多种具体表现形式的AI框架，例如，可以是mindspore、tensorflow、tensornetwork、pytorch、mxnet、caffe、theano等主流的深度学习框架，也可以是其他小众的深度学习框架，只要该深度学习框架能够对计算图进行优化、编译的处理过程，都可以认为是本申请实施例所述的深度学习框架，具体本申请对深度学习框架的表现形式不做限定。

接下来介绍本申请实施例所提供的计算图的节点融合方法，请参阅图9，图9为本申请提供的计算图的节点融合方法的一个流程示意图，该方法可应用于上述所述的深度学习框架，该方法可以包括如下步骤：

901、将第一神经网络转换为第一计算图。

首先，深度学习框架可以获取神经网络的网络结构，该网络结构可以是通过深度学习框架提供的API自定义神经网络的网络结构，也可以是从网络模型库(model zoo)中直接获取已经预定义好的神经网络的网络结构，具体本申请对深度学习框架如何获取神经网络的方式不做限定。

在获得神经网络的网络结构后，深度学习框架将进一步将该神经网络转换成一张计算图，得到的该计算图可称为第一计算图。

902、从该第一计算图中提取一个或多个可并行分支组，该可并行分支组指示属于一个可并行分支组的多个子分支支持被并行执行。

深度学习框架得到该第一计算图之后，会基于该第一计算图中各个节点之间的连接关系从第一计算图中提取到一个或多个可并行分支组，其中，每个可并行分支组都包括多个子分支(即至少2个子分支)，子分支为不存在分叉的顺序串联结构，每个可并行分支组中的每个子分支包括一个或多个节点。该可并行分支组就指示该可并行分支组的多个子分支支持被并行执行。这里需要注意的是，属于同一个可并行分支组的子分支需要满足两个条件：一个是各子分支之间不存在连接关系；二是属于不同子分支的任意两个或两个以上节点融合成一个节点后的计算图不存在环结构，即融合后的计算图中不存在环结构。此外，所述的第一计算图中各个节点之间的连接关系是指在具体的数据执行过程中，某些节点间必须保证执行的先后顺序。该步骤902的执行过程可称为网络分支提取。还需要注意的是，在本申请实施例中，可并行分支组中包括的至少一个可并行分支组(可称为第一可并行分支组)满足以下条件中的至少一种：该第一可并行分支组内的所有子分支的输入来自于同一节点且该第一可并行分支组内的至少两个子分支的输出指向不同的节点、该第一可并行分支组内的所有子分支的输出指向同一节点且该第一可并行分支组内的至少两个子分支的输入来自不同的节点、该第一可并行分支组内的所有子分支的第一个节点没有父节点、该第一可并行分支组内的所有子分支的最后一个节点没有子节点。

需要说明的是，在本申请的一些实施方式中，在可并行分支组为多个的情况下，该可并行分支组还包括至少一个第二可并行分支组，该第二可并行分支组满足以下条件：该第二可并行分支组内的所有子分支的输入来自于同一节点且该第二可并行分支组内的至少两个子分支的输出指向同一节点，该第二可并行分支组内的每个子分支包括至少两个节点。

需要说明的是，在本申请的一些实施方式中，得到第一计算图还可以进一步进行优化，优化的目的之一是使得优化后的第一计算图能够直观反映出数据流之间的依赖关系，例如，优化的手段可以是：去除第一计算图中与计算无关的节点、增加与依赖分析相关的虚边等，例如，第一计算图中的同步节点，代表的是执行上的时间先后关系，是一种同步消息，其与具体计算无关，因此可消除该节点，并为相关节点添加上依赖虚边。如图10所示，图10中的左边部分是原始的第一计算图的一个局部示意，该第一计算图中包括有同步节点D，因此经过优化后，同步节点D会被消除，并添加节点A和节点E之间的虚边，该虚边如图10中的右边部分带箭头的虚线所示，用于表示节点A与节点E之间存在直接连接关系。经过该优化过程，优化后的第一计算图包括各个节点之间的直接连接关系，即数据流依赖关系，该直接连接关系中包含有第一计算图中每个节点输入数据的供给节点(即父节点)与输出数据的消费节点(即子节点)，例如，A→B→C，则节点B的输入数据的供给节点为节点A，节点B的输出数据的消费节点为节点C，具体地，如图10中的右边部分，节点A与节点B和节点E都存在直接的连接关系，节点B与节点C存在直接的连接关系等，具体此处不再举例示意。

在得到第一计算图(或优化后的第一计算图)后，深度学习框架将进一步对该第一计算图(或优化后的第一计算图)进行分层次搜索，得到一个或多个可并行分支组，其中，不同层次对应不同的搜索方式。为便于阐述，下述实施例均基于第一计算图进行说明。

需要注意的是，由于本申请对第一计算图是进行分层次搜索，并且不同的层次对应不同的搜索方式，分层次搜索是针对整个第一计算图中不同的分支结构特征来进行的，在本申请的一些实施方式中，第一计算图中不同的分支结构特征可以用3种结构特征来描述，分别可称为多分叉结构、无汇聚结构、散落结构，具体可参阅图11，图11为本申请实施例提供的第一计算图中不同的分支结构特征，下面分别进行说明：

(1)多分叉结构

多分叉结构为拥有共同父节点或拥有共同子节点的分支结构，其中，共同父节点和共同子节点可统称为汇合节点，这种分支结构有着最直观的可并行性，如图11中的(a)子示意图所示，多分叉结构的各个分支间(不包括汇合节点)，没有明确的连接关系，因而分支间可并行执行。

(2)无汇聚结构

无汇聚结构则是指那些分支结构的第一个节点没有父节点或分支结构的最后一个节点没有子节点的分支结构，通过给这些分支增加一个虚拟的汇合节点，就可以将其转化为多分叉结构进行处理，如图11中的(b)子示意图所示，白色底节点和实箭头为实际的节点和连接关系，灰色底节点是额外增加的虚拟汇合节点，虚箭头为同步加上的虚拟连接关系。

(3)散落结构

除了多分叉结构和无汇聚结构，第一计算图中剩下的节点就可以统称为散落结构，在这些散落结构中，可能还存在一些分支，分支间的节点没有直接的父子关系可以表现出并行性，但这些分支结构就拓扑序来说是可以并行执行的，如图11中的(c)子示意图所示，这些节点之间没有直接连接关系，但是有些分支结构存在可并行执行的可能性。

下面对如何对第一计算图进行分层次搜索的具体搜索过程进行描述，根据第一计算图所呈现的分支结构特征，分层次搜索的过程可以包括如下至少一种搜索方式：多分叉结构单向搜索、无汇聚结构单向搜索、散落结构无环搜索，下面对每种搜索方式分别进行介绍：

(1)多分叉结构单向搜索

多分叉结构单向搜索的过程也可以称为第一层次搜索，具体地，深度学习框架对第一计算图进行第一层次搜索，该第一层次搜索至少包括但不限于如下至少一种具体形式的搜索过程：

a、在第一计算图中搜索拥有共同父节点(可称为第一共同父节点)的多个分支(可称为第一分支)，并根据该多个第一分支得到一个可并行分支组。

在这种搜索方式中，深度学习框架会从第一计算图中搜索拥有共同第一父节点的多个第一分支，并根据该多个第一分支得到一个可并行分支组，该第一共同父节点为第一计算图中的任意一个共同父节点。

需要说明的是，在本申请的一些实施方式中，深度学习框架得到多个第一分支之后，根据该多个第一分支得到一个可并行分支组的具体实现方式可以是：以该第一共同父节点为起始点，根据节点间的连接关系，沿该多个第一分支中的每个第一分支各自向下搜索，直至在向下搜索过程中遇到第一计算图中的其他共同父节点(可称为第二共同父节点)或共同子节点时停止，在向下搜索过程中每个第一分支遍历到的节点各自构成一个子分支，例如，若有4个第一分支，那么经过上述向下搜索过程就可得到4个子分支，每个子分支可称为第一子分支，得到的多个第一子分支构成一个可并行分支组，例如，上述4个子分支就构成一个可并行分支组。这里需要注意的是，多个第一子分支中的每个第一子分支不包括第一共同父节点和共同子节点，也就是说，每个第一子分支都不包括作为起始点的第一共同父节点，且在每个第一分支向下搜索过程中，若遇到其他共同父节点(即第二共同父节点)，就将该第二共同父节点纳入到对应的第一子分支中，若遇到共同子节点，则在对应的第一子分支中排除该共同子节点。

为便于理解上述过程，下面举例进行示意：请参阅图12，图12为本申请实施例提供的一个根据多个第一分支得到一个可并行分支组的一个示意图，节点A为第一共同父节点，以该节点A为起始点，可搜索到2个分支(即第一分支)，其中一个分支包括节点B、节点C、节点F和节点G，另一个分支包括节点D、节点E、节点H和节点I，沿着这2个分支各自向下搜索，左边的分支在向下搜索过程中遇到其他共同父节点C时停止向下搜索，右边的分支在向下搜索过程中遇到共同子节点H时停止向下搜索，此时，左边的分支被遍历到的节点为A、B、C，右边的分支被遍历到的节点为A、D、E、H，然而，节点C为共同父节点，可纳入左边的子分支中，节点H为共同子节点，排除在右边的子分支外，而节点A又是作为起始点的第一共同父节点，均被排除在2个子分支外，因此，左边的子分支为(B→C)，右边的子分支为(D→E)，这2个子分支就构成一个可并行分支组。

b、在第一计算图中搜索拥有共同子节点(可称为第一共同子节点)的多个分支(可称为第二分支)，并根据该多个第二分支得到一个可并行分支组。

在这种搜索方式中，深度学习框架会从第一计算图中搜索拥有共同第一子节点的多个第二分支，并根据该多个第二分支得到一个可并行分支组，该第一共同子节点为第一计算图中的任意一个共同子节点。

需要说明的是，在本申请的一些实施方式中，深度学习框架得到多个第二分支之后，根据该多个第二分支得到一个可并行分支组的具体实现方式可以是：以该第一共同子节点为起始点，根据节点间的连接关系，沿该多个第二分支中的每个第二分支各自向上搜索，直至在向上搜索过程中遇到第一计算图中的其他共同子节点或共同父节点时停止，在向上搜索过程中每个第二分支遍历到的节点各自构成一个子分支，例如，若有3个第二分支，那么经过上述向上搜索过程就可得到3个子分支，每个子分支可称为第二子分支，得到的多个第二子分支构成一个可并行分支组，例如，上述3个子分支就构成一个可并行分支组。这里需要注意的是，多个第二子分支中的每个第二子分支不包括该第一共同子节点和共同父节点，也就是说，每个第二子分支都不包括作为起始点的第一共同子节点，且在每个第二分支向上搜索过程中，若遇到其他共同子节点，就将该其他共同子节点纳入到对应的第二子分支中，若遇到共同父节点，则在对应的第二子分支中排除该共同父节点。

为便于理解上述过程，下面举例进行示意：请参阅图13，图13为本申请实施例提供的一个根据多个第二分支得到一个可并行分支组的一个示意图，节点H为第一共同子节点，以该节点H为起始点，可搜索到2个分支(即第二分支)，其中一个分支包括节点F、节点D、节点A和节点B，另一个分支包括节点G、节点E、节点C、节点I和节点J，沿着这2个分支各自向上搜索，左边的分支在向上搜索过程中遇到其他共同子节点D时停止向上搜索，右边的分支在向上搜索过程中遇到共同父节点I时停止向上搜索，此时，左边的分支被遍历到的节点为H、F、D，右边的分支被遍历到的节点为H、G、E、C、I，然而，节点D为共同子节点，可纳入左边的子分支中，节点I为共同父节点，排除在右边的子分支外，而节点H又是作为起始点的第一共同子节点，均被排除在2个子分支外，因此，左边的子分支为(D→F)，右边的子分支为(C→E→G)，这2个子分支就构成一个可并行分支组。

以上从共同父节点或从共同子节点出发提取可并行分支组的方法，可以保证属于同一可并行分支组中不同子分支的节点不存在不一致的依赖行为，例如，基于共同子节点出发向上搜索得到的子分支中不存在共同父节点的情形，类似地，基于共同父节点出发向下搜索得到的子分支中不存在共同子节点的情形，从而可保证分支间节点的融合不会形成环结构。

目前已有的计算图的节点融合方式中，都需要判断节点融合后是否成环，而判断是否成环是个很繁杂的操作，本申请实施例上述所述的多分叉结构单向搜索的提取方式保证了不会出现环结构，因此无需额外对每次得到的组合进行成环判断，简化了操作流程。

需要说明的是，在本申请实施例中，多分叉结构单向搜索(即第一层次搜索)可以是只进行上述方式a的搜索过程，也可以是只进行上述方式b的搜索过程，还可以是同时进行上述方式a和方式b的搜索过程，具体此处不做限定。但需要注意的是，若是同时进行上述方式a和方式b的搜索过程，那么第一计算图中的某个节点(如，节点A)属于最先被遍历到的那个子分支，并且会对该节点进行标识，该标识就用于表征该节点已被编入子分支，以防止在后续搜索过程中被重复分组。

(2)无汇聚结构单向搜索

无汇聚结构单向搜索的过程也可以称为第二层次搜索，具体地，深度学习框架对第一计算图进行第二层次搜索，该第二层次搜索至少包括但不限于如下至少一种具体形式的搜索过程：

a、在第一计算图中搜索没有父节点的多个分支(可称为第三分支)，并根据该多个第三分支得到一个可并行分支组。

在这种搜索方式中，深度学习框架会从第一计算图中搜索没有父节点的多个第三分支，并根据该多个第三分支得到一个可并行分支组。

需要说明的是，在本申请的一些实施方式中，深度学习框架得到多个第三分支之后，根据该多个第三分支得到一个可并行分支组的具体实现方式可以是：首先，深度学习框架从该第一计算图中搜索到没有父节点的一个或多个节点，并以该没有父节点的节点为起始点，根据节点间的连接关系，沿该多个第三分支中的每个第三分支各自向下搜索，直至在向下搜索过程中遇到第一计算图中的共同父节点或共同子节点时停止，在向下搜索过程中每个第三分支遍历到的节点各自构成一个子分支，例如，若有2个第三分支，那么经过上述向下搜索过程就可得到2个子分支，每个子分支可称为第三子分支，得到的多个第三子分支构成一个可并行分支组，例如，上述2个子分支就构成一个可并行分支组。这里需要注意的是，多个第三子分支中的每个第三子分支不包括向下搜索过程中遇到的共同子节点，也就是说，每个第三子分支可以包括作为起始点的节点，且在每个第三分支向下搜索过程中，若遇到共同父节点，可以将该共同父节点纳入到对应的第三子分支中，若遇到共同子节点，则在对应的第三子分支中排除该共同子节点。

从特征上看，第二层次搜索的方式a的搜索过程与上述第一层次搜索的方式a的搜索过程类似，其不同之处在于：第二层次搜索的方式a的搜索过程不是从一个节点出发进行查找，而是将多个无汇聚节点(即没有父节点的节点)作为一组进行向下搜索，且无汇聚节点也被包含在各自的子分支内。如图14所示，图14为本申请实施例提供的一个根据多个第三分支得到一个可并行分支组的一个示意图，深度学习框架从没有父节点的节点B、D出发，各自向下搜索，得到子分支(B→C)和子分支(D→E)，子分支(B→C)和子分支(D→E)就构成一个可并行分支组。

b、在第一计算图中搜索没有子节点的多个分支(可称为第四分支)，并根据该多个第四分支得到一个可并行分支组。

在这种搜索方式中，深度学习框架会从第一计算图中搜索没有子节点的多个第四分支，并根据该多个第四分支得到一个可并行分支组。

需要说明的是，在本申请的一些实施方式中，深度学习框架得到多个第四分支之后，根据该多个第四分支得到一个可并行分支组的具体实现方式可以是：首先，深度学习框架从该第一计算图中搜索到没有子节点的一个或多个节点，并以该没有子节点的节点为起始点，根据节点间的直接连接关系，沿该多个第四分支中的每个第四分支各自向上搜索，直至在向上搜索过程中遇到第一计算图中的共同父节点或共同子节点时停止，在向上搜索过程中每个第四分支遍历到的节点各自构成一个子分支，例如，若有4个第四分支，那么经过上述向上搜索过程就可得到4个子分支，每个子分支可称为第四子分支，得到的多个第四子分支构成一个可并行分支组，例如，上述4个子分支就构成一个可并行分支组。这里需要注意的是，多个第四子分支中的每个第四子分支不包括向上搜索过程中遇到的共同父节点，也就是说，每个第四子分支可以包括作为起始点的节点，且在每个第四分支向下搜索过程中，若遇到共同子节点，可以将该共同子节点纳入到对应的第四子分支中，若遇到共同父节点，则在对应的第四子分支中排除该共同父节点。

同样地，从特征上看，第二层次搜索的方式b的搜索过程与上述第一层次搜索的方式b的搜索过程类似，其不同之处在于：第二层次搜索的方式b的搜索过程不是从一个节点出发进行查找，而是将多个无汇聚节点(即没有子节点的节点)作为一组进行向上搜索，且无汇聚节点也被包含在各自的子分支内。如图15所示，图15为本申请实施例提供的一个根据多个第四分支得到一个可并行分支组的一个示意图，深度学习框架从没有子节点的节点D、G、F出发，各自向上搜索，得到子分支(C→D)、子分支(G)和子分支(F)，子分支(C→D)、子分支(G)和子分支(F)就构成一个可并行分支组。

类似地，以上从没有父节点或从没有子节点的节点出发提取可并行分支组的方法，同样可以保证属于同一可并行分支组中不同子分支的节点不存在不一致的依赖行为，例如，基于没有子节点的节点出发向上搜索得到的子分支中不存在共同父节点的情形，类似地，基于没有父节点的节点出发向下搜索得到的子分支中不存在共同子节点的情形，从而可保证分支间节点的融合不会形成环结构。因此，本申请实施例上述无汇聚结构单向搜索的提取方式同样可保证不会出现环结构，无需额外对每次得到的组合进行成环判断，简化了操作流程。

需要说明的是，在本申请实施例中，无汇聚结构单向搜索(即第二层次搜索)可以是只进行上述方式a的搜索过程，也可以是只进行上述方式b的搜索过程，还可以是同时进行上述方式a和方式b的搜索过程，具体此处不做限定。但需要注意的是，若是同时进行上述方式a和方式b的搜索过程，那么第一计算图中的某个节点属于最先被遍历到的那个子分支，并且会对该节点进行标识，该标识就用于表征该节点已被编入子分支，以防止在后续搜索过程中被重复分组。

(3)散落结构无环搜索

散落结构无环搜索的过程也可以称为第三层次搜索，在散落结构中找到可并行执行的节点相对于直接基于节点间的连接关系查找而言，搜索成本较高，同时为了保证其有效性，还需进行成环判定。具体地，深度学习框架从第一计算图中确定出未被划分进任意一个可并行分支组的目标节点，该目标节点也可称为敏感节点，是指适合融合的节点，因此，目标节点需满足如下几个条件：1)该目标节点对应的计算任务在device执行时所需消耗的算力资源不能超过预设阈值；2)不属于不可融合节点。深度学习框架选定目标节点后，将以该目标节点为中心，化简其上下游网络中的局部结构，得到一个分支，该分支可称为第五分支。例如，由一个节点散出，中间或经过多级分流，最终汇入另一个节点构成的菱形结构，在第一计算图中可以被化简成一个虚拟节点。如图16所示，图16为本申请实施例提供的对目标节点周围的局部结构进行化简的一个示意图，图16中的左边部分的节点A与节点B之间用虚线框住的部分为菱形结构，这两个菱形结构各自被化简成右图中灰色底节点(即虚拟节点)，其中，节点A和节点B即为目标节点；类似地，可据此找到其他目标节点，并化简其周围的局部结构，得到多个第五分支，并根据得到的多个第五分支得到一个可并行分支组。如图17所示，图17示意的是从第一计算图中找到的另外2个第五分支，其中一个第五分支的目标节点为节点C、D，另一个第五分支的目标节点为节点E、F，最后根据这3个第五分支可得到一个可并行分支组。

这里需要注意的是，多个第五分支中各虚拟节点的作用是：辅助判断属于各个不同第五分支的目标节点是否可融合，该虚拟节点对应的真实节点可能是不可融合的节点，也可能是已经被融合进可并行分支组里的节点，因此，为便于操作，该虚拟节点在后续不再参与是否是可融合节点的判断，在后续的编译过程中，依然是作为普通节点进行编译。例如，以图16和图17为例，得到的这3个第五分支一共包括了5个虚拟节点，这5个虚拟节点的作用是用于判断节点A至节点F中属于不同第五分支的至少两个节点是否可融合，这5个虚拟节点并不属于可融合节点，在后续的编译过程中，还是基于各自对应的菱形结构涉及的节点进行普通编译。最后，得到的多个第五分支之间需要进行成环判断，若互相之间不成环，再根据该多个第五分支得到可并行分支组。进行成环判断的目的在于保证其有效性。

还需要注意的是，本申请实施例进行第三层次搜索的目的在于：第一层次搜索和第二层次搜索都是基于节点之间的直接连接关系进行的，因此可以直接根据向上搜索或向下搜索找到各自对应的可并行分支组。但在上述第一层次搜索或第二层次搜索中，为了避免繁杂的成环判定操作，其停止条件较为严格，这将使按上述搜索方式处理第一计算图后，仍有部分潜在的可并行执行的节点散落在第一计算图中，这些节点可称为散落节点。这些散落节点可能是一些前后节点已经被并入可并行分支组后遗落的独立节点，也可能是一些特殊的节点结构，如，局部的菱形结构，即由一个节点散出，中间或经过多级分流，但最终汇入另一个节点的结构，这些散落节点由于自身特殊的结构或所处位置等原因打断了被找到的机会，或因为相关分支上无有效节点而被抛弃。为便于理解，下面举例进行说明，请参阅图18，图18为一种典型的散落结构内包含有可并行执行的节点的示意图，由图18可知，子分支(B)与子分支(I)是搜索到的一个可并行分支组，子分支(H)与子分支(O)是搜索到的另一可并行分支组，从图中结构可以看出，子分支(C→D→E→F→G)与子分支(J→K→L→M→N)是未被找到的潜在可并行分支组。该潜在可并行分支组未被找到的原因在于：而其中，C、J在基于共同父节点的向下搜索过程中被找到，但由于相关分支是空分支(因为(B→D)与(I→K)间无节点，故为空分支)，所以节点C、J被抛弃，同理被抛弃的还有节点G、N；而节点D、K、F、M本身为目标节点(即敏感节点)，但由于未被其他的搜索过程命中(即没有被上述第一层次搜索或第二层次搜索的搜索过程找到)，故而也被抛弃；而节点E、L则是被菱形结构阻断。

下面以一个具体的实例说明散落结构无环搜索的过程是怎样的，请参阅图19，图19为本申请实施例提供的散落结构无环搜索的具体实例的一个示意图，图19是基于图18的散落结构得到，图19中(a)部分的节点BI和节点HO分别是图18中节点B、I的融合节点以及节点H、O的融合节点，即对图18中的节点B、I进行融合，得到融合节点BI，并对节点H、O进行融合，得到融合节点HO。散落结构无环搜索的过程具体可分为4个步骤，下面分别进行阐述：步骤1、首先，深度学习框架在第一计算图中找到所有散落的目标节点的结合，如，图18中的节点G、N、C、J、D、K、F、M、E、L等，分别以这些节点为中心，向上搜索/向下搜索并化简在100拓扑序内能形成菱形结构(假设设定拓扑序间隔为100，则若记分叉节点拓扑序为150，则找到50号拓扑序节点时停止，若其分叉能汇聚于同一共同祖先，则能于100拓扑序内形成菱形结构)的局部结构，如图19中(b)部分所示，节点C、D被化简为虚拟节点Q(由于融合节点BI不是仅被节点C、D连接，所以不能化简到一个虚拟节点中)，类似地，节点J、K被化简为虚拟节点R，节点G、F被化简为虚拟节点S，节点M、N被化简为虚拟节点T，由此可得到新的分支(Q→E→S)和(R→L→T)；步骤2、之后，深度学习框架再分别从新的各分支取一个节点(如第一个节点)，进行成环判定，不成环的分支成为可并行分支组的一个子分支。如图19中(b)部分所示，子分支(Q→E→S)和(R→L→T)均不成环，因此，这两个子分支构成一个可并行分支组；步骤3、在新的分支中，虚拟节点如图19中(b)部分所示的节点Q，其所代表的真实节点C、D本身无法并行，但与虚拟节点R所代表的真实节点J、K之间是可以并行的，即节点C与J可并行执行，节点D与K也可并行执行。因此，将该并行分支组的各子分支上的虚拟节点重新还原成真实节点，并按真实节点的局部拓扑序进行排序，重新形成虚拟的分支结构，如图19中的(c)部分所示，将虚拟节点Q展开为(C→D)，将虚拟节点R展开为(J→K)，将虚拟节点S展开为(F→G)，将虚拟节点T展开为(M→N)，这些虚拟节点与原真实节点代表的计算逻辑是一样的，但其连接关系是虚拟的，仅用于进行潜在可并行分支组的并行分析。经过上述所述的分析，可找到潜在的可并行分子组，即找到子分支(C→D→E→F→G)和子分支(J→K→L→M→N)构成的可并行分支组；步骤4、重复上述步骤3直到步骤2中的所有潜在可并行分支组都处理完成。

需要说明的是，在本申请的一些实施方式中，可根据需要进行上面任意一个或多个层次的搜索，例如，在用户需要快速进行搜索而对搜索结果的完备性要求不高的情况下，可以是仅进行第一层次搜索，也可以是仅进行第二层次搜索，还可以是仅进行第三层次搜索，具体此处不做限定；又例如，在用户需要尽可能多的搜索出可并行执行的节点的情况下，那么可以进行多个层次的搜索，如，可进行上述三个层次的搜索中的至少两个层次的搜索，但需要注意的是，当深度学习框架执行的是至少两个层次的搜索时，对层次搜索的执行顺序不做限定，以深度学习框架执行的是上述三个层次的搜索为例，不限定上述三个层次的搜索的顺序，可以是先执行第一层次搜索，再执行第二层次搜索，最后执行第三层次搜索，也可以是先执行第二层次搜索，再执行第一层次搜索，最后执行第三层次搜索，或者是任意顺序进行层次搜索，此处不再举例示意。

还需要说明的是，在本申请的一些实施方式中，为了搜索出尽可能多的可并行执行的节点，上述的多层次搜索过程可以是迭代进行的，迭代的终止条件可以是直至找不到新的可并行分支组为止，也可以是达到一定的迭代时长，具体此处对终止搜索的条件不做限定。

903、对一个或多个该可并行分支组中每个可并行分支组中分别来自不同子分支的多个节点进行融合，以基于第一计算图得到第二计算图。

经过上述步骤902，深度学习框架可得到一个或多个可并行分支组，针对每一个可并行分支组，深度学习框架可对每个可并行分支组(可称为目标可并行分支组)中分别来自不同子分支的多个节点进行融合，从而得到第二计算图。这里需要注意的是，目标可并行分支组中分别来自不同子分支的多个节点是指这多个节点中的任意两个节点均不能是来自于同一子分支，也就是在任意一个目标可并行分支组中，每个子分支都包括有一个或多个节点，来自不同子分支的节点可以组合起来作为融合节点，相同子分支上的节点由于前后连接关系则不进行融合，在目标可并行分支组上，可基于搜索算法得到融合节点。

为便于理解，下面举例进行示意：假设深度学习框架得到的一个可并行分支组如图20所示，该可并行分支组一共包括3个子分支，其中第一个子分支包括4个节点，其余两个子分支各自包括3个节点，由图20可知，节点A、C、F分别来自于不同的3个子分支，可对这3个节点进行融合，得到一个融合节点；又例如，节点B、D也分别来自于不同的2个子分支，也可对这2个节点进行融合，得到一个融合节点，具体此处不再举例示意。由图20的示例可知，对目标可并行分支组中分别来自不同子分支的多个节点进行融合时，可以融合得到一个或多个融合节点，这主要取决于融合的方式。

需要说明的是，在本申请的一些实施方式中，基于上述步骤902得到的一个或多个可并行分支组中的某些子分支上可能依然保留有一些不可融合的节点或不适合并行执行的节点，这类节点可统称为不可融合节点，这些节点之所以在提取可并行分支组时被保留下来，是为了让分支保留有完整性，使得分支在搜索过程中不被个别节点打断，一旦打断，将导致潜在的可并行执行的节点被遗漏。因此，深度学习框架得到一个或多个可并行分支组之后，还可以将从每个可并行分支组(即目标可并行分支组)中的每个子分支中剔除掉不可融合节点，从而得到剔除了不可融合节点的各个可并行分支组(可称为第三可并行分支组)，而第一可并行分支组中的任意一个子分支可称为目标子分支。之后，将剔除了不可融合节点的各个可并行分支组(即第三可并行分支组)中分别来自不同子分支的多个节点进行融合，得到融合节点，各个融合节点与第一计算图中的未融合节点就构成所述第二计算图。

还需要说明的是，在本申请的一些实施方式中，不可融合节点具体可以是具有排他性运算操作的节点，例如，使用的编译套件不提供某些节点融合后的kernel编译方案；也可以是属于特定运算操作的节点，例如，神经网络的矩阵乘操作、卷积操作等特定运算操作，其本身计算密集度高，大多数情况下在device上执行时都会尽可能的将device上的算力资源使用完全，所以这类节点也不适合并行执行，其中一种例外的情况是数据本身特别小时，可视为适合并行执行。

为便于理解上述得到第三可并行分支组的过程，下面举例进行示意：假设深度学习框架得到的一个目标可并行分支组如图21中的(a)子示意图所示，在对节点进行融合之前，需要对该目标可并行分支组的各个子分支进行“清洗”，剔除掉不可融合节点，假设节点H、I、J、K被确定为不可融合节点，如图21中的(b)子示意图所示，那么就需过滤到该节点H、I、J、K，过滤掉的这些节点在后续就作为普通节点进行编译，而各个子分支留下来的节点才具备进行融合的资格，例如，图21中的(c)子示意图所示，留下来的节点A、B、C、D、F、G为可融合节点，这些可融合节点在后续过程中参与到具体的融合过程中。

还需要说明的是，在本申请的一些实施方式中，深度学习框架在剔除了不可融合节点得到各个第三可并行分支组后，对第三可并行分支组中分别来自不同子分支的多个节点进行融合，得到融合节点的过程可以基于组合搜索(也可称为并行融合搜索)的方式得到，该组合搜索的原则是：在任意一个第三可并行分支组中，每个子分支都包括有一个或多个节点，来自不同子分支的节点可以组合起来作为融合节点，相同子分支上的节点由于前后连接关系则无法进行融合，在每个第三可并行分支组上，可基于搜索算法得到融合节点。具体地，该组合搜索的流程可以由两部分完成，一部分可称为候选组合生成模型，另一部分可称为算力评估模型，其中，候选组合生成模型负责基于第三可并行分支组中的各个节点生成一系列的候选节点组合，而算力评估模型则负责对各个候选节点组合融合成一个节点后所需消耗的算力进行评估，该评估也可称为收益评估。具体的搜索过程可以是：首先，从第三可并行分支组中的子分支中各自选择(如，可以是随机选择)一个未融合节点，得到n个未融合节点，该未融合节点为未被融合的节点，n≥2，之后基于选出的n个未融合节点生成m个节点组合，m个节点组合中的每个节点组合包括至少两个未融合节点，m≥1，并通过构建的算力评估模型对该m个节点组合所需消耗的算力进行评估，得到m个评估结果，在第一评估结果满足预设条件的情况下，将与该第一评估结果对应的第一节点组合进行融合，得到第一融合节点，并将该第一节点组合中的各个未融合节点标记为已融合节点，所述第一评估结果为这m个评估结果中的一个，该第一节点组合为该m个节点组合中的一个。

需要注意的是，本申请实施例构建算力评估模型的原因在于：由于各个节点对应的计算任务对device上算力资源的使用率不同，会使得device的算力资源在整个执行过程中的使用率上下抖动。因此，device在执行资源使用率小的计算任务时，device的部分算力资源将会处于空闲状态。如图22所示，图22为本申请实施例提供的3个不同节点各自编译成kernel后在device上的算力使用情况，假设加速硬件上的某device上包括3个计算单元，如图22中的3个灰色方格所示，kernelA、kernelB、kernelC由3个节点各自被编译后得到的算子核，算子核可直接由device的计算单元执行，kernelA、kernelB、kernelC所在的框的大小表示各自所消耗的算力，由图22可知，不同的kernel所消耗的算力资源不同，并且在依次执行各个kernel的过程中，该device的资源使用率是不稳定的，且还有部分算力资源(如，图22中的有2个计算单元)处于空闲状态。因此，本申请实施例中构建算力评估模型的目的在于：从候选节点组合中选择出能提高device算力资源使用率的目标节点组合来融合，这样以融合的方式将多个可并行的节点融合成一个节点进行执行，以此提高device的平均资源使用率，进而提高整个加速硬件的整体性能。

需要说明的是，在本申请的一些实施方式中，为了尽可能将所有可融合节点进行融合，上述将第三可并行分支组中分别来自不同子分支的多个节点进行融合的过程是迭代进行的，即重复执行上述将第三可并行分支组中分别来自不同子分支的多个节点进行融合的步骤，直至该第三可并行分支组中未融合节点的数量少于2个。

为便于理解，下面分步骤对整个组合搜索的过程详细介绍：

步骤1、首先从剔除了不可融合节点的可并行分支组中选取出未进行融合过的一个第三可并行分支组。

步骤2、从该第三可并行分支组中的每个子分支上各选择(如，可随机选择)一个未融合节点，得到n个未融合节点，其中未融合节点是指未被融合的节点，n≥2。需要注意的是，在本申请的一些实施方式中，得到的未融合节点的数量也可以等于有效子分支的数量，有效子分支是指在本轮次选择节点前至少存在一个未融合节点的子分支。例如，假设当前有效子分支的数量为n′，则一共得到n′个未融合节点。

步骤3、通过候选组合生成模型基于这n个节点生成一个新的候选节点组合(即上述m个节点组合中的一个)。

步骤4、通过算力评估模型对该新的候选组合所需消耗的算力进行评估，得到新的评估结果(即上述m个评估结果中的一个)。

步骤5、判断该评估结果是否满足预设条件，或者，也可以重复执行步骤3和步骤4，直到评估结果满足预设条件，之后将满足预设条件的评估结果对应的候选节点组合选定为目标节点组合(即上述第一节点组合)，对该目标节点组合进行融合，得到融合节点(即第一融合节点)。例如，假设经过步骤2得到的未融合节点有7个，分别记为节点0～6，并且经过步骤3至步骤5后得到3组目标节点组合，分别为[0,1,5]、[2,4]、[3,6]，据此各自进行融合，可得到3个融合节点。

步骤6、重复执行步骤2至步骤5，直至该第三可并行分支组中未融合节点的数量少于2个。

需要注意的是，在本申请的一些实施方式中，可以在得到当前轮次的一个评估结果之后，就判断该评估结果是否满足预设条件，再基于判断结果进行后续处理；也可以是在进行多轮次搜索候选节点组合得到多个评估结果之后(即至少两个评估结果)再判断该多个评估结果是否存在满足预设条件的评估结果，再基于判断结果进行后续处理，下面针对不同情形分别进行介绍，不同情形包括但不限定如下几种：

(1)评估结果达到加速硬件上具体执行计算任务的device的算力要求。

下面以图23为例进行说明，假设深度学习框架得到的一个未处理的第三可并行分支组如图23所示，该第三可并行分支组中一共包括3个子分支，每个子分支中各自包括2个可融合节点(不可融合节点已被剔除)，首先从这3个子分支中各自选出一个节点，例如，假设在当前轮次选择出节点A、C、F，那么节点A、C、F就组成一个候选节点组合A+C+F，再通过构建的算力评估模型对该候选节点组合A+C+F所需消耗的算力进行评估，得到一个评估结果，在这种情况下，评估结果用于表征节点组合所需耗费的算力资源。之后深度学习框架判断该当前轮次得到的评估结果是否达到加速硬件上具体执行计算任务的device的算力要求。

若假设该评估结果达到加速硬件上device的算力要求，说明该候选节点组合A+C+F为一个目标节点组合，那么就将该候选节点组合A+C+F进行融合，得到一个融合节点，由于该融合节点是由候选节点组合A+C+F融合得到的，那么在原来的3个子分支中需要对这3个已融合的节点标识为已融合节点，使得在后续的节点搜索过程中避开节点A、C、F。

若假设该评估结果没有达到加速硬件上device的算力要求，则说明节点A、C、F不适合融合，此时可依次减少一个节点(如，可随机减少一个节点)，得到新的候选节点组合，直至找到适合融合的候选节点组合为止，例如，先减少节点A，那么就得到新的候选节点组合C+F，再通过构建的算力评估模型对该候选节点组合C+F所需消耗的算力进行评估，得到一个评估结果，之后深度学习框架再按照类似的方式判断该评估结果是否达到加速硬件上device的算力要求。假设依然没有达到，则保留节点A，再减少节点C试试，此时就得到新的候选节点组合A+F，之后再依据上述类似的过程继续判断候选节点组合A+F对应的评估结果是否达到加速硬件上device的算力要求，假设达到了对应的算力要求，那么该候选节点组合A+F为一个目标节点组合，将该候选节点组合A+F进行融合，得到一个融合节点，并且同样需要在原来的3个子分支中对这2个已融合的节点标识为已融合节点，使得在后续的节点搜索过程中避开节点A、F，此时只遗留下来的一个节点C，那么节点C作为未融合节点继续参与到下一个轮次的节点搜索过程中，以上过程就为一个轮次的搜索过程。

后续继续按照上述搜索过程进行组合搜索，直至节点中少于2个节点未被融合。例如，假设图23中经过几个轮次的搜索，一共得到3个目标节点组合，分别为A+C、B+F和D+G，节点中所有的节点都被融合。

这里需要注意的是，在当前轮次的搜索过程中，假设依次减少一个节点后依然没有可融合的候选节点组合，那么就再依次减少2个节点，但前提是保证减少后留下的节点数量大于2个。为便于理解，下面分步骤对该搜索过程进行详细介绍：

步骤1、假设某第三可并行分支组中的子分支数量为n，第一轮次提取出的节点数量为n，那么可对这n个节点进行标记，得到1～n号节点。

步骤2、取节点p～n生成候选节点组合(p的起始值为1)，将生成的候选节点组合提供给算力评估模型进行算力评估，得到评估结果，若评估结果未达到加速硬件上device的算力要求，则依次减少节点个数，直至找到适合融合的候选节点组合，记找到的适合融合的候选节点组合包括的节点数量为k，那么得到的该适合融合的候选节点组合为[p,…,(p+k-1)]，并更新p＝p+k。

步骤3、重复执行步骤2，直至这n个节点中少于2个节点未被融合。

综上所述，在本申请实施例中，算力评估模型的构建原则是只需考虑候选节点组合所需消耗的算力资源是否达到加速硬件上具体执行计算任务的device的算力要求，因此，该算力评估模型的计算公式可如下式(1)所示：

其中，gain为当前选出的候选节点组合对应的评估结果，D _all为device上总的算力资源，k为当前轮次选出的组成该候选节点组合的节点数量，i为k个节点数量中的第i个节点，cal _i为节点i在执行时所需消耗的算力资源大小，cal _i可以根据对应节点i的大小、数据类型等进行分析得到，在本申请实施例中，算力评估不考虑其他节点的影响，仅与节点自身特性相关，q为预设系数(如，q的取值可以取0.7～1.5之间的任意数值)，具体根据用户需求自行设定，此处不做限定。当候选节点组合对应的评估结果满足上述公式(1)，即说明该评估结果达到加速硬件上具体执行计算任务的device的算力要求。

(2)评估结果在得到的m个评估结果中表现最优。

依然以图23为例进行说明，假设深度学习框架得到的一个未处理的第三可并行分支组如图23所示，该第三可并行分支组中一共包括3个子分支，每个子分支中各自包括2个可融合节点(不可融合节点已被剔除)，首先从这3个子分支中各自选出一个节点，例如，假设在当前轮次选择出节点A、C、F，那么基于该节点A、C、F一共可组成4个候选节点组合，分别为候选节点组合A+C+F、A+C、A+F、C+F，之后通过构建的算力评估模型对该候选节点组合A+C+F、A+C、A+F、C+F所需消耗的算力各自进行评估，得到4个评估结果(即m＝4)，在这种情况下，评估结果用于表征节点组合所节省的算力资源，节省的算力资源越多，则表明评估结果越优，收益越大，最后，再从这4个评估结果中选择表现最优的那个评估结果对应的候选节点组合进行融合，得到融合节点。例如，若假设候选节点组合A+C+F对应的评估结果是最优的，那么就将该候选节点组合A+C+F进行融合，得到一个融合节点，由于该融合节点是由候选节点组合A+C+F融合得到的，因此需要在原来的3个子分支中需要对这3个已融合的节点标识为已融合节点，使得在后续的节点搜索过程中避开节点A、C、F。若假设候选节点组合C+F对应的评估结果是最优的，那么就将该候选节点组合C+F进行融合，得到一个融合节点，并且同样需要在原来的3个子分支中对这2个已融合的节点标识为已融合节点，使得在后续的节点搜索过程中避开节点A、F，此时只遗留下来的一个节点C，那么节点C作为未融合节点继续参与到下一个轮次的节点搜索过程中，以上过程就为一个轮次的搜索过程。

后续继续按照上述搜索过程进行组合搜索，直至节点中少于2个节点未被融合，过程与上述方式(1)类似，此处不予赘述。

但需要注意的是，在本申请实施例中，算力评估模型的构建原则与上述方式(1)略有不同，本申请实施例算力评估模型的构建原则是从多个候选节点组合中选取评估结果最优的那个，因此，该算力评估模型的计算公式可如下式(2)所示：

其中，gain为当前选出的候选节点组合对应的评估结果，例如，若有m个候选节点组合，那么就根据该公式(2)可得到m个候选节点组合，对应可得到m个评估结果gain，k为当前选出的组成该候选节点组合的节点数量，k≤n，n为当前轮次选出的总节点数量，i 为k个节点数量中的第i个节点，cal _i为节点i在执行时所需消耗的算力资源大小，max _k(cal _i)为当前选出的候选节点组合中算力资源消耗最大的节点所需消耗的算力资源。

基于上述公式(2)，可得到m个评估结果gain，之后，再比较各个gain之间的大小，gain的取值越大，则评估结果越优，因此，从得到的m个评估结果gain中选取gain的取值最大的那个评估结果对应的候选节点组合进行融合，得到融合节点，而剩下的未融合节点则进入下一个轮次的搜索过程，过程与上述类似，此处不予赘述。并且，由上述公式(2)可知，融合节点是优先将所需消耗算力资源相近的节点进行融合，这种情况下获得的收益最好。

需要说明的是，从上述算力评估模型的公式(2)可看出，评估结果的收益在某种程度上来源于总值与最大值间的差额，所以当最大值在总值中占比较大时，其收益相对较小，因此，在本申请的一些实施方式中，算力评估模型的计算公式也可以用比值来表示，具体可如下式(3)所示：

其中，公式(3)中的各个参数与上述公式(2)是一样的含义，此次不予赘述。基于上述公式(3)，可得到m个评估结果gain，之后，再比较各个gain之间的大小，gain的取值越小，则评估结果越优，因此，从得到的m个评估结果gain中选取gain的取值最小的那个评估结果对应的候选节点组合进行融合，得到融合节点，剩下的未融合节点则进入下一个轮次的搜索过程，过程与上述类似，此处不予赘述。

需要说明的是，在本申请的一些实施方式中，一种情形还可以是基于第三可并行分支组上的所有节点组成候选节点组合，并根据构建的算力评估模型得到所有候选节点组合各自对应的评估结果，然后基于评估结果依次选择最适合融合的一个或多个候选节点组合进行融合，得到一个或多个融合节点。为便于理解，下面举例进行示意：依然参阅图23，假设深度学习框架得到的一个未处理的第三可并行分支组如图23所示，该第三可并行分支组中一共包括3个子分支，每个子分支中各自包括2个可融合节点(不可融合节点已被剔除)，因此一共包括6个节点，分别为节点A、B、C、D、F、G，根据候选节点组合中的任意两个节点不能来自于同一子分支的原则，这6个节点一共可以组合得到20个候选节点组合，分别为A+C+F、A+C+G、A+D+F、A+D+G、B+C+F、B+C+G、B+D+F、B+D+G、A+C、A+F、A+D、A+G、C+F、C+G、B+C、B+F、B+D、B+G、D+F、D+G，之后通过构建的算力评估模型对该20个候选节点组合所需消耗的算力各自进行评估，得到20个评估结果(即m＝20)，最后，依次从这20个评估结果中选择表现最优的那个评估结果对应的候选节点组合进行融合，得到融合节点。例如，假设这20个候选评估结果中，A+C的评估结果最优，那么首先将A+C进行融合，得到一个融合节点，并将融合的节点A、C标识为已融合节点，据此从剩下的19个候选节点组合中排除掉包含有节点A、C的候选节点组合，排除后还剩下7个候选节点组合，分别为B+D+F、B+D+G、B+F、B+D、B+G、D+F、D+G，之后再依次从这7个候选节点组合对应的7个评估结果中选择表现最优的那个评估结果对应的候选节点组合进行融合，得到第二个融合节点。例如，假设这7个候选评估结果中，B+F的评估结果最优，那么就将B+F进行融合，得到一个融合节点，并将融合的节点B、 F标识为已融合节点，经过上述两个轮次，最后还剩下候选节点组合D+G，那么就将该剩下的候选节点组合D+G进行融合，得到第三个融合节点。在本申请实施例中，构建的算力评估模型与上述公式(2)和公式(3)类似，此处不予赘述。

(3)评估结果在x个评估结果中最优，x个评估结果是所有m个评估结果中的至少两个评估结果。

在这种情况下，评估结果依然用于表征节点组合所节省的算力资源，节省的算力资源越多，则表明评估结果越优，收益越大，依然以图23为例进行说明，假设深度学习框架得到的一个未处理的第三可并行分支组如图23所示，该第三可并行分支组中一共包括3个子分支，每个子分支中各自包括2个可融合节点(不可融合节点已被剔除)，首先从这3个子分支中各自选出一个节点，例如，假设在当前轮次选择出节点A、C、F，如果是按照上述方式(2)的组合方式，那么基于该节点A、C、F一共可组成4个候选节点组合(即m＝4)，但在方式(3)中，只需至少得到两个候选节点组合即可，从该至少两个候选节点组合中选择评估结果最优的候选节点组合进行融合，这种组合方式是一种局部选择最优的过程，在保证较优的同时减小计算量。例如，可基于节点A、C、F组合(如，可随机组合)得到2个候选节点组合(即x＝2)，分别组成候选节点组合A+C+F、A+C，之后通过构建的算力评估模型对该候选节点组合A+C+F、A+C所需消耗的算力各自进行评估，得到2个评估结果，最后，再从这2个评估结果中选择表现最优的那个评估结果对应的候选节点组合进行融合，得到融合节点。例如，若假设候选节点组合A+C+F对应的评估结果是最优的，那么就将该候选节点组合A+C+F进行融合，得到一个融合节点，由于该融合节点是由候选节点组合A+C+F融合得到的，因此需要在原来的3个子分支中需要对这3个已融合的节点标识为已融合节点，使得在后续的节点搜索过程中避开节点A、C、F。若假设候选节点组合A+C对应的评估结果是最优的，那么就将该候选节点组合A+C进行融合，得到一个融合节点，并且同样需要在原来的3个子分支中对这2个已融合的节点标识为已融合节点，使得在后续的节点搜索过程中避开节点A、C，此时只遗留下来的一个节点F，那么节点F作为未融合节点继续参与到下一个轮次的节点搜索过程中，以上过程就为一个轮次的搜索过程。

后续继续按照上述搜索过程进行组合搜索，直至节点中少于2个节点未被融合，过程与上述方式(2)类似，此处不予赘述。

需要注意的是，在该方式(3)中，构建的算力评估模型与上述方式(2)中的类似，可参阅上述公式(2)和公式(3)，具体此处不予赘述。

经过上述步骤901至步骤902，就可得到一张具有融合节点的计算图，该计算图可称为第二计算图，深度学习框架在得到该第二计算图之后，还可以进一步对该第二计算图进行编译，以得到编译后的第二计算图，该编译后的第二计算图就可直接加载至加速硬件去执行。

需要说明的是，在本申请的一些实施方式中，对第二计算图的编译过程包括两部分，如图8所示，一部分是对普通节点编译，即对未融合的节点(包括不可融合节点以及未被融合的节点)进行的编译，这部分编译过程与现有方式类似，具体可参阅图4对应的实施方式，此处不予赘述；而另一部分是对融合节点编译，即对融合节点进行的编译，得到与融合节点对应的kernel。

需要说明的是，在本申请的一些实施方式中，为了保留融合节点前的各节点间的并行性，本申请在对融合节点编译生成kernel时，通过分段合并的方式完成kernel的生成，并在其中通过代码分支方式让各代码段间保持明确的独立性。分段合并将IR生成分为两阶段：1)对各个节点进行独立调度，得到第一阶段的与节点数相等数量的子IR；2)然后对这些子IR进行融合和修正，得到第二阶段的总IR。具体地，假设某融合节点是由p个节点融合得到，那么对该融合节点进行编译得到对应的kernel的方式具体可以是：首先，对该p个节点各自进行独立调度，得到p个子IR，再对该p个子IR进行融合，得到一个总IR，最后对该总IR进行编译，得到与该融合节点对应的kernel。

为便于理解，下面举例进行示意：请参阅图24，图24为本申请实施例提供的普通节点编译与融合节点编译的一个对比示意图，假设节点A、B、C均为可融合节点，若不对节点A、B、C进行融合，那么编译器(也可称为编码器)对节点A、B、C进行普通节点编译，即如图24中的左边部分所示，编译器对节点A、B、C各自进行调度，得到这3个节点各自对应的中间表示IR1、IR2、IR3，再进一步对IR1、IR2、IR3进行编译，得到与节点A、B、C各自对应的kernel1、kernel2、kernel3，得到的这3个kernel就可直接依次加载至对应的加速硬件内的device上，由device上的计算单元(如，SM、core等)依次执行对应的kernel。若通过本申请提供的计算图的节点融合方法将节点A、B、C进行融合，那么编译器对节点A、B、C进行融合节点编译，即如图24中的右边部分所示，编译器对节点A、B、C各自进行调度，得到这3个节点各自对应的中间表示IR1、IR2、IR3，接着再对中间表示IR1、IR2、IR3进行融合，得到总中间表示IR(A+B+C)，最后对该IR(A+B+C)进行编译，得到一个算子核kernel(A+B+C)。

从上述可知，分段合并的优点在于：融合的各个节点并未进行统一调度，而是采取先各自分析、后融合的方式。这种方式可以保有各节点对应的kernel的相对独立性，形成独立的代码段，直观的表达了其可并行性。而在此基础上，在对总IR进行编译时进行代码分支处理，将原来各节点的计算逻辑进行计算资源隔离(即融合前的每个节点各自对应一个或多个特定的计算单元)，在kernel中让代码段的并行性更为明确。

下面以一个具体的代码实例对上述分段合并的过程进行示意：如图25所示，其中C为分支条件，A为Cast节点代码段，B为Sub节点代码段。C设置了资源条件blockIdx.x<1，当资源号(即标识信息)blockIdx.x满足条件时，将执行代码段A中的Cast计算；当资源号不满足条件时，则执行代码段B中的Sub计算。因此，配合加速硬件(如，GPU)并行计算的硬件特性，可以让代码段A、B并行执行起来。需要注意的是，图25示例为该kernel的CUDA代码。其中，input_2、input_0为该代码的输入数据地址，subtract_2、cast_0为该代码的输出数据地址。CUDA中可以通过blockIdx.x和threadIdx.x来区分不同的计算资源，并通过计算得到数据的索引，如代码段B中，通过((int)ablockIdx.x-1)*1024)+((int)threadIdx.x)来确定从当前的减法操作需要使用来自input_2的哪个数据。

需要说明的是，在深度学习框架的实际应用中，可以是通过深度学习框架中的编译器(如，AKG、LLVM等)对各个融合节点进行调度分析，编译器通过硬件指令发射得到相应的执行代码。下面以编码器AKG为例，对融合节点的整个编译过程进行示意：在本申请实施例中，融合节点的编译利用AKG来进行，并在AKG的编译流程中加上分段合并过程，即将原AKG对节点的调度分析转换为对各个融合节点的分段合并处理。具体地，在硬件指令发射前，进行分段合并的第一阶段，第一阶段为AKG对融合前的各节点进行调度分析，得到各节点调度后对算力资源的使用量信息(即各节点实际执行时消耗的算力资源，如在GPU上为Block size)以及对应的子IR，如图26所示，图26中的(a)子示意图和(b)子示意图分别为融合前Sqrt节点与Divide节点各自对应的子IR；在分段合并第二阶段，则通过修正各子IR间的资源信息，如图26中子IR中灰色底部分所示，其中Sqrt节点由于使用的是前0～3号block，其block id不需要更正，而Divide节点使用的是4～7号block，所以相关索引号需要更正为(blockIdx.x-4)。修正后，通过添加代码分支，将各部分子IR整合起来，整合代码如图26中的(c)子示意图灰色底部分所示，即为融合节点的总IR。得到融合节点的总IR后，AKG继续执行剩余编译过程，即可生成最终的融合节点(Sqrt+Divide)对应的kernel的代码。

需要注意的是，在图26对应的代码中，produce T_sqrt{…}代表T_sqrt由花括号所使用，//attr[iter_var(blockIdx.x,range(min＝0,ext＝8),blockIdx.x)]thread_extent＝8表示执行当前IR时，blockIdx.x取值范围为0～8，//attr[iter_var(threadIdx.x,range(min＝0,ext＝256),threadIdx.x)]thread_extent＝256则表示执行当前IR时，threadIdx.x的取值范围为0～1024。则图26中各个子示意图表示的是：1、(a)子示意图所表达的是对input_2执行sqrt操作，结果写入T_sqrt中，且执行时共需要分配4单位的block，每个block需要划分为256单位的thread；2、(b)子示意图所表达的是执行input_0/input_1操作，结果写入T_divide_input_0_input_1中，执行时共需要分配4单位block，每个block需要划分为256单位的thread；3、(c)子示意图则代表合并(a)的子IR和(b)的子IR后，共需要分配8单位block，每个block需要划分为256单位的thread。其中当blockIdx.x<4且threadId.x<256时，执行input_2操作，结果写入T_sqrt；当blockIdx.x≥4且threadIdx.x<256时，执行input_0/input_1操作，结果写入T_divide_input_0_input_1。

综上所述，本申请实施例提供的计算图的节点融合方法可概括为如图27所示的流程示意图，可包括3个主要步骤，可分别概括为：

①网络结构的分支提取

分析计算图的网络结构，得到网络结构中各个节点之间的连接关系，例如，是否具有共同父节点、共同子节点、没有父节点、没有子节点等，并以此为依据在网络结构中找到一个或多个可并行分支组，每个可并行分支组中存在一个或多个子分支，各子分支之间不存在连接关系，且子分支中分别来自不同子分支的任意两个或两个以上节点融合后的计算图不存在环结构，分支提取完毕后，可得到若干个可并行分支组。在提取过程中，只基于计算图中节点之间的连接关系搜索可并行分支组，搜索过程不会被个别不可融合节点所打断，提高了神经网络中可融合节点的搜索命中率。

②节点组合搜索

在可并行分支组中，每条子分支中包含一个或多个节点，不同子分支上的节点可以组合起来作为融合节点，相同子分支上的节点则由于前后连接关系而无法进行融合。在可并行分支组上，根据上述步骤902对应实施例阐述的组合搜索的方式，可以得到一个或多个融合节点。在一些实施方式中，还可以进一步通过构建的算力评估模型指导搜索融合节点，可保证被融合的节点组合可以带来符合预期的收益。

③融合节点编译

与普通节点不同，为了让并行融合落实到执行中，需要根据融合前各个节点的信息，对整个编译过程进行并行化处理，从而让由融合节点编译而来成kernel带有并行特性，并作为融合前各节点的整合被device执行。具体采用的是上述所述的分段合并方式，即先独立对各个节点进行调度分析，得到各个节点的代码分支，并基于各代码分支得到融合节点，分段合并的好处在于：独立对各个节点进行调度分析提高了融合的灵活度，并保证融合节点代码的正确生成，且生成的kernel间依旧保有并行性，允许对应的加速硬件进行更深层次的并行优化。

为了对本申请实施例所带来的有益效果有更为直观的认识，以下对本申请实施例所带来的技术效果作进一步的对比，如图28所示，图28为本申请实施例提供的节点融合前后的kernel在device上执行时的收益，图28中的横坐标表示执行的时间t，假设计算图中有3个可融合节点，若作为普通节点编译，则分别编译为kernelA、kernelB、kernelC，依照原来的拓扑排序方式，kernelA、kernelB、kernelC需要依次在device上执行，如图28中横坐标上方所示，cost a、cost b、cost c表示kernelA、kernelB、kernelC依次在该device上执行时所花费的时间；若将这3个可融合节点按照本申请实施例所述的节点融合方法进行融合，得到一个融合节点，并将该融合节点编译为kernel(A+B+C)，cost(a|b|c)表示kernel(A+B+C)在device上执行时所花费的时间，假设横坐标上的小圈圈表示计算任务的执行起始时刻，横坐标上的小方块表示计算任务的执行结束时刻，则由图28可知，节点融合后device执行的时间相对节点融合前device执行时间大大减短了。

综上所述，本申请实施例提供的计算图的节点融合方法的收益主要来自于两部分：1)kernel被加载到device上的次数减少，kernel加载的次数等于被节点被融合后，计算图上节点减少的总个数。例如，如图28所示，原来有3个节点，编译成3个kernel后需要各自加载3次，而3个节点融合成一个融合节点后，则可编译成1个kernel，只需要加载1次；2)融合节点在device上执行时的并行收益，例如，如图28所示，假设device上的算力资源为3个计算单元，kernelA、kernelB、kernelC分别执行时都只用了1个计算单元的算力资源，因此算力资源的总量可以允许A、B、C进行融合(在更复杂详细的分析下，即使资源总量不足，A、B、C并行起来也可能会优于分别执行)，同时，由于在融合的kernel(A+B+C)中A、B、C仍保有并行性，则其执行消耗约等于三者间最大耗时，因此该融合节点的收益为如下式(4)所示：

gain＝cost(a|b|c)≈max(cost a,cost b,cost c) (4)

需要说明的是，本申请实施例提供的计算图的节点融合方法在GPU V100环境中，运行batch size为32、使用Lamb优化器的Bert-Base，可以搜索出来的融合节点共1425组。性能上与不开启并行融合相比，一个迭代收益约23.87ms，优化比例约为6％。

综上所述，在本申请上述实施方式中，通过对计算图中可融合节点的融合，将各个散落在计算图中的普通节点整合成融合节点(可看作是将小节点整合成大节点)，提高了加速硬件运行时device资源的使用率，同时减少了加载kernel次数，提升了网络的整体执行性能。

在上述对应实施例的基础上，为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的深度学习框架。具体参阅图29，图29为本申请实施例提供的深度学习框架的一种结构示意图，该深度学习框架2900包括：转换模块2901、搜索模块2902、融合模块2903，其中，转换模块2901，用于将神经网络转换成一张计算图，得到的该计算图可称为第一计算图，该第一计算图用于表征该神经网络的计算逻辑；搜索模块2902，用于基于第一计算图中节点之间的连接关系从第一计算图中提取一个或多个可并行分支组，该可并行分支组指示该可并行分支组的多个子分支支持被并行执行，该可并行分支组中包括的第一可并行分支组满足以下条件中的至少一种：该第一可并行分支组内的所有子分支的输入来自于同一节点且该第一可并行分支组内的至少两个子分支的输出指向不同的节点、该第一可并行分支组内的所有子分支的输出指向同一节点且该第一可并行分支组内的至少两个子分支的输入来自不同的节点、该第一可并行分支组内的所有子分支的第一个节点没有父节点、该第一可并行分支组内的所有子分支的最后一个节点没有子节点；融合模块2903，用于针对每一个可并行分支组，对每个可并行分支组中分别来自不同子分支的多个节点进行融合，从而得到第二计算图，也就是该多个节点中的每个节点所属的子分支都与该多个节点中的其他任何一个节点所属的子分支不同。

在本申请上述实施方式中，相较于现有技术，考虑了其他一些可并行的分支的可能性，从而找到不同于现有技术的规则限定的可以并行的分支的组合，也就可以在计算图的节点融合中，融合这些分支的组合中的节点，从而扩展了能够获取的可融合节点的范围。

在一种可能的设计中，在可并行分支组为多个的情况下，该可并行分支组还包括至少一个第二可并行分支组，该第二可并行分支组满足以下条件：该第二可并行分支组内的所有子分支的输入来自于同一节点且该第二可并行分支组内的至少两个子分支的输出指向同一节点，该第二可并行分支组内的每个子分支包括至少两个节点。

在一种可能的设计中，融合模块2903，还用于：从每个可并行分支组(即目标可并行分支组)中的每个子分支中剔除掉不可融合节点，从而得到剔除了不可融合节点的各个可并行分支组(可称为第三可并行分支组)，而目标可并行分支组中的任意一个子分支可称为目标子分支。之后，将剔除了不可融合节点的各可并行分支组(即第三可并行分支组)中分别来自不同子分支的多个节点(指的是可以进行融合的节点，但还未融合的节点，即待融合的节点)进行融合，得到融合节点，该第二计算图中包括融合节点与第一计算图中的未融合节点(未融合节点是指没有被融合的节点)，该第三可并行分支组中的多个节点中的每个节点所属的子分支都与该多个节点中的其他任何一个节点所属的子分支不同。

在一种可能的设计中，为了尽可能将所有可融合节点进行融合，上述将第三可并行分支组中分别来自不同子分支的多个节点进行融合的过程是迭代进行的，也就是本申请实施例该的深度学习框架2900还可以包括迭代模块2904，迭代模块2904用于触发融合模块2903重复执行将第三可并行分支组中的多个节点进行融合，以得到融合节点的步骤，直至该第三可并行分支组中未融合节点的数量少于2个。

在本申请上述实施方式中，迭代模块2904保证了能将可融合节点尽可能多的被融合为融合节点，提高了融合覆盖面。

在一种可能的设计中，融合模块2903，具体用于：从第三可并行分支组中的多个子分支中各自选择(如，可以是随机选择)一个未融合节点，得到n个未融合节点，该未融合节点为未被融合的节点，n≥2，之后基于选出的n个未融合节点生成m个节点组合，m个节点组合中的每个节点组合包括至少两个未融合节点，m≥1且2m≤n，并通过构建的算力评估模型对该m个节点组合各自所需的算力进行评估，以得到m个评估结果，该m个评估结果中的每个评估结果用于表征如下情形一种：该m个节点组合中每个节点组合所需耗费的算力资源、该m个节点组合中每个节点组合所节省的算力资源。在第一评估结果满足预设条件的情况下，将与该第一评估结果对应的第一节点组合进行融合，以得到第一融合节点，并将该第一节点组合中的各个未融合节点标记为已融合节点，该第一评估结果为这m个评估结果中的一个，该第一节点组合为该m个节点组合中的一个。

在本申请上述实施方式中，阐述了融合模块2903如何基于组合搜索的方式对节点进行融合，得到融合节点，并可以进一步通过构建的算力评估模型指导搜索融合节点，可保证被融合的节点组合可以带来符合预期的收益。

在一种可能的设计中，第一评估结果满足预设条件至少包括如下一种情形：在m个评估结果中的每个评估结果用于表征m个节点组合中每个节点组合所需耗费的算力资源的情况下，第一评估结果达到目标加速硬件上具体执行计算任务的模块(device)的算力要求、在m个评估结果中的每个评估结果用于表征m个节点组合中每个节点组合所节省的算力资源的情况下，第一评估结果在该m个评估结果中最优、在m个评估结果中的每个评估结果用于表征m个节点组合中每个节点组合所节省的算力资源的情况下，第一评估结果在x个评估结果中最优，该x个评估结果为该m个评估结果中的至少两个评估结果。

在一种可能的设计中，搜索模块2902，具体用于：在第一计算图中搜索拥有同一父节点(可称为第一共同父节点或共同的第一父节点，为便于阐述，在本申请实施例中统称为第一共同父节点)的多个分支(可称为第一分支)，并根据该多个第一分支得到一个可并行分支组；或，在第一计算图中搜索拥有同一子节点(可称为第一共同子节点或共同的第一子节点，为便于阐述，在本申请实施例中统称为第一共同子节点)的多个分支(可称为第二分支)，并根据该多个第二分支得到一个可并行分支组。这种搜索方式也可称为多分叉结构单向搜索。

在一种可能的设计中，搜索模块2902，具体还用于：以该第一父节点为起始点，分别向下搜索每个第一分支，直至在向下搜索过程中遇到共同的第二父节点或共同的第二子节点时停止，以得到该多个第一分支对应的可并行分支组，该可并行分支组包含该多个第一分支各自对应的第一子分支，每个该第一子分支包含的节点是在向下搜索每个该第一子分支过程中得到的节点。需要注意的是，多个第一子分支中的每个第一子分支不包括第一共同父节点和共同子节点，也就是说，每个第一子分支都不包括作为起始点的第一共同父节点，且在每个第一分支向下搜索过程中，若遇到其他共同父节点(即第二共同父节点)，就将该第二共同父节点纳入到对应的第一子分支中，若遇到共同子节点，则在对应的第一子分支中排除该共同子节点。

在本申请上述实施方式中，具体阐述了深度学习框架如何根据多个第一分支得到一个可并行分支组，即从共同父节点出发进行向下搜索，这种从共同父节点出发提取可并行分支组的方法，可以保证属于同一可并行分支组中不同子分支的节点不存在不一致的依赖行为，例如，基于共同父节点出发向下搜索得到的子分支中不存在共同子节点的情形，从而可保证分支间节点的融合不会形成环结构。目前已有的计算图的节点融合方式中，都需要判断节点融合后是否成环，而判断是否成环是个很繁杂的操作，本申请实施例该的搜索方式保证了不会出现环结构，因此无需额外对每次得到的组合进行成环判断，简化了操作流程。

在一种可能的设计中，搜索模块2902，具体还用于：以该第一子节点为起始点，分别向上搜索每个第二分支，直至在向上搜索过程中遇到共同的第三父节点或共同的第三子节点时停止，以得到该多个第二分支对应的可并行分支组，该可并行分支组包含该多个第二分支各自对应的第二子分支，每个该第二子分支包含的节点是在向上搜索每个该第二子分支过程中得到的节点。需要注意的是，多个第二子分支中的每个第二子分支不包括该第一共同子节点和共同父节点，也就是说，每个第二子分支都不包括作为起始点的第一共同子节点，且在每个第二分支向上搜索过程中，若遇到其他共同子节点，就将该其他共同子节点纳入到对应的第二子分支中，若遇到共同父节点，则在对应的第二子分支中排除该共同父节点。

在本申请上述实施方式中，具体阐述了深度学习框架如何根据多个第二分支得到一个可并行分支组，即从共同子节点出发进行向上搜索，这种从共同子节点出发提取可并行分支组的方法，可以保证属于同一可并行分支组中不同子分支的节点不存在不一致的依赖行为，例如，基于共同子节点出发向上搜索得到的子分支中不存在共同父节点的情形，从而可保证分支间节点的融合不会形成环结构。因此，本申请实施例该的搜索方式同样保证了不会出现环结构，无需额外对每次得到的组合进行成环判断，简化了操作流程。

在一种可能的设计中，搜索模块2902，具体还用于：从第一计算图中搜索多个第三分支，并根据该多个第三分支得到一个可并行分支组，其中，每个第三分支的第一个节点没有父节点；和/或，从第一计算图中搜索没有子节点的多个第四分支，并根据该多个第四分支得到一个可并行分支组，其中，每个第三分支的第一个节点没有父节点。

在一种可能的设计中，搜索模块2902，具体还用于：以每个该第三分支的第一个节点为起始点，分别向下搜索每个该第三分支，直至在向下搜索过程中遇到同一父节点或同一子节点时停止，以得到该多个第三分支对应的可并行分支组，该可并行分支组包含该多个第三分支各自对应的第三子分支，每个该第三子分支包含的节点是在向下搜索每个该第三子分支过程中得到的节点。需要注意的是，多个第三子分支中的每个第三子分支不包括向下搜索过程中遇到的共同子节点，也就是说，每个第三子分支可以包括作为起始点的节点，且在每个第三分支向下搜索过程中，若遇到共同父节点，可以将该共同父节点纳入到对应的第三子分支中，若遇到共同子节点，则在对应的第三子分支中排除该共同子节点。

在本申请上述实施方式中，具体阐述了深度学习框架如何根据多个第三分支得到一个可并行分支组，即从无父节点的节点出发进行向下搜索，这种从没有父节点的节点出发提取可并行分支组的方法，同样可以保证属于同一可并行分支组中不同子分支的节点不存在不一致的依赖行为，例如，基于没有父节点的节点出发向下搜索得到的子分支中不存在共同子节点的情形，从而可保证分支间节点的融合不会形成环结构。因此，本申请实施例该的搜索方式同样可保证不会出现环结构，无需额外对每次得到的组合进行成环判断，简化了操作流程。

在一种可能的设计中，搜索模块2902，具体还用于：以每个该第四分支的最后一个节点为起始点，分别向上搜索每个该第四分支，直至在向上搜索过程中遇到同一父节点或同一子节点时停止，以得到该多个第四分支对应的可并行分支组，该可并行分支组包含该多个第四分支各自对应的第四子分支，每个该第四子分支包含的节点是在向上搜索每个该第四子分支过程中得到的节点。需要注意的是，多个第四子分支中的每个第四子分支不包括向上搜索过程中遇到的共同父节点，也就是说，每个第四子分支可以包括作为起始点的节点，且在每个第四分支向下搜索过程中，若遇到共同子节点，可以将该共同子节点纳入到对应的第四子分支中，若遇到共同父节点，则在对应的第四子分支中排除该共同父节点。

在本申请上述实施方式中，具体阐述了深度学习框架如何根据多个第四分支得到一个可并行分支组，即从无子节点的节点出发进行向上搜索，这种从没有子节点的节点出发提取可并行分支组的方法，同样可以保证属于同一可并行分支组中不同子分支的节点不存在不一致的依赖行为，例如，基于没有子节点的节点出发向上搜索得到的子分支中不存在共同父节点的情形，从而可保证分支间节点的融合不会形成环结构。因此，本申请实施例该的搜索方式同样可保证不会出现环结构，无需额外对每次得到的组合进行成环判断，简化了操作流程。

在一种可能的设计中，搜索模块2902，具体还用于：在目标节点不属于不可融合节点的情况下，对该目标节点周围的局部结构进行化简，得到第五分支，该目标节点为该第一计算图中未被划分进任意一个可并行分支组的节点，并且，在该第五分支为多个的情况下，根据该多个第五分支得到一个可并行分支组。

在一种可能的设计中，该深度学习框架2900还包括：编译模块2905，用于对第二计算图中的融合节点进行编译，得到与该融合节点对应的算子核(kernel)。

在本申请上述实施方式中，阐述了编译模块2905对第二计算图的编译过程还包括对融合节点的编译过程，具备可实现性。

在一种可能的设计中，编译模块2905，还用于：在该融合节点由p个节点融合得到的情况下，分别调度该p个节点，以得到与该p个节点分别对应的p个子中间表示(IR)；之后，对该p个子IR进行融合，得到一个总IR；最后，对该总IR进行编译，得到与该融合节点对应的算子核(kernel)。

在一种可能的设计中，该深度学习框架2900可以是多种具体表现形式的AI框架，例如，可以是mindspore、tensorflow、tensornetwork、pytorch、mxnet、caffe、theano等主流的深度学习框架，也可以是其他小众的深度学习框架，只要该深度学习框架能够对计算图进行优化、编译的处理过程，都可以认为是本申请实施例该的深度学习框架2900，具体本申请对深度学习框架2900的表现形式不做限定。

在本申请上述实施方式中，对深度学习框架2900的几种常见的具体表现形式进行了说明，具备广泛性。

需要说明的是，图29提供的深度学习框架2900中各模块/单元之间的信息交互、执行过程等内容，与本申请中图9对应的方法实施例基于同一构思，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

本申请实施例还提供了一种计算机设备，请参阅图30，图30是本申请实施例提供的计算机设备一种结构示意图，为便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该计算机设备3000上可以部署有图29对应实施例中所描述的模块，用于实现图29对应实施例中深度学习框架的功能，具体的，计算机设备3000由一个或多个服务器实现，计算机设备3000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)3022和存储器3032，一个或一个以上存储应用程序3042或数据3044的存储介质3030(例如一个或一个以上海量存储设备)。其中，存储器3032和存储介质3030可以是短暂存储或持久存储。存储在存储介质3030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对计算机设备3000中的一系列指令操作。更进一步地，中央处理器3022可以设置为与存储介质3030通信，在计算机设备3000上执行存储介质3030中的一系列指令操作。

计算机设备3000还可以包括一个或一个以上电源3026，一个或一个以上有线或无线网络接口3050，一个或一个以上输入输出接口3058，和/或，一个或一个以上操作系统3041，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

本申请实施例中，中央处理器3022，用于执行图9对应实施例中的方法。例如，中央处理器3022可以用于：获取神经网络的网络结构，并将该神经网络转换成一张计算图，得到的该计算图可称为第一计算图。得到该第一计算图之后，基于该第一计算图中各个节点之间的依赖关系从第一计算图中提取到一个或多个可并行分支组，其中，每个可并行分支组都包括多个子分支(即至少2个子分支)，子分支为不存在分叉的顺序串联结构，每个可并行分支组中的每个子分支包括一个或多个节点。该可并行分支组就指示该可并行分支组的多个子分支支持被并行执行。这里需要注意的是，属于同一个可并行分支组的子分支需要满足两个条件：一个是各子分支之间不存在依赖关系；二是属于不同子分支的任意两个或两个以上节点融合成一个节点后的计算图不存在环结构，即融合后的计算图中不存在环结构。在本申请实施例中，可并行分支组中包括的至少一个可并行分支组(可称为第一可并行分支组)满足以下条件中的至少一种：该第一可并行分支组内的所有子分支的输入来自于同一节点且该第一可并行分支组内的至少两个子分支的输出指向不同的节点、该第一可并行分支组内的所有子分支的输出指向同一节点且该第一可并行分支组内的至少两个子分支的输入来自不同的节点、该第一可并行分支组内的所有子分支的第一个节点没有父节点、该第一可并行分支组内的所有子分支的最后一个节点没有子节点。经过上述步骤后，可得到一个或多个可并行分支组，针对每一个可并行分支组，对每个可并行分支组(可称为第一可并行分支组)中分别来自不同子分支的多个节点进行融合，从而得到第二计算图。

需要说明的是，中央处理器3022还可以用于执行与本申请中图9对应的方法实施例中任意一个步骤，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于进行信号处理的程序，当其在计算机上运行时，使得计算机执行如前述所示实施例描述中计算机设备所执行的步骤。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，训练设备，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(digital video disc，DVD))、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

Claims

一种计算图的节点融合方法，应用于深度学习框架，其特征在于，包括：

将第一神经网络转换为第一计算图；

从所述第一计算图中提取一个或多个可并行分支组，所述可并行分支组指示属于一个可并行分支组的多个子分支支持被并行执行，所述可并行分支组包括第一可并行分支组，所述第一可并行分支组满足以下条件中的至少一种：所述第一可并行分支组内的所有子分支的输入来自于同一节点且所述第一可并行分支组内的至少两个子分支的输出指向不同的节点、所述第一可并行分支组内的所有子分支的输出指向同一节点且所述第一可并行分支组内的至少两个子分支的输入来自不同的节点、所述第一可并行分支组内的所有子分支的第一个节点没有父节点、所述第一可并行分支组内的所有子分支的最后一个节点没有子节点；

对一个或多个所述可并行分支组中每个可并行分支组的多个节点进行融合，以基于所述第一计算图得到第二计算图，所述多个节点中的每个节点所属的子分支都与所述多个节点中的其他任何一个节点所属的子分支不同。
根据权利要求1所述的方法，其特征在于，在所述可并行分支组为多个的情况下，所述可并行分支组还包括第二可并行分支组，所述第二可并行分支组满足以下条件：

所述第二可并行分支组内的所有子分支的输入来自于同一节点且所述第二可并行分支组内的至少两个子分支的输出指向同一节点，所述第二可并行分支组内的每个子分支包括至少两个节点。
根据权利要求1-2中任一项所述的方法，其特征在于，所述对一个或多个可并行分支组中的每个可并行分支组的多个节点进行融合，以基于所述第一计算图得到第二计算图包括：

从所述每个可并行分支组的目标子分支中剔除不可融合节点，以得到第三可并行分支组，所述目标子分支为所述每个可并行分支组中的任意一个子分支，所述不可融合节点包括指示特定运算操作的节点，所述特定运算操作包括以下操作中的至少一种：矩阵乘操作和卷积操作；

将所述第三可并行分支组中的多个节点进行融合，以得到融合节点，所述第二计算图中包括所述融合节点与所述第一计算图中的未融合节点，所述第三可并行分支组中的多个节点中的每个节点所属的子分支都与所述多个节点中的其他任何一个节点所属的子分支不同。
根据权利要求3所述的方法，其特征在于，所述方法还包括：

重复执行所述将所述第三可并行分支组中的多个节点进行融合，以得到融合节点的步骤，直至所述第三可并行分支组中未融合节点的数量少于2个。
根据权利要求3-4中任一项所述的方法，其特征在于，所述将所述第三可并行分支组中的多个节点进行融合，以得到融合节点包括：

基于所述第三可并行分支组中的n个节点，得到m个节点组合，所述n个节点分别来自构成所述第三可并行分支组的n个分支，且所述m个节点组合中的每一个节点组合都包括至少两个节点，m≥1，n≥2且2m≤n；

通过算力评估模型对所述m个节点组合各自所需的算力进行评估，以得到m个评估结果，所述m个评估结果中的每个评估结果用于表征如下情形一种：所述m个节点组合中每个节点组合所需耗费的算力资源、所述m个节点组合中每个节点组合所节省的算力资源；

在第一评估结果满足预设条件的情况下，将与所述第一评估结果对应的第一节点组合中的节点进行融合，以得到一个或多个第一融合节点，所述第一评估结果为所述m个评估结果中的一个，所述第一节点组合为所述m个节点组合中的一个。
根据权利要求5所述的方法，其特征在于，所述第一评估结果满足预设条件至少包括如下一种情形：

在所述m个评估结果中的每个评估结果用于表征所述m个节点组合中每个节点组合所需耗费的算力资源的情况下，所述第一评估结果达到加速硬件上具体执行计算任务的模块(device)的算力要求；在所述m个评估结果中的每个评估结果用于表征所述m个节点组合中每个节点组合所节省的算力资源的情况下，所述第一评估结果在所述m个评估结果中最优；或者，所述m个评估结果中的每个评估结果用于表征所述m个节点组合中每个节点组合所节省的算力资源的情况下，所述第一评估结果在x个评估结果中最优，所述x个评估结果为所述m个评估结果中的至少两个评估结果。
根据权利要求1-6中任一项所述的方法，其特征在于，所述从所述第一计算图中提取一个或多个可并行分支组包括：

在所述第一计算图中搜索拥有共同的第一父节点的多个第一分支，并根据所述多个第一分支得到一个可并行分支组，所述第一父节点为所述第一计算图中的任意一个父节点；

和/或，

在所述第一计算图中搜索拥有共同的第一子节点的多个第二分支，并根据所述多个第二分支得到一个可并行分支组，所述第一子节点为所述第一计算图中的任意一个子节点。
根据权利要求7所述的方法，其特征在于，所述根据所述多个第一分支得到一个可并行分支组包括：

以所述第一父节点为起始点，分别向下搜索每个第一分支，直至在向下搜索过程中遇到共同的第二父节点或共同的第二子节点时停止，以得到所述多个第一分支对应的可并行分支组，所述可并行分支组包含所述多个第一分支各自对应的第一子分支，每个所述第一子分支包含的节点是在向下搜索每个所述第一子分支过程中得到的节点。
根据权利要求7-8中任一项所述的方法，其特征在于，所述根据所述多个第二分支得到一个可并行分支组包括：

以所述第一子节点为起始点，分别向上搜索每个第二分支，直至在向上搜索过程中遇到共同的第三父节点或共同的第三子节点时停止，以得到所述多个第二分支对应的可并行分支组，所述可并行分支组包含所述多个第二分支各自对应的第二子分支，每个所述第二子分支包含的节点是在向上搜索每个所述第二子分支过程中得到的节点。
根据权利要求1-9中任一项所述的方法，其特征在于，所述从所述第一计算图中提取一个或多个可并行分支组还包括：

在所述第一计算图中搜索多个第三分支，并根据所述多个第三分支得到一个可并行分支组，所述多个第三分支中每个第三分支的第一个节点都没有父节点；

和/或，

在所述第一计算图中搜索多个第四分支，并根据所述多个第四分支得到一个可并行分支组，所述第四分支中每个第四分支的最后一个节点都没有子节点。
根据权利要求10所述的方法，其特征在于，所述根据所述多个第三分支得到一个可并行分支组包括：

以每个所述第三分支的第一个节点为起始点，分别向下搜索每个所述第三分支，直至在向下搜索过程中遇到同一父节点或同一子节点时停止，以得到所述多个第三分支对应的可并行分支组，所述可并行分支组包含所述多个第三分支各自对应的第三子分支，每个所述第三子分支包含的节点是在向下搜索每个所述第三子分支过程中得到的节点。
根据权利要求10-11中任一项所述的方法，其特征在于，所述根据所述多个第四分支得到一个可并行分支组包括：

以每个所述第四分支的最后一个节点为起始点，分别向上搜索每个所述第四分支，直至在向上搜索过程中遇到同一父节点或同一子节点时停止，以得到所述多个第四分支对应的可并行分支组，所述可并行分支组包含所述多个第四分支各自对应的第四子分支，每个所述第四子分支包含的节点是在向上搜索每个所述第四子分支过程中得到的节点。
根据权利要求1-12中任一项所述的方法，其特征在于，所述从所述第一计算图中提取一个或多个可并行分支组还包括：

在目标节点不属于不可融合节点的情况下，对所述目标节点周围的局部结构进行化简，得到第五分支，所述目标节点为所述第一计算图中未被划分进任意一个可并行分支组的节点；

在所述第五分支为多个的情况下，根据所述多个第五分支得到一个可并行分支组。
根据权利要求1-13中任一项所述的方法，其特征在于，所述方法还包括：

对所述第二计算图中的融合节点进行编译，得到与所述融合节点对应的算子核(kernel)。
根据权利要求14所述的方法，其特征在于，所述融合节点由p个节点融合得到，所述对所述第二计算图中包括的融合节点进行编译，得到与所述融合节点对应的算子核(kernel)包括：

分别调度所述p个节点，以得到与所述p个节点分别对应的p个子中间表示(IR)；

对所述p个子IR进行融合，得到一个总IR；

对所述总IR进行编译，得到与所述融合节点对应的算子核(kernel)。
根据权利要求1-15中任一项所述的方法，其特征在于，所述深度学习框架为：

mindspore、tensorflow、tensornetwork、pytorch、mxnet、caffe或theano。
一种深度学习框架，其特征在于，包括：

转换模块，用于将第一神经网络转换为第一计算图；

搜索模块，用于从所述第一计算图中提取一个或多个可并行分支组，所述可并行分支组指示属于一个可并行分支组的多个子分支支持被并行执行，所述可并行分支组包括第一可并行分支组，所述第一可并行分支组满足以下条件中的至少一种：所述第一可并行分支组内的所有子分支的输入来自于同一节点且所述第一可并行分支组内的至少两个子分支的输出指向不同的节点、所述第一可并行分支组内的所有子分支的输出指向同一节点且所述第一可并行分支组内的至少两个子分支的输入来自不同的节点、所述第一可并行分支组内的所有子分支的第一个节点没有父节点、所述第一可并行分支组内的所有子分支的最后一个节点没有子节点；

融合模块，用于对一个或多个所述可并行分支组中每个可并行分支组的多个节点进行融合，以基于所述第一计算图得到第二计算图，所述多个节点中的每个节点所属的子分支都与所述多个节点中的其他任何一个节点所属的子分支不同。
根据权利要求17所述的框架，其特征在于，在所述可并行分支组为多个的情况下，所述可并行分支组还包括第二可并行分支组，所述第二可并行分支组满足以下条件：

所述第二可并行分支组内的所有子分支的输入来自于同一节点且所述第二可并行分支组内的至少两个子分支的输出指向同一节点，所述第二可并行分支组内的每个子分支包括至少两个节点。
根据权利要求17-18中任一项所述的框架，其特征在于，所述融合模块，还用于：

从所述每个可并行分支组的目标子分支中剔除不可融合节点，以得到第三可并行分支组，所述目标子分支为所述每个可并行分支组中的任意一个子分支，所述不可融合节点包括指示特定运算操作的节点，所述特定运算操作包括以下操作中的至少一种：矩阵乘操作和卷积操作；

将所述第三可并行分支组中的多个节点进行融合，以得到融合节点，所述第二计算图中包括所述融合节点与所述第一计算图中的未融合节点，所述第三可并行分支组中的多个节点中的每个节点所属的子分支都与所述多个节点中的其他任何一个节点所属的子分支不同。
根据权利要求19所述的框架，其特征在于，所述框架还包括：

迭代模块，用于触发所述融合模块重复执行将所述第三可并行分支组中的多个节点进行融合，以得到融合节点的步骤，直至所述第三可并行分支组中未融合节点的数量少于2个。
根据权利要求19-20中任一项所述的框架，其特征在于，所述融合模块，具体用于：

基于所述第三可并行分支组中的n个节点，得到m个节点组合，所述n个节点分别来自构成所述第三可并行分支组的n个分支，且所述m个节点组合中的每一个节点组合都包括至少两个节点，m≥1，n≥2且2m≤n；

通过算力评估模型对所述m个节点组合各自所需的算力进行评估，以得到m个评估结果，所述m个评估结果中的每个评估结果用于表征如下情形一种：所述m个节点组合中每个节点组合所需耗费的算力资源、所述m个节点组合中每个节点组合所节省的算力资源；

在第一评估结果满足预设条件的情况下，将与所述第一评估结果对应的第一节点组合中的节点进行融合，以得到一个或多个第一融合节点，所述第一评估结果为所述m个评估结果中的一个，所述第一节点组合为所述m个节点组合中的一个。
根据权利要求21所述的框架，其特征在于，所述第一评估结果满足预设条件至少包括如下一种情形：

在所述m个评估结果中的每个评估结果用于表征所述m个节点组合中每个节点组合所需耗费的算力资源的情况下，所述第一评估结果达到加速硬件上具体执行计算任务的模块(device)的算力要求；在所述m个评估结果中的每个评估结果用于表征所述m个节点组合中每个节点组合所节省的算力资源的情况下，所述第一评估结果在所述m个评估结果中最优；或者，所述m个评估结果中的每个评估结果用于表征所述m个节点组合中每个节点组合所节省的算力资源的情况下，所述第一评估结果在x个评估结果中最优，所述x个评估结果为所述m个评估结果中的至少两个评估结果。
根据权利要求17-22中任一项所述的框架，其特征在于，所述搜索模块，具体用于：

在所述第一计算图中搜索拥有共同的第一父节点的多个第一分支，并根据所述多个第一分支得到一个可并行分支组，所述第一父节点为所述第一计算图中的任意一个父节点；

和/或，

在所述第一计算图中搜索拥有共同的第一子节点的多个第二分支，并根据所述多个第二分支得到一个可并行分支组，所述第一子节点为所述第一计算图中的任意一个子节点。
根据权利要求23所述的框架，其特征在于，所述搜索模块，具体还用于：

以所述第一父节点为起始点，分别向下搜索每个第一分支，直至在向下搜索过程中遇到共同的第二父节点或共同的第二子节点时停止，以得到所述多个第一分支对应的可并行分支组，所述可并行分支组包含所述多个第一分支各自对应的第一子分支，每个所述第一子分支包含的节点是在向下搜索每个所述第一子分支过程中得到的节点。
根据权利要求23-24中任一项所述的框架，其特征在于，所述搜索模块，具体还用于：

以所述第一子节点为起始点，分别向上搜索每个第二分支，直至在向上搜索过程中遇到共同的第三父节点或共同的第三子节点时停止，以得到所述多个第二分支对应的可并行分支组，所述可并行分支组包含所述多个第二分支各自对应的第二子分支，每个所述第二子分支包含的节点是在向上搜索每个所述第二子分支过程中得到的节点。
根据权利要求17-25中任一项所述的框架，其特征在于，所述搜索模块，具体还用于：

在所述第一计算图中搜索多个第三分支，并根据所述多个第三分支得到一个可并行分支组，所述多个第三分支中每个第三分支的第一个节点都没有父节点；

和/或，

在所述第一计算图中搜索多个第四分支，并根据所述多个第四分支得到一个可并行分支组，所述第四分支中每个第四分支的最后一个节点都没有子节点。
根据权利要求26所述的框架，其特征在于，所述搜索模块，具体还用于：

以每个所述第三分支的第一个节点为起始点，分别向下搜索每个所述第三分支，直至在向下搜索过程中遇到同一父节点或同一子节点时停止，以得到所述多个第三分支对应的可并行分支组，所述可并行分支组包含所述多个第三分支各自对应的第三子分支，每个所述第三子分支包含的节点是在向下搜索每个所述第三子分支过程中得到的节点。
根据权利要求26-27中任一项所述的框架，其特征在于，所述搜索模块，具体还用于：

以每个所述第四分支的最后一个节点为起始点，分别向上搜索每个所述第四分支，直至在向上搜索过程中遇到同一父节点或同一子节点时停止，以得到所述多个第四分支对应的可并行分支组，所述可并行分支组包含所述多个第四分支各自对应的第四子分支，每个所述第四子分支包含的节点是在向上搜索每个所述第四子分支过程中得到的节点。
根据权利要求17-28中任一项所述的框架，其特征在于，所述搜索模块，具体还用于：

在目标节点不属于不可融合节点的情况下，对所述目标节点周围的局部结构进行化简，得到第五分支，所述目标节点为所述第一计算图中未被划分进任意一个可并行分支组的节点；

在所述第五分支为多个的情况下，根据所述多个第五分支得到一个可并行分支组。
根据权利要求17-29中任一项所述的框架，其特征在于，所述框架还包括：

编译模块，用于对所述第二计算图中的融合节点进行编译，得到与所述融合节点对应的算子核(kernel)。
根据权利要求30所述的框架，其特征在于，所述编译模块，还用于：

在所述融合节点由p个节点融合得到的情况下，分别调度所述p个节点，以得到与所述p个节点分别对应的p个子中间表示(IR)；

对所述p个子IR进行融合，得到一个总IR；

对所述总IR进行编译，得到与所述融合节点对应的算子核(kernel)。
根据权利要求17-31中任一项所述的框架，其特征在于，所述框架为：

mindspore、tensorflow、tensornetwork、pytorch、mxnet、caffe或theano。
一种计算机设备，包括存储器和一个或多个处理器，所述一个和多个处理器与所述存储器耦合，其特征在于，

所述存储器，用于存储程序；

所述一个或多个处理器，用于执行所述存储器中的程序，使得所述计算机设备执行如权利要求1-16中任一项所述的方法。
一种计算机可读存储介质，包括计算机可读指令，其特征在于，当所述计算机可读指令在计算机上运行时，使得计算机执行如权利要求1-16中任一项所述的方法。
一种计算机程序产品，包括计算机可读指令，其特征在于，当所述计算机可读指令在计算机上运行时，使得计算机执行如权利要求1-16中任一项所述的方法。
一种芯片，其特征在于，所述芯片包括存储器和一个或多个处理器，所述芯片用于读取存储器中存储的计算机程序，使得所述一个或多个处理器执行如权利要求1-16任一项所述的方法。