WO2024098793A1

WO2024098793A1 - 计算图的处理方法、装置、设备及存储介质

Info

Publication number: WO2024098793A1
Application number: PCT/CN2023/103982
Authority: WO
Inventors: 孙楚旻; 王天祺; 周李; 孙杰
Original assignee: 华为技术有限公司
Priority date: 2022-11-07
Filing date: 2023-06-29
Publication date: 2024-05-16
Also published as: CN117993456A

Abstract

本申请公开了一种计算图的处理方法、装置、设备及存储介质，属于计算机技术领域。该方法包括：对于目标程序的计算图，基于目标硬件中多个硬件资源的数量，将该计算图切分为多个子计算图，从而根据各个硬件资源之间的通信参考信息，将多个子计算图的计算任务分别部署到多个硬件资源上去执行，得到计算图的算力部署结果。在这一过程中，由于对完整的计算图进行了切分，且算力部署过程中涉及的通信参考信息能够指示硬件资源之间进行数据传输所耗费的通信资源，因此最终得到的算力部署结果能够有效节约算力资源，提升资源利用率。

Description

计算图的处理方法、装置、设备及存储介质

本申请要求于2022年11月07日提交的申请号为202211387594.7、发明名称为“计算图的处理方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别涉及一种计算图的处理方法、装置、设备及存储介质。

背景技术

计算图(computational graph)是一种通用的计算过程表示方法，用于描述函数的有向无环图，普遍应用在各类数据处理平台上，一个计算图包括多个节点和有向边。以机器学习领域为例，计算图用于表示神经网络涉及的计算逻辑，其中，计算图中的每个节点表示神经网络的计算任务(如，add节点表示一个加法运算的计算任务)，有向边将前一个节点(可称为前节点或父节点)连接至后一个节点(可称为后节点或子节点)，表示父节点的输出作为子节点的输入。

相关技术中，继续以机器学习为例，对计算图的处理方式通常如下：对神经网络的代码文件进行编译处理，得到该神经网络的计算图，按照计算图中各节点的拓扑排序结果，将这些排好序的节点所指示的计算任务一一加载到硬件上，由硬件上具体执行计算任务的硬件资源来执行各个计算任务。然而，随着神经网络的计算规模和网络复杂度不断提升，对计算图进行处理所耗费的算力资源也越来越庞大，因此，亟需一种能够有效节约算力资源，提升资源利用率的计算图的处理方法。

发明内容

本申请实施例提供了一种计算图的处理方法、装置、设备及存储介质，能够有效节约算力资源，提升资源利用率。该技术方案如下：

第一方面，提供了一种计算图的处理方法，该方法包括：

基于目标硬件中多个硬件资源的数量，对目标程序的计算图进行切分，得到该目标程序的多个子计算图，该计算图包括多个计算节点和有向边，该计算节点指示该目标程序的计算任务，该有向边指示计算节点所指示的计算任务之间的数据流向；

基于多个该硬件资源之间的通信参考信息和多个该子计算图的计算任务，获取该计算图的算力部署结果，该通信参考信息指示硬件资源之间数据传输所耗费的通信资源，该算力部署结果指示多个该硬件资源所执行的多个该子计算图的计算任务。

在上述方法中，对于目标程序的计算图，基于目标硬件中多个硬件资源的数量，将该计算图切分为多个子计算图，从而根据各个硬件资源之间的通信参考信息，将多个子计算图的计算任务分别部署到多个硬件资源上去执行，得到计算图的算力部署结果。在这一过程中，由于对完整的计算图进行了切分，且算力部署过程中涉及的通信参考信息能够指示硬件资源之间进行数据传输所耗费的通信资源，因此最终得到的算力部署结果能够有效节约算力资源，提升资源利用率。

在一些实施例中，基于目标硬件中多个硬件资源的数量，对目标程序的计算图进行切分，得到该目标程序的多个子计算图，包括：

获取该计算图的节点权重和该计算图的有向边权重，该节点权重指示计算节点所指示的计算任务在该目标程序中的重要程度，该有向边权重指示有向边所指示的数据流向在该目标程序中的重要程度；

基于多个该硬件资源的数量、该计算图的节点权重以及该计算图的有向边权重，对该计算图进行切分，得到多个该子计算图，以使切分后的多个该子计算图的数量等于多个该硬件资源的数量，且该子计算图中计算节点和有向边的重要程度符合目标条件。

通过上述方法，能够确保各个子计算图中计算任务总量之间达到均衡，且各个子计算图中计算任务和数据流向的重要程度达到均衡，实现计算图的平衡最小切分，便于后续将这些子计算图分别部署至多个硬件资源上，以提升资源利用率。

在一些实施例中，该方法还包括：

以该计算图中的父计算节点为起点，对该多个计算节点进行第一拓扑排序，得到第一排序结果，该第一排序结果指示各个计算节点所属的第一层级；

以该计算图中的子计算节点为起点，对该多个计算节点进行第二拓扑排序，得到第二排序结果，该第二排序结果指示各个计算节点所属的第二层级；

基于该第一排序结果和该第二排序结果，确定该计算图的节点权重和该计算图的有向边权重。

在一些实施例中，基于该第一排序结果和该第二排序结果，确定该计算图的节点权重和该计算图的有向边权重，包括：

基于目标计算节点所属的第一层级与第二层级之间的差值，确定该目标计算节点的节点松弛度，基于该节点松弛度、该目标计算节点所指示的计算任务的数据处理量以及硬件性能参考值，确定该目标计算节点的节点权重，该节点松弛度指示该目标计算节点在该计算图中的重要程度，该目标计算节点为任意一个计算节点；

基于目标有向边所连接的起始计算节点所属的第一层级和终止计算节点所属的第二层级之间的差值，确定该目标有向边的有向边松弛度，基于该有向边松弛度和该目标有向边所指示的数据传输量，确定该目标有向边的有向边权重，该有向边松弛度指示该目标有向边在该计算图中的重要程度，该目标有向边为任意一条有向边。

通过上述方法，对计算图中的多个计算节点分别进行两次拓扑排序，以得到各个计算节点的节点松弛度和各条有向边的有向边松弛度，从而获取到各个计算节点的节点权重和有向边权重，能够确保在对计算图进行切分时各个子计算图的数据处理量均衡的情况下，减小不同子计算图之间的数据传输量，为计算图的切分提供技术支撑。

在一些实施例中，基于多个该硬件资源之间的通信参考信息和多个该子计算图的计算任务，获取该计算图的算力部署结果，包括：

基于多个该硬件资源和多个该子计算图，获取该计算图的中间算力部署结果；

基于多个该硬件资源之间的通信参考信息、多个该计算图之间的数据传输量以及该中间算力部署结果，获取该中间算力部署结果的通信代价；

基于该中间算力部署结果的通信代价，更新该中间算力部署结果，以得到该算力部署结果。

应理解，计算图部署的目标是通过合理分配硬件资源，让“距离远”的硬件资源之间的数据传输需求尽量少，而“距离近”的硬件资源之间数据传输需求尽量多(此处“距离”通过通信参考信息来体现)。因此，本申请定义了一种通信代价，通过最小化算力部署结果的通信代价来得到最终的算力部署结果，能够有效节约算力资源，提升资源利用率。

在一些实施例中，该方法还包括：

基于多个该硬件资源之间的连接关系、带宽信息、时延信息、路线信息以及数据转运信息，获取多个该硬件资源之间的通信参考信息。

在一些实施例中，该方法还包括：

对该目标程序的代码文件进行编译处理，得到该目标程序的数据文件和任务文件，该数据文件包括该目标程序的数据特征，该任务文件包括该目标程序的任务特征；

基于该数据文件和该任务文件，生成该计算图。

在一些实施例中，方法还包括：

在该计算图还包括多个搬运节点的情况下，基于该任务文件，删除该计算图中的多个该搬运节点，该搬运节点指示该目标程序的数据搬运任务。

通过上述方法，对目标程序的代码文件进行编译处理，将其转化为可建模的数据文件和任务文件，从而生成基于计算任务的计算图，为后续对计算图进行切分以实现算力部署的过程提供了技术支撑。

在一些实施例中，该方法还包括：

调用仿真调度工具，对该算力部署结果进行仿真调度，得到仿真调度结果，该仿真调度结果包括多个该硬件资源执行多个该子计算图的计算任务的仿真调度时间和资源利用率；

基于该仿真调度结果，调整该算力部署结果。

通过上述方法，调用仿真调度工具，对算力部署结果进行仿真调度，以便快速评估算力部署结果的性能，从而进一步调整算力部署结果，以达到进一步提升资源利用率的效果。

第二方面，本申请实施例提供了一种计算图的处理装置，该装置包括至少一个功能模块，用于执行前述第一方面或第一方面的任意一种可能的实现方式所提供的计算图的处理方法。

第三方面，本申请实施例提供了一种计算设备，该计算设备包括处理器和存储器；该存储器用于存储至少一段程序代码，该至少一段程序代码由处理器加载并执行如前述第一方面或第一方面的任意一种可能的实现方式所提供的计算图的处理方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质用于存储至少一段程序代码，该至少一段程序代码用于实现前述第一方面或第一方面的任意一种可能的实现方式所提供的计算图的处理方法。该存储介质包括但不限于易失性存储器，例如随机访问存储器，非易失性存储器，例如快闪存储器、硬盘(hard disk drive，HDD)、固态硬盘(solid state drive，SSD)。

第五方面，本申请实施例提供了一种计算机程序产品，当该计算机程序产品在计算设备上运行时，使得该计算设备实现前述第一方面或第一方面的任意一种可能的实现方式所提供的计算图的处理方法。该计算机程序产品可以为一个软件安装包，在需要实现前述计算图的处理方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

附图说明

图1是本申请实施例提供的一种计算图的处理方法的实施环境示意图；

图2是本申请实施例提供的一种计算设备的硬件结构示意图；

图3是本申请实施例提供的一种计算图的处理方法的流程图；

图4是本申请实施例提供的一种代码文件的编译处理过程的示意图；

图5是本申请实施例提供的一种计算图的示意图；

图6是本申请实施例提供的一种生成计算图的示意图；

图7是本申请实施例提供的一种拓扑排序的示意图；

图8是本申请实施例提供的一种节点松弛度和有向边松弛度的示意图；

图9是本申请实施例提供的一种获取计算图权重的示意图；

图10是本申请实施例提供的一种硬件资源的示意图；

图11是本申请实施例提供的一种硬件资源建模过程的示意图；

图12是本申请实施例提供的一种计算图的切分示意图；

图13是本申请实施例提供的一种计算图的部署过程的示意图；

图14是本申请实施例提供的一种仿真调度流程的示意图；

图15是本申请实施例提供的一种计算图的处理方法的示意图；

图16是本申请实施例提供的一种计算图的处理方法的示意图；

图17是本申请实施例提供的一种神经网络的计算图的示意图；

图18是本申请实施例提供的一种人工部署计算图的示意图；

图19是本申请实施例提供的一种人工部署和本申请方案的对比示意图；

图20是本申请实施例提供的一种计算图的处理装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的目标程序的代码文件等都是在充分授权的情况下获取的。

为了方便理解，下面先对本申请涉及的关键术语和关键概念进行说明。

计算图(computational graph)，一种通用的计算过程表示方法，用于描述函数的有向无环图，普遍应用在各类数据处理平台上，一个计算图包括多个节点和有向边。以机器学习领域为例，计算图用于表示神经网络涉及的计算逻辑，其中，计算图中的每个节点表示神经网络的计算任务(如，add节点表示一个加法运算的计算任务)，有向边将前一个节点(可称为前节点或父节点)连接至后一个节点(可称为后节点或子节点)，表示父节点的输出作为子节点的输入。在一些实施例中，将计算图中指示计算任务的节点称为计算节点。另外，在一些实施例中，计算图中的节点还能够指示数据搬运任务(如，将数据从计算任务1所在的芯片搬运到共享内存等)，将这些节点称为搬运节点。

人工智能(artificial intelligence，AI)模型，是一类用机器学习思想解决实际问题的数学算法模型，AI模型中包括大量的参数和计算公式(或计算规则)。

神经网络，是一类模仿生物神经网络(动物的中枢神经系统)的结构和功能的数学算法AI模型。一个神经网络可以包括多种不同功能的神经网络层，每层包括参数和计算公式。

拓扑排序(topological sorting)，是一个有向无环图(directed acyclic graph，DAG)的所有节点的线性序列。

启发式算法(heuristic algorithm)，是相对于最优化算法提出的。一个问题的最优算法求得该问题每个实例的最优解。启发式算法可以这样定义：一个基于直观或经验构造的算法，在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解，该可行解与最优解的偏离程度一般不能被预计。目前，启发式算法包括蚁群算法、模拟退火算法(simulated annealing mapping，SAM)、神经网络等。

高性能计算(high performance computing)，是一种利用超级计算机或计算机集群的能力来解决需要大量计算的复杂问题的技术，如一些数据密集型计算任务，包括仿真、建模和渲染等。

高性能LINPACK系统(high performance LINPACK)，是一种用于测试高性能计算机系统浮点性能的基准标准检查程序(benchmark)，其中，LINPACK是线性系统软件包(linear system package)的简称。LINPACK基准通过求解密集的线性代数方程组，来测试和评估高性能计算机系统的浮点性能。测试标准包括三种不同的信息尺度的测试：100×100、1000×1000和n×n，其中前两种测试所用的基准程序能够从相关网站上下载，经过编译运行的程序，这种程序可以提供相应机器的性能，并且这种测试不允许对测试程序进行任何修正。n×n数据规模的测试要求是LINPACK测试标准中最宽松的，用户可以对任意大小的问题规模，使用任意数量的中央处理器(central processing unit，CPU)，使用基于高斯消元的各种优化方法来执行该测试程序，寻求最佳的性能测试结果。在一些实施例中，将用于加速器自检的高性能LINPACK系统(high performance LINPACK for accelerator introspection)简称为HPL-AI。

消息传递接口(message passing interface，MPI)，是一个标准化和可移植的消息系统(函数库)。该标准定义了编写具有消息传递的可移植程序时使用的库函数的语法和语义。换言之，MPI是一种用于在并行应用程序的分支之间提供通信的软件工具。

开放式多处理(open multi-processing，OMP)，是一种用于共享内存并行系统的多线程程序设计方案，支持的编程语言包括C、C++和Fortran等。

高级语言(high-level programming language)，是一种独立于机器，面向过程或对象的语言。高级语言是参照数学语言而设计的近似于日常会话的语言。例如，高级语言包括BASIC、JAVA、C、C++、Python等，对此不作限定。

下面对本申请涉及的应用场景和实施环境进行介绍。

本申请实施例提供了一种计算图的处理方法，能够应用于针对计算图的算力部署场景，例如，AI神经网络训练场景和HPL场景等。示意性地，以AI神经网络训练场景为例，对于一个定义好的神经网络，通过对该神经网络的代码文件进行编译处理，生成该神经网络的计算图，将该计算图所指示的计算任务部署到相应硬件资源上去执行，实现神经网络的训练过程。

图1是本申请实施例提供的一种计算图的处理方法的实施环境示意图。如图1所示，该实施环境包括终端101和服务器102，终端101通过无线网络或有线网络与服务器102直接或间接相连。

终端101可以是智能手机、台式计算机、增强现实终端、平板电脑、电子书阅读器和膝上型便携计算机中的至少一种。终端101安装和运行有应用程序，如客户端应用、浏览器应用等，对此不作限定。示意性地，以AI神经网络训练场景为例，终端101上运行有支持训练神经网络的应用程序，用户能够通过该应用程序，输入定义好的神经网络的代码文件，触发终端101向服务器102发送针对该神经网络的训练请求，以便服务器102对该神经网络的代码文件进行编译处理，生成计算图，并将计算图所指示的计算任务部署到相应硬件资源上去执行，实现神经网络的训练过程。

服务器102为独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式文件系统，又或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于为终端101上运行的应用程序提供后台服务。服务器102也可以理解为具有计算图的算力部署功能，能够针对目标程序(如神经网络、HPL测试程序等)生成相应的计算图，并将计算图所指示的计算任务部署到相应硬件资源上去执行。

终端101可以泛指多个终端中的一个，或者多个终端组成的集合；服务器102可以是单独的计算设备、计算设备集群、虚拟机或容器引擎等等，本申请实施例对实施环境中每种设备的数量和设备类型不做限定。

在一些实施例中，上述的无线网络或有线网络使用标准通信技术和/或协议。网络包括但不限于数据中心网络(data center network)、存储区域网(storage area network，SAN)、局域网(local area network，LAN)、城域网(metropolitan area network，MAN)、广域网(wide area network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实现方式中，使用包括超级文本标记语言(hyper text markup language，HTML)、可扩展标记语言(extensible markup language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还能够使用诸如安全套接字层(secure sockets layer，SSL)、传输层安全(transport layer security，TLS)、虚拟专用网络(virtual private network，VPN)、网际协议安全(internet protocol security，IPsec)等常规加密技术来加密所有或者部分链路。在另一些实施例中，还能够使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

下面对上述服务器102的硬件结构进行介绍。

本申请实施例提供了一种计算设备，能够配置为上述实施环境中的服务器102。示意性地，参考图2，图2是本申请实施例提供的一种计算设备的硬件结构示意图。如图2所示，该计算设备200包括存储器201、处理器202、通信接口203以及总线204。其中，存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接。

存储器201可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。示意性地，存储器201用于存储至少一段程序代码，当存储器201中存储的程序代码被处理器202执行时，处理器202和通信接口203用于执行下述实施例所示的计算图的处理方法。

处理器202可以为智能芯片(也可称为AI芯片)，也即是本申请实施例中涉及的硬件资源，例如是网络处理器(network processor unit，NPU)、中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、现场可编程逻辑门阵列(field programmable gate array，FPGA)、特定应用集成电路(application-specific integrated circuit，ASIC)或用于控制本申请方案程序执行的集成电路。该处理器202可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。该处理器202的数量可以是一个，也可以是多个，对此不作限定。

通信接口203使用例如收发器一类的收发模块，来实现计算设备200与其他设备或通信网络之间的通信。例如，可以通过通信接口203获取数据。

其中，存储器201和处理器202可以分离设置，也可以集成在一起。

总线204可包括在计算设备200各个部件(例如，存储器201、处理器202、通信接口203)之间传送信息的通路。

在一些实施例中，本申请提供的计算图的处理方法还可以通过分布式部署在不同的环境中的多个计算设备来实现，本申请实施例对此不作限定。

下面对本申请提供的计算图的处理方法进行介绍。

图3是本申请实施例提供的一种计算图的处理方法的流程图。如图3所示，该计算图的处理方法应用于上述实施环境中的服务器，包括下述步骤301至步骤307。

301、服务器基于目标程序的代码文件，生成该目标程序的计算图。

在本申请实施例中，目标程序是指任意程序，如神经网络、HPL测试程序等，对此不作限定。目标程序的代码文件是指以高级语言编写的代码文件，本申请实施例对于高级语言的具体形式不作限定。目标程序的计算图包括多个计算节点和有向边，该计算节点指示该目标程序的计算任务，该有向边指示计算节点所指示的计算任务之间的数据流向，也可以理解为计算任务之间的依赖关系。

下面结合图4和图5，对服务器生成目标程序的计算图的过程进行详细介绍，包括下述步骤A1和步骤A2。

步骤A1、对目标程序的代码文件进行编译处理，得到该目标程序的数据文件和任务文件。

其中，服务器获取目标程序的代码文件，对该代码文件进行编译处理，将其转化为可建模的数据文件和任务文件。示意性地，数据文件包括该目标程序的数据特征，例如，以目标程序的任意数据为例，该数据的数据特征包括：数据名称(data name)、数据标识(data ID)、数据处理量(data KByteSize)(也称为数据大小)、需求源初始化(consummer init)以及数据区域(data region)(如存储数据的芯片，也称为硬件资源)等等，对此不作限定。任务文件包括该目标程序的任务特征，例如，以目标程序的任意任务为例，该任务的任务特征包括：任务名称(task name)、任务标识(task ID)、任务类型(task type)(如计算任务、数据搬运任务等)，任务区域(task region)(如计算任务指定的芯片)，该任务的前序任务ID列表(predecessor taskIDlist)、该任务的后继任务ID列表(successor taskIDlist)、该任务的输入数据ID列表(input dataID)(长度与前序任务ID列表长度一致)以及该任务的输出数据ID列表(output dataID)等等，对此不作限定。应理解，目标程序的数据特征和任务特征可以分别存储在不同的文件中，也可以存储在同一个文件中，本申请实施例对此不作限定。

示意性地，参考图4，图4是本申请实施例提供的一种代码文件的编译处理过程的示意图。如图4所示，基于高级语言Python编写的目标程序(矩阵分解，LU-Decomposition)的代码文件如图4中(a)图所示，通过对该代码文件进行编译处理，得到数据文件和任务文件，其中，数据文件如图4中(b)图所示，任务文件如图4中(c)图所示。需要说明的是，图4所示仅为一种示意性说明，数据文件和任务文件的具体内容能够根据实际需求进行增加或删减，对此不作限定。

步骤A2、基于该数据文件和该任务文件，生成该目标程序的计算图。

其中，服务器基于该数据文件和该任务文件，生成基于计算任务的有向无环图，也即该目标程序的计算图。应理解，在计算图中，计算任务会被部署至目标硬件上去执行，且会耗费通信资源和算力资源，因此生成计算任务的有向无环图能够便于后续对计算图进行切分，提高计算图的切分效率。

在一些实施例中，服务器采用递归算法来生成计算图。示意性地，以任务文件中任一个计算任务为例(以下称为目标计算任务)，服务器获取目标计算任务和该目标计算任务的前序依赖任务ID列表，若该前序依赖任务ID列表中存在搬运任务的任务ID，则遍历该搬运任务的前序依赖任务ID列表，直到定位到所有计算任务集合，将计算任务集合中的每一个计算任务作为该目标计算任务的前序，遍历所有计算任务，最终生成基于计算任务的有向无环图。

在另一些实施例中，服务器能够基于该数据文件和该任务文件，生成该目标程序的完整的计算图，即，该计算图包括多个计算节点、多个搬运节点和有向边，在这种情况下，服务器基于该任务文件，删除该计算图中的多个搬运节点，以得到基于计算任务的有向无环图，本申请实施例对此不作限定。

示意性地，参考图5，图5是本申请实施例提供的一种计算图的示意图。如图5所示，圆圈所示节点为计算节点，圆角矩形所示节点为搬运节点，箭头为有向边，用于表示任意两个节点所指示的任务之间的数据流向。其中，(a)图为基于计算任务的计算图，该计算图包括多个计算节点和有向边。(b)图为包含有输入输出搬运任务的计算图，该计算图包括多个计算节点、多个搬运节点以及有向边。例如，搬运节点A指示将数据从存储单元-晶圆(storage unit-wafer，SU-W)搬运至存储单元-共享(storage unit-share，SU-S)，搬运节点B指示将数据从芯片单元外部搬运到芯片单元。(c)图为包含有所有搬运任务的计算图，该计算图包括多个计算节点、多个搬运节点以及有向边。在一些实施例中，计算任务之间的数据流向对应3个搬运任务，即，以任一条有向边所指示的数据流向为例，将数据从起始计算任务所在的芯片搬运到起始共享内存上、从起始共享内存搬运到目标共享内存、从目标共享内存搬运到终止计算任务所在的芯片上。应理解，上述(a)、(b)、(c)图之间能够互相转化，即，(c)图可以理解为是目标程序的完整的计算图，(b)图可以理解为是简化后的计算图，(a)图可以理解为是抽象化的仅包含计算任务的计算图，在实际应用中，能够根据需求选择生成相应的计算图来实现针对计算图的算力部署，本申请实施例对此不作限定。

经过上述步骤301，服务器对目标程序的代码文件进行编译处理，将其转化为可建模的数据文件和任务文件，从而生成基于计算任务的计算图，即DAG图，这一过程可参考图6，图6是本申请实施例提供的一种生成计算图的示意图，通过这一过程，为后续对计算图进行切分以实现算力部署的过程提供了技术支撑。

302、服务器获取计算图的节点权重和计算图的有向边权重。

在本申请实施例中，节点权重指示计算节点所指示的计算任务在目标程序中的重要程度，有向边权重指示有向边所指示的数据流向在目标程序中的重要程度。通过获取计算图的节点权重和有向边权重，为后续对计算图的切分提供了技术支撑，使得计算图在切分时能够保留目标程序中重要程度较高的节点和有向边。这一过程也可以理解为给计算图的各个计算节点和各条有向边添加标签的过程，或者说为计算图添加结构标签的过程。

下面结合图7和图8，对服务器获取计算图的节点权重和有向边权重的过程进行介绍，包括下述步骤B1至步骤B3。

步骤B1、以计算图中的父计算节点为起点，对多个计算节点进行第一拓扑排序，得到第一排序结果，该第一排序结果指示各个计算节点所属的第一层级。

其中，服务器以计算图中的父计算节点为起点，基于与该父计算节点连接的有向边，正向遍历该多个计算节点，将多个计算节点按照层次分层，得到各个计算节点所属的第一层级。例如，参考图7，图7是本申请实施例提供的一种拓扑排序的示意图。如图7中(a)图所示，服务器以计算节点1为起点，遍历剩余的计算节点2至9，得到第一排序结果：计算节点1属于第0层，计算节点2和3属于第1层，计算节点4、5、6属于第2层，计算节点7和8属于第3层，计算节点9属于第4层。在一些实施例中，将这种拓扑排序方式称为基于最快原则的拓扑排序(as soon as possible，ASAP)。

步骤B2、以计算图中的子计算节点为起点，对该多个计算节点进行第二拓扑排序，得到第二排序结果，该第二排序结果指示各个计算节点所属的第二层级。

其中，服务器以计算图中的子计算节点为起点，基于与该子计算节点连接的有向边，反向遍历该多个计算节点，将多个计算节点按照层次分层，得到各个计算节点所属的第二层级。例如，继续参考图7，如图7中(b)图所示，服务器以计算节点5、8、9为起点，遍历剩余的计算节点，得到第二排序结果：计算节点1属于第0层，计算节点2属于第1层，计算节点3和4属于第2层，计算节点7和6属于第3层，计算节点5、8、9属于第4层。在一些实施例中，将这种拓扑排序方式称为基于最晚原则的拓扑排序(as late as possible，ALAP)。

经过上述步骤B1和B2，服务器采用两种拓扑排序方式，对计算图中的多个计算节点进行了拓扑排序，得到相应的拓扑排序结果，也即是，从不同角度来感知计算图中计算节点和有向边在整个计算图中的重要程度，从而服务器能够基于下述步骤B3来确定各个计算节点的节点权重和各条有向边的有向边权重。

步骤B3、基于第一排序结果和第二排序结果，确定计算图的节点权重和计算图的有向边权重。

下面以任意一个计算节点为例(以下称为目标计算节点)，介绍节点权重的确定方式。

示意性地，服务器基于目标计算节点所属的第一层级与第二层级之间的差值，确定该目标计算节点的节点松弛度，基于该节点松弛度、该目标计算节点所指示的计算任务的数据处理量以及硬件性能参考值，确定该目标计算节点的节点权重。其中，节点松弛度指示该目标计算节点在该计算图中的重要程度，通常节点松弛度越小，表示该目标计算节点在该计算图中的重要程度越高。示意性地，服务器基于目标计算节点所指示的计算任务的任务标识，从任务文件中获取该数据处理量。另外，硬件性能参考值可以是默认值，也可以是目标硬件(即用于执行目标程序的硬件)中多个硬件资源的平均性能参考值，本申请实施例对此不作限定。上述目标计算节点的节点权重的确定过程通过下述公式(1)和(2)来表示。
Slack(node)＝ALAP(node)-ASAP(node)，Slack∈[0，lv] (1)

在公式(1)中，Slack(node)表示节点松弛度；ALAP(node)表示目标计算节点所属的第二层级；ASAP(node)表示目标计算节点所属的第一层级；lv为整数，是层级(level)的简称。示意性地，参考图8，图8是本申请实施例提供的一种节点松弛度和有向边松弛度的示意图。如图8中(a)图所示，在上述图7所示的拓扑排序结果的基础上，通过上述公式(1)计算得到各个计算节点的节点松弛度。

在公式(2)中，W_node(i)表示目标计算节点的节点权重；i为正整数，表示第i个计算节点，也即目标计算节点；GFlop(i)表示目标计算节点所指示的计算任务的数据处理量；perf表示硬件性能参考值。

下面以任意一条有向边为例(以下称为目标有向边)，介绍有向边权重的确定方式。

示意性地，服务器基于目标有向边所连接的起始计算节点所属的第一层级和终止计算节点所属的第二层级之间的差值，确定该目标有向边的有向边松弛度，基于该有向边松弛度和该目标有向边所指示的数据传输量，确定该目标有向边的有向边权重。其中，有向边松弛度指示该目标有向边在该计算图中的重要程度，通常有向边松弛度越小，表示该目标有向边在该计算图中的重要程度越高。示意性地，服务器基于该目标有向边所指示的数据流向，确定基于该目标有向边进行传输的数据的数据标识，基于该数据标识，从数据文件中获取该数据传输量。上述目标有向边的有向边权重的确定过程通过下述公式(3)和(4)来表示。
EdgeSlack(src→dst)＝ALAP(dst)-ASAP(src)，EdgeSlack∈[1，lv] (3)

在公式(3)中，EdgeSlack(src→dst)表示有向边松弛度，其中src(起始source的简称)表示有向边所连接的起始计算节点，dst(终止destination的简称)表示有向边所连接的终止计算节点；ALAP(dst)表示终止计算节点所属的第二层级；ASAP(src)表示起始计算节点所属的第一层级；lv为整数，是层级(level)的简称。示意性地，继续参考图8，如图8中(b)图所示，在上述图7所示的拓扑排序结果的基础上，通过上述公式(3)计算得到各条有向边的有向边松弛度。
W_link(i→j)＝data_KByteSize/EdgeSlack(i→j) (4)

在公式(4)中，W_link(i→j)表示有向边的有向边权重；i、j为正整数，分别表示第i个计算节点和第j个计算节点，也即有向边所连接的起始计算节点和终止计算节点；data_KByteSize表示数据处理量。

经过上述步骤302，服务器在获取到计算图的情况下，对计算图中的多个计算节点分别进行两次拓扑排序，以得到各个计算节点的节点松弛度和各条有向边的有向边松弛度，从而获取到各个计算节点的节点权重和有向边权重，这一过程可参考图9，图9是本申请实施例提供的一种获取计算图权重的示意图，通过这一过程，为计算图赋予计算节点与有向边的权重，能够确保在对计算图进行切分时各个子计算图的数据处理量均衡的情况下，减小不同子计算图之间的数据传输量，为后续计算图的切分提供技术支撑。

303、服务器获取目标硬件中多个硬件资源的数量和多个硬件资源之间的通信参考信息。

在本申请实施例中，目标硬件是指用于执行目标程序的硬件，也即是用于执行计算图中各个计算任务的硬件。目标硬件包括多个硬件资源，例如，硬件资源为CPU、GPU、NPU等。需要说明的是，本申请实施例对于硬件资源的划分粒度不作限定，例如，硬件资源还可以是CPU的任一个核，能够根据实际需求进行划分。硬件资源之间的通信参考信息指示硬件资源之间数据传输所耗费的通信资源，能够根据硬件资源的参数信息计算得到，该通信参考信息也可以理解为是硬件资源之间的通信距离。

下面对硬件资源之间的通信参考信息的确定方式进行介绍。

其中，服务器基于多个硬件资源之间的连接关系、带宽信息、时延信息、路线信息以及数据转运信息，获取多个硬件资源之间的通信参考信息。

连接关系是指硬件资源之间的连通关系，若任意两个硬件资源之间存在级联通路，则表明这两个硬件资源之间属于直接连接，否则属于间接连接，应理解，原则上不存在不相连的硬件资源对。带宽信息是指直接连接的硬件资源之间单位时间传输的数据量，通常带宽越大说明单位时间可以传输更多的数据。时延信息是指直接连接的硬件资源之间数据传输的时间，可以与带宽相关，也可以是固定值，通常时延越长说明通信代价越大。路线信息是指间接连接的硬件资源之间的线路条数。数据转运信息是指间接连接的硬件资源之间的数据转运开销。

示意性地，参考图10，图10是本申请实施例提供的一种硬件资源的示意图。以任意两个硬件资源为例，上述确定通信参考信息的过程通过下述公式(5)来表示：

在公式(5)中，m、n为正整数，表示第m个硬件资源和第n个硬件资源；D_mn表示第m个硬件资源和第n个硬件资源之间的通信参考信息(全部硬件资源之间的通信参考信息的组合可以理解为是一个硬件资源矩阵D)；hop表示跳数，如图10所示，硬件资源1和4之间为间接连接，则硬件资源1和4之间的跳数为2；dly表示时延；bw表示带宽，H(bw)表示调和平均；waynum表示路线条数；tran表示数据转运开销。在一些实施例中，若将直接连接的硬件资源之间的带宽和时延设置为bw和dly，则上述公式(5)可以简化为下述公式(6)：

上述公式(6)中，以图10为例，D₁₂表示硬件资源1和2之间的通信参考信息，D₁₄表示硬件资源1和4之间的通信参考信息。

应理解，上述公式(5)所示的通信参考信息的计算方式仅为本申请提供的一种示意性说明，在一些实施例中，能够根据实际需求来确定通信参考信息，例如，服务器基于多个硬件资源之间的连接关系、带宽信息、时延信息、路线信息以及数据转运信息中的至少一项来确定通信参考信息。当然，通信参考信息还可以是默认参考值，例如，直接连接的CPU之间的通信参考信息为10，间接连接的CPU之间的通信参考信息为20，等等，本申请实施例对此不作限定。

需要说明的是，上述图10所示的硬件资源的形式仅为示意性说明，并不构成对本申请实施例中硬件资源的限定。在一些实施例中，服务器采用聚类算法，将目标硬件进行划分，得到多个硬件资源。其中，划分原则是大类聚类，大类内连接较为紧密，较少间接连接，大类之间连接较为稀疏，较多间接连接。例如，将CPU与GPU算力分开来计算和建模，得到CPU大类和GPU大类，接着，对CPU大类进行划分，得到多个CPU，基于该多个CPU来计算CPU之间的通信参考信息；对GPU大类进行划分，得到多个GPU，基于该多个GPU来计算GPU之间的通信参考信息。通过这种异构算力部分分开计算的方式，实现了有针对性地建模，能够更为有效地利用算力资源。

经过上述步骤303，服务器获取到目标硬件中多个硬件资源的数量和多个硬件资源之间的通信参考信息，这一过程也可以理解为硬件资源建模的过程，可参考图11，图11是本申请实施例提供的一种硬件资源建模过程的示意图，通过这一过程，获取到的多个硬件资源的数量能够用于后续对计算图进行切分的过程中，获取到的多个硬件资源之间的通信参考信息能够用于后续对切分后的子计算图进行部署的过程中，以提升资源利用率。

另外，本申请实施例对于上述步骤303的执行时机不作限定，服务器可以先执行步骤303，再执行步骤301和步骤302，也可以在执行步骤301和步骤302的情况下，同步执行步骤303，或者，服务器还可以在执行下述步骤304时，获取多个硬件资源的数量，在执行下述步骤305时，获取多个硬件资源之间的通信参考信息。

304、服务器基于目标硬件中多个硬件资源的数量、计算图的节点权重以及计算图的有向边权重，对计算图进行切分，得到多个子计算图。

在本申请实施例中，服务器基于多个硬件资源的数量、计算图的节点权重以及计算图的有向边权重，对计算图进行切分，得到多个子计算图，以使切分后的多个子计算图的数量等于多个硬件资源的数量，且子计算图中计算节点和有向边的重要程度符合目标条件。其中，目标条件是指子计算图之间的加权切边数最小，应理解，在对计算图进行切分时是通过删除有向边的方式来实现的，而有向边所指示的数据流向在目标程序中的重要程度能够通过有向边权重来体现，有向边所连接的计算节点所指示的计算任务在目标程序中的重要程度能够通过节点权重来体现，因此，通过最小化子计算图之间的加权切边数，能够确保各个子计算图中计算任务总量之间达到均衡，且各个子计算图中计算任务和数据流向的重要程度达到均衡，实现计算图的平衡最小切分。

在一些实施例中，服务器调用启发式算法，基于多个硬件资源的数量、计算图的节点权重以及计算图的有向边权重，对计算图进行切分，得到多个子计算图。例如，启发式算法包括蚁群算法、SAM算法、神经网络等，对此不作限定。

经过上述步骤304，服务器基于目标硬件中多个硬件资源的数量，对计算图进行了切分，得到多个子计算图，这一过程可参考图12，图12是本申请实施例提供的一种计算图的切分示意图，通过这一过程，将计算图切分多个子计算图，便于后续将这些子计算图分别部署至多个硬件资源上，以提升资源利用率。

305、服务器基于多个硬件资源之间的通信参考信息和多个子计算图的计算任务，获取该计算图的算力部署结果。

在本申请实施例中，算力部署结果指示多个硬件资源所执行的多个子计算图的计算任务。服务器基于多个硬件资源之间的通信参考信息和多个子计算图的计算任务，将多个子计算图分别部署至多个硬件资源上，以使多个硬件资源分别执行多个子计算图的计算任务。基于前述内容可知，多个硬件资源的数量等于多个子计算图的数量，也即是，每个子计算图均会被部署至相应的硬件资源上，换言之，算力部署结果也可以理解为指示多个硬件资源与多个子计算图之间的映射关系(或称为匹配关系)。

下面对服务器获取算力部署结果的过程进行介绍，包括下述步骤C1至步骤C3：

步骤C1、基于多个硬件资源和多个子计算图，获取计算图的中间算力部署结果。

其中，将多个子计算图随机部署至多个硬件资源上，得到中间算力部署结果。

步骤C2、基于多个硬件资源之间的通信参考信息、多个计算图之间的数据传输量以及中间算力部署结果，获取中间算力部署结果的通信代价。

其中，多个计算图之间的数据传输量通过下前述公式(7)来确定：

在公式(7)中，x、y为正整数，表示第x个子计算图和第y个子计算图；C_xy表示第x个子计算图和第y个子计算图之间的数据传输量(全部子计算图之间的数据传输量的组合可以理解为是一个数据传输量矩阵C)；k为正整数，表示任意一条有向边；part(src_k)表示有向边所连接的起始计算节点所在的子计算图；part(dst_k)表示有向边所连接的终止计算节点所在的子计算图；δ函数表示若part(src_k)和part(dst_k)不一致，则表明k为切边(也即是被“删除”的边)，为0，否则为1。

应理解，计算图部署的目标是通过合理分配硬件资源，让“距离远”的硬件资源之间的数据传输需求尽量少，而“距离近”的硬件资源之间数据传输需求尽量多(此处“距离”通过通信参考信息来体现)。因此，本申请定义了一种通信代价，通过最小化算力部署结果的通信代价来得到最终的算力部署结果。示意性地，算力部署结果的通信代价如下述公式(8)所示：
S＝tr(P^TCPD^T) (8)

在公式(8)中，S表示通信代价，P为置换矩阵，C为数据传输量矩阵，D为硬件资源矩阵(参考前述公式(5))。

步骤C3、基于中间算力部署结果的通信代价，更新中间算力部署结果，以得到算力部署结果。

其中，服务器基于中间算力部署结果的通信代价，迭代更新中间算力部署结果，直至满足迭代截止条件，得到算力部署结果。其中，该迭代截止条件可以是迭代次数达到目标次数，也可以是通信代价小于目标阈值，对此不作限定。

在一些实施例中，服务器调用SAM算法来执行上述步骤C1至步骤C3，得到计算图的算力部署结果。下面对这种方式进行介绍，应理解，SAM算法是一种通过迭代更新来达到最优解的算法，包括下述几个步骤：

第一步、基于多个硬件资源和多个子计算图，随机生成初始算力部署结果，设置初始化温度为T，迭代次数为L。

第二步、基于上述公式(7)和公式(8)，计算初始算力部署结果的通信代价。

第三步、从初始算力部署结果中随机选择两个子计算图交换其对应的硬件资源，得到新的算力部署结果，重新计算通信代价和增量ΔT。

第四步、若ΔT<0，接受新的算力部署结果，否则以exp(-ΔT/T)的概率接受新的算力部署结果，重复L次。

第五步、逐渐降低T，返回第三步，直到T降低到预设阈值，输出算力部署结果。

需要说明的是，上述通过SAM算法获取算力部署结果的过程仅为本申请实施例提供的一种示意性说明，其他凡是通过最小化通信代价来得到最终的算力部署结果的方法均能应用于上述过程中，本申请对此不作限定。

经过上述步骤305，服务器基于多个硬件资源之间的通信参考信息(硬件资源矩阵D)和多个子计算图的计算任务(数据传输量矩阵C)，将多个子计算图分别部署至多个硬件资源上，以使多个硬件资源分别执行多个子计算图的计算任务，这一过程可参考图13，图13是本申请实施例提供的一种计算图的部署过程的示意图，通过这一过程，实现了针对计算图的自动部署过程，而且，由于考虑到了各个硬件资源之间的通信参考信息，因此能够有效节约算力资源，提升资源利用率。

在一些实施例中，服务器还能够调用仿真调度工具，对上述算力部署结果进行仿真调度，以便快速评估算力部署结果的性能，从而进一步调整算力部署结果，以达到进一步提升资源利用率的效果。下面对这种可选的实施方式进行介绍。

306、服务器调用仿真调度工具，对该算力部署结果进行仿真调度，得到仿真调度结果。

其中，该仿真调度结果包括多个该硬件资源执行多个该子计算图的计算任务的仿真调度时间和资源利用率。

示意性地，该仿真调度工具为基于通知列表(notify table)和事件驱动(event-driven)的分布式仿真调度框架，下面参考图14，对该仿真调度流程进行介绍。图14是本申请实施例提供的一种仿真调度流程的示意图，如图14所示，在仿真调度过程中，调度器维护下述四个列表：

计算图(task graph)列表，用于存储子计算图的任务；

解除列表(release-list)，用于存储已经解除依赖关系的任务的标识，应理解，计算图中的任务是依次执行的，随着某一任务的执行完毕，该任务与其他任务之间的依赖关系随即解除，这些其他任务也即是已经解除依赖关系的任务；

执行列表(ontheFly-list)，用于存储正在执行的任务的标识；

提交列表(commit-list)，用于存储已执行完毕的任务的标识。

在仿真调度过程中，包括下述几个步骤：1、提交列表向调度器发送预计任务完成时间(EstTime)；2、接收调度器返回的针对仿真调度时间(wall-clock)的通知消息；3、提交列表执行任务并提交；4、向调度器发送针对执行完毕的任务的通知消息；5、调度器基于执行完毕的任务，更新计算图列表；6、在计算图列表更新后，更新解除列表；7、将解除列表中的目标数量个任务分配至执行列表中；8、更新执行列表中的任务；9、更新预计任务完成时间。应理解，上述过程通过循环迭代执行，直至最后一个任务提交完成后，调度器生成的仿真调度时间即为整个计算图的仿真调度时间。

307、服务器基于该仿真调度结果，调整该算力部署结果。

其中，服务器基于该仿真调度结果，调整算力部署结果，基于调整后的算力部署结果，重新进行仿真调度，通过这种迭代调整的方式，直至得到符合条件的算力部署结果。例如，迭代调整的次数达到预设次数，或者，调整后的算力部署结果的仿真调度结果符合要求，等等，对此不作限定。

经过上述步骤306和步骤307，通过基于事件驱动的分布式调度仿真，可以快速评估调度性能，评估结果可靠，从而进一步调整算力部署结果，以达到进一步提升资源利用率的效果。应理解，在得到最终的算力部署结果后，能够按照该算力部署结果，将目标程序的计算图真正部署到目标硬件的多个硬件资源上去执行，从而有效节约算力资源，提升了资源利用率。反观相关技术，以MPI+OMP模式或者MPI+FF-Graph模式为例(FF为函数流(function flow)的简称)，这些计算图的处理方式并不是基于完整的计算图建模，放弃了很多多个硬件资源之间的并行机会，而且MPI对编程人员存在较高的编程门槛，计算图生成形式和过程复杂，效率较低，导致算力资源消耗较多。

需要说明的是，在一些实施例中，上述步骤301至步骤307为离线处理过程，在另一些实施例中，服务器还能够在线执行上述步骤301至步骤307，并基于在线运行过程中硬件资源的占用信息，在线调整算力部署结果，以达到实时提升资源利用率的效果，当然，还能够将离线和在线方法混合，离线生成算力部署结果的基线，基于在线运行过程中硬件资源的占用信息，再进行算力部署结果的微调，本申请实施例对此不作限定。

下面结合图15和图16，对上述步骤301至步骤307所示的计算图的处理方法进行总结。

参考图15，图15是本申请实施例提供的一种计算图的处理方法的示意图。如图15所示，本申请实施例提供的计算图的处理方法介于高级语言与底层任务调度执行之间，属于资源分配与部署范畴。其总体框架包含三个子框架：建模框架1501、部署框架1502与仿真调度框架1503，三个子框架互为递进关系。其中，建模框架1501包括：计算图构建(也即前述步骤301)、计算图结构标签(也即前述步骤302)以及硬件建模(也即前述步骤303)。通过将目标程序的代码文件编译转化为数据文件和任务文件，构建得到目标程序的计算图，并对计算图的结构与硬件资源的算力进行建模，为部署框架1502提供算力部署依据。部署框架1502包括：自动化切分(也即前述步骤304)和自动化部署(也即前述步骤305)，基于目标硬件中多个硬件资源的算力建模结果和计算图的结构标签，对计算图进行切分，将切分后得到的多个子计算图部署至多个硬件资源上，使得各个子计算图适配于不同硬件资源并且通信代价最小，为仿真调度框架1503做准备。仿真调度框架1503包括分布式调度仿真(也即前述步骤306和步骤307)，这是基于事件驱动的分布式调度方法，通过仿真各个硬件资源的运行状态以及同步消息，得到仿真调度结果，并将仿真调度结果作为整体计算图部署性能的依据。最后，将算力部署结果导入任务调度执行，可进行真实环境下的调度性能验证。

接下来，参考图16，图16是本申请实施例提供的一种计算图的处理方法的示意图，如图16所示，该计算图的处理方法流程介于高级语言和调度之间。其中硬件建模单独建模，为切分和部署提供算力与通信代价依据。

基于前述介绍可知，本申请实施例提供的计算图的处理方法能够应用于神经网络的训练场景，示意性地，参考图17，图17是本申请实施例提供的一种神经网络的计算图的示意图。如图17所示，该神经网络为Megatron神经网络，其函数流(function flow，FF)计算图包括前向传播(forward propagation，FP)和反向传播(backward propagation，BP)，共72个编码器。参考图18，图18是本申请实施例提供的一种人工部署计算图的示意图，如图18所示，人工部署时，在目标硬件包括8个硬件资源的情况下，在每个硬件资源上部署9个编码器，也即是将72个编码器顺序部署至8个硬件资源上去执行。示意性地，参考图19，图19是本申请实施例提供的一种人工部署和本申请方案的对比示意图，如图19所示，对图17所示的神经网络的计算图采用人工部署的方式时，各个硬件资源(如芯片die)的资源利用率平均稳定在68％，而采用本申请方案所示的自动部署的方式时，各个硬件资源的资源利用率相比人工部署方式均有不同程度的提升，综合提升了2.4％，可见采用本申请方案，能够有效节约算力资源，提升资源利用率。

需要说明的是，本申请实施例提供的计算图的处理方法还能够应用于HPL场景，相比盛景网络的训练场景，HPL的计算图结构通常更为复杂，往往需要通过折叠图、动态图的方式展现，而本申请实施例提供的计算图的处理方法能够应用于折叠图、动态图等不同切分场景和需求，可做到多层级高响应的部署，从而提高HPL场景下的资源利用率。

综上，在本申请实施例提供的计算图的处理方法中，对于目标程序的计算图，基于目标硬件中多个硬件资源的数量，将该计算图切分为多个子计算图，从而根据各个硬件资源之间的通信参考信息，将多个子计算图的计算任务分别部署到多个硬件资源上去执行，得到计算图的算力部署结果。在这一过程中，由于对完整的计算图进行了切分，且算力部署过程中涉及的通信参考信息能够指示硬件资源之间进行数据传输所耗费的通信资源，因此最终得到的算力部署结果能够有效节约算力资源，提升资源利用率。

图20是本申请实施例提供的一种计算图的处理装置的结构示意图。该计算图的处理装置可以通过软件、硬件或者两者的结合实现前述计算图的处理方法。如图20所示，该计算图的处理装置包括计算图切分模块2001和算力部署模块2002。

计算图切分模块2001，用于基于目标硬件中多个硬件资源的数量，对目标程序的计算图进行切分，得到该目标程序的多个子计算图，该计算图包括多个计算节点和有向边，该计算节点指示该目标程序的计算任务，该有向边指示计算节点所指示的计算任务之间的数据流向；

算力部署模块2002，用于基于多个该硬件资源之间的通信参考信息和多个该子计算图的计算任务，获取该计算图的算力部署结果，该通信参考信息指示硬件资源之间数据传输所耗费的通信资源，该算力部署结果指示多个该硬件资源所执行的多个该子计算图的计算任务。

在一些实施例中，计算图切分模块2001，用于：

在一些实施例中，该装置还包括权重确定模块，该权重确定模块用于：

在一些实施例中，该权重确定模块用于：

在一些实施例中，该算力部署模块2002，用于：

在一些实施例中，该装置还包括获取模块，该获取模块，用于：

在一些实施例中，该装置还包括计算图生成模块，该计算图生成模块用于：

基于该数据文件和该任务文件，生成该计算图。

在一些实施例中，该计算图生成模块还用于：

在一些实施例中，该装置还包括仿真调度模块，该仿真调度模块用于：

基于该仿真调度结果，调整该算力部署结果。

在本申请实施例提供的计算图的处理装置中，对于目标程序的计算图，基于目标硬件中多个硬件资源的数量，将该计算图切分为多个子计算图，从而根据各个硬件资源之间的通信参考信息，将多个子计算图的计算任务分别部署到多个硬件资源上去执行，得到计算图的算力部署结果。在这一过程中，由于对完整的计算图进行了切分，且算力部署过程中涉及的通信参考信息能够指示硬件资源之间进行数据传输所耗费的通信资源，因此最终得到的算力部署结果能够有效节约算力资源，提升资源利用率。

另外，在上述计算图的处理装置中，计算图切分模块2001和算力部署模块2002均可以通过软件实现，或者可以通过硬件实现。示例性的，接下来以计算图切分模块2001为例，介绍计算图切分模块2001的实现方式。类似的，算力部署模块2002以及其他模块的实现方式可以参考计算图切分模块2001的实现方式。

模块作为软件功能单元的一种举例，计算图切分模块2001可以包括运行在计算实例上的代码。其中，计算实例可以包括物理主机(计算设备)、虚拟机、容器中的至少一种。进一步地，上述计算实例可以是一台或者多台。例如，计算图切分模块2001可以包括运行在多个主机/虚拟机/容器上的代码。需要说明的是，用于运行该代码的多个主机/虚拟机/容器可以分布在相同的区域(region)中，也可以分布在不同的region中。进一步地，用于运行该代码的多个主机/虚拟机/容器可以分布在相同的可用区(availability zone，AZ)中，也可以分布在不同的AZ中，每个AZ包括一个数据中心或多个地理位置相近的数据中心。其中，通常一个region可以包括多个AZ。

同样，用于运行该代码的多个主机/虚拟机/容器可以分布在同一个虚拟私有云(virtual private cloud，VPC)中，也可以分布在多个VPC中。其中，通常一个VPC设置在一个区域(region)内，同一region内两个VPC之间，以及不同region的VPC之间跨区通信需在每个VPC内设置通信网关，经通信网关实现VPC之间的互连。

模块作为硬件功能单元的一种举例，计算图切分模块2001可以包括至少一个计算设备。或者，计算图切分模块2001也可以是利用专用集成电路(application-specific integrated circuit，ASIC)实现、或可编程逻辑器件(programmable logic device，PLD)实现的设备等。其中，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)、现场可编程门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合实现。

计算图切分模块2001包括的多个计算设备可以分布在相同的region中，也可以分布在不同的region中。计算图切分模块2001包括的多个计算设备可以分布在相同的AZ中，也可以分布在不同的AZ中。同样，计算图切分模块2001包括的多个计算设备可以分布在同一个VPC中，也可以分布在多个VPC中。其中，该多个计算设备可以是服务器、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。

需要说明的是，在其他实施例中，计算图切分模块2001可以用于执行计算图的处理方法中的任意步骤，即，计算图切分模块2001和算力部署模块2002负责实现的步骤可根据需要指定，通过计算图切分模块2001和算力部署模块2002分别实现计算图的处理方法中不同的步骤来实现计算图的处理装置的全部功能。另外，上述实施例提供的计算图的处理装置与计算图的处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种所述示例的范围的情况下，第一排序结果可以被称为第二排序结果，并且类似地，第二排序结果可以被称为第一排序结果。第一排序结果和第二排序结果都可以是排序结果，并且在某些情况下，可以是单独且不同的排序结果。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上，例如，多个排序结果是指两个或两个以上的排序结果。

以上描述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以程序结构信息的形式实现。该程序结构信息包括一个或多个程序指令。在计算设备上加载和执行该程序指令时，全部或部分地产生按照本申请实施例中的流程或功能。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

一种计算图的处理方法，其特征在于，所述方法包括：

基于目标硬件中多个硬件资源的数量，对目标程序的计算图进行切分，得到所述目标程序的多个子计算图，所述计算图包括多个计算节点和有向边，所述计算节点指示所述目标程序的计算任务，所述有向边指示计算节点所指示的计算任务之间的数据流向；

基于多个所述硬件资源之间的通信参考信息和多个所述子计算图的计算任务，获取所述计算图的算力部署结果，所述通信参考信息指示硬件资源之间数据传输所耗费的通信资源，所述算力部署结果指示多个所述硬件资源所执行的多个所述子计算图的计算任务。
根据权利要求1所述的方法，其特征在于，所述基于目标硬件中多个硬件资源的数量，对目标程序的计算图进行切分，得到所述目标程序的多个子计算图，包括：

获取所述计算图的节点权重和所述计算图的有向边权重，所述节点权重指示计算节点所指示的计算任务在所述目标程序中的重要程度，所述有向边权重指示有向边所指示的数据流向在所述目标程序中的重要程度；

基于多个所述硬件资源的数量、所述计算图的节点权重以及所述计算图的有向边权重，对所述计算图进行切分，得到多个所述子计算图，以使切分后的多个所述子计算图的数量等于多个所述硬件资源的数量，且所述子计算图中计算节点和有向边的重要程度符合目标条件。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

以所述计算图中的父计算节点为起点，对所述多个计算节点进行第一拓扑排序，得到第一排序结果，所述第一排序结果指示各个计算节点所属的第一层级；

以所述计算图中的子计算节点为起点，对所述多个计算节点进行第二拓扑排序，得到第二排序结果，所述第二排序结果指示各个计算节点所属的第二层级；

基于所述第一排序结果和所述第二排序结果，确定所述计算图的节点权重和所述计算图的有向边权重。
根据权利要求3所述的方法，其特征在于，所述基于所述第一排序结果和所述第二排序结果，确定所述计算图的节点权重和所述计算图的有向边权重，包括：

基于目标计算节点所属的第一层级与第二层级之间的差值，确定所述目标计算节点的节点松弛度，基于所述节点松弛度、所述目标计算节点所指示的计算任务的数据处理量以及硬件性能参考值，确定所述目标计算节点的节点权重，所述节点松弛度指示所述目标计算节点在所述计算图中的重要程度，所述目标计算节点为任意一个计算节点；

基于目标有向边所连接的起始计算节点所属的第一层级和终止计算节点所属的第二层级之间的差值，确定所述目标有向边的有向边松弛度，基于所述有向边松弛度和所述目标有向边所指示的数据传输量，确定所述目标有向边的有向边权重，所述有向边松弛度指示所述目标有向边在所述计算图中的重要程度，所述目标有向边为任意一条有向边。
根据权利要求1至4中任一项所述的方法，其特征在于，所述基于多个所述硬件资源之间的通信参考信息和多个所述子计算图的计算任务，获取所述计算图的算力部署结果，包括：

基于多个所述硬件资源和多个所述子计算图，获取所述计算图的中间算力部署结果；

基于多个所述硬件资源之间的通信参考信息、多个所述计算图之间的数据传输量以及所述中间算力部署结果，获取所述中间算力部署结果的通信代价；

基于所述中间算力部署结果的通信代价，更新所述中间算力部署结果，以得到所述算力部署结果。
根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

基于多个所述硬件资源之间的连接关系、带宽信息、时延信息、路线信息以及数据转运信息，获取多个所述硬件资源之间的通信参考信息。
根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：

对所述目标程序的代码文件进行编译处理，得到所述目标程序的数据文件和任务文件，所述数据文件包括所述目标程序的数据特征，所述任务文件包括所述目标程序的任务特征；

基于所述数据文件和所述任务文件，生成所述计算图。
根据权利要求7所述的方法，其特征在于，所述方法还包括：

在所述计算图还包括多个搬运节点的情况下，基于所述任务文件，删除所述计算图中的多个所述搬运节点，所述搬运节点指示所述目标程序的数据搬运任务。
根据权利要求1至8中任一项所述的方法，其特征在于，所述方法还包括：

调用仿真调度工具，对所述算力部署结果进行仿真调度，得到仿真调度结果，所述仿真调度结果包括多个所述硬件资源执行多个所述子计算图的计算任务的仿真调度时间和资源利用率；

基于所述仿真调度结果，调整所述算力部署结果。
一种计算图的处理装置，其特征在于，所述装置包括：

计算图切分模块，用于基于目标硬件中多个硬件资源的数量，对目标程序的计算图进行切分，得到所述目标程序的多个子计算图，所述计算图包括多个计算节点和有向边，所述计算节点指示所述目标程序的计算任务，所述有向边指示计算节点所指示的计算任务之间的数据流向；

算力部署模块，用于基于多个所述硬件资源之间的通信参考信息和多个所述子计算图的计算任务，获取所述计算图的算力部署结果，所述通信参考信息指示硬件资源之间数据传输所耗费的通信资源，所述算力部署结果指示多个所述硬件资源所执行的多个所述子计算图的计算任务。
根据权利要求10所述的装置，其特征在于，所述计算图切分模块，用于：

获取所述计算图的节点权重和所述计算图的有向边权重，所述节点权重指示计算节点所指示的计算任务在所述目标程序中的重要程度，所述有向边权重指示有向边所指示的数据流向在所述目标程序中的重要程度；

基于多个所述硬件资源的数量、所述计算图的节点权重以及所述计算图的有向边权重，对所述计算图进行切分，得到多个所述子计算图，以使切分后的多个所述子计算图的数量等于多个所述硬件资源的数量，且所述子计算图中计算节点和有向边的重要程度符合目标条件。
根据权利要求11所述的装置，其特征在于，所述装置还包括权重确定模块，所述权重确定模块用于：

以所述计算图中的父计算节点为起点，对所述多个计算节点进行第一拓扑排序，得到第一排序结果，所述第一排序结果指示各个计算节点所属的第一层级；

以所述计算图中的子计算节点为起点，对所述多个计算节点进行第二拓扑排序，得到第二排序结果，所述第二排序结果指示各个计算节点所属的第二层级；

基于所述第一排序结果和所述第二排序结果，确定所述计算图的节点权重和所述计算图的有向边权重。
根据权利要求12所述的装置，其特征在于，所述权重确定模块用于：

基于目标计算节点所属的第一层级与第二层级之间的差值，确定所述目标计算节点的节点松弛度，基于所述节点松弛度、所述目标计算节点所指示的计算任务的数据处理量以及硬件性能参考值，确定所述目标计算节点的节点权重，所述节点松弛度指示所述目标计算节点在所述计算图中的重要程度，所述目标计算节点为任意一个计算节点；

基于目标有向边所连接的起始计算节点所属的第一层级和终止计算节点所属的第二层级之间的差值，确定所述目标有向边的有向边松弛度，基于所述有向边松弛度和所述目标有向边所指示的数据传输量，确定所述目标有向边的有向边权重，所述有向边松弛度指示所述目标有向边在所述计算图中的重要程度，所述目标有向边为任意一条有向边。
根据权利要求10至13中任一项所述的装置，其特征在于，所述算力部署模块，用于：

基于多个所述硬件资源和多个所述子计算图，获取所述计算图的中间算力部署结果；

基于多个所述硬件资源之间的通信参考信息、多个所述计算图之间的数据传输量以及所述中间算力部署结果，获取所述中间算力部署结果的通信代价；

基于所述中间算力部署结果的通信代价，更新所述中间算力部署结果，以得到所述算力部署结果。
根据权利要求10至14中任一项所述的装置，其特征在于，所述装置还包括获取模块，所述获取模块，用于：

基于多个所述硬件资源之间的连接关系、带宽信息、时延信息、路线信息以及数据转运信息，获取多个所述硬件资源之间的通信参考信息。
根据权利要求10至15中任一项所述的装置，其特征在于，所述装置还包括计算图生成模块，所述计算图生成模块用于：

对所述目标程序的代码文件进行编译处理，得到所述目标程序的数据文件和任务文件，所述数据文件包括所述目标程序的数据特征，所述任务文件包括所述目标程序的任务特征；

基于所述数据文件和所述任务文件，生成所述计算图。
根据权利要求16所述的装置，其特征在于，所述计算图生成模块还用于：

在所述计算图还包括多个搬运节点的情况下，基于所述任务文件，删除所述计算图中的多个所述搬运节点，所述搬运节点指示所述目标程序的数据搬运任务。
根据权利要求10至17中任一项所述的装置，其特征在于，所述装置还包括仿真调度模块，所述仿真调度模块用于：

调用仿真调度工具，对所述算力部署结果进行仿真调度，得到仿真调度结果，所述仿真调度结果包括多个所述硬件资源执行多个所述子计算图的计算任务的仿真调度时间和资源利用率；

基于所述仿真调度结果，调整所述算力部署结果。
一种计算设备，其特征在于，所述计算设备包括处理器和存储器，所述存储器用于存储至少一段程序代码，所述至少一段程序代码由所述处理器加载并执行如权利要求1至权利要求9中任一项所述的计算图的处理方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储至少一段程序代码，所述至少一段程序代码用于执行如权利要求1至权利要求9中任一项所述的计算图的处理方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在计算设备上运行时，使得所述计算设备执行如权利要求1至权利要求9中任一项所述的计算图的处理方法。