WO2024022046A1

WO2024022046A1 - 一种深度学习系统和方法

Info

Publication number: WO2024022046A1
Application number: PCT/CN2023/105715
Authority: WO
Inventors: 林惠敏
Original assignee: 华为技术有限公司
Priority date: 2022-07-28
Filing date: 2023-07-04
Publication date: 2024-02-01
Also published as: CN117521841A

Abstract

一种深度学习系统和方法，涉及人工智能领域，该深度学习方法包括将数据流图分为M个子数据流图，并根据M个子数据流图的参数和N个计算模块的参数之间的映射关系，将M个子数据流图分配给N个计算模块，其中，M、N为正整数；对各自对应的子数据流图的数据进行计算。本申请实施例的方案可以实现计算任务的自适应分配，提高了计算模块资源的利用率，也提高了计算模块处理计算任务的效率，降低了深度学习的应用难度。

Description

一种深度学习系统和方法

本申请要求于2022年7月28日提交中国专利局、申请号为202210894943.8、申请名称为“一种深度学习系统和方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，并且更具体地，涉及一种深度学习系统和方法。

背景技术

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。AI领域的研究包括深度学习、自然语言处理、计算机视觉、决策与推理、人机交互、推荐与搜索，AI基础理论等。随着人们对AI领域的深入研究，深度学习子领域也得以不断发展。

现有技术中，在深度学习子领域，将计算任务分配至具体的计算模块需要通过应用层来实现。然而，应用层将计算任务分配至具体的计算模块时，往往需要应用层在感知计算模块的参数等信息后，才可以针对不同的服务质量指标，对计算任务做出符合实际要求的分配。因此，基于应用层的计算任务分配，不能够实现计算任务的自适应分配，降低了计算模块资源的利用率，也降低了计算模块处理计算任务的效率，从而增加了深度学习的应用难度。

发明内容

本申请提供一种深度学习系统和方法，可以实现计算任务的自适应分配，提高了计算模块资源的利用率，也提高了计算模块处理计算任务的效率，从而降低了深度学习的应用难度。

第一方面，提供了一种深度学习系统，包括处理模块和N个计算模块，处理模块，用于将数据流图分为M个子数据流图，并根据M个子数据流图的参数和N个计算模块的参数之间的映射关系，将M个子数据流图分配给N个计算模块，其中，M、N为正整数；N个计算模块，用于对各自对应的子数据流图的数据进行计算。

基于上述技术方案，处理模块可以根据M个子数据流图的参数和N个计算模块的参数之间的映射关系，将M个子数据流图分配给N个计算模块，可以实现计算任务的自适应分配，提高了计算模块资源的利用率，也提高了计算模块处理计算任务的效率，降低了深度学习的应用难度。

结合第一方面，在第一方面的某些实现方式中，M个子数据流图的参数包括以下至少一项：M个子数据流图的数据优先级，M个子数据流图的数据量。

结合第一方面，在第一方面的某些实现方式中，N个计算模块的参数包括以下至少一项：N个计算模块之间的带宽、N个计算模块的算力、N个计算模块的存储容量。

结合第一方面，在第一方面的某些实现方式中，处理模块，用于根据服务质量指标，将数据流图分为M个子数据流图。

基于上述技术方案，处理模块可以根据服务质量指标，将数据流图分为M个子数据流图，使得N个计算模块可以对各自对应的子数据流图的数据进行计算。通过该方式，可以提高计算模块资源的利用率，以及提高计算模块处理计算任务的效率，降低深度学习的应用难度。

结合第一方面，在第一方面的某些实现方式中，当服务质量指标为时延时，N个计算模块各自对应的子数据流图的数据是由N个计算模块并发计算的。

结合第一方面，在第一方面的某些实现方式中，当服务质量指标为吞吐量时，N个计算模块各自对应的子数据流图的数据是由N个计算模块独立计算的。

结合第一方面，在第一方面的某些实现方式中，N个计算模块，还用于使用交换操作对各自对应的子数据流图的数据进行交换。

基于上述技术方案，N个计算模块可以使用交换操作对各自对应的子数据流图的数据进行交换，从而可以保证N个计算模块对子数据流图的数据进行计算时的准确性。

结合第一方面，在第一方面的某些实现方式中，N个计算模块包括至少两个设备，至少两个设备通过互联装置组成至少一个设备组，一个设备组的算力大于或等于一个设备的算力。

基于上述技术方案，当N个计算模块包括至少两个设备时，该至少两个设备通过互联装置组成至少一个设备组，使得该一个设备组的算力大于或等于一个设备的算力，从而能够提高单个设备的利用率。

第二方面，提供了一种深度学习方法，包括：将数据流图分为M个子数据流图，并根据M个子数据流图的参数和N个计算模块的参数之间的映射关系，将M个子数据流图分配给N个计算模块，其中，M、N为正整数；对各自对应的子数据流图的数据进行计算。

基于上述技术方案，可以根据M个子数据流图的参数和N个计算模块的参数之间的映射关系，将M个子数据流图分配给N个计算模块，从而实现计算任务的自适应分配，提高了计算模块资源的利用率，也提高了计算模块处理计算任务的效率，降低了深度学习的应用难度。

结合第二方面，在第二方面的某些实现方式中，M个子数据流图的参数包括以下至少一项：M个子数据流图的数据优先级，M个子数据流图的数据量。

结合第二方面，在第二方面的某些实现方式中，N个计算模块的参数包括以下至少一项：N个计算模块之间的带宽、N个计算模块的算力、N个计算模块的存储容量。

结合第二方面，在第二方面的某些实现方式中，将数据流图分为M个子数据流图，包括：根据服务质量指标，将数据流图分为M个子数据流图。

结合第二方面，在第二方面的某些实现方式中，当服务质量指标为时延时，各自对应的子数据流图的数据是由N个计算模块并发计算的。

结合第二方面，在第二方面的某些实现方式中，当服务质量指标为吞吐量时，各自对应的子数据流图的数据是由N个计算模块独立计算的。

结合第二方面，在第二方面的某些实现方式中，方法还包括：使用交换操作对N个计算模块各自对应的子数据流图的数据进行交换。

第三方面，提供了一种深度学习系统，包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第二方面以及第二方面中的任意一种实现方式中的方法。

上述第三方面中的处理器既可以是中央处理器(central processing unit，CPU)，也可以是CPU与神经网络运算处理器的组合，这里的神经网络运算处理器可以包括图形处理器(graphics processing unit，GPU)、神经网络处理器(neural-network processing unit，NPU)和张量处理器(tensor processing unit，TPU)等等。其中，TPU是谷歌(google)为机器学习全定制的人工智能加速器专用集成电路。

第四方面，提供一种计算机可读存储介质，该计算机可读存储介质存储用于设备执行的程序代码，该程序代码包括用于执行第二方面或第二方面中的任意一种实现方式中的方法。

第五方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第二方面或第二方面中的任意一种实现方式中的方法。

第六方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第二方面或第二方面中的任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第二方面或第二方面中的任意一种实现方式中的方法。

第七方面，提供一种片上系统(system on a chip，SoC)，SoC包括上述第一方面或第一方面中的任意一种实现方式中的深度学习系统。

附图说明

图1示出了本申请实施例提供的一种深度学习系统100的示意性框图。

图2示出了本申请实施例提供的又一种深度学习系统200的示意性框图。

图3示出了本申请实施例提供的一种计算模块的示意性结构图。

图4示出了本申请实施例提供的一种数据流图的示意图。

图5示出了本申请实施例提供的又一种数据流图的示意图。

图6示出了本申请实施例提供的又一种数据流图的示意图。

图7示出了本申请实施例提供的又一种数据流图的示意图。

图8示出了本申请实施例提供的一种深度学习方法800的示意图。

图9示出了本申请实施例提供的一种深度学习系统的示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，AI是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的智能机器，该智能机器能以与人类智能相似的方式作出反应。AI也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。AI领域的研究包括深度学习、自然语言处理、计算机视觉、决策与推理、人机交互、推荐与搜索，AI基础理论等。

随着人们对AI领域的深入研究，深度学习子领域也得以不断发展。例如，图像、视频、自然语言等相关算法的创新力度不断增大，计算任务所需的算力资源也从单一芯片扩展到计算集群。再例如，为了满足应用层的需求，硬件和芯片技术也在快速发展，计算芯片架构采用单芯片、双晶片、多晶片等多种封装技术。再例如，内存架构包括片上高速缓存区，本地存储区，分布式存储系统等，可以提供不同的存储能力。再例如，在计算集群中，计算模块之间的互联架构也形态各异，有全互联形态，也有树形通信拓扑结构。

现有技术中，在深度学习子领域，将计算任务分配至具体的计算模块需要通过应用层来实现。然而，应用层将计算任务分配至具体的计算模块时，往往需要应用层在感知计算模块的参数等信息后，才可以针对不同的服务质量指标，对计算任务做出符合实际要求的分配。因此，基于应用层的计算任务分配，不能够实现计算任务的自适应分配，降低了对计算模块资源的利用率，也降低了计算模块处理计算任务的效率，从而增加了深度学习的应用难度。

鉴于上述技术问题，本申请提供了一种深度学习系统，可以无需基于应用层进行计算任务的分配。通过该系统，本申请可以实现计算任务的自适应分配，提高了计算模块资源的利用率，也提高了计算模块处理计算任务的效率，从而降低了深度学习的应用难度。

下面将结合附图详细说明本申请提供的各个实施例。

图1示出了本申请实施例提供的一种深度学习系统100的示意性框图。如图1所示，该深度学习系统100包括管理模块110、收发模块120、处理模块130和计算模块140。

管理模块110，可以用于获取计算模块140的参数，并通过收发模块120，将计算模块140的参数发送至处理模块130。例如，假设计算模块140包括N个计算模块，则管理模块110可以获取到N个计算模块的算力，其中，N为正整数。

收发模块120，可以用于收发计算任务所需的信息。例如，收发模块120可以将管理模块110获取到的计算模块140的参数发送至处理模块130；再例如，收发模块120可以获取数据流图，并将该数据流图发送至处理模块130；再例如，收发模块120可以获取数据流图的数据，并将该数据流图的数据发送至处理模块130。

处理模块130，可以用于对计算任务所需的信息进行处理。处理模块130，包括第一模块、第二模块和第三模块。

第一模块可以用于数据流图的切分，例如，第一模块可以将数据流图分为M个子数据流图，其中，M为正整数。

第二模块可以将数据流图分配给计算模块140，例如，假设有M个子数据流图，计算模块140包括N个计算模块，则第二模块可以将M个子数据流图中数据量大的子数据流图，分配给N个计算模块中算力高的计算模块。

第三模块可以用于将数据流图的数据分配给计算模块140。例如，假设有M个子数据流图，计算模块140包括N个计算模块，则第三模块可以将M个子数据流图的数据分配给N个计算模块。

计算模块140，可以用于对数据流图的数据进行计算。例如，假设计算模块140包括N个计算模块，则N个计算模块可以对各自对应的子数据流图的数据进行计算。

基于图1所示的深度学习系统的示意性框图，本申请实施例提供的基于深度学习系统对计算任务进行处理的流程，可以包括以下几个步骤：

第一步，管理模块110可以获取计算模块140的参数，假设计算模块140包括N个计算模块，则管理模块110可以获取N个计算模块的算力。

第二步，收发模块120可以将管理模块110获取到的计算模块140的参数，发送至处理模块130。

第三步，收发模块120可以将获取到的数据流图发送至处理模块130。

第四步，处理模块130，包括第一模块和第二模块。第一模块可以将数据流图分为M个子数据流图，第二模块可以将M个子数据流图分配给计算模块140包括的N个计算模块。其中，第二模块在分配M个子数据流图时，可以考虑N个计算模块的参数，例如，第二模块可以将M个子数据流图中数据量大的子数据流图，分配给N个计算模块中算力高的计算模块。

第五步，收发模块120可以将获取到的数据流图的数据发送至处理模块130。

第六步，处理模块130，还包括第三模块，第三模块可以将M个子数据流图的数据，分配给计算模块140包括的N个计算模块。

第七步，N个计算模块可以对各自对应的子数据流图中的数据进行计算。

基于上述技术方案，本申请实施例提供的深度学习系统，可以无需基于应用层进行计算任务的分配，便可以实现计算任务的自适应分配，提高了计算模块资源的利用率，也提高了计算模块处理计算任务的效率，从而降低了深度学习的应用难度。

在本申请实施例中，处理模块可以将数据流图分配给计算模块，以使得计算模块能够对数据流图的数据进行计算。当计算模块包括N个计算模块时，处理模块将数据流图分配给N个计算模块的具体过程，后面结合图2至图7予以详细说明。

图2是本申请实施例提供的又一种深度学习系统200的示意性框图。如图2所示，深度学习系统200可以包括处理模块210和N个计算模块220。其中，处理模块210可以是图1中的处理模块130，N个计算模块220可以是图1中的计算模块140。

处理模块210，用于将数据流图分为M个子数据流图，并根据M个子数据流图的参数和N个计算模块220的参数之间的映射关系，将M个子数据流图分配给N个计算模块220。

示例性地，处理模块210获取数据流图，可以包括：收发模块接收数据流图，并发送至处理模块210，其中，该收发模块可以是图1中的收发模块120。

示例性地，处理模块210获取N个计算模块220的参数，可以包括：管理模块获取N个计算模块220的参数，并通过收发模块，将N个计算模块220的参数发送至处理模块210，其中，该管理模块可以是图1中的管理模块110，该收发模块可以是图1中的收发模块120。

示例性地，处理模块210将数据流图分为M个子数据流图，可以是图1中处理模块130包括的第一模块执行的。

示例性地，处理模块210将M个子数据流图分配给N个计算模块220，可以是图1中处理模块130包括的第二模块执行的。

其中，M、N为正整数。

其中，M个子数据流图的参数可以包括以下至少一项：M个子数据流图的数据优先级，M个子数据流图的数据量。

应理解，M个子数据流图的数据优先级可以是M个子数据流图的数据交换优先级，也可以是M个子数据流图的数据的其它优先级，本申请实施例例不予限制。下文实施例中，仅以M个子数据流图的数据优先级为M个子数据流图的数据交换优先级为例予以说明。

可选地，M个子数据流图的数据交换优先级与各个子数据流图之间的数据交换次数相关联。当M个子数据流图中的P个子数据流图之间的数据交换次数较多时，该P个子数据流图的数据交换优先级较高；当M个子数据流图中的Q个子数据流图之间的数据交换次数较少时，该Q个子数据流图的数据交换优先级较低。其中，P、Q为正整数。

示例性地，假设处理模块210将数据流图分为6个子数据流图，将该6个子数据流图分别记为子数据流图1、子数据流图2、子数据流图3、子数据流图4、子数据流图5、子数据流图6，根据各个子数据流图之间的数据交换次数，将子数据流图1、子数据流图2与子数据流图3记为第一组子数据流图，将子数据流图4、子数据流图5与子数据流图6记为第二组子数据流图，将子数据流图1与子数据流图4记为第三组子数据流图，将子数据流图2与子数据流图5记为第四组子数据流图，将子数据流图3与子数据流图6记为第五组子数据流图，假设第一组子数据流图之间的数据，以及第二组子数据流图之间的数据交换次数较多，第三组子数据流图之间的数据、第四组子数据流图之间的数据，以及第五组子数据流图之间的数据交换次数较少，则数据交换优先级较高的子数据流图所在的组为第一组数据流图和第二组数据流图，数据交换优先级较低的子数据流图所在的组为第三组数据流图、第四组数据流图和第五组数据流图。

其中，N个计算模块220的参数可以包括以下至少一项：N个计算模块220之间的带宽、N个计算模块220的算力、N个计算模块220的存储容量。

示例性地，N个计算模块220之间的带宽，可以是N个计算模块220中每两个计算模块之间的带宽。例如，假设有三个计算模块，分别记为计算模块1、计算模块2和计算模块3，则三个计算模块之间的带宽可以是计算模块1与计算模块2之间的带宽，也可以是计算模块1与计算模块3之间的带宽，也可以是计算模块2与计算模块3之间的带宽。

可选地，M个子数据流图的参数与N个计算模块220的参数相关联。

应理解，当M个子数据流图的参数与N个计算模块220的参数相关联时，M个子数据流图的参数与N个计算模块220的参数之间存在映射关系，使得处理模块210，可以根据M个子数据流图的参数和N个计算模块220的参数之间的映射关系，将M个子数据流图分配给N个计算模块220。

M个子数据流图的参数与N个计算模块220的参数相关联，可以有以下几种可能的方式。

一种可能的方式，M个子数据流图的数据优先级，与N个计算模块220之间的带宽相关联。

示例性地，可以使用两两之间带宽较高的计算模块，对数据交换优先级较高的子数据流图的数据进行计算；可以使用两两之间带宽较低的计算模块，对数据交换优先级较低的子数据流图的数据进行计算。

另一种可能的方式，M个子数据流图的数据优先级，与N个计算模块220的算力相关联。

示例性地，可以使用算力较高的计算模块，对数据交换优先级较高的子数据流图的数据进行计算；可以使用算力较低的计算模块，对数据交换优先级较低的子数据流图的数据进行计算。

另一种可能的方式，M个子数据流图的数据优先级，与N个计算模块220的存储容量相关联。

应理解，计算模块每对子数据流图的数据进行交换，该计算模块所需要存储的子数据流图的数据就会增多。例如，假设有两个计算模块，分别记为计算模块1和计算模块2，计算模块1对应的子数据流图为子数据流图1，计算模块2对应的子数据流图为子数据流图2，在计算模块1与计算模块2对各自对应的子数据流图的数据进行交换后，计算模块1需要存储的子数据流图的数据包括子数据流图1的数据和子数据流图2的数据，计算模块2需要存储的子数据流图的数据包括子数据流图1的数据和子数据流图2的数据。因此，M个子数据流图的数据交换优先级，是与N个计算模块220的存储容量相关联的。

示例性地，可以使用存储容量较大的计算模块，对数据交换优先级较高的子数据流图的数据进行计算；可以使用存储容量较小的计算模块，对数据交换优先级较低的子数据流图的数据进行计算。

另一种可能的方式，M个子数据流图的数据量，与N个计算模块220之间的带宽相关联。

示例性地，可以使用两两之间带宽较高的计算模块，对数据量较大的子数据流图的数据进行计算；可以使用两两之间带宽较低的计算模块，对数据量较小的子数据流图的数据进行计算。

另一种可能的方式，M个子数据流图的数据量，与N个计算模块220的算力相关联。

示例性地，可以使用算力较高的计算模块，对数据量较大的子数据流图的数据进行计算；可以使用算力较低的计算模块，对数据量较小的子数据流图的数据进行计算。

另一种可能的方式，M个子数据流图的数据量，与N个计算模块220的存储容量相关联。

示例性地，可以使用存储容量较大的计算模块，对数据量较大的子数据流图的数据进行计算；可以使用存储容量较小的计算模块，对数据量较小的子数据流图的数据进行计算。

应理解，子数据流图的个数M可以大于计算模块的个数N，子数据流图的个数M可以等于计算模块的个数N，子数据流图的个数M可以小于计算模块的个数N，本申请实施例对子数据流图的个数M与计算模块的个数N之间的大小关系不作限定。

当子数据流图的个数M大于计算模块的个数N时，处理模块210，可以根据M个子数据流图的参数和N个计算模块220的参数之间的映射关系，将M个子数据流图分配给N个计算模块220。在该场景下，处理模块210将M个子数据流图分配给N个计算模块220，可以有以下几种方式。

方式#A，当子数据流图的个数M大于计算模块的个数N时，处理模块210可以根据M个子数据流图的数据优先级，与N个计算模块220之间的带宽的映射关系，将M个子数据流图分配给N个计算模块220。

示例性地，当子数据流图的个数M大于计算模块的个数N时，处理模块210可以将数据交换优先级较高的子数据流图，分配给两两之间带宽较高的计算模块；处理模块210可以将数据交换优先级较低的子数据流图，分配给两两之间带宽较低的计算模块。

图3示出了本申请实施例提供的一种计算模块的示意性结构图。如图3所示，假设有8个计算模块，分别记为计算模块1、计算模块2、计算模块3、计算模块4、计算模块5、计算模块6、计算模块7和计算模块8，假设计算模块1、计算模块2、计算模块3与计算模块4两两之间的带宽较高，计算模块5、计算模块6、计算模块7与计算模块8两两之间的带宽也较高，其余计算模块两两之间的带宽较低，例如，计算模块1与计算模块5之间的带宽较低，计算模块2与计算模块6之间的带宽较低。

假设有9个子数据流图，分别记为子数据流图1、子数据流图2、子数据流图3、子数据流图4、子数据流图5、子数据流图6、子数据流图7、子数据流图8、子数据流图9，根据各个子数据流图之间的数据交换优先级，对各个子数据流图进行分组，假设第一组子数据流图包括子数据流图1、子数据流图2、子数据流图3和子数据流图4，第二组子数据流图包括子数据流图5、子数据流图6、子数据流图7、子数据流图8和子数据流图9，第三组子数据流图包括子数据流图1和子数据流图5，第四组子数据流图包括子数据流图2和子数据流图6，且第一组子数据流图与第二组子数据流图的数据交换优先级较高，第三组子数据流图与第四组子数据流图的数据交换优先级较低。

处理模块210可以将第一组子数据流图中的子数据流图分配给计算模块1、计算模块2、计算模块3与计算模块4，将第二组子数据流图中的子数据流图分配给计算模块5、计算模块6、计算模块7与计算模块8，使得处理模块210可以将数据交换优先级较高的子数据流图(如第一组子数据流图，又如第二组子数据流图)，分配给两两之间带宽较高的计算模块，处理模块210可以将数据交换优先级低的子数据流图(如第三组子数据流图，又如第四组子数据流图)，分配给两两之间带宽较低的计算模块。

例如，处理模块210可以将子数据流图1、子数据流图2、子数据流图3和子数据流图4分别分配给计算模块1、计算模块2、计算模块3和计算模块4，处理模块210可以将子数据流图5、子数据流图6和子数据流图7分别分配给计算模块5、计算模块6和计算模块7，处理模块210可以将子数据流图8和子数据流图9分配给计算模块8。

通过方式#A，处理模块210可以根据M个子数据流图的数据优先级，与N个计算模块220之间的带宽的映射关系，将M个子数据流图分配给N个计算模块220，从而应用层无需进行计算任务的分配，便可以实现计算任务的自适应分配，提高了计算模块带宽资源的利用率，也提高了计算模块处理计算任务的效率，降低了深度学习的应用难度。

方式#B，当子数据流图的个数M大于计算模块的个数N时，处理模块210可以根据M个子数据流图的数据优先级，与N个计算模块220的算力之间的映射关系，将M个子数据流图分配给N个计算模块220。

示例性地，当子数据流图的个数M大于计算模块的个数N时，处理模块210可以将数据交换优先级较高的子数据流图，分配给算力较高的计算模块；处理模块210可以将数据交换优先级较低的子数据流图，分配给算力较低的计算模块。

如图3所示，假设有8个计算模块，分别记为计算模块1、计算模块2、计算模块3、计算模块4、计算模块5、计算模块6、计算模块7和计算模块8，假设计算模块1、计算模块2、计算模块3与计算模块4的算力较高，计算模块5、计算模块6、计算模块7与计算模块8的算力较低。

假设有9个子数据流图，分别记为子数据流图1、子数据流图2、子数据流图3、子数据流图4、子数据流图5、子数据流图6、子数据流图7、子数据流图8、子数据流图9，根据各个子数据流图之间的数据交换优先级，对各个子数据流图进行分组，假设第一组子数据流图包括子数据流图1、子数据流图2、子数据流图3和子数据流图4，第二组子数据流图包括子数据流图5、子数据流图6、子数据流图7、子数据流图8和子数据流图9，且第一组子数据流图的数据交换优先级较第二组子数据流图的数据交换优先级高。

处理模块210可以将第一组子数据流图中的子数据流图分配给计算模块1、计算模块2、计算模块3与计算模块4，将第二组子数据流图中的子数据流图分配给计算模块5、计算模块6、计算模块7与计算模块8，使得处理模块210可以将数据交换优先级较高的子数据流图(如第一组子数据流图)，分配给算力较高的计算模块，处理模块210可以将数据交换优先级较低的子数据流图(如第二组子数据流图)，分配给算力较低的计算模块。

通过方式#B，处理模块210可以根据M个子数据流图的数据优先级，与N个计算模块220的算力之间的映射关系，将M个子数据流图分配给N个计算模块220，从而应用层无需进行计算任务的分配，便可以实现计算任务的自适应分配，提高了计算模块算力资源的利用率，也提高了计算模块处理计算任务的效率，降低了深度学习的应用难度。

方式#C，当子数据流图的个数M大于计算模块的个数N时，处理模块210可以根据M个子数据流图的数据优先级，与N个计算模块220的存储容量之间的映射关系，将M个子数据流图分配给N个计算模块220。

示例性地，当子数据流图的个数M大于计算模块的个数N时，处理模块210可以将数据交换优先级较高的子数据流图，分配给存储容量较大的计算模块；处理模块210可以将数据交换优先级较低的子数据流图，分配给存储容量较小的计算模块。

如图3所示，假设有8个计算模块，分别记为计算模块1、计算模块2、计算模块3、计算模块4、计算模块5、计算模块6、计算模块7和计算模块8，假设计算模块1、计算模块2、计算模块3与计算模块4的存储容量较大，计算模块5、计算模块6、计算模块7与计算模块8的存储容量较小。

处理模块210可以将第一组子数据流图中的子数据流图分配给计算模块1、计算模块2、计算模块3与计算模块4，将第二组子数据流图中的子数据流图分配给计算模块5、计算模块6、计算模块7与计算模块8，使得处理模块210可以将数据交换优先级较高的子数据流图(如第一组子数据流图)，分配给存储容量较大的计算模块，处理模块210可以将数据交换优先级较低的子数据流图(如第二组子数据流图)，分配给存储容量较小的计算模块。

通过方式#C，处理模块210可以根据M个子数据流图的数据优先级，与N个计算模块220的存储容量之间的映射关系，将M个子数据流图分配给N个计算模块220，从而应用层无需进行计算任务的分配，便可以实现计算任务的自适应分配，提高了计算模块存储容量资源的利用率，也提高了计算模块处理计算任务的效率，降低了深度学习的应用难度。

方式#D，当子数据流图的个数M大于计算模块的个数N时，处理模块210可以根据M个子数据流图的数据量，与N个计算模块220的算力之间的映射关系，将M个子数据流图分配给N个计算模块220。

示例性地，当子数据流图的个数M大于计算模块的个数N时，处理模块210可以将数据量大的子数据流图，分配给算力高的计算模块；处理模块210可以将数据量小的子数据流图，分配给算力低的计算模块。

假设有9个子数据流图，分别记为子数据流图1、子数据流图2、子数据流图3、子数据流图4、子数据流图5、子数据流图6、子数据流图7、子数据流图8、子数据流图9，根据各个子数据流图的数据量，对各个子数据流图进行分组，假设第一组子数据流图包括子数据流图1、子数据流图2、子数据流图3和子数据流图4，第二组子数据流图包括子数据流图5、子数据流图6、子数据流图7、子数据流图8和子数据流图9，且第一组子数据流图的数据量较第二组子数据流图的数据量大。

处理模块210可以将第一组子数据流图中的子数据流图分配给计算模块1、计算模块2、计算模块3与计算模块4，将第二组子数据流图中的子数据流图分配给计算模块5、计算模块6、计算模块7与计算模块8，使得处理模块210可以将数据量大的子数据流图(如第一组子数据流图)，分配给算力较高的计算模块，处理模块210可以将数据量小的子数据流图(如第二组子数据流图)，分配给算力较低的计算模块。

通过方式#D，处理模块210可以根据M个子数据流图的数据量，与N个计算模块220的算力之间的映射关系，将M个子数据流图分配给N个计算模块220，从而应用层无需进行计算任务的分配，便可以实现计算任务的自适应分配，提高了计算模块算力资源的利用率，也提高了计算模块处理计算任务的效率，降低了深度学习的应用难度。

方式#E，当子数据流图的个数M大于计算模块的个数N时，处理模块210可以根据M个子数据流图的数据量，与N个计算模块220之间的带宽的映射关系，将M个子数据流图分配给N个计算模块220。

示例性地，当子数据流图的个数M大于计算模块的个数N时，处理模块210可以将数据量大的子数据流图，分配给两两之间带宽高的计算模块；处理模块210可以将数据量小的子数据流图，分配给两两之间带宽低的计算模块。

如图3所示，假设有8个计算模块，分别记为计算模块1、计算模块2、计算模块3、计算模块4、计算模块5、计算模块6、计算模块7和计算模块8，假设计算模块1、计算模块2、计算模块3与计算模块4两两之间的带宽较高，其余计算模块两两之间的带宽较低，例如，计算模块5、计算模块6、计算模块7、计算模块8两两之间的带宽较低。

假设有9个子数据流图，分别记为子数据流图1、子数据流图2、子数据流图3、子数据流图4、子数据流图5、子数据流图6、子数据流图7、子数据流图8、子数据流图9，根据各个子数据流图之间的数据量，对各个子数据流图进行分组，假设第一组子数据流图包括子数据流图1、子数据流图2、子数据流图3和子数据流图4，第二组子数据流图包括子数据流图5、子数据流图6、子数据流图7、子数据流图8和子数据流图9，且第一组子数据流图的数据量较第二组子数据流图的数据量大。

处理模块210可以将第一组子数据流图中的子数据流图分配给计算模块1、计算模块2、计算模块3与计算模块4，将第二组子数据流图中的子数据流图分配给计算模块5、计算模块6、计算模块7与计算模块8，使得处理模块210可以将数据量大的子数据流图(如第一组子数据流图)，分配给两两之间带宽较高的计算模块，处理模块210可以将数据量小的子数据流图(如第二组子数据流图)，分配给两两之间带宽较低的计算模块。

通过方式#E，处理模块210可以根据M个子数据流图的数据量，与N个计算模块220之间的带宽的映射关系，将M个子数据流图分配给N个计算模块220，从而应用层无需进行计算任务的分配，便可以实现计算任务的自适应分配，提高了计算模块带宽资源的利用率，也提高了计算模块处理计算任务的效率，降低了深度学习的应用难度。

方式#F，当子数据流图的个数M大于计算模块的个数N时，处理模块210可以根据M个子数据流图的数据量，与N个计算模块220的存储容量之间的映射关系，将M个子数据流图分配给N个计算模块220。

示例性地，当子数据流图的个数M大于计算模块的个数N时，处理模块210可以将数据量较大的子数据流图，分配给存储容量较大的计算模块；处理模块210可以将数据量较小的子数据流图，分配给存储容量较小的计算模块。

处理模块210可以将第一组子数据流图中的子数据流图分配给计算模块1、计算模块2、计算模块3与计算模块4，将第二组子数据流图中的子数据流图分配给计算模块5、计算模块6、计算模块7与计算模块8，使得处理模块210可以将数据量较大的子数据流图(如第一组子数据流图)，分配给存储容量较大的计算模块，处理模块210可以将数据量较小的子数据流图(如第二组子数据流图)，分配给存储容量较小的计算模块。

通过方式#F，处理模块210可以根据M个子数据流图的数据量，与N个计算模块220的存储容量之间的映射关系，将M个子数据流图分配给N个计算模块220，从而应用层无需进行计算任务的分配，便可以实现计算任务的自适应分配，提高了计算模块存储容量资源的利用率，也提高了计算模块处理计算任务的效率，降低了深度学习的应用难度。

应理解，当子数据流图的个数M小于或等于计算模块的个数N时，处理模块210，也可以根据M个子数据流图的参数和N个计算模块220的参数之间的映射关系，将M个子数据流图分配给N个计算模块220。在该场景下，处理模块将M个子数据流图分配给N个计算模块220的示例性说明，可以参考方式#A至方式#F中的描述，在此不再进行赘述。

还应理解，方式#A至方式#F给出了处理模块210可以根据M个子数据流图的一个参数和N个计算模块220的一个参数之间的映射关系，将M个子数据流图分配给N个计算模块220的场景，然而本申请实施例并不限于此。例如，处理模块210可以根据M个子数据流图的多个参数和N个计算模块220的一个参数之间的映射关系，将M个子数据流图分配给N个计算模块220；再例如，处理模块210可以根据M个子数据流图的一个参数和N个计算模块220的多个参数之间的映射关系，将M个子数据流图分配给N个计算模块220；再例如，处理模块210可以根据M个子数据流图的多个参数和N个计算模块220的多个参数之间的映射关系，将M个子数据流图分配给N个计算模块220。

关于处理模块210可以根据M个子数据流图的至少一个参数和N个计算模块220的至少一个参数之间的映射关系，将M个子数据流图分配给N个计算模块220的示例性说明，可以参考方式#A至方式#F，在此不再进行赘述。

N个计算模块220，用于对各自对应的子数据流图的数据进行计算。

应理解，处理模块210可以根据M个子数据流图的参数和N个计算模块220的参数之间的映射关系，将M个子数据流图分配给N个计算模块220，从而可以使得N个计算模块220可以获取到各自对应的子数据流图。例如，假设有3个子数据流图，分别记为子数据流图1、子数据流图2和子数据流图3，假设有3个计算模块，分别记为计算模块1、计算模块2和计算模块3，处理模块210可以根据3个子数据流图的参数和3个计算模块220的参数之间的映射关系，将子数据流图1分配给计算模块1，将子数据流图2分配给计算模块2，将子数据流图3分配给计算模块3，从而使得计算模块1可以获得对应的子数据流图1，计算模块2可以获得对应的子数据流图2，计算模块3可以获得对应的子数据流图3。

示例性地，N个计算模块220获取各自对应的子数据流图中的数据，可以包括：收发模块接收数据流图的数据，并将该数据流图的数据发送至处理模块210，处理模块210可以从数据流图的数据中获取M个子数据流图的数据，并将该M个子数据流图的数据分配给N个计算模块220，使得N个计算模块能够获取到各自对应的子数据流图中的数据。其中，收发模块可以是图1中的收发模块120，处理模块210将M个子数据流图的数据分配给N个计算模块220，可以是图1中处理模块130包括的第三模块执行的。

基于上述技术方案，处理模块可以根据M个子数据流图的参数和N个计算模块的参数之间的映射关系，将M个子数据流图分配给N个计算模块，从而应用层无需进行计算任务的分配，便可以实现计算任务的自适应分配，提高了计算模块资源的利用率，也提高了计算模块处理计算任务的效率，降低了深度学习的应用难度。

可选地，处理模块210，用于根据服务质量指标，将数据流图分为M个子数据流图。

其中，服务质量指标可以用于表征计算任务的服务质量。例如，当服务质量指标为时延时，该服务质量指标可以用于表征计算任务的处理时长；再例如，当服务质量指标为吞吐量时，该服务质量指标可以用于表征传输数据流图的数据时的平均速率。

一种可能的方式，当服务质量指标为时延时，N个计算模块各自对应的子数据流图的数据是由N个计算模块并发计算的。

图4示出了本申请实施例提供的一种数据流图的示意图。如图4所示，假设数据流图包括A、B、C、D四部分，当服务质量指标为时延时，处理模块210可以将A部分数据流图分为A1、A2、A3、A4这4个子数据流图，将B部分数据流图分为B1、B2、B3、B4这4个子数据流图，将C部分数据流图分为C1、C2、C3、C4这4个子数据流图，将D部分数据流图分为D1、D2、D3、D4这4个子数据流图。假设有4个计算模块，分别记为计算模块1、计算模块2、计算模块3、计算模块4，假设处理模块210根据A1、A2、A3、A4这4个子数据流图的参数和4个计算模块的参数之间的映射关系，处理模块210根据B1、B2、B3、B4这4个子数据流图的参数和4个计算模块的参数之间的映射关系，处理模块210根据C1、C2、C3、C4这4个子数据流图的参数和4个计算模块的参数之间的映射关系，以及处理模块210根据D1、D2、D3、D4这4个子数据流图的参数和4个计算模块的参数之间的映射关系，将上述多个子数据流图分配给4个计算模块，使得计算模块1对应的子数据流图为A1、B1、C1、D1，计算模块2对应的子数据流图为A2、B2、C2、D2，计算模块3对应的子数据流图为A3、B3、C3、D3，计算模块4对应的子数据流图为A4、B4、C4、D4，此时A部分数据流图包括的A1、A2、A3、A4这4个子数据流图的数据是由计算模块1、计算模块2、计算模块3、计算模块4并发计算的，B部分数据流图包括的B1、B2、B3、B4这4个子数据流图的数据是由计算模块1、计算模块2、计算模块3、计算模块4并发计算的，C部分数据流图包括的C1、C2、C3、C4这4个子数据流图的数据是由计算模块1、计算模块2、计算模块3、计算模块4并发计算的，D部分数据流图包括的D1、D2、D3、D4这4个子数据流图的数据是由计算模块1、计算模块2、计算模块3、计算模块4并发计算的。

关于处理模块210根据多个子数据流图(例如A1、A2、A3、A4这4个子数据流图)的参数和4 个计算模块的参数之间的映射关系，将多个子数据流图分配给4个计算模块的示例性说明，可以参考方式#A至方式#F中的描述，在此不再进行赘述。

另一种可能的方式，当服务质量指标为吞吐量时，N个计算模块各自对应的子数据流图的数据是由N个计算模块独立计算的。

图5示出了本申请实施例提供的又一种数据流图的示意图。如图5所示，假设数据流图包括A、B、C、D四部分，当服务质量指标为吞吐量时，处理模块210可以将数据流图分为A、B、C、D这4个子数据流图。假设有4个计算模块，分别记为计算模块1、计算模块2、计算模块3、计算模块4，假设处理模块210根据A、B、C、D这4个子数据流图的参数和4个计算模块的参数之间的映射关系，将A、B、C、D这4个子数据流图分配给4个计算模块，使得计算模块1对应的子数据流图为A，计算模块2对应的子数据流图为B，计算模块3对应的子数据流图为C，计算模块4对应的子数据流图为D，此时A、B、C、D这4个子数据流图的数据是由计算模块1、计算模块2、计算模块3、计算模块4独立计算的。

关于处理模块210根据多个子数据流图(例如A、B、C、D这4个子数据流图)的参数和4个计算模块的参数之间的映射关系，将多个子数据流图分配给4个计算模块的示例性说明，可以参考方式#A至方式#F中的描述，在此不再进行赘述。

基于上述技术方案，处理模块可以根据服务质量指标，将数据流图分为M个子数据流图，使得N个计算模块可以对各自对应的子数据流图的数据进行计算。例如，当服务质量指标为时延时，N个计算模块可以对各自对应的子数据流图的数据进行并发计算；再例如，当服务质量指标为吞吐量时，N个计算模块可以对各自对应的子数据流图的数据进行独立计算。通过该方式，可以提高计算模块资源的利用率，以及提高计算模块处理计算任务的效率，降低深度学习的应用难度。

可选地，N个计算模块220，还用于使用交换操作对各自对应的子数据流图的数据进行交换。

应理解，交换操作可以作为传输媒介，多个计算模块可以通过该传输媒介互相传输数据，从而完成多个计算模块的数据交换，进而使得该多个计算模块之间实现数据同步。

图6示出了本申请实施例提供的又一种数据流图的示意图。如图6所示，假设有4个计算模块，分别记为计算模块1、计算模块2、计算模块3、计算模块4，假设数据流图包括A、B、C、D四部分，A部分数据流图包括的A1、A2、A3、A4这4个子数据流图的数据是由计算模块1、计算模块2、计算模块3、计算模块4并发计算的，B部分数据流图包括的B1、B2、B3、B4这4个子数据流图的数据是由计算模块1、计算模块2、计算模块3、计算模块4并发计算的，C部分数据流图包括的C1、C2、C3、C4这4个子数据流图的数据是由计算模块1、计算模块2、计算模块3、计算模块4并发计算的，D部分数据流图包括的D1、D2、D3、D4这4个子数据流图的数据是由计算模块1、计算模块2、计算模块3、计算模块4并发计算的。当计算模块1、计算模块2、计算模块3、计算模块4分别完成B1、B2、B3、B4这4个子数据流图的数据的计算时，计算模块1、计算模块2、计算模块3、计算模块4可以使用交换操作E对B1、B2、B3、B4这4个子数据流图的数据进行交换；当计算模块1、计算模块2、计算模块3、计算模块4分别完成D1、D2、D3、D4这4个子数据流图的数据的计算时，计算模块1、计算模块2、计算模块3、计算模块4可以使用交换操作E对D1、D2、D3、D4这4个子数据流图的数据进行交换。例如，计算模块1和计算模块2可以使用交换操作E，对B1的数据和B2的数据进行交换，使得计算模块1包括B1的数据和B2的数据，计算模块2包括B1的数据和B2的数据。

图7示出了本申请实施例提供的又一种数据流图的示意图。如图7所示，假设有4个计算模块，分别记为计算模块1、计算模块2、计算模块3、计算模块4，假设数据流图包括A、B、C、D四部分，处理模块210可以将数据流图分为A、B、C、D这4个子数据流图，A、B、C、D这4个子数据流图的数据是由计算模块1、计算模块2、计算模块3、计算模块4独立计算的。当计算模块1、计算模块2、计算模块3、计算模块4分别完成A、B、C、D这4个子数据流图的数据的计算时，计算模块1、计算模块2、计算模块3、计算模块4可以使用交换操作E对A、B、C、D这4个子数据流图的数据进行交换。例如，计算模块1和计算模块2可以使用交换操作E，对A的数据和B的数据进行交换，使得计算模块1包括A的数据和B的数据，计算模块2包括A的数据和B的数据。

应理解，当服务质量指标为时延时，N个计算模块220也可以对各自对应的子数据流图的数据进行独立计算。例如，当N个计算模块220之间的带宽较低，且M个子数据流图的数据之间需要较多次交换操作时，N个计算模块220也可以对各自对应的子数据流图的数据进行独立计算。本申请实施例对服务质量指标为时延时，N个计算模块220对各自对应的子数据流图的数据进行独立计算还是并发计算不作限定。

还应理解，当服务质量指标为吞吐量时，N个计算模块220也可以对各自对应的子数据流图的数据进行并发计算。例如，当N个计算模块220之间的带宽较高，且M个子数据流图的数据之间需要较少次交换操作时，N个计算模块220也可以对各自对应的子数据流图的数据进行并发计算。本申请实施例对服务质量指标为吞吐量时，N个计算模块220对各自对应的子数据流图的数据进行独立计算还是并发计算不作限定。

可选地，N个计算模块包括至少两个设备，该至少两个设备通过互联装置组成至少一个设备组，该一个设备组的算力大于或等于一个设备的算力。

示例性地，假设N个计算模块包括三个设备，其中，两个设备为PG设备，一个设备为AG设备，将两个PG设备通过互联装置组成一个设备组，使得该一个设备组的算力大于或等于一个PG设备的算力，该一个设备组的算力也大于或等于一个AG设备的算力。

可以理解，本申请实施例中的图1至图7中的例子仅仅是为了便于本领域技术人员理解本申请实施例，并非要将本申请实施例限于例示的具体场景。本领域技术人员根据图1至图7的例子，显然可以进行各种等价的修改或变化，这样的修改或变化也落入本申请实施例的范围内。例如，本申请实施例中的“N个计算模块用于对各自对应的子数据流图的数据进行计算”均可替换为“N个计算模块用于计算隶属于各自的子数据流图的数据”。

下面结合图8对本申请实施例中的深度学习方法进行说明，图8所示的深度学习方法800可以由图1或图2所示的深度学习系统执行，具体描述可以参考前文中深度学习系统的相关描述，下面在介绍本申请实施例的深度学习方法时适当省略重复的描述。

图8所示的方法800包括步骤810和步骤820。下面对步骤810和步骤820进行说明。

810，将数据流图分为M个子数据流图，并根据M个子数据流图的参数和N个计算模块的参数之间的映射关系，将M个子数据流图分配给N个计算模块。

其中，M、N为正整数。

820，对各自对应的子数据流图的数据进行计算。

可选地，作为一种实施方式，M个子数据流图的参数包括以下至少一项：M个子数据流图的数据优先级，M个子数据流图的数据量。

可选地，作为一种实施方式，N个计算模块的参数包括以下至少一项：N个计算模块之间的带宽、N个计算模块的算力、N个计算模块的存储容量。

可选地，作为一种实施方式，将数据流图分为M个子数据流图，包括：根据服务质量指标，将数据流图分为M个子数据流图。

可选地，作为一种实施方式，当服务质量指标为时延时，各自对应的子数据流图的数据是由N个计算模块并发计算的。

可选地，作为一种实施方式，当服务质量指标为吞吐量时，各自对应的子数据流图的数据是由N个计算模块独立计算的。

可选地，作为一种实施方式，方法还包括：使用交换操作对N个计算模块各自对应的子数据流图的数据进行交换。

图9是本申请实施例提供的深度学习系统的硬件结构示意图。图9所示的深度学习系统900(该深度学习系统900具体可以是一种计算机设备)包括存储器910、处理器920、通信接口930以及总线940。其中，存储器910、处理器920、通信接口930通过总线940实现彼此之间的通信连接。

存储器910可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器910可以存储程序，当存储器910中存储的程序被处理器920执行时，处理器920用于执行本申请实施例的深度学习方法的各个步骤。具体地，处理器920可以执行上文中的方法800。

处理器920可以包括图1或图2的处理模块和计算模块。

处理器920可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请方法实施例的深度学习方法。

处理器920还可以是一种集成电路芯片，具有信号的处理能力。

上述处理器920还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器910，处理器920读取存储器910中的信息，结合其硬件完成图3至图7中任一项所示的装置中包括的模块所需执行的功能，或者，执行本申请方法实施例的深度学习方法。

通信接口930使用例如但不限于收发器一类的收发装置，来实现装置900与其他设备或通信网络之间的通信。例如，可以通过通信接口930获取数据流图。

总线940可包括在装置900各个部件(例如，存储器910、处理器920、通信接口930)之间传送信息的通路。

应注意，尽管上述装置900仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置900还可以包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置900还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置900也可仅仅包括实现本申请实施例所必须的器件，而不必包括图9中所示的全部器件。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行本申请实施例中的深度学习方法。

本申请实施例还提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行本申请实施例中的深度学习方法。

本申请实施例还提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行本申请实施例中的深度学习方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行本申请实施例中的深度学习方法。

本申请实施例还提供一种片上系统SoC，SoC包括本申请实施例中的深度学习系统。

应理解，本申请实施例中的处理器可以为中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，RAM)可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

可以理解，在本申请的各实施例中涉及到的名称，如模块名称，应理解，其命名不对本申请实施例的保护范围造成限定。

还可以理解，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

还可以理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种深度学习系统，其特征在于，包括：处理模块和N个计算模块，

所述处理模块，用于将数据流图分为M个子数据流图，并根据所述M个子数据流图的参数和所述N个计算模块的参数之间的映射关系，将所述M个子数据流图分配给所述N个计算模块，其中，M、N为正整数；

所述N个计算模块，用于对各自对应的子数据流图的数据进行计算。
根据权利要求1所述的系统，其特征在于，所述M个子数据流图的参数包括以下至少一项：所述M个子数据流图的数据优先级，所述M个子数据流图的数据量。
根据权利要求1或2所述的系统，其特征在于，所述N个计算模块的参数包括以下至少一项：

所述N个计算模块之间的带宽、所述N个计算模块的算力、所述N个计算模块的存储容量。
根据权利要求1至3中任一项所述的系统，其特征在于，

所述处理模块，用于根据服务质量指标，将所述数据流图分为所述M个子数据流图。
根据权利要求4所述的系统，其特征在于，

当所述服务质量指标为时延时，所述N个计算模块各自对应的子数据流图的数据是由所述N个计算模块并发计算的。
根据权利要求4所述的系统，其特征在于，

当所述服务质量指标为吞吐量时，所述N个计算模块各自对应的子数据流图的数据是由所述N个计算模块独立计算的。
根据权利要求1至6中任一项所述的系统，其特征在于，

所述N个计算模块，还用于使用交换操作对各自对应的子数据流图的数据进行交换。
一种深度学习方法，其特征在于，包括：

将数据流图分为M个子数据流图，并根据所述M个子数据流图的参数和N个计算模块的参数之间的映射关系，将所述M个子数据流图分配给所述N个计算模块，其中，M、N为正整数；

对各自对应的子数据流图的数据进行计算。
根据权利要求8所述的方法，其特征在于，所述M个子数据流图的参数包括以下至少一项：所述M个子数据流图的数据优先级，所述M个子数据流图的数据量。
根据权利要求8或9所述的方法，其特征在于，所述N个计算模块的参数包括以下至少一项：

所述N个计算模块之间的带宽、所述N个计算模块的算力、所述N个计算模块的存储容量。
根据权利要求8至10中任一项所述的方法，其特征在于，所述将数据流图分为M个子数据流图，包括：

根据服务质量指标，将所述数据流图分为所述M个子数据流图。
根据权利要求11所述的方法，其特征在于，

当所述服务质量指标为时延时，所述各自对应的子数据流图的数据是由所述N个计算模块并发计算的。
根据权利要求11所述的方法，其特征在于，

当所述服务质量指标为吞吐量时，所述各自对应的子数据流图的数据是由所述N个计算模块独立计算的。
根据权利要求8至13中任一项所述的方法，其特征在于，所述方法还包括：

使用交换操作对所述N个计算模块各自对应的子数据流图的数据进行交换。
一种芯片，其特征在于，所述芯片包括处理器与数据接口，所述处理器通过数据接口读取存储器上存储的指令以执行如权利要求8至14中任一项所述的方法。
一种片上系统SoC，其特征在于，包括如权利要求1至7中任一项所述的深度学习系统。