WO2020042182A1

WO2020042182A1 - 数据处理系统和数据处理方法

Info

Publication number: WO2020042182A1
Application number: PCT/CN2018/103669
Authority: WO
Inventors: 戴明扬; 林嘉树; 程传宁
Original assignee: 华为技术有限公司
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2020-03-05
Also published as: CN111886593A; EP3819788A4; EP3819788A1; US20210166156A1

Abstract

一种数据处理系统（600）和一种数据处理方法。该数据处理系统（600）包括第一计算节点，第一计算节点包括AI处理器（610）和聚合运算器（620），AI处理器（610）用于：执行AI运算生成第一计算节点的第一数据；聚合运算器（620）用于：对来自第二计算节点的第二数据和第一数据执行聚合运算生成聚合运算结果。由于上述AI处理器（610）和聚合运算器（620）能够并行运行，能够减少聚合运算中对第一计算节点的内存模块的读写次数，减少调度次数，避免聚合运算对AI处理器（610）的缓存的影响，使得聚合运算和AI运算能够并行进行，从而提高了深度神经网络的训练效率。

Description

数据处理系统和数据处理方法

技术领域

本申请涉及人工智能计算领域，尤其涉及一种数据处理系统和数据处理方法。

背景技术

人工智能(artificial intelligence，AI)是通过计算机模拟人的智能的方法，其在语音识别、图像处理以及复杂游戏等领域有广阔的应用前景。使用深度神经网络从海量原始数据中提取特征并进行学习是AI能够在上述领域得到广泛应用的一个重要原因，随着深度神经网络的性能的提升，网络的深度、网络参数数量、计算算法强度、训练数据集都在增加，计算复杂度也大大增加，随之而来的结果就是训练耗时大幅度增加。

例如，以ResNet-50网络为例，基于ImageNet训练数据集进行训练，采用常用的8块K80组成的高性能服务器，需要44小时才能完成90代的训练。对于一些新的深度神经网络，往往需要尝试多组超参数(hyper parameters)，对深度神经网络反复进行调整和优化才能得到理想的结果，采用现有的深度神经网络训练方法需要花费更多的时间，这对AI的应用带来了不利影响。

在对深度神经网络进行训练的过程中，需要对多个数据执行聚合运算，例如，对两个AI计算节点生成的数据执行加法运算。在执行聚合运算时，一个AI计算节点(例如，AI计算节点1)需要从另一个AI计算节点(例如，AI计算节点0)中读取数据0，并将数据0写入AI计算节点1的缓冲区中，随后，AI计算节点1从自身的内存中读取数据1，将数据1发送至AI处理器，并将数据0从缓冲区发送到AI处理器中，待数据0和数据1的完成聚合运算之后，再将聚合运算结果写入AI计算节点1的内存中。此外，AI计算和聚合运算是在同一个处理器上分时执行，运算效率较低。如何提高聚合运算效率就成为一个问题。

发明内容

本申请提供了一种数据处理系统和一种数据处理方法，能够提高聚合运算效率。

第一方面，提供了一种数据处理系统，该系统包括第一计算节点，第一计算节点包括AI处理器和聚合运算器，AI处理器用于：执行AI运算生成第一计算节点的第一数据；聚合运算器用于：对来自第二计算节点的第二数据和第一数据执行聚合运算生成聚合运算结果。

由于上述AI处理器和聚合运算器能够并行运行，因此，本申请提供的数据处理系统能够提高聚合运算效率。

可选地，上述聚合运算器包括：聚合运算引擎，用于对第一数据和第二数据执行聚合运算生成聚合运算结果。

可选地，聚合运算器还包括内存访问引擎，用于：从第二计算节点的第二内存模块获取第二数据；从第一计算节点的第一内存模块获取第一数据；将第一数据和第二数据发送至聚合运算引擎；将聚合运算结果写入第一内存模块。本方案具有以下有益效果：减少聚合运算中对第一计算节点的内存模块的读写次数，减少调度次数，避免聚合运算对AI处理器的缓存的影响，使得聚合运算和AI运算能够并行进行。从而提高了深度神经网络的训练效率。有益效果与技术特征的关联关系可参见具体实施方式中的描述。

可选地，内存访问引擎具体用于：接收聚合运算指令；根据该聚合运算指令执行：从第一内存模块获取第一数据，从第二内存模块获取第二数据；将第一数据和第二数据发送至聚合运算引擎。该方案的内存访问引擎可接受软件层面的指令控制。此外，上述方案能够避免无需进行聚合运算的数据被送入聚合运算引擎，提高了数据搬移的效率。

可选地，内存访问引擎还用于：生成原子命令，该原子命令包括读命令或写命令中的至少一个，读命令用于命令内存控制器从第一内存模块读取第一数据并发送至聚合运算引擎，写命令用于命令内存控制器将聚合运算结果写入第一内存模块；向第二内存模块的内存控制器发送该原子命令。

原子命令对应的操作为原子操作，原子操作指的是不会被线程调度机制打断的操作，这种操作一旦开始，就一直运行到结束，运行过程中不会被其它线程的操作打断，这样，即使在聚合运算过程中，写操作和读操作与其它内存更新操作发生冲突，上述可选的实施例也能够保证聚合运算结果不会被破坏。此外，在上述可选的实施例中，写操作和读操作的命令不需要在总线上传递，从而能够减少聚合运算对总线资源的占用。

可选地，内存访问引擎为直接存储器访问(DMA)引擎或者远程直接存储器访问(RDMA)引擎。

可选地，聚合运算器还包括：转换器，用于对聚合运算结果执行数据格式转换处理。由于数据类型转换处理无需在AI处理器中执行，因此，上述方案能够使得AI处理器专注于AI计算，提高深度神经网络的训练效率。

可选地，第一计算节点还包括第一内存模块，第一内存模块用于存储第一数据。

可选地，上述数据处理系统还包括第二计算节点。

可选地，第一计算节点和第二计算节点位于不同的装置中。

可选地，聚合运算器包括至少两个运算通道，该至少两个运算通道用于并行执行聚合运算。因此，每个通道处理一条完整的聚合运算流水线，多条聚合运算流水线并发运行，从而提高了整个深度神经网络的训练性能。

第二方面，本申请还提供了一种数据处理方法，包括：利用数据处理系统中的第一计算节点中的AI处理器执行AI运算生成第一计算节点的第一数据；利用第一计算节点中的聚合运算器对所述第一数据和来自上述数据处理系统中的第二计算节点的第二数据执行聚合运算生成聚合运算结果。

可选地，上述方法还包括：利用聚合运算器中的内存访问引擎从第二计算节点中的第二内存模块获取第二数据。

可选地，上述方法还包括：利用聚合运算器中的转换器对聚合运算结果执行数据格式转换处理。由于数据类型转换处理无需在AI处理器中执行，因此，上述方案能够使得AI处理器专注于AI计算，提高深度神经网络的训练效率。

可选地，利用第一计算节点中的聚合运算器对所述第一数据和来自上述数据处理系统中的第二计算节点的第二数据执行聚合运算生成聚合运算结果，包括：利用聚合运算器中的至少两个运算通道对第一数据和第二数据执行多通道并行聚合运算。由于聚合运算器能够同时处理至少两个环产生的数据，上述方案能够提高深度神经网络的训练效率。

上述方法具有以下有益效果：减少聚合运算中对第一计算节点的内存模块的读写次数，减少调度次数，避免聚合运算对AI处理器的缓存的影响，使得聚合运算和AI运算能够并行进行。从而提高了深度神经网络的训练效率。有益效果与技术特征的关联关系可参见具体实施方式中的描述。

第三方面，本身还提供了一种计算机可读存储介质，该计算机可读存储介质中存储了计算机程序代码，该计算机程序代码被处理单元或处理器执行时，能够实现第二方面所述的方法。

第四方面，本申请提供了一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码被处理单元或处理器运行时，实现第二方面所述的方法。此外，该计算机程序产品可以安装在第一方面所述的数据处理系统中，使得该数据处理系统实现第一方面所述的功能。

附图说明

图1是适用于本申请的一种环的示意图；

图2是环的各个计算节点执行环形聚合算法的初始状态的示意图；

图3是环形聚合算法的一个步骤的示意图；

图4是环形聚合算法的另一个步骤的示意图；

图5是环的各个计算节点执行环形聚合算法的结束状态的示意图；

图6是本申请提供的一种数据处理系统的示意图；

图7是本申请提供的另一种数据处理系统的示意图；

图8是本申请提供的聚合运算引擎进行聚合运算的示意图；

图9是本申请提供的内存访问引擎进行数据搬移操作的示意图；

图10是本申请提供的内存访问引擎进行数据搬移操作的另一示意图；

图11是本申请提供的转换器进行数据格式转换操作的示意图；

图12是本申请提供的另再一种数据处理系统的示意图；

图13是本申请提供的一种数据处理方法的示意图。

具体实施方式

为了提高深度神经网络的训练效率，一种方法是使用并行分布式训练算法进行训练，并行分布式训练算法的流程如下所示：

1、集群中每个计算节点独立完成各自小批量(mini-batch)训练数据的计算，获得梯度；

2、集群中所有的计算节点需要将计算获得的梯度进行聚合，形成聚合后的梯度；

3、将聚合后的梯度分发到集群中每个计算节点；

4、每个计算节点基于聚合后的梯度，再结合学习速率等超参数，计算出新的参数值；

5、所有的计算节点只有在获取到新的参数之后，才能启动下一轮的迭代计算。

从上述训练算法可以看出，节点间梯度聚合不但在关键路径上，而且非常频繁。因此，在并行分布式训练方案中，计算节点间的梯度聚合是影响训练效率的关键。

为了高效地进行梯度聚合，目前学术界、工业界常用的是环形聚合(Ring All Reduce)算法，其中，环的逻辑结构如图1所示。

图1中，环包括5个AI计算节点，每个AI计算节点例如是一个AI芯片。每个AI计算节点均具有一个前序节点和一个后序节点，每个AI计算节点在环中的位置由环的创建者(例如，用户软件)确定。例如，AI计算节点0的前序节点是AI计算节点4，AI计算节点0的后序节点是AI计算节点1。每个AI计算节点均能够从该AI计算节点的前序节点接收数据，还能够将自身的数据发送至该AI计算节点的后序节点。多个计算节点位于一个系统内。该系统是一个设备或多个设备形成的集群。每个计算节点可以是一个装置或设备，或者多个计算节点位于一个装置或设备中。所述装置或设备可以是各类电子设备，包括但不限于服务器、大型机、小型机、便携机或终端。每个节点可以是装置或设备中的一个计算元件，例如芯片、芯片组或承载了芯片或芯片组的电路板。

以图1所示的环为例，在环形聚合算法的准备阶段，环的创建者(例如，用户软件)向各个AI计算节点发送控制信息，对数据进行切片处理，每个AI计算节点计算出的梯度数据被均等地划分成5块。例如，图1所示的5个AI计算节点计算得到的梯度数据分别为a、b、c、d和e，每个AI计算节点都拥有自己计算所得的完整数据，该5个AI计算节点的初始状态如图2所示。

随后，5个AI计算节点进入散列聚合(scatter reduce)阶段，每个AI计算节点将自己的一块数据发送给其后序节点，并将从前序节点接收到的数据和自己存储的数据进行聚合处理。

图3示出了散列聚合阶段的一个步骤。在该步骤中，AI计算节点0将数据块a0发送到AI计算节点1，AI计算节点1收到数据块a0后，对a0和自己存储的数据块a1进行聚合运算。与此同时，AI计算节点1将数据块b1发送到AI计算节点2，AI计算节点2收到数据块b1后，对b1和自己存储的数据块b2进行聚合运算。其它的AI计算节点的操作与此类似。

图4示出了散列聚合阶段的另一个步骤。在该步骤中，以AI计算节点0为例，AI计算节点0从前序节点(AI计算节点4)接收数据b4+b3+b2+b1，并将该数据与自身存储的数据b0进行聚合运算，得到的聚合运算结果为b0+b1+b2+b3+b4。AI计算节点0在接收数据b4+b3+b2+b1的同时将自身存储的数据c0+c4+c3+c2发送至后序节点(AI计算节点1)，以便于后序节点进行梯度聚合运算。

散列聚合阶段完成后，环形聚合算法进行到下一步，即，全收集(all gather)阶段。在全收集阶段，图1所示的环通过4次传递，将各个AI计算节点得到的最终结果发送至其它AI计算节点，例如，AI计算节点0对数据b进行聚合运算得到的最终结果为b0+b1+b2+b3+b4，则AI计算节0将该结果传递给AI计算节点1，AI计算节点1将该结果传递给AI计算节点2，依次类推，经过4次传递，每个AI计算节点均得到了数据b的聚合运算的最终结果。类似地，对于其它4个数据(a、c、d和e)，经过4次传递后，每个AI计算节点也都获得到了各个数据的聚合运算的最终结果，如图5所示。

图6示出了本申请提供的一种数据处理系统，能够减小聚合操作中的内存读写次数，从而提高深度神经网络的训练效率。

如图6所示，数据处理系统600包括第一计算节点，第一计算节点包括AI处理器610和聚合运算器620，其中，

AI处理器610用于：执行AI运算生成第一计算节点的第一数据。

聚合运算器620用于：对来自第二计算节点的第二数据和所述第一数据执行聚合运算生成聚合运算结果。

AI处理器610例如是神经网络处理器，例如矩阵运算阵列。

聚合运算器620例如是加法运算器、乘法运算器、最大值运算器或最小值运算器，还可以是其它类型的用于执行聚合运算的器件或逻辑电路。

AI处理器610是一种专用于人工智能计算的单元，也叫神经网络处理器(neural-network process unit，NPU)，例如可以是卷积神经网络(CNN)计算器或循环神经网络(RNN)计算器或其他类似功能的神经处理单元。

聚合运算器620可以是通用处理器、数字信号处理器(digital signal processor，DSP)，也可以是硬件加速器，例如可以是专用集成电路(application-specific integrated circuit，ASIC)，现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

在本申请中，聚合运算指的是对至少两个数据按照预设规则执行的运算，可以是加法运算、减法运算、乘法运算、除法运算、取最大值运算和取最小值运算中的一种运算或多种运算，还可以是其它种类的运算。

例如：聚合运算器620可以对第一数据和第二数据执行加法运算，得到的结果即为该两个数据的和。或者，聚合运算器620可以对第一数据和第二数据执行取最大值运算，得到的结果即为该两个数据中数值较大的一个数据。或者，聚合运算器620可以对第一数据和第二数据先执行减法运算，再将该减法运算的结果乘以第一数据或者第二数据。

AI处理器610和聚合运算器620可以是物理上分离的两个器件，例如，分别位于两个主板上。AI处理器610和聚合运算器620可以是物理上不可分割的两个器件，例如，该两个器件位于一个系统级芯片(system on chip，SOC)上。

上述对AI处理器610和聚合运算器620的描述仅是举例说明，而不应被理解为对本申请提供的数据处理系统的限制。

第一数据例如是图4所示的AI计算节点1的内存模块中的数据c1，第二数据例如是图4中的AI计算节点0的内存模块中存储的数据c0+c4+c3+c2，AI处理器610例如是图3中的AI计算节点1中的处理器。当数据处理系统600的控制器，例如中央处理单元(CPU)需要调度c0+c4+c3+c2和c1完成聚合运算时，聚合运算器620可以将c0+c4+c3+c2从AI计算节点0的内存模块中读取出来，并将c1从AI计算节点1的内存模块中读取出来，随后对c0+c4+c3+c2和c1执行聚合运算(例如，加法运算)，得到聚合运算结果c0+c1+c2+c3+c4。聚合运算器620将该聚合运算结果写入AI计算节点1的内存模块中，从而完成了一次深度神经网络的梯度聚合运算。

在上述示例中，AI计算节点1仅经历了一次读操作和一次写操作，相对于背景技术中的聚合运算方法，上述示例所提供的聚合运算方法减小了聚合运算对AI计算节点1的内存带宽资源的消耗，节省的内存带宽资源可以用于其它AI计算，从而提高了深度神经网络的训练效率。

其次，聚合运算器620具有读取AI计算节点0的内存模块和AI计算节点1的内存模块中的数据的能力，数据处理系统600仅需一次调度(即，内联聚合(inline reduce))即可完成一次聚合运算，相对于现有技术中的聚合运算装置减少了一次复制(copy)调度所需的时间，同样提高了深度神经网络的训练效率。

再次，AI计算(例如，深度神经网络训练)使用的是单指令流多数据流(single instruction multiple thread，SIMT)算法架构，即，处理器在一个时刻只能基于一个指令处理一个数据流或者多个数据流，而AI计算和聚合运算对应两个不同的指令流序列，这使得现有技术中的AI计算和聚合运算需要串行执行。在本申请提供的数据处理系统600中，AI计算和聚合运算分别在不同的模块中进行，因此，数据处理系统600能够并行处理AI计算任务和聚合运算任务，提高了深度神经网络的训练效率。

再次，在现有技术中，AI计算和聚合运算在同一个处理器中进行，处理器在进行AI计算时，需要从内存中读取AI计算相关的数据并将该数据写入缓存(cache)中。处理器在进行聚合运算时，需要从内存中读取聚合运算相关的数据并将该数据写入缓存中。若处理器串行执行AI计算和聚合运算，则缓存中存储的聚合运算相关的数据会对AI计算相关的数据造成污染，使得处理器在执行完聚合运算后，需要重新从内存中读取AI计算相关的数据，并写入缓存中，影响了AI计算的缓存命中率，导致缓存系统的压力增大，这对AI计算的效率造成了负面影响。

在数据处理系统600中，由于聚合运算不在AI处理器610中执行，因此，与聚合运算相关的数据不会进入AI处理器610中，避免对缓存中的AI计算相关的数据造成污染，即，不会影响AI计算的缓存命中率，减小了缓存系统的压力，从而提高了深度神经网络的训练效率。

应理解，上述示例仅是以深度神经网络为例对本申请提供的数据处理系统进行说明，本申请所提供的数据处理系统不仅适用于深度神经网络，还适用于其它多个计算节点间需要进行数据聚合运算的场景，例如，超级计算机领域。

在数据处理系统600中，聚合运算器620可以包括聚合运算引擎(reduce engine)621，如图7所示，聚合运算引擎621用于对第一数据和第二数据执行聚合运算生成聚合运算结果。图7中的CPU用于对调度第一计算节点和第二计算节点执行任务，例如，执行AI计算任务或者执行聚合运算任务。其中，CPU仅是举例说明，数据处理系统600还可以包括其它类型的控制器或者调度器。

图8示出了本申请提供的一种聚合运算引擎621进行聚合运算的示意性流程图。聚合运算引擎621可以接收下文所述的内存访问引擎622输入的数据，还可以接收行列1输入的数据，并对接收的数据执行聚合运算，随后将聚合运算结果写入到HBM中。

聚合运算引擎621支持的聚合运算类型例如是上文所述的加法运算、减法运算、乘法运算、除法运算、取最大值运算和取最小值运算中的一种运算或多种运算。

聚合运算器620还可以包括内存访问引擎622，内存访问引擎622用于执行：

从第一内存模块获取第一数据；

从第二内存模块获取第二数据；

将第一数据和第二数据发送至聚合运算引擎610；

将聚合运算结果写入第一内存模块。

第一内存模块例如是第一计算节点的高带宽显存(high bandwidth memory，HBM)，第二内存模块例如是第二计算节点的HBM。在第一计算节点的HBM中存储有一个或多个数据块(chunk)，该一个或多个数据块构成行列(rank)1。类似地，在第二计算节点的HBM中存储有一个或多个数据块(chunk)，该一个或多个数据块构成行列(rank)0。

如图7所示，内存访问引擎622从行列0中读取数据块#0(即，第二数据，例如是c0+c4+c3+c2)，从行列1中读取数据块#0(即，第一数据，例如是c1)，并将该两个数据块#0发送至聚合运算引擎621，待聚合运算引擎621完成聚合运算后，将聚合运算的结果写入行列1。

内存访问引擎622搬运数据是一种完全由硬件完成数据搬移的工作方式，不需要中央处理器(central processing unit，CPU)参与，该方法通过一套独立于CPU的机制将数据在主内存(main memory)与缓冲(buffer)之间、主内存与主内存之间或主内存与外设之间进行搬移。例如，内存访问引擎622通过描述符接受来自软件的搬移任务，控制硬件(例如，芯片电路)完成搬移操作，再通过描述符或中断方式将搬移完成状态通知软件。由于上述方案不需要CPU参数，因此，上述方案释放了CPU的处理能力，实现高带宽低延迟的数据搬移。

此外，内存访问引擎622中还具有单数据流处理逻辑。即，内存访问引擎622根据指令类型判断是否需要对当前的数据流执行聚合运算。该指令来自于软件，例如CPU运行的软件可以生成所述指令。

如图9所示，内存访问引擎622接收到一个聚合运算指令，在该聚合运算指令用于指示对第一数据和第二数据执行聚合运算，内存访问引擎622将第一数据送入聚合运算引擎621。在内存访问引擎622未接收到该聚合运算指令的情况下，或者，在内存访问引擎622接收到搬移指令的情况下，内存访问引擎622将第一数据送入第一计算节点的HBM。

上述方案能够避免无需进行聚合运算的数据被送入聚合运算引擎621，提高了数据搬移的效率。

作为一个可选的实施例，内存访问引擎622还用于：

生成原子(atomic)命令，所述原子命令包括读命令或写命令中的至少一个，所述读命令用于命令内存控制器从第一内存模块读取第一数据并发送至聚合运算引擎，写命令用于命令内存控制器将聚合运算结果写入第一内存模块。

向第一内存模块的内存控制器发送上述原子命令。

图10示出了内存访问引擎622搬移数据的示意性流程图。

当内存访问引擎622需要读取第一数据时，内存访问引擎622生成原子命令，该原子命令包括用于指示第一数据的源地址(即，第一数据在行列1中存储的地址)和目的地址(即，聚合运算引擎621的地址)的2个操作数，该原子命令还包括读命令和写命令，行列1对应的内存控制器接收到该原子命令后，将第一数据从行列1中发送至聚合运算引擎621，从而完成了内存读操作。

当内存访问引擎622需要将聚合运算结果写入行列1时，行列1的内存控制器基于接收到上述原子命令将聚合运算结果从聚合运算引擎621中发送至行列1，从而完成了内存写操作。例如，上述操作数还可以是立即数，本实施例对此不作展开。

原子命令对应的操作为原子操作(例如，图10所示的写操作和读操作)，原子操作指的是不会被线程调度机制打断的操作，这种操作一旦开始，就一直运行到结束，运行过程中不会被其它线程的操作打断，这样，即使在聚合运算过程中，写操作和读操作与其它内存更新操作发生冲突，上述可选的实施例也能够保证聚合运算结果不会被破坏。

此外，在上述可选的实施例中，写操作和读操作的命令不需要在总线上传递，从而能够减少聚合运算对总线资源的占用。

作为另一个可选的实施例，聚合运算器620还包括：

转换器(convertor)623，用于对聚合运算结果执行数据格式(也可称为“数据类型”)转换处理。

聚合运算引擎621生成的聚合运算结果的数据类型可以是下列数据类型中的一种或多种：32位浮点数(float32)、16位浮点数(float16)、取整(int)、无符号整数(uint)、关键字(char)、64位浮点数(float64)、int64、uint64。若聚合运算结果的数据类型不是HBM需要的类型，则转换器623可以将聚合运算结果转换为HBM所需要的数据类型，随后，转换器623将数据类型转换完成后的聚合运算结果发送至HBM。

图11示出了本申请提供的一种数据转换的示意性流程图。

聚合运算引擎621生成的聚合运算结果的数据类型为float32，HBM支持的数据类型为float16，则转换器可以将float32的聚合运算结果转换为float16的聚合运算结果。

上述实施例仅是举例说明，本申请提供的聚合运算引擎621可以支持更多种数据类型的转换。

由于数据类型转换处理无需在AI处理器中执行，因此，上述方案能够使得AI处理器专注于AI计算，提高深度神经网络的训练效率。

在深度神经网络的训练过程中，通常会有多个环并行运行。本申请还提供的聚合运算器620可以支持至少两个运算通道，该至少两个运算通道用于并行执行聚合运算处理。

如图12所示，当前深度神经网络有3个环，每个环产生的数据形成一条聚合运算流水线(reduce pipeline)。聚合运算器620包括3个通道，各个通道之间相互独立，每个通道处理一条完整的聚合运算流水线，多条聚合运算流水线并发运行，从而提高了整个深度神经网络的训练性能。

可选地，数据处理系统600还包括第一内存模块和第二内存模块，即，第一内存模块和第二内存模块与聚合运算器620和AI处理器610作为一个整体执行数据处理任务，例如，用户可以购买包含第一内存模块和第二内存模块的数据处理系统600完成深度神经网络训练，而无需再单独购买第一内存模块和第二内存模块，或者，无需从其它供应商处租借第一内存模块和第二内存模块。第一内存模块和第二内存模块例如是上文所述的HBM，也可以是其它类型的内存，本申请对第一内存模块和第二内存模块的具体产品形态不作限定。

可以理解的是，数据处理系统600还可以是包括更多的内存模块和/或其它器件。

需要说明的是，数据处理系统600还包括第一内存模块和第二内存模块，并不意味着第一内存模块和第二内存模块一定在同一个物理实体(例如，服务器)中。

例如，第一内存模块与第二内存模块位于同一个服务器中，在该情况中，内存访问引擎622可以为直接存储器访问(direct memory access，DMA)引擎。

又例如，第一内存模块与第二内存模块位于同一个服务器中，在该情况中，内存访问引擎622可以为远程直接存储器访问(remote direct memory access，RDMA)引擎。

本申请还提供了一种数据处理方法，可以由数据处理系统600执行。如图13所示，该方法1300包括：

S1310，利用数据处理系统中的第一计算节点中的AI处理器执行AI运算生成第一计算节点的第一数据。

S1320，利用第一计算节点中的聚合运算器对所述第一数据和来自上述数据处理系统中的第二计算节点的第二数据执行聚合运算生成聚合运算结果。

本领域技术人员可以了解，方法1300中，各个步骤的具体实施方式可参照数据处理系统600中的聚合运算器620处理数据的过程，为了简洁，在此不再赘述。

因此，方法1300具有以下有益效果：减少聚合运算中对第一计算节点的内存模块的读写次数，减少调度次数，避免聚合运算对AI处理器的缓存的影响，使得聚合运算和AI运算能够并行进行。从而提高了深度神经网络的训练效率。

可选地，方法1300还包括：利用聚合运算器中的内存访问引擎从第二计算节点中的第二内存模块获取第二数据。

可选地，方法1300还包括：利用聚合运算器中的转换器对聚合运算结果执行数据格式转换处理。

可选地，S1320包括：利用所述聚合运算器中的至少两个运算通道对第一数据和第二数据执行多通道并行聚合运算。

由于聚合运算器能够同时处理至少两个环产生的数据，上述方案能够提高深度神经网络的训练效率。

在本申请各个实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施过程构成任何限定。

可以理解，AI处理器和聚合运算器中的至少一个可以是包括大量逻辑电路或电路元件的处理器，其可以通过逻辑算法执行相应功能。或者，AI处理器和聚合运算器中的至少一个可以运行软件，并通过运行软件完成上述的计算。可以理解，软件(或软件指令)可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read only memory，ROM)、可擦除可编程只读存储器(erasable programmable ROM，EPROM)、电可擦可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。作为一个可选的示例，存储介质耦合至以上提到的AI处理器和聚合运算器中任一个，从而使其能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。因此，本实施例的方法流程可以理解为是以软件驱动硬件完成，当软件被处理器执行，例如被AI处理器和聚合运算器执行，可以驱动AI处理器和聚合运算器工作，以执行图13所示的方法流程，本实施例对此不作限定。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种数据处理系统，其特征在于，包括第一计算节点，所述第一计算节点包括人工智能AI处理器和聚合运算器，

所述AI处理器用于：执行AI运算生成第一计算节点的第一数据；

所述聚合运算器用于：对来自第二计算节点的第二数据和所述第一数据执行聚合运算生成聚合运算结果。
根据权利要求1所述的数据处理系统，其特征在于，所述聚合运算器包括：

聚合运算引擎，用于：对所述第一数据和所述第二数据执行聚合运算生成所述聚合运算结果。
根据权利要求2所述的数据处理系统，其特征在于，所述聚合运算器还包括：

内存访问引擎，用于：从所述第二计算节点的第二内存模块获取所述第二数据；从所述第一计算节点的第一内存模块获取所述第一数据；将所述第一数据和所述第二数据发送至所述聚合运算引擎；将所述聚合运算结果写入所述第一内存模块。
根据权利要求3所述的数据处理系统，其特征在于，所述内存访问引擎具体用于：

接收聚合运算指令；

根据所述聚合运算指令执行：从所述第一内存模块获取所述第一数据，从所述第二内存模块获取所述第二数据；将所述第一数据和所述第二数据发送至所述聚合运算引擎。
根据权利要求3或4所述的数据处理系统，其特征在于，所述内存访问引擎还用于：

生成原子命令，所述原子命令包括读命令或写命令中的至少一个，所述读命令用于命令内存控制器从所述第一内存模块读取所述第一数据并发送至所述聚合运算引擎，所述写命令用于命令所述内存控制器将所述聚合运算结果写入所述第一内存模块；

向所述第二内存模块的内存控制器发送所述原子命令。
根据权利要求3至5中任一项所述的数据处理系统，其特征在于，所述内存访问引擎为直接存储器访问DMA引擎或者远程直接存储器访问RDMA引擎。
根据权利要求2至6中任一项所述的数据处理系统，其特征在于，所述聚合运算器还包括：

转换器，用于对所述聚合运算结果执行数据格式转换处理。
根据权利要求1至7中任一项所述的数据处理系统，其特征在于，所述第一计算节点还包括所述第一内存模块，所述第一内存模块用于存储所述第一数据。
根据权利要求1至8中任一项所述的数据处理系统，其特征在于，还包括所述第二计算节点。
根据权利要求1至9中任一项所述的数据处理系统，其特征在于，所述第一计算节点和所述第二计算节点位于不同的装置中。
根据权利要求1至10中任一项所述的数据处理系统，其特征在于，所述聚合运算器包括至少两个运算通道，所述至少两个运算通道用于并行执行聚合运算。
根据权利要求1至11中任一项所述的数据处理系统，其特征在于，所述AI处理器和所述聚合运算器能够并行运行。