WO2018077293A1

WO2018077293A1 - 数据传输方法和系统、电子设备

Info

Publication number: WO2018077293A1
Application number: PCT/CN2017/108450
Authority: WO
Inventors: 朱元昊; 颜深根
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2016-10-28
Filing date: 2017-10-30
Publication date: 2018-05-03
Also published as: US20190236453A1; CN108021982A; CN108021982B

Abstract

本申请实施例公开了数据传输方法和系统、电子设备，其中所述方法包括：确定分布式系统中一节点向至少一其他节点待发送的、用于对所述分布式系统训练的深度学习模型进行参数更新的第一数据；对所述第一数据中的至少部分进行稀疏处理；向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据。本申请的实施有助于在不降低通信频率的情形下减少网络通信流量，缩短深度学习训练的时间。

Description

数据传输方法和系统、电子设备

本申请要求在2016年10月28日提交中国专利局、申请号为CN 201610972729.4、发明名称为“数据传输方法和系统、电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及深度学习技术，尤其涉及数据传输方法和系统、电子设备。

背景技术

随着大数据时代的到来，深度学习得到了广泛的应用，包括图像识别、推荐系统以及自然语言处理等。深度学习训练系统是一种通过训练输入数据获取深度学习模型的计算系统。在工业环境中，为了能够提供高质量的深度学习模型，深度学习训练系统需要处理大量训练数据，如：斯坦福大学计算机视觉实验室开放的ImageNet数据集包含了1400多万张高精度的图片。然而，单节点的深度学习训练系统由于其计算能力和内存限制，往往耗时数周甚至数月才能完成运算。在这种情况下，分布式深度学习训练系统在工业界和学术界得到了广泛的关注。

典型的分布式深度学习训练系统通常利用分布式计算框架运行梯度下降算法。。在每次迭代计算过程中，梯度聚集和参数广播等产生的网络流量通常正比于深度学习模型的大小。而新型的深度学习模型大小日益增长，例如，AlexNet模型包含了六千多万参数，VGG-16模型更是具有上亿参数。因此，在深度学习训练过程中会产生大量网络流量，受制于网络带宽等条件，通信时间成为分布式深度学习训练系统的性能瓶颈之一。

发明内容

本申请实施例提供一种数据传输方案。

根据本申请实施例的个方面，本申请实施例提供一种数据传输方法，包括：

确定分布式系统中一节点向至少一其他节点待发送的、用于对所述分布式系统训练的深度学习模型进行参数更新的第一数据；

对所述第一数据中的至少部分进行稀疏处理；

向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据。

可选地，对所述第一数据中的至少部分进行稀疏处理，包括：将所述第一数据中的至少部分分别与给定过滤阈值进行比较，并从所述至少部分中滤除小于所述过滤阈值的部分，其中，所述过滤阈值随所述深度学习模型的训练迭代次数的增加而减小。

可选地，对所述第一数据中的至少部分进行稀疏处理之前，还包括：随机确定所述第一数据的部分作为所述至少部分；对确定的所述第一数据的至少部分进行稀疏处理。

可选地，所述向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据，包括：压缩所述至少部分进行稀疏处理后的第一数据；向所述至少一其他节点发送压缩后的第一数据。

可选地，根据本发明第一方面的方法还包括：获取所述至少一其他节点发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据；至少根据所述第二数据对所述深度学习模型的参数进行更新。

可选地，获取所述至少一其他节点发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据，包括：接收并解压缩所述至少一其他节点压缩后发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据。

可选地，所述第一数据包括：在所述深度学习模型的迭代训练期间任一次训练过程计算所得到的梯度矩阵；和/或，在所述深度学习模型的迭代训练期间任一次训练的旧参数、与至少根据所述至少一其他节点发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据进行所述旧参数更新所得到的新参数之间的参数差值矩阵。

可选地，在所述第一数据包括所述梯度矩阵时，对所述第一数据中的至少部分进行稀疏处理，包括：从所述梯度矩阵选取绝对值分别小于所述过滤阈值的第一部分矩阵元素；从所述梯度矩阵随机选取第二部分矩阵元素；将所述梯度矩阵中同时属于所述第一部分矩阵元素和所述第二部分矩阵元素的矩阵元素的数值置0，得到稀疏梯度矩阵；向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据，包括：将所述稀疏梯度矩阵压缩为一个字符串；通过网络向所述至少一其他节点发送所述字符串。

可选地，在所述第一数据包括所述参数差值矩阵时，对所述第一数据中的至少部分进行稀疏处理，包括：从所述参数差值矩阵选取绝对值分别小于所述过滤阈值的第三部分矩阵元素；从所述参数差值矩阵随机选取第四部分矩阵元素；将所述参数差值矩阵中同时属于所述第三部分矩阵元素和所述第四部分矩阵元素的矩阵元素的数值置0，得到稀疏参数差值矩阵；向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据，包括：将所述稀疏参数差值矩阵压缩为一个字符串；通过网络向所述至少一其他节点发送所述字符串。

根据本申请实施例的另一个方面，提供一种数据传输系统，包括：

数据确定模块，用于确定分布式系统中任一节点向至少一其他节点待发送的、用于对所述分布式系统训练的深度学习模型进行参数更新的第一数据；

稀疏处理模块，用于对所述第一数据中的至少部分进行稀疏处理；

数据发送模块，用于向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据。

可选地，所述稀疏处理模块包括：过滤子模块，用于将所述第一数据中的至少部分分别与给定过滤阈值进行比较，并从所述至少部分中滤除小于所述过滤阈值的部分，其中，所述过滤阈值随所述深度学习模型的训练迭代次数的增加而减小。

可选地，所述稀疏处理模块还包括：随机选取模块，用于随机确定所述第一数据的部分作为所述至少部分；稀疏模块，用于对确定的所述第一数据的至少部分进行稀疏处理。

可选地，所述数据发送模块包括：压缩子模块，用于压缩所述至少部分进行稀疏处理后的第一数据；发送子模块，用于向所述至少一其他节点发送压缩后的第一数据。

可选地，所述系统还包括：数据获取模块，用于获取所述至少一其他节点发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据；更新模块，用于至少根据所述第二数据对所述深度学习模型的参数进行更新。

可选地，数据获取模块包括：接收和解压缩子模块，用于接收并解压缩所述至少一其他节点压缩后发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据。

可选地，在所述第一数据包括所述梯度矩阵时，所述过滤子模块用于从所述梯度矩阵选取绝对值分别小于所述过滤阈值的第一部分矩阵元素；所述随机选取子模块用于从所述梯度矩阵随机选取第二部分矩阵元素；所述稀疏子模块用于将所述梯度矩阵中同时属于所述第一部分矩阵元素和所述第二部分矩阵元素的矩阵元素的数值置0，得到稀疏梯度矩阵；所述压缩子模块用于将所述稀疏梯度矩阵压缩为一个字符串；所述发送子模块通过网络向所述至少一其他节点发送所述字符串。

可选地，在所述第一数据包括所述参数差值矩阵时，所述过滤子模块用于从所述参数差值矩阵选取绝对值分别小于所述过滤阈值的第三部分矩阵元素；所述随机选取子模块用于从所述参数差值矩阵随机选取第四部分矩阵元素；所述稀疏子模块用于将所述参数差值矩阵中同时属于所述第三部分矩阵元素和所述第四部分矩阵元素的矩阵元素的数值置0，得到稀疏参数差值矩阵；所述压缩子模块用于将所述稀疏参数差值矩阵压缩为一个字符串；所述发送子模块用于通过网络向所述至少一其他节点发送所述字符串。

根据本申请实施例的又一个方面，提供一种电子设备，包括本申请任一实施例所述的数据传输系统。

根据本申请实施例的再一个方面，提供一种电子设备，包括：

处理器和本申请任一实施例所述的数据传输系统；

在处理器运行所述数据处理系统时，本申请任一实施例所述的数据传输系统中的单元被运行。

根据本申请实施例的再一个方面，提供一种电子设备，包括：一个或多个处理器、存储器、通信部件和通信总线，所述处理器、所述存储器和所述通信部件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请任一实施例提供的种数据传输方法对应的操作。

根据本申请实施例的再一方面，提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请上述任一实施例所述的数据传输方法中各步骤的指令。

根据本申请实施例的再一方面，还提供了一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时实现本申请上述任一实施例所述的数据传输方法中各步骤的操作。

本申请实施例提供的数据传输方法和系统、电子设备、程序和介质，确定分布式系统中任一节点向至少一其他节点待发送的、用于对分布式系统训练的深度学习模型进行参数更新的第一数据；对第一数据中的至少部分进行稀疏处理，并向至少一其他节点发送至少部分进行稀疏处理后的第一数据。本申请实施例可以剔除至少部分不重要的数据(例如梯度和/或参数)，减少每次梯度累加和/或参数广播产生的网络流量，缩短训练时间。本申请不用降低通信频率，可及时获取最新参数，既可用于每次迭代都进行通信的深度学习训练系统中，也可以用于需要降低通信频率的系统中。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

本申请将在下面参考附图并结合可选实施例进行说明。其中：

图1为根据本申请数据传输方法一实施例的流程图。

图2为根据本申请数据传输方法实施例中梯度过滤的一个示例性流程图。

图3为根据本申请数据传输方法实施例中参数过滤的一个示例性流程图。

图4为根据本申请数据传输系统一实施例的结构示意图。

图5为根据本申请数据传输系统另一实施例的结构示意图。

图6为本申请节点设备一实施例的结构示意图。

图7为本申请电子设备一个实施例的结构示意图。

为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本申请所必要的细节，而省略其他细节。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应当理解，在详细描述和具体例子表明本申请可选实施例的同时，它们仅为说明目的给出。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为根据本申请数据传输方法一实施例的流程图。如图1所示，该实施例的数据传输方法包括：

在步骤S110中，确定分布式系统中一节点向至少一其他节点待发送的、用于对分布式系统训练的深度学习模型进行参数更新的第一数据。

其中的分布式系统例如可以是多个计算节点构成的集群，或者可以由多个计算节点和一参数服务器组成。其中的深度学习模型例如可包括但不限于神经网络(如卷积神经网络)，其中的参数例如可以为构建深度学习模型的矩阵变量等。

在一个可选示例中，步骤S110可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的数据确定模块执行。

在步骤S120中，对上述第一数据中的至少部分进行稀疏处理。

本申请各实施例中，稀疏处理是为了从第一数据中剔除不太重要的部分，从而使传输第一数据耗用的网络流量变小，降低深度学习模型的训练时间。

在一个可选示例中，步骤S120可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的稀疏处理模块执行。

在步骤S130中，向上述至少一其他节点发送至少部分进行稀疏处理后的第一数据。

在一个可选示例中，步骤S130可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的数据发送模块执行。

本申请实施例的数据传输方法，用于在分布式深度学习系统中任意两个计算节点或计算节点和参数服务器之间，传输对计算节点运行的深度学习模型进行参数更新的数据，其可以忽略所传输数据中不太重要的部分，例如不重要的梯度和/或参数，从而有助于减小在聚集和广播操作中产生的网络流量，从而降低在每次迭代计算中用于网络传输的时间，进而缩短深度学习总体训练时间。

在其中一个可选实施例中，对第一数据中的至少部分进行稀疏处理，可以包括：将第一数据中的至少部分分别与给定的过滤阈值进行比较，并从第一数据进行比较的至少部分中滤除小于过滤阈值的部分。

其中，过滤阈值可以随深度学习模型的训练迭代次数的增加而减小，以在训练后期使得微小参数更不容易被选择剔除。

在其中一个可选实施例中，对第一数据中的至少部分进行稀疏处理之前，还可以包括：随机确定第一数据的部分作为上述至少部分；对确定的第一数据的至少部分进行稀疏处理。换言之，在此对第一数据中的部分数据进行稀疏处理，第一数据中的其余部分数据不进行稀疏处理。未进行稀疏处理的部分数据可以按照传统方式发送。在一个可选示例中，该可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的数据获取模块执行，例如可以分别由被处理器运行的数据获取模块中的随机选取子模块和稀疏子模块执行。

在其中一个可选实施例中，向至少一其他节点发送至少部分进行稀疏处理后的第一数据，可以包括：压缩上述至少部分进行稀疏处理后的第一数据，压缩可采用通用的压缩算法，例如snappy、zlib等压缩算法；然后向上述至少一其他节点发送压缩后的第一数据。在一个可选示例中，该可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的数据发送模块执行，例如可以分别由被处理器运行的数据发送模块中的压缩子模块和发送子模块执行。

在本申请数据传输方法的另一实施中，还可包括：

上述任一节点获取至少一其他节点发送的、用于对分布式系统训练的深度学习模型进行参数更新的第二数据，例如，接收并解压缩上述至少一其他节点压缩后发送的、用于对分布式系统训练的深度学习模型进行参数更新的第二数据。在一个可选示例中，该可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的数据获取模块执行；

至少根据该第二数据对上述深度学习模型的参数进行更新。其中，更新的时机可以发生在上述任一节点在深度学习模型迭代训练期间当前轮训练完成的时候进行。在一个可选示例中，该可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的更新模块执行。

在其中一个可选实施例中，第一数据包括：上述任一节点在深度学习模型的迭代训练期间任一次训练过程计算所得到的梯度矩阵。分布式深度学习训练系统提供原始梯度值(包括每一计算节点产生的梯度值)作为输入，输入梯度可以是一个由单精度数值组成的矩阵，是用于更新深度学习模型参数的矩阵变量。和/或，在另一个可选实施例中，第一数据包括：上述任一节点在深度学习模型的迭代训练期间任一次训练的旧参数、与至少根据至少一其他节点发送的用于对分布式系统训练的深度学习模型进行参数更新的第二数据进行旧参数更新所得到的新参数之间的参数差值矩阵。在每次参数广播操作中，分布式深度学习训练系统会用新更新的参数替换每个计算节点缓存的参数。其中的参数指构建深度学习模型的矩阵变量，可以是由单精度数值组成的矩阵。

在本申请各实施例的一个可选示例中，在第一数据包括梯度矩阵时，对第一数据中的至少部分进行稀疏处理，可以包括：从梯度矩阵选取绝对值分别小于过滤阈值的第一部分矩阵元素；从梯度矩阵随机选取第二部分矩阵元素；将梯度矩阵中同时属于第一部分矩阵元素和第二部分矩阵元素的矩阵元素的数值置0，得到稀疏梯度矩阵。相应地，该示例中，向至少一其他节点发送至少部分进行稀疏处理后的第一数据，可以包括：将稀疏梯度矩阵压缩为一个字符串；通过网络向至少一其他节点发送字符串。

图2为根据本申请数据传输方法实施例中梯度过滤的一个示例性流程图。如图2所示，该实施例包括：

在步骤S210，例如采用绝对值策略，从原始梯度矩阵中选定若干梯度。

其中，绝对值策略为选取绝对值小于给定过滤阈值的梯度。其中的过滤阈值可以示例性地由以下公式计算：

其中，φgsmp表示初始过滤阈值，可以在深度学习训练前预先设定，dgsmp也是一个预设设定的常量。在深度学习训练系统中，需要的迭代次数是可以预先指定的，t表示深度学习训练中当前的迭代次数。dgsmp×log(t)可以随着迭代次数的增加而动态改变过滤阈值。随着迭代次数的增加，过滤阈值越来越小，这样，在训练后期，微小梯度更不容易被选择剔除。在本实施例中，φgsmp的取值可以1x10^-4到1x10^-3之间，dgsmp的取值可以在0.1到1之间，具体的取值可根据具体应用调整。

在步骤S220，例如采用随机策略，从输入的原始梯度矩阵选定若干梯度。

其中，随机策略在输入的所有梯度值中，随机选择给定比例，例如50％-90％、60％-80％等梯度。

在一个可选示例中，上述步骤S210～220可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的稀疏处理模块或其中的随机选取子模块执行。

在步骤S230，同时被绝对值策略和随机策略选定的梯度数值对计算不重要、影响小，将它们设置为0，从而将输入的梯度矩阵转换为一个稀疏梯度矩阵。

在步骤S240，采用压缩策略处理稀疏梯度矩阵，以减少体积。

其中的压缩策略例如采用通用的压缩算法，例如snappy、zlib等压缩算法，将稀疏梯度矩阵压缩为一个字符串。

在一个可选示例中，上述步骤S230～240可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的稀疏处理模块或其中的稀疏子模块执行。

通过图2所示实施例，将一个梯度矩阵通过绝对值策略和随机策略的剔除操作和压缩策略的压缩操作，输出一个字符串，其体积会大幅度减小。在梯度累加操作中，计算节点通过网络传输所产生的字符串，此过程产生的网络流量会相应减少，因此，可以有效减小梯度累加过程中的通信时间。

在本申请各实施例的另一个可选示例中，在第一数据包括参数差值矩阵时，对第一数据中的至少部分进行稀疏处理，可以包括：从参数差值矩阵选取绝对值分别小于过滤阈值的第三部分矩阵元素；从参数差值矩阵随机选取第四部分矩阵元素；将参数差值矩阵中同时属于第三部分矩阵元素和第四部分矩阵元素的矩阵元素的数值置0，得到稀疏参数差值矩阵。相应的，该示例中，向至少一其他节点发送至少部分进行稀疏处理后的第一数据，可以包括：将稀疏参数差值矩阵压缩为一个字符串；通过网络向至少一其他节点发送字符串。

图3为根据本申请数据传输方法实施例中参数过滤的一个示例性流程图。在本实施例中，深度学习模型中新更新的参数由θnew表示，缓存的旧参数由θold表示。参数差值矩阵表示为：θdiff＝θnew-θold，是一个与新参数和旧参数同样规模的矩阵。如图3所示，该实施例包括：

在步骤S310，例如采用绝对值策略，从参数差值矩阵θdiff中选定若干数值。

其中，φgsmp表示初始过滤阈值，可以在深度学习训练前预先设定，dgsmp也是一个预设设定的常量。在深度学习训练系统中，需要的迭代次数是可以预先指定的，t表示深度学习训练中当前的迭代次数。dgsmp×log(t)可以随着迭代次数的增加而动态改变过滤阈值。随着迭代次数的增加，过滤阈值越来越小，这样，在训练后期，微小梯度更不容易被选择剔除。在本实施例中，φgsmp的取值可以1x10^-4到1x10^-3之间，dgsmp的取值可以可以在0.1到1之间，具体的取值可根据具体应用调整。

在步骤S320，例如采用随机策略，从θdiff矩阵选定若干数值。

其中，随机策略在输入的所有θdiff矩阵中，随机选择给定比例，例如50％-90％、60％-80％等梯度。

在一个可选示例中，上述步骤S310～320可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的稀疏处理模块或其中的随机选取子模块执行。

在步骤S330，将同时被绝对值策略和随机策略选定的θdiff数值设置为0，从而将θdiff矩阵转换为一个稀疏矩阵。

在步骤S340，采用压缩策略处理稀疏矩阵，以减少体积。

压缩策略采用通用的压缩算法，例如snappy、zlib等压缩算法，将稀疏矩阵压缩为一个字符串。

在一个可选示例中，上述步骤S330～340可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的稀疏处理模块或其中的稀疏子模块执行。

深度学习训练系统通过网络广播生成的字符串，可大幅度减小参数广播操作中产生的网络流量，因此，可以有效减小通信时间，进而降低总体深度学习训练时间。计算节点获取前述字符串后，进行解压缩操作，将θdiff与缓存的θold相加更新相应的参数。

在可选实施例中，同一节点既可应用图2所示的梯度过滤方式，也可应用图3所示的参数过滤方式，在此不再赘述相应的步骤。

本申请实施例提供的任一种数据传输方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本申请实施例提供的任一种数据传输方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本申请实施例提及的任一种数据传输方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图4为根据本申请数据传输系统一实施例的结构示意图。本发明实施例的数据处理系统可用于实现本申请上述各数据处理方法实施例。如图4所示，该实施例的系统包括：

数据确定模块410，用于确定分布式系统中任一节点向至少一其他节点待发送的、用于对分布式系统训练的深度学习模型进行参数更新的第一数据；

稀疏处理模块420，用于对第一数据中的至少部分进行稀疏处理；

在本申请各数据传输系统实施例的一个可选实施方式中，稀疏处理模块420可以包括：过滤子模块422，用于将第一数据中的至少部分分别与给定过滤阈值进行比较，并从第一数据进行比较的至少部分中滤除小于过滤阈值的部分，其中，过滤阈值随深度学习模型的训练迭代次数的增加而减小。

数据发送模块430，用于向至少一其他节点发送至少部分进行稀疏处理后的第一数据。

在本申请各数据传输系统的又一实施例中，稀疏处理模块420还可以包括：：随机选取子模块，用于在根据预定策略对第一数据中的至少部分进行稀疏处理之前，随机确定第一数据的部分作为至少部分；稀疏子模块，用于对确定的第一数据的至少部分进行稀疏处理。

在本申请各数据传输系统实施例的一个可选实施方式中，数据发送模块430可以包括：压缩子模块432，用于压缩上述至少部分进行稀疏处理后的第一数据；发送子模块434，用于向至少一其他节点发送压缩后的第一数据。图5为根据本申请数据传输系统另一实施例的结构示意图。如图5所示，与图4所示实施例相比，该实施例的数据传输系统还包括：

数据获取模块510，用于获取至少一其他节点发送的用于对分布式系统训练的深度学习模型进行参数更新的第二数据；

更新模块520，用于至少根据第二数据对上述任一节点的深度学习模型的参数进行更新。

在本申请各数据传输系统实施例的一个可选实施方式中，数据获取模块510可以包括接收和解压缩子模块512，用于接收并解压缩至少一其他节点压缩后发送的用于对分布式系统训练的深度学习模型进行参数更新的第二数据。

在其中一个可选实施方式中，第一数据包括：上述任一节点在深度学习模型的迭代训练期间任一次训练过程计算所得到的梯度矩阵；和/或，上述任一节点在深度学习模型的迭代训练期间任一次训练的旧参数、与至少根据至少一其他节点发送的用于对分布式系统训练的深度学习模型进行参数更新的第二数据进行旧参数更新所得到的新参数之间的参数差值矩阵。

在第一数据包括梯度矩阵时，过滤子模块422用于从梯度矩阵选取绝对值分别小于给定过滤阈值的第一部分矩阵元素；随机选取子模块用于从梯度矩阵随机选取第二部分矩阵元素；稀疏子模块用于将梯度矩阵中同时属于第一部分矩阵元素和第二部分矩阵元素的矩阵元素的数值置0，得到稀疏梯度矩阵；压缩子模块用于将稀疏梯度矩阵压缩为一个字符串；发送子模块通过网络向上述至少一其他节点发送字符串。

在第一数据包括参数差值矩阵时，过滤子模块用于从参数差值矩阵选取其绝对值分别小于给定过滤阈值的第三部分矩阵元素；随机选取子模块用于从参数差值矩阵随机选取第四部分矩阵元素；稀疏子模块用于将参数差值矩阵中同时属于第三部分矩阵元素和第四部分矩阵元素的矩阵元素的数值置0，得到稀疏参数差值矩阵；压缩子模块用于将稀疏参数差值矩阵压缩为一个字符串；发送子模块用于通过网络向上述至少一其他节点发送字符串。

本申请实施例还提供了一种电子设备，包括本申请上述任一实施例的数据处理系统。

本申请实施例还提供了另一种电子设备，包括：

处理器和本申请上述任一实施例的数据传输系统；

在处理器运行上述数据传输系统时，本申请上述任一实施例的数据传输系统中的单元被运行。

本申请实施例还提供了又一种电子设备，包括：一个或多个处理器、存储器、多种缓存元件、通信部件和通信总线，上述处理器、上述存储器、上述多种缓存单元和上述通信部件通过上述通信总线完成相互间的通信，上述多种缓存元件的传输速率和/或存储空间不同、且上述多种缓存元件根据传输速率和/或存储空间被预先设置有不同的查找优先级；

上述存储器用于存放至少一可执行指令，上述可执行指令使上述处理器执行如本申请上述任一实施例的数据传输方法对应的操作。

图6为本申请节点设备一实施例的结构示意图。其包括：处理器602、通信部件604、存储器606、以及通信总线608。通信部件可包括但不限于I/O接口、网卡等。

处理器602、通信部件604、以及存储器606通过通信总线608完成相互间的通信。

通信部件604，用于与其它设备比如客户端或数据采集设备等的网元通信。

处理器602，用于执行程序610，具体可以执行上述方法实施例中的相关步骤。

具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。

上述处理器602可以一个或多个，处理器的设备形态可以是中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路等。

存储器606，用于存放程序610。存储器606可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序610包括至少一条可执行指令，具体可以用于使得处理器602执行以下操作：确定分布式系统中任一节点向至少一其他节点待发送的用于对分布式系统训练的深度学习模型进行参数更新的第一数据；对第一数据中的至少部分进行稀疏处理；向至少一其他节点发送至少部分进行稀疏处理后的第一数据。

程序610中各步骤的具体实现可以参见上述实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上面描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

图7为本申请电子设备一个实施例的结构示意图。下面参考图7，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图7所示，该电子设备包括一个或多个处理器、通信部等，一个或多个处理器例如：一个或多个中央处理单元(CPU)701，和/或一个或多个图像处理器(GPU)713等，处理器可以根据存储在只读存储器(ROM)702中的可执行指令或者从存储部分708加载到随机访问存储器(RAM)703中的可执行指令而执行各种适当的动作和处理。通信部712可包括但不限于网卡，网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器702和/或随机访问存储器703中通信以执行可执行指令，通过总线704与通信部712相连、并经通信部712与其他目标设备通信，从而完成本申请实施例提供的任一数据处理方法对应的操作，例如，确定分布式系统中任一节点向至少一其他节点待发送的、用于对所述分布式系统训练的深度学习模型进行参数更新的第一数据；对所述第一数据中的至少部分进行稀疏处理；向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据。

此外，在RAM 703中，还可存储有装置操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。在有RAM703的情况下，ROM702为可选模块。RAM703存储可执行指令，或在运行时向ROM702中写入可执行指令，可执行指令使处理器701执行上述数据处理方法对应的操作。输入/输出(I/O)接口705也连接至总线704。通信部712可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

需要说明的，如图7所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本申请公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，确定分布式系统中任一节点向至少一其他节点待发送的、用于对所述分布式系统训练的深度学习模型进行参数更新的第一数据的指令；对所述第一数据中的至少部分进行稀疏处理的指令；向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据的指令。

另外，本申请实施例还提供了一种计算机程序，包括计算机可读代码，当该计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请任一实施例的数据传输方法中各步骤的指令。

另外，本申请实施例还提供了一种计算机可读存储介质，用于存储计算机可读取的指令，该指令被执行时实现本申请任一实施例的数据传输方法中各步骤的操作。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。除非明确指出，在此所用的单数形式“一”、“该”均包括复数含义(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在的特征、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、步骤、操作、元件、部件和/或其组合。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必精确按照所公开的顺序执行。

一些可选实施例已经在前面进行了说明，但是应当强调的是，本申请不局限于这些实施例，而是可以本申请主题范围内的其它方式实现。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现为通过网络下载的、原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的可选应用和设计约束条件。专业技术人员可以对每个可选的应用来使用不同方法实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

一种数据传输方法，其特征在于，包括：

确定分布式系统中一节点向至少一其他节点待发送的、用于对所述分布式系统训练的深度学习模型进行参数更新的第一数据；

对所述第一数据中的至少部分进行稀疏处理；

向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据。
根据权利要求1所述的方法，其特征在于，对所述第一数据中的至少部分进行稀疏处理，包括：

将所述第一数据中的至少部分分别与给定过滤阈值进行比较，并从所述至少部分中滤除小于所述过滤阈值的部分，其中，所述过滤阈值随所述深度学习模型的训练迭代次数的增加而减小。
根据权利要求1或2所述的方法，其特征在于，对所述第一数据中的至少部分进行稀疏处理之前，还包括：

随机确定所述第一数据的部分作为所述至少部分；

对确定的所述第一数据的至少部分进行稀疏处理。
根据权利要求1-3任一所述的方法，其特征在于，所述向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据，包括：

压缩所述至少部分进行稀疏处理后的第一数据；

向所述至少一其他节点发送压缩后的第一数据。
根据权利要求1-4任一所述的方法，其特征在于，还包括：

获取所述至少一其他节点发送的、用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据；

至少根据所述第二数据对所述深度学习模型的参数进行更新。
根据权利要求5所述的方法，其特征在于，获取所述至少一其他节点发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据，包括：

接收并解压缩所述至少一其他节点压缩后发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据。
根据权利要求1-6任一所述的方法，其特征在于，所述第一数据包括：

在所述深度学习模型的迭代训练期间任一次训练过程计算所得到的梯度矩阵；和/或，

在所述深度学习模型的迭代训练期间任一次训练的旧参数、与至少根据所述至少一其他节点发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据进行所述旧参数更新所得到的新参数之间的参数差值矩阵。
根据权利要求7所述的方法，其特征在于，在所述第一数据包括所述梯度矩阵时，对所述第一数据中的至少部分进行稀疏处理，包括：

从所述梯度矩阵选取绝对值分别小于所述过滤阈值的第一部分矩阵元素；

从所述梯度矩阵随机选取第二部分矩阵元素；

将所述梯度矩阵中同时属于所述第一部分矩阵元素和所述第二部分矩阵元素的矩阵元素的数值置0，得到稀疏梯度矩阵；

向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据，包括：

将所述稀疏梯度矩阵压缩为一个字符串；

通过网络向所述至少一其他节点发送所述字符串。
根据权利要求7或8所述的方法，其特征在于，在所述第一数据包括所述参数差值矩阵时，对所述第一数据中的至少部分进行稀疏处理，包括：

从所述参数差值矩阵选取绝对值分别小于所述过滤阈值的第三部分矩阵元素；

从所述参数差值矩阵随机选取第四部分矩阵元素；

将所述参数差值矩阵中同时属于所述第三部分矩阵元素和所述第四部分矩阵元素的矩阵元素的数值置0，得到稀疏参数差值矩阵；

向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据，包括：

将所述稀疏参数差值矩阵压缩为一个字符串；

通过网络向所述至少一其他节点发送所述字符串。
一种数据传输系统，其特征在于，包括：

数据确定模块，用于确定分布式系统中一节点向至少一其他节点待发送的、用于对所述分布式系统训练的深度学习模型进行参数更新的第一数据；

稀疏处理模块，用于对所述第一数据中的至少部分进行稀疏处理；

数据发送模块，用于向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据。
根据权利要求10所述的系统，其特征在于，所述稀疏处理模块包括：

过滤子模块，用于将所述第一数据中的至少部分分别与给定过滤阈值进行比较，并从所述至少部分中滤除小于所述过滤阈值的部分，其中，所述过滤阈值随所述深度学习模型的训练迭代次数的增加而减小。
根据权利要求10或11所述的系统，其特征在于，所述稀疏处理模块还包括：

随机选取子模块，用于随机确定所述第一数据的部分作为所述至少部分；

稀疏子模块，用于对确定的所述第一数据的至少部分进行稀疏处理。
根据权利要求10-12任一所述的系统，其特征在于，所述数据发送模块包括：

压缩子模块，用于压缩所述至少部分进行稀疏处理后的第一数据；

发送子模块，用于向所述至少一其他节点发送压缩后的第一数据。
根据权利要求10-13任一所述的系统，其特征在于，还包括：

数据获取模块，用于获取所述至少一其他节点发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据；

更新模块，用于至少根据所述第二数据对所述深度学习模型的参数进行更新。
根据权利要求14所述的系统，其特征在于，所述数据获取模块包括：

接收和解压缩子模块，用于接收并解压缩所述至少一其他节点压缩后发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据。
根据权利要求10-15任一所述的系统，其特征在于，所述第一数据包括：

在所述深度学习模型的迭代训练期间任一次训练过程计算所得到的梯度矩阵；和/或，

在所述深度学习模型的迭代训练期间任一次训练的旧参数、与至少根据所述至少一其他节点发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据进行所述旧参数更新所得到的新参数之间的参数差值矩阵。
根据权利要求16所述的系统，其特征在于，在所述第一数据包括所述梯度矩阵时，所述过滤子模块用于从所述梯度矩阵选取绝对值分别小于所述过滤阈值的第一部分矩阵元素；

所述随机选取子模块用于从所述梯度矩阵随机选取第二部分矩阵元素；

所述稀疏子模块用于将所述梯度矩阵中同时属于所述第一部分矩阵元素和所述第二部分矩阵元素的矩阵元素的数值置0，得到稀疏梯度矩阵；

所述压缩子模块用于将所述稀疏梯度矩阵压缩为一个字符串；

所述发送子模块通过网络向所述至少一其他节点发送所述字符串。
根据权利要求16或17所述的系统，其特征在于，在所述第一数据包括所述参数差值矩阵时，所述过滤子模块用于从所述参数差值矩阵选取绝对值分别小于所述过滤阈值的第三部分矩阵元素；

所述随机选取子模块用于从所述参数差值矩阵随机选取第四部分矩阵元素；

所述稀疏子模块用于将所述参数差值矩阵中同时属于所述第三部分矩阵元素和所述第四部分矩阵元素的矩阵元素的数值置0，得到稀疏参数差值矩阵；

所述压缩子模块用于将所述稀疏参数差值矩阵压缩为一个字符串；

所述发送子模块用于通过网络向所述至少一其他节点发送所述字符串。
一种电子设备，其特征在于，包括权利要求10-18任一所述的数据传输系统。
一种电子设备，其特征在于，包括：

处理器和权利要求10-18任一所述的数据传输系统；

在处理器运行所述数据传输系统时，权利要求10-18任一所述的数据传输系统中的单元被运行。
一种电子设备，其特征在于，包括：一个或多个处理器、存储器、通信部件和通信总线，所述处理器、所述存储器和所述通信部件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-9任一所述的数据传输方法对应的操作。
一种计算机程序，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1-9任一所述的数据传输方法中各步骤的指令。
一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现权利要求1-9任一所述的数据传输方法中各步骤的操作。