WO2019042200A1

WO2019042200A1 - 执行机器学习的分布式系统及其方法

Info

Publication number: WO2019042200A1
Application number: PCT/CN2018/101694
Authority: WO
Inventors: 陈雨强; 杨强; 戴文渊; 焦英翔; 涂威威; 石光川
Original assignee: 第四范式（北京）技术有限公司
Priority date: 2017-08-30
Filing date: 2018-08-22
Publication date: 2019-03-07
Also published as: CN111079942A; CN111079942B; CN107609652B; EP3678068A1; EP3678068A4; CN107609652A

Abstract

提供了一种执行机器学习的分布式系统及其方法。所述系统包括：多个计算装置，其中，每个计算装置被配置为针对各自的数据记录来执行数据流式计算，其中，所述数据流式计算表示为一个或多个有向无环图；参数存储器，用于维护机器学习模型的参数，其中，在执行训练机器学习模型的数据流式计算时，计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型训练的运算，并且，参数存储器根据计算装置的运算结果来更新所述参数；并且/或者，在执行利用机器学习模型进行预估的数据流式计算时，计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型预估的运算。

Description

执行机器学习的分布式系统及其方法

技术领域

本公开的示例性实施例总体说来涉及人工智能领域，更具体地说，涉及一种执行机器学习的分布式系统以及利用所述分布式系统来执行机器学习的方法。

背景技术

随着数据规模的迅速增长，机器学习被广泛应用于各种领域以挖掘数据的价值。然而，为了在大数据规模下执行机器学习，实践中往往需要利用包括多个计算装置的分布式机器学习平台来完成机器学习模型的训练或相应的预估。

在现有的分布式机器学习系统中(例如，谷歌的深度学习框架TensorFlow中)，如果想要实现基于某个机器学习算法的多配置运行或多次运行，或者，如果想要同时运行多个机器学习算法，则需要对算法的内部进行修改，或者实现外部逻辑的多次调用，这两种方式都将耗费较大的实际计算量。

发明内容

本公开的示例性实施例旨在克服现有的分布式机器学习系统在执行机器学习时运算开销较大的缺陷。

根据本公开的示例性实施例，提供一种执行机器学习的分布式系统，包括：多个计算装置，其中，每个计算装置被配置为针对各自的数据记录来执行关于机器学习模型的数据流式计算，其中，所述数据流式计算表示为一个或多个由处理步骤组成的有向无环图，每个有向无环图对应于单个机器学习模型；参数存储器，用于维护机器学习模型的参数，其中，在执行训练机器学习模型的数据流式计算时，计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型训练的运算，并且，参数存储器根据计算装置的运算结果来更新所述参数；并且/或者，在执行利用机器学习模型进行预估的数据流式计算时，计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型预估的运算。

根据本公开的另一示例性实施例，提供一种利用分布式系统来执行机器学习的方法，其中，所述分布式系统中的多个计算装置之中的每个计算装置被配置为针对各自的数据记录来执行关于机器学习模型的数据流式计算，其中，所述数据流式计算表示为一个或多个由处理步骤组成的有向无环图，每个有向无环图对应于单个机器学习模型，所述方法包括：由多个计算装置之中的每个计算装置获取各自的数据记录；由计算装置从分布式系统中的参数存储器获取机器学习模型的参数；其中，在执行训练机器学习模型的数据流式计算时，由计算装置利用获取的参数来针对各自的数据记录执行关于机器学习模型训练的运算，并且，由参数存储器根据计算装置的运算结果来更新所述参数；并且/或者，在执行利用机器学习模型进行预估的数据流式计算时，由计算装置利用获取的参数来针对各自的数据记录执行关于机器学习模型预估的运算。

根据本公开的另一示例性实施例，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被参数存储器和多个计算装置执行时，实现如上所述的方法。

根据本公开的另一示例性实施例，提供一种执行机器学习的系统，其中，该系统包括至少一个处理器和至少一个存储计算机指令的计算机可读存储介质，所述计算机指令被所述至少一个处理器运行时，促使所述至少一个处理器实现如上所述的方法。

在根据本公开示例性实施例的分布式机器学习系统及其方法中，每个计算装置被配置为执行一个或多个与机器学习模型对应的数据流式计算，以便有效地完成多模型下的机器学习运算。

附图说明

从下面结合附图对本公开实施例的详细描述中，本公开的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1示出根据本公开示例性实施例的执行机器学习的分布式系统的框图；

图2示出根据本公开另一示例性实施例的执行机器学习的分布式系统的框图；

图3示出根据本公开示例性实施例的参数服务器的框图；

图4示出根据本公开示例性实施例的计算装置的框图；

图5示出根据本公开示例性实施例的分布式机器学习系统执行机器学习模型训练的方法的流程图；

图6示出根据本公开另一示例性实施例的分布式机器学习系统执行机器学习模型训练的方法的流程图；

图7示出根据本公开示例性实施例的分布式机器学习系统执行机器学习模型预估的方法的流程图；

图8示出根据本公开示例性实施例的通过合并有向无环图来执行数据流式计算的示例；以及

图9示出根据本公开示例性实施例的按照键值对来保存机器学习模型的参数的示例。

具体实施方式

为了使本领域技术人员更好地理解本公开，下面结合附图和具体实施方式对本公开的示例性实施例作进一步详细说明。在此需要说明的是，在本公开中出现的“并且/或者”、“和/或”均表示包含三种并列的情况。例如“包括A和/或B”表示如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一并且/或者步骤二”表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

机器学习是人工智能研究发展到一定阶段的必然产物，其致力于通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，通过机器学习算法，可从数据中产生“模型”，该模型可表示为特定参数下的某种算法函数，也就是说，将经验数据提供给机器学习算法，就能基于这些经验数据产生模型(即，基于数据而学习到函数的参数)，在面对新的情况时，模型会提供相应的判断，即，预估结果。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式，应注意，本公开的示例性实施例对具体机器学习算法并不进行特定限制。此外，还应注意，在训练机器学习模型的过程中，还可利用统计算法、业务规则和/或专家知识等，以进一步提高机器学习的效果。

具体说来，本公开的示例性实施例涉及分布式机器学习系统，该分布式机器学习系统可由参数存储器和多个计算装置组成，其中，多个计算装置分布地针对各自的数据记录执行机器学习算法，相应地，参数存储器通过与各个计算装置进行交互来维护机器学习模型的参数。应注意，这里所说的计算装置和/或参数存储器均由其所执行的处理或所实现的功能来限定，既可指示物理实体，也可指示虚拟实体，例如，计算装置可指示实际的计算机器，也可指示部署在计算机器上的逻辑实体，同样，参数存储器既可指示实际的计算机器，也可作为部署在计算机器上的逻辑实体。参数存储器可以是单独的装置，也可与计算装置互相结合。例如，参数存储器可与计算装置部署在同样或不同的计算机器上，甚至可以直接由某些计算装置来充当。

图1示出根据本公开示例性实施例的执行机器学习的分布式系统的框图。具体说来，图1所示的分布式机器学习系统可包括参数存储器2000和多个计算装置1000(例如，1000-1、1000-2、…、1000-n(其中，n为大于1的整数))。所述分布式机器学习系统可用于训练机器学习模型和/或利用训练好的机器学习模型进行预估。

具体说来，每个计算装置1000被配置为针对各自的数据记录来执行关于机器学习模型的数据流式计算，其中，所述数据流式计算表示为一个或多个由处理步骤组成的有向无环图，每个有向无环图对应于单个机器学习模型。

作为示例，各个计算装置1000可分别从数据源(例如，网络上的云盘等所有计算装置均可访问的位置)获取一部分需要处理的数据记录，并针对获取的这部分数据记录来执行数据流式计算；或者，在数据量较少的情况下，各个计算装置1000也可一次性从数据源获取全部的数据记录，并分别针对其中的一部分数据记录来执行数据流式计算。根据本公开的示例性实施例，各个计算装置1000可执行相同的计算任务，只是所针对的数据记录各不相同；或者，各个计算装置1000可执行不同的计算任务，相应地，各个计算装置1000所处理的数据记录并不相同。这里，可将所述数据记录看做通过对原始数据记录表(在原始数据记录表中，一行对应一条原始数据记录，一列对应一个属性信息)进行行划分或列划分所获取的结果，也就是说，所述数据记录对应于机器学习模型的部分参数(在列划分的情况下)或全部参数(在行划分的情况下)。

这里，数据流式计算是指各个计算装置1000均需执行的流式计算任务，其可以是为了训练机器学习模型和/或利用机器学习模型执行预估所需要执行的某些处理的集合。根据本公开的示例性实施例，数据流式计算可表示为一个或多个由处理步骤组成的有向无环图。也就是说，数据流式计算可指示单个有向无环图所表示的计算流程；此外，数据流式计算也可指示多个有向无环图所表示的计算流程。这里，每个有向无环图可对应于单个机器学习模型，相应地，所述分布式机器学习系统通过由计算装置来同时执行多个有向无环图，可同时执行多个机器学习模型的训练/预估，例如，可在模型参数调优阶段同时完成模型在多种配置下的多次运行。由此可见，根据本公开示例性实施例的分布式机器学习系统可同时执行某种机器学习算法流程的多配置运算或同时执行多种机器学习算法流程。组成数据流式计算的处理步骤不仅包括运算步骤，还包括其他各种处理步骤(例如，获取数据、输出运算结果等)。

参数存储器2000用于维护机器学习模型的参数。如上所述，机器学习模型可看做关于机器学习样本特征的函数，具体说来，通过针对全部数据记录不断地迭代训练，可逐渐收敛到该函数的参数最优解。根据本公开的示例性实施例，参数存储器2000用于维护机器学习模型的参数，使得计算装置1000在执行数据流式计算时可通过与参数存储器2000进行交互来获取相应的参数，另一方面，在机器学习模型的训练阶段，参数存储器2000也可基于各个计算装置1000的运算结果来更新所述参数。也就是说，在执行训练机器学习模型的数据流式计算时，计算装置1000利用从参数存储器2000获取的参数来针对各自的数据记录执行关于机器学习模型训练的运算，并且，参数存储器2000根据计算装置1000的运算结果来更新所述参数；并且/或者，在执行利用机器学习模型进行预估的数据流式计算时，计算装置1000利用从参数存储器2000获取的参数来针对各自的数据记录执行关于机器学习模型预估的运算。这里，计算装置1000可根据原始数据记录表的划分方式(行划分和/或列划分)来执行相应的分布式运算。

作为示例，参数存储器2000可部署在单个的计算机器上；或者，参数存储器2000可同时部署在多个相关的计算机器上。例如，参数存储器2000可具有分布式参数服务器结构，其效果相当于一个全局的哈希表，每个部分参数服务器中保存一部分关于参数的键值对(key-value)，而各个部分参数存储器上的键值对无交集。作为示例，参数存储器2000可按照键值对来保存机器学习模型的参数，并且，具有相同键(key)的键值对被保存为单个键对应于多个值(value)的形式。

根据本公开的示例性实施例，可将来自数据源(例如，远端网络)的数据记录先切分为不同的集合，以分别存储在计算装置1000的本地硬盘或内存，相应地，可由各个计算装置1000通过对本地数据执行数据流式计算来独立完成相应的机器学习计算任务，从而大幅减小数据读写的开销。

作为示例，当机器学习模型较小时，每个计算装置1000本地可单独存放一份完整的参数，而当机器学习模型较大时，参数可分散地存储在多个位置。根据本公开的示例性实施，所述参数存储器2000可具有分布式参数服务器结构，其中，在所述分布式参数服务器结构下，每一部分参数服务器与相应的计算装置1000集成为一体。

图2示出根据本公开另一示例性实施例的执行机器学习的分布式系统的框图。在图2所示的分布式机器学习系统中，对应于每个计算装置1000，存在相应的部分参数服务器2001。具体说来，计算装置1000-1可与部分参数服务器2001-1集成在相同的虚拟机或物理机上，计算装置1000-2可与部分参数服务器2001-2集成在相同的虚拟机或物理机上，以此类推，计算装置1000-n可与部分参数服务器2001-n集成在相同的虚拟机或物理机上。在该分布式机器学习系统中，每个计算装置1000为了执行数据流式计算，可在本地使用与其集成为一体的对应部分参数服务器2001所维护的参数，此外，计算装置1000还会需要使用其他部分参数服务器2001所维护的参数，为此，计算装置1000需要与所述其他部分参数服务器2001进行交互以得到执行数据流式计算所需的全部参数。

可以看出，在根据本公开示例性实施例的分布式机器学习系统中，除了具有多个计算装置之外，参数存储器也可具有分布式的参数服务器结构，即，存在多个部分参数服务器。在此情况下，通过由计算装置来执行涉及一个或多个模型的数据流式计算，可保证大规模机器学习的实现，从而可通过特征维度的提升和数据量的增加来实现更好的机器学习效果。

图3示出根据本公开示例性实施例的参数存储器的框图。这里，图3所示的参数存储器既可以是单机的整体，也可以是分布式参数服务器结构下的部分参数服务器。

参照图3，参数存储器可包括接口装置2100、处理装置2200和参数存储装置2300。

具体说来，接口装置2100可用于与计算装置1000进行交互，从而传送与机器学习相关的指令和/或数据，其中，所述数据可以是机器学习模型的参数、用于更新参数的运算结果等各种相关数据。这里，接口装置2100可从计算装置1000接收请求获取参数的指令，也可从计算装置1000接收用于更新参数的运算结果以及相关的指令；此外，接口装置2100还可向计算装置1000发送相应的参数。

处理装置2200可根据由接口装置2100接收的指令和/或数据来执行处理以更新和/或提供参数，其中，所述参数由参数存储装置2300来保存。作为示例，处理装置2200可分析来自计算装置1000的请求获取参数的指令，然后将相应的参数从参数存储装置2300提供给接口装置2100，进而由接口装置2100将所述参数提供给计算装置1000。或者，处理装置2200可分析来自计算装置1000的用于更新参数的运算结果以及相应的指令，根据相应的参数更新方式来执行参数的更新，并将更新后的参数保存在参数存储装置2300中。

参数存储装置2300用于保存机器学习模型的参数。作为示例，参数存储装置2300可按照键值对(key-value)的形式来保存所述参数。根据本公开的示例性实施，针对模型的多套配置或者针对多个模型，可采用一个key对应多个value的形式来保存相应的参数。

图4示出根据本公开示例性实施例的计算装置的框图。参照图4，计算装置1000可包括接口单元1100和运算单元1200。

具体说来，接口单元1100可用于与参数存储器(例如，部分参数服务器2001)进行交互，从而传送与机器学习相关的指令和/或数据，其中，所述数据可以是机器学习模型的参数、用于更新参数的运算结果等各种相关数据。这里，接口单元1100可向参数存储器发送请求获取参数的指令，并从参数存储器接收所请求的参数；此外，接口单元1100还可向参数存储器提供用于更新参数的运算结果以及相关的指令。作为示例，接口单元1100还可用于从数据源获取期望处理的数据记录，或用于将阶段性的运算结果备份到另外的装置中。

运算单元1200用于利用机器学习模型的参数，针对数据记录来执行数据流式计算。这里，运算单元1200可执行数据流式计算中涉及的关于机器学习模型训练和/或预估的各种具体运算。如之前所述，根据本公开的示例性实施例，数据流式计算可表示为一个或多个由处理步骤组成的有向无环图(每个有向无环图对应于单个机器学习模型)，例如，在机器学习模型的训练阶段，往往需要训练多套配置下的模型以进行模型调优，在这种情况下，如果期望同时进行多套模型训练，则数据流式计算可由多个配置不同的有向无环图组成。相应地，运算单元1200执行运算所得的结果可经由接口单元1100传递给参数存储器或其他装置。应注意，数据流式计算的组成并不受限于上述示例，而是可包括任何单一有向无环图或不同有向无环图的组合，例如，数据流式计算可指示一个或多个机器学习模型的训练流程和/或利用一个或多个机器学习模型进行预估的预估流程。在机器学习模型的预估阶段，由运算单元1200通过执行运算所得的结果可作为针对相应数据记录的预估值。

图5示出根据本公开示例性实施例的分布式机器学习系统执行机器学习模型训练的方法的流程图。所述方法涉及的步骤可由之前描述的分布式机器学习系统中的计算装置和/或参数存储器(例如，部分参数服务器2001)来执行，例如，可由计算装置和/或参数服务器根据预先设定的配置来执行，其中，所述分布式系统中的多个计算装置之中的每个计算装置被配置为针对各自的数据记录来执行关于机器学习模型训练的数据流式计算，其中，所述数据流式计算表示为一个或多个由处理步骤组成的有向无环图，每个有向无环图对应于单个机器学习模型的训练任务。

参照图5，在步骤S100中，由多个计算装置之中的每个计算装置获取各自的数据记录。这里的数据记录指示用于模型训练的历史数据记录，在有监督学习的情况下具有相应的标记(label)。例如，各个计算装置可首先分别从数据源读取各自将处理的数据记录，计算装置之间读取的数据记录没有交集，也就是说，每个计算装置会分到总体数据记录的一部分，然后一起做相同或不同的训练任务。在计算装置已经将数据记录读取至本地存储之后，后续在需要执行相关运算处理时则可直接从本地获取相应的数据记录。

接下来，在步骤S200中，由计算装置从分布式系统中的参数存储器获取机器学习模型的参数。这里，各个计算装置可从单一的参数存储器获取全部所需的参数；或者，在参数存储器具有分布式参数服务器结构的情况下，计算装置除了从与其集成一体的部分参数服务器获取参数之外，还会需要从其他的部分参数服务器获取另外的参数。

在步骤S300中，由计算装置利用获取的参数来针对各自的数据记录执行关于机器学习模型训练的运算。这里，计算装置可基于先前获取的数据记录和参数来完成数据流式计算中所涉及的运算步骤。

在步骤S400中，由参数存储器根据计算装置的运算结果来更新所述参数。这里，根据机器学习算法和分布式框架的设计等因素，参数存储器可按照一定的频率来更新参数，例如，每当完成一条数据记录的运算之后，各计算装置可将运算结果汇总到参数存储器，由参数存储器根据预定的更新方式来执行参数的更新。此外，参数更新的频率并不受限于一条数据，例如，可基于一批数据或一轮迭代的运算结果来更新参数。

应注意，图5中的各步骤并非受限于特定的执行顺序，例如，本领域技术人员应理解，在针对大量数据记录进行迭代运算的过程中，往往需要多次从外部或本地获取数据记录和/或参数。

当训练得到的机器学习模型比较小时，可在每一个计算实体上均单独存放一份完整的模型参数，然而，当机器学习模型较大时，则需要将模型参数分块地存储在多个部分参数服务器上。由于计算装置执行运算任务时需要多次存取数据，所以有必要设置适当的灾备措施。不同于现有技术中频繁执行灾备的处理方式，根据本公开的示例性实施，在执行训练机器学习模型的数据流式计算时，针对数据记录的每一轮迭代来进行灾备。通过这种特定的灾备方式，可在实现灾备目标的同时大幅增加运行效率。

图6示出根据本公开另一示例性实施例的分布式机器学习系统执行机器学习模型训练的方法的流程图。在图6所示的方法中，按照每轮迭代来执行灾备，其中的步骤S100、S200、S300和S400与图5所示的相应步骤类似，这里将不再赘述细节。

参照图6，在步骤S500中，确定是否针对全部数据记录执行了一轮迭代训练。如果尚未完成一轮迭代，则所述方法进行到步骤S700。如果确定完成了一轮迭代，则在步骤S600中，将当前得到的模型参数进行备份，例如，可在多个部分参数服务器之间额外地交叉存储当前得到的模型参数，即，每个部分参数服务器除了保持自己的那一部分参数之外，还额外存储其他参数服务器所维护的参数；或者，可在除了参数存储器之外的其他装置上备份所述参数。这里，可备份一份或多份当前得到的模型参数，以确保灾备的实现。

在步骤S700中，确定是否完成了机器学习模型的训练，如果完成了训练，则得到了由参数组成的机器学习模型。否则，所述方法返回步骤S100以继续获取新的数据记录，这里，根据之前的处理流程，所述新的数据记录既可以是在本轮迭代尚未完成时继续获取的数据记录，也可以是在本轮迭代刚完成时重新获取的数据记录。这些数据记录既可来自外部数据源，也可来自计算装置本地。

图7示出根据本公开示例性实施例的分布式机器学习系统执行机器学习模型预估的方法的流程图。所述方法涉及的步骤可由之前描述的分布式机器学习系统中的计算装置和/或参数存储器(例如，部分参数服务器2001)来执行，例如，可由计算装置和/或参数服务器根据预先设定的配置来执行，其中，所述分布式系统中的多个计算装置之中的每个计算装置被配置为针对各自的数据记录来执行关于机器学习模型预估的数据流式计算，其中，所述数据流式计算表示为一个或多个由处理步骤组成的有向无环图，每个有向无环图对应于单个机器学习模型的训练任务。

参照图7，在步骤S110中，由多个计算装置之中的每个计算装置获取各自的数据记录。这里的数据记录指示用于模型预估(或测试)的数据记录。各个计算装置可分别从数据源读取各自将处理的数据记录，计算装置之间读取的数据记录没有交集，也就是说，每个计算装置会分到总体数据记录的一部分，然后一起做相同或不同的预估任务。

接下来，在步骤S210中，由计算装置从分布式系统中的参数存储器获取机器学习模型的参数。这里，各个计算装置可从单一的参数存储器获取全部所需的参数；或者，在参数存储器具有分布式参数服务器结构的情况下，计算装置除了从与其集成一体的部分参数服务器获取参数之外，还会需要从其他的部分参数服务器获取另外的参数。

在步骤S310中，由计算装置利用获取的参数来针对各自的数据记录执行关于机器学习模型预估的运算。这里，计算装置可基于先前获取的数据记录和参数来完成数据流式计算中所涉及的运算步骤。

以上参照图5到图7描述了根据本公开示例性实施例的分布式机器学习系统执行机器学习的方法，这里，可将一些具体运算或其他处理封装为可调用的函数，例如，可将数据流式计算中的同步等待、数据合并和广播交互等处理封装为可调用的函数。上述方式使得编程人员在需要的时候直接调用，从而帮助编程人员集中在分布式实现逻辑，有效地控制算法，而不必实现复杂的底层逻辑。

此外，应注意，虽然在图5到图7的方法流程图中顺序地显示了处理流程中的各个步骤，但是应注意，各步骤的执行顺序并非受限于时间顺序，也可同时进行或按照不同的顺序执行。例如，在计算装置与其相应的部分参数服务器集成于单一计算机器的情况下，计算装置可首先利用本地的参数来完成相应的运算，然后再通过系统的通信功能从其他计算机器上的部分参数服务器获取其他参数，进而基于所述其他参数来完成其余运算。

根据本公开的示例性实施例，在计算装置执行数据流式计算时，如果所述数据流式计算涉及多个有向无环图，则计算装置可通过合并不同有向无环图中相同的处理步骤来执行数据流式计算。例如，计算装置可通过从上游开始合并有向无环图中的相同处理步骤来减少计算量，使得多个任务运行的时间少于分别运行各个任务的时间和。

图8示出根据本公开示例性实施例的通过合并有向无环图来执行数据流式计算的示例。图8中的(a)示出表示计算装置需要执行的数据流式计算的有向无环图，也就是说，计算装置均需要执行如图8中的(a)所示的计算任务。具体说来，图8中的(a)所示出的数据流式计算包括两个独立的有向无环图，与第一个有向无环图相应的第一任务由处理1、处理2、处理3、处理4这四个处理步骤组成，而与第二个有向无环图相应的第二任务由处理1、处理2、处理5和处理6这四个处理步骤组成。这里，处理步骤可表示诸如获取数据记录、运算、输出运算结果等各种处理。在执行到特定步骤时，各个计算装置可通过封装好的函数在彼此之间实现同步功能。

根据本公开的示例性实施例，计算装置可通过从上游开始分析有向无环图来搜索并合并相同的处理步骤，例如，假设两个有向无环图均需要从相同的数据源获取数据记录，并且，最初的两个步骤是相同的(均为处理1和处理2)，则计算装置可首先合并相同的处理步骤，以得到如图8中的(b)示出的有向无环图。通过这种方式，可仅执行合并后的有向无环图，减少实际的计算量和读写量，带来性能提升。

图9示出根据本公开示例性实施例的按照键值对来保存机器学习模型的参数的示例。根据本公开的示例性实施例，机器学习模型的众多参数可按照键值对的形式来保存，作为示例，当存在多套键值对(例如，同一机器学习算法的多套配置)时，会具有如图9中的(a)所示的键值对形式，其中，在每一套配置下，各个键对应各自的值，例如，k1、k2、k3、…、kn分别对应v11、 v12、v13、…、v1n，或者，k1、k2、k3、…、kn分别对应v21、v22、v23、…、v2n，其中，n为大于1的整数。根据本公开的示例性实施例，可通过合并key来保存键值对，以形成如图9中的(b)所示的键值对形式，其中，单个key可对应多个value，例如，k1对应v11和v21两者，从而减少了参数存储器的存储开销。另一方面，当计算装置与参数存储器之间需要同时交互两种配置的相关参数时，可在传输过程中进行key的合并和/或压缩，从而减少了网络传输开销。

根据本公开的一个示例性实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被参数存储器和多个计算装置执行时，实现前述任一实施例中所述的方法。

根据本公开的另一示例性实施例，还提供一种执行机器学习的系统，其中，该系统包括至少一个处理器和至少一个存储计算机指令的计算机可读存储介质，所述计算机指令被所述至少一个处理器运行时，促使所述至少一个处理器实现前述任一实施例中所述的方法。

应理解，根据本公开示例性实施例的分布式机器学习系统中的参数服务器、计算装置或组成它们的装置或单元等组成部分可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些组成部分可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。当它们以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。此外，这些组成部分所实现的一个或多个功能也可由物理实体设备(例如，计算机器等)中的组件来统一执行。

应注意，根据本公开示例性实施例的分布式机器学习系统可完全依赖计算机程序的运行来实现相应的功能，即，各个组成部分在计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

以上已经描述了本公开的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，并且本公开也不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本公开的保护范围应该以权利要求的范围为准。

Claims

一种执行机器学习的分布式系统，包括：

多个计算装置，其中，每个计算装置被配置为针对各自的数据记录来执行关于机器学习模型的数据流式计算，其中，所述数据流式计算表示为一个或多个由处理步骤组成的有向无环图，每个有向无环图对应于单个机器学习模型；

参数存储器，用于维护机器学习模型的参数；

其中，在执行训练机器学习模型的数据流式计算时，计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型训练的运算，并且，参数存储器根据计算装置的运算结果来更新所述参数；

或者，在执行利用机器学习模型进行预估的数据流式计算时，计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型预估的运算；

或者，在执行训练机器学习模型的数据流式计算时，计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型训练的运算，并且，参数存储器根据计算装置的运算结果来更新所述参数；以及在执行利用机器学习模型进行预估的数据流式计算时，计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型预估的运算。
如权利要求1所述的分布式系统，其中，所述参数存储器具有分布式参数服务器结构，其中，在所述分布式参数服务器结构下，每一部分参数服务器与相应的计算装置集成为一体。
如权利要求1所述的分布式系统，其中，在执行训练机器学习模型的数据流式计算时，针对数据记录的每一轮迭代来进行灾备。
如权利要求1所述的分布式系统，其中，所述数据记录对应于机器学习模型的部分或全部参数。
如权利要求1所述的分布式系统，其中，计算装置通过合并不同有向无环图中相同的处理步骤来执行数据流式计算。
如权利要求1所述的分布式系统，其中，参数存储器按照键值对来保存机器学习模型的参数，并且，具有相同键的键值对被保存为单个键对应于多个值的形式。
如权利要求1所述的分布式系统，其中，所述参数存储器包括：接口装置、处理装置和参数存储装置；

接口装置，用于从计算装置接收请求获取参数的指令，向计算装置发送相应的参数；或者，用于从计算装置接收请求获取参数的指令，向计算装置发送相关的参数，以及从计算装置接收用于更新参数的运算结果以及相关的指令；

处理装置，用于分析来自计算装置的请求获取参数的指令，将相应的参数从参数存储装置提供给接口装置；或者，用于分析来自计算装置的请求获取参数的指令，将相应的参数从参数存储装置提供给接口装置，以及用于分析来自计算装置的用于更新参数的运算结果以及相关的指令，根据相应的参数更新方式来执行参数的更新，并将更新后的参数保存在参数存储装置中；

参数存储装置，用于保存机器学习模型的参数。
如权利要求1所述的分布式系统，其中，所述计算装置包括：接口单元和运算单元。

接口单元，用于向参数存储器发送请求获取参数的指令，并从参数存储器接收所请求的相应的参数；或者，用于向参数存储器发送请求获取参数的指令，并从参数存储器接收所请求的相应的参数，以及用于向参数存储器提供用于更新参数的运算结果以及相关的指令；

运算单元，用于利用机器学习模型的参数，针对数据记录来执行数据流式计算。
一种利用分布式系统来执行机器学习的方法，其中，所述分布式系统中的多个计算装置之中的每个计算装置被配置为针对各自的数据记录来执行关于机器学习模型的数据流式计算，其中，所述数据流式计算表示为一个或多个由处理步骤组成的有向无环图，每个有向无环图对应于单个机器学习模型，所述方法包括：

由多个计算装置之中的每个计算装置获取各自的数据记录；

由计算装置从分布式系统中的参数存储器获取机器学习模型的参数；

其中，在执行训练机器学习模型的数据流式计算时，由计算装置利用获取的参数来针对各自的数据记录执行关于机器学习模型训练的运算，并且，由参数存储器根据计算装置的运算结果来更新所述参数；

或者，在执行利用机器学习模型进行预估的数据流式计算时，由计算装置利用获取的参数来针对各自的数据记录执行关于机器学习模型预估的运算；

或者，在执行训练机器学习模型的数据流式计算时，由计算装置利用获取的参数来针对各自的数据记录执行关于机器学习模型训练的运算，并且，由参数存储器根据计算装置的运算结果来更新所述参数；以及在执行利用机器学习模型进行预估的数据流式计算时，由计算装置利用获取的参数来针对各自的数据记录执行关于机器学习模型预估的运算。
如权利要求9所述的方法，其中，所述参数存储器具有分布式参数服务器结构，其中，在所述分布式参数服务器结构下，每一部分参数服务器与相应的计算装置集成为一体。
如权利要求9所述的方法，其中，在执行训练机器学习模型的数据流式计算时，针对数据记录的每一轮迭代来进行灾备。
如权利要求9所述的方法，其中，所述数据记录对应于机器学习模型的部分或全部参数。
如权利要求9所述的方法，其中，计算装置通过合并不同有向无环图中相同的处理步骤来执行数据流式计算。
如权利要求9所述的方法，其中，参数存储器按照键值对来保存机器学习模型的参数，并且，具有相同键的键值对被保存为单个键对应于多个值的形式。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被参数存储器和多个计算装置执行时，实现如权利要求9-14中任一项所述的方法。
一种执行机器学习的系统，其中，该系统包括至少一个处理器和至少一个存储计算机指令的计算机可读存储介质，所述计算机指令被所述至少一个处理器运行时，促使所述至少一个处理器实现如权利要求9-14中任一项所述的方法。