WO2018058707A1

WO2018058707A1 - 任务处理方法和分布式计算框架

Info

Publication number: WO2018058707A1
Application number: PCT/CN2016/102124
Authority: WO
Inventors: 张云聪; 温翔; 柴华; 王聪; 朱冠胤
Original assignee: 北京百度网讯科技有限公司
Priority date: 2016-09-30
Filing date: 2016-10-14
Publication date: 2018-04-05
Also published as: CN106383738A; JP2019528522A; KR20190020800A; CN106383738B; US20190213217A1; KR102161545B1; JP6781819B2; EP3474139A4; US11709894B2; EP3474139A1

Abstract

本申请公开了任务处理方法和分布式计算框架。该方法的一具体实施方式包括：解析分布式计算任务对应的表达式，构建分布式计算任务对应的任务描述信息，任务描述信息用于描述算子与分布式数据集的对应关系，其中，算子作用于分布式数据集和/或对分布式数据集进行分组之后得到的分布式数据集；基于任务描述信息，确定算子所作用于的分布式数据集；利用算子对算子所作用于的分布式数据集进行分布式计算。实现了在分布式计算中，构建拓扑结构描述算子的作用范围以及嵌套关系，同一算子可同时作用在分布式数据集和对分布式数据集分组之后得到的分布式数据集，从而描述出不同计算需求的分布式计算任务。

Description

任务处理方法和分布式计算框架

相关申请的交叉引用

本申请要求于2016年9月30日提交的中国专利申请号为“201610873646.X”的优先权，其全部内容作为整体并入本申请中。

技术领域

本申请涉及计算机领域，具体涉及分布式计算领域，尤其涉及任务处理方法和分布式计算框架。

背景技术

在分布式计算中，需要采用逻辑计划来描述分布式计算任务。目前，现有的分布式计算框架中，通常采用的构建逻辑计划的方式为：对算子的上下游关系进行描述。

然而，当采用方式构建逻辑计划时，无法描述算子作用的数据的范围。例如，分布式计算框架Apache Spark、Google CloudDataflow等分布式计算框架仅在全局上支持分布式数据集，在将分布式数据集进行分组得到分组数据后，无法再次对分组数据进行分组。导致构建出的逻辑计划无法描述实际的分布式计算中经常遇到的诸如对数据进行分组，然后对分组数据进行操作的需求。

发明内容

本申请提供了任务处理方法和分布式计算框架，用于解决上述背景技术部分存在的技术问题。

第一方面，本申请提供了任务处理方法，该方法包括：解析分布式计算任务对应的表达式，构建分布式计算任务对应的任务描述信息，任务描述信息用于描述算子与分布式数据集的对应关系，其中，算子作用于分布式数据集和/或对分布式数据集进行分组之后得到的分布式数据集；基于任务描述信息，确定算子所作用于的分布式数据集；利用算子对算子所作用于的分布式数据集进行分布式计算。

第二方面，本申请提供了分布式计算框架，该分布式计算框架包括：构建单元，配置用于解析分布式计算任务对应的表达式，构建分布式计算任务对应的任务描述信息，任务描述信息用于描述算子与分布式数据集的对应关系，其中，算子作用于分布式数据集和/或对分布式数据集进行分组之后得到的分布式数据集；确定单元，配置用于基于任务描述信息，确定算子所作用于的分布式数据集；计算单元，配置用于利用算子对算子所作用于的分布式数据集进行分布式计算。

本申请提供的任务处理方法和分布式计算框架，通过解析分布式计算任务对应的表达式，构建分布式计算任务对应的任务描述信息，任务描述信息用于描述算子与分布式数据集的对应关系，其中，算子作用于分布式数据集和/或对分布式数据集进行分组之后得到的分布式数据集；基于任务描述信息，确定算子所作用于的分布式数据集；利用算子对算子所作用于的分布式数据集进行分布式计算。实现了在分布式计算中，构建拓扑结构描述算子的作用范围以及嵌套关系，同一算子可同时作用在分布式数据集和对分布式数据集分组之后得到的分布式数据集，从而描述出不同计算需求的分布式计算任务。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了根据本申请的任务处理方法的一个实施例的流程图；

图2示出了采用DAG图描述分布式计算任务的一个示例性效果图；

图3示出了采用树结构描述分布式计算任务的一个示例性效果图；

图4示出了采用树结构与DAG图描述分布式计算任务的一个示例性效果图；

图5示出了根据本申请的分布式计算框架的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的分布式计算框架的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了根据本申请的任务处理方法的一个实施例的流程100。该方法包括以下步骤：

步骤101，解析分布式计算任务对应的表达式，以及构建分布式计算任务对应的任务描述信息。

在本实施例中，分布式计算任务可以利用表达式进行表示。可以利用任务描述信息来描述分布式计算任务，可以将任务描述信息称之为逻辑计划。在处理分布式计算任务时，可以解析分布式计算任务的表达式，构建用于分布式计算任务对应的逻辑计划。

在本实施例中，分布式计算任务的逻辑计划可以包含算子以及算子所在的域。算子可以表示对数据的操作，以一次学校的学生的成绩数据为例，可以将对学生的成绩数据取前3名的操作称之为对学生的成绩数据取前3名的算子。域可以用于表示对数据的分组，通过算子所在的域，可以确定算子所作用的分布式数据集。例如，一个对学生的成绩数据取前3名的算子所在的域为年级域，则该年级域表示对包含整个学校的所有学生的成绩数据的分布式数据集按年级进行分组，对学生的成绩数据取前3名的算子作用的分布式数据集为分组之后得到的包含一个年级的学生的成绩数据的分布式数据集。

在本实施例中，逻辑计划可以采用以下形式进行定义：

逻辑计划{

域(单根)

}

域:{

父节点：空|域

子节点：空|[域|算子]

}

算子{

上游：空|[算子]

下游：空|[算子]

父节点：域

}

在本实施例中，可以定义进入域和离开域的语义。进入一个域：开始对分布式数据集进行分组。进入一个域，可以首先接入一个用于读取表达式中用来对分布式数据集进行分组的关键字的算子。离开一个域，则不再对分布式数据集进行分组。所有由离开的域所产生的分布式数据集汇合到一起，流入下一个节点。

以对学生的成绩数据分年级取前3名和分班取前3名的分布式计算任务为例，逻辑计划可以概述为：首先有一个全局域，全局域的作用范围是所有学生的成绩。全局域上有一个输入，可以从该输入中读取年级信息，生成年级域，取前3名的算子可以被放置于年级域中，用于对每个年级的学生的成绩取前3名。同时，在年级域中，可以再读取班级信息，生成班级域，取前3名的算子可以被放置于班级域中，用于将每个班级的学生的成绩取前3名。最后，可以将两次取前3名的结果通过位于全局域上的输出算子输出。

在本实施例的一些可选的实现方式中，任务描述信息为拓扑结构，拓扑结构包括：算子、域，域用于指示分布式数据集对应的范围。

在本实施例中，任务描述信息可以为拓扑结构。拓扑结构可以包括算子、域。域用于表示对数据的分组。域的父节点为空或域，域的子节点为域或算子。

在本实施例的一些可选的实现方式中，表达式包括：分组算子关键字、分组关键字、操作算子关键字。

在本实施例中，分布式计算任务对应的表达式包括：分组算子关键字、分组关键字、操作算子关键字。

在本实施例的一些可选的实现方式中，解析分布式计算任务对应的表达式，构建分布式计算任务对应的任务描述信息包括：创建分组关键字对应的域；确定操作算子关键字对应的操作算子；构建拓扑结构，其中，域在拓扑结构中的子节点包括：分组算子关键字对应的分组算子、操作算子。

下面以一个描述对学生的成绩数据分年级取前3名和分班取前3名的分布式计算任务的表达式为例，说明解析分布式计算任务对应的表达式的过程：

当表达式中出现分组算子关键字(例如GroupBy)和表示按照年级进行分组的分组关键字时，可以根据该分组关键字确定对包含学校的所有学生的成绩数据的分布式数据集按照年级进行分组。当表达式中该分组关键字之前包含对学生的成绩数据取前3名的算子对应的操作算子关键字时，可以根据该操作算子关键字确定对学生的成绩数据取前3名的算子作用的分布式数据集为分组之后得到的包含一个年级的学生的成绩数据的分布式数据集。

当表达式中出现分组算子关键字(例如GroupBy)和表示按照班级进行分组的分组关键字时，可以根据该分组关键词确定对包含一个年级的学生的成绩数据的分布式数据集按照班级进行分组。当表达式中该分组关键字之前包含对学生的成绩数据取前3名的算子对应的操作算子关键字时，可以通过该操作算子关键字确定对学生的成绩数据取前3名的算子作用的分布式数据集为包含一个班级的学生的成绩数据的分布式数据集。

在对分布式计算任务的表达式进行解析，确定了对学生的成绩数据取前3名的算子作用的分布式数据集分别为每一个年级的学生的成绩数据和每一个班级的学生的成绩数据之后，可以构建出用于描述对学生的成绩数据分年级取前3名和分班取前3名的分布式计算任务的拓扑结构。

在该拓扑结构中，包含表示学生的成绩数据的范围为学校的所有学生的成绩数据的域，即全局域。该域的子节点可以包含输入节点、输出节点、表示学生的成绩数据的范围为年级的域，即年级域。包含学校的所有学生的成绩数据的分布式数据集可以从输入节点进行输入。对一个年级的学生的成绩数据取前3名以及对一个年级中的班级的学生的成绩数据取前3名之后得到的结果可以进行汇总后在输出节点进行输出。

在该拓扑结构中，表示学生的成绩数据的范围为年级的域的子节点包含用于读取年级信息的分组算子、对学生的成绩数据取前3名的操作算子、表示学生的成绩数据的范围为班级的域。该分组算子用于从输入节点中读取年级信息，即按照年级对输入节点输入的包含学校的所有学生的成绩数据的分布式数据集进行分组，得到包含每一个年级的学生的成绩数据的分布式数据集。对学生的成绩数据取前3名的操作算子用于对每一个年级的学生的成绩数据取前3名。

在该拓扑结构中，表示学生的成绩数据的范围为班级的域的子节点包含用于读取班级信息的分组算子、对学生的成绩数据取前3名的操作算子。该分组算子用于读取班级信息，即按照班级对包含一个年级的学生的成绩数据的分布式数据集进行分组，得到包含每一个班级的学生的成绩数据的分布式数据集。对学生的成绩数据取前3名的操作算子用于对每一个班级的学生的成绩数据取前3名。

请参考图2，其示出了采用DAG图描述分布式计算任务的一个示例性效果图。

在图2中，示出了输入节点、读取年级信息节点、读取班级信息节点、取成绩前3名节点、输出节点。上述节点所表示的算子之间可以构成上下游关系，形成一个DAG图(Directed Acyclic Graph，有向无环图)。输入节点为用于接收输入的包含学校的所有学生的成绩数据的分布式数据集的输入算子。读取年级信息节点为用于读取年级信息的分组算子。读取班级信息节点为用于读取班级信息的分组算子。取成绩前3名节点分别为对年级的学生的成绩数据取前3名的操作算子和对班级的学生的成绩数据取前3名的操作算子。输出节点为用于输出对年级的学生的成绩数据和对班级的学生的成绩数据取前3名之后得到的结果的输出算子。

请参考图3，其示出了采用树结构描述分布式计算任务的一个示例性效果图。

在图3中，示出了输入节点、读取年级信息节点、读取班级信息节点、取成绩前3名节点、输出节点、全局域节点、年级域节点、班级域节点。

全局域节点的子节点包含输入节点、输出节点、年级域节点。输入节点可以为接收输入的包含学生的成绩数据的分布式数据集的输入算子。输出节点可以为输出利用算子对分布式数据集进行分布式计算得到的计算结果的输出算子。

年级域的子节点包含读取年级信息节点、取成绩前3名节点。读取年级信息节点可以为用于读取年级信息的分组算子，取成绩前3名节点可以为对学生的成绩数据取前3名的操作算子。

班级域的子节点包含读取班级信息节点、取成绩前3名节点。读取班级信息节点可以为读取班级信息的分组算子，取成绩前3名节点可以为对学生的成绩数据取前3名的操作算子。

请参考图4，其示出了采用树结构与DAG图描述分布式计算任务的一个示例性效果图。

在图4中，示出了利用实线表示的输入节点、读取年级信息节点、读取班级信息节点、取成绩前3名节点、输出节点，利用虚线表示的全局域节点、年级域节点、班级域节点。

输入节点可以为接收输入的包含学生的成绩数据的分布式数据集的输入算子。输出节点可以为输出利用算子对分布式数据集进行分布式计算得到的计算结果的输出算子。

读取年级信息节点可以为用于读取年级信息的分组算子，取成绩前3名节点可以为对学生的成绩数据取前3名的操作算子。

读取班级信息节点可以为读取班级信息的分组算子，取成绩前3名节点可以为对学生的成绩数据取前3名的操作算子。

算子之间的连线可以用于描述算子的上下游关系，节点之间的嵌套可以用于描述父子关系。

步骤102，基于任务描述信息，确定算子所作用于的分布式数据集。

在本实施例中，在通过步骤101解析分布式计算任务对应的表达式，构建分布式计算任务对应的任务描述信息例如拓扑结构之后，可以基于任务描述信息，确定算子所作用的分布式数据集。

以对学生的成绩数据分年级取前3名和分班取前3名的分布式计算任务为例，在通过步骤101构建出的分布式计算任务的任务描述信息即拓扑结构中，包含根节点即全局域、输入节点、输出节点、年级域、班级域节点、对学生的成绩数据取前3名的操作算子。可以遍历该拓扑结构中的节点，在遍历过程中，确定出对学生的成绩数据取前3名的操作算子分别位于年级域、班级域中，进而确定出对学生的成绩数据取前3名的算子作用的分布式数据集分别为每一个年级的学生的成绩数据和每一个班级的学生的成绩数据。

步骤103，利用算子对算子所作用于的分布式数据集进行分布式计算。

在本实施例中，在通过步骤102基于任务描述信息，确定算子所作用于的分布式数据集之后，可以利用算子对算子所作用于的分布式数据集进行分布式计算。

以对学生的成绩数据分年级取前3名和分班取前3名的分布式计算任务为例，在通过步骤102确定出对学生的成绩数据取前3名的算子作用的分布式数据集分别为每一个年级的学生的成绩数据和每一个班级的学生的成绩数据。可以分别对每一个年级的学生的成绩数据和每一个班级的学生的成绩数据进行分布式计算即取前3名。然后，可以通过在全局域中的输出节点输出结果。

请参考图5，作为对上述各图所示方法的实现，本申请提供了一种分布式计算框架的一个实施例，该装置实施例与图2所示的方法实施例相对应。

如图5所示，本实施例的分布式计算框架500包括：构建单元501，确定单元502，计算单元503。其中，构建单元501配置用于解析分布式计算任务对应的表达式，以及构建分布式计算任务对应的任务描述信息，任务描述信息用于描述算子与分布式数据集的对应关系，其中，算子作用于分布式数据集和/或对分布式数据集进行分组之后得到的分布式数据集；确定单元502配置用于基于任务描述信息，确定算子所作用于的分布式数据集；计算单元503配置用于利用算子对算子所作用于的分布式数据集进行分布式计算。

在本实施例的一些可选的实现方式中，构建单元501包括：创建子单元(未示出)，配置用于创建分组关键字对应的域；操作算子确定子单元(未示出)，配置用于确定操作算子关键字对应的操作算子；拓扑结构构建子单元(未示出)，配置用于构建拓扑结构，其中，域在拓扑结构中的子节点包括：分组算子关键字对应的分组算子、操作算子。

在本实施例的一些可选的实现方式中，拓扑结构的根节点的子节点包括：用于输出利用算子对算子所作用于的分布式数据集进行分布式计算得到的计算结果的输出算子。

图6示出了适于用来实现本申请实施例的分布式计算框架的计算机系统的结构示意图。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM703中，还存储有系统600操作所需的各种程序和数据。CPU701、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述设备中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：解析分布式计算任务对应的表达式，以及构建分布式计算任务对应的任务描述信息，所述任务描述信息用于描述算子与分布式数据集的对应关系，其中，所述算子分布式数据集和/或对所述分布式数据集进行分组之后得到的分布式数据集；基于所述任务描述信息，确定所述算子所作用于的分布式数据集；利用所述算子对所述算子所作用于的分布式数据集进行分布式计算。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

一种任务处理方法，其特征在于，所述方法包括：

解析分布式计算任务对应的表达式，以及构建分布式计算任务对应的任务描述信息，所述任务描述信息用于描述算子与分布式数据集的对应关系，其中，所述算子作用于分布式数据集和/或对所述分布式数据集进行分组之后得到的分布式数据集；

基于所述任务描述信息，确定所述算子所作用于的分布式数据集；

利用所述算子对所述算子所作用于的分布式数据集进行分布式计算。
根据权利要求1所述的方法，其特征在于，所述表达式包括：分组算子关键字、分组关键字、操作算子关键字。
根据权利要求2所述的方法，其特征在于，任务描述信息为拓扑结构，所述拓扑结构包括：算子、域，所述域用于指示分布式数据集对应的范围。
根据权利要求3所述的方法，其特征在于，所述解析分布式计算任务对应的表达式，以及构建分布式计算任务对应的任务描述信息包括：

创建所述分组关键字对应的域；

确定所述操作算子关键字对应的操作算子；

构建所述拓扑结构，其中，所述域在所述拓扑结构中的子节点包括：所述分组算子关键字对应的分组算子、所述操作算子。
根据权利要求4所述的方法，其特征在于，所述拓扑结构的根节点的子节点包括：用于输出利用所述算子对所述算子所作用于的分布式数据集进行分布式计算得到的计算结果的输出算子。
一种分布式计算框架，其特征在于，所述分布式计算框架包括：

构建单元，配置用于解析分布式计算任务对应的表达式，以及构建分布式计算任务对应的任务描述信息，所述任务描述信息用于描述算子与分布式数据集的对应关系，其中，所述算子分布式数据集和/或对所述分布式数据集进行分组之后得到的分布式数据集；

确定单元，配置用于基于所述任务描述信息，确定所述算子所作用于的分布式数据集；

计算单元，配置用于利用所述算子对所述算子所作用于的分布式数据集进行分布式计算。
根据权利要求6所述的分布式计算框架，其特征在于，所述表达式包括：分组算子关键字、分组关键字、操作算子关键字。
根据权利要求7所述的分布式计算框架，其特征在于，任务描述信息为拓扑结构，所述拓扑结构包括：算子、域，所述域用于指示分布式数据集对应的范围。
根据权利要求8所述的分布式计算框架，其特征在于，所述构建单元包括：

创建子单元，配置用于创建所述分组关键字对应的域；

操作算子确定子单元，配置用于确定所述操作算子关键字对应的操作算子；

拓扑结构构建子单元，配置用于构建所述拓扑结构，其中，所述域在所述拓扑结构中的子节点包括：所述分组算子关键字对应的分组算子、所述操作算子。
根据权利要求9所述的分布式计算框架，其特征在于，所述拓扑结构的根节点的子节点包括：用于输出利用所述算子对所述算子所作用于的分布式数据集进行分布式计算得到的计算结果的输出算子。
一种设备，包括：

处理器；和

存储器，

所述存储器中存储有能够被所述处理器执行的计算机可读指令，在所述计算机可读指令被执行时，所述处理器执行任务处理方法，所述方法包括：

解析分布式计算任务对应的表达式，以及构建分布式计算任务对应的任务描述信息，所述任务描述信息用于描述算子与分布式数据集的对应关系，其中，所述算子作用于分布式数据集和/或对所述分布式数据集进行分组之后得到的分布式数据集；

基于所述任务描述信息，确定所述算子所作用于的分布式数据集；

利用所述算子对所述算子所作用于的分布式数据集进行分布式计算。
一种非易失性计算机存储介质，所述计算机存储介质存储有能够被处理器执行的计算机可读指令，当所述计算机可读指令被处理器执行时，所述处理器执行任务处理方法，所述方法包括：

解析分布式计算任务对应的表达式，以及构建分布式计算任务对应的任务描述信息，所述任务描述信息用于描述算子与分布式数据集的对应关系，其中，所述算子作用于分布式数据集和/或对所述分布式数据集进行分组之后得到的分布式数据集；

基于所述任务描述信息，确定所述算子所作用于的分布式数据集；

利用所述算子对所述算子所作用于的分布式数据集进行分布式计算。