WO2016173351A1

WO2016173351A1 - 一种数据处理方法及装置

Info

Publication number: WO2016173351A1
Application number: PCT/CN2016/077379
Authority: WO
Inventors: 谭卫国; 邵刚
Original assignee: 华为技术有限公司
Priority date: 2015-04-29
Filing date: 2016-03-25
Publication date: 2016-11-03
Also published as: EP3267310A4; CN104834561B; CN104834561A; EP3267310A1; EP3267310B1; US20180032375A1; US10606654B2

Abstract

一种数据处理方法及装置，用以解决现有技术中融合多种计算框架的资源管理系统在处理数据任务时，不是通过运行时间和资源消耗选择计算框架，数据处理效率较低的问题，降低了系统的工作性能的问题。该方法为：针对子任务集中每个子任务，确定候选计算框架，并预测每个候选计算框架执行该子任务时对应的运行时间和资源消耗，并根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗，在候选计算框架中，筛选出执行该子任务的目标计算框架（204），执行该子任务（205）。这样，资源管理系统通过运行时间和资源消耗在多个计算框架中选择目标计算框架执行每个子任务，提高了数据处理效率，以及系统的工作性能。

Description

一种数据处理方法及装置

本申请要求于2015年4月29日提交中国专利局、申请号为201510212439.5，发明名称为“一种数据处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理方法及装置。

背景技术

近年来，随着社会信息化的快速发展，无论在科学研究、工业生产、商业和互联网领域，数据都呈现出爆炸式增长。目前，很多应用中的数据已从太字节(Terabyte，TB)级迅速发展到拍字节(Petabyte，PB)级甚至更高的数量级。因此，面向大数据处理的计算框架已经成为热点话题，其中具有代表性的计算框架包括海杜普(Hadoop)和Spark等。Hadoop和Spark等框架都在计算机技术领域获得了广泛的应用，但是每个计算框架均存在不足：例如，Hadoop提供的映射规约(MapReduce)模型虽然简单易用，但是其计算模型具有局限性，表达能力有限，在解决诸如迭代计算、图分析等复杂问题时，很难将算法映射到MapReduce模型中，且开发的工作量大，运行效率低下；而Spark虽然迭代运算性能好，但是对内存要求很高。

因此，大数据处理的发展趋势为通过融合多种计算框架的数据处理平台处理大数据，即在计算机的集群中通过资源管理系统来容纳多种计算框架，典型的资源管理系统如Mesos以及YARN等。

然而，由于这类资源管理系统允许包含的多种计算框架共享一个集群资源，且每个计算框架的编程语言不尽相同，因此，收到待处理的数据任务时，用户通常根据经验指定计算框架执行该待处理数据任务，而不是通过运行时间和资源消耗选择计算框架，数据处理效率较低，降低了系统的工作性能。

发明内容

本发明实施例提供一种数据处理方法及装置，用以解决现有技术中融合多种计算框架的资源管理系统在处理数据任务时，不是通过运行时间和资源消耗选择计算框架，数据处理效率较低的问题，降低了系统的工作性能。

本发明实施例提供的具体技术方案如下：

第一方面，一种数据处理方法，包括：

接收任务请求，所述任务请求中携带有用户提交的任务；

根据所述任务请求中的所述任务，生成包含至少一个子任务的子任务集；

确定执行每个子任务的输入数据；

针对所述子任务集中的每个子任务执行以下操作：

在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计算框架，其中，所述候选计算框架的数目大于或等于2；

根据该子任务的输入数据、以及每个候选计算框架对应的预测模型，分别预测每个候选计算框架执行该子任务时对应的运行时间和资源消耗；

根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗，在所述候选计算框架中，筛选出执行该子任务的目标计算框架；

基于筛选出的执行所述子任务集中的每个子任务的目标计算框架，执行对应的子任务。

结合第一方面，在第一种可能的实现方式中，所述任务请求中还携带有所述任务的输入数据；

确定执行每个子任务的输入数据，包括：

根据所述任务请求中携带的所述任务的输入数据，确定执行每个子任务的输入数据。

结合第一方面，在第二种可能的实现方式中，接收任务请求之前，还包括：

在系统配置的所有计算框架中，将具有执行相同任务类型的所有计算框架中的、执行所述相同任务类型的应用程序接口API通过预设的编程语言进行封装，形成统一API；

在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计算框架，包括：

确定该子任务的任务类型；

确定该子任务的任务类型对应的统一API；

根据确定的所述统一API，确定具有执行该子任务的任务类型的所有计算框架，并将确定的计算框架作为候选计算框架。

结合第一方面或第一方面的以上任一种可能的实现方式，在第三种可能的实现方式中，获得候选计算框架对应的预测模型，包括：

读取预设的训练样本集合，所述训练样本集合是针对所述候选计算框架执行该子任务的能力预设的；

分别以运行时间、资源消耗为目标特征，对所述训练样本集合中除运行时间、资源消耗以外的其它特征进行训练，得到所述候选计算框架对应的预测模型。

结合第一方面或第一方面的以上任一种可能的实现方式，在第四种可能的实现方式中，根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗，在所述候选计算框架中，筛选出执行该子任务的目标计算框架，包括：

在所述候选计算框架中，选择预测的资源消耗小于系统的可用资源的候选计算框架作为第一候选计算框架；

在所述第一候选计算框架中，筛选出预测的运行时间最小的第一候选计算框架作为目标计算框架。

结合第一方面的第三种可能的实现方式，在第五种可能的实现方式中，基于确定的执行所述子任务集中的每个子任务的目标计算框架，执行对应的子任务之后，还包括：

将在该子任务的目标计算框架中执行该子任务产生的各个特征，作为新的训练样本；

将所述新的训练样本添加至所述训练样本集合。

第二方面，一种数据处理装置，包括：

接收单元，用于接收任务请求，所述任务请求中携带有用户提交的任务；

生成单元，用于根据所述任务请求中的所述任务，生成包含至少一个子任务的子任务集；

确定单元，用于确定执行每个子任务的输入数据；

处理单元，用于针对所述子任务集中的每个子任务执行以下操作：

运行单元，用于基于筛选出的执行所述子任务集中的每个子任务的目标计算框架，执行对应的子任务。

结合第二方面，在第一种可能的实现方式中，所述接收单元接收的所述任务请求中还携带有所述任务的输入数据；

所述确定单元，用于：

结合第二方面，在第二种可能的首先方式中，配置单元，用于在接收任务请求之前，在系统配置的所有计算框架中，将具有执行相同任务类型的所有计算框架中的、执行所述相同任务类型的应用程序接口API通过预设的编程语言进行封装，形成统一API；

所述处理单元，在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计算框架时，用于：

确定该子任务的任务类型；

确定该子任务的任务类型对应的统一API；

结合第二方面或第二方面的以上任一种可能的实现方式，在第三种可能的实现方式中，所述处理单元在获得候选计算框架对应的预测模型时，用于：

结合第二方面或第二方面的以上任一种可能的实现方式，在第四种可能的实现方式中，所述处理单元，在筛选出执行该子任务的目标计算框架时，包括：

结合第二方面的第三种可能的实现方式，在第五种可能的实现方式中，所述运行单元，还用于：

基于确定的执行所述子任务集中的每个子任务的目标计算框架，执行对应的子任务之后，将在该子任务的目标计算框架中执行该子任务产生的各个特征，作为新的训练样本；

将所述新的训练样本添加至所述训练样本集合。

采用本发明技术方案，在多个计算框架均可以执行同一子任务时，通过运行时间和资源消耗在多个计算框架中选择目标计算框架执行该子任务，提高了数据处理效率，以及系统的工作性能。

附图说明

图1为本发明实施例提供的一种终端设备结构示意图；

图2为本发明实施例提供的一种数据处理方法的具体流程图；

图3为本发明实施例提供的一种任务分解示意图；

图4为本发明实施例提供的一种数据处理装置的结构示意图。

具体实施方式

采用本发明提供的数据处理方法，通过接收携带有用户提交的任务的任务请求后，根据该任务，生成包含至少一个子任务的子任务集；并确定执行每个子任务的输入数据，针对所述子任务集中的每个子任务执行以下操作，确定执行每个子任务的目标计算框架：在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计算框架，其中，所述候选计算框架的数目大于或等于2；根据该子任务的输入数据、以及每个候选计算框架对应的预测模型，分别预测每个候选计算框架执行该子任务时对应的运行时间和资源消耗；根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗，在所述候选计算框架中，筛选出执行该子任务的目标计算框架；最终基于确定的执行所述子任务集中的每个子任务的目标计算框架，执行对应的子任务。这样，资源管理系统通过运行时间和资源消耗在多个计算框架中选择目标计算框架执行每个子任务，提高了数据处理效率，以及系统的工作性能。

本发明实施例提供了一种数据处理方法、装置及终端设备，应用于融合多种计算框架的资源管理系统。下面结合附图对本发明优选的实施方式进行详细说明。

本发明实施例还提供了一种终端设备，该终端设备为融合多种计算框架的计算机等设备。参阅图1所示，该终端设备100包括：收发器101、处理器102、总线103以及存储器104，其中：

收发器101、处理器102以及存储器104通过总线103相互连接；总线103可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

收发器101用于与相连的其它设备进行通信，如接收任务请求等。

处理器102用于实现本发明实施例图2所示的数据处理方法，包括：

接收任务请求，任务请求中携带有用户提交的任务；

根据任务请求中的任务，生成包含至少一个子任务的子任务集；

确定执行每个子任务的输入数据；

针对子任务集中的每个子任务执行以下操作：

在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计算框架，其中，候选计算框架的数目大于或等于2；

根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗，在候选计算框架中，筛选出执行该子任务的目标计算框架；

基于筛选出的执行子任务集中的每个子任务的目标计算框架，执行对应的子任务。

可选的，任务请求中还携带有该任务的输入数据；

确定执行每个子任务的输入数据，包括：

根据任务请求中携带的该任务的输入数据，确定执行每个子任务的输入数据。

可选的，接收任务请求之前，还包括：

在系统配置的所有计算框架中，将具有执行相同任务类型的所有计算框架中的、执行该相同任务类型的应用程序接口(，API)通过预设的编程语言进行封装，形成统一API；

确定该子任务的任务类型；

确定该子任务的任务类型对应的统一API；

根据确定的统一API，确定具有执行该子任务的任务类型的所有计算框架，并将确定的计算框架作为候选计算框架。

可选的，获得候选计算框架对应的预测模型，包括：

读取预设的训练样本集合，训练样本集合是针对该候选计算框架执行该子任务的能力预设的；

分别以运行时间、资源消耗为目标特征，对该训练样本集合中除运行时间、资源消耗以外的其它特征进行训练，得到该候选计算框架对应的预测模型。

可选的，根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗，在候选计算框架中，筛选出执行该子任务的目标计算框架，包括：

在候选计算框架中，选择预测的资源消耗小于系统的可用资源的候选计算框架作为第一候选计算框架；

在第一候选计算框架中，筛选出预测的运行时间最小的第一候选计算框架作为目标计算框架。

可选的，基于确定的执行子任务集中的每个子任务的目标计算框架，执行对应的子任务之后，还包括：

将新的训练样本添加至针对目标计算框架执行该子任务的能力预设的训练样本集合。

该终端设备100还包括存储器104，用于存放程序，每个计算框架的预测模型，以及训练时得到的每个预测模型对应的训练样本集合等。具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。存储器104可能包含随机存取存储器(random access memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。处理器102执行存储器104所存放的应用程序，实现如上数据处理方法。

参阅图2所示，本发明实施例提供的一种数据处理方法的具体处理流程包括：

步骤201：接收任务请求，该任务请求中携带有用户提交的任务。

用户提交的任务为对大量数据进行处理的任务，如在数据库中某数据表中的数据中筛选设定条件的数据等，可选的，任务请求中还可以携带有用户提交的任务的输入数据。

可选的，在执行步骤201之前，还包括：

在系统配置的所有计算框架中，将具有执行相同任务类型的所有计算框架中的，执行所述相同任务类型的应用程序接口(Application Program Interface，API)通过预设的编程语言进行封装，形成统一API。

融合在资源管理系统中的计算框架，如Hadoop、Spark等，其中，不同的计算框架使用的编程语言可能不同，如Spark使用Scala编程语言，而hadoop使用Java编程语言，且每个计算框架可以实现多种不同的功能，即具有执行多种任务类型的任务的能力，每个计算框架为其能实现的每个功能提供对应的API，显然，开发者需要掌握多种编程语言，编程门槛较高，且系统的开发效率较低。相对于现有技术，在本发明实施例中，将不同计算框架中相同功能的API进行封装，成为统一API，因此，在实现该功能时，只需要调用对应的统一API即可，而无需在可以实现该功能的不同计算框架中指定一个计算框架。

统一API可以用任意一种编程语言来实现，下面以JAVA为统一API的编程语言为例，在将计算框架的API封装为统一API时，包括：

若计算框架提供的API的编程语言为JAVA，那么只需要按照该计算框架的API的要求来重组参数，即可封装为统一API；

若计算框架提供的API的编程语言为除JAVA以外的其它编程语言，需要通过JAVA的跨编程语言规范来调用该API，从而封装为统一API。

其中，JAVA的跨编程语言规范是现有技术，比如，通过JAVA编程语言调用使用可伸缩编程语言(Scala)的API时，由于使用Scala编程语言的API是基于JAVA虚拟机(JAVA Virtual Machine，JVM)的，因此，JAVA编程语言可以直接调用使用Scala编程语言的API；通过JAVA编程语言调用使用C/C++编程语言的API时，可以通过JAVA本地接口(JAVA Native Interface，JNI)方式调用；通过JAVA编程语言调用使用Python编程语言的API，可以通过Jython.jar 调用。

将不同计算框架中执行相同任务类型的API通过预设的编程语言进行封装，生成统一API，对编程语言的差异进行了屏蔽，极大降低开发者的编程门槛，提高了每个计算框架的灵活性和适应性。

可选的，在将不同计算框架中执行相同任务类型的API通过预设的编程语言进行封装生成统一API后，接收的任务请求中携带的用户提交的任务可以为采用与统一API的编程语言相通的编程语言描述的任务。

步骤202：根据任务请求中的任务，生成包含至少一个子任务的子任务集。

可选的，用户提交的任务，是多个子任务组合形成的，该任务中的子任务分布顺序类似于有向无环图，参阅图3所示，任务T包括5个子任务，分别为T1，T2，T3，T4，T5。对任务T进行任务分解处理，可以将该任务T分解成T1->T2->T3->T4->T5，或者T1->T3->T2->T4->T5，T2与T3可以并行执行，其它步骤顺序执行。将类似有向无环图的任务，进行任务分解，生成子任务集是现有技术，本发明实施例对此不再赘述。

步骤203：确定执行每个子任务的输入数据。

具体的，在任务请求中携带有用户提交的任务的输入数据时，直接根据该任务的输入数据，确定每个子任务的输入数据，或者，直接根据每个子任务确定对应的输入数据。

步骤204：针对子任务集中的每个子任务执行以下操作：在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计算框架，其中，所述候选计算框架的数目大于或等于2；根据该子任务的输入数据、以及每个候选计算框架对应的预测模型，分别预测每个候选计算框架执行该子任务时对应的运行时间和资源消耗；根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗，在所述候选计算框架中，筛选出执行该子任务的目标计算框架。

具体的，在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计算框架，包括：

确定该子任务的任务类型；

确定该子任务的任务类型对应的统一API；

根据确定的该统一API，确定具有执行该子任务的任务类型的所有计算框架，并将确定的计算框架作为候选计算框架。

可选的，预测模型可以是用户预设的，可以是通过机器学习得到的，具体的，通过机器学习获得具有执行该子任务的能力的一个候选计算框架对应的预测模型，包括：

读取预设的训练样本集合，该训练样本集合是针对该候选计算框架的执行该子任务的能力预设的；

分别以运行时间、资源消耗为目标特征，对该训练样本集合中除运行时间、资源消耗以外的其它特征进行训练，得到对应的预测模型。

其中，资源消耗可以为内存占用、CPU占用、I/O占用等，本发明实施例对此不做限定。

对训练样本集合进行训练时，可以采用多种机器学习算法，例如线性回归算法、支持向量机算法等，得到的预测模型例如：

运行时间＝0.83*输入数据的行数+0.24*输入数据的列数+0.1

内存占用＝0.24*输入数据的行数+0.14*输入数据的列数+0.15。

具体的，根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗，在候选计算框架中，筛选出执行该子任务的目标计算框架，包括：

这样，动态选择资源消耗小于系统的可用资源、且运行时间最小的候选计算框架执行子任务，提高了执行子任务的效率，使系统工作性能更好。

步骤205：基于筛选出的执行子任务集中的每个子任务的目标计算框架，执行对应的子任务。

每个子任务的目标计算框架，根据该子任务的任务类型对应的的统一API，执行该子任务。

执行子任务集中的每个子任务后，得到的结果即为用户提交的任务的结果。

在步骤205，基于筛选出的执行所述子任务集中的每个子任务的目标计算框架，执行对应的子任务之后，还包括：

将该新的训练样本添加至训练样本集合，该训练样本集合是针对该目标计算框架的执行该子任务的能力预设的。

这样，将计算框架实际的执行任务产生各个特征作为新的训练样本，不断对训练样本集合进行补充，并根据补充后的训练样本集合进行机器学习，产生新的预测模型，使预测模型越来越准确。

采用本发明实施例提供的数据处理方法，在多个计算框架均可以执行同一任务时，通过运行时间和资源消耗在多个计算框架中选择目标计算框架执行该子任务，提高了数据处理效率，以及系统的工作性能。且将不同计算框架中，执行相同任务类型的API通过预设的编程语言进行封装，生成统一API，对编程语言的差异进行了屏蔽，极大降低开发者的编程门槛，提高了每个计算框架的灵活性和适应性。

例1，接收到任务请求，其中携带的用户提交的任务T为如下结构化查询语言(Structured Query Language，SQL)语句：

“SELECT S#as 学生ID

,(SELECT score FROM SC WHERE SC.S#＝t.S#AND C#＝'001')AS数据库

,(SELECT score FROM SC WHERE SC.S#＝t.S#AND C#＝'002')AS英语

,(SELECT score FROM SC WHERE SC.S#＝t.S# AND C#＝'003')AS算法,COUNT(t.C#)AS有效课程数,AVG(t.score)AS平均成绩FROM SC AS t

GROUP BY t.S#

ORDER BY avg(t.Score)“

上述SQL语句表示的任务为“按照‘平均成绩’从高到低的顺序，显示所有学生的‘数据库’、‘英语’、‘算法’三门的课程成绩，并按照如下形式显示：学生ID，数据库，英语，算法，有效课程数，平均成绩”，其中，学生表如表1所示，课程表如表2所示，成绩表如表3所示：

表1学生表

S#	Sname
1	张三
2	李四
3	赵五

表2课程表

C#	Cname
001	数据库
002	英语
003	算法

表3成绩表

S#	C#	Score
1	001	85
2	001	90
3	001	95
1	002	90
2	002	80
3	002	70
1	003	60
2	003	80
3	003	100

将上述任务T进行任务分解处理，得到包含3个子任务的子任务集，分别为：T1，选择相关数据；T2，根据T1的结果形成新的数据表；T3，对T2的结果按照‘平均成绩’从高到低的顺序排序，每个子任务对应的SQL语句表4所示：

表4子任务对应的SQL语句

在针对每个子任务，动态选择目标计算框架时，通常选择资源消耗小于可用资源，且运行时间最小的计算框架，在本例中，假设每个子任务都有两个计算框架可供选择：Hadoop和Spark。用户提交的任务对应的输入数据为成绩表，输入数据的特征包括行数、列数等，假设该成绩表的行数为25415996行，列数为3列。每个计算框架执行每个子任务对应的预测模型为表5所示，其中在本实施例中，预测模型包括运行时间预测模型、内存占用预测模型：

表5计算框架针对不同子任务对应的预测模型

计算框架	子任务	运行时间预测模型(毫秒)	内存占用预测模型(MB)
Hadoop	T1	0.0001r+0.00034c	0.00015r+0.00024c
Hadoop	T2	0.00002r+0.00064c	0.00005r+0.00004c
Hadoop	T3	0.00005r+0.00004c	0.00003r+0.00009c
Spark	T1	0.00001r+0.00004c	0.00055r+0.00064c
Spark	T2	0.0002r+0.0016c	0.00035r+0.00084c
Spark	T3	0.00005r+0.0004c	0.00093r+0.0009c

其中，r为输入数据的行数，c为输入数据的列数；

将r＝25415996，c＝3代入表5中每个计算框架针对不同子任务对应的预测模型，得到每个计算框架执行每个子任务的运行时间和内存占用，如表6所示：

表6计算框架执行每个子任务的运行时间和内存占用

计算框架	子任务	运行时间(毫秒)	内存占用(MB)
Hadoop	T1	2541.60062	3812.40012
Hadoop	T2	508.32184	1270.79992
Hadoop	T3	1270.79992	762.48015
Spark	T1	254.16008	13978.79972
Spark	T2	5083.204	8895.60112
Spark	T3	1270.801	23636.87898

假设系统的可用内存为15000MB：

针对T1，预测通过Hadoop执行T1时的内存占用为3812.40012MB，而通过Spark执行T1时的内存占用为13978.79972MB，显然，两个内存占用均低于系统的可用内存15000MB。而预测的运行时间，在Spark中为354.16008毫秒，低于在Hadoop中的2541.60062毫秒，因此对于T1，选择使用Spark；

针对T2，预测通过Hadoop执行T2时的内存占用为1270.79992MB，而通过Spark执行T2时的内存占用为8895.60112MB，都低于系统的可用内存15000MB。而预测的运行时间，在Spark中为5083.204毫秒，高于在Hadoop中的508.32184毫秒，因此对于T2，选择使用Hadoop；

针对T3，预测通过Spark执行T3时的内存占用为23636.87898MB，高于系统的可用内存15000MB，因此不能选择Spark。预测通过Hadoop执行T3时的内存占用为762.48015MB，低于系统的可用内存15000MB，因此对于T3，选择使用Hadoop；

确定T1的目标计算框架为Spark，T2的目标计算框架为Hadoop，T3的目标计算框架为Hadoop，依次通过Spark，Hadoop，Hadoop执行T1，T2，T3，得到最终的结果：

其中，通过Spark执行T1后得到的结果如表7所示，通过Hadoop执行T2得到的结果如表8所示，通过Hadoop执行T3得到的结果如表9所示：

表7 T1的结果

学生ID	数据库	英语	算法	课程ID
1	85	90	60	001
1	85	90	60	002
1	85	90	60	003
2	90	80	80	001
2	90	80	80	002
2	90	80	80	003
3	95	70	100	001
3	95	70	100	002
3	95	70	100	003

表8 T2的结果

学生ID	数据库	英语	算法	有效课程数
1	85	90	60	3
2	90	80	80	3
3	95	70	100	3

表9 T3的结果

学生ID	数据库	英语	算法	有效课程数	平均成绩
1	85	90	60	3	78.333
2	90	80	80	3	83.333
3	95	70	100	3	88.333

表9即为任务T的最终结果。

基于以上实施例，本发明还提供了一种数据处理装置，参阅图4所示，该装置400包括：接收单元401、生成单元402、确定单元403、处理单元404，以及运行单元405，其中，

接收单元401，用于接收任务请求，任务请求中携带有用户提交的任务；

生成单元402，用于根据任务请求中的任务，生成包含至少一个子任务的子任务集；

确定单元403，用于确定执行每个子任务的输入数据；

处理单元404，用于针对子任务集中的每个子任务执行以下操作：

运行单元405，用于基于筛选出的执行子任务集中的每个子任务的目标计算框架，执行对应的子任务。

接收单元401接收的任务请求中还携带有该任务的输入数据；

确定单元403，用于：

该数据处理装置400还包括：配置单元406，用于在接收任务请求之前，在系统配置的所有计算框架中，将具有执行相同任务类型的所有计算框架中的、执行相同任务类型的API通过预设的编程语言进行封装，形成统一API；

处理单元404，在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计算框架时，用于：

确定该子任务的任务类型；

确定该子任务的任务类型对应的统一API；

处理单元404在获得候选计算框架对应的预测模型时，用于：

读取预设的训练样本集合，该训练样本集合是针对该候选计算框架执行该子任务的能力预设的；

处理单元404，在筛选出执行该子任务的目标计算框架时，包括：

运行单元405，还用于：

基于确定的执行子任务集中的每个子任务的目标计算框架，执行对应的子任务之后，将在该子任务的目标计算框架中执行该子任务产生的各个特征，作为新的训练样本；

综上所述，通过本发明实施例中提供的一种数据处理方法及装置，该方法通过接收携带有用户提交的任务的任务请求后，根据所述任务，生成包含至少一个子任务的子任务集；并确定执行每个子任务的输入数据，针对所述子任务集中的每个子任务执行以下操作，确定执行每个子任务的目标计算框架：在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计算框架，其中，所述候选计算框架的数目大于或等于2；根据该子任务的输入数据、以及每个候选计算框架对应的预测模型，分别预测每个候选计算框架执行该子任务时对应的运行时间和资源消耗；根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗，在所述候选计算框架中，筛选出执行该子任务的目标计算框架；最终基于确定的执行所述子任务集中的每个子任务的目标计算框架，分别执行对应的子任务。这样，资源管理系统通过运行时间和资源消耗在多个计算框架中选择目标计算框架执行每个子任务，提高了数据处理效率，以及系统的工作性能。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种数据处理方法，其特征在于，包括：

接收任务请求，所述任务请求中携带有用户提交的任务；

根据所述任务请求中的所述任务，生成包含至少一个子任务的子任务集；

确定执行每个子任务的输入数据；

针对所述子任务集中的每个子任务执行以下操作：

在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计算框架，其中，所述候选计算框架的数目大于或等于2；

根据该子任务的输入数据、以及每个候选计算框架对应的预测模型，分别预测每个候选计算框架执行该子任务时对应的运行时间和资源消耗；

根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗，在所述候选计算框架中，筛选出执行该子任务的目标计算框架；

基于筛选出的执行所述子任务集中的每个子任务的目标计算框架，执行对应的子任务。
如权利要求1所述的方法，其特征在于，所述任务请求中还携带有所述任务的输入数据；

确定执行每个子任务的输入数据，包括：

根据所述任务请求中携带的所述任务的输入数据，确定执行每个子任务的输入数据。
如权利要求1所述的方法，其特征在于，接收任务请求之前，还包括：

在系统配置的所有计算框架中，将具有执行相同任务类型的所有计算框架中的、执行所述相同任务类型的应用程序接口API通过预设的编程语言进行封装，形成统一API；

在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计算框架，包括：

确定该子任务的任务类型；

确定该子任务的任务类型对应的统一API；

根据确定的所述统一API，确定具有执行该子任务的任务类型的所有计算框架，并将确定的计算框架作为候选计算框架。
如权利要求1-3任一项所述的方法，其特征在于，获得候选计算框架对应的预测模型，包括：

读取预设的训练样本集合，所述训练样本集合是针对所述候选计算框架执行该子任务的能力预设的；

分别以运行时间、资源消耗为目标特征，对所述训练样本集合中除运行时间、资源消耗以外的其它特征进行训练，得到所述候选计算框架对应的预测模型。
如权利要求1-4任一项所述的方法，其特征在于，根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗，在所述候选计算框架中，筛选出执行该子任务的目标计算框架，包括：

在所述候选计算框架中，选择预测的资源消耗小于系统的可用资源的候选计算框架作为第一候选计算框架；

在所述第一候选计算框架中，筛选出预测的运行时间最小的第一候选计算框架作为目标计算框架。
如权利要求4所述的方法，其特征在于，基于确定的执行所述子任务集中的每个子任务的目标计算框架，执行对应的子任务之后，还包括：

将在该子任务的目标计算框架中执行该子任务产生的各个特征，作为新的训练样本；

将所述新的训练样本添加至所述训练样本集合。
一种数据处理装置，其特征在于，包括：

接收单元，用于接收任务请求，所述任务请求中携带有用户提交的任务；

生成单元，用于根据所述任务请求中的所述任务，生成包含至少一个子任务的子任务集；

确定单元，用于确定执行每个子任务的输入数据；

处理单元，用于针对所述子任务集中的每个子任务执行以下操作：

在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计算框架，其中，所述候选计算框架的数目大于或等于2；

根据该子任务的输入数据、以及每个候选计算框架对应的预测模型，分别预测每个候选计算框架执行该子任务时对应的运行时间和资源消耗；

根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗，在所述候选计算框架中，筛选出执行该子任务的目标计算框架；

运行单元，用于基于筛选出的执行所述子任务集中的每个子任务的目标计算框架，执行对应的子任务。
如权利要求7所述的装置，其特征在于，所述接收单元接收的所述任务请求中还携带有所述任务的输入数据；

所述确定单元，用于：

根据所述任务请求中携带的所述任务的输入数据，确定执行每个子任务的输入数据。
如权利要求7所述的装置，其特征在于，还包括：配置单元，用于在接收任务请求之前，在系统配置的所有计算框架中，将具有执行相同任务类型的所有计算框架中的、执行所述相同任务类型的应用程序接口API通过预设的编程语言进行封装，形成统一API；

所述处理单元，在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计算框架时，用于：

确定该子任务的任务类型；

确定该子任务的任务类型对应的统一API；

根据确定的所述统一API，确定具有执行该子任务的任务类型的所有计算框架，并将确定的计算框架作为候选计算框架。
如权利要求7-9任一项所述的装置，其特征在于，所述处理单元在获得候选计算框架对应的预测模型时，用于：

读取预设的训练样本集合，所述训练样本集合是针对所述候选计算框架执行该子任务的能力预设的；

分别以运行时间、资源消耗为目标特征，对所述训练样本集合中除运行时间、资源消耗以外的其它特征进行训练，得到所述候选计算框架对应的预测模型。
如权利要求7-10任一项所述的装置，其特征在于，所述处理单元，在筛选出执行该子任务的目标计算框架时，包括：

在所述候选计算框架中，选择预测的资源消耗小于系统的可用资源的候选计算框架作为第一候选计算框架；

在所述第一候选计算框架中，筛选出预测的运行时间最小的第一候选计算框架作为目标计算框架。
如权利要求10所述的装置，其特征在于，所述运行单元，还用于：

基于确定的执行所述子任务集中的每个子任务的目标计算框架，执行对应的子任务之后，将在该子任务的目标计算框架中执行该子任务产生的各个特征，作为新的训练样本；

将所述新的训练样本添加至所述训练样本集合。