WO2015058578A1

WO2015058578A1 - 一种分布式计算框架参数优化方法、装置及系统

Info

Publication number: WO2015058578A1
Application number: PCT/CN2014/084483
Authority: WO
Inventors: 方育柯
Original assignee: 华为技术有限公司
Priority date: 2013-10-21
Filing date: 2014-08-15
Publication date: 2015-04-30
Also published as: CN103605662B; CN103605662A

Abstract

适用于IT技术领域，提供了一种分布式计算框架参数优化方法、装置及系统。方法包括：获取当前提交的并行计算框架作业；在分布式计算框架历史运行数据库中，检索与分布式计算框架作业同类的历史分布式计算框架作业，分布式计算框架历史运行数据库包括历史分布式计算框架作业的执行信息及配置参数；在同类的分布式计算框架作业中，检索与分布式计算框架作业相似的历史分布式计算框架作业；根据相似的历史分布式计算框架作业的配置参数，对分布式计算框架作业的配置参数进行优化配置。该方法、装置及系统能够实现Mapreduce作业参数配置合理化、自动化以及自学习。

Description

一种分布式计算框架参数优化方法、装置及系统技术领域本发明属于 IT技术领域，尤其涉及一种分布式计算框架参数优化方法、装置及系统。背景技术

随着全球信息产业在不断融合发展，网络资源与数据规模也在不断增长，尤其是在互联网应用、电子商务等领域，数据量呈现快速增长的趋势，为了解决这些数据密集型计算问题，云计算应运而生，而 Map/Reduce编程模型作为一种简化大规模数据处理的重要手段得到越来越广泛的应用。 MapReduce是 Google提出的一种实现分布式并行计算任务的通用软件框架，它简化了由普通计算机组成的超大集群上的并行软件编程模式，可用于大规模数据集的并行计算。 MapReduce分布式计算系统中，系统参数的参数优化策略直接关系到系统整体资源的利用率以及各用户间使用资源的公平性。因此，系统参数的参数优化算法成为 MapReduce系统面临的一大挑战。

然而，当前常见的 MapReduce参数优化的方案有两种，详述如下：

1、运行 Mapreduce作业时，通过监控工具如 nmon, 监视集群系统的性能指标（如 CPU使用率，内存使用率，磁盘和网络 I/O等），来快速检测性能瓶颈，协助工程师更有针对性的对性能瓶颈点进行参数改进和优化。

2、通过在一个模拟集群上预先执行 Mapreduce作业，同时监控该任务的运行特征（包括输出文件，各阶段运行时间，处理和传输的数据量，以及工作进程占用的各资源信息等等），计算每个阶段消耗资源的代价，然后通过修改资源参数 , 预估实际 Mapreduce作业的运行时间 , 直到运行时间达到可以接受范围，从而到 MapReduce性能优化的目的。

该技术方案 1主要缺点是只是给出了性能瓶颈点检测方法，没有给出具体的性能改进方案，很多情况下即使知道性能瓶颈点，普通用户依然不知道如何修改参数。即便用户知道怎么修改 MapReduce参数，但是这种方案实施效率也很低，需要人工反复尝试多次，才能使性能达到较优值，因此无法解决 MapReduce参数配置合理化、自动化的问题。

该技术方案 2主要缺点是以增加程序的预执行和分析为代价，并且由于这种方案是针对单个任务进行的调优，当用户提交的任务类型复杂多变时，每次都要重新进行预执行，使得其通用性降低，因此无法解决 MapReduce参数配置自学习的问题。发明内容

本发明实施例的目的在于提供分布式计算框架参数优化方法，旨在解决 MapReduce参数配置合理化、自动化以及自学习的问题。

第一方面，一种分布式计算框架参数优化的方法，包括：

获取当前提交的分布式计算框架作业；

在预先建立的分布式计算框架历史运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业，所述分布式计算框架历史运行数据库包括历史分布式计算框架作业的执行信息及配置参数；

在同类的分布式计算框架作业中，检索与所述分布式计算框架作业相似的历史分布式计算框架作业；

根据相似的历史分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置。

结合第一方面，所述在分布式计算框架历史作业运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业，包括：当所述分布式计算框架作业不存在指定的分布式计算框架运行参数时，在分布式计算框架历史作业运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业。

结合第一方面，所述根据相似的历史分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置，包括：

在相似的历史分布式计算框架作业中，获取评分最高的历史分布式计算框架作业，使用评分最高的历史分布式计算框架作业的配置参数作为所述分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置。

结合第一方面，当所述分布式计算框架作业执行完毕时，收集所述分布式计算框架作业执行信息及配置参数；

对所述分布式计算框架作业执行信息进行评分，并将所述分布式计算框架作业保存到所述分布式计算框架历史作业数据库中。

结合第一方面，对所述分布式计算框架作业执行信息进行评分，具体为：

获取所述分布式计算框架作业运行的时间消耗和空间消耗；根据所述分布式计算框架作业运行的时间消耗和空间消耗，生成所述分布式计算框架作业运行的时间消耗代价和空间消耗代价；

根据预先建立的分布式计算框架作业的评分模型，以及所述分布式计算框架作业运行的时间消耗代价和空间消耗代价对分布式计算框架作业运行进行评分。

结合第一方面，在所述根据预先建立的分布式计算框架作业的评分模型，以及所述分布式计算框架作业运行的时间消耗代价和空间消耗代价对分布式计算框架作业运行进行评分之前，包括：

建立评分模型；

所述评分模型为其中，。_¾(τ, υ)表示一个作业运行时的评分，分别表示对应的时间消耗代价、空间消耗代价，作业执行评分时^ ^的函数。是时间消耗代价评分和空间消耗代价评分的权重， i为时间消耗代价的中属性值的序号，对应于时间消耗代价的第个属性值， j为空间消耗代价的中属性值的序号， "；表示对应于空间消耗代价的第 ·/'个属性值， , ^则分别对应上述两个属性的权重，其中参数用于可以调节设置时间消耗代价和空间消耗代价哪个更优先； ^ , ^的目的是为了消除各代价属性值量级不同的差异，通过设置^ , ^来规范化的计算 _¾( , )。

结合第一方面，所述将所述分布式计算框架作业保存到所述分布式计算框架历史作业数据库中，具体为：

釆用树形存储方式，将所述分布式计算框架作业保存到所述分布式计算框架历史作业数据库中。

结合第一方面，在预先建立的分布式计算框架历史运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业，包括：在预先建立的分布式计算框架历史运行数据库中，釆用搜索树节点方式，检索与所述分布式计算框架作业同类的历史分布式计算框架作业。

结合第一方面，所述检索与所述分布式计算框架作业相似的历史分布式计算框架作业，包括：

检索所述分布式计算框架作业与历史分布式计算框架作业中的关键属性是否相等；

当所述分布式计算框架作业中的关键属性与历史分布式计算框架作业中的关键属性相等时，表示所述历史分布式计算框架作业为与所述分布式计算框架作业相似的历史分布式计算框架作业。

结合第一方面，所述检索与所述分布式计算框架作业相似的历史分布式计算框架作业，还包括：

获取所述分布式计算框架作业和历史分布式计算框架作业的属性字段，所述属性字段包括关键属性集合和非关键属性集合；

根据预先建立的分布式计算框架作业的相似度模型以及所述属性字段，分别生成作业的相似度和集群环境信息的相似度，所述作业的相似度为所述分布式计算框架作业与历史分布式计算框架作业的相似度，所述集群环境信息的相似度为所述分布式计算框架作业与历史分布式计算框架作业的相似度分别在所述集群环境信息的相似度；

根据预先建立的分布式计算框架作业的综合相似度模型以及加权策略，生成所述分布式计算框架作业与历史分布式计算框架作业的综合相似度。

结合第一方面，在所述根据预先建立的分布式计算框架作业的相似度模型以及所述属性字段，分别生成作业的相似度和集群环境信息的相似度之前，包括：

建立分布式计算框架作业的相似度模型，

所述相似度模型为：

其中 K为关键属性集合， k为关键属性集合的中关键属性的序号， I 为非关键属性集合， i为非关键属性集合的中非关键属性的序号 , 表示作业 Α的第 k个关键属性，为标识作业 A的第 i个非关键属性，；为标识作业 B的第 k个关键属性, 为标识作业 B的第 i个非关键属性。

结合第一方面，在根据预先建立的分布式计算框架作业的综合相似度模型以及加权策略，生成所述分布式计算框架作业与历史分布式计算框架作业的综合相似度之前，包括：建立分布式计算框架作业的综合相似度模型，

所述综合相似度模型为：

sim(A,B) = x sim(JobA, JobB) + β x sim(C luster A, Cluster B)

其中 sim(JobA, JobB)表示作业 ^4, ό々目以度, sim(ClusterA, ClusterE)表示作业 AS分别在所述集群环境信息的相似度。 ^^4 )表示作业 AS之间参考了集群环境信息的相似度， "为加权策略中的第一权重参数， ^为加权策略中的第二权重参数。

结合第二方面，一种 MapReduce参数优化装置，包括：

获取单元，用于获取当前提交的分布式计算框架作业；

第一检索单元，用于在预先建立的分布式计算框架历史运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业，所述分布式计算框架历史运行数据库包括历史分布式计算框架作业的执行信息及配置参数；

第二检索单元，用于在同类的分布式计算框架作业中，检索与所述分布式计算框架作业相似的历史分布式计算框架作业；

配置单元，用于根据相似的历史分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置。

结合第二方面，所述第一检索单元，包括：

检查子单元，用于检查所述分布式计算框架作业是否存在指定的分布式计算框架运行参数；

执行子单元，用于当所述分布式计算框架作业不存在指定的分布式计算框架运行参数时，执行所述在分布式计算框架历史作业运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业的步骤。

结合第二方面，所述配置单元，还用于在相似的历史分布式计算框架作业中，获取评分最高的历史分布式计算框架作业，使用评分最高的历史分布式计算框架作业的配置参数作为所述分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置。

结合第二方面，还包括：

收集单元，用于当所述分布式计算框架作业执行完毕时，收集所述分布式计算框架作业执行信息及配置参数；

评分单元，用于对所述分布式计算框架作业执行信息进行评分，并将所述分布式计算框架作业保存到所述分布式计算框架历史作业数据库中。

结合第二方面，所述评分单元，包括：

获取子单元，用于获取所述分布式计算框架作业运行的时间消耗和空间消耗；

生成子单元，用于根据所述分布式计算框架作业运行的时间消耗和空间消耗，生成所述分布式计算框架作业运行的时间消耗代价和空间消耗代价；

评分子单元，用于根据预先建立的分布式计算框架作业的评分模型，以及所述分布式计算框架作业运行的时间消耗代价和空间消耗代价对分布式计算框架作业运行进行评分。

结合第二方面，所述评分单元，还包括：

建立子单元，用于建立评分模型；

所述评分模型为

其中，。_¾(τ,υ)表示一个作业运行时的评分，分别表示对应的时间消耗代价、空间消耗代价，作业执行评分时^ ^的函数。是时间消耗代价评分和空间消耗代价评分的权重， i为时间消耗代价的中属性值的序号，对应于时间消耗代价的第个属性值， j为空间消耗代价的中属性值的序号， "；表示对应于空间消耗代价的第 ·/'个属性值， , ^则分别对应上述两个属性的权重，其中参数 , 用于可以调节设置时间消耗代价和空间消耗代价哪个更优先； , ^的目的是为了消除各代价属性值量级不同的差异，通过设置^ , ^来规范化的计算 _¾( , )。

结合第二方面，所述评分单元，还包括：

保存子单元，用于釆用树形存储方式，将所述分布式计算框架作业保存到所述分布式计算框架历史作业数据库中。

结合第二方面，第一检索单元，包括：

第一检索子单元，用于在预先建立的分布式计算框架历史运行数据库中，釆用搜索树节点方式，检索与所述分布式计算框架作业同类的历史分布式计算框架作业。

结合第二方面，第二检索单元，包括：

第二检索子单元，用于检索所述分布式计算框架作业与历史分布式计算框架作业中的关键属性是否相等；

相似子单元，用于当所述分布式计算框架作业中的关键属性与历史分布式计算框架作业中的关键属性相等时，表示所述历史分布式计算框架作业为与所述分布式计算框架作业相似的历史分布式计算框架作业。

结合第二方面，第二检索单元，还包括：

获取子单元，用于获取所述分布式计算框架作业和历史分布式计算框架作业的属性字段，所述属性字段包括关键属性集合和非关键属性集合；

第一生成子单元，用于根据预先建立的分布式计算框架作业的相似度模型以及所述属性字段，分别生成作业的相似度和集群环境信息的相似度，所述作业的相似度为所述分布式计算框架作业与历史分布式计算框架作业的相似度，所述集群环境信息的相似度为所述分布式计算框架作业与历史分布式计算框架作业的相似度分别在所述集群环境信息的相似度；第二生成子单元，用于根据预先建立的分布式计算框架作业的综合相似度模型以及加权策略，生成所述分布式计算框架作业与历史分布式计算框架作业的综合相似度。

结合第二方面，第一生成子单元，还包括：

第一建立子单元，用于建立分布式计算框架作业的相似度模型, 所述相似度模型为：

结合第二方面，第二生成子单元，还包括：

第二建立子单元，用于建立分布式计算框架作业的综合相似度模型，所述综合相似度模型为：

sim(A,B) = x sim(JobA, JobB) + β x sim(C luster A, Cluster B)

第三方面，包括上述的参数优化装置、提交的分布式计算框架作业的客户端以及计算管理节点，其中，所述分布式计算框架作业的客户端与所述计算管理节点之间，通过所述参数优化装置进行连接。

在本实施例中，根据相似的历史分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置，从而避免了参数配置不合理，造成集群计算资源的极大浪费的情况，同时避免了用户要手动对 MapReduce作业的配置参数进行调整，调优方式效率低，且配置参数只适用于当前任务，不具备通用性的情况，使得在用户提交一个 Mapreduce作业时，能够自动的对参数进行优化配置，能够学习之前已经运行过的 Mapreduce作业，而不需要每次都重新优化 MapReduce参数，实现

Mapreduce作业参数配置合理化、自动化以及自学习。

附图说明

图 1是本发明实施例提供的一种分布式计算框架参数优化的方法的实现流程图；

图 2是本发明实施例提供的保存分布式计算框架作业的实施流程图；图 3是本发明实施例提供的树形存储分布式计算框架作业的较佳的样例图；

图 4是本实施例提供的分布式计算框架参数优化的较佳的实施流程图；

图 5是本发明实施例提供的一种参数优化装置的结构示意图；图 6是本实施例提供的分布式计算框架参数优化系统较佳的网络架构图；

图 7是本发明实施例提供的一种参数优化装置的结构示意图。具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在步骤 S 101中，获取当前提交的分布式计算框架作业；在本实施例中，分布式计算框架包括但不限于并行计算框架

Maprsduc

在步骤 S 102中，在预先建立的分布式计算框架历史运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业，所述分布式计算框架历史运行数据库包括历史分布式计算框架作业的执行信息及配置参数；

在本实施例中，通过存放分布式计算框架作业的分布式计算框架历史运行数据库中，根据分布式计算框架作业的同类标识，检索与分布式计算框架作业同类的分布式计算框架作业，检索与分布式计算框架作业同类的分布式计算框架作业的实施过程，在下述实施例进行说明，在此不做赘述。

在本实施例中，当所述分布式计算框架作业存在指定的分布式计算框架运行参数时，按照指定的分布式计算框架运行参数执行所述分布式计算框架作业；

在步骤 S 103中，在同类的分布式计算框架作业中，检索与所述分布式计算框架作业相似的历史分布式计算框架作业；

在本实施例中，检索分布式计算框架作业与历史分布式计算框架作业中的关键属性是否相等，当分布式计算框架作业中的关键属性与历史分布式计算框架作业中的关键属性相等时，也就是两者的关键属性的数值一致时，表示该历史分布式计算框架作业为与分布式计算框架作业相似的历史分布式计算框架作业。

在本实施例中，当检索到与分布式计算框架作业同类的分布式计算框架作业时，在同类的分布式计算框架作业中，通过预先建立的相似度模型，检索与该分布式计算框架作业相似的分布式计算框架作业，检索与该分布式计算框架作业相似的分布式计算框架作业的实施过程，在下述实施例进行说明，在此不做赘述。

在步骤 S 104中，根据相似的历史分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置。

在本实施例中，根据相似的历史分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置，具体地，当检索到与该分布式计算框架作业相似的分布式计算框架作业时，在相似的历史分布式计算框架作业中，获取评分最高的历史分布式计算框架作业，使用评分最高的历史分布式计算框架作业的配置参数作为所述分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置，并执行该分布式计算框架作业，该分布式计算框架历史运行数据库包括历史分布式计算框架作业的执行信息及配置参数。

在本实施例中，通过分析分布式计算框架作业运行历史信息，寻找与当前分布式计算框架作业相似的一系列分布式计算框架作业，从分布式计算框架历史库中找到一套评分最高的分布式计算框架作业的配置参数，作为当前分布式计算框架作业参数的配置参考，从而避免了参数配置不合理，造成集群计算资源的极大浪费的情况，同时避免了用户要手动对分布式计算框架作业的配置参数进行调整，调优方式效率低，且配置参数只适用于当前任务，不具备通用性的情况，使得在用户提交一个分布式计算框架作业时，能够自动的对参数进行优化配置，能够学习之前已经运行过的分布式计算框架作业，而不需要每次都重新优化分布式计算框架参数，实现分布式计算框架作业参数配置合理化、自动化以及自学习。

作为本发明的一个优选实施例，在预先建立的分布式计算框架历史运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业，包括：

检查所述分布式计算框架作业是否存在指定的分布式计算框架运行参数；

当所述分布式计算框架作业不存在指定的分布式计算框架运行参数时，执行所述在分布式计算框架历史作业运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业的步骤。

在本实施例中，当提交任务时，系统获取分布式计算框架作业中的参表文件，通过参表文件检查是否存在指定的分布式计算框架运行参数。

作为本发明的一个优选实施例，根据相似的历史分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置，也可以在相似的历史分布式计算框架作业中，获取评分大于预设阀值的多个分布式计算框架作业，按照多个分布式计算框架作业的相似程度，加权计算多个分布式计算框架作业的配置参数，使用加权计算得到的配置参数作为所述分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置。例如对于新作业 Job— A, 其参数设置可以基于以下 K 个最相似的作业 A计算得：

其中为新作业 Job— A的某一个配置参数， K为选出的评分大于某个阔值的作业个数， A表示这些作业中的第 ⁷'个作业。总的来说新作业参数可以基于 TopK个评分最高的作业按照相似度加权计算产生，由于综合了多个分布式计算框架作业参数配置，这样可以使新作业的参数优化模型更稳定。

参考图 2 , 图 2是本发明实施例提供的保存分布式计算框架作业的实施流程图，详述如下：

S201 , 当所述分布式计算框架作业执行完毕时，收集所述分布式计算框架作业执行信息及配置参数；

S202 , 对所述分布式计算框架作业执行信息进行评分，并将所述分布式计算框架作业保存到所述分布式计算框架历史作业数据库中。

作为本发明的一个优选实施例，收集所述分布式计算框架作业执行信息及配置参数，包括：收集所述分布式计算框架作业的当前集群环境信息以及作业配置参数信息。

在本实施例中，集群环境信息包括但不限于计算节点数、内存总量、 cpu总量、 dfs块大小， dfs副本数，网络带宽，磁盘 10。

在本实施例中，作业配置参数包括但不限于 Mapper类、 Reducer类、对应字节数、输入输出文件格式、对应路径、 split信息。在本实施例中，收集所述分布式计算框架作业的当前集群环境信息以及作业配置参数信息，主要用于后续分布式计算框架作业的相似度计算。

作为本发明的一个优选实施例，所述对分布式计算框架作业的执行信息进行评分，包括：

在本实施例中，时间消耗为代价属性的时间消耗。

参考表 1 , 表 1是本发明实施例提供的较佳的时间消耗代价属性表，其包括了部分计算时间消耗的代价属性名。表 -1时间消耗代价属性表

代价属性名代价所属阶段代价属性描述

HdfsReadCo 全局

每字节 HDFS读耗时

St

HdfsWriteC 全局

每字节 HDFS写耗时 ost

LocallORea 全局

每字节本地读耗时

dCost LocallOWrit 全局

每字节本地写耗时 eCost

NetworkTra 全局

每字节网络传输耗时 nsCost

SetupCPUC 全局

启动一个 task的 CPU时间消耗 ost

CleanupCP 全局

清理一个 task的 CPU时间消耗 UCost

MapCPUCo Map处理阶段一个 Map Task处理一条记录的 stPerRec CPU 时间消耗

MapGCCost Map处理阶段一个 Map Task处理一条记录的 PerRec GC时间消耗

MapInputCP Map处理阶段 Ma 输入阶段读取单字节的 UCost CPU时间消耗

MapOutput Map处理阶段 Ma 输出阶段写出单字节的 CPUCos CPU时间消耗

CombineCP Shuffle阶段 Combiner合并一条记录的 CPU UCost 时间消耗

PartitionCP Shuffle阶段一条记录的 Partition 的 CPU时 UCost 间消耗

SerdeCPUC Shuffle阶段一条记录的序列化和反序列化 ost 的 CPU时间消耗

SortCPUCos Shuffle阶段

排序一条记录的 CPU时间消耗 t

MergeCPUC Shuffle阶段

Merge一条记录的 CPU时间消耗 ost

ReduceCPU Reduce处理一个 Reduce Task处理一条记录 CostPerRec 阶段的 CPU 时间消耗

ReduceGCC Reduce处理一个 Reduce Task处理一条记录 ostPerRec 阶段的 GC时间消耗

Reducelnput Reduce处理 Reduce输入阶段解压单字节的 CPUCost 阶段 CPU时间消耗

ReduceOutp Reduce处理 Reduce输出阶段压缩单字节的 utCPUCost 阶段 CPU时间消耗

注：具体实施中可以不局限于上述属性字段。在本实施例中，根据分布式计算框架作业运行的时间消耗生成分布式计算框架作业运行的时间消耗代价。可通过，每个阶段时间消耗，以及输入输出的数据量计算获得。例如，时间消耗代价属性表中 HdfsReadCost, 其时间消耗代价每字节 HDFS的读耗时，可通过字节读取数量除以字节读取的总时间，生成 HdfsReadCost时间消耗代价（每字节 HDFS的读耗时）。

在本实施例中，空间消耗为代价属性的空间消耗。

参考表 2 , 表 2是本发明实施例提供的较佳的空间消耗代价属性表，其包括了部分计算空间消耗的代价属性名。表 -2空间消耗代价属性表

注：具体实施中可以不局限于上述属性字段。在本实施例中，根据分布式计算框架作业运行的空间消耗生成分布式计算框架作业运行的空间消耗代价。可通过每个阶段空间消耗，以及输入输出的数据量计算获得。例如 , 代价属性名 MapAvgMemBytes , 其空间消耗代价为 Map阶段平均每字节对内存资源消耗，由平均内存消耗除以输入的记录条数生成，具体计算公式如下：

MapAvgMem

MapAvgMemBytes= ~

MapInputBytes

其中 MapAvgMem为平均内存消耗， MapInputBytes为输入的记录条数，

MapAvgMem和 MapInputBytes可以通过分布式计算框架的 Metrics直接获取。

此外，代价属性名 MapCPUCostPeiBytes , 其空间消耗代价为 Map阶段每个字节的的平均 C P U消耗，由 M A P阶段 CPU内存总消耗除以输入的记录条数生成，具体计算公式如下：

MapCPUCostPerBytes = ^MapCPUC°^St

MapInputBytes

其中 MapCPUCost和 MapInputBytes字段可以通过分布式计算框架的

Metrics直接获取。

作为本发明的一个优选实施例，在所述根据预先建立的分布式计算框架作业的评分模型，以及所述分布式计算框架作业运行的时间消耗代价和空间消耗代价对分布式计算框架作业运行进行评分之前，包括：

建立评分模型；

所述评分模型为

其中，。_¾(τ,υ)表示一个作业运行时的评分，分别表示对应的时间消耗代价、空间消耗代价，作业执行评分时^ ^的函数。是时间消耗代价评分和空间消耗代价评分的权重， i为时间消耗代价的中属性值的序号，对应于时间消耗代价的第个属性值， j为空间消耗代价的中属性值的序号， "；表示对应于空间消耗代价的第 ·/'个属性值， ^则分别对应上述两个属性的权重，其中参数"，用于可以调节设置时间消耗代价和空间消耗代价哪个更优先； , 的目的是为了消除各代价属性值量级不同的差异，通过设置 ^来规范化的计算 _¾(τ,υ)。

作为本发明的一个优选实施例，将所述分布式计算框架作业保存到所述分布式计算框架历史作业数据库中，具体为：

在本实施例中，釆用树形存储方式，以树根到树叶子节点的路径表示了对应的作业的类名称，将所述分布式计算框架作业保存到所述分布式计算框架历史作业数据库中。

参考图 3 ,图 3是本发明实施例提供的树形存储分布式计算框架作业的较佳的样例图。

在本实施例中，在本实施例中，相同类名的作业存放在同一个叶子节点中（如图中的虚线框），以便于后续在搜索同类的分布式计算框架作业时，可以快速搜索出同类的分布式计算框架作业。

在预先建立的分布式计算框架历史运行数据库中，釆用搜索树节点方式，检索釆用树形存储的与所述分布式计算框架作业同类的分布式计算框架作业。

在本实施例中，釆用搜索树节点方式，检索釆用树形存储的与所述分布式计算框架作业同类的分布式计算框架作业。例如参考图 5 , 对于 com.huawei.pagerank.PageRank-1的作业, 通过才艮节点

root->com->huawei->pagerank , 共 3次查找即可获取与所述分布式计算框架作业同类的分布式计算框架作业。作为本发明的一个优选实施例，所述检索与所述分布式计算框架作业相似的历史分布式计算框架作业，包括：

在本实施例中，参考表 3 , 表 3是本发明实施例提供的较佳的属性字段表，其包括部分分布式计算框架作业相似度计算时使用的字段。

表 -3 Job任务属性表

是否有 Split 布尔型否是否有输入路径

Split信息字符串否 Map任务对应输入文件信息

JVM-OPTS 字符串否 Task对应的 jvm opt 选项注：具体实施中可以不局限于上述属性字段。在本实施例中，参考表 4 , 表 4是本发明实施例提供的较佳集群环境的属性字段表，其包括部分分布式计算框架作业相似度计算时使用的字段。

表 -4集群环境参数相似度

注：具体实施中可以不局限于上述属性字段。作为本发明的一个优选实施例，在所述根据预先建立的分布式计算框架作业的相似度模型以及所述属性字段，分别生成作业的相似度和集群环境信息的相似度之前，包括：建立分布式计算框架作业的相似度模型，

所述相似度模型为:

其中 Κ为关键属性集合， k为关键属性集合的中关键属性的序号， I 为非关键属性集合， i为非关键属性集合的中非关键属性的序号 , 表示作业 Α的第 k个关键属性，为标识作业 A的第 i个非关键属性，；为标识作业 B的第 k个关键属性, 为标识作业 B的第 i个非关键属性。

需要进行说明的是，对于关键属性，是基于绝对相等模式，一旦关键属性中存在不相等，则直接返回相似度为 0,也就是分布式计算框架作业与历史分布式计算框架作业不相似。

作为本发明的一个优选实施例，在根据预先建立的分布式计算框架作业的综合相似度模型以及加权策略，生成所述分布式计算框架作业与历史分布式计算框架作业的综合相似度之前，包括：

建立分布式计算框架作业的综合相似度模型，

所述综合相似度模型为：

sim(A，B.) = x im(JobA, JobE) + β x sim(C luster A, ClusterE)

其中 sim(JobA, JobE)表示作业 , 的相似度, sim(ClusterA, ClusterE)表示作业

A 分别在所述集群环境信息的相似度。 w^O S)表示作业 AS之间参考了集群环境信息的相似度， "为加权策略中的第一权重参数，为加权策略中的第二权重参数。

在本实施例中，作业之间的相似度基于上述公式得到，参数说明与上面描述一致。

度计算可以简化为: sim(ClusterA, ClusterB) -

其中 /为集群参数集合，为标识集群 A的第 i个属性值，为标识作业 B的第 j个属性值，即是一个简单的基于余弦相似度的计算模型。

作为本发明的一个优选实施例，图 4是本实施例提供的分布式计算框架参数优化的较佳的实施流程图，详述如下：

5401, 获取当前提交的并行计算框架（分布式计算框架，分布式计算框架）作业；

5402, 判断所述分布式计算框架作业用户是否自定义分布式计算框架参数，是则 S 403, 否则执行 S 404;

S 403, 按照用户指定参数提交分布式计算框架作业；

S404, 从历史运行库中检索相似作业；

S 405, 是否存在同类型作业，是则执行 S 405, 否则执行 S 406;

S 406, 使用默认值提交分布式计算框架作业；

S 407, 选择一个评分最高的分布式计算框架作业；

S 408, 按照最优参数提交分布式计算框架作业；

S 409, 分布式计算框架作业运行结束，收集分布式计算框架配置和运行曰志；

S 409, 对当前分布式计算框架作业评分，将结果放入数据库。

参考图 5, 图 5是本发明实施例提供的一种参数优化装置的结构示意图，为了便于说明，仅示出了与本实施例相关的部分，详述如下：

获取单元 51, 用于获取当前提交的分布式计算框架作业；第一检索单元 52 , 用于在预先建立的分布式计算框架历史运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业，所述分布式计算框架历史运行数据库包括历史分布式计算框架作业的执行信息及配置参数；

第二检索单元 53 , 用于在同类的分布式计算框架作业中，检索与所述分布式计算框架作业相似的历史分布式计算框架作业；

配置单元 54 , 用于根据相似的历史分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置。

进一步地，在该装置中，所述第一检索单元，包括：

进一步地，在该装置中，所述配置单元，还用于在相似的历史分布式计算框架作业中，获取评分最高的历史分布式计算框架作业，使用评分最高的历史分布式计算框架作业的配置参数作为所述分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置。

进一步地，在该装置中，还包括：

进一步地，在该装置中，所述评分单元，包括：

获取子单元，用于获取所述分布式计算框架作业运行的时间消耗和空间消耗；生成子单元，用于根据所述分布式计算框架作业运行的时间消耗和空间消耗，生成所述分布式计算框架作业运行的时间消耗代价和空间消耗代价；

进一步地，在该装置中，所述评分单元，还包括：

建立子单元，用于建立评分模型；

所述评分模型为

F_Job(r,v) = d *ω_ι) + β(^υ_] *ω_}) 其中，。_¾(τ, υ)表示一个作业运行时的评分，分别表示对应的时间消耗代价、空间消耗代价，作业执行评分时^ ^的函数。是时间消耗代价评分和空间消耗代价评分的权重， i为时间消耗代价的中属性值的序号，对应于时间消耗代价的第个属性值， j为空间消耗代价的中属性值的序号， "；表示对应于空间消耗代价的第 '个属性值， , ^则分别对应上述两个属性的权重，其中参数用于可以调节设置时间消耗代价和空间消耗代价哪个更优先； ^ , ^的目的是为了消除各代价属性值量级不同的差异，通过设置^ , ^来规范化的计算 _¾( , )。

进一步地，在该装置中，所述评分单元，还包括：

进一步地，在该装置中，第一检索单元，包括：

第一检索子单元，用于在预先建立的分布式计算框架历史运行数据库中，釆用搜索树节点方式，检索与所述分布式计算框架作业同类的历史分布式计算框架作业。进一步地，在该装置中，第二检索单元，包括：

进一步地，在该装置中，第二检索单元，还包括：

获取子单元，用于获取所述分布式计算框架作业和历史分布式计算框架作业的属性字段，所述属性字段包括关键属性集合和非关键属性集合；第一生成子单元，用于根据预先建立的分布式计算框架作业的相似度模型以及所述属性字段，分别生成作业的相似度和集群环境信息的相似度，所述作业的相似度为所述分布式计算框架作业与历史分布式计算框架作业的相似度，所述集群环境信息的相似度为所述分布式计算框架作业与历史分布式计算框架作业的相似度分别在所述集群环境信息的相似度；第二生成子单元，用于根据预先建立的分布式计算框架作业的综合相似度模型以及加权策略，生成所述分布式计算框架作业与历史分布式计算框架作业的综合相似度。

进一步地，在该装置中，第一生成子单元，还包括：

第一建立子单元，用于建立分布式计算框架作业的相似度模型，所述相似度模型为：

其中 K为关键属性集合， k为关键属性集合的中关键属性的序号， I 为非关键属性集合， i为非关键属性集合的中非关键属性的序号 , 表示作业 A的第 k个关键属性，为标识作业 A的第 i个非关键属性，；为标识作业 B的第 k个关键属性, 为标识作业 B的第 i个非关键属性。

进一步地，在该装置中，第二生成子单元，还包括：

sim(A,B) = x sim(JobA, JobB) + β x sim(C luster A, Cluster B)

其中 s JobA, JobB)表示作业 A 的相似度, sim(ClusterA, ClusterB)表示作业

作为本发明的一个优选实施例，一种分布式计算框架参数优化系统，参数优化装置、提交的分布式计算框架作业的客户端以及计算管理节点，其中，所述分布式计算框架作业的客户端与所述计算管理节点之间，通过所述参数优化装置进行连接。

参考图 6 ,图 6是本实施例提供的分布式计算框架参数优化系统较佳的网络架构图。

其中，参数自动优化配置模块处于分布式计算框架作业提交客户端和分布式计算框架 Master之间。当用户通过分布式计算框架客户端提交任务时，参数优化配置模块会对该任务进行一系列自动化的参数配置，然后提交到分布式计算框架的计算管理节点 Master上，再由 Master将该分布式计算框架作业分配给所管辖的多个 Worker节点上执行任务。

其中，分布式计算框架历史任务运行库存放了集群上已经运行完成的分布式计算框架作业信息，其存放形式可以在本地、 HDFS或者数据库中，供参数优化配置模块检索相似任务时使用。参考图 7 , 图 7是本发明实施例提供的一种参数优化装置的结构示意图，本发明具体实施例并不对所述参数优化装置的具体实现做限定，所述参数优化装置 700 , 包括：

处理器 (英文： rocessor)701 , 通信接口 (英文： Communications Interface)702 , 存储器（英文： memory)103 , 总线 704。

处理器 701 , 通信接口 702 , 存储器 703通过总线 704完成相互间的通信。

通信接口 702 , 用于与其他通信设备进行通信；

处理器 701 , 用于执行程序。

具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。处理器 701可能是一个中央处理器（英文： central processing unit, 缩写： CPU。

存储器 703 , 用于存储程序。其中程序用于获取当前提交的并行计算框架（分布式计算框架，分布式计算框架）作业，检查所述分布式计算框架作业是否存在指定的分布式计算框架运行参数；

用于当所述分布式计算框架作业不存在指定的分布式计算框架运行参数时，在预先建立的分布式计算框架历史运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业，所述分布式计算框架历史运行数据库包括历史分布式计算框架作业的执行信息及配置参数；用于在同类的分布式计算框架作业中，检索与所述分布式计算框架作业相似的历史分布式计算框架作业；用于根据相似的历史分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种分布式计算框架参数优化的方法，其特征在于，包括：获取当前提交的分布式计算框架作业；

在分布式计算框架历史作业运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业，所述分布式计算框架历史作业运行数据库包括历史分布式计算框架作业的执行信息及配置参数；

2、如权利要求 1所述的方法，其特征在于，所述在分布式计算框架历史作业运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业之前，所述方法还包括：

3、如权利要求 1所述的方法，其特征在于，所述根据相似的历史分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置，包括：

在相似的历史分布式计算框架作业中，获取评分最高的历史分布式计算框架作业，使用评分最高的历史分布式计算框架作业的配置参数作为所述分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置；或

在相似的历史分布式计算框架作业中，获取评分大于预设阀值的多个分布式计算框架作业，按照多个分布式计算框架作业的相似程度，加权计算多个分布式计算框架作业的配置参数，使用加权计算得到的配置参数作为所述分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置。

4、如权利要求 1所述的方法，其特征在于，还包括：

当所述分布式计算框架作业执行完毕时，收集所述分布式计算框架作业执行信息及配置参数；

5、如权利要求 4所述的方法，其特征在于，对所述分布式计算框架作业执行信息进行评分，具体为：

获取所述分布式计算框架作业运行的时间消耗和空间消耗；

根据所述分布式计算框架作业运行的时间消耗和空间消耗，生成所述分布式计算框架作业运行的时间消耗代价和空间消耗代价；

6、如权利要求 4所述的方法，其特征在于，在所述根据预先建立的分布式计算框架作业的评分模型，以及所述分布式计算框架作业运行的时间消耗代价和空间消耗代价对分布式计算框架作业运行进行评分之前，包括：

建立评分模型；

所述评分模型为

其中，。_¾(τ,υ)表示一个作业运行时的评分，分别表示对应的时间消耗代价、空间消耗代价，作业执行评分时^ ^的函数。是时间消耗代价评分和空间消耗代价评分的权重， i为时间消耗代价的中属性值的序号， ^对应于时间消耗代价的第个属性值， j为空间消耗代价的中属性值的序号， "；表示对应于空间消耗代价的第 ·/'个属性值， ^则分别对应上述两个属性的权重，其中参数"，用于可以调节设置时间消耗代价和空间消耗代价哪个更优先； ^ , ^的目的是为了消除各代价属性值量级不同的差异，通过设置^ , ^来规范化的计算 _¾( , )。

7、如权利要求 4所述的方法，其特征在于，所述将所述分布式计算框架作业保存到所述分布式计算框架历史作业数据库中，具体为：

8、如权利要求 1所述的方法，其特征在于，在预先建立的分布式计算框架历史运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业，包括：

在预先建立的分布式计算框架历史运行数据库中，釆用搜索树节点方式，检索与所述分布式计算框架作业同类的历史分布式计算框架作业。

9、如权利要求 1所述的方法，其特征在于，所述检索与所述分布式计算框架作业相似的历史分布式计算框架作业，包括：

10、如权利要求 9所述的方法，其特征在于，所述检索与所述分布式计算框架作业相似的历史分布式计算框架作业，还包括：

获取所述分布式计算框架作业和历史分布式计算框架作业的属性字段，所述属性字段包括关键属性集合和非关键属性集合；根据预先建立的分布式计算框架作业的相似度模型以及所述属性字段，分别生成作业的相似度和集群环境信息的相似度，所述作业的相似度为所述分布式计算框架作业与历史分布式计算框架作业的相似度，所述集群环境信息的相似度为所述分布式计算框架作业与历史分布式计算框架作业的相似度分别在所述集群环境信息的相似度；

1 1、如权利要求 10所述的方法，其特征在于，在所述根据预先建立的分布式计算框架作业的相似度模型以及所述属性字段，分别生成作业的相似度和集群环境信息的相似度之前，包括：

建立分布式计算框架作业的相似度模型，

所述相似度模型为：

12、如权利要求 10所述的方法，其特征在于，在根据预先建立的分布式计算框架作业的综合相似度模型以及加权策略，生成所述分布式计算框架作业与历史分布式计算框架作业的综合相似度之前，包括：

建立分布式计算框架作业的综合相似度模型，

所述综合相似度模型为：

sim(A,B) = x im(JobA, JobE) + β x sim(C luster A, Cluster E) 其中 sim(JobA, JobE)表示作业 , 的相似度, sim(ClusterA, ClusterE)表示作业 AS分别在所述集群环境信息的相似度， w^O s)表示作业 AS之间参考了集群环境信息的相似度， "为加权策略中的第一权重参数， /^为加权策略中的第二权重参数。

13、一种分布式计算框架参数优化装置，其特征在于，包括：获取单元，用于获取当前提交的分布式计算框架作业；

第一检索单元，在预先建立的分布式计算框架历史运行数据库中，检索与所述分布式计算框架作业同类的历史分布式计算框架作业，所述分布式计算框架历史运行数据库包括历史分布式计算框架作业的执行信息及配置参数；

14、如权利要求 13所述的参数优化装置，其特征在于，所述第一检索单元，包括：

15、如权利要求 13所述的参数优化装置，其特征在于，所述配置单元，还用于在相似的历史分布式计算框架作业中，获取评分最高的历史分布式计算框架作业，使用评分最高的历史分布式计算框架作业的配置参数作为所述分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置或在相似的历史分布式计算框架作业中，获取评分大于预设阀值的多个分布式计算框架作业，按照多个分布式计算框架作业的相似程度，加权计算多个分布式计算框架作业的配置参数，使用加权计算得到的配置参数作为所述分布式计算框架作业的配置参数，对所述分布式计算框架作业的配置参数进行优化配置。

16、如权利要求 13所述的参数优化装置，其特征在于，还包括：收集单元，用于当所述分布式计算框架作业执行完毕时，收集所述分布式计算框架作业执行信息及配置参数；

17、如权利要求 16所述的参数优化装置，其特征在于，所述评分单元，包括：

18、如权利要求 16所述的参数优化装置，其特征在于，所述评分单元，还包括：

建立子单元，用于建立评分模型；

所述评分模型为其中，。_¾(τ, υ)表示一个作业运行时的评分，分别表示对应的时间消耗代价、空间消耗代价，作业执行评分时^ ^的函数。是时间消耗代价评分和空间消耗代价评分的权重， i为时间消耗代价的中属性值的序号，对应于时间消耗代价的第个属性值， j为空间消耗代价的中属性值的序号， "；表示对应于空间消耗代价的第 '个属性值， , ^则分别对应上述两个属性的权重，其中参数用于可以调节设置时间消耗代价和空间消耗代价哪个更优先； ^ , ^的目的是为了消除各代价属性值量级不同的差异，通过设置^ , ^来规范化的计算 _¾( , )。

19、如权利要求 16所述的参数优化装置，其特征在于，所述评分单元，还包括：

20、如权利要求 13所述的参数优化装置，其特征在于，所述第一检索单元，包括：

21、如权利要求 13所述的的参数优化装置，其特征在于，所述第二检索单元，包括：

22、如权利要求 21所述的参数优化装置，其特征在于，所述第二检索单元，还包括：获取子单元，用于获取所述分布式计算框架作业和历史分布式计算框架作业的属性字段，所述属性字段包括关键属性集合和非关键属性集合；

23、如权利要求 22所述的参数优化装置，其特征在于，所述第一生成子单元，还包括：

24、如权利要求 22所述的参数优化装置，其特征在于，所述第二生成子单元，还包括：

第二建立子单元，用于建立分布式计算框架作业的综合相似度模型，所述综合相似度模型为： sim(A，B.) = x im(JobA, JobE) + β x sim(C luster A, Cluster E)

其中 sim(JobA, JobE)表示作业 , 的相似度, sim(ClusterA, ClusterE)表示作业 AS分别在所述集群环境信息的相似度。 w^O s)表示作业 AS之间参考了集群环境信息的相似度， "为加权策略中的第一权重参数， /^为加权策略中的第二权重参数。

25、一种分布式计算框架参数优化系统，其特征在于，包括权利要求 13至 24任意一项所述的参数优化装置、提交的分布式计算框架作业的客户端以及计算管理节点，其中，所述分布式计算框架作业的客户端与所述计算管理节点之间，通过所述参数优化装置进行连接。