WO2015066979A1 - 一种MapReduce任务资源配置参数的机器学习方法 - Google Patents

一种MapReduce任务资源配置参数的机器学习方法 Download PDF

Info

Publication number
WO2015066979A1
WO2015066979A1 PCT/CN2014/071235 CN2014071235W WO2015066979A1 WO 2015066979 A1 WO2015066979 A1 WO 2015066979A1 CN 2014071235 W CN2014071235 W CN 2014071235W WO 2015066979 A1 WO2015066979 A1 WO 2015066979A1
Authority
WO
WIPO (PCT)
Prior art keywords
completion time
resource configuration
task
job
configuration parameters
Prior art date
Application number
PCT/CN2014/071235
Other languages
English (en)
French (fr)
Inventor
王恩东
胡雷钧
张东
吴楠
刘璧怡
Original Assignee
浪潮电子信息产业股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 浪潮电子信息产业股份有限公司 filed Critical 浪潮电子信息产业股份有限公司
Publication of WO2015066979A1 publication Critical patent/WO2015066979A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs

Definitions

  • the invention relates to a job optimization technology of a YARN platform in a second generation Hadoop, and particularly relates to a machine learning method for a MapReduce task resource configuration parameter.
  • Hadoop is currently the most popular big data processing tool. It implements a distributed storage and computing system, especially suitable for TB, PB level data processing, and with the help of the MapReduce framework, users can easily write distributed programs and migrate traditional services to distributed platforms.
  • the second generation Hadoop in order to overcome the above shortcomings, creatively separates the resource scheduling platform from the programming framework: Build a new underlying platform YARN, responsible for cluster resource allocation and task scheduling; stripping the MapReduce framework becomes an independent option The component is no longer coupled to the platform.
  • the scheduling algorithm used is "Dominant Resource Fairness".
  • the DRF user-submitted program is called a job, and each job will be split into a large number of sub-tasks. The user is submitting the job.
  • the YARN platform scheduler calculates the ratio of the CPU and memory of each subtask to the total resources of the cluster, and takes the larger one as the subtask of the subtask.
  • "Dominant Share" When multiple users submit multiple jobs at the same time, the scheduler selectively starts various subtasks to ensure that the total dominance share of each user is the same. Under the influence of the above scheduling algorithm, the user submits During the operation, the set resource requirement parameters will directly affect the completion time of the job. The larger the resource requirements are set, the shorter the running time of each sub-task is, but it is limited by the platform scheduler, and the number of sub-tasks running at the same time is reduced.
  • the present invention provides a machine learning method for MapReduce task resource configuration parameters.
  • a machine learning algorithm By introducing a machine learning algorithm, subjective deviations during parameter setting can be reduced, and the current parameter setting is unreasonable to some extent. problem.
  • the technical solutions adopted by the present invention are as follows:
  • a machine learning method for configuring parameters of a MapReduce task resource includes the following steps:
  • step C Calculate the job completion time and judge whether the time is optimal. If yes, submit the job. Otherwise, repeat step A.
  • step B for predicting the number of concurrent tasks for the platform are:
  • the learner needs to record the configuration parameters of the cluster, that is, the total CPU resources and memory resources; accordingly, the resource demand ratio of each subtask can be calculated;
  • the learner needs to observe the operation of the platform in a custom time period, and record the resource utilization of the cluster in different environments, that is, the fluctuation of the dominant share;
  • the learner will make a prediction on the dominant share of the platform under the new conditions, so as to prepare for the subsequent calculation.
  • step B1 this process is specific to the cluster configuration, and needs to be re-learned when the configuration conditions change.
  • the environmental parameters that may cause the fluctuation of the dominant share include: time, a user login, which is an unsupervised learning process.
  • step C it is also necessary to obtain the number of subtasks for each job split.
  • the subtask resource requirements include:
  • Subtask completion time t The number of tasks running at the same time on the platform is k; the total number of subtasks of the job is N; based on this, the total time of completion of the job can be calculated under this resource configuration:
  • T t * N / k ; the job completion time and resource configuration are parabolic-like. After calculating the completion time in a certain configuration, the program will search forward or backward, trying to shorten the job completion time until the approximation theory The optimal value.
  • a learner for MapReduce task resource configuration parameters comprising two components that need to be trained: a task completion time predictor, a platform concurrent task number predictor, the task completion time predictor adopts a supervised learning method, and the platform concurrent task number prediction
  • the unsupervised learning method is adopted, and the learner can predict the job completion time according to the specified resource configuration parameters, and iteratively finds the resource configuration parameter with the shortest job completion time.
  • Machine learning algorithms are divided into supervised learning and unsupervised learning.
  • Supervised learning divides the data into training sets and test sets, trains the corresponding rules through the training set, and then tests and validates the new data in the test set.
  • the invention can reduce the subjective deviation of the resource requirement when the YARN platform is submitted, and can shorten the operation completion time, improve the overall operation efficiency of the platform, and save resources for economic development.
  • FIG. 1 is a flowchart of a machine learning method for a MapReduce task resource configuration parameter according to the present invention
  • FIG. 2 is a flowchart of an implementation of a machine learning method for a MapReduce task resource configuration parameter according to the present invention.
  • Task types refer to specific operational categories, such as database retrieval, file sorting, and so on.
  • the amount of data refers to the size of the data to be processed.
  • Complexity is an artificial control variable that estimates the complexity of a task by the user.
  • the running time is recorded as an instance library.
  • the similarity with the instance in the instance library is calculated according to the feature value, thereby obtaining the predicted running time.
  • the learner needs to record the configuration parameters of the cluster, that is, the total CPU resources and memory resources. This allows you to calculate the proportion of resource requirements for each type of subtask. This process is specific to the cluster configuration and needs to be relearned when the configuration conditions change.
  • the learner needs to observe the operation of the platform for a period of time, and record the set in different environments.
  • the resource utilization of the group that is, the fluctuation of the dominant share.
  • Environmental parameters that may cause fluctuations in dominance include: time, login by a user, and so on. This is an unsupervised learning process.
  • the learner predicts the dominant share of the platform under the new conditions to prepare for subsequent calculations.
  • the split rule is a priori knowledge and can be specified in advance.
  • Subtask completion time t Number of concurrently running tasks on the platform k
  • Total number of subtasks of the job N Based on this, the total time of completion of the job can be calculated under this resource configuration.
  • Job completion time and resource configuration are parabolic-like. After calculating the completion time in a configuration, the program will search forward or backward, trying to shorten the job completion time until it approaches the theoretical optimal value.
  • the learner needs to be trained in the real environment for a period of time during deployment. Different tasks need to be run under different resource configurations, and the runtime collects runtime results as an instance in the instance library. The learner also needs to obtain the characteristic parameters of the real platform and collect the dominant shares under different conditions. In addition, you need to obtain the current task splitting rules, file block size, and other information to prepare for subsequent calculations.
  • the new job feature value is input, and the learner will iteratively calculate the resource configuration parameter with the optimal job completion time according to the instance library and the subsequent algorithm.

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及第2代Hadoop中YARN平台的作业优化技术,特别涉及一种MapReduce任务资源配置参数的机器学习方法。本发明通过引入机器学习方法,构建了一种学习器,能够为YARN平台中提交的MapReduce作业选择合适的运行参数,以提高平台运行效率,缩短作业完成时间。

Description

一种 MapReduce任务资源配置参数的机器学习方法
技术领域
本发明涉及第 2代 Hadoop中 YARN平台的作业优化技术, 特别涉及一种 MapReduce任务资源配置参数的机器学习方法。
背景技术
Hadoop是当前最流行的大数据处理工具。 它实现了一套分布式存储与计算 系统, 特别适合于 TB、 PB级的数据处理, 并且借助于 MapReduce框架, 可以 使用户轻松写出分布式程序, 将传统业务迁移到分布式平台上来。
目前商业化的产品多是基于第 1代 Hadoop的技术实现,在实用中存在单点 瓶颈、 资源分配不灵活、 编程框架单一等问题。 正在研发中的第 2代 Hadoop, 为克服上述缺点, 创造性的将资源调度平台与编程框架分离: 构建了新的底层 平台 YARN, 负责集群的资源分配及任务调度; 剥离 MapReduce框架成为独立 的可选组件, 不再与平台耦合。 在新的资源调度平台 YARN 上, 采用的调度算法是 "支配资源公平" (Dominant Resource Fairness, DRF 用户提交的程序称为作业, 每个作业将会 拆分成大量子任务运行。 用户在提交作业时, 需要指定每个子任务运行时占用 的 CPU和内存资源。 YARN平台调度器会依此计算每个子任务的 CPU和内存占 集群总资源量的比值, 并取其大者作为该类子任务的 "支配份额"(Dominant Share) 在多名用户同时提交多个作业时, 调度器会选择性地启动各类子任务, 以保证各用户的总支配份额相同。 受上述调度算法影响, 用户在提交作业时, 设置的资源需求参数将会直接 影响到作业的完成时间。 设置的资源需求越大, 每个子任务运行时间越短, 但 受到平台调度器的限制, 同时运行的子任务数会减少; 设置的资源需求越少, 每个子任务运行时间越长, 但同时运行的子任务数量会变多。 资源需求与子任务完成时间及平台并发任务数均不是线性关系。 目前参数 的设置主要依赖于用户经验, 对于缺乏丰富经验的用户来说, 并不能保证合理 的参数设置, 从而导致作业运行时间明显大于理论最优值。 发明内容
为了解决现有技术的问题, 本发明提供了一种 MapReduce任务资源配置参 数的机器学习方法, 通过引入机器学习算法, 可以降低参数设置时的主观偏差, 在一定程度上解决目前参数设置不合理的问题。 本发明所采用的技术方案如下:
一种 MapReduce任务资源配置参数的机器学习方法, 包括以下步骤:
A、 预测任务完成时间;
B、 预测平台并发任务数;
C、 计算作业完成时间并判断时间是否最优, 如果是则提交作业, 如果否则 重新进行步骤 A。 步骤 A 中对于任务完成时间的预测, 需要输入数据的特征值有四个: (1) Map/Reduce; (2) 任务类型; (3) 数据量; (4) 复杂度。
步骤 B中对于预测平台并发任务数的具体步骤是:
Bl、 学习器需要记录集群的配置参数, 即总的 CPU资源和内存资源; 依此 可以计算各类子任务的资源需求占比;
B2、 学习器需要在一段自定义时间内观察平台的运行情况, 记录不同环境 下集群的资源利用情况, 即支配份额的波动情况;
B3、 在学习过程之后, 学习器会对新条件下平台的支配份额做出预测, 从 而为后续计算做好准备。
步骤 B1中,此过程针对特定的集群配置,当配置条件改变时,需重新学习。 步骤 B2中, 可能引起支配份额波动的环境参数包括: 时间、 某用户登录, 这是一个无监督学习过程。
步骤 C中, 还需要获取每个作业拆分的子任务数量, 对于当前作业, 指定 子任务资源需求, 学习器给出的预测值包括:
子任务完成时间 t; 平台同时运行任务数 k; 作业的总子任务数 N; 据此可以计算在此资源配置下, 作业完成总时间为:
T = t * N / k; 作业完成时间与资源配置是类抛物线关系, 在计算出某一配置下的完成时 间后, 程序将正向或反向搜索, 尝试将作业完成时间缩短, 直至逼近理论最优 值。
一种 MapReduce任务资源配置参数的学习器,其包括 2个需要训练的组件: 任务完成时间预测器、 平台并发任务数预测器, 所述任务完成时间预测器采用 监督学习方法, 平台并发任务数预测器采用非监督学习方法, 所述的学习器能 够根据指定的资源配置参数预测作业完成时间, 并迭代寻找作业完成时间最短 的资源配置参数。 机器学习算法分为监督学习和非监督学习。 监督学习将数据分成训练集和 测试集, 通过训练集训练出相应的规则, 然后对测试集中的新数据测试验证。 本发明提供的技术方案带来的有益效果是:
本发明能够降低 YARN平台作业提交时设置资源需求的主观偏差, 能够缩 短作业完成时间, 提高平台整体的运行效率, 为经济发展节约资源。 附图说明
图 1为本发明的一种 MapReduce任务资源配置参数的机器学习方法的方法 流程逻辑图;
图 2为本发明的一种 MapReduce任务资源配置参数的机器学习方法的实施 流程图。
具体实施方式
为使本发明的目的、 技术方案和优点更加清楚, 下面将结合附图对本发明 实施方式作进一步地详细描述。 实施例如附图 1所示。
本实施例要解决的问题如下:
学习过程中需要解决 2个问题: 1、 对于不同的任务, 配置相应的 CPU和 内存资源,预测任务完成时间; 2、对于 YARN平台, 设置不同的资源需求参数, 预测能同时运行的任务数。
得到上述两个预测值后, 可以计算在不同的资源配置下, 作业完成的总时 间。
本实施例所采用的具体方案如下:
1、 预测任务完成时间 输入数据的特征值有四个:
(1) Map/Reduce;
(2)任务类型;
(3) 数据量;
(4) 复杂度。
由于 Map和 Reduce任务的资源需求要单独提交,因而将其作为两类不同的 子任务处理。 任务类型指具体的操作分类, 例如数据库检索、 文件排序等。 数 据量指要处理的数据规模。 复杂度是一个人为控制变量, 由用户估计任务的复 杂程度。
训练过程中, 需要在真实环境下对不同的任务配置不同的参数, 记录其运 行时间, 作为实例库。 在建立起一定规模的实例库后, 对于新到来的任务, 根 据其特征值计算与实例库中实例的相似度, 从而得出预测的运行时间。
2、 预测平台并发任务数
首先, 学习器需要记录集群的配置参数, 即总的 CPU资源和内存资源。 依 此可以计算各类子任务的资源需求占比。 此过程针对特定的集群配置, 当配置 条件改变时, 需重新学习。
其次, 学习器需要在一段时间内观察平台的运行情况, 记录不同环境下集 群的资源利用情况, 即支配份额的波动情况。 可能引起支配份额波动的环境参 数包括: 时间、 某用户登录等。 这是一个无监督学习过程。
在学习过程之后, 学习器会对新条件下平台的支配份额做出预测, 从而为 后续计算做好准备。
3、 计算作业完成时间 本过程中还需要获取每个作业拆分的子任务数量。 拆分规则是先验知识, 可以预先指定。
对于当前作业, 指定子任务资源需求<¾ ?11, 111 ^^^1>, 学习器给出的预测 值包括:
子任务完成时间 t 平台同时运行任务数 k 作业的总子任务数 N 据此可以计算在此资源配置下, 作业完成总时间
T = t * N / k
作业完成时间与资源配置是类抛物线关系, 在计算出某一配置下的完成时 间后, 程序将正向或反向搜索, 尝试将作业完成时间缩短, 直至逼近理论最优 值。
参照附图 2, 学习器在部署时, 需要在真实环境中训练一段时间。 需要有不 同的任务在不同的资源配置下运行, 由学习器采集运行时间结果, 作为实例库 里的实例。 学习器也需要获取真实平台的特征参数, 采集不同条件下的支配份 额。 另外需要获取当前的任务拆分规则、 文件块大小等信息, 为后续计算做准 备。 当训练过程完成后, 输入新作业特征值, 学习器将根据实例库及后续算法, 迭代计算作业完成时间最优的资源配置参数。
以上所述仅为本发明的较佳实施例, 并不用以限制本发明, 凡在本发明的 精神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的 保护范围之内。

Claims

权利要求书
1、 一种 MapReduce任务资源配置参数的机器学习方法, 包括以下步骤:
A、 预测任务完成时间;
B、 预测平台并发任务数;
C、 计算作业完成时间并判断时间是否最优, 如果是则提交作业, 如果否则 重新进行步骤 A。
2、根据权利要求 1所述的一种 MapReduce任务资源配置参数的机器学习方 法, 其特征在于, 所述步骤 A中对于任务完成时间的预测, 需要输入数据的特 征值有四个: (1) Map/Reduce; (2)任务类型; (3) 数据量; (4) 复杂度。
3、根据权利要求 1所述的一种 MapReduce任务资源配置参数的机器学习方 法, 其特征在于, 所述步骤 B中对于预测平台并发任务数的具体步骤是:
Bl、 学习器需要记录集群的配置参数, 即总的 CPU资源和内存资源; 依此 可以计算各类子任务的资源需求占比;
B2、 学习器需要在一段自定义时间内观察平台的运行情况, 记录不同环境 下集群的资源利用情况, 即支配份额的波动情况;
B3、 在学习过程之后, 学习器会对新条件下平台的支配份额做出预测, 从 而为后续计算做好准备。
4、根据权利要求 3所述的一种 MapReduce任务资源配置参数的机器学习方 法, 其特征在于, 所述步骤 B1中, 此过程针对特定的集群配置, 当配置条件改 变时, 需重新学习。
5、根据权利要求 3所述的一种 MapReduce任务资源配置参数的机器学习方 法, 其特征在于, 所述步骤 B2中, 可能引起支配份额波动的环境参数包括: 时 间、 某用户登录, 这是一个无监督学习过程。
6、根据权利要求 1所述的一种 MapReduce任务资源配置参数的机器学习方 法, 其特征在于, 所述步骤 C中, 还需要获取每个作业拆分的子任务数量, 对 于当前作业, 指定子任务资源需求, 学习器给出的预测值包括:
子任务完成时间 t; 平台同时运行任务数 k; 作业的总子任务数 N; 据此可以计算在此资源配置下, 作业完成总时间为:
T = t * N / k; 作业完成时间与资源配置是类抛物线关系, 在计算出某一配置下的完成时 间后, 程序将正向或反向搜索, 尝试将作业完成时间缩短, 直至逼近理论最优 值。
7、一种 MapReduce任务资源配置参数的学习器, 其包括 2个需要训练的组 件: 任务完成时间预测器、 平台并发任务数预测器, 所述任务完成时间预测器 采用监督学习方法, 平台并发任务数预测器采用非监督学习方法, 所述的学习 器能够根据指定的资源配置参数预测作业完成时间, 并迭代寻找作业完成时间 最短的资源配置参数。
PCT/CN2014/071235 2013-11-07 2014-01-23 一种MapReduce任务资源配置参数的机器学习方法 WO2015066979A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310547034.8A CN103593323A (zh) 2013-11-07 2013-11-07 一种MapReduce任务资源配置参数的机器学习方法
CN201310547034.8 2013-11-08

Publications (1)

Publication Number Publication Date
WO2015066979A1 true WO2015066979A1 (zh) 2015-05-14

Family

ID=50083473

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/071235 WO2015066979A1 (zh) 2013-11-07 2014-01-23 一种MapReduce任务资源配置参数的机器学习方法

Country Status (2)

Country Link
CN (1) CN103593323A (zh)
WO (1) WO2015066979A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202431A (zh) * 2016-07-13 2016-12-07 华中科技大学 一种基于机器学习的Hadoop参数自动调优方法及系统
US10013289B2 (en) 2016-04-28 2018-07-03 International Business Machines Corporation Performing automatic map reduce job optimization using a resource supply-demand based approach
US10102098B2 (en) 2015-12-24 2018-10-16 Industrial Technology Research Institute Method and system for recommending application parameter setting and system specification setting in distributed computation

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095230A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 确定目标数据分析应用的性能预测模型的方法及装置
EP3161733A1 (en) * 2014-06-30 2017-05-03 Amazon Technologies, Inc. Interactive interfaces for machine learning model evaluations
CN108270603A (zh) * 2016-12-31 2018-07-10 中国移动通信集团陕西有限公司 一种调度方法及管理系统
US10095981B1 (en) * 2017-03-22 2018-10-09 Accenture Global Solutions Limited Multi-state quantum optimization engine
CN107025141B (zh) * 2017-05-18 2020-09-01 成都海天数联科技有限公司 一种基于大数据混合作业模型的调度方法
CN109992403B (zh) * 2017-12-30 2021-06-01 中国移动通信集团福建有限公司 多租户资源调度的优化方法、装置、终端设备及存储介质
CN110209645A (zh) * 2017-12-30 2019-09-06 中国移动通信集团四川有限公司 任务处理方法、装置、电子设备及存储介质
CN109992404B (zh) * 2017-12-31 2022-06-10 中国移动通信集团湖北有限公司 集群计算资源调度方法、装置、设备及介质
CN108510081A (zh) * 2018-03-23 2018-09-07 北京京东尚科信息技术有限公司 机器学习方法和平台
CN110427356B (zh) * 2018-04-26 2021-08-13 中移(苏州)软件技术有限公司 一种参数配置方法和设备
CN109325494B (zh) * 2018-08-27 2021-09-17 腾讯科技(深圳)有限公司 图片处理方法、任务数据处理方法和装置
CN109901921B (zh) * 2019-02-22 2022-02-11 北京致远互联软件股份有限公司 任务队列执行时间预测方法、装置及实现装置
CN110209574A (zh) * 2019-05-14 2019-09-06 深圳极视角科技有限公司 一种基于人工智能的数据开发系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073546A (zh) * 2010-12-13 2011-05-25 北京航空航天大学 一种云计算环境中分布式计算模式下的任务动态调度方法
CN102591921A (zh) * 2010-12-20 2012-07-18 微软公司 个人数据中心内的调度和管理
CN103019855A (zh) * 2012-11-21 2013-04-03 北京航空航天大学 MapReduce作业执行时间预测方法
CN103064664A (zh) * 2012-11-28 2013-04-24 华中科技大学 一种基于性能预估的Hadoop参数自动优化方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222092B (zh) * 2011-06-03 2013-02-27 复旦大学 一种MapReduce平台上的海量高维数据聚类方法
US9367601B2 (en) * 2012-03-26 2016-06-14 Duke University Cost-based optimization of configuration parameters and cluster sizing for hadoop

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073546A (zh) * 2010-12-13 2011-05-25 北京航空航天大学 一种云计算环境中分布式计算模式下的任务动态调度方法
CN102591921A (zh) * 2010-12-20 2012-07-18 微软公司 个人数据中心内的调度和管理
CN103019855A (zh) * 2012-11-21 2013-04-03 北京航空航天大学 MapReduce作业执行时间预测方法
CN103064664A (zh) * 2012-11-28 2013-04-24 华中科技大学 一种基于性能预估的Hadoop参数自动优化方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIU, XIANG;: "Research on Performance Optimization of Computing Model in the Cloud Computing Environment", CHINA MASTER THESES FULL-TEXT DATABASE, no. 03, 15 March 2013 (2013-03-15), pages 14 - 16 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10102098B2 (en) 2015-12-24 2018-10-16 Industrial Technology Research Institute Method and system for recommending application parameter setting and system specification setting in distributed computation
US10013289B2 (en) 2016-04-28 2018-07-03 International Business Machines Corporation Performing automatic map reduce job optimization using a resource supply-demand based approach
CN106202431A (zh) * 2016-07-13 2016-12-07 华中科技大学 一种基于机器学习的Hadoop参数自动调优方法及系统
CN106202431B (zh) * 2016-07-13 2019-06-28 华中科技大学 一种基于机器学习的Hadoop参数自动调优方法及系统

Also Published As

Publication number Publication date
CN103593323A (zh) 2014-02-19

Similar Documents

Publication Publication Date Title
WO2015066979A1 (zh) 一种MapReduce任务资源配置参数的机器学习方法
Tuli et al. COSCO: Container orchestration using co-simulation and gradient based optimization for fog computing environments
Mao et al. Learning scheduling algorithms for data processing clusters
Ananthanarayanan et al. {GRASS}: Trimming stragglers in approximation analytics
Han et al. Tailored learning-based scheduling for kubernetes-oriented edge-cloud system
US20200257968A1 (en) Self-learning scheduler for application orchestration on shared compute cluster
US10783436B2 (en) Deep learning application distribution
Ge et al. GA-based task scheduler for the cloud computing systems
Fan et al. Deep reinforcement agent for scheduling in HPC
Pastorelli et al. HFSP: size-based scheduling for Hadoop
Ben-Yehuda et al. Expert: Pareto-efficient task replication on grids and a cloud
Singh et al. A genetic algorithm for scheduling workflow applications in unreliable cloud environment
Chakravarthi et al. TOPSIS inspired budget and deadline aware multi-workflow scheduling for cloud computing
CN112685153A (zh) 微服务调度方法、装置以及电子设备
CN105740059B (zh) 一种面向可分割任务的粒子群调度方法
CN115454589A (zh) 一种任务调度方法、装置及Kubernetes调度器
CN108132840B (zh) 一种分布式系统中的资源调度方法及装置
Razavi et al. FA2: Fast, accurate autoscaling for serving deep learning inference with SLA guarantees
Han et al. Scheduling placement-sensitive BSP jobs with inaccurate execution time estimation
Caglar et al. Towards a performance interference-aware virtual machine placement strategy for supporting soft real-time applications in the cloud
WO2022116667A1 (zh) 一种训练任务排队原因分析方法、系统、设备以及介质
Fan et al. Dras: Deep reinforcement learning for cluster scheduling in high performance computing
CN108574600B (zh) 云计算服务器的功耗和资源竞争协同控制的服务质量保障方法
Patan et al. A novel performance aware real-time data handling for big data platforms on Lambda architecture
US10592473B2 (en) Method for improving energy efficiency of map-reduce system and apparatus thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14859939

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14859939

Country of ref document: EP

Kind code of ref document: A1