WO2017107456A1

WO2017107456A1 - 确定任务消耗资源的方法及装置

Info

Publication number: WO2017107456A1
Application number: PCT/CN2016/089272
Authority: WO
Inventors: 许鹭清
Original assignee: 乐视控股（北京）有限公司; 乐视网信息技术（北京）股份有限公司
Priority date: 2015-12-25
Filing date: 2016-07-07
Publication date: 2017-06-29
Also published as: CN105868070A

Abstract

一种确定任务消耗资源的方法及装置，所示方法包括：获取集群任务的任务记录(S101)，所述任务记录包括：任务执行时启动的任务进程；计算每个任务进程占用预设单位资源的资源占用时间(S102)；统计集群任务启动的多个任务进程占用的预设单位资源的总资源占用时间(S103)；根据所述总资源占用时间及预设单位资源确定所述集群任务在执行时消耗的集群资源(S104)。所示方法能够确定每个集群任务在执行时占用的集群资源，便于追踪每天在集群中计算的集群任务消耗的资源。

Description

确定任务消耗资源的方法及装置

本申请要求于2015年12月25日提交中国专利局、申请号为201510997430.X、发明名称为“确定任务消耗资源的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机技术领域，尤其涉及一种确定任务消耗资源的方法及装置。

背景技术

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)，简称HDFS。用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。集群中一般包含多个节点，每个节点上的CPU资源和存储资源等。

在实际应用中，一个企业中的Hadoop集群在实际应用中可能会由企业中很多的研发人员使用，由于每个提交到集群中的任务在执行时均需要消耗一定的资源，例如CPU资源和存储资源等，对于一些研发人员提供的需要消耗很多集群资源的程序，可能会造成资源的争抢，可能还会影响其它集群任务的运行。

发明内容

为克服相关技术中存在的问题，本发明实施例提供一种确定任务消耗资源的方法及装置。

根据本发明实施例的第一方面，提供一种确定任务消耗资源的方法，包括：

获取集群任务的任务记录，所述任务记录包括：任务执行时启动的任务进程；

计算每个任务进程占用预设单位资源的资源占用时间；

统计集群任务启动的多个任务进程占用的预设单位资源的总资源占用时间；

根据所述总资源占用时间及预设单位资源确定所述集群任务在执行时消耗的集群资源。

可选地，所述方法还包括：

统计集群中每个节点上的多维度资源；

将每个节点上的多维度资源划分成多个单维度的预设单位资源。

可选地，所述方法还包括：

获取预设集群资源与任务优先级的对应关系；

将与所述集群任务消耗的集群资源对应的任务优先级确定为所述集群任务的优先级。

可选地，所述任务记录还包括：尝试进程；

所述计算每个任务进程在对应的所述进程时间内占用预设单位资源的资源占用时间包括：

针对每个任务进程，获取每个任务进程启动的尝试进程；

当存在运行成功的尝试进程时，统计运行成功的尝试进程占用预设单位资源的资源占用时间。

可选地，所述获取集群任务的任务记录包括：

通过预设接口以负载均衡的方式获取集群任务的任务记录。

根据本发明实施例的第二方面，提供一种确定任务消耗资源的装置，包括：

第一获取模块，用于获取集群任务的任务记录，所述任务记录包括：任务执行时启动的任务进程；

计算模块，用于计算每个任务进程占用预设单位资源的资源占用时间；

第一统计模块，用于统计集群任务启动的多个任务进程占用的预设单位资源的总资源占用时间；

第一确定模块，用于根据所述总资源占用时间及预设单位资源确定所述集群任务在执行时消耗的集群资源。

可选地，所述装置还包括：

第二统计模块，用于统计集群中每个节点上的多维度资源；

划分模块，用于将每个节点上的多维度资源划分成多个单维度的预设单位资源。

可选地，所述装置还包括：

第二获取模块，用于获取预设集群资源与任务优先级的对应关系；

第二确定模块，用于将与所述集群任务消耗的集群资源对应的任务优先级确定为所述集群任务的优先级。

可选地，所述任务记录还包括：尝试进程；

所述计算模块包括：

第一获取子模块，用于针对每个任务进程，获取每个任务进程启动的尝试进程；

统计子模块，用于当存在运行成功的尝试进程时，统计运行成功的尝试进程占用预设单位资源的资源占用时间。

可选地，所述第一获取模块包括：

第二获取子模块，用于通过预设接口以负载均衡的方式获取集群任务的任务记录。

根据本发明实施例的第三方面，还提供一种服务器，该服务器包括本发明实施例第二方面提供的一种确定任务消耗资源的装置中的部分或全部模块。

根据本发明实施例的第四方面，还提供一种非易失性计算机可读存储介质，其中，该非易失性计算机可读存储介质可存储计算机指令，该计算机指令可实现本发明实施例第一方面提供一种确定任务消耗资源的方法的各实现方式中的部分或全部步骤。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明通过获取集群任务的任务记录，所述任务记录包括：任务执行时启动的任务进程；计算每个任务进程占用预设单位资源的资源占用时间；统计集群任务启动的多个任务进程占用的预设单位资源的总资源占用时间；根据所述总资源占用时间及预设单位资源确定所述集群任务在执行时消耗的集群资源。

本发明实施例提供的该方法，能够确定每个集群任务在执行时占用的集群资源，便于追踪每天在集群中计算的集群任务消耗的资源，进而便于按照部门、用户或者业务进行分析，找出资源占用最低的集群任务，便于统计各个部门或者各个业务线的资源消耗，进而便于指导各部门优化计算任务，有利于控制集群建设的成本控制。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种确定任务消耗资源的方法的一种流程图；

图2是根据一示例性实施例示出的一种确定任务消耗资源的方法的另一种流程图；

图3是根据一示例性实施例示出的一种确定任务消耗资源的方法的另一种流程图；

图4是根据一示例性实施例示出的一种确定任务消耗资源的装置的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如图1所示，在本发明的又一实施例中，提供一种确定任务消耗资源的方法，应用于服务器，包括以下步骤。

在步骤S101中，获取集群任务的任务记录。

在本发明实施例中，所述任务记录包括：任务执行时启动的任务进程，服务器可以通过预设接口以负载均衡的方式获取集群任务的任务记录。

在该步骤中，集群任务可以为提交到Hadoop集群中的任务，对于每一个运行完成的MapReduce任务，JobTracker都记录了该任务的详细信息，包括任务的基本配置信息和该MapReduce任务具体执行情况。这些信息都可以从JobTracker的Web站点以及各个子页面里获取得到；数据收集程序是一个Newlisp脚本，该脚本通过Http Get的方式请求JobTracker站点指定页面的内容，并对内容进行解析，获取到指定的MapReduce任务的详细信息。一般地，收集的信息具体分为三类：

1)任务的基本信息；

包括：任务Id、用户名、任务名称、Hive执行语句、任务提交机器、任务提交机器ip、任务提交时间、任务Launch时间、任务Launch耗时、任务结束时间、任务总共耗时、任务运行结果、失败信息。

2)任务运行的统计信息；

包括：各种Task的数目、成功运行的Task数目、失败的Task数目、杀死的Task数目、各个阶段(Setup、Map、Reduce、Cleanup)的开始时间、结束时间、总耗时、各个Counter的统计值。

3)每个Task的每个Attempt执行的详细信息；

包括：Attempt的id、所属Task id、Attempt开始时间、Shuffle阶段结束时间、Shuffle阶段耗时、Sort阶段结束时间、sort阶段耗时、Attempt结束时间、总共耗时、执行机器、执行结果、错误信息、Counter数目。

对于每一个MapReduce任务，程序都会收集上述三类信息，汇总成一条任务记录，通过Http的方式发回到服务器，服务器通过REST API的方式接收程序发送过来的数据，为了防止单点,采用了LVS+Nginx+双机负载均衡的方案，数据库采用了MongoDB三机集群，保证数据存储的高性能和无单点。

在步骤S102中，计算每个任务进程占用预设单位资源的资源占用时间。

在本发明实施例实施例中，一个预设单位资源可以指一个Slot，可以针对每个任务进程，获取每个任务进程启动的尝试进程；当存在运行成功的尝试进程时，统计运行成功的尝试进程占用预设单位资源的资源占用时间。

在该步骤中，当一个集群任务(即MapReduce任务)运行的时候，总是需要运行一定数目的Map Task和Reduce Task。而每一任务进程(即Task)的运行总是要占据一个Slot一段时间，也就是占据着机器上的一定的资源一段时间。

每个集群任务(即MapReduce任务)都是由若干个任务进程(即Task)组成，而每一任务进程都可能启动多个尝试进程(即Attempt)组成，每个尝试进程是对完成该任务进程的一次尝试。在执行一次尝试进程的时候，可能由于运行节点异常导致该尝试进程失败或是执行的异常缓慢，这时候计算框架就会再启动一次尝试进程执行相同的任务进程。Hadoop集群使用这种机制来保证每个任务进程能够运行成功且任务不会因为一个任务进程的缓慢而执行时间过长。每个任务进程的若干次尝试进程只有至多一次会是运行成功的状态。

由于每一个任务进程的多次尝试进程大多数情况是由于集群计算节点的异常导致的，所以多次尝试进程运行的成本不应该重复计算在每一个任务上面，即只计算一个任务中所有运行状态为SUCCESS的尝试进程的执行时间之和，作为该任务的任务进程运行总时长。

在步骤S103中，统计集群任务启动的多个任务进程占用的预设单位资源的总资源占用时间。

在该步骤中，可以将每个任务进程占用预设单位资源的资源占用时间求和，得到总资源占用时间。

在步骤S104中，根据所述总资源占用时间及预设单位资源确定所述集群任务在执行时消耗的集群资源。

由于Hadoop集群的机器数目是有限的，每个机器上能够配置的Slot数目也是一定的，所以集群每天总共能够提供的Map Task和Reduce Task的运行时间也是一定的，所以本发明实施例提供的该方法，能够确定每个集群任务在执行时占用的集群资源，便于追踪每天在集群中计算的集群任务消耗的资源，按照部门、用户或者业务进行分析，找出资源占用最低的集群任务，便于统计各个部门或者各个业务线的资源消耗，进而便于指导各部门优化计算任务，有利于控制集群建设的成本控制。

如图2所示，在本发明实施例的又一实施例中，所述方法还包括以下步骤。

在步骤S201中，统计集群中每个节点上的多维度资源。

在步骤S202中，将每个节点上的多维度资源划分成多个单维度的预设单位资源。

在该步骤中，可以将Hadoop集群中各个节点上的多维度资源(CPU、内存、网络I/O和磁盘I/O等)等分成多个一维度Slot，考虑到Map Task和Reduce Task资源使用量不同，可以将Slot进一步划分成Map Slot和Reduce Slot两种，并规定Map Task只能使用Map Slot，Reduce Task只能使用Reduce Slot。

本发明实施例能够将各个节点上的资源进行划分，得到多个单维度的预设单位资源，以便于根据每个任务进程占用的预设单位资源的时时间确定集群任务的总资源占用时间。

如图3所示，再本发明的有一个实施例中，所述方法还包括以下步骤。

在步骤S301中，获取预设集群资源与任务优先级的对应关系。

在该步骤中，预设集群资源与任务优先级的对应关系可以为集群资源的阈值范围与任务优先级的对应关系，例如：集群资源的阈值范围在100至200时，对应的优先级为2级等。

在步骤S302中，将与所述集群任务消耗的集群资源对应的任务优先级确定为所述集群任务的优先级。

本发明实施例提供的该方法，能够根据集群任务的资源消耗情况，确定集群任务的优先级，便于确定根据任务的优先级对集群任务进行调度控制等。

如图4所示，在本发明的又一实施例中，提供一种确定任务消耗资源的装置，包括：第一获取模块401、计算模块402、第一统计模块403和第一确定模块404。

第一获取模块401，用于获取集群任务的任务记录，所述任务记录包括：任务执行时启动的任务进程。

在本发明实施例中，第二获取子模块，用于通过预设接口以负载均衡的方式获取集群任务的任务记录。

计算模块402，用于计算每个任务进程占用预设单位资源的资源占用时间。

在本发明实施例中，所述计算模块包括：

第一统计模块403，用于统计集群任务启动的多个任务进程占用的预设单位资源的总资源占用时间。

第一确定模块404，用于根据所述总资源占用时间及预设单位资源确定所述集群任务在执行时消耗的集群资源。

在本发明的又一实施例中，所述装置还包括：第二统计模块和划分模块。

第二统计模块，用于统计集群中每个节点上的多维度资源。

在本发明的又一实施例中，所述装置还包括：第二获取模块和第二确定模块。

第二获取模块，用于获取预设集群资源与任务优先级的对应关系。

本发明实施例还提供一种服务器，该服务器包括图4所示实施例提供的一种确定任务消耗资源的装置中的部分或全部模块。

本发明实施例还提供非易失性计算机可读存储介质，其中，该非易失性计算机可读存储介质可存储有计算机指令，该计算机指令可实现图1至图3所示实施例提供的一种确定任务消耗资源的方法的各实现方式中的部分或全部步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由所附的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

一种确定任务消耗资源的方法，其特征在于，包括：

获取集群任务的任务记录，所述任务记录包括：任务执行时启动的任务进程；

计算每个任务进程占用预设单位资源的资源占用时间；

统计集群任务启动的多个任务进程占用的预设单位资源的总资源占用时间；

根据所述总资源占用时间及预设单位资源确定所述集群任务在执行时消耗的集群资源。
根据权利要求1所述的确定任务消耗资源的方法，其特征在于，所述方法还包括：

统计集群中每个节点上的多维度资源；

将每个节点上的多维度资源划分成多个单维度的预设单位资源。
根据权利要求1所述的确定任务消耗资源的方法，其特征在于，所述方法还包括：

获取预设集群资源与任务优先级的对应关系；

将与所述集群任务消耗的集群资源对应的任务优先级确定为所述集群任务的优先级。
根据权利要求1至3任意一项所述的确定任务消耗资源的方法，其特征在于，所述任务记录还包括：尝试进程；

所述计算每个任务进程在对应的所述进程时间内占用预设单位资源的资源占用时间包括：

针对每个任务进程，获取每个任务进程启动的尝试进程；

当存在运行成功的尝试进程时，统计运行成功的尝试进程占用预设单位资源的资源占用时间。
根据权利要求4所述的确定任务消耗资源的方法，其特征在于，所述获取集群任务的任务记录包括：

通过预设接口以负载均衡的方式获取集群任务的任务记录。
一种确定任务消耗资源的装置，其特征在于，包括：

第一获取模块，用于获取集群任务的任务记录，所述任务记录包括：任务执行时启动的任务进程；

计算模块，用于计算每个任务进程占用预设单位资源的资源占用时间；

第一统计模块，用于统计集群任务启动的多个任务进程占用的预设单位资源的总资源占用时间；

第一确定模块，用于根据所述总资源占用时间及预设单位资源确定所述集群任务在执行时消耗的集群资源。
根据权利要求6所述的确定任务消耗资源的装置，其特征在于，所述装置还包括：

第二统计模块，用于统计集群中每个节点上的多维度资源；

划分模块，用于将每个节点上的多维度资源划分成多个单维度的预设单位资源。
根据权利要求6所述的确定任务消耗资源的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取预设集群资源与任务优先级的对应关系；

第二确定模块，用于将与所述集群任务消耗的集群资源对应的任务优先级确定为所述集群任务的优先级。
根据权利要求6至8任意一项所述的确定任务消耗资源的装置，其特征在于，所述任务记录还包括：尝试进程；

所述计算模块包括：

第一获取子模块，用于针对每个任务进程，获取每个任务进程启动的尝试进程；

统计子模块，用于当存在运行成功的尝试进程时，统计运行成功的尝试进程占用预设单位资源的资源占用时间。
根据权利要求9所述的确定任务消耗资源的装置，其特征在于，所述第一获取模块包括：

第二获取子模块，用于通过预设接口以负载均衡的方式获取集群任务的任务记录。