WO2020206705A1

WO2020206705A1 - 一种基于集群节点负载状态预测的作业调度方法

Info

Publication number: WO2020206705A1
Application number: PCT/CN2019/082593
Authority: WO
Inventors: 张金泉; 倪丽娜; 禹继国; 韩庆亮; 杨振宇; 张福新
Original assignee: 山东科技大学
Priority date: 2019-04-10
Filing date: 2019-04-15
Publication date: 2020-10-15
Also published as: CN110096349B; CN110096349A

Abstract

本发明公开了一种基于集群节点负载状态预测的作业调度方法，属于信息技术处理领域，本发明提出了基于集群节点负载状态预测作业调度算法，首先介绍了算法的设计思想，将集群的节点根据预测算法的负载状态分为活跃节点的队列和休眠节点的队列；然后根据计算需求的资源量动态地激活休眠节点，以达到动态调整集群规模的目的；接着描述了算法的流程，算法的步骤，以及算法的伪代码实现，然后对该算法的节能效果做了分析；并且介绍了实验验证的过程，包括实验的设计，数据集的选用，最后对实验结果进行了量化分析，证明了本申请的方法具有实际意义的节能效果。

Description

一种基于集群节点负载状态预测的作业调度方法

技术领域

本发明属于信息技术处理领域，具体涉及一种基于集群节点负载状态预测的作业调度方法。

背景技术

Hadoop集群节点的负载水平在非峰值时间比较低，在大多数的情况下，集群的计算能力会远远超过输入计算任务所需要的资源量，这就导致了许多计算节点可能始终以一个较低的负载在运行，造成了能源浪费。

发明内容

针对现有技术中存在的上述技术问题，本发明提出了一种基于集群节点负载状态预测的作业调度方法，设计合理，克服了现有技术的不足，具有良好的效果。

为了实现上述目的，本发明采用如下技术方案：

一种基于集群节点负载状态预测的作业调度方法，包括如下步骤：

步骤1：基于LSTM训练集群数据，具体包括如下步骤：

INPUT：数据CPU和MEM、种子seed、步数steps、cell状态向量大小S _state；其中，种子seed由用户根据集群的构成进行设置，步数steps是模型训练次数，由用户根据经验任意设置；

OUTPUT：输出对应的预测序列；

步骤1.1：进行数据的预处理；

根据预设比例分割F _c和F _m，得到训练集F _train和测试集F _test；

其中，F _c＝{f ₁,f ₂,...,f _n}为原始集群节点的CPU数据，F _m＝{f ₁,f ₂,...,f _m}为内存数据；

步骤1.2：标准化训练集F _train，得到F′ _train＝{f′ ₁,f′ ₂,...,f′ _m}；

步骤1.3：将分割窗口设置为L，通过分割窗口L，得到分割后的模型输入X和理论输出Y；分割后的模型输入记为：

X＝{X ₁,X ₂,...,X _p,...X _L}，其中，X _p＝{f′ _p,f′ _p+1,…,f′ _m-L+p-1}(p＝1,2,…,L)；

理论输出记为：Y＝{Y ₁,Y ₂,...,Y _p,...,Y _L}，其中，Y _p＝{f′ _p+1,f′ _p+2,...,f′ _m-L+p}；

步骤1.4：通过S _state，建立LSTM _cell；

X经过输入隐藏层后，因为隐藏层包含了L个不间断时间LSTM _cell，则输出记为：P＝{P ₁,P ₂,...,P _p,...,P _L}，其中P _p＝LSTM _forward(X _p,C _p-1,H _p-1)(p＝1,2,…,L)，C _p-1表示前一个cell的状态，H _p-1表示前一个cell的输出，则C _p-1，H _p-1向量的大小为S _state；

步骤1.5：将L个LSTM _cell依次连接，得到多层LSTM网络LSTM _net；

步骤1.6：通过种子seed，初始化LSTM _net；

步骤1.7：训练LSTM _net；具体包括如下步骤：

步骤1.7.1：根据P _p＝LSTM _forward(X _p,C _p-1,H _p-1)(p＝1,2,…,L)计算每层输出P _p，然后计算损失函数loss；

步骤1.7.2：通过loss值，更新LSTM _net；

步骤1.7.3：重复执行步骤1.7.1和1.7.2steps次；

步骤1.8：得到训练好的LSTM模型

步骤2：资源分配过程；具体包括如下步骤：

INPUT：第一阶段的预测结果列表Prediction _list；用户作业集信息Job _info；

OUTPUT：休眠队列SleepQueue；

步骤2.1：根据预测模型，得到集群节点未来周期T内的预测结果列表Prediction _list；

步骤2.2：根据阈值，将节点划分到休眠队列SleepQueue和活跃队列AliveQueue中；

步骤2.3：继续执行休眠队列SleepQueue中的节点任务，在该时间段内不再将其资源容器Container中的资源分配给作业，统计AliveQueue中的节点资源列表；

步骤2.4：查询作业集的信息Job _info，作业集用向量Job<time,resource,tag,runtime>表示，其中time，resource，tag，runtime分别表示作业请求时间、请求资源量、作业类别和预估时间；

步骤2.5：基于FIFO(First In First Out，先进先出)，选择作业预分配资源；选择作业时，首先匹配作业和节点的特征，根据公式(1)，计算作业类型和节点的匹配差异程度difference的大小，并通过该值得到作业预分配列表；

其中，CPU _job为作业CPU利用率，MEM _job为作业内存利用率，CPU _node为节点的CPU历史平均利用率，MEM _node为节点内存平均利用率；

步骤2.6：计算得到能耗值最小的任务分配队列；

步骤2.7：判断作业资源需求量Job _request和集群资源量Hadoop _resource，如果作业资源需求量Job _request<集群资源量Hadoop _resource，则执行步骤2.3；如果作业资源需求量Job _request≥集群资源量Hadoop _resource，则激活SleepQueue中的节点，重新检查集群资源量，直到满足预设条件；

步骤2.8：继续预测下一周期T的主机状态，更新预测模型；

步骤2.9：判断作业集是否为空，即作业集Job_wait是否等于

若：判断结果是

则结束节能调度过程；

或判断结果是

则执行步骤2.3。

本发明所带来的有益技术效果：

本发明针对目前集群的计算能力会远超于计算需求的情况，将集群的节点根据预测算法的负载状态分为活跃节点的队列和休眠节点的队列，然后根据计算需求的资源量动态地激活休眠节点，以达到动态调整集群规模的目的；接着描述了算法的流程，算法的步骤，以及算法的伪代码实现，然后对该算法的节能效果做了分析；并且介绍了实验验证的过程，包括实验的设计，数据集的选用，最后对实验结果进行了量化分析，证明了本申请的方法具有实际意义的节能效果。

本发明通过训练集群的历史数据，预测其节点的资源使用情况及节点的任务处理特征，然后在待处理的作业队列中选择符合其特征的作业进行处理。在满足作业的时间处理要求上，对符合条件的主机进行休眠操作以降低集群的活跃节点数目，从而降低集群的能耗值。

本发明有效提高了集群活跃节点的资源利用率，同时休眠了部分主机，集群能耗总量也显著降低，实现了集群高效节能与集群访问性能的提升，对于建设绿色节能的数据中心具有重要意义。

附图说明

图1为本发明基于集群节点状态预测调度方法的流程图。

图2为point_by_point_predictions中预测数据长度为5时CPU利用率图。

图3为full_predictions中预测数据长度为5时CPU利用率图。

图4为point_by_point_predictions中预测数据长度为8时CPU利用率图。

图5为full_predictions中预测数据长度为8时CPU利用率图。

图6为不同算法下CPU使用率实验统计结果示意图。

图7为不同算法下内存使用率实验统计结果示意图。

图8为不同算法下得到的能耗值总量示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

1、负载分析和节点任务处理特征

为了完成任务的节能调度，需要感知计算节点的资源消耗情况，同时在获得待处理任务的资源消耗特点的前提下，改进资源分配策略。

1.1、节点负载分析

衡量不同类型的处理任务的负载影响，用参数θ表示。用θ _c表示CPU分量的影响，用θ _m表示内存分量的影响，用θ _o表示系统其他分量的影响。

(1)单个节点负载

假设Hadoop集群中某个节点i的负载表示为

CPU的负载用

表示，内存的负载用

表示，磁盘读取和网络流量等其他的系统负载用

表示。以上参数的取值范围[0,1]，节点i的负载量可表示为：

(2)集群平均负载

一个具有n个节点的集群，在t时刻的平均负载即为Hadoop集群的平均负载，计算公式为：

其中，θ的取值应该根据具体的任务类型做相应的调整。计算密集型的作业可以将θ _c的取值向上调整，I/O密集型的作业可以将θ _o取值向上调整，在计算时将CPU和内存作为单独的分量计算，磁盘读取被归类到其它分量。

根据以上负载分析可知，在任务计算量不改变的情况下，减少n的个数，会在一定程度上提高集群的平均负载。集群的整体负载较低的情况下，如果不考虑Hadoop集群为了任务分配的平衡而耗费的资源外，集群所有节点在负载不高的情况下同时运行，会造成能源浪费。

假设将集群一部分节点的负载率维持在预设阈值以上，将不满足该阈值的节点休眠，在集群计算任务需求量稳定的情况下，参与运行的节点数量将会变少，而在节点负载增加的情况下，为了达到更好的服务质量，激活一部分已经休眠的节点以增加集群的计算能力，这种方式就达到了根据实际的计算需要，动态地调整集群参与计算的节点规模的目的，因此根据任务量的需要，将一部分节点进行休眠操作对降低集群的能耗值总量是有意义的。

1.2、节点的任务执行特点分析

首先考虑以下情况：主机A的CPU历史平均利用率25％，内存利用率40％；主机B的CPU历史平均利用率40％，内存利用率25％。主机A和主机B的资源利用率的高低是没有明确的比较标准的，即不能直接比较主机A和主机B资源利用率的好坏，但是可以得到主机的任务处理特征：

主机A处理的任务和内存关系紧密，主机B处理的任务是CPU密集型的。

作业集JOB＝{job ₁,job ₂,job ₃,job ₄}，作业的调度按照作业集中的顺序进行处理。假设job ₁和job ₃是CPU密集型作业，job ₂和job ₄是内存需要较多的作业。先将job ₁分配到A主机上执行，将job ₂分配到B主机上执行是合理的选择，以此更好地平衡节点的任务处理能力。假设A在执行job ₁时候，节点的CPU利用率增长到30％，然后将job ₃分配到主机A上执行，如果主机A在执行job ₁时，其节点的CPU利用率增加到50％以上，不满足继续执行CPU密集型作业的特征，将作业job ₃分配到主机B上执行。

经过以上分析，本申请在考虑任务节能调度的时候，主要考虑以下几个方面：

(1)YARN(Yet Another Resource Negotiator，另一种资源协调者)调度模型分为两层，本申请针对第一层的资源调度器进行修改，即在ResourceManager中更新资源分配策略。而第二层是ApplicationMaster进行分配资源，同时，被处理文件的划分数目决定了应用程序任务的数量。对该粒度的任务预测比较困难，本申请未在第二层进行策略修改。

(2)根据集群节点的未来的一段时间状态，即通过模型预测未来周期的集群节点资源使用率，对负载预测较低的节点不再分配新的计算任务，符合休眠阈值后进行休眠操作，进而降低集群参与计算的节点数量，达到降低能耗的目的。同时根据集群节点的任务处理特征分配Container的思想，也可以在一定程度上平衡集群资源的利用。

(3)任务处理特征，即如果某节点的CPU利用率低，内存利用率高，该节点适合处理CPU密集型的任务；如果某节点CPU利用率高，内存利用率低，该节点适合处理内存占用率高的任务。为了简化节点的特征的计算过程，本申请是通过计算Container历史数据的平均值计算得出的。如此分配任务的优点是可以防止某种资源过载导致服务质量下降，可以更好的满足服务需求，同时在一定程度上做到了任务在活跃节点上的负载均衡。

(4)调度的目的是要在满足作业处理需求的基础上，以能耗最优的目标选择作业调度，同时休眠一部分节点以达到降低能耗的目的，但是同时也要满足作业完成时间的要求。

2、节能算法描述

根据以上分析，本申请提出HES-Scheduler(Hadoop Energy-Saving Scheduler)的节能调度算法，该算法保持集群活跃节点的负载在预设区间内，同时维护一个休眠节点的队列，当集群的计算资源不足进而导致服务质量下降时，激活休眠队列的节点以增加集群的计算能力，以此减少集群的能耗。算法分为两个阶段：

(1)第一阶段：训练预测模型：

基于LSTM训练历史数据，得到主机资源利用率状态预测结果，从而根据公式(2)计算节点负载的预测情况，根据不同的预测负载值，将集群中的主机分类到不同队列中。

定义1原始集群节点的CPU数据记为：F _c＝{f ₁,f ₂,...,f _n}，内存数据记为：F _m＝{f ₁,f ₂,...,f _m}，划分的训练集和测试集表示为F _train和F _test。标准化后的数据集记为F′ _train＝{f′ ₁,f′ ₂,...,f′ _m}。

定义2分割窗口设置为L，则分割后的模型输入记为：

定义3 X经过输入隐藏层后，因为隐藏层包含了L个不间断时间LSTM _cell，则输出记为：P＝{P ₁,P ₁,...,P}，P _p＝LSTM _forward(X _p,C _p-1,H _p-1)。C _p-1表示前一个cell的状态，H _p-1表示前一个cell的输出，C _p-1，H _p-1向量的大小为S _state。

定义4基于均方误差设计训练损失函数，可以表示为：

算法主要步骤是先处理数据集，按比例划分为训练集和测试集，然后通过分割窗口得到模型的输入和理论输出，利用S _state建立LSTM _cell，并且通过LSTM _cell和L初始化LSTM网络LSTM _net。通过前向计算得到训练好的LSTM网络

具体的描述见算法1：

(2)第二阶段，资源分配过程：

根据用户提交的作业状态和第一阶段中的预测结果，以能耗最优的目标进行作业调度。能耗度量模块根据公式(5)计算t ₁到t ₂时间段的能耗值。默认情况下NodeManager向ResourceManager以1秒为周期发送信息，而Zabbix的Agent探针，在本申请中设置5秒的监控粒度，也就是说，在进行能耗计算时，资源的数据会每5秒更新一次。

集群在t ₀到t ₁期间的总能耗值，用E表示，通过对节点的功率P(u(t))进行积分计算，如公式(5)所示：

定义5作业CPU利用率记为CPU _job，内存利用率记为MEM _job，节点的CPU历史平均利用率记为CPU _node，节点内存平均利用率记为MEM _node，作业类型和节点的匹配差异程度difference，如公式(1)所示：

通过算法1得到的预测结果列表，根据预设的负载阈值将集群的节点划分为活跃节点和休眠节点，然后查询作业集的资源请求量和作业资源需求类型等信息，基于FIFO策略，先计算作业和节点的difference值，该值越小匹配度越好；然后根据能耗度量模块的能耗计算结果，选择预估能耗最小的节点为作业预分配资源，更新作业需求量和集群节点资源的关系，如果不满足作业需求量，则激活休眠队列中的节点以增加集群的资源量。具体的算法描述见算法2：

(3)算法的流程如图1所示；

(4)核心伪代码实现见算法3：

3、节能效果分析

本申请提出维护集群的两个主机队列：活跃节点队列AliveQueue和休眠节点队列SleepQueue。首先分析算法的时间复杂度，算法的时间消耗主要是计算节点的difference值和为作业选择能耗最低节点的预分配资源过程，在不考虑第一阶段的模型训练过程的情况下，该算法的时间复杂度为O(nlogn)。

然后考虑两种极端的作业量输入情况：

(1)随着集群输入的作业量不断减少，集群的总体负载不断降低，如果集群同时运行这么多的主机，就会有很大的能源浪费。通过该节能算法，LSTM训练的预测模型会有更多节点的资源利用率处于阈值以下，满足该条件的主机就不会再分配新的计算任务，加入到SleepQueue里。

(2)假如Hadoop集群的计算能力要求提高，输入的计算任务的规模和数量不断增加，算法在检测到集群的资源不足以满足计算需求的资源量时，激活SleepQueue休眠的主机以增加集群的计算能力，并将其放到AliveQueue队列中增加集群总的资源量。

但是本申请的方法并不会将某个节点的负载增加到很高的状态，因为据研究和数据表明，在节点负载过高的情况下，会产生服务质量下降甚至增加节点不能工作的概率。本申请方法平衡集群活跃节点的计算能力，根据主机的历史任务处理特征选择适合其节点的作业，根据能耗计算公式得到以下公式：

E _i＝P _i*(t ₁-t ₀)＝P _iT _i (6)；

某节点在时间段t ₀到t ₁的能耗，P _i需要根据实际的环境计算，进一步可得：

影响集群能耗的关键因素是在保证计算任务完成时间的情况下，减少时间段内参与计算的节点数量，进而有效地降低能耗，这是本申请提出基于集群节点状态预测调度方法的意义所在。

4、实验结果和分析

为了检验算法的可行性和合理性，设计了本组实验：采用内存密集型作业WordCount，Sort和CPU密集型作业Pi，TeraGen两种类型的工作负载。为不同的工作负载设置不同的资源请求量和任务处理标签，标签即为CPU密集型和内存密集型，同时包含待处理任务对不同类型资源需求的预估值。

4.1实验环境和数据集

首先要搭建Hadoop集群，在集群安装Hadoop2.4.1，并在每个节点安装Zabbix探针，该探针的作用是实时收集集群的指标数据。为了获得较为精确的训练结果，将探针的数据收集粒度设置为5s，即每隔5s的时间将数据集群节点的指标数据存储在SERVER端的数据库。Hadoop的搭建和配置过程，Zabbix的探针收集数据的方式以及数据传输的安全性保证不是本申请的研究重点。

测试环境选在电信运营商某机房，由13个节点组成的集群，节点的配置信息见下表：

表1节点配置表

Tab.1 Node configuration

在Hadoop集群的主机上抓取了CPU使用率和内存使用率两类数据，每一类数据时间粒度为5s，总计16428条记录。

(1)CPU训练数据原始记录：

表2 CPU原始训练数据记录示例

Tab.2 CPU Original training data record example

(2)内存训练数据示例：

表3内存原始训练数据记录示例

Tab.3 Memory original training data record example

4.2实验过程

(1)LSTM训练集群数据

1.首先进行数据的预处理，不同数据格式具体方式不同，对于Hadoop集群的.csv文件，以CPU数据为例，截取数据的有效数值部分，去除特殊标记并数值化。

2.将数据转化为预测序列：按照实验前设定的序列长度(sequence_length)，相邻的sequence_length个数值构成一个序列，在此最后一个值将作为模型的输出值，而之前的所有值作为模型输入的历史数据。可以选择是否要进行归一化，得到归一化之后的序列数据。

3.进行数据的混洗：选择数据集中90％的数据作为训练数据，10％作为验证数据。将训练数据进行混洗。之后通过切片操作，确定训练集和验证集的输入、输出数据。

4.模型的构建：这一部分主要是应用Keras架构中的封装实现。同时将各个部分的参数设定好，各项参数后续可以不断调整。

5.模型训练：这一部分也是基于Keras架构的封装，需要设置好batch_size和epoch，这两个参数可通过重复实验获得较佳的值。这两个参数的设置对模型的全局收敛非常重要。

当上述的步骤完成后，利用验证数据集，试验训练好的模型，将会产生三个结果，分别标注为：

1)multiple_predictions(多重预测)

2)full_predictions(完全预测)

3)point_by_point_predictions(逐点预测)

具体来说，multiple_predictions将原始数据划分为几个不同的区间，在每个数据区间，都首先使用实际数据进行预测，之后不断将预测数据归入已知数据作为历史数据，从而继续预测下一个数据。

full_predictions在已有的实际数据上，向前进行多个时间粒度的预测。由于预测时间长，没有较好地利用最近时间段的实际数据，导致预测数据比较稳定，所以这种方式不能很好地反映数据的变化趋势。

point_by_point_predictions是最保守的方式。这种方式在已有的实际数据上，只向前进行一个时间粒度的预测。由于实际生产环境中不会产生非常巨大的涨落，这种方式不会产生较大的误差。但是预测时间非常有限，对数据要求比较高。

(2)完成节能作业调度

前面介绍了作业部分采用内存密集型作业WordCount，Sort和CPU密集型作业Pi和TeraGen两种类型。当作业被提交时，等待队列中的作业会有不同的资源需求，其中有的作业可能被人为地认定不合理的资源请求量，这些任务可被Hadoop系统发现并且停止运行此类作业，在本申请中不考虑这种情况。下表是本实验中的详细的资源请求量：

表4工作负载信息

Tab.4 Workload information

4.3结果与分析

实验的第一阶段需要选择合适的sequence_length。实验过程中分别测试了sequence_length为4、5、8、9、17和18时，模型的预测结果。图2至图5给出了sequence_length分别为5和8在point_by_point_predictions和full_predictions中的预测结果，结果展示的是Slave1节点的数据，使用主机的CPU利用率数据集，用于预测周期时间内该节点的CPU利用率。

在本实验环境下选择sequence_length为5的预测结果，如图2和图3所示，横坐标代表时间，纵坐标代表资源利用率的百分比。分析以上的结果，full_predictions的预测结果看起来非常稳定，不能反映实际CPU的变化趋势，借鉴意义比较低。multiple_predictions根据预测数据长度的不同，表现差异相当大。因此没有将其输出的结果图放在本申请中。point_by_point_predictions预测在对应的区间中，能大致反映实际数据的涨落趋势，是三项预测结果中与实际数据差异最小的，基本上能够反映数据的变动；对于某些细节的变化，也能产生相应的预测，但这种预测方式在实际应用时限性最大。本申请中主机状态值的预测主要使用point_by_point_predictions的主机状态预测结果集。

在第一阶段完成后，就获得了Hadoop集群各个节点在预测周期时间内的CPU和内存利用率的预测结果，从而可以根据负载计算结果和预设的阈值将主机分类到不同的队列。Hadoop集群节点分为活跃节点AliveQueue和休眠节点SleepQueue，在算法开始阶段先初始化队列：SleepQueue为空，所有集群节点在AliveQueue中。即初始状态集群所有的节点默认为活跃节点，无休眠节点。

在本申请Hadoop集群的资源调度模块应用的算法，包括Hadoop默认的调度算法FIFO，Capacity Scheduler和Fair Scheduler。在控制变量的方式下，即在相同的集群环境(本实验的集群)，输入同样的工作负载。比较其算法的性能，这种方法的实验结果是有说服力的。

本申请记录了Hadoop集群的关键指标的数据、CPU使用率、内存使用率和作业完成时间的结果。以下为AliveQueue节点的CPU利用率和内存使用率：

(1)CPU使用率实验统计结果如图6所示。

(2)内存使用率实验统计结果如图7所示。

能耗计算模型建立了Hadoop集群节点资源的关键指标和能耗之间的关系。

节点功率可以用公式(8)进行计算：

P＝C ₀+C _α*U _cpu+C _β*U _mem(0≤U _cpu≤1,0≤U _mem≤1) (8)

其中，C ₀是常数，代表与CPU利用率和内存使用率无关的其他基本功率，C _α是CPU的利用率对能耗的影响系数，C _β是内存的利用率对能耗的影响系数，C ₀和C _β是通过大量模型训练得出的线性回归的系数值，不同的服务器得到的系数值是不同的。

本申请根据公式(9)计算一个节点在t ₀,t ₁这段时间点的功率：

节点i在这段时间的能耗值为：

分别计算出Hadoop集群中各个节点的能耗值，求和即得到整个集群在时间段t ₀,t ₁的能耗数据。

在计算量化的数值之前，从图6和图7中可以直观地发现：Hadoop的默认调度算法FIFO，任务执行期间整个集群的CPU使用率和内存使用率是最低的，在整个作业执行过程中始终维持在20％左右，但是作业的执行时间相比其他的算法来说更长。Capacity Scheduler和Fair Scheduler算法的执行时间相比较FIFO来说缩短了一些，同时集群的资源利用率比FIFO提高了。本申请提出的算法HES-Scheduler，在作业完成时间上表现一般，活跃节点的资源利用率都在60％左右。在计算能耗时需要统计SleepQueue队列里休眠状态的起始时间，同时在计算总的能耗值时，休眠节点的能耗也需要计算在内(计算SleepQueue的能耗，从该节点的工作开始时间到其休眠的时间段)。

各个算法的能耗值如下表所示(单位：千焦耳，时间单位：mins)：

表格5能耗值分时段统计值

Tab.5 Time interval statistics of energy consumption

从上表可以看出，不同的调度算法在不同的时间段能耗值得消耗量不同，这与不同算法的资源分配策略相关。同时由于作业对不同类型的计算资源需求的不同，也可能导致不同时间段上的能耗差异。根据上表计算各个算法的能耗值总量如下表所示：

表格6能耗值总量统计

Tab.6 Time statistics of energy consumption

从表6以及图8可以分析出：

1)Hadoop集群的FIFO调度算法，在作业完成时间最长，能耗值的耗费量最大。因为在整个调度期间，除了当前被处理作业外，其他作业均处于等待的状态，未分配的Container资源也处于等待状态，降低了任务执行的效率。所以执行时间最长，这与该算法本身的弊端有关。

2)在作业的执行时间上，HES-Scheduler和Capacity和Fair调度算法相差不大。Fair调度算法是资源公平的调度方法，但是该策略只关注了内存的公平共享，关注的指标数据过少，因为CPU的资源也有很大的权重，从而影响了集群的资源分配，资源的利用率也没有很好地得到优化改进。Capacity算法维护多个作业队列，提高了并行性，但是作业量增加时，资源不能合理分配，资源竞争的情况有可能出现，导致作业处理效率下降。

3)HES-Scheduler算法在整个任务执行期间，集群活跃节点的CPU利用率和内存利用率一直维持在较高的状态。这与提高活跃节点负载，降低集群参与计算节点数量的设计思想是吻合的。

小结

本申请提出了基于集群节点负载状态预测作业调度算法，首先介绍了算法的设计思想，针对目前集群的计算能力会远超于计算需求的情况，将集群的节点根据预测算法的负载状态分为活跃节点的队列和休眠节点的队列；然后根据计算需求的资源量动态地激活休眠节点，以达到动态调整集群规模的目的；接着描述了算法的流程，算法的步骤，以及算法的伪代码实现，然后对该算法的节能效果做了分析；并且介绍了实验验证的过程，包括实验的设计，数据集的选用，最后对实验结果进行了量化分析，证明了本申请的算法具有实际意义的节能效果。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

一种基于集群节点负载状态预测的作业调度方法，其特征在于：包括如下步骤：

步骤1：基于LSTM训练集群数据，具体包括如下步骤：

INPUT：数据CPU和MEM、种子seed、步数steps、cell状态向量大小S _state；其中，种子seed由用户根据集群的构成进行设置，步数steps是模型训练次数，由用户根据经验任意设置；

OUTPUT：输出对应的预测序列；

步骤1.1：进行数据的预处理；

根据预设比例分割F _c和F _m，得到训练集F _train和测试集F _test；

其中，F _c＝{f ₁,f ₂,...,f _n}为原始集群节点的CPU数据，F _m＝{f ₁,f ₂,...,f _m}为内存数据；

步骤1.2：标准化训练集F _train，得到F′ _train＝{f′ ₁,f′ ₂,...,f′ _m}；

步骤1.3：将分割窗口设置为L，通过分割窗口L，得到分割后的模型输入X和理论输出Y；分割后的模型输入记为：

X＝{X ₁,X ₂,...,X _p,...X _L}，其中，X _p＝{f′ _p,f′ _p+1,…,f′ _m-L+p-1}(p＝1,2,...,L)；

理论输出记为：Y＝{Y ₁,Y ₂,...,Y _p,...,Y _L}，其中，Y _p＝{f′ _p+1,f′ _p+2,...,f′ _m-L+p}；

步骤1.4：通过S _state，建立LSTM _cell；

X经过输入隐藏层后，因为隐藏层包含了L个不间断时间LSTM _cell，则输出记为：P＝{P ₁,P ₂,...,P _p,...,P _L}，其中P _p＝LSTM _forward(X _p,C _p-1,H _p-1)(p＝1,2,…,L)，C _p-1表示前一个cell的状态，H _p-1表示前一个cell的输出，则C _p-1，H _p-1向量的大小为S _state；

步骤1.5：将L个LSTM _cell依次连接，得到多层LSTM网络LSTM _net；

步骤1.6：通过种子seed，初始化LSTM _net；

步骤1.7：训练LSTM _net；具体包括如下步骤：

步骤1.7.1：根据P _p＝LSTM _forward(X _p,C _p-1,H _p-1)(p＝1,2,…,L)计算每层输出P _p，然后计算损失函数loss；

步骤1.7.2：通过loss值，更新LSTM _net；

步骤1.7.3：重复执行步骤1.7.1和1.7.2steps次；

步骤1.8：得到训练好的LSTM模型

步骤2：资源分配过程；具体包括如下步骤：

INPUT：第一阶段的预测结果列表Prediction _list；用户作业集信息Job _info；

OUTPUT：休眠队列SleepQueue；

步骤2.1：根据预测模型，得到集群节点未来周期T内的预测结果列表Prediction _list；

步骤2.2：根据阈值，将节点划分到休眠队列SleepQueue和活跃队列AliveQueue中；

步骤2.3：继续执行休眠队列SleepQueue中的节点任务，在该时间段内不再将其资源容器Container中的资源分配给作业，统计AliveQueue中的节点资源列表；

步骤2.4：查询作业集的信息Job _info，作业集用向量Job<time,resource,tag,runtime>表示，其中time，resource，tag，runtime分别表示作业请求时间、请求资源量、作业类别和预估时间；

步骤2.5：基于先进先出，选择作业预分配资源；选择作业时，首先匹配作业和节点的特征，根据公式(1)，计算作业类型和节点的匹配差异程度difference的大小，并通过该值得到作业预分配列表；

其中，CPU _job为作业CPU利用率，MEM _job为作业内存利用率，CPU _node为节点的CPU历史平均利用率，MEM _node为节点内存平均利用率；

步骤2.6：计算得到能耗值最小的任务分配队列；

步骤2.7：判断作业资源需求量Job _request和集群资源量Hadoop _resource，如果作业资源需求量Job _request<集群资源量Hadoop _resource，则执行步骤2.3；如果作业资源需求量Job _request≥集群资源量Hadoop _resource，则激活SleepQueue中的节点，重新检查集群资源量，直到满足预设条件；

步骤2.8：继续预测下一周期T的主机状态，更新预测模型；

步骤2.9：判断作业集是否为空，即作业集Job_wait是否等于

若：判断结果是
则结束节能调度过程；

或判断结果是
则执行步骤2.3。