WO2021051441A1

WO2021051441A1 - 一种Hadoop集群节能系统

Info

Publication number: WO2021051441A1
Application number: PCT/CN2019/108323
Authority: WO
Inventors: 倪丽娜; 张金泉; 刘浩然; 韩庆亮
Original assignee: 山东科技大学
Priority date: 2019-09-16
Filing date: 2019-09-27
Publication date: 2021-03-25
Also published as: CN110618861A

Abstract

本发明公开了一种Hadoop集群节能系统，属于信息技术处理领域，主要包括底层的资源数据收集，中间层的负载预测和能耗计算模型，上层的作业调度，并且详细介绍了每层用到的关键技术和策略，然后基于CPU和内存使用率，建立能耗计算模型，同时根据本申请的具体实验环境，通过使用基准Benchmark计算了能耗模型中C _α、C _β和C _o的系数值。

Description

一种Hadoop集群节能系统

技术领域

本发明属于信息技术处理领域，具体涉及一种Hadoop集群节能系统。

背景技术

现阶段人们对数据中心的重视程度越来越高。从初始追求数据中心的规模和数量，到目前提倡建立绿色的数据中心。企业持续依赖数据中心，更多的工作负载会从本地向云平台转移。但是当前数据中心面临着诸多挑战：首先资源是按照峰值的需求设计的，并且按照峰值的需求进行部署。而业务或者计算任务一般是分阶段的，大部分服务器在非峰值时间也都在加电运行。其次是数据中心的数量持续增长，在一个典型的数据中心，服务器消耗约70％的电能，通信设备、存储和空调等设备仅消耗30％的电能，IT能耗逐年上升。在国内外各种规模的数据中心，Hadoop集群占有高比例的部署量，在网页搜索，数据挖掘，推荐广告等各个领域里都配置了大量的Hadoop集群。但是，目前Hadoop任务调度和数据块存储的设计思想，更多考虑了集群性能和数据安全性等方面的问题。因此，Hadoop集群本身的负载均衡策略，使其各个节点始终处于运行的状态，并没有考虑到能耗的问题。有的集群规模能达到几百台的数量，所以Hadoop集群在一定程度上是数据中心能耗的主要贡献者之一。研究Hadoop集群在作业调度和存储方面的节能策略，对降低数据中心电源使用效率PUE(Power Usage Effectiveness)具有重要的意义，同时也会对Hadoop开源项目的进一步发展起到积极的作用。

为了提供准确的资源分配决策依据，需要实时监控节点的状态变化，同时在获得用户提交的作业信息的基础上，获得能耗最优的作业调度队列。

发明内容

针对现有技术中存在的上述技术问题，本发明提出了一种Hadoop集群节能系统，设计合理，克服了现有技术的不足，具有良好的效果。

为了实现上述目的，本发明采用如下技术方案：

一种Hadoop集群节能系统，包括底层的数据收集模块、中间层的负载预测模块和能耗模型模块以及上层的作业调度模块；

数据收集模块，被配置为用于获取集群节点数据；

集群节点数据包括：(1)节点的资源利用率的情况；(2)集群节点运行的任务所占系统资源的情况；

数据收集模块借助于Zabbix的Agent探针技术实现对集群性能指标的监控；数据收集模块是以server端、proxy端、agent端的方式工作的；

数据收集模块，包含有多个集群，每个集群包含两个主机，每个主机对应n个集群节点；每个主机上均安装有server，每个集群节点上均安装有agent，server每隔一段时间向agent发送请求收集被监控项的指标数据，agent向server返回请求的数据，server将获得的数据写入相应的数据库中，完成数据的收集和分析；

当Hadoop的集群规模过大时，server端的压力会增加，数据收集模块采用proxy来分担集群数据的分析收集工作，保证底层系统的稳定；

负载预测模块和能耗模型模块，被配置为用于完成集群性能的监控以及通过底层的数据收集模块收集的集群节点数据，训练构建的预测节点负载的LSTM网络模型，为上层任务调度提供支持；

集群性能的监控，具体实现方法如下：

负载预测模块和能耗模型模块通过分析server端收集的CPU利用率和内存分配情况，得到集群节点监控指标的实时数据，通过设置的阈值，实现对各个集群节点的监控；

具体包括：(1)性能指标可视化；通过构建一个可视化窗口，将包括server端收集的CPU利用率、内存分配情况、该节点正在运行的任务及任务分配到的资源在内的实时数据动态地展示出来；(2)监控日志收集；将server端收集的CPU利用率、内存分配情况、以及各节点上每个任务资源占用情况，写入集群日志库；(3)监控频率控制；用于设置server端收集收据的频率，即每隔多长时间收集1次数据；

通过底层的数据收集模块收集的集群节点数据，训练构建的预测节点负载的LSTM网络模型，为上层任务调度提供支持；具体实现方法如下：

(1)预测主机的关键指标在设定时间内的走势；

首先构建预测节点负载的LSTM网络模型，使用底层数据作为训练数据，不断修改LSTM网络模型指标参数，得到训练好的模型；然后，利用训练好的模型预测集群主机在给定时间周期内的资源使用情况，获得节点的任务处理特征，根据这些特征分配适合的任务，得到在一定时间段内可执行任务列表；最后，通过由实验得出的效果较佳的序列长度对数据进行分析处理；

(2)计算集群能耗值；

首先建立一个能耗计算模型；然后，通过在Hadoop集群上进行实际测试确定所建模型的指标系数；最后，在实际任务调度中计算集群能耗；

作业调度模块，包括作业调度器，被配置为用于根据用户待处理的作业信息，使用训练好的LSTM模型预测的节点负载情况，进行任务调度；

作业调度模块采用基于主机状态预测的调度算法，该算法需要提前获得用户输入的作业信息，作业信息包括CPU密集型或者内存密集型，然后在集群中选择一个能够满足能耗要求的节点进行处理，作业调度器根据用户的作业信息和预测的节点负载情况，给作业分配完成它的节点；

作业调度模块功能的具体实现方法如下：

(1)任务振荡迁移控制；(2)阈值触发机制；设置节点休眠或激活的阈值，为任务调度提供支撑；(3)检查是否满足用户计算的最小需求；调度程序将任务分配到活动节点，然后检查节点的资源与用户任务的需求，如果不满足则激活休眠节点，最后统计节点的CPU利用率和内存利用率；(4)节点休眠队列建议；根据节点的CPU利用率和内存利用率，选择休眠节点加入节点休眠建议队列。

优选地，集群主机在给定时间周期内的资源使用情况包括CPU利用率的走势、内存使用率的走势以及节点未来时间段的负载情况，该预测结果会为最上层的调度提供参考决策。

本发明所带来的有益技术效果：

(1)模块低耦合

模块间通过API接口获取数据，调用功能。在数据收集模块，新加入的Hadoop节点安装完Agent探针后，就可以无缝衔接到系统中，该节点会被自动发现并且自动收集其CPU、内存等指标数据以供模型训练层使用；同时该节点的计算资源也会被放到资源池中；假如某个节点发生故障不能正常工作，不会影响到其它节点的状态，将由故障带来的影响降低。

(2)主机状态预测的精度较高

中间层的负载预测模块将原始数据划分为几个不同的区间，在每个数据区间，都先使用实际数据进行预测，之后不断将预测数据归入已知数据作为历史数据，进而继续预测下一个数据，总体表现为滚动向前预测。由于在到达下一个时间区间时，重新使用实际数据集作为输入，相当于进行了数据纠正，因而总体表现为宏观趋势正确。

附图说明

图1为系统整体架构图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

1、系统架构设计

如图1所示，一种Hadoop集群节能系统，包括底层的数据收集模块、中间层的负载预测模块和能耗模型模块以及上层的作业调度模块；

数据收集模块，被配置为用于获取集群节点数据；

集群性能的监控，具体实现方法如下：

具体包括：(1)性能指标可视化；通过构建一个可视化窗口，将包括server端收集的CPU利用率、内存分配情况、该节点正在运行的任务及任务分配到的资源在内的实时数据动态地展示出来；(2)监控日志收集；将server端收集的CPU利用率、内存分配情况、以及各节点上每个任务资源占用情况，写入集群日志库；(3)监控频率控制；用于设置server端收集数据的频率，即每隔多长时间收集一次数据；

(1)预测主机的关键指标在设定时间内的走势；

(2)计算集群能耗值；

作业调度模块功能的具体实现方法如下：

集群主机在给定时间周期内的资源使用情况包括CPU利用率的走势、内存使用率的走势以及节点未来时间段的负载情况，该预测结果会为最上层的调度提供参考决策。

2、节能方案分析

这种分层的节能系统方案主要以下特点：

(1)模块低耦合

(2)主机状态预测的精度较高

中间层的模型训练模块将原始数据划分为几个不同的区间，在每个数据区间，都先使用实际数据进行预测，之后不断将预测数据归入已知数据作为历史数据，从而继续预测下一个数据，总的来看表现为滚动向前预测。由于在到达下一个时间区间时，重新使用实际数据集作为输入，相当于进行了数据纠正，因而总体表现为宏观趋势正确，但是缺点是有些细节会缺失。

3、能耗模型

3.1选取能耗模型指标

研究表明，Hadoop集群的能耗主要是由CPU、内存和网络的流入流出量决定的。其中CPU和内存是节点能耗的主要部分，网络的能耗主要是由交换设备产生的，比如和交换机等硬件设备的耗能关系紧密。当然还有其他影响能耗的指标，比如磁盘的I/O，服务器风扇的工作模式等等，由于本申请主要研究资源分配和数据存储的方向，所以这些指标不在考虑范围之内。

综上分析，本申请基于CPU和内存两个指标数据进行能耗建模，而把其他系统能耗部分比如磁盘、网络流入流出量，以及其他常规的系统指标耗能视作基础常量。

结合实际环境，建立基于CPU和内存的能耗模型有很多因素需要考虑，包括主机的状态如关机、休眠、空闲等；其指令集的类型，复杂指令集或者精简指令集会有不同数量的计算单元参与。但是，将这些因素考虑在内建模成本较大。研究表明，集群的负载和节点的CPU利用率以及内存使用率具有正相关性，所以节点功率可以用公式(1)计算：

P＝C ₀+C _α*U _cpu+C _β*U _mem(0≤U _cpu≤1,0≤U _mem≤1) (1)；

在上式中，C ₀是常数，代表与CPU利用率和内存使用率无关的其他基本功率，C _α是CPU的利用率对能耗的影响系数，C _β是内存的利用率对能耗的影响系数，C ₀和C _β是通过大量模型训练得出的线性回归的系数值，不同的服务器得到的系数值是不同的。

假如Hadoop集群由n个节点组成，总的功率可用式(2)表示：

由此可以得到集群在t ₀到t ₁期间的总能耗值，该能耗通过对节点的功率进行积分计算，用E表示，如公式(3)所示：

3.2能耗模型系数计算

为了得到较为精确的能耗计算值，需要对能耗模型中的系数进行试验测量，本申请选用的实验环境基于IBM x336搭建的，使用功率分析仪得到以下数据：

(1)CPU空载状态功率值和满载状态功率值。

(2)CPU使用率接近一致的情况下，不同内存使用率的功率。

(3)CPU和内存使用率同时接近一致的功率。

本申请控制主机资源使用率的工具是服务器评测的CPU和内存压力测试工具：COREMark和内存测试基准HPCC。具体的值见下表：

表1 服务器功率实测值

Tab3.1 Measured value of server power

本申请实际集群环境中的C ₀、C _α和C _β的参数值，根据表1的数据计算得到。在内存利用率接近的时候，CPU的系数计算得到：

C _α＝100*(P ₂-P ₁)/(CPU ₂-CPU ₁)＝16.24

内存系数通过同样的方式计算为：C _β＝7.46

而P ₄＝C _o+C _α*U _cpu+C _β*U _mem，将计算出的C _β＝7.46和C _α＝16.24代入计算得到：C _o＝102.16。

根据以上计算，功率计算公式可以表示为：

P＝n*102.16+16.24*(U _CPU1+U _CPU2+...+U _CPUn)+7.46*(U _mem1+U _mem2+...+U _memn)

(0≤U _CPUi≤1,0≤U _memi≤1)

本申请首先介绍了节能系统设计方案，主要包括底层的资源数据收集，中间层的负载预测和能耗计算模型，上层的作业调度，并且详细介绍了每层用到的关键技术和策略，然后基于CPU和内存使用率，建立能耗计算模型，同时根据本文的具体实验环境，通过使用基准Benchmark计算了能耗模型中C _α、C _β和C _o的系数值。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

一种Hadoop集群节能系统，其特征在于：包括底层的数据收集模块、中间层的负载预测模块和能耗模型模块以及上层的作业调度模块；

数据收集模块，被配置为用于获取集群节点数据；

集群节点数据包括：(1)节点的资源利用率的情况；(2)集群节点运行的任务所占系统资源的情况；

数据收集模块借助于Zabbix的Agent探针技术实现对集群性能指标的监控；数据收集模块是以server端、proxy端、agent端的方式工作的；

数据收集模块包含有多个集群，每个集群包含两个主机，每个主机对应n个集群节点；每个主机上均安装有server，每个集群节点上均安装有agent，server每隔一段时间向agent发送请求收集被监控项的指标数据，agent向server返回请求的数据，server将获得的数据写入相应的数据库中，完成数据的收集和分析；

当Hadoop的集群规模过大时，server端的压力会增加，数据收集模块采用proxy来分担集群数据的分析收集工作，保证底层系统的稳定；

负载预测模块和能耗模型模块，被配置为用于完成集群性能的监控以及通过底层的数据收集模块收集的集群节点数据，训练构建的预测节点负载的LSTM网络模型，为上层任务调度提供支持；

集群性能的监控，具体实现方法如下：

负载预测模块和能耗模型模块通过分析server端收集的CPU利用率和内存分配情况，得到集群节点监控指标的实时数据，通过设置的阈值，实现对各个集群节点的监控；

具体包括：(1)性能指标可视化；通过构建一个可视化窗口，将包括server端收集的CPU利用率、内存分配情况、该节点正在运行的任务及任务分配到的资源在内的实时数据动态地展示出来；(2)监控日志收集；将server端收集的CPU利用率、内存分配情况、以及各节点上每个任务资源占用情况，写入集群日志库；(3)监控频率控制；用于设置server端收集数据的频率，即每隔多长时间收集1次数据；

通过底层的数据收集模块收集的集群节点数据，训练构建的预测节点负载的LSTM网络模型，为上层任务调度提供支持；具体实现方法如下：

(1)预测主机的关键指标在设定时间内的走势；

首先构建预测节点负载的LSTM网络模型，使用底层数据作为训练数据，不断修改LSTM网络模型指标参数，得到训练好的模型；然后，利用训练好的模型预测集群主机在给定时间周期内的资源使用情况，获得节点的任务处理特征，根据这些特征分配适合的任务，得到在一定时间段内可执行任务列表；最后，通过由实验得出的效果较佳的序列长度对数据进行分析处理；

(2)计算集群能耗值；

首先建立一个能耗计算模型；然后，通过在Hadoop集群上进行实际测试确定所建模型的指标系数；最后，在实际任务调度中计算集群能耗；

作业调度模块，包括作业调度器，被配置为用于根据用户待处理的作业信息，使用训练好的LSTM模型预测的节点负载情况，进行任务调度；

作业调度模块采用基于主机状态预测的调度算法，该算法需要提前获得用户输入的作业信息，作业信息包括CPU密集型或者内存密集型，然后在集群中选择一个能够满足能耗要求的节点进行处理；作业调度器根据用户的作业信息和预测的节点负载情况，给作业分配完成它的节点；

作业调度模块功能的具体实现方法如下：

(1)任务振荡迁移控制；(2)阈值触发机制；设置节点休眠或激活的阈值，为任务调度提供支撑；(3)检查是否满足用户计算的最小需求；调度程序将任务分配到活动节点，然后检查节点的资源与用户任务的需求，如果不满足则激活休眠节点，最后统计节点的CPU利用率和内存利用率；(4)节点休眠队列建议；根据节点的CPU利用率和内存利用率，选择休眠节点加入节点休眠建议队列。
根据权利要求1所述的Hadoop集群节能系统，其特征在于：集群主机在给定时间周期内的资源使用情况包括CPU利用率的走势、内存使用率的走势以及节点未来时间段的负载情况，该预测结果会为最上层的调度提供参考决策。