WO2020248226A1

WO2020248226A1 - 一种基于负载预测的Hadoop计算任务初始分配方法

Info

Publication number: WO2020248226A1
Application number: PCT/CN2019/091267
Authority: WO
Inventors: 张斌; 李薇; 郭军; 刘晨; 侯帅; 周杜凯; 柳波; 王嘉怡; 王馨悦; 张娅杰; 张瀚铎; 刘文凤
Original assignee: 东北大学
Priority date: 2019-06-13
Filing date: 2019-06-14
Publication date: 2020-12-17
Also published as: CN110262897B; CN110262897A

Abstract

本发明提出一种基于负载预测的Hadoop计算任务初始分配方法，包括：使用延迟调度策略的AppMaster选择方法，开启AppMaster；基于BP神经网络的节点，计算资源分配数量；使用DRF算法的用户队列和用户作业选择方法，开启子任务；本发明基于延迟调度策略的AppMaster选择算法，提高了AppMaster运行时的稳定性，保证了作业的正常运行。基于BP神经网络的节点计算资源分配算法，减少高负载标签计算节点分配的任务量，增加低负载标签计算节点分配的任务量，提高了集群整体的稳定性和性能。基于DRF的用户队列和用户作业选择算法，当作业所属的队列资源不够时，根据占主导地位的计算资源使用情况来选择叶子队列和用户作业，最终达到合理化计算任务初始分配，均衡集群负载，提高集群性能的目标。

Description

一种基于负载预测的Hadoop计算任务初始分配方法

技术领域

本发明涉本发明涉及分布式、大数据、云计算领域，具体涉及一种基于负载预测的Hadoop计算任务初始分配方法。

背景技术

目前，Hadoop平台中计算任务的初始分配由Yarn来完成，在Yarn框架下，有三个重要的角色，分别为资源管理器(ResourceManager)，节点管理器(NodeManager)和应用程序控制器(AppMaster)。

资源管理器负责整个集群的计算资源调度，资源管理器会追踪集群中有多少可用的活动节点和资源，协调用户提交的应用程序分配这些计算资源。

节点管理器作为资源管理器在各个计算节点上的代理，负责计算节点上计算资源向资源管理器的汇报，计算节点上计算任务的开启，计算节点的监控，节点管理器拥有许多动态创建的资源容器，容器的大小取决于它所包含的资源量内存和CPU核数。

应用程序控制器负责向资源管理器申请需要的计算资源和实时追踪用户作业的运行情况，当用户提交作业后，应用程序控制器会先于计算任务开启，随后会向资源管理器申请开启子任务需要的计算资源，申请后会通过节点管理器开启对应的计算任务，计算任务开启后，应用程序控制器开启后会实时检测计算任务的执行情况，包括对迟滞任务开启子任务，对失败任务重新开启等。

当用户提交作业时，Hadoop集群会为该作业先运行AppMaster，AppMaser会向资源管理器申请计算资源并且开启对应的子任务，这便是计算任务的初始分配。合理化计算任务的初始分配可以优化Hadoop平台，均衡集群负载，提高集群性能和稳定性。当前的Hadoop平台在分配计算任务时只考虑了内存和CPU核数两种计算资源，当计算节点的内存与CPU核数满足计算任务的需求时即可在该计算节点上开启计算任务，并没有实时根据计算节点的负载来控制计算节点上计算任务的分配量，这会导致集群的负载不均衡，集群整体性能和稳定性降低，延长了用户作业的完成时间。

发明内容

基于以上技术问题，本发明所述的一种基于负载预测的Hadoop计算任务初始分配方法，具体包括三部分：基于延迟调度策略的AppMaster选择算法部分，基于BP神经网络的计算资源分配算法部分，基于DRF的用户队列和用户作业选择算法部分。基于延迟调度策略的AppMaster选择算法，借助延迟调度的思想为作业选择AppMaster失效率低的计算节点进行 AppMster的开启，保证AppMster运行正常，从而保证整个作业的稳定运行。基于BP神经网络的计算资源分配算法，资源管理器根据计算节点的负载动态调整计算节点分配的计算资源量。基于DRF的用户队列和用户作业选择算法，当作业所属的队列资源不够时，作业对应的AppMaster会等待计算资源的分配，当计算节点向资源管理器汇报空闲的container时，会DRF算法选择合适的叶子队列和用户作业进行container的分配。

一种基于负载预测的Hadoop计算任务初始分配方法，具体包括如下步骤：

步骤1：使用延迟调度策略的AppMaster选择方法，开启AppMaster，具体包括：

步骤1.1：资源管理器接收用户作业提交，并初始化节点数量α ₁＝0；

步骤1.2：判断α ₁与阈值α大小关系，当α ₁≥α时，在当前计算节点上开启AppMaster；当α ₁<α时，通过公式(1)衡量计算节点i运行AppMaster的失效率

其中，

代表第i个计算节点在历史日志中运行的AppMaster总数，

代表第i个计算节点历史日志中失败AppMaster数量。

步骤1.3：判断失效率

与阈值σ的大小关系，若

则直接在该计

算节点上开启AppMaster；若

则跳过本次节点，α ₁加1，返回步骤1.1。

步骤2：基于BP神经网络的节点，计算资源分配数量，具体包括：

步骤2.1：资源管理器同时利用串行机制接收计算节点发送的心跳信息，其中包含：当前计算节点的可用计算资源信息、运行中container的状态信息、计算节点的预测负载。

步骤2.2：资源管理器更新滑动窗口，滑动窗口向前移动，保证滑动窗口内的心跳信息是最新传过来的；

步骤2.3：将滑动窗口内的数据<H _L,H _L-1,…,H ₃,H ₂,H ₁>作为BP神经网络的输入，输出最新的计算节点预测负载的标签label，分为H,M,L三个类别，H代表该计算节点在当前集群下为高负载节点，M代表一般，L代表负载较低，具体如下：

步骤2.3.1：输入滑动窗口内的负载信息。

步骤2.3.2：通过公式(2)计算中间神经元的结果。

其中，

代表第l层第i个神经元的输出，b ^l-1代表l-1层的偏置项，

代表第l层第i个神经元与第l-1层第j个神经元连接的权值，f(*)代表激活函数，为

步骤2.3.3：通过公式(3)softmax函数计算每个类别概率。

其中，softmax(y) _i代表第i个类别的预测概率，y _i代表BP神经网络第i个类别的原始输出；

步骤2.3.4：将概率的最大值对应的类别作为计算节点负载标签label。

步骤2.4：根据计算节点负载的标签label，通过公式(4)计算节点分配的container数量。

其中，H,M,L代表负载预测的标签，Load _avg代表集群的平均负载，τ代表一次心跳计算节点最多能分配的container数量，Load代表计算节点预测负载。

步骤3：使用DRF(Dominant Resource Fairness主导资源公平)算法的用户队列和用户作业选择方法，开启子任务，具体包括：

步骤3.1：遍历根节点下的所有子队列，基于DRF选择用户队列。具体包括：

步骤3.1.1：确定队列i主资源权值domin _i，具体包括：

步骤3.1.1.1：根据公式(5)和公式(6)计算内存和CPU核数资源的权值；

其中，memory _used代表了该队列已经使用掉的内存，memory _cluster代表整个集群的内存，vcores _used代表了该队列已经使用掉的核数，vcores _cluster代表整个集群的核数，

代表第i个队列配置核数占集群总核数的比值，

代表第i个队列配置内存占集群总内存的比值。

3.1.1.2，判断内存资源的权值

和CPU核数资源的权值

大小，当

时，则队列的主导资源为核数，

为该队列主资源的权值，

当

时，则队列的主导资源为内存，

为该队列主资源的权值，

步骤3.1.2：根据公式(7)计算主资源最小份额

其中，

第i个队列主资源最小分配额系数，domian _used已经用掉的主资源，domian _minshare最小的主资源份额。

步骤3.1.3：当存在队列主资源最小份额小于1时，选择

最大的资源队列分配资源；当所有队列的主资源最小份额大于等于1时，选择主资源权值最大的队列分配资源。

步骤3.1.4：判断该队列是否为叶子队列，若为叶子队列，则调到步骤3.2；若不为叶子队列，则将该节点设置为根节点，转到步骤3.1。

步骤3.2：对于已经选择的用户队列，基于DRF对用户队列中的内容，即用户作业进行选择，具体包括：

步骤3.2.1：遍历所有作业，计算每个作业的资源权值，比较

和

将最大的作为主资源权值。

步骤3.2.2：比较不同作业的主资源权值：当存在一个最大主资源权值，选择主资源份额高作业分配资源；当存在多个相等最大主资源份额，选择提交作业时间早的作业分配资源。

步骤3.3：根据优先级关系：Map _fail>Map>Reduce，选择作业中的优先级最高的任务进行container开启，即子任务开启，其中，Map _fail为Map中失败的任务，Map为Map等待的任务，Reduce为Reduce中等待的任务。

有益技术效果：

本发明一种基于负载预测的Hadoop计算任务初始分配方法，基于延迟调度策略的AppMaster选择算法，利用延迟调度的思想尽可能地为作业选择满足失效率的计算节点进行AppMster的开启，提高了AppMaster运行时的稳定性，保证了作业的正常运行。基于BP神经网络的节点计算资源分配算法，通过BP神经网络对计算节点进行负载标签分类，减少高负载标签计算节点分配的任务量，增加低负载标签计算节点分配的任务量，提高了集群整体的稳定性和性能。基于DRF的用户队列和用户作业选择算法，当作业所属的队列资源不够时，根据占主导地位的计算资源使用情况来选择叶子队列和用户作业，最终达到合理化计算任务初始分配，均衡集群负载，提高集群性能的目标。

附图说明

图1本发明实施例的基于负载预测的Hadoop计算任务初始分配IPO图；

图2本发明实施例的BP神经网络模型图；

图3本发明实施例的DRF用户队列选择与用户作业选择过程图；

图4本发明实施例的AppMaster失效次数；

图5本发明实施例的任务失效次数；

图6本发明实施例的负载标签分类准确率；

图7本发明实施例的作业完成时间；

图8本发明实施例的Hadoop集群负载方差；

图9本发明实施例的计算节点宕机次数。

具体实施方式

下面结合附图和具体实施实例对发明做进一步说明，本发明为一种基于负载预测的Hadoop计算任务初始分配方法，基于负载预测的Hadoop计算任务初始分配IPO图1所示。当用户提交作业时本文采用延迟调度策略优化了开启AppMaster进程的节点选择，保障了AppMaster运行时的稳定性，其次，当AppMaster申请计算资源时，资源管理器会利用BP神经网络对计算节点负载标签进行实时更新，对不同负载标签的节点进行不同数量的计算资源分配，最后通过DRF策略选择用户队列和用户作业进行子任务的开启。

本系统在Hadoop平台上用20台同构的机器进行试验，其中1台为master，19台为slave，配置了三个用户队列a,b,c，分别占用集群30％，30％，40％的计算资源，Hadoop集群搭建的信息为Hadoop版本2.6，Java版本1.7，操作系统Centos7,编译工具Maven,开发工具Intelij,节点个数为19，用户队列为root.a,root.b,root.c。

本系统实施节点配置参数：CPU核数为8核，CPU主频2.2GHz,内存类型DDR3-1333ECC,内存容量8GB,硬盘类型为15000转SAS硬盘，硬盘容量300GB,带宽1000Mbps。

一种基于负载预测的Hadoop计算任务初始分配方法，如图1所示，具体包括如下步骤：

其中，

代表第i个计算节点在历史日志中运行的AppMaster总数，

代表第i个计算节点历史日志中失败AppMaster数量。

步骤1.3：判断失效率

与阈值σ的大小关系，若

则直接在该计

算节点上开启AppMaster；若

则跳过本次节点，α ₁加1，返回步骤1.1。

步骤2：基于BP神经网络的节点，计算资源分配数量，如图2所示，具体包括：

步骤2.3.1：输入滑动窗口内的负载信息。

步骤2.3.2：通过公式(2)计算中间神经元的结果。

其中，

代表第l层第i个神经元的输出，b ^l-1代表l-1层的偏置项，

步骤2.3.3：通过公式(3)softmax函数计算每个类别概率。

步骤3：使用DRF(Dominant Resource Fairness主导资源公平)算法的用户队列和用户作业选择方法，开启子任务，如图3所示，具体包括：

步骤3.1.1：确定队列i主资源权值domin _i，具体包括：

代表第i个队列配置核数占集群总核数的比值，

代表第i个队列配置内存占集群总内存的比值。

3.1.1.2，判断内存资源的权值

和CPU核数资源的权值

大小，当

时，则队列的主导资源为核数，

为该队列主资源的权值，

当

时，则队列的主导资源为内存，

为该队列主资源的权值，

步骤3.1.2：根据公式(7)计算主资源最小份额

其中，

步骤3.1.3：当存在队列主资源最小份额小于1时，选择

步骤3.2.1：遍历所有作业，计算每个作业的资源权值，比较

和

将最大的作为主资源权值。

将本发明所述方法和其他方法进行对比，结果如图4-9所示，得出以下结论：

(1)由图6可知，BP神经网络在计算节点负载标签的分类的准确率指标上高于其他的主流机器学习算法，能够有效快速的对计算节点进行负载标签的判断，在没有延长调度时间的前提下保证了计算节点负载标签的识别准确率。

(2)AppMaster的失效率对任务完成时间影响较大。由图4和图7可知，本文提出的调度策略相较于Hadoop原生调度策略AppMaster失效的次数更少，从而减少用户作业的完成时间。

(3)根据图5和图7可知，作业量的规模变大时，负载对性能的影响开始显现，本文提出的计算任务初始分配方法考虑了负载的因素，在Fair-modified策略下的作业完成时间要明显短于其他调度器的完成时间。

(4)通过图5、8和9可知，本章提出的基于负载预测的Hadoop计算任务初始分配方法可以有效的提高集群的稳定性，任务的失效数相比于Hadoop原有的调度器有了明显的下降，从负载方差图来看，负载方差平均减少了50％多，并且由于负载过高而导致的计算节点宕机的数量也少于Hadoop中另外三款调度器。

综上所述，本章提出的基于负载预测的Hadoop计算任务初始分配方法相较于Hadoop原生的初始分配方法集群负载更加均衡，集群稳定性和性能更高，用户作业的完成时间更少。

Claims

一种基于负载预测的Hadoop计算任务初始分配方法，其特征在于，具体步骤如下：

步骤1：使用延迟调度策略的AppMaster选择方法，开启AppMaster，具体包括：

步骤1.1：资源管理器接收用户作业提交，并初始化节点数量α ₁＝0；

步骤1.2：判断α ₁与阈值α大小关系，当α ₁≥α时，在当前计算节点上开启AppMaster；当α ₁＜α时，通过公式(1)衡量计算节点i运行AppMaster的失效率

其中，
代表第i个计算节点在历史日志中运行的AppMaster总数，
代表第i个计算节点历史日志中失败AppMaster数量；

步骤1.3：判断失效率
与阈值σ的大小关系，若
则直接在该计算节点上开启AppMaster；若
则跳过本次节点，α ₁加1，返回步骤1.1；

步骤2：基于BP神经网络的节点，计算资源分配数量；

步骤3：使用DRF算法的用户队列和用户作业选择方法，开启子任务。
根据权利要求1所述基于负载预测的Hadoop计算任务初始分配方法，其特征在于，所述步骤2，具体包括：

步骤2.1：资源管理器同时利用串行机制接收计算节点发送的心跳信息，其中包含：当前计算节点的可用计算资源信息、运行中container的状态信息、计算节点的预测负载；

步骤2.2：资源管理器更新滑动窗口，滑动窗口向前移动，保证滑动窗口内的心跳信息是最新传过来的；

步骤2.3：将滑动窗口内的数据<H _L,H _L-1,…,H ₃,H ₂,H ₁>作为BP神经网络的输入，输出最新的计算节点预测负载的标签label，分为H,M,L三个类别，H代表该计算节点在当前集群下为高负载节点，M代表一般，L代表负载较低，具体如下：

步骤2.3.1：输入滑动窗口内的负载信息；

步骤2.3.2：通过公式(2)计算中间神经元的结果：

其中，
代表第l层第i个神经元的输出，b ^l-1代表l-1层的偏置项，
代表第l层第i个神经元与第l-1层第j个神经元连接的权值，f(*)代表激活函数，为

步骤2.3.3：通过公式(3)softmax函数计算每个类别概率：

其中，softmax(y) _i代表第i个类别的预测概率，y _i代表BP神经网络第i个类别的原始输出；

步骤2.3.4：将概率的最大值对应的类别作为计算节点负载标签label；

步骤2.4：根据计算节点负载的标签label，通过公式(4)计算节点分配的container数量；

其中，H,M,L代表负载预测的标签，Load _avg代表集群的平均负载，τ代表一次心跳计算节点最多能分配的container数量，Load代表计算节点预测负载。
根据权利要求1所述基于负载预测的Hadoop计算任务初始分配方法，其特征在于，所述步骤3，具体包括：

步骤3.1：遍历根节点下的所有子队列，基于DRF选择用户队列，具体包括步骤3.1.1～步骤3.1.4：

步骤3.1.1：确定队列i主资源权值domin _i，具体包括步骤3.1.1.1～步骤3.1.1.2：

步骤3.1.1.1：根据公式(5)和公式(6)计算内存和CPU核数资源的权值；

其中，memory _used代表了该队列已经使用掉的内存，memory _cluster代表整个集群的内存，vcores _used代表了该队列已经使用掉的核数，vcores _cluster代表整个集群的核数，
代表第i个队列配置核数占集群总核数的比值，
代表第i个队列配置内存占集群总内存的比值；

3.1.1.2，判断内存资源的权值
和CPU核数资源的权值
大小，当
时，则队列的主导资源为核数，
为该队列主资源的权值，
当
时，则队列的主导资源为内存，
为该队列主资源的权值，

步骤3.1.2：根据公式(7)计算主资源最小份额

其中，
第i个队列主资源最小分配额系数，domian _used已经用掉的主资源， domian _minshare最小的主资源份额；

步骤3.1.3：当存在队列主资源最小份额小于1时，选择
最大的资源队列分配资源；当所有队列的主资源最小份额大于等于1时，选择主资源权值最大的队列分配资源；

步骤3.1.4：判断该队列是否为叶子队列，若为叶子队列，则调到步骤3.2；若不为叶子队列，则将该节点设置为根节点，转到步骤3.1；

步骤3.2：对于已经选择的用户队列，基于DRF对用户队列中的内容，即用户作业进行选择，具体包括：

步骤3.2.1：遍历所有作业，计算每个作业的资源权值，比较
和
将最大的作为主资源权值；

步骤3.2.2：比较不同作业的主资源权值：当存在一个最大主资源权值，选择主资源份额高作业分配资源；当存在多个相等最大主资源份额，选择提交作业时间早的作业分配资源；

步骤3.3：根据优先级关系：Map _fail＞Map＞Reduce，选择作业中的优先级最高的任务进行container开启，即子任务开启，其中，Map _fail为Map中失败的任务，Map为Map等待的任务，Reduce为Reduce中等待的任务。