WO2022006830A1

WO2022006830A1 - 一种多队列多集群的任务调度方法及系统

Info

Publication number: WO2022006830A1
Application number: PCT/CN2020/101185
Authority: WO
Inventors: 崔得龙; 林建鹏; 彭志平; 李启锐; 何杰光; 邱金波
Original assignee: 广东石油化工学院
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2022-01-13
Also published as: US11954526B2; US20220269536A1

Abstract

一种多队列多集群的任务调度方法及系统，涉及云计算技术领域，方法包括：构建训练数据集；所述训练数据集包括一一对应的状态空间和动作决策；所述状态空间包括依次排列的多个队列中的多个任务属性组；所述任务属性组包括任务数据量和任务所需CPU周期数（S1）；利用所述训练数据集对多个并行的深度神经网络进行训练和优化，得到多个并行的训练和优化后的深度神经网络（S2）；设置回报函数；所述回报函数通过调整任务延迟的回报值比重与能源消耗的回报值比重，使任务延迟与能源消耗之和最小（S3）；将待调度的状态空间输入多个并行的所述训练和优化后的深度神经网络中，得到多个待调度的动作决策（S4）；根据所述回报函数在多个所述待调度的动作决策中确定一个最佳动作决策进行输出（S5）；根据所述最佳动作决策将多个所述任务属性组调度到多个集群（S6）。上述方法能够以最小化任务延迟和能源消耗作为云系统的优化目标，生成最优调度策略。

Description

一种多队列多集群的任务调度方法及系统

技术领域

本发明涉及云计算技术领域，特别是涉及一种多队列多集群的任务调度方法及系统。

背景技术

目前的云计算环境，以Amazon、IBM、微软、Yahoo为例，其所建设的数据中心均拥有几十万台服务器，Google拥有的服务器数量甚至超过了100万台，各种物理资源虚拟化后数目更加庞大，物理节点和虚拟化单元宕机、动态加入和撤销等时有发生，管理起来技术难度大、复杂性高。又如，以多层Web服务工作流为例，由于突发事件引起的负载变化规律，常常无法预测。从任务优化分配角度来说，各种类型的云工作流任务在多个处理单元上的调度已被证明是NP完全难题。从资源优化供给角度来说，虚拟单元放置一方面需考虑能源消耗，即减少激活物理机和使用网络设备的数量，此时虚拟化单元放置可抽象为装箱问题，这是一个NP完全难题；另一方面需考虑数据在虚拟单元之间的传输，即减少对网络带宽的使用，此时虚拟单元放置可抽象为二次分配问题，这同样是一个NP完全难题。

云服务供需双方协商好待执行的工作量和服务等级协议，云服务提供商更关注以怎样的资源组合方案尽可能提高资源利用率，从而最大限度降低运营成本；而云服务使用者更关注以怎样的任务调度方式尽可能减少租用时间，从而最大限度降低支付成本。其中运营成本和支付成本最核心的指标之一，便是能源消耗。在实际的云任务调度与资源配置中，以能源消耗最小化为目标的云服务供应商和追求服务质量最优化的用户之间存在着冲突问题，这种冲突体现在云服务使用者希望得到较小的任务延迟，而云服务提供商则希望得到较小的能源消耗。现有的云任务调度与资源配置方法即多队列多集群的任务调度与资源配置方法仅能对一个优化目标进行优化，即以最小化任务延迟或最小化能源消耗作为云系统的优化目标，生成最优调度策略，无法根据具体要求有效地权衡能源消耗与任务完工时间(即任务延迟)这两个优化目标之间的关系，使得任务延迟与能源消耗两者之和(即优化目标)最小，以最小化任务延迟和能源消耗作为云系统的优化目标，生成最优调度策略。

发明内容

本发明要解决的技术问题是提供一种多队列多集群的任务调度方法及系统，能够以最小化任务延迟和能源消耗作为云系统的优化目标，生成最优调度策略。

为解决上述技术问题，本发明提供了一种多队列多集群的任务调度方法及系统。

该多队列多集群的任务调度方法，包括：

步骤S1：构建训练数据集；所述训练数据集包括一一对应的状态空间和动作决策；所述状态空间包括依次排列的多个队列中的多个任务属性组；所述任务属性组包括任务数据量和任务所需CPU周期数；

步骤S2：利用所述训练数据集对多个并行的深度神经网络进行训练和优化，得到多个并行的训练和优化后的深度神经网络；

步骤S3：设置回报函数；所述回报函数通过调整任务延迟的回报值比重与能源消耗的回报值比重，使任务延迟与能源消耗之和最小；

步骤S4：将待调度的状态空间输入多个并行的所述训练和优化后的深度神经网络中，得到多个待调度的动作决策；

步骤S5：根据所述回报函数在多个所述待调度的动作决策中确定一个最佳动作决策进行输出；

步骤S6：根据所述最佳动作决策将多个所述任务属性组调度到多个集群。

可选的，还包括：

步骤S7：将所述待调度状态空间和所述最佳动作决策作为一个样本存储到经验回放池中；重复执行步骤S4-S7，直至所述经验回放池中的样本数达到阈值；

步骤S8：从所述经验回放池中随机抽取设定数量的样本，对多个并行的所述训练和优化后的深度神经网络进一步训练和优化，得到多个并行的进一步训练和优化后的深度神经网络；

步骤S9：将步骤S4中多个并行的所述训练和优化后的深度神经网络更新为多个所述并行的进一步训练和优化后的深度神经网络。

可选的，所述设置回报函数，具体包括：

步骤S31：将每个任务传输过程所消耗的时间和所述任务计算过程所消耗的时间相加，得到每个任务的任务延迟；

步骤S32：确定所有任务延迟中的最大任务延迟；

步骤S33：将所有任务传输过程所消耗的能源和所有任务计算过程所消耗的能源相加，得到所有任务的能源消耗；

步骤S34：设置任务延迟所占的第一回报值比重以及能源消耗所占的第二回报值比重；所述第一回报值比重和所述第二回报值比重之和为1；

步骤S35：根据所述最大任务延迟、所述第一回报值比重、所述能源消耗以及所述第二回报值设置回报函数。

可选的，所述根据所述最大任务延迟、所述第一回报值比重、所述能源消耗以及所述第二回报值设置回报函数，具体包括：

步骤S351：将所述最大任务延迟与所述第一回报值比重相乘，得到第一乘积；

步骤S352：将所述能源消耗与所述第二回报值比重相乘，得到第二乘积；

步骤S353：将所述第一乘积与所述第二乘积相加，得到回报函数。

可选的，所述根据所述回报函数在多个所述待调度的动作决策中确定一个最佳动作决策进行输出，具体包括：

步骤S51：根据所述回报函数计算每个所述待调度的动作决策的回报函数值；

步骤S52：选取所有回报函数值中的最小回报函数值；

步骤S53：选取所述最小回报函数值对应的待调度的动作决策为最佳动作决策进行输出。

可选的，所述根据所述最佳动作决策将多个所述任务属性组调度到多个集群，之后还包括：

步骤S10：将每个集群的CPU周期数平均分配给所述集群中的所有所述任务属性组。

该多队列多集群的任务调度系统，包括：

训练数据集构建模块，用于构建训练数据集；所述训练数据集包括一一对应的状态空间和动作决策；所述状态空间包括依次排列的多个队列中的多个任务属性组；所述任务属性组包括任务数据量和任务所需CPU周期数；

训练和优化模块，用于利用所述训练数据集对多个并行的深度神经网络进行训练和优化，得到多个并行的训练和优化后的深度神经网络；

回报函数设置模块，用于设置回报函数；所述回报函数通过调整任务延迟的回报值比重与能源消耗的回报值比重，使任务延迟与能源消耗之和最小；

动作决策获取模块，用于将待调度的状态空间输入多个并行的所述训练和优化后的深度神经网络中，得到多个待调度的动作决策；

最佳动作决策获取模块，用于根据所述回报函数在多个所述待调度的动作决策中确定一个最佳动作决策进行输出；

调度模块，用于根据所述最佳动作决策将多个所述任务属性组调度到多个集群。

可选的，还包括：

样本存储模块，用于将所述待调度状态空间和所述最佳动作决策作为一个样本存储到经验回放池中；重复执行动作决策获取模块、最佳动作决策获取模块、调度模块、样本存储模块，直至所述经验回放池中的样本数达到阈值；

进一步训练和优化模块，用于从所述经验回放池中随机抽取设定数量的样本，对多个并行的所述训练和优化后的深度神经网络进一步训练和优化，得到多个并行的进一步训练和优化后的深度神经网络；

更新模块，用于将动作决策获取模块中多个并行的所述训练和优化后的深度神经网络更新为多个所述并行的进一步训练和优化后的深度神经网络。

可选的，所述回报函数设置模块，具体包括：

任务延迟计算单元，用于将每个任务传输过程所消耗的时间和所述任务计算过程所消耗的时间相加，得到每个任务的任务延迟；

最大任务延迟确定单元，用于确定所有任务延迟中的最大任务延迟；

能源消耗计算单元，用于将所有任务传输过程所消耗的能源和所有任务计算过程所消耗的能源相加，得到所有任务的能源消耗；

回报值比重设置单元，用于设置任务延迟所占的第一回报值比重以及能源消耗所占的第二回报值比重；所述第一回报值比重和所述第二回报值比重之和为1；

回报函数设置单元，用于根据所述最大任务延迟、所述第一回报值比重、所述能源消耗以及所述第二回报值设置回报函数。

可选的，所述回报函数设置单元，具体包括：

第一乘积获取子单元，用于将所述最大任务延迟与所述第一回报值比重相乘，得到第一乘积；

第二乘积获取子单元，用于将所述能源消耗与所述第二回报值比重相乘，得到第二乘积；

回报函数获取子单元，用于将所述第一乘积与所述第二乘积相加，得到回报函数。

与现有技术相比，本发明的有益效果在于：本发明公开的多队列多集群的任务调度方法及系统，针对以能源消耗最小化为目标的云服务供应商和追求服务质量最优化的用户之间存在的冲突问题设置回报函数，该回报函数可根据具体要求调整任务延迟的回报值比重与能源消耗的回报值比重，使任务延迟与能源消耗之和最小，当希望得到较小的任务延迟时，则增加任务延迟的回报值比重，当希望得到较小的能源消耗时，则增加能源消耗的回报值比重，通过调整不同优化目标的回报值比重，有效地权衡能源消耗与任务延迟这两个优化目标之间的关系，使得任务延迟与能源消耗之和最小。优化过程采用回报函数对各深度神经网络输出的动作决策计算其回报函数值，选取最小回报函数值对应的动作决策为最佳动作决策，根据最佳动作决策进行多队列多集群的任务调度，从而能够以最小化任务延迟和能源消耗作为云系统的优化目标，生成最优调度策略。

说明书附图

下面结合附图对本发明作进一步说明：

图1为本发明多队列多集群的任务调度方法实施例1的流程图；

图2为本发明多队列多集群的任务调度方法实施例2的流程示意图；

图3为本发明的云系统框架图；

图4为本发明多队列多集群的任务调度系统实施例的结构图。

具体实施方式

实施例1：

图1为本发明多队列多集群的任务调度方法实施例1的流程图。参见图1，该多队列多集群的任务调度方法包括：

步骤S1：构建训练数据集；所述训练数据集包括一一对应的状态空间和动作决策；所述状态空间包括依次排列的多个队列中的多个任务属性组；所述任务属性组包括任务数据量和任务所需CPU周期数。

步骤S2：利用所述训练数据集对多个并行的深度神经网络进行训练和优化，得到多个并行的训练和优化后的深度神经网络。

步骤S3：设置回报函数；所述回报函数通过调整任务延迟的回报值比重与能源消耗的回报值比重，使任务延迟与能源消耗之和最小。

该步骤S3具体包括：

步骤S31：将每个任务传输过程所消耗的时间和所述任务计算过程所消耗的时间相加，得到每个任务的任务延迟。

步骤S32：确定所有任务延迟中的最大任务延迟。

步骤S33：将所有任务传输过程所消耗的能源和所有任务计算过程所消耗的能源相加，得到所有任务的能源消耗。

步骤S34：设置任务延迟所占的第一回报值比重以及能源消耗所占的第二回报值比重；所述第一回报值比重和所述第二回报值比重之和为1。

该步骤S35具体包括：

步骤S351：将所述最大任务延迟与所述第一回报值比重相乘，得到第一乘积。

步骤S352：将所述能源消耗与所述第二回报值比重相乘，得到第二乘积。

步骤S4：将待调度的状态空间输入多个并行的所述训练和优化后的深度神经网络中，得到多个待调度的动作决策。

步骤S5：根据所述回报函数在多个所述待调度的动作决策中确定一个最佳动作决策进行输出。

该步骤S5具体包括：

步骤S51：根据所述回报函数计算每个所述待调度的动作决策的回报函数值。

步骤S52：选取所有回报函数值中的最小回报函数值。

该步骤S6之后还包括：

该多队列多集群的任务调度方法还包括：

步骤S7：将所述待调度状态空间和所述最佳动作决策作为一个样本存储到经验回放池中；重复执行步骤S4-S7，直至所述经验回放池中的样本数达到阈值。

步骤S8：从所述经验回放池中随机抽取设定数量的样本，对多个并行的所述训练和优化后的深度神经网络进一步训练和优化，得到多个并行的进一步训练和优化后的深度神经网络。

实施例2：

图2为本发明多队列多集群的任务调度方法实施例2的流程示意图。参见图2，该多队列多集群的任务调度方法包括：

步骤1：初始化X个神经网络DNN的网络参数θ ^x和经验回放池(Replay Memory)规模。

其中，θ ^x为神经网络的参数，θ ^x包括节点参数以及节点之间的连接线参数。经验回放池存储之前获得的策略，该特性是DNN算法区别于之前神经网络算法的特征之一。神经网络参数的初始化是随机的。

步骤2：将多个队列中的多个任务属性组表示成状态空间s _t，表示为s _t＝{task ₁,task ₂,...,task _n1}作为X个异构神经网络DNN的输入。

其中，n1表示的是总的任务数，即等待任务队列数n乘以每个队列包含的任务数m，task ₁...task _n1表示状态空间中依次排列的多个队列中的多个任务属性组；每个任务属性组均包括任务数据量和任务所需CPU周期数。

云系统的任务是将多个队列中的原子任务，即图2中的任务集调度到多个集群中。假设系统中的等待任务队列数为n个，1≤n≤N，其中，N表示系统中的最大等待任务队列数。设系统中每个队列包含的任务数为m个，1≤m≤M，其中，M表示系统中每个队列包含的最大任务数，则总任务数为m*n个。设计算集群数为k个，1≤k≤K，其中，K表示系统中最大计算集群数。

任务T _nm表示第n个队列中第m个任务，任务T _nm的属性用二元组表示为(α _nm,β _nm)，其中，α _nm表示第n个队列中第m个任务的数据量，β _nm表示第n个队列中第m个任务所需CPU周期数。另外，设定每个任务所需要CPU周期与任务数据量呈线性相关，即：β _nm＝q*α _nm，其中q表示计算力与数据的比率(Computationto DataRatio)。

集群J _k的属性用三元组表示为

其中C _k表示集群k的计算能力，即是CPU的周期数，

表示集群k的通信功耗，

表示集群k的计算功耗。

另外，多个队列到多个集群之间的带宽表示为{w ₁₂,...,w _nk}，w _nk表示队列n到集群k的带宽大小。

步骤3：每个DNN输出不同的动作决策(d ₁,d ₂,...,d _x)。d _x表示第X个DNN输出的动作决策。

动作决策即这个任务调度到哪一个集群，动作决策也称为调度策略。

步骤4：计算每个动作决策对应的Q值，选择获取最小Q值的动作决策作为该任务集的最佳动作决策：

式中，s为当前任务集状态空间，即步骤2中的状态空间s _t＝{task ₁,task ₂,...,task _n1}；d _opt为状态空间s _t＝{task ₁,task ₂,...,task _n1}对应的最佳动作决策。

在本实施例中主要考虑调度过程的两个关键因素：任务延迟和能源消耗。下面将通过公式阐明本实施例提到的通信模型和计算模型的定义。

通信模型包含任务数据传输需要的传输时间以及能耗。当同个队列中多个任务同时调度到同个集群时，带宽是均分给每个任务的，因此队列n中的任务m所能占用的带宽

为：

式中，w _nk表示队列n到集群k的带宽大小，A _nk表示队列n中调度到集群k的任务数。

通信延迟T ^comm即是任务数据上传到服务器所消耗的时间：

其中，

表示队列n中的任务m上传到服务器所消耗的时间，α _nm表示队列n的任务m的数据量。

通信能耗E ^comm即是任务传输过程中所消耗的能源：

其中，

是队列n中的任务m传输过程中所消耗的能源，

是单位任务(例如1MB字节)传输所消耗的功耗。

队列n中所有任务的通信能源消耗

计算模型包含任务的计算延迟和计算能耗。集群计算能力将均分给调度到该集群的任务，即每个任务获得CPU周期：

式中，

表示队列n中的任务m获得的CPU周期，a _nmk表示调度到集群k中的第n个队列中第m个任务的数据量。

计算延迟T ^comp即是任务计算所消耗的时间：

式中，

表示队列n中的任务m计算所消耗的时间。

计算能耗E ^comp即是任务计算过程中所消耗的能源：

式中，

表示队列n中的任务m计算过程中所消耗的能源。

队列n中所有任务的计算能源消耗

本实施例考虑的因素是任务延迟与能源消耗，因此系统的回报函数，即Q值定义如下：

式中，ξ ^d表示任务延迟所占的优化比重，ξ ^e表示能源消耗所占的优化比重，ξ ^d∈[0,1]，ξ ^e∈[0,1]，且ξ ^d+ξ ^e＝1，根据需要调整ξ ^d和ξ ^e这两个参数，即该发明更希望得到较小的任务延迟，则增加ξ ^d，反之增加ξ ^e。d表示DNN输出的动作决策。

的设置是根据具体要求，使得任务延迟与能源消耗两者之和，即优化目标最小。

系统的最终优化目标是获得最优的调度策略，在DNN作出动作决策后，根据公式

获取最小Q值的动作决策作为该任务集的最佳动作决策，从而获得最优的调度策略，最小化任务延迟与能源消耗，即是最小化期望回报值R：

R＝minQ(s,d)

系统的优化过程即调度模型的训练过程，调度模型由多个异构的DNN组成，系统的优化过程包括：

首先将多个队列中的多个任务属性组表示成状态空间s，表示为{α ₁₁,β ₁₁,α ₁₂,β ₁₂,...,α _nm,β _nm}，作为X个DNN的输入，每个DNN输出不同的动作决策(d ¹,d ²,...,d ^x)。d ^x表示第X个DNN输出的动作决策。在时间步t，系统状态s _t作为输入，输出每个DNN的动作决策

表示为：

是表示第b个DNN的网络参数的函数。动作决策dn为一串二进制序列，表示为dn＝{a ₁₁₁,a ₁₂₁,..,a nmk}，a nmk∈{0,1}，1≤n≤N，1≤m≤M，1≤k≤K，若a nmk＝1，表示队列n中作业m调度到集群k中，紧接着，采用公式

计算每个DNN输出的动作决策的Q值，选择获取最小Q值的动作决策作为该任务集的最佳动作决策:

步骤5：将当前任务集状态空间s和最佳动作决策d _opt作为样本(s,d _opt)存储到经验回放池中，待经验回放池中的样本数达到阈值，从中随机抽取Mini-batch(批大小，即每次调整参数前所选取的样本数量)数的样本，进行模型训练，目标是最小化期望回报值，即最小化任务延迟与能源消耗。由于系统的最终优化目标是获得最优的调度策略，因此通过经验回放池中的样本不断地对模型进行训练和优化，使得模型的精度更高，从而实现将任务集状态空间输入模型后即可输出最佳的动作决策，即最优的调度策略，该最佳动作决策能够最小化期望回报值，即最小化任务延迟与能源消耗。梯度下降算法通过最小化交叉熵损失minimizing the cross-entropy loss来优化各DNN的参数值

(DNN的参数即节点及节点间的连线上的权重)，直至回报函数收敛，该过程按照最小化交叉熵损失函数公式

计算，式中，

表示各DNN 的参数值

的最小化交叉熵损失函数，T表示数学上的矩阵转置，d _t表示在时间步t，系统状态s _t作为输入，最终输出的动作决策，

表示系统状态s _t作为输入，X个神经网络DNN的网络参数的函数。

步骤6：对多个异构的DNN组成的调度模型进行测试。为了验证本实施例提出的模型的有效性与性能，设计两部分仿真实验。第一部分是针对HDLL模型的关键参数进行对比验证，观察参数对模型的优化效果的影响。模型关键参数包括异构DNN个数、学习率、Batch-size(即一次训练所选取的样本数，Batch-Size的大小影响模型的优化程度和速度，同时其直接影响到GPU内存的使用情况，若GPU内存不大，该数值最好设置小一点)。第二部分是对本实施例与基准算法，包括随机选择算法(Random)、循环选择算法(Round-Robin,RR)、MoPSO多目标粒子群优化、DLL分布式学习算法和Greedy贪婪算法的优化结果进行对比验证。实验结果表明该模型能够有效的权衡能源消耗与任务完工时间这两个优化目标，具有较明显的优化效果。

图3为本发明的云系统框架图。参见图3，本实施例中由多个异构的DNN组成的调度模型，即图3中的分布式深度学习模型设置于云系统框架中的第二层，该调度模型即异构分布深度学习模型基本架构。

云系统框架主要有三层。第一层是用户负载层，由于云用户的数量的庞大，用户种类的多样性，因此用户负载存在多样性，用户负载中包含多个任务，任务之间存在依赖性、以及数据的传输。因此在任务调度的过程中需要保证任务之间的执行顺序和依赖关系。云系统框架在用户负载层采用任务解耦器对用户负载解耦成子任务分配到多个任务等待队列中，同时确保等待队列中的子任务的父任务已执行完成以及所需的数据已传输完成，保证队列中的任务具有原子性，均能独立运行。第二层是整个框架的核心层-调度层，该层是负责任务的调度与资源的供给，以达到最小化任务延迟和系统能源消耗的优化目标。该层包含以下四个组件：1)调度模型：由多个异构的DNN组成。2)能源消耗模型：包含通信消耗和计算消耗。3)服务水平协议(SLA)：是用户与云服务供应商签署的服务协议，主要考虑任务的完成时间，即任务延迟，包括任务通信延迟和计算延迟。 4)控制器(Controller)，是任务调度层的核心组件，负责协调各个组件；生成任务调度和资源配置策略，保证SLA和最小系统能耗。第三层是数据中心层。数量众多的基础设备组成规模庞大的数据中心，可按照地理位置将邻近的服务器聚类成计算集群。在通信方面，多个计算集群之间通过光纤连接，传输速度极快，因此可忽略其之间的数据传输延迟和能耗。然而来自不同用户的云任务连接到不同集群的带宽和距离有明显的差距，因此这两者是优化问题的重要考虑因素。另外，由于硬件设备的差异，集群的计算能力和计算功率也是影响系统调度效率的关键因素。

如图3所示，本实施例针对多用户多云供应商(图3中第一层)的任务调度与资源配置问题，提出了一种两阶段的调度框架，该框架由任务调度阶段(图3中第二层)和资源配置阶段(图3中第三层)组成，根据不同阶段的优化目标来完成调度任务。其中，任务调度阶段的优化目标是本实施例的回报函数。资源调度阶段是将集群计算能力均分给调度到该集群的任务。不同阶段采用不同的调度器，两阶段的调度框架由任务调度阶段和资源配置阶段组成，根据不同阶段的优化目标来完成调度任务。任务调度阶段的调度器称之为任务调度器，资源调度阶段的调度器称之为资源调度器。任务调度阶段，采用基于异构分布式深度学习模型来完成将作业调度到数据中心的任务调度任务。资源配置阶段，采用基于深度强化学习模型DQN来完成为任务配置虚拟机资源，并部署到服务器中的资源配置任务。资源配置即集群计算能力将均分给调度到该集群的任务，即每个任务获得CPU周期：

本发明针对以能源消耗最小化为目标的云服务供应商和追求服务质量最优化的用户之间的冲突问题，提出一种基于Deep Q-network的云任务调度与资源配置方法。该方法设计的回报函数为任务延迟与能源消耗的和，定义为：

ξ ^d,ξ ^e∈[0,1]，且ξ ^d+ξ ^e＝1，可根据需要调整ξ ^d和ξ ^e这两个参数，当更希望得到较小的任务延迟时，增加ξ ^d，当更希望得到较小的能源消耗时，增加ξ ^e，通过调整不同优化目标的回报值比重，来权衡能源消耗与任务完工时间这两个优化目标关系。本发明能够根据实验结果，选取云服务双方都能接受的作业延时和系统能耗，则该状态下的回报函数参数也就相应确定了，通过调整回报函数中的权重参数ξ ^d和ξ ^e来动态调整系统优化目标，以满足实际的调度需求。

本发明提出一种基于异构分布深度学习的云任务调度与资源配置方法，该方法通过联合多个异构的DNN作为云系统的调度模型以解决多队列多集群的任务调度与资源配置问题，以最小化任务延迟和能耗消耗作为云系统的优化目标，生成最优调度策略。根据本发明的应用范围，通过本发明提供的步骤，能够得到某个任务分配到哪个集群，使得本发明设计的优化目标最大。

图4为本发明多队列多集群的任务调度系统实施例的结构图。参见图4，该多队列多集群的任务调度系统包括：

训练数据集构建模块401，用于构建训练数据集；所述训练数据集包括一一对应的状态空间和动作决策；所述状态空间包括依次排列的多个队列中的多个任务属性组；所述任务属性组包括任务数据量和任务所需CPU周期数。

训练和优化模块402，用于利用所述训练数据集对多个并行的深度神经网络进行训练和优化，得到多个并行的训练和优化后的深度神经网络。

回报函数设置模块403，用于设置回报函数；所述回报函数通过调整任务延迟的回报值比重与能源消耗的回报值比重，使任务延迟与能源消耗之和最小。

该回报函数设置模块403具体包括：

任务延迟计算单元，用于将每个任务传输过程所消耗的时间和所述任务计算过程所消耗的时间相加，得到每个任务的任务延迟。

最大任务延迟确定单元，用于确定所有任务延迟中的最大任务延迟。

能源消耗计算单元，用于将所有任务传输过程所消耗的能源和所有任务计算过程所消耗的能源相加，得到所有任务的能源消耗。

回报值比重设置单元，用于设置任务延迟所占的第一回报值比重以及能源消耗所占的第二回报值比重；所述第一回报值比重和所述第二回报值比重之和为1。

该回报函数设置单元具体包括：

第一乘积获取子单元，用于将所述最大任务延迟与所述第一回报值比重相乘，得到第一乘积。

第二乘积获取子单元，用于将所述能源消耗与所述第二回报值比重相乘，得到第二乘积。

动作决策获取模块404，用于将待调度的状态空间输入多个并行的所述训练和优化后的深度神经网络中，得到多个待调度的动作决策。

最佳动作决策获取模块405，用于根据所述回报函数在多个所述待调度的动作决策中确定一个最佳动作决策进行输出。

该最佳动作决策获取模块405具体包括：

回报函数值计算单元，用于根据所述回报函数计算每个所述待调度的动作决策的回报函数值。

最小回报函数值选取单元，用于选取所有回报函数值中的最小回报函数值。

最佳动作决策选取单元，用于选取所述最小回报函数值对应的待调度的动作决策为最佳动作决策进行输出。

调度模块406，用于根据所述最佳动作决策将多个所述任务属性组调度到多个集群。

该调度模块406之后还包括：

资源配置模块，用于将每个集群的CPU周期数平均分配给所述集群中的所有所述任务属性组。

该多队列多集群的任务调度系统还包括：

样本存储模块，用于将所述待调度状态空间和所述最佳动作决策作为一个样本存储到经验回放池中；重复执行动作决策获取模块、最佳动作决策获取模块、调度模块、样本存储模块，直至所述经验回放池中的样本数达到阈值。

进一步训练和优化模块，用于从所述经验回放池中随机抽取设定数量的样本，对多个并行的所述训练和优化后的深度神经网络进一步训练和优化，得到多个并行的进一步训练和优化后的深度神经网络。

上述实施方式旨在举例说明本发明能够被本领域专业技术人员实现或使用，对上述实施方式进行常规修改对本领域技术人员来说将是显而易见的，故本发明包括但不限于上述实施方式，任何符合本申请文件的描述，符合与本文所公开的原理相同或相似的方法、工艺、产品，均落入本发明的保护范围之内。

Claims

一种多队列多集群的任务调度方法，其特征在于，包括：

步骤S1：构建训练数据集；所述训练数据集包括一一对应的状态空间和动作决策；所述状态空间包括依次排列的多个队列中的多个任务属性组；所述任务属性组包括任务数据量和任务所需CPU周期数；

步骤S2：利用所述训练数据集对多个并行的深度神经网络进行训练和优化，得到多个并行的训练和优化后的深度神经网络；

步骤S3：设置回报函数；所述回报函数通过调整任务延迟的回报值比重与能源消耗的回报值比重，使任务延迟与能源消耗之和最小；

步骤S4：将待调度的状态空间输入多个并行的所述训练和优化后的深度神经网络中，得到多个待调度的动作决策；

步骤S5：根据所述回报函数在多个所述待调度的动作决策中确定一个最佳动作决策进行输出；

步骤S6：根据所述最佳动作决策将多个所述任务属性组调度到多个集群。
根据权利要求1所述的多队列多集群的任务调度方法，其特征在于，还包括：

步骤S7：将所述待调度状态空间和所述最佳动作决策作为一个样本存储到经验回放池中；重复执行步骤S4-S7，直至所述经验回放池中的样本数达到阈值；

步骤S8：从所述经验回放池中随机抽取设定数量的样本，对多个并行的所述训练和优化后的深度神经网络进一步训练和优化，得到多个并行的进一步训练和优化后的深度神经网络；

步骤S9：将步骤S4中多个并行的所述训练和优化后的深度神经网络更新为多个所述并行的进一步训练和优化后的深度神经网络。
根据权利要求1所述的多队列多集群的任务调度方法，其特征在于，所述设置回报函数，具体包括：

步骤S31：将每个任务传输过程所消耗的时间和所述任务计算过程所消耗的时间相加，得到每个任务的任务延迟；

步骤S32：确定所有任务延迟中的最大任务延迟；

步骤S33：将所有任务传输过程所消耗的能源和所有任务计算过程所消耗的能源相加，得到所有任务的能源消耗；

步骤S34：设置任务延迟所占的第一回报值比重以及能源消耗所占的第二回报值比重；所述第一回报值比重和所述第二回报值比重之和为1；

步骤S35：根据所述最大任务延迟、所述第一回报值比重、所述能源消耗以及所述第二回报值设置回报函数。
根据权利要求3所述的多队列多集群的任务调度方法，其特征在于，所述根据所述最大任务延迟、所述第一回报值比重、所述能源消耗以及所述第二回报值设置回报函数，具体包括：

步骤S351：将所述最大任务延迟与所述第一回报值比重相乘，得到第一乘积；

步骤S352：将所述能源消耗与所述第二回报值比重相乘，得到第二乘积；

步骤S353：将所述第一乘积与所述第二乘积相加，得到回报函数。
根据权利要求1所述的多队列多集群的任务调度方法，其特征在于，所述根据所述回报函数在多个所述待调度的动作决策中确定一个最佳动作决策进行输出，具体包括：

步骤S51：根据所述回报函数计算每个所述待调度的动作决策的回报函数值；

步骤S52：选取所有回报函数值中的最小回报函数值；

步骤S53：选取所述最小回报函数值对应的待调度的动作决策为最佳动作决策进行输出。
根据权利要求1所述的多队列多集群的任务调度方法，其特征在于，所述根据所述最佳动作决策将多个所述任务属性组调度到多个集群，之后还包括：

步骤S10：将每个集群的CPU周期数平均分配给所述集群中的所有所述任务属性组。
一种多队列多集群的任务调度系统，其特征在于，包括：

训练数据集构建模块，用于构建训练数据集；所述训练数据集包括一一对应的状态空间和动作决策；所述状态空间包括依次排列的多个队列中的多个任务属性组；所述任务属性组包括任务数据量和任务所需CPU周期数；

训练和优化模块，用于利用所述训练数据集对多个并行的深度神经网络进行训练和优化，得到多个并行的训练和优化后的深度神经网络；

回报函数设置模块，用于设置回报函数；所述回报函数通过调整任务延迟的回报值比重与能源消耗的回报值比重，使任务延迟与能源消耗之和最小；

动作决策获取模块，用于将待调度的状态空间输入多个并行的所述训练和优化后的深度神经网络中，得到多个待调度的动作决策；

最佳动作决策获取模块，用于根据所述回报函数在多个所述待调度的动作决策中确定一个最佳动作决策进行输出；

调度模块，用于根据所述最佳动作决策将多个所述任务属性组调度到多个集群。
根据权利要求7所述的多队列多集群的任务调度系统，其特征在于，还包括：

样本存储模块，用于将所述待调度状态空间和所述最佳动作决策作为一个样本存储到经验回放池中；重复执行动作决策获取模块、最佳动作决策获取模块、调度模块、样本存储模块，直至所述经验回放池中的样本数达到阈值；

进一步训练和优化模块，用于从所述经验回放池中随机抽取设定数量的样本，对多个并行的所述训练和优化后的深度神经网络进一步训练和优化，得到多个并行的进一步训练和优化后的深度神经网络；

更新模块，用于将动作决策获取模块中多个并行的所述训练和优化后的深度神经网络更新为多个所述并行的进一步训练和优化后的深度神经网络。
根据权利要求7所述的多队列多集群的任务调度系统，其特征在于，所述回报函数设置模块，具体包括：

任务延迟计算单元，用于将每个任务传输过程所消耗的时间和所述任务计算过程所消耗的时间相加，得到每个任务的任务延迟；

最大任务延迟确定单元，用于确定所有任务延迟中的最大任务延迟；

能源消耗计算单元，用于将所有任务传输过程所消耗的能源和所有任务计算过程所消耗的能源相加，得到所有任务的能源消耗；

回报值比重设置单元，用于设置任务延迟所占的第一回报值比重以及能源消耗所占的第二回报值比重；所述第一回报值比重和所述第二回报值比重之和为1；

回报函数设置单元，用于根据所述最大任务延迟、所述第一回报值比重、所述能源消耗以及所述第二回报值设置回报函数。
根据权利要求9所述的多队列多集群的任务调度系统，其特征在于，所述回报函数设置单元，具体包括：

第一乘积获取子单元，用于将所述最大任务延迟与所述第一回报值比重相乘，得到第一乘积；

第二乘积获取子单元，用于将所述能源消耗与所述第二回报值比重相乘，得到第二乘积；

回报函数获取子单元，用于将所述第一乘积与所述第二乘积相加，得到回报函数。