WO2015100995A1

WO2015100995A1 - 一种智能服务调度方法

Info

Publication number: WO2015100995A1
Application number: PCT/CN2014/081424
Authority: WO
Inventors: 尤佳莉; 乔楠楠; 卓煜
Original assignee: 中国科学院声学研究所
Priority date: 2014-01-02
Filing date: 2014-07-01
Publication date: 2015-07-09
Also published as: CN104765640B; CN104765640A

Abstract

本发明涉及一种智能服务调度方法，用于实现多个任务在服务器集群上的调度，所述多个任务之间不具有时序关系，所述任务包括多个具有时序关系的子任务；该方法包括：将多个任务聚合到不同的任务组中，在每个任务组中，将时序上处于同一级别的子任务聚合成一个新的子任务；以所述新的子任务作为最小调度单元在服务器集群中做并行子任务调度。本发明考虑了一个任务内部所包含的多个具有时序依赖的子任务的调度问题，在子任务级别上进行任务聚合，从而得出适合粒度的最小调度单元。另外，在性能指标的选取方面，综合考虑了实时性和能耗两种性能指标。

Description

一种智能服务调度方法

技术领域

本发明涉及操作系统领域，特别涉及一种智能服务调度方法。背景技术

任务调度是操作系统中的常见操作，对于实时操作系统而言，任务调度会直接影响其实时性能。

用于实现任务调度的方法被称为任务调度算法，现有技术中的任务调度算法有多种，但多数是出于任务级别的调度。下面对现有技术中的任务调度算法分别做简要的介绍。

Min-Min 算法首先预测出当前任务队列中每一个任务在各个处理器上的最小完成时间，然后将具有最小完成时间的任务分配给相应的处理器，同时更新相应的处理器的就绪时间，将被分配的任务从任务队列移去，如此重复分配剩余的任务，直至整个任务队列为空。 Min-Min算法易出现负载不均衡现象。

Max-Min算法与 Min-Min算法不同之处在于，在确定了每个任务在各个处理器上的最早完成时间之后，将具有最大的最早完成时间的任务分配给相应的处理器，并及时更新相应的处理器就绪时间，对于剩下的任务进行重复处理。 Max-Min算法在负载均衡方面比 Min-Min算法有所改善，但 Max-Min算法是将整个任务作为最小调度单元进行调度，而当一个任务内部包含了多个小粒度子任务时， Max-Min算法并未将各个子任务的调度方案做详细分析。

Promethee算法在任务端，根据用户自定义的标准（例如任务规模、在当前处理器上的预测执行用时、花销等指标中的一种，也可以是将多种指标进行加权处理得到的综合性能指标）将待执行的任务进行优先级排序；在处理器端，实时监控机器状态，一旦有机器出现空闲状态，便根据事先得到的任务优先级排序将优先级最高的任务分配到当前空闲的机器上去。仿真表明，适当地调整各个性能指标之间的权值，可使算法实现多方面的性能最优，但 Promethee算法同样未涉及对于一个任务内部的多个小粒度子任务的调度方案，而是将任务作为整体进行分配。

另有一些针对某个任务内部的多级时序相关子任务的调度算法，但是并没有涉及到如何应对大批量任务同时出现、多个同级别子任务同时存在的问题。

对时序相关子任务并行调度的遗传算法首先分析了子任务之间的时序要求，对所有子任务执行时的时间深度值进行排序。然后随机生成若干种 "子任务-节点"分配矩阵，每一种 "子任务-节点"矩阵即为一种分配方案。算法的思路是随机生成若干种分配方案构成初始种群，并对种群中的个体进行变异和筛选操作，使之逐代改进，从而得到新的、完成时间更短的方案。经过很多代遗传算法之后，可以得出稳定的、较优的解。但是遗传算法的复杂度较高，在网络中任务总数较多的情况下会造成很大的计算时延。

EDTS算法是针对一个任务内部的 N步子任务进行最优调度的方法，算法首先预测出各个子任务在所有机器上执行所花费的时间及能耗，然后为这一连串任务设定了总截止时间，在固定的总截止时间下，结合已有的时序关系，找出尽可能节能的子任务分配方式，但 EDTS算法只是针对一个任务进行拆分、调度，实现的是一个任务自身的性能最优，当网络中出现大量媒体任务时，子任务之间由于时序约束造成的相互等待时长较长，每个任务的局部最优与整体的优化是矛盾的。发明内容

本发明的目的在于克服现有技术中的任务调度方法在任务总数较多时容易造成计算时延，无法同时满足局部最优与整体最优等缺陷，从而提供一种针对批量、大粒度任务的智能调度方法。

为了实现上述目的，本发明提供了一种智能服务调度方法，用于实现多个任务在服务器集群上的调度，所述多个任务之间不具有时序关系，所述任务包括多个具有时序关系的子任务；该方法包括：

步骤 1 )、将多个任务聚合到不同的任务组中，在每个任务组中，将时序上处于同一级别的子任务聚合成一个新的子任务；

步骤 2)、以步骤 1 )所得到的所述新的子任务作为最小调度单元在服务器集群中做并行子任务调度。

上述技术方案中，所述步骤 2)包括初始化调度阶段，该初始化调度阶段包括：将各个任务组中聚合而成的子任务按照时序关系分为 Q级，对子任务的调度按时间级别分为 Q轮，在每一轮中，只调度该级别的 g个子任务，待其完全分配后，再调度下一级子任务；其中的 g表示任务组的数目。

上述技术方案中，所述步骤 2)还包括位于所述初始化调度阶段之后的动态调整阶段，该动态调整阶段包括：在编译结束后、服务器执行的过程中，每当一个聚合而成的子任务执行结束后，根据时序要求调整其后继聚合而成的子任务的调度开始时间。

上述技术方案中，在所述步骤 2) 的初始化调度阶段，将任务组中聚合而成的子任务按照实时性要求分为紧迫性任务或非紧迫型任务；对于紧迫性任务，以最小化总时间跨度为目标进行调度，对于非紧迫型任务，在符合截止期限要求的情况下以尽可能减小总能耗为目的进行调度。上述技术方案中，对紧迫性任务的调度包括：

步骤 2-1-1 )、统计服务器集群中 N台服务器的最早空闲时间 EFi， EF₂-EFN以及它们在工作状态下的功率 CPSi， CPS₂-CPSN;

步骤 2-1-2)、将所有任务组的第 q级子任务0^， G₂,_q G_g,_q放入等待队列，该等待队列满足先进先出的要求；

步骤 2-1-3 )、取出等待队列中最先被处理的子任务 G_m,_q作为当前子任务，计算它在各个服务器上的执行用时 t_m,q,_n及能耗 C_n; n=l,2,...N，其中 t_m,_{q I}^ C_n的值计算方式如下：

C_n = CPS_n * t,

其中， MI_m,_q为 G_m,_q对应的指令条数， MIPS_n为服务器 n的计算能力， CPS_n为服务器 n的功率；

步骤 2-1-4)、根据 t_m,q,_n计算出 G_m,_q在各个机器上的最早完成时间 ECT_n，将得出的 N个 ECT值进行排序，并将当前子任务分配到 ECT值最小的服务器上去，记该机器号为 bestn; 其中 ECT_n的计算方法如下：

ECT_n = EF_n + t,

步骤 2-1-5)、更新负载 load、最早空闲时间 EF、总能耗 Cost, 记录该子任务的开时间及结束时间；其中，所述负载 load根据正在计算的任务的时长和等待的任务的数量、时长来计算，

iCost_n + C_n (n = bestn)

Costn = i

[ Cost_n (n≠ bestn)

Cost=∑n₌₁ Cost_n; 步骤 2-1-6)、将该子任务从等待队列中清除；

步骤 2-1-7)、如果当前等待队列为空，则结束，否则回到步骤 2-1-3 )。

上述技术方案中，对非紧迫性任务的调度包括：

步骤 2-2-1 )、设置延迟容忍阈值 threshold=k* Deadline, 其中 k为常数， Deadline 为截止期限；步骤 2-2-2)、统计 N台服务器的最早空闲时间 EFi， EF₂〜EF_N以及它们在工作状态下的功率 CPSi， CPS₂-CPSN;

步骤 2-2-3 )、取出所有任务组中的第 q级子任务0^， G₂,_q， ...G_g, _q，将其放入等待队列，该等待队列满足先进先出的要求；

步骤 2-2-4)、取出等待队列中最先被处理的子任务 G_m,_q作为当前子任务，计算它在各个服务器上的执行用时 t_m,q,_n，及能耗 C_n (n=l,2,...N)，其中 t_m,_{q I}^ C_n值的计算方式如下- tm,q,n =Ml_m,_q/MIPS_n

r ― rpc_n -个 t q _n

其中， MI_m,_q为 G_m,_q对应的指令条数， MIPS_n为机器 n的计算能力， [?5„为服务器 n 的功率；

步骤 2-2-5)、根据 t_m,q,_n计算出 G_m,_q在各个机器上的最早完成时间 ECT_n，将得出的 N个 ECT值进行排序，其中 ECT_n的计算方法如下：

ECT_n― EF_n + t_m q _n

步骤 2-2-6)、记最小的 ECT值为 min(ECT),在所有满足 ECT_n- min(ECT)< threshold 的服务器中，査找执行该子任务所需的耗电量最小的服务器，记该服务器的标号为 bestn; n=l,2, ...N;

步骤 2-2-7)、将当前子任务分配到被标记的服务器上执行；

步骤 2-2-8)、更新 load、 EF、总能耗 Cost, 记录该子任务的开始时间及结束时间；其中， fECT_n ( n = bestn)

EF„=

t EF_n ( n≠ bestn) fCost_n + C_n ( n = bestn)

Costn =

[ Cost_n ( n≠ bestn)

Cost=∑n₌₁ Cost_n;

步骤 2-2-9)、将该子任务从等待队列中清除；

步骤 2-2-10)、如果当前等待队列为空，则结束，否则回到步骤 2-2-3 )。

本发明的优点在于考虑了一个任务内部所包含的多个具有时序依赖的子任务的调度问题，在子任务级别上进行任务聚合，从而得出适合粒度的最小调度单元。另外，在性能指标的选取方面，综合考虑了实时性和能耗两种性能指标。附图说明

图 1是本发明的智能服务调度方法的流程图；

图 2是本发明的智能服务调度方法中如何聚合任务的示意图；

图 3是本发明的智能服务调度方法中并行子任务调度的示意图。具体实施方式

现结合附图对本发明作进一步的描述。

本发明的方法主要针对大批量任务同时出现、多个同级别子任务同时存在的现象。本发明方法所要处理的任务之间不存在时序，但同一任务中的子任务之间存在时序。参考图 1，本发明的方法包括以下步骤：

步骤 1 )、任务聚合。本步骤中所涉及的聚合分为两次，参考图 2，一次是对任务的聚合，即将多个任务随机分配到不同的任务组中，第二次是对子任务的聚合，将同一个任务组中时序上处于同一级别的子任务聚合成一个新的子任务，该新的子任务将作为最小调度单元。下文中对这一聚合的必要性与聚合过程做详细说明。

设定任务 101^在服务器 Machine_n上的处理用时 t_m,_n表示如下：

t_m,_n = OH + Job_MI_m/MIPS_n

其中， OH 为服务器对接收到的数据包进行前期处理的固定用时， lob— MI_m表示任务 Job_m待处理的指令条数， MIPS_n表示服务器 Machine的处理器性能。

当任务数目 M较大时，服务器须对多个任务进行重复性前期处理，因此由 OH造成时间及电量消耗在总开销中所占的比例较大，使得总完成时间和总耗电量都较大。因此，本发明的方法的在调度之前，先将待执行的 M个 Job (任务）随机聚合为若干个 Job Group (任务组）。每个 Job Group中包含的原任务数目为 G_Size，称 G_Size为聚合粒度。聚合后形成的 Job Group数目为 g，其表达式为：

g = M/G— Size

在将 Job聚合为 Job Group的过程中，对于每个 Job Group, 将原 Job中处于同一级别的子任务合并成一个新的子任务，合并后得出的新的子任务将作为最小调度单元被调度到服务器集群中，且各个最小调度单元之间仍具有时序关联。因此只要保证聚合后的子任务在执行时满足时序约束条件，则一定能保证原任务中的各子任务的时序关系不被破坏。

步骤 2)、对步骤 1 ) 得到的聚合后的子任务做并行调度。

在调度层面，调度工作分为 Q轮，每一轮调度的对象是 g个处于同一级别的子任务，只有当前 g个子任务完全分配之后，才开始下一轮的调度。本发明方法的并行调度环节考虑了紧迫型任务和非紧迫型两种任务属性。其中，紧迫型任务即实时性要求较高的任务，在调度时应以最小化总时间跨度（Makespan ) 为目标，非紧迫型任务即实时性要求一般的任务，调度时需在符合截止期限要求的情况下尽可能减小总能耗。

紧迫型任务及非紧迫型任务具有不同的截止期限，其截止期限 Deadline ( s ) 值的设置方式如下：

）

其中， di , d₂为不同的比例系数， _S. d₂> di o

( 1 ) 初始化调度

参考图 3，本发明方法按照子任务的优先级顺序依次对 Q级子任务进行调度，任务调度按时间级别分为 Q轮，在每一轮中，只调度该级别的 g个子任务，待其完全分配后，再调度下一级子任务，从而保证了当某一级子任务开始执行时，其上一级子任务已基本完成，这种并行调度算法减小了因时序限制而造成的等待时延。

A、时间紧迫型任务的初始化调度

紧迫型任务与非紧迫型任务的调度方法也略有不同。下面是紧迫型任务在第 q轮的分配算法：

步骤 2-1-1 )、统计 N台服务器的最早空闲时间 EFi EF₂ EF_N以及它们在工作状态下的功率 CPSi CPS₂-CPSN

步骤 2-1-2)、将所有 Job Group的第 q级子任务 Gi,_q, G₂,_q-G_g,_q (共 g个) 放入等待队列，该等待队列满足先进先出的要求。

步骤 2-1-3 )、取出等待队列中下标最小的子任务（即最先被处理的子任务，假设为 G_m,_q)作为当前子任务，计算它在各个服务器上的执行用时 t_m,_q,_n，及能耗 C_n(n=l,2,...N)，其中 t_m,q,_n C_n的值计算方式如下

tm,q,n =Ml_m,_q/MIPS_n

r ― rpc_n - t i_m q _n

其中， MI_m,_q为 G_m,_q对应的指令条数， MlPSn为机器 n的计算能力。

步骤 2-1-4)、根据 t_m,q,_n计算出 G_m,_q在各个机器上的最早完成时间 ECT_n，将得出的

N个 ECT值进行排序，并将当前子任务分配到 ECT值最小的服务器上去，记该机器号为 bestn。其中 ECT_n的计算方法如下：

ECT_n― EF_n + t_m q _n

步骤 2-1-5)、更新负载 load、最早空闲时间 EF、总能耗 Cost, 记录该子任务的开始时间及结束时间。其中，负载 load可根据正在计算的任务的时长和等待的任务的数量、时长来计算； fECT_n (n = bestn)

EF„= ，

t EF_n (n≠ bestn) iCost_n + C_n (n = bestn)

Costn = i ，

t Cost_n (n≠ bestn)

Cost=∑n₌₁ Cost_n。步骤 2-1-6)、将该子任务从等待队列中清除。

B、时间非紧迫型任务的初始化调度

步骤 2-2-1 )、设置延迟容忍阈值 threshold=k* Deadline, 其中 k为常数。

步骤 2-2-2)、统计 N台服务器的最早空闲时间 EFi， EF₂〜EF_N以及它们在工作状态下的功率 CPSi， CPS₂ CPS_N。

步骤 2-2-3 )、取出所有 Job Group中的第 q级子任务0 G₂,_q， ...G_g, _q (共 g个），将其放入等待队列，该等待队列满足先进先出的要求。

步骤 2-2-4)、取出等待队列中下标最小的子任务（即最先被处理的子任务，假设为 G_m,_q)作为当前子任务，计算它在各个服务器上的执行用时 t_m,_q,_n，及能耗 C_n(n=l,2,...N)，其中 t_m,q,_n C_n值的计算方式如下

tm,q,n =Ml_m,_q/MIPS_n

r ― rpc_n -个 t q _n

ECT_n― EF_n + t_m q _n

步骤 2-2-6)、记最小的 ECT值为 min(ECT),在所有满足 ECT_n- min(ECT)< threshold (n=l,2,...N)的服务器中，査找执行该子任务所需的耗电量最小的服务器，记该服务器的标号为 bestn

步骤 2-2-7)、将当前子任务分配到被标记的服务器上执行。步骤 2-2-8)、更新 load、 EF、总能耗 Cost, 记录该子任务的开始时间及结束时间。 n)

) = bestn)

bestn)

Cost=∑n₌₁ Cost_n

步骤 2-2-9)、将该子任务从等待队列中清除。

(2) 动态调整执行顺序

以上分配工作均在编译过程中完成，编译结束后，系统将得出 g*Q个子任务对应的执行机器映射，并根据它们的开始时间判断出各服务器上多个任务的执行顺序。在实际的任务执行过程中，由于任务的实际用时与预测的 ECT值之前存在差距，因此每当一个子任务执行结束后，需要根据时序要求调整其后继任务的开始时间。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

权利要求

1、一种智能服务调度方法，用于实现多个任务在服务器集群上的调度，所述多个任务之间不具有时序关系，所述任务包括多个具有时序关系的子任务；该方法包括：步骤 1 )、将多个任务聚合到不同的任务组中，在每个任务组中，将时序上处于同一级别的子任务聚合成一个新的子任务；

2、根据权利要求 1所述的智能服务调度方法，其特征在于，所述步骤 2) 包括初始化调度阶段，该初始化调度阶段包括：将各个任务组中聚合而成的子任务按照时序关系分为 Q级，对子任务的调度按时间级别分为 Q轮，在每一轮中，只调度该级别的 g 个子任务，待其完全分配后，再调度下一级子任务；其中的 g表示任务组的数目。

3、根据权利要求 2所述的智能服务调度方法，其特征在于，所述步骤 2) 还包括位于所述初始化调度阶段之后的动态调整阶段，该动态调整阶段包括：在编译结束后、服务器执行的过程中，每当一个聚合而成的子任务执行结束后，根据时序要求调整其后继聚合而成的子任务的调度开始时间。

4、根据权利要求 2或 3所述的智能服务调度方法，其特征在于，在所述步骤 2) 的初始化调度阶段，将任务组中聚合而成的子任务按照实时性要求分为紧迫性任务或非紧迫型任务；对于紧迫性任务，以最小化总时间跨度为目标进行调度，对于非紧迫型任务，在符合截止期限要求的情况下以尽可能减小总能耗为目的进行调度。

5、根据权利要求 4所述的智能服务调度方法，其特征在于，对紧迫性任务的调度包括：

步骤 2- 1-1 )、统计服务器集群中 N台服务器的最早空闲时间 EFi， EF₂-EFN以及它们在工作状态下的功率 CPSi， CPS₂-CPSN;

步骤 2- 1-2)、将所有任务组的第 q级子任务0^， G₂,_q G_g,_q放入等待队列，该等待队列满足先进先出的要求；

步骤 2- 1-3 )、取出等待队列中最先被处理的子任务 G_M,_Q作为当前子任务，计算它在各个服务器上的执行用时 t_m,q,_n及能耗 C_n; n=l,2,...N，其中 t_m,_{q I}^ C_n的值计算方式如下：

tm,q,n =Ml_m,_q/MIPS_n

r ― rpc_n -个 t q _n

ECT_n― EF_n + t_m q _n ；

步骤 2-1-5)、更新负载 load、最早空闲时间 EF、总能耗 Cost, 记录该子任务的开始时间及结束时间；其中，所述负载 load根据正在计算的任务的时长和等待的任务的数量、时长来计算， iECT_n ( n = bestn)

EF„= ⁿ ，

t EF_n ( n≠ bestn) iCost_n + C_n ( n = bestn)

Costn = i ，

t Cost_n ( n≠ bestn)

6、根据权利要求 4所述的智能服务调度方法，其特征在于，对非紧迫性任务的调度包括：

步骤 2-2-1 )、设置延迟容忍阈值 threshold=k* Deadline, 其中 k为常数， Deadline 为截止期限；

步骤 2-2-2)、统计 N台服务器的最早空闲时间 EFi， EF₂〜EF_N以及它们在工作状态下的功率 CPSi， CPS₂-CPSN;

r ― rpc_n -个 t q _n

其中， MI_m,_q为 G_m,_q对应的指令条数， MIPS_n为机器 n的计算能力， [?5„为服务器 n 的功率;

ECT_n = EF_n + t,

步骤 2-2-7)、将当前子任务分配到被标记的服务器上执行；

步骤 2-2-8)、更新 load、 EF、总能耗 Cost, 记录该子任务的开始时间及结束时间；其中，

bestn)

stn)

Cost=∑n₌₁ Cost_n;

步骤 2-2-9)、将该子任务从等待队列中清除; 步骤 2-2-10)、如果当前等待队列为空，则结束，否则回到步骤 2-2-3 )。