WO2016082693A1

WO2016082693A1 - 一种用于在集群中调度计算任务的方法与设备

Info

Publication number: WO2016082693A1
Application number: PCT/CN2015/094790
Authority: WO
Inventors: 王奎
Original assignee: 阿里巴巴集团控股有限公司; 王奎
Priority date: 2014-11-24
Filing date: 2015-11-17
Publication date: 2016-06-02
Also published as: US20180198855A1; CN105700948A

Abstract

本申请的目的是提供一种用于在集群中调度计算任务的方法与设备；获取集群中待调度的多个计算任务；根据所述计算任务所对应的任务负荷信息将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点。与现有技术相比，本申请通过基于集群中待调度的多个计算任务对应的任务负荷信息，将每个所述计算任务都划分到一个对应于某个集群节点的任务子集中，从而，为所述集群中待调度的多个计算任务找到了最佳匹配组合，从而最大化利用整个集群的资源，实现更加合理的系统资源调度策略。

Description

一种用于在集群中调度计算任务的方法与设备

技术领域

本申请涉及计算机领域，尤其涉及一种用于在集群中调度计算任务的技术。

背景技术

利用互联网实现云计算的过程中，在每一个云服务节点上存在多个计算任务，需要针对所述计算任务进行资源隔离，进而，相互隔离的计算任务基于所述云服务节点调用整个集群分配的各种资源。

目前，该领域采用的方案有：

一是绝对控制方法。即对每一个云服务节点对应的多个计算任务，可以依据所述云服务节点自身的资源总量进行资源量的分配，每个计算任务最多可以使用的资源量为确定数值。此种方法，在每个计算任务实际需要的资源量大于其所分配到的资源量的确定数值时，所述计算任务的需求得不到满足；而当所述计算任务需要的资源量大大小于所分配到的资源量的确定数值时，又会带来资源的浪费。

二是相对控制方法。即对每一个云服务节点对应的多个计算任务，可以依据所述云服务节点自身的资源总量、对每个计算任务按照一定比例进行资源量的分配，此时，若某个计算任务压力过大时，若所对应的云服务节点按照权重切割，则会由于该计算任务的异常情况影响到其他计算任务的顺利进行。

发明内容

本申请的目的是提供一种用于在集群中调度计算任务的方法与设备。

根据本申请的一个方面，提供了一种用于在集群中调度计算任务的方法，包括：

获取集群中待调度的多个计算任务；

根据所述计算任务所对应的任务负荷信息将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点。

根据本申请的另一方面，还提供了一种用于在集群中调度计算任务的设备，包括：

第一装置，用于获取集群中待调度的多个计算任务；

第二装置，用于根据所述计算任务所对应的任务负荷信息将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点。

与现有技术相比，本申请通过基于集群中待调度的多个计算任务对应的任务负荷信息，将每个所述计算任务都划分到一个对应于某个集群节点的任务子集中，从而，为所述集群中待调度的多个计算任务找到了最佳划分组合，从而最大化利用整个集群的资源，实现更加合理的系统资源调度策略。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种用于在集群中调度计算任务的设备示意图；

图2示出根据本申请另一个方面的一种用于在集群中调度计算任务的方法流程图；

图3示出根据本申请一个优选实施例的集群节点M调度前的计算任务负荷示意图；

图4示出根据本申请一个优选实施例的集群节点N调度前的计算任务负荷示意图；

图5示出根据本申请一个优选实施例的集群节点M调度后的计算任务负荷示意图；

图6示出根据本申请一个优选实施例的集群节点N调度后的计算任务负荷示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1示出根据本申请一个方面的一种用于在集群中调度计算任务的设备示意图。所述用于在集群中调度计算任务的设备1包括第一装置101和第二装置102。

其中，第一装置101获取集群中待调度的多个计算任务；第二装置102用于根据所述计算任务所对应的任务负荷信息将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点。

具体地，所述设备1的第一装置101获取集群中待调度的多个计算任务。在此，所述的集群，优选地为基于互联网用于进行云计算的多台服务器组成的集群。每一台所述服务器都是为用户提供云计算等服务的集群节点。在所述每一台服务器上都有若干个正在进行的计算任务。所述的计算任务包括在集群节点上的进程服务、线程服务等。本方案需要对集群中多个集群节点下的多个计算任务进行重新调度划分，从而优化集群资源的分配，所以首先需要确定等待调度安排的多个计算任务。在本方案中，资源池越大，确定获取的待调度的计算任务越多，调度对于系统的匹配度就会越高，进而调度精确度就会越好，集群资源分配的优化效果就越显著。

此外，所述每一个计算任务在所述集群中，例如在云资源系统中，都有与之对应的的备份计算任务，从而使得所述计算任务对应的数据信息得以被保存，进一步，所述计算任务和与之对应的备份计算任务之间通过同步机制保障数据信息的一致性。在此，通过对计算任务进行灾备安排，可以避免由于数据信息的损毁、灭失等突发状况带来的损失。

在此，本领域技术人员应该能够理解，所述第一装置获取的集群中待调度的多个计算任务也可以来自于所述设备1之外的第三方设备。即从第三方设备中收集待调度的多个计算任务，再由所述设备1进行相应的信息处理、任务调度的生成并执行等操作。

接着，所述设备1的第二装置102根据所述计算任务所对应的任务负荷信息将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点。在此，若要为多个不同的计算任务进行最佳划分，以便使得集群资源利用最大化，首先要获得等待调度的多个计算任务的任务负荷信息。所述的任务负荷信息包括所述计算任务对应的各种可度量指标数据信息，包括但不限于CPU使用率、内存使用率、网络使用、内存使用、网卡流量等与所述计算任务相关的属性指标，这些指标数据能够直观反应所述计算任务对于具体某一种或几种相关集群资源的使用和消耗需要，如一个进程任务的运行需要的对应的CPU使用率、或是内存使用率情况等。所述计算任务消耗的某一类集群资源越多，则带给它所对应的集群节点的压力负荷也就越大。此外，所述的任务负荷信息也可以是多个单一、具体的可度量指标数据信息复合而成的一个综合可度量指标数据，例如对于单一可度量指标数据信息CPU使用率、内存使用率和网络使用按照一定的组合计算生成一个综合指标数据，如基于实际情况为CPU使用率、内存使用率和网络使用参数分别设置一定的权重，得到需要的综合可度量指标数据。

例如，对所有的待调度的多个计算任务基于同一可度量指标在同一个时间段或是时间点的具体数值进行分析比较，基于一定的划分操作，就可以将满足最优划分条件的多个计算任务划分到同一个任务子集中。例如存在待调度的计算任务A、B、C、D分别属于集群节点1、2、3、4；通过对所述计算任务A、B、C、D各自的任务负荷信息进行分析，并基于具体的划分操作，最终选出计算任务A、B、C三个任务重新划分到一个任务子集中，并对应于集群节点1，这一新的计算任务的组合的生成是对集群资源的利用率的优化。在此，集群资源提供的云计算的服务能力呈现的是一种动态分布、实时变化的特点，而作为本方案中所述划分操作对应的计算数据来源的任务负荷信息即可以很好的反应这种数据动态变化，如，所述任务负荷信息可以确定到某一确定可度量指标在确定时间段或时间点对应的具体数值信息。

在此，本领域技术人员应能理解，所述第一装置和所述第二装置可以是同一设备中的不同装置。进一步，在实际应用中，将所述第一装置和所述第二装置部署在不同的设备上也可以完成本方案，此时如可适用本申请，也应包含在本申请的保护范围以内，并在此以引用方式包含于此。

在此，本申请通过基于集群中待调度的多个计算任务对应的任务负荷信息，将每个所述计算任务都划分到一个对应于某个集群节点的任务子集中，从而，为所述集群中待调度的多个计算任务找到了最佳划分组合，从而最大化利用整个集群的资源，实现更加合理的系统资源调度策略。优选地，所述用于在集群中调度计算任务的设备1还包括第三装置(未示出)，所述第三装置将所述任务子集分配至对应的所述集群节点，并在所述集群节点中执行所述任务子集中的所述计算任务。

具体地，通过实时采集所述计算任务的资源使用情况，并通过计算引擎，再进行任务调度，所述互联网用户在请求某一计算任务时，所述计算任务对应的系统资源已经储备就绪，所述计算任务即可直接使用调度后的系统资源。在此，经过划分的所述多个计算任务分配到对应的集群节点之下，并通过所述集群节点分享着集群资源，此时，所述集群节点下重新划分得到的各个计算任务在执行时所需要消耗的资源，例如在相应互联网用户请求进行某一云计算任务时，所需要的使用的如网卡流量、CPU、内存等资源都要从所述云计算任务对应的集群节点所拥有的资源总量中划分出来。所以所述计算任务的执行是基于所述集群节点完成的。在此，优选地，在云计算任务中，所述集群会运用控制系统对所述集群节点、所述集群节点下的计算任务的相关数据信息进行分析采集，并将相关信息存储在所述控制系统中，以此作为信息调度策略制定的基础数据。

在此，本领域技术人员应能理解，所述第一装置、所述第二装置和所述第三装置可以是同一设备中的不同装置。进一步，在实际应用中，将所述第一装置、所述第二装置和所述第三装置部署在不同的设备上也可以完成本方案，此时如可适用本申请，也应包含在本申请的保护范围以内，并在此以引用方式包含于此。

在一个优选的实施例中，所述设备1的所述第二装置102根据所述计算任务所对应的任务负荷信息，并结合所述集群对应的节点资源阈值信息，将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点。

具体地，将集群中待调度的多个计算任务划分到同一任务子集中，每个任务子集与所述集群中一个集群节点相对应，划分操作需要获得所述待调度计算任务的任务负荷信息，同时，还需要设定集群对应的节点资源阈值信息，优选地，所述节点资源阈值信息包括所述集群节点的压力负荷所允许的最大值。进一步，所述节点资源阈值信息与所述任务负荷信息相对应，如当所述任务负荷信息包括所述计算任务对应的各种可度量指标数据信息，则所述节点资源阈值信息也包括所述各种可度量指标在所述集群节点分别对应的资源负荷总量。例如，所述待调度计算任务信息的任务负荷信息中包括网卡流量，则在进行计算任务划分操作时，所设定的集群对应的节点资源阈值信息就会对应包括所述网卡流量。在此，优选地，划分到同一个集群节点下的各个计算任务关于同一个可度量指标数据的任务负荷信息的数值之和要不超过所述可度量指标在所述集群节点对应的资源负荷总量。例如，存在计算任务E、F、G划分到同一个集群节点之下，若所述任务负荷信息中包括网卡流量，计算任务E、F、G各自运行消耗的网卡流量之和为a，所述集群节点对应的网卡流量这一资源负荷总量为b，则网卡流量数值a不能超过b，由此，才能保证通过划分集合到同一集群节点下的各个计算任务在对应集群节点下的操作是可行的、优化的。进一步，优选地，对于所述所述集群对应的节点资源阈值信息还可以设置一个最优范围，例如向下浮动不超过10％，即上述集群节点对应的网卡流量这一资源负荷总量为b，则可以设定当所述集群节点下的各个计算任务之和达到0.9b～b范围之间是最优的效果，低于0.9b，所述集群节点会有过多资源未被利用，带来资源的浪费，而超过资源负荷总量为b，所述集群节点压力过大。

在此，所述节点资源阈值信息的设定可以是通过对所述集群节点进行的压力测试，并基于所述集群节点下各个计算任务的具体运行情况抽样采集分析而得的。理论上，当集群节点对应的服务器的配置一致，例如服务器软件配置、硬件配置和运行环境等条件一致，所述集群节点的资源阈值信息也是相同。在实际应用中，也可以基于集群资源分配的需要，或是具体计算任务的需要，为作为集群节点的不同服务器设定不同的配置，进而将集群下不同节点的资源阈值信息进行差别设置。在此，优选地，所有集群节点对应的服务器配置相同，从而，所述集群下各个节点对应的节点资源阈值信息一致。

本领域技术人员应能理解，上述节点资源阈值信息的设定方法，如压力测试等方法仅为举例，其他节点资源阈值信息的设定方法如可适用本申请，也应包含在本申请的保护范围以内，并在此以引用方式包含于此。

优选地，所述设备1的所述第二装置102根据所述计算任务所对应的任务负荷信息，并结合所述集群对应的节点资源阈值信息，执行划分操作直至将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点；其中，所述划分操作包括：在所述多个计算任务中取一待划分的所述计算任务作为第一计算任务；确定一个或多个候选任务子集，其中，所述候选任务子集包括所述第一计算任务及所述多个计算任务中至少一个其他待划分的所述计算任务，所述候选任务子集中各所述计算任务的任务负荷信息的累计信息满足所述节点资源阈值信息；从所述一个或多个候选任务子集中优选确定所述任务子集。

具体地，为了将预先从属于集群下不同节点的多个计算任务重新调度到多个任务子集中，可以对所述多个计算任务执行划分操作。首先，在所述待调度的多个计算任务中选取一个待划分的所述计算任务作为第一计算任务，选取的方法可以是随机的，也可以依据一定的规律性，例如，优先选取任务负荷信息对应的负荷加大的计算任务。在此，可以设定所选中的第一计算任务对应于一个集群节点1。随后，为所述的第一计算任务在剩下的所述多个待调度的计算任务中选择与之相匹配的一个或多个计算任务。所述的相匹配所要满足的条件包括所述第一计算任务和与之相匹配的一个或多个计算任务对应的任务负荷信息的累计信息要不能超过对应节点资源阈值信息的最大值。在此，优选地，所述各个计算任务对应的任务负荷信息设定为某一个可度量指标数据在某一个确定时间点对应的数值。例如，设定所述任务负荷信息为网卡流量信息，选取时间维度上的时间点T时，并且所述第一计算任务A所对应的集群节点1对应于网卡流量信息的节点资源阈值为L，在此，可以优选节点资源阈值L的最优范围是向下浮动不超过10％。此时为所述的第一计算任务A，寻找到与其相匹配的计算任务。若在时间点T，所述第一计算任务A的网卡流量信息是L1，若此时为其匹配计算任务B，对应的网卡流量信息是L2，若此时L1与L2之和已经超过所述节点资源阈值L，则所述计算任务B与第一计算任务A并不匹配，则放弃所述计算任务B，寻找新的匹配计算任务；若此时L1与L2之和已经在所述节点资源阈值L的最优范围之内，说明所述计算任务A与所述计算任务B满足匹配条件，可以对应为一个候选任务子集。更优选地，若此时L1与L2之和满足小于节点资源阈值L的条件，但是其值在所述节点资源阈值L的最优范围之外，此时为了充分利用集群节点的资源，可以继续寻找一个或多个计算任务来与第一计算任务A和计算任务B匹配。进一步，所确定的所述一个或多个候选任务子集中各所述计算任务在各种任务负荷信息下，如各种可度量指标数据下的各个时间维度对应的任务负荷信息的累计信息都要满足各自所对应的所述节点资源阈值信息。

进一步，实际运行中，划分操作所依赖的可度量指标数据可以有多种，甚至还可以包括多个单一可度量指标数据组成的综合指标数据；同时，所获取的时间维度可能为多个，具体的时间点也可能存在多个，进而最终的划分结果也会基于不同的参数变化存在多种可能。经过划分操作，得到同时包含第一计算任务和一个或多个其他所述计算任务的候选任务子集可能存在一个或多个。接下来，可以基于一定的信息，例如脉冲比值等数据，进一步进行优选判断。

更优选地，所述从所述一个或多个候选任务子集中优选确定所述任务子集包括：确定所述候选任务子集的子集相关信息；根据所述子集相关信息从所述一个或多个候选任务子集中优选确定所述任务子集。

具体地，当通过一定的划分操作，基于所述第一计算任务确定了多个候选任务子集时，需要基于所述任务子集的子集相关信息对多个候选任务子集进行更进一步的确定。在此，所述的子集相关信息包括候选任务子集的脉冲比值。例如，对于一个所述候选任务子集M，包括第一计算任务A、计算任务B和计算任务C，设定所述任务负荷信息为网卡流量信息，选取时间维度为小时，并且所述第一计算任务A所对应的集群节点1对应于网卡流量信息的节点资源阈值为L，在此，可以优选节点资源阈值L的最优范围是向下浮动不超过10％。作为候选任务子集，所述计算任务A、B、C的网卡流量信息对应的数据值L1、L2、L3之和应该不超过节点资源阈值L。在T1时，对应的L1、L2、L3中的最大值与L1、L2、L3的平均值的比值，即为所述候选任务子集M在时间T1点下的脉冲值，当时间维度为小时，则在各个时间点T1、T2、T3……，都分别对应着一个脉冲值，所述各个时间点对应的脉冲值组成了一个集合，则所述集合中最大值与最小值的比值即为所述脉冲比值。脉冲比值越小，对应的所述候选任务子集对资源的利用效果越优。

在此，所述子集相关信息还可以包括：计算同一个候选任务子集下各个计算任务在同一个可度量指标数据的同一个确定时间点下对应的数值之和与所述任务子集对应的集群节点的节点资源阈值信息的差值。例如，对于一个所述候选任务子集N，包括第一计算任务A、计算任务D和计算任务E，设定所述任务负荷信息为网卡流量信息，选取时间维度为小时，并且所述第一计算任务A所对应的集群节点1对应于网卡流量信息的节点资源阈值为L，在此，可以优选节点资源阈值L的最优范围是向下浮动不超过10％。作为候选任务子集，所述计算任务A、D、E的网卡流量信息对应的数据值L1、L4、L5之和应该不超过节点资源阈值L,此时对应的差值是L-(L1+L2+L3)。所述差值越小，对应的所述候选任务子集对资源的利用效果越优。

在此，对于所述候选任务子集可以使用某一种子集相关信息进行进一步筛选。优选地，也可以同时利用多种子集相关信息进行综合比较，例如，对于上述候选任务子集M和候选任务子集N分别计算各自对应的所述脉冲比值和所述差值，从而得到最优选择。具体地，在实际应用中，可以优选所述脉冲比值的优先级高于所述差值，如，优选节点资源阈值L的最优范围是向下浮动不超过10％，同时对于脉冲比值，若额外规定其在节点资源阈值L的一个更广的优选范围，例如在80％～95％范围内都是可以优选地，则若候选任务子集M对应的脉冲比值在80％～95％范围内，而所述候选任务子集N达不到这个范围，则不论两组任务子集的所述差值情况如何，会优选候选任务子集M。在此，所述节点资源阈值L的最优范围10％、所述脉冲比值对应的其在节点资源阈值L的一个更广的优选范围，例如范围80％～95％，仅为举例，其都可以基于实际的业务需要灵活安排。

在此，本领域技术人员应能理解，上述子集相关信息包括候选任务子集的脉冲比值，所述的子集相关信息还可以包括：计算同一个候选任务子集下各个计算任务在同一个可度量指标数据的同一个确定时间点下对应的数值之和与所述任务子集对应的集群节点的节点资源阈值信息的差值仅为举例，其他子集相关信息如可适用本申请，也应包含在本申请的保护范围以内，并在此以引用方式包含于此。

优选地，所述设备1中所述候选任务子集中各所述计算任务的任务负荷信息的累计信息满足所述节点资源阈值信息包括：所述候选任务子集中各所述计算任务的任务负荷信息的累计信息按维度分别满足所述节点资源阈值信息。

具体地，为了所述计算任务的任务负荷信息能够全面、客观的反映计算任务的资源开销需要，所以在进行所述多个计算任务的划分操作时，依据的可度量指标数据是多维度的，例如，所述的可度量指标数据信可以同时分别来源于下列多种，如CPU使用率、内存使用率、网络使用、内存使用、网卡流量等与所述计算任务相关的属性指标，不仅是多个单一、具体的可度量指标数据信息，还可以是多个指标复合而成的若干个综合可度量指标数据，例如对于单一可度量指标数据信息CPU使用率、内存使用率和网络使用按照一定的组合计算生成一个综合指标数据，如基于实际情况为CPU使用率、内存使用率和网络使用参数分别设置一定的权重，得到需要的综合可度量指标数据。所述任务负荷信息所对应的可度量指标数据的多样化是为了给所述计算任务的划分，提供最全面的基础数据信息，使得可以根据计算任务的目的、预期寻找到最理想的划分方法，从而使得集群资源的分配利用最合理、并更符合实际业务需要。同时，所依据的时间维度也是多维度的，记录的任务负荷信息数据可以依据以年、月、日、时、分、秒等任何需要的时间单位来记录。在此，可以依据具体的待调用的多个计算任务的划分目的，选取适当一组或多组维度下的数据信息进行利用。

在另一个优选实施例中，所述设备1的所述第二装置102根据所述集群的任务计算日志信息，确定多个历史计算任务的任务开销信息；根据所述多个历史计算任务的任务开销信息确定所述计算任务的任务负荷信息。

具体地，所述待调度的计算任务的任务负荷信息由于是动态变化的，所以实际上任何时候获得的所述待调度的计算任务的任务负荷信息都已经是一个历史数据。但是同时，所述计算任务，例如互联网云计算任务，对于同一类型的计算任务，特别是一系列参数条件相似或相同的计算任务，它的计算执行，所要消耗的集群资源的情况是相似的，所以特定的历史计算任务对于与其相匹配的后来的计算任务是具有参考性的。进一步，如果运用较合理的匹配方法，就可以为当前所要调度的计算任务找到很好的可匹配的模型历史计算任务，就可以基于所述历史计算任务的任务开销信息，如在不同的时间维度下对应不同可度量指标的压力数据，去推断出所述待调度计算任务可能需要的任务开销，也就可以据此获得划分所述多个计算任务所需要的任务负荷信息。

在此，本领域技术人员应能理解，上述据所述集群的任务计算日志信息，确定多个历史计算任务的任务开销信息；根据所述多个历史计算任务的任务开销信息确定所述计算任务的任务负荷信息仅为举例，其他确定所述计算任务的任务负荷信息如可适用本申请，也应包含在本申请的保护范围以内，并在此以引用方式包含于此。

优选地，根据所述多个历史计算任务的任务开销信息确定所述计算任务的任务负荷信息包括：根据所述计算任务的任务相关信息，从所述多个历史计算任务中筛选与所述计算任务相匹配的优选历史计算任务；根据所述优选历史计算任务的任务开销信息确定所述计算任务的任务负荷信息。

具体地，所述计算任务的任务相关信息包括各种可以描述、定位一个计算任务执行条件、执行情况等多方面的相关信息，比如所述计算任务执行过程中涉及到的各种参数，例如对服务器各个软、硬件的要求。在此，与所述计算任务所对应的历史计算任务可能与所述计算任务完全就是同一个动态计算任务，只是由于时间上的变化，相应的数据产生了规律性的变化；所述对应的历史计算任务与所述计算任务也可能是完全两个独立的动态计算任务，但是因为两者之间具有极大的相似度，适宜匹配。此外，在寻找可与所述计算任务相匹配的历史计算任务过程中，可能存在多个具有一定匹配度的可匹配的历史计算任务，此时，可以基于精确的需要，依据所侧重的参数种类，筛选出最优选的历史计算任务。

优选地，根据所述多个历史计算任务的任务开销信息确定所述计算任务的任务负荷信息包括：通过根据所述多个历史计算任务的任务相关信息对所述多个历史计算任务进行聚类处理，确定每个计算任务聚类所对应的任务开销信息；根据所述计算任务的任务相关信息，确定与所述计算任务相匹配的优选计算任务聚类；根据所述优选计算任务聚类的任务开销信息确定所述计算任务的任务负荷信息。

具体地，基于所述众多历史计算任务选择与所述计算任务相匹配的优选历史计算任务，能够很客观、准确地利用所述优选历史计算任务的任务开销信息确定所述计算任务的任务负荷信息。除此之外，还可以首先对所述多个历史计算任务，基于所确定的任务相关信息进行聚类处理，在此，所述聚类处理中以某一种或几种度量为标准的相似性，在统一聚类间最小化，而在不同聚类间最大化，通过聚类算法使得所述多个历史计算任务聚集成多种类别，一方面使得需要需找比较的信息可以大大减少到若干个历史计算任务聚类，另一方面，通过聚类处理的所述历史计算任务聚类对应的任务开销信息是一种统计分析结果，更具有普遍性和广泛适用性，根据所述优选计算任务聚类对应的聚类标准可以为所述计算任务找到相匹配的数据信息，利用所匹配的优选计算任务聚类对应的任务开销信息确定所述计算任务的任务负荷信息也就更加高效可行。

图2示出根据本申请另一个方面的一种用于在集群中调度计算任务的方法流程图。

其中，在步骤S201中，所述设备1获取集群中待调度的多个计算任务；在步骤S202中，所述设备1用于根据所述计算任务所对应的任务负荷信息将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点。

具体地，在步骤S201中，所述设备1获取集群中待调度的多个计算任务。在此，所述的集群，优选地为基于互联网用于进行云计算的多台服务器组成的集群。每一台所述服务器都是为用户提供云计算等服务的集群节点。在所述每一台服务器上都有若干个正在进行的计算任务。所述的计算任务包括在集群节点上的进程服务、线程服务等。本方案需要对集群中多个集群节点下的多个计算任务进行重新调度划分，从而优化集群资源的分配，所以首先需要确定等待调度安排的多个计算任务。在本方案中，资源池越大，确定获取的待调度的计算任务越多，调度对于系统的匹配度就会越高，进而调度精确度就会越好，集群资源分配的优化效果就越显著。

在此，本领域技术人员应该能够理解，所述步骤S201，获取的集群中待调度的多个计算任务，也可以部署在所述设备1之外的第三方设备。即从第三方设备中收集待调度的多个计算任务，再由所述设备1进行相应的信息处理、任务调度的生成并执行等操作。

接着，在步骤S202中，所述设备1根据所述计算任务所对应的任务负荷信息将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点。在此，若要为多个不同的计算任务进行最佳划分，以便使得集群资源利用最大化，首先要获得等待调度的多个计算任务的任务负荷信息。所述的任务负荷信息包括所述计算任务对应的各种可度量指标数据信息，包括但不限于CPU使用率、内存使用率、网络使用、内存使用、网卡流量等与所述计算任务相关的属性指标，这些指标数据能够直观反应所述计算任务对于具体某一种或几种相关集群资源的使用和消耗需要，如一个进程任务的运行需要的对应的CPU使用率、或是内存使用率情况等。所述计算任务消耗的某一类集群资源越多，则带给它所对应的集群节点的压力负荷也就越大。此外，所述的任务负荷信息也可以是多个单一、具体的可度量指标数据信息复合而成的一个综合可度量指标数据，例如对于单一可度量指标数据信息CPU使用率、内存使用率和网络使用按照一定的组合计算生成一个综合指标数据，如基于实际情况为CPU使用率、内存使用率和网络使用参数分别设置一定的权重，得到需要的综合可度量指标数据。

在此，本领域技术人员应能理解，所述步骤S201和所述步骤S202可以在同一设备上实现。进一步，在实际应用中，也可以将所述步骤S201和所述步骤S202所对应的操作部署在不同的设备上来完成，此时也应包含在本申请的保护范围以内，并在此以引用方式包含于此。

在此，本申请通过基于集群中待调度的多个计算任务对应的任务负荷信息，将每个所述计算任务都划分到一个对应于某个集群节点的任务子集中，从而，为所述集群中待调度的多个计算任务找到了最佳划分组合，从而最大化利用整个集群的资源，实现更加合理的系统资源调度策略。

优选地，所述方法还包括步骤S203(未示出)，在步骤S203中，所述设备1将所述任务子集分配至对应的所述集群节点，并在所述集群节点中执行所述任务子集中的所述计算任务。

在此，本领域技术人员应能理解，所述步骤S201、步骤S202和步骤S203可以在同一设备中实现。进一步，在实际应用中，也可以将所述步骤S201、步骤S202和步骤S203对应的操作部署在不同的设备上来实现，此时也应包含在本申请的保护范围以内，并在此以引用方式包含于此。

在一个优选的实施例中，在步骤S202中，所述设备1根据所述计算任务所对应的任务负荷信息，并结合所述集群对应的节点资源阈值信息，将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点。

优选地，在步骤S202中，所述设备1根据所述计算任务所对应的任务负荷信息，并结合所述集群对应的节点资源阈值信息，执行划分操作直至将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点；其中，所述划分操作包括：在所述多个计算任务中取一待划分的所述计算任务作为第一计算任务；确定一个或多个候选任务子集，其中，所述候选任务子集包括所述第一计算任务及所述多个计算任务中至少一个其他待划分的所述计算任务，所述候选任务子集中各所述计算任务的任务负荷信息的累计信息满足所述节点资源阈值信息；从所述一个或多个候选任务子集中优选确定所述任务子集。

在另一个优选实施例中，在步骤S202中，所述设备1根据所述集群的任务计算日志信息，确定多个历史计算任务的任务开销信息；根据所述多个历史计算任务的任务开销信息确定所述计算任务的任务负荷信息。

图3至图6示出了本申请一个优选实施例，基于所述集群中两个节点M和N各自待调度的计算任务，在进行了本申请的调度方法后，重新划分了两个集群几点下的计算任务，优化了集群资源的分配。

其中，图3示出根据本申请一个优选实施例的集群节点M调度前的计算任务负荷示意图；图4示出根据本申请一个优选实施例的集群节点N调度前的计算任务负荷示意图；图5示出根据本申请一个优选实施例的集群节点M调度后的计算任务负荷示意图；图6示出根据本申请一个优选实施例的集群节点N调度后的计算任务负荷示意图。

具体地，图3示出了集群节点M下的计算任务1、2、3、4在进行划分操作之前的任务负荷，图4示出了集群节点N下的计算任务6、7、8、9在进行划分操作之前的任务负荷。在此，时间维度可以选取年、月、日、时等等任意维度，所述任务负荷信息包括所述计算任务对应的各种可度量指标数据信息，包括但不限于CPU使用率、内存使用率、网络使用、内存使用、网卡流量等与所述计算任务相关的属性指标。也可以是多个单一、具体的可度量指标数据信息复合而成的一个综合可度量指标数据。在此，优选地，图3、图4中每一条曲线代表对应计算任务在一周内的压力负荷情况。其中，图3示出，对应的四个计算任务在一周2、4、6日均处于业务低峰期，对应的压力负荷相对较小，而在一周1、3、5、7均处于业务高峰期，对应的压力负荷相对较大；图4示出，对应的四个计算任务在每周2、4、6均处于业务高峰期，对应的压力负荷相对较大，而在周1、3、5、7均处于业务低峰期，对应的压力负荷相对叫小。进一步，以所述M集群节点下的计算任务1、2、3、4和集群节点N下的计算任务6、7、8、9作为待调度计算任务，通过本方法的划分操作，得到的两个优化后的任务子集，即图5示出的集群节点M调度后，对应由计算任务2、4、6、8组成的任务子集和图6示出的集群节点N调度后，对应由计算任务1、3、5、7组成的任务子集。通过优化划分，集群节点M和N的在一定的时间点下，如图中所述一周的多个时间点下，集群资源得到了很好的平衡互补，缓解了集群节点在一些时间点下压力过大，而在另一些时间点下压力过小，带来的资源分配不足或资源浪费的问题。在此，通过本方案诉述的划分操作，具体的划分操作优化效果体现在图5中，其中，调度后计算任务2和4在一周2、4、6日压力负荷相对较小，在一周1、3、5、7日压力负荷相对较大，而划分到M集群节点的计算任务6和8在一周2、4、6日压力负荷相对较大，在一周1、3、5、7日压力负荷相对较小；同样，图6中，计算任务5和7在一周2、4、6日压力负荷相对较大，在一周1、3、5、7日压力负荷相对较小，而划分到N集群节点的计算任务1和3在一周2、4、6日压力负荷相对较小，在一周1、3、5、7日压力负荷相对较大。相比调度前的集群节点M和N的压力负荷情况，调度后一个集群节点下的各个计算任务的压力负荷的累计值维持在所述节点阈值信息之下的，基于各个计算任务的压力负荷的高低平衡达到了资源利用的优化结果。

进一步，基于所述多个计算任务的重新调度划分得到新的任务子集，将其下的计算任务对应的时间维度下的任务负荷信息作为基础数据存储在所述集群对应的控制系统中，作为历史计算任务，为之后的目标计算任务的调度提供可参考信息数据。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

一种用于在集群中调度计算任务的方法，包括：

获取集群中待调度的多个计算任务；

根据所述计算任务所对应的任务负荷信息将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点。
根据权利要求1所述的方法，其中，该方法还包括：

将所述任务子集分配至对应的所述集群节点，并在所述集群节点中执行所述任务子集中的所述计算任务。
根据权利要求1或2所述的方法，其中，所述根据所述计算任务所对应的任务负荷信息将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点包括：

根据所述计算任务所对应的任务负荷信息，并结合所述集群对应的节点资源阈值信息，将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点。
根据权利要求3所述的方法，其中，所述根据所述计算任务所对应的任务负荷信息将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点包括：

根据所述计算任务所对应的任务负荷信息，并结合所述集群对应的节点资源阈值信息，执行划分操作直至将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点；

其中，所述划分操作包括：

在所述多个计算任务中取一待划分的所述计算任务作为第一计算任务；

确定一个或多个候选任务子集，其中，所述候选任务子集包括所述第一计算任务及所述多个计算任务中至少一个其他待划分的所述计算任务，所述候选任务子集中各所述计算任务的任务负荷信息的累计信息满足所述节点资源阈值信息；

从所述一个或多个候选任务子集中优选确定所述任务子集。
根据权利要求4所述的方法，其中，所述从所述一个或多个候选任务子集中优选确定所述任务子集包括：

确定所述候选任务子集的子集相关信息；

根据所述子集相关信息从所述一个或多个候选任务子集中优选确定所述任务子集。
根据权利要求4或5所述的方法，其中，所述候选任务子集中各所述计算任务的任务负荷信息的累计信息满足所述节点资源阈值信息包括：

所述候选任务子集中各所述计算任务的任务负荷信息的累计信息按维度分别满足所述节点资源阈值信息。
根据权利要求1至6中任一项所述的方法，其中，所述根据所述计算任务所对应的任务负荷信息将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点还包括：

根据所述集群的任务计算日志信息，确定多个历史计算任务的任务销信息；

根据所述多个历史计算任务的任务开销信息确定所述计算任务的任务负荷信息。
根据权利要求7所述的方法，其中，根据所述多个历史计算任务的任务开销信息确定所述计算任务的任务负荷信息包括：

根据所述计算任务的任务相关信息，从所述多个历史计算任务中筛选与所述计算任务相匹配的优选历史计算任务；

根据所述优选历史计算任务的任务开销信息确定所述计算任务的任务负荷信息。
根据权利要求7所述的方法，其中，根据所述多个历史计算任务的任务开销信息确定所述计算任务的任务负荷信息包括：

通过根据所述多个历史计算任务的任务相关信息对所述多个历史计算任务进行聚类处理，确定每个计算任务聚类所对应的任务开销信息；

根据所述计算任务的任务相关信息，确定与所述计算任务相匹配的优选计算任务聚类；

根据所述优选计算任务聚类的任务开销信息确定所述计算任务的任务负荷信息。
一种用于在集群中调度计算任务的设备，包括：

第一装置，用于获取集群中待调度的多个计算任务；

第二装置，用于根据所述计算任务所对应的任务负荷信息将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点。
根据权利要求10所述的设备，其中，该设备还包括：

第三装置，用于将所述任务子集分配至对应的所述集群节点，并在所述集群节点中执行所述任务子集中的所述计算任务。
根据权利要求10或11所述的设备，其中，所述第二装置用于：

根据所述计算任务所对应的任务负荷信息，并结合所述集群对应的节点资源阈值信息，将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点。
根据权利要求12所述的设备，其中，所述第二装置用于：

根据所述计算任务所对应的任务负荷信息，并结合所述集群对应的节点资源阈值信息，执行划分操作直至将所述多个计算任务划分为多个任务子集，其中，各任务子集分别对应于所述集群中一个集群节点；

其中，所述划分操作包括：

在所述多个计算任务中取一待划分的所述计算任务作为第一计算任务；

确定一个或多个候选任务子集，其中，所述候选任务子集包括所述第一计算任务及所述多个计算任务中至少一个其他待划分的所述计算任务，所述候选任务子集中各所述计算任务的任务负荷信息的累计信息满足所述节点资源阈值信息；

从所述一个或多个候选任务子集中优选确定所述任务子集。
根据权利要求13所述的设备，其中，所述从所述一个或多个候选任务子集中优选确定所述任务子集包括：

确定所述候选任务子集的子集相关信息；

根据所述子集相关信息从所述一个或多个候选任务子集中优选确定所述任务子集。
根据权利要求13或14所述的设备，其中，所述候选任务子集中各所述计算任务的任务负荷信息的累计信息满足所述节点资源阈值信息包括：

所述候选任务子集中各所述计算任务的任务负荷信息的累计信息按维度分别满足所述节点资源阈值信息。
根据权利要求10至15中任一项所述的设备，其中，所述第二装置还用于：

根据所述集群的任务计算日志信息，确定多个历史计算任务的任务开销信息；

根据所述多个历史计算任务的任务开销信息确定所述计算任务的任务负荷信息。
根据权利要求16所述的设备，其中，根据所述多个历史计算任务的任务开销信息确定所述计算任务的任务负荷信息包括：

根据所述计算任务的任务相关信息，从所述多个历史计算任务中筛选与所述计算任务相匹配的优选历史计算任务；

根据所述优选历史计算任务的任务开销信息确定所述计算任务的任务负荷信息。
根据权利要求16所述的设备，其中，根据所述多个历史计算任务的任务开销信息确定所述计算任务的任务负荷信息包括：

通过根据所述多个历史计算任务的任务相关信息对所述多个历史计算任务进行聚类处理，确定每个计算任务聚类所对应的任务开销信息；

根据所述计算任务的任务相关信息，确定与所述计算任务相匹配的优选计算任务聚类；

根据所述优选计算任务聚类的任务开销信息确定所述计算任务的任务负荷信息。