WO2022105337A1

WO2022105337A1 - 一种任务调度方法与系统

Info

Publication number: WO2022105337A1
Application number: PCT/CN2021/114299
Authority: WO
Inventors: 吴璨; 王小宁; 肖海力; 迟学斌; 和荣; 卢莎莎
Original assignee: 中国科学院计算机网络信息中心
Priority date: 2020-11-23
Filing date: 2021-08-24
Publication date: 2022-05-27
Also published as: CN112306719B; US20230342191A1; CN112306719A

Abstract

本发明提供一种任务调度方法与系统，该系统包括：作业请求收集与分发模块，至少一个调度服务模块，至少一个作业执行服务模块。作业请求收集与分发模块从用户终端接收待执行作业的第一描述信息。至少一个调度服务模块中与作业调度算法名称相匹配的当前调度服务模块，根据第一描述信息确定待执行作业所需要的计算资源，然后根据所需要的计算资源以及当前可用集群计算资源，确定作业调度结果。通过至少一个作业执行服务模块中与作业执行服务名称相匹配的当前作业执行服务模块，根据调度结果中包含的设备标识和待执行作业的全局标识，将待执行作业提交至高性能计算机。

Description

一种任务调度方法与系统

本申请要求于2020年11月23日提交中国国家知识产权局、申请号为202011322687.2、申请名称为“一种任务调度方法与装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及高性能计算领域，更具体的，涉及一种任务调度方法与系统。

背景技术

跨集群计算服务环境聚合了由分布在不同地域，甚至归属不同组织机构的集群的计算资源，面向用户提供统一的计算服务环境。跨集群计算服务环境屏蔽了底层计算资源、作业管理系统、接入方式、管理制度等的异构性，为用户提供具有统一访问入口、使用方法和用户技术支持的高水平计算应用服务。

跨集群计算服务环境的多种任务调度算法与传统作业调度概念不同，是在集群作业资源管理系统之上的集群之间资源选择与匹配，属于应用层的任务调度。面对高并发、多计算模型、大数据存储下的跨集群计算，如何合理分配计算任务、充分利用计算资源，在满足用户应用需求的同时达到最佳能效，是任务调度策略的最基本、也是亟待解决的问题。

发明内容

本申请的目的是为了解决现有技术中存在的问题，能够通过软件配置的手段，快速将不同的任务调度算法集成到跨集群计算环境中，不影响运行中的服务。

第一方面，本申请提出一种任务调度系统，该任务调度系统包括：作业请求收集与分发模块，至少一个调度服务模块，以及至少一个作业执行服务模块；其中：所述作业请求收集与分发模块用于接收待执行作业的作业执行请求，所述作业执行请求包括待执行作业的请求描述信息，所述请求描述信息包括作业调度算法名称以及待执行作业的全局标识；所述至少一个调度服务模块中与所述作业调度算法名称相匹配的当前调度服务模块，用于根据所述请求描述信息以及至少一个可用计算集群的计算资源信息，确定作业调度结果；其中，所述作业调度结果包括作业全局标识、用于执行待执行作业的高性能计算机的设备标识以及作业执行服务名称；所述至少一个作业执行服务模块中与所述作业执行服务名称相匹配的当前作业执行服务模块，用于接收所述当前调度服务模块确定的调度结果，并且根据所述调度结果中包含的设备标识和待执行作业的全局标识，将待执行作业提交至用于执行待执行作业的高性能计算机。

优选地，所述当前调度服务模块还用于利用所述请求描述信息和所述作业调度结果生成作业描述信息，并向所述作业请求收集与分发模块提供所述作业描述信息；

所述作业请求收集与分发模块还用于根据所述作业描述信息包含的所述作业调度结果中携带的作业执行服务名称，向所述当前作业执行服务模块分发所述作业描述信息。

优选地，所述请求描述信息还包括作业所需应用名称、作业所需队列名称以及作业所需高性能计算机的核数；

所述至少一个调度服务模块中与所述作业调度算法名称相匹配的当前调度服务模块还可以用于获取计算资源信息；所述计算资源信息包括：应用列表以及应用资源；其中，所述应用列表用于指示所述至少一个可用计算集群的至少一个高性能计算机中各自部署的至少一个应用程序，所述应用资源用于指示所述至少一个计算集群中的每一个高性能计算机各自包含的至少一个计算队列，每个计算队列中包括其对应的高性能计算机的核数。

优选地，所述作业请求描述信息还包括作业名，作业所需应用程序的版本、作业预计运行时长中的一个或多个。

第二方面，本申请提出一种任务调度方法，方法包括：接收待执行作业的作业执行请求，所述作业执行请求包括待执行作业的请求描述信息，所述请求描述信息包括作业调度算法名称以及待执行作业的全局标识；通过至少一个调度服务模块中与所述作业调度算法名称相匹配的当前调度服务模块，根据所述请求描述信息以及至少一个可用计算集群的计算资源描述信息，确定作业调度结果；其中，所述作业调度结果包括作业全局标识、用于执行所述待执行作业的高性能计算机的设备标识以及作业执行服务名称；通过至少一个作业执行服务模块中与所述作业执行服务名称相匹配的当前作业执行服务模块，接收所述当前调度服务模块确定的调度结果，并且根据所述调度结果中包含的设备标识和所述待执行作业的全局标识，将所述待执行作业提交至用于执行所述待执行作业高性能计算机。

优选地，方法还包括：通过所述当前调度服务模块，利用所述请求描述信息和所述作业调度结果生成作业描述信息，向所述作业请求收集与分发模块提供所述作业描述信息；通过所述作业请求收集与分发模块，根据所述作业描述信息包含的所述作业调度结果中携带的作业执行服务名称，向所述当前作业执行服务模块分发所述作业描述信息。

所述方法还可以包括：通过所述当前调度服务模块，获取计算资源信息；所述计算资源信息包括：应用列表以及应用资源；其中，所述应用列表用于指示所述至少一个可用计算集群的至少一个高性能计算机中各自部署的至少一个应用程序，所述应用资源用于指示所述至少一个计算集群中的每一个高性能计算机各自包含的至少一个计算队列，每个计算队列中包括其对应的高性能计算机的核数。

优选地，方法中所述作业请求描述信息还包括作业名，作业所需应用程序的版本、作业预计运行时长。

通过本申请提供的任务调度方法及系统，任务调度算法可以严格按照标准开发，最后形成一个独立的服务，即形成一个独立的调度服务模块，多个调度服务之间互不影响，各个调度服务经过注册后直接部署至计算集群环境中即可，无需修改原有代码、不影响已有服务，具备高可扩展性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例中提供的一种任务调度系统的示意图；

图2是本申请实施例中提供的又一种任务调度系统的示意图；

图3是本申请实施例中提供的一种任务调度方法的流程示意图；

图4是本申请实施例中提供的另一种任务调度方法的流程示意图。

具体实施方式

下面结合附图和实施例，对本发明所提供的技术方案做进一步的详细描述。

在本申请实施例中，面向跨集群计算服务环境的多种任务调度算法集成装置将多种任务调度算法与计算环境解耦，每一个任务调度算法为一个独立的服务。其为调度算法开发人员提供了集群计算资源信息查询接口、明确定义了任务调度服务的输入输出标准格式。每个任务调度算法均严格按照标准开发，在使用面向高性能计算环境的调度算法集成装置集成不同的调度算法时，无需了解调度算法的实现细节，按照标准流程集成即可，具备高可扩展性。调度算法的开发人员也无需了解系统代码的实现细节，只需按照标准格式进行信息交互，即可以将调度算法集成到跨集群计算服务环境中。

每一个任务调度算法都封装为一个服务，具有统一的服务输入、输出信息。在集成时，首先要进行服务注册，经过授权的服务会得到授权码，将该授权码写入到服务的配置文件中，启动服务即可。每个服务是一个jar文件，通过Java的启动命令Java-jar***.jar启动服务。

图1是本申请提供的一种任务调度系统的示意图。如图1所示，面向跨集群计算服务的多种任务调度算法集成装置包括至少一个作业请求收集与分发模块101、至少一个调度服务模块102和至少一个作业执行服务模块103。作业请求收集与分发模块101、调度服务模块102和作业执行服务模块103的数量可以相等，也可以不等。在任务调度系统采用分布式跨域的多集群环境的情况下，系统中可以部署多个相同的上述模块。此外，鉴于HPC通常有不同位置分布，其它模块的实现形态和地理位置也因要求而各异。

在一个可能的实施例中，作业提交服务、调度服务和作业执行服务都为计算机底层服务，可以采用jar包实现。作业请求收集与分发模块可以是消息中间件。如图2所示，作业提交服务、消息中间件、至少一个调度服务和至少一个作业执行服务，分别部署在不同的服务器上。

需要说明的是，作业提交服务、消息中间件、至少一个调度服务和至少一个作业执行服务，可以同时部署在一个服务器上，也可以分别部署在多个服务器上。图2所示的部署方式只是本申请实施例提供的一种具体的实现方式，并不对本申请实施例中的各个服务以及消息中间件的部署进行限定。

在集成时，调度服务和作业执行服务都需要进行注册。在注册时，管理员会向每一个进行注册的服务分配一个服务名称，以及在消息中间件中为每一个服务建立一个以该服务的名称命名的消息队列。

在一个例子中，管理员在向调度服务分配服务名称时，可以将该调度服务使用的调度算法的算法名称作为该服务的名称。

在一个例子中，由于每一个作业执行服务都对应一个高性能计算机，因此上层管理程序在向作业执行服务分配服务名称时，可以将该作业执行服务对应的高性能计算机的名称作为该作业执行服务的名称。

在工作中，用户通过作业提交服务提交作业请求，作业提交服务对作业请求中包括的待执行作业的作业描述信息的合法性进行检测，将符合条件的作业描述信息发送到消息中间件，消息中间件根据作业描述信息中作业调度算法名称将该作业描述信息存储到与作业调度算法名称相匹配的消息队列中。

调度服务定期从其对应的消息队列中接收作业描述信息并根据接收到的作业描述信息以及至少一个可用计算集群的计算资源描述信息，确定作业调度结果，该作业调度结果中包括高性能计算机的名称。调度服务将作业调度结果和作业描述信息存储到与作业调度结果中包括的高性能计算机的名称相匹配的消息队列中。

作业执行服务定期从其对应的消息队列中接收作业描述信息和调度结果信息，按照调度结果中分配的HPC名称，将作业提交至指定的HPC上运行。

在如图1所示的任务调度系统中，请求收集与分发模块101接收待执行作业的作业执行请求，所述作业执行请求包括待执行作业的请求描述信息。表1示意了一种请求描述信息。如表1所示，所述请求描述信息中至少包含有作业调度算法名称、待执行作业的全局标识。可选地，描述信息还包含作业名、作业所需应用名称、作业所需应用版本、作业所需队列名称、作业所需核数、作业预计运行时长中的一个或多个。这里，应用是指高性能计算环境提供的应用；队列是指高性能计算环境中各应用可以使用的计算队列，核数是指计算队列中各计算机的核数；作业预计运行时长是指在指定应用，指定作业队列，指定计算机核数上进行作业所需要的最小运行时间。

表1

请求收集与分发模块101根据描述信息中的作业调度算法名称，从至少一个调度服务模块102中确定一个调度服务模块102，并且把作业执行请求发送给该调度服务模块102。在作业调度算法名称缺省的情况下，可以根据描述信息中的其它信息确定调度服务模块102，或者可以任意指定。

至少一个调度服务模块102各自运行作业调度算法，每个服务模块102运行的作业调度算法不同。各自配置有集群计算资源信息查询接口。该装置可以集成不同的调度算法，目前已经集成的调度算法有AWFS(Apllication Weight First Schedule，即负载优先调度算法)，ATFS(Application Time First Schedule，即时间优先调度算法)。

至少一个调度服务模块102中与所述作业调度算法名称相匹配的调度服务模块在接收到作业执行请求之后，根据所述请求描述信息以及至少一个可用计算集群的计算资源描述信息，确定作业调度结果。

在一个例子中，调度服务模块根据所述描述信息确定待执行作业所需要的计算资源，然后根据得到的待执行作业所需要的计算资源，以及通过跨集群计算服务环境的接口获取当前可用集群计算资源信息，确定作业调度结果。

在一个例子中，跨集群计算服务环境提供了用于查询集群计算资源信息的接口。所述接口包括高性能计算机(HPC)列表查询接口、应用列表查询接口、应用资源查询接口、作业查询接口中的一个或多个或其组合。各接口的详细描述及使用方式如表2所示。

表2

在一个例子中，高性能计算环境可以部署不同的应用程序，每个应用程序可以采用应用名称加以标识。如果描述信息指定了作业所需应用的应用名称，则调度服务模块可以根据该应用名称，通过应用资源查询接口查询所述作业所需应用。在有些情况下，应用程序有不同的版本；如果描述信息中指定了作业所需应用的应用版本，则调度服务模块可以通过应用资源查询接口查询相应版本的所述作业所需应用。

在一个例子中，高性能计算环境的HPC上可以有不同的计算队列，每个计算队列包括队列名称。如果描述信息指定了作业所需队列的名称，则调度服务模块可以根据该队列名称，通过应用资源查询接口查询可以用于执行作业的计算队列。

在一个例子中，每个计算队列的可用计算核数不同。在确定作业所需计算队列时，该被确定的计算队列应该具有不小于作业所需高性能计算机核数的核数。

调度服务模块102的作业调度结果可以如表3所示。在表3中，所述作业调度结果包括作业全局标识、拟用于执行所述待执行作业的高性能计算机的设备标识以及作业执行服务名称。作业执行服务是以机器名称命名的，调度结果就是机器名，调度就是把作业分配到某台机器上。

表3

在一个例子中，描述信息还可以包括作业所需应用名称、作业所需队列名称以及作业所需高性能计算机的核数，调度服务模块还用于获取计算资源信息。所述计算资源信息包括：应用列表以及应用资源；其中，所述应用列表用于指示所述至少一个可用计算集群的至少一个高性能计算机中各自部署的至少一个应用程序，所述应用资源用于指示所述至少一个计算集群中的每一个高性能计算机(High Performance Computer，HPC)各自包含的至少一个计算队列，每个计算队列可以包括其对应的高性能计算机的核数。在一个例子中，一个计算集群可以有多个高性能计算机，一个高性能计算机可以有多个队列。

在一些可能的实施例中，所述当前调度服务模块还可以用于利用所述请求描述信息和所述作业调度结果生成作业描述信息，并向所述作业请求收集与分发模块提供所述作业描述信息。然后，作业请求收集与分发模块根据所述作业描述信息，向与所述作业执行服务名称相匹配的作业执行服务模块分发所述作业描述信息。

所述作业描述信息如表4所示。

表4

至少一个作业执行服务模块103中与所述作业执行服务名称相匹配的当前作业执行服务模块，用于接收调度服务模块确定的调度结果，并且根据所述调度结果中包含的设备标识和所述待执行作业的全局标识，将所述待执行作业提交至用于执行所述待执行作业高性能计算机。

在一个例子中，作业执行服务可以采用高性能计算机的名称命名，调度结果信息包括高性能计算机的名称，即要把作业调度到哪个高性能计算机上执行。以该名称命名的作业执行服务会接收该条信息，然后把作业提交到高性能计算机上执行。作业执行服务的功能就是接收作业信息，然后把作业信息提交到高性能计算机上执行。这是因为高性能计算机上不能部署服务，无法接收消息，所以需要前端服务接收信息，然后提交到高性能计算机上执行。

在上述实施例中，作业请求收集与分发模块将紧耦合的调度服务模块与作业执行服务模块解耦，可以提高问题的解决速度，尤为重要的，可以降低将来爆发隐患的可能性。

图3是本申请实施例的一种任务调度方法的流程图，该方法可以在如图1所示的系统中实现。

如图3所示，该方法至少可以包括如下步骤301、步骤302以及步骤305。

首先，在步骤301，接收待执行的作业执行请求，所述待执行作业请求包括待执行作业的请求描述信息，所述请求描述信息包括作业调度算法名称以及待执行作业的全局标识。

接着，在步骤302，通过所述作业调度算法，根据所述请求描述信息以及至少一个可用计算集群的计算资源描述信息，确定作业调度结果。在一个例子中，所述作业调度结果包括作业全局标识、用于执行所述待执行作业的高性能计算机的设备标识以及作业执行服务名称。

接着，在步骤305中，通过与所述作业调度结果中的作业执行服务名称相匹配的当前作业执行服务模块接收所述调度结果，并且根据所述调度结果中包含的设备标识和所述待执行作业的全局标识，将所述待执行作业提交至用于所述待执行作业高性能计算机。

最后由指定的高性能计算机执行作业请求。

图4是本申请实施例中提供的另一种任务调度方法的流程示意图。与图3的流程相比，在步骤305之前，图4还包括步骤303和步骤304。

在步骤303，通过当前执行调度的调度服务模块，利用所述请求描述信息和所述作业调度结果，生成作业描述信息，并向所述作业请求收集与分发模块提供所述作业描述信息。

在步骤304，通过所述作业请求收集与分发模块，根据所述作业描述信息，向与作业执行服务名称匹配的作业执行服务模块分发所述作业描述信息。

相应的，步骤305具体可以包括步骤3051，与作业执行服务名称匹配的作业执行服务模块接收所述作业描述信息，并且根据所述作业描述信息包含的设备标识和全局标识，将所述待执行作业提交至用于执行所述待执行作业高性能计算机。

最后由指定的高性能计算机执行作业请求。

在一些可能的实施例中，可以在用户终端部署作业提交服务模块，该作业提交服务模块检查作业描述信息的合法性，将符合条件的作业描述信息发送至所述作业请求收集与分发模块。

本申请提供的一种任务调度方法及系统为调度算法开发人员提供了集群计算资源信息查询接口、明确定义了任务调度服务的输入输出标准格式。每个任务调度算法均严格按照标准开发，使用面向高性能计算环境的调度算法为一个包含多种任务调度服务的任务调度装置，各种人员无需了解多种任务调度算法的实现细节，按照标准流程集成即可，具备高可扩展性。调度算法的开发人员也无需了解系统代码的实现细节，只需按照标准格式进行信息交互，即可以将调度算法集成到跨集群计算服务环境中。

在此处所提供的说明书中，说明了大量的具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下完成实现。在一些示例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种任务调度系统，其特征在于，包括：

作业请求收集与分发模块，用于接收待执行作业的作业执行请求，所述作业执行请求包括所述待执行作业的请求描述信息，所述请求描述信息包括作业调度算法名称以及所述待执行作业的全局标识；

至少一个调度服务模块，各自配置有集群计算资源信息查询接口，用于分别运行作业调度算法；其中作业调度算法具有作业调度算法名称；其中与所述作业调度算法名称相匹配的调度服务模块通过集群计算资源信息查询接口获取至少一个可用计算集群的计算资源信息，并且通过作业调度算法确定所述待执行作业的作业调度结果；其中，所述作业调度结果包括作业全局标识、至少一个可用计算集群中拟用于执行待执行作业的高性能计算机的设备标识以及作业执行服务名称；

至少一个作业执行服务模块；其中，与所述作业执行服务名称相匹配的作业执行服务模块接收所述作业调度结果，并且将作业全局标识所标识的待执行作业提交至所述设备标识所指定的高性能计算机。
根据权利要求1所述的任务调度系统，其特征在于，所述当前调度服务模块还用于利用所述请求描述信息和所述作业调度结果生成作业描述信息，并向所述作业请求收集与分发模块提供所述作业描述信息；

所述作业请求收集与分发模块还用于，向所述作业调度结果中携带的作业执行服务名称所指定的作业执行服务模块分发所述作业描述信息。
根据权利要求1所述的任务调度系统，其特征在于，所述请求描述信息还包括作业所需应用名称、作业所需队列名称以及作业所需高性能计算机的核数中的一个或多个；

所述至少一个调度服务模块中与所述作业调度算法名称相匹配的调度服务模块还用于获取计算资源信息；所述计算资源信息包括：应用列表以及应用资源；其中，所述应用列表用于指示所述至少一个可用计算集群的至少一个高性能计算机中各自部署的至少一个应用程序，所述应用资源用于指示所述至少一个计算集群中的每一个高性能计算机各自包含的至少一个计算队列，每个计算队列中包括其对应的高性能计算机的核数；

所述至少一个调度服务模块中与所述作业调度算法名称相匹配的调度服务模块还用于根据作业所需应用名称、作业所需队列名称以及作业所需高性能计算机的核数中的一个或多个，确定所述待执行作业的作业调度结果；

其中，所述至少一个调度服务模块中与所述作业调度算法名称相匹配的调度服务模块确定包含所述作业所需队列名称所指定的计算队列的高性能计算机为用于执行待执行作业的高性能计算机；和/或

所述至少一个调度服务模块中与所述作业调度算法名称相匹配的调度服务模块确定可用核数不小于作业所需高性能计算机的核数高性能计算机为用于执行待执行作业的高性能计算机；和/或

所述至少一个调度服务模块中与所述作业调度算法名称相匹配的调度服务模块确定部署有所述作业所需应用名称所指定的应用程序的高性能计算机为用于执行待执行作业的高性能计算机。
根据权利要求1所述的任务调度系统，其特征在于，所述请求描述信息还包括作业名，作业所需应用程序的版本、作业预计运行时长中的一个或多个。
一种任务调度方法，其特征在于，

接收待执行作业的作业执行请求，所述作业执行请求包括待执行作业的请求描述信息，所述请求描述信息包括作业调度算法名称以及待执行作业的全局标识；作业调度算法名称是作业调度算法的名称，并且作业调度算法配置有集群计算资源信息查询接口；

利用与所述作业调度算法名称相匹配的作业调度算法的集群计算资源信息查询接口获取利用与所述作业调度算法名称相匹配的作业调度算法，根据至少一个可用计算集群的计算资源描述信息，利用所述作业调度算法，根据计算资源描述信息确定所述待执行作业的作业调度结果；其中，所述作业调度结果包括待执行作业的全局标识、至少一个可用计算集群中拟用于执行所述待执行作业的高性能计算机的设备标识以及作业执行服务名称；

利用与所述作业执行服务名称相匹配的作业执行服务，根据所述调度结果中包含的设备标识和所述待执行作业的全局标识，将作业全局标识所标识的所述待执行作业提交至用于执行所述设备标识指定的待执行作业高性能计算机。
根据权利要求5所述的方法，其特征在于，所述请求描述信息还包括作业所需应用名称、作业所需队列名称以及作业所需高性能计算机的核数中的一个或多个；

所述计算资源信息包括：应用列表以及应用资源；其中，所述应用列表用于指示所述至少一个可用计算集群的至少一个高性能计算机中各自部署的至少一个应用程序，所述应用资源用于指示所述至少一个计算集群中的每一个高性能计算机各自包含的至少一个计算队列，每个计算队列中包括其对应的高性能计算机的核数；

所述根据计算资源描述信息确定所述待执行作业的作业调度结果包括：

确定包含所述作业所需队列名称所指定的计算队列的高性能计算机为用于执行待执行作业的高性能计算机；和/或

确定可用核数不小于作业所需高性能计算机的核数高性能计算机为用于执行待执行作业的高性能计算机；和/或

确定部署有所述作业所需应用名称所指定的应用程序的高性能计算机为用于执行待执行作业的高性能计算机。
根据权利要求5所述的方法，其特征在于，所述请求描述信息还包括作业名，作业所需应用程序的版本、作业预计运行时长中的一个或多个。