WO2017185285A1

WO2017185285A1 - 图形处理器任务的分配方法和装置

Info

Publication number: WO2017185285A1
Application number: PCT/CN2016/080478
Authority: WO
Inventors: 邓利群
Original assignee: 华为技术有限公司
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2017-11-02
Also published as: CN109074281A; CN109074281B

Abstract

本发明实施例涉及GPU任务的分配方法和装置。该方法包括：从GPU集群中为待处理GPU任务确定目标GPU，其中该GPU集群中包含至少两个GPU，该GPU集群中每个GPU保存有至少一个参数数据；向该目标GPU发送处理该待处理GPU任务时所需的目标参数数据，该目标GPU用于处理与该目标参数数据对应的GPU任务；将该待处理GPU分配给该目标GPU处理。本发明实施例的GPU任务的分配方法和装置，使相同类型的任务可以通过同一GPU进行处理，实现参数数据复用，极大降低了CPU与GPU间传输参数数据的开销，由此能够提高GPU的利用率。

Description

[根据细则37.2由ISA制定的发明名称]　图形处理器任务的分配方法和装置

技术领域

本发明涉及信息技术领域，尤其涉及图形处理器GPU任务的分配方法和装置。

背景技术

由于图形处理器(Graphics Processing Unit，GPU)具有大规模并行线程、高内存带宽等优势，适用于多线程并发的计算密集型任务。除了传统的图形图像处理应用外，GPU已被运用到诸多其他通用计算领域，如数据库、数据压缩、深度学习、生物计算等。例如，生物计算中的脱氧核糖核酸(Deoxyribonucleic acid，DNA)序列比对问题，大量的待测DNA片段可同时被GPU线程并行计算，极大的提高了DNA比对问题的吞吐量。

但是，GPU计算所需的数据均需由中央处理器(Central Processing Unit，CPU)的内存经过总线接口PCIe(PCI-Express)传输至GPU内存，而PCIe带宽远远小于GPU的内存带宽，这种带宽的不匹配使得GPU的计算线程难以得到充分利用。例如，以DNA序列比对为例，该类任务的每次调度执行需传输的数据不仅包括待比对的DNA片段集合，同时也包括参考DNA序列数据，通过实验发现：一个约200MB的DNA片段集合的比对任务在Nvidia K40 GPU上的执行时间约为41秒，其中，参考DNA序列数据通过PCIe传输准备时间就多达到20秒。因此，PCIe上的数据传输已经成为GPU计算的一大瓶颈。

发明内容

本申请提供了一种GPU任务的分配方法和装置，能够提高GPU的效率。

第一方面，提供了一种GPU任务的分配方法，该方法包括：从GPU集群中为待处理GPU任务确定目标GPU，其中该GPU集群中包含至少两个GPU，该GPU集群中每个GPU保存有至少一个参数数据；向该目标GPU发送处理该待处理GPU任务时所需的目标参数数据，该目标GPU用于处理与该目标参数数据对应的GPU任务；将该待处理GPU分配给该目标GPU处理。

基于上述技术方案，本申请的GPU任务的分配方法，通过在GPU集群中确定处理待处理GPU任务的目标GPU，并向该目标GPU发送处理该待处理GPU任务的目标参数数据，使得该目标GPU可以包括该目标参数数据，并对待处理GPU任务进行处理，这样，采用相应参数数据的任务可以通过同一GPU进行处理，实现参数数据复用，极大降低了数据初始化以及CPU与GPU间传输参数数据的开销，由此能够提高GPU的利用率。

应理解，根据GPU任务在被处理时所需的参数数据，可以将GPU任务分为多种类型，因此，接收到待处理GPU任务后，可以确定该待处理GPU任务的目标参数数据，根据待处理GPU任务的目标参数数据，确定处理该待处理GPU任务的目标GPU。

在本发明实施例中，GPU集群中可能存在还未处理过GPU任务的GPU，则该待处理GPU任务可以直接分配给该GPU进行处理；但本发明实施例以每个GPU都已经处理过GPU任务为例进行说明。

可选地，GPU在处理过GPU任务后，会保存处理该GPU任务时所需的参数数据，实现数据复用，这样，在该GPU再次处理相同类型任务时，可以复用保存的参数数据，节省参数数据传输时间，提高效率。由于本发明实施例以每个GPU都已经处理过GPU任务为例进行说明，因此，GPU集群中每个GPU都已经保存有参数数据。

具体地，GPU集群中每个GPU可以包括一个或多个参数数据，即该GPU集群中存在至少一个GPU可以处理多种任务，每种任务都需要一种参数数据因此该GPU中保存有多种参数数据；或者该GPU集群中也可以存在至少两个GPU保存有相同的参数数据，即该GPU集群中存在多个GPU处理同一类参数数据对应的GPU任务。

应理解，该GPU集群中可能已经存在处理过与待处理GPU任务属于同一类任务的GPU，也就是该GPU中保存有处理该类GPU任务时所需的参数数据，即目标参数数据；但该GPU集群中也可能不存在该GPU，也就是该待处理GPU任务是新的一类任务。本发明实施例以该GPU集群中不存在与目标参数数据对应的目标GPU为例进行说明，即该GPU集群首次接收到该类待处理GPU任务，该待处理GPU任务被处理时使用目标参数数据，则GPU集群会先确定目标GPU。

结合第一方面，在第一方面的一种实现方式中，该从GPU集群中为待处理GPU任务确定目标GPU，包括：从该GPU集群中确定第一GPU和第二GPU，其中，该第一GPU和该第二GPU保存有相同的第一参数数据；确定该第一GPU为该目标GPU。

这样，可以将重复处理同一类任务的多个GPU中至少一个GPU确定为目标GPU，通过该目标GPU处理新的一类任务，即目标参数数据对应的待处理GPU任务以及其他任务，可以提高GPU利用率。

应理解，该第一和GPU和第二GPU可以分别指一个GPU，也可以指多个GPU，则可以将第一GPU确定为目标GPU，相应地，该目标GPU可以为一个GPU，也可以为多个GPU。

结合第一方面及其上述实现方式，在第一方面的另一种实现方式中，该确定该第一GPU为该目标GPU之后，该方法还包括：向该第一GPU发送第一删除指令，该第一删除指令用于指示该第一GPU删除该第一参数数据。

具体地，该目标GPU当前可能存在正在处理的GPU任务和未处理的GPU任务，这些GPU任务都对应第一参数数据，则该目标GPU可以在处理完该当前正在处理的任务后，删除原来保存的第一参数数据，并将其他未处理的GPU任务转为由第二GPU处理；或者，也可以将该当前正在处理的GPU任务以及其他未处理的GPU任务都转为由第二GPU处理，并删除目标GPU中原来保存的第一参数数据。

应理解，该GPU集群中可能存在多个GPU保存相同参数数据，因此，该目标参数数据可以为一个或多个。例如，可以在GPU集群中确定至少k个GPU为目标GPU，k满足公式(1)：

其中，n表示GPU集群中GPU的个数；N表示除目标参数外，当前GPU集群中对应的参数数据的种类数；

表示向下取整运算。结合第一方面及其上述实现方式，在第一方面的另一种实现方式中，当该GPU集群中不存在保存有相同的第一参数数据的第一GPU和第二GPU时，该从GPU集群中为待处理GPU任务确定目标GPU，包括：从该GPU集群中确定第三GPU，其中，该第三GPU保存有第二参数数据，且该目标参数数据和该第二参数数据的大小之和不大于该第三GPU的内存大小；确定该第三GPU为该目标GPU，该目标GPU用于处理与该目标参数数据和该第三参数数据对应的 GPU任务。

结合第一方面及其上述实现方式，在第一方面的另一种实现方式中，该第三GPU中未被处理的GPU任务被处理时所需时长小于或等于第一时长，且该待处理GPU任务被处理时所需时长小于或等于第二时长。

应理解，第一时长和第二时长可以根据实际情况进行设置，例如，若不限制第三GPU对应的原有任务或待处理GPU任务的处理时间，则可以将第一时长和第二时长设置为无限大；或者，可以将第一时长设置为待处理GPU任务等待时间的容忍值，对应地，第二时长设置为第三GPU对应的原有任务等待时间的容忍值。

结合第一方面及其上述实现方式，在第一方面的另一种实现方式中，当该GPU集群中不存在保存有相同的第一参数数据的第一GPU和第二GPU时，该从GPU集群中为待处理GPU任务确定目标GPU，包括：从该GPU集群中确定第四GPU和第五GPU，该第四GPU中保存的第三参数数据和该第五GPU中保存的第四参数数据的大小之和不大于该第四GPU的内存；向该第四GPU发送该第四参数数据，该第四GPU用于处理与该第三参数数据和该第四参数数据对应的GPU任务；确定该第五GPU为该目标GPU。

这样，将GPU集群中部分满足预设条件的GPU对应的任务进行合并，例如，两个GPU保存的参数数据小于等于其中至少一个GPU时，将两个GPU的任务进行合并，可以提高GPU利用率。

结合第一方面及其上述实现方式，在第一方面的另一种实现方式中，该确定该第五GPU为该目标GPU之后，该方法还包括：向该第五GPU发送第二删除指令，该第二删除指令用于指示该第五GPU删除该第四参数数据。

结合第一方面及其上述实现方式，在第一方面的另一种实现方式中，该第四GPU中该第三参数数据对应的未被处理的GPU任务被处理时所需时长小于或等于第三时长，该第五GPU中该第四参数数据对应的未被处理的GPU任务被处理时所需时长小于或等于第四时长。

应理解，第三时长和第四时长可以根据实际情况进行设置，例如，若不限制第三参数数据对应的任务和第四参数数据对应的任务的处理时间，对应的则可以将第三时长和第四时长设置为无限大；或者，可以将第三时长设置为第四参数数据对应的任务的等待时间的容忍值，对应地，第四时长设置为第三参数数据对应的任务的等待时间的容忍值，但本发明实施例并不限于此。

应理解，将第四GPU中的任务与第五GPU中的任务合并后，可以选择第四GPU或第五GPU处理合并后的任务。具体地，当第三参数数据与第四参数数据的大小之和小于或等于第四GPU而大于第五GPU的内存大小时，则合并后的任务由第四GPU处理，第五GPU则确定为目标GPU，用于处理目标参数数据对应的待处理GPU任务；当该第三参数数据与第四参数数据的大小之和大于第四GPU而小于或等于第五GPU的内存大小时，则合并后的任务由第五GPU处理，第四GPU则确定为目标GPU，用于处理目标参数数据对应的待处理GPU任务；当该第三参数数据与第四参数数据的大小之和小于或等于第四GPU也小于或等于第五GPU时，则可以通过第四GPU和第五GPU中任意一个GPU处理合并后的任务，而另一个GPU确定为目标GPU，用于处理目标参数数据对应的待处理GPU任务。

应理解，在确定GPU集群中不存在保存了相同第一参数数据的第一GPU和第二GPU后，可以先在GPU集群中确定是否存在上述第三GPU，若不存在，再确定是否存在上述的第四GPU和第五GPU；或者，在确定GPU集群中不存在保存了相同第一参数数据的第一GPU和第二GPU后，也可以先在GPU集群中确定是否存在上述的第四GPU和第五GPU，若不存在，再确定是否存在上述第三GPU。

可选地，当该目标GPU处理待处理GPU任务的前一个任务时，该前一个任务的任务类型与该待处理GPU任务的任务类型可能相同也可能不同。当该前一个任务的任务类型与待处理GPU任务的任务类型相同时，说明该目标GPU处理该前一个任务时所需的参数数据与待处理GPU任务的目标参数数据一致，则此时GPU中已经保存了该目标参数数据，GPU可以根据该目标参数数据对待处理GPU任务进行处理，也就是复用该目标参数数据。这样，可以极大降低了数据初始化以及CPU与GPU间传输参数数据的开销，提升了GPU的使用效率。

可选地，当该前一个任务的任务类型与待处理GPU任务的任务类型不同时，说明该目标GPU处理的任务经过合并，若该前一个任务为属于原第三GPU中的任务，即目标GPU位第三GPU，即该前一个任务对应第二参数数据，则可以保留该前一个任务的第二参数数据，并新建一个该待处理GPU任务的处理类实例，传入所需的目标参数数据，以便于该目标GPU处理该待处理GPU任务。这样，该目标GPU既可以处理第二参数数据对应的任务，也可以处理目标参数数据对应的任务，同样可以实现参数数据的复用。

当该前一个任务的任务类型与待处理GPU任务的任务类型不同时，还有可能该前一个任务为属于原第四GPU或原第五GPU，即将第四GPU和第五GPU中的任务合并后，原第四GPU或第五GPU则被确定为目标GPU。该目标GPU在处理完前一个任务后，由于前一个任务的任务类型与待处理GPU任务的任务类型不同，则该目标GPU会删除保存的用于处理前一个任务的参数数据，并新建一个该待处理GPU任务的处理类实例，传入所需的目标参数数据，以便于该目标GPU处理该待处理GPU任务。

应理解，若没有确定出目标GPU用于处理待处理GPU任务，则该任务请求失败。例如，该CPU确定本次待处理GPU任务的任务请求失败后，可以重新分配该任务，或不处理该任务请求。

第二方面，提供了一种GPU任务的分配装置，用于执行上述第一方面或第一方面的任意可能的实现方式中的方法。具体地，该装置包括用于执行上述第一方面或第一方面的任意可能的实现方式中的方法的单元。

第三方面，提供了一种GPU任务的分配装置，包括：存储单元和处理器，该存储单元用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，该执行使得该处理器执行第一方面或第一方面的任意可能的实现方式中的方法。

第四方面，提供了一种计算机可读介质，用于存储计算机程序，该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的GPU任务的分配方法的示意性流程图。

图2是根据本发明实施例的GPU任务的分配方法的应用场景的示意图。

图3是根据本发明另一实施例的GPU任务的分配方法的示意性流程图。

图4是根据本发明实施例的GPU任务的分配装置的示意性框图。

图5是根据本发明另一实施例的GPU任务的分配装置的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

具体地，图1示出了根据本发明实施例的GPU任务的分配方法100的示意性流程图，该方法可以由处理器执行，例如由CPU执行，这里以CPU为例进行说明。具体地，如图1所示，该方法100包括：

S110，从GPU集群中为待处理GPU任务确定目标GPU，其中该GPU集群中包含至少两个GPU，该GPU集群中每个GPU保存有至少一个参数数据。

应理解，该方法100可以应用于如图2所示的应用场景中。如图2所示，客户端可以包括一个或多个应用，每个应用中可以运行一个或多个线程，当一个或多个应用同时在同一个计算节点或同一个计算节点集群上运行时，它们可以共享该计算节点或该计算节点集群上的全部GPU计算资源。为了对GPU计算资源进行统一管理及分配，可以将该计算节点或该计算节点集群中包括的全部GPU看作GPU集群，由该计算节点或该计算节点集群进行统一管理和分配，例如，可以通过CPU进行管理和分配。从而，应用端的各线程在遇到需要通过GPU处理的GPU任务时，可以向该计算节点或该计算节点集群中的发送GPU任务请求，由计算节点或计算节点集群中的CPU根据当前的计算环境，将GPU任务请求分派给具体的GPU以等待对应GPU调度执行。

在本发明实施例中，客户端可以向计算节点或计算节点集群发送任务请求，该任务请求用于请求为待处理GPU任务分配GPU集群中的目标GPU，以便于该GPU处理该待处理GPU任务。

在本发明实施例中，CPU接收到该任务请求后，可以先确定任务请求中的待处理GPU任务的目标参数数据。具体地，GPU任务在被处理时需要利用参数数据，该参数数据在处理该GPU任务过程中不会发生变化，例如，该参数数据可以为计算函数，或者对于DNA序列比对类任务，该参数数据可以为参考DNA序列。CPU可以根据不同参数数据将任务划分为多种类型，即可以将访问相同的参数数据的任务归为同一种任务类型。因此，对于待处理GPU任务，可以先确定该待处理GPU任务在被处理时所需的目标参数数据，根据该目标参数数据，确定处理该待处理GPU任务的目标GPU。

在本发明实施例中，GPU集群中可能存在还未处理过GPU任务的GPU，则该待处理GPU任务可以直接分配给该GPU进行处理；但是，该GPU集群中每个GPU也可能都处理过GPU任务，本发明实施例以每个GPU都已经处理过GPU任务为例进行说明。

在本发明实施例中，该GPU集群中可能已经存在处理过与待处理GPU任务属于同一类任务的GPU，也就是该GPU中保存有处理该类GPU任务时所需的参数数据，即目标参数数据；但该GPU集群中也可能不存在该GPU，也就是该待处理GPU任务是新的一类任务。例如，可以通过查找参数数据与GPU映射表，确定该待处理GPU任务的目标参数数据对应的目标GPU，可选地，该映射表可以保存在CPU的内存中。根据映射关系，当确定GPU集群中存在与目标参数数据对应的目标GPU时，将该GPU确定为目标GPU，该目标GPU中保存了目标参数数据，并且处理过与该待处理GPU任务使用相同目标参数数据的任务，因此该目标GPU可以继续处理该待处理GPU任务，而不要求再次传输目标参数数据。但是，当确定该GPU集群中不存在与目标参数数据对应的目标GPU时，需要在该GPU集群中为待处理GPU任务确定目标GPU，由该目标GPU处理待处理GPU任务。

应理解，本发明实施例以该GPU集群中不存在与目标参数数据对应的目标GPU为例进行说明，即该GPU集群首次接收到该类待处理GPU任务，该待处理GPU任务被处理时使用目标参数数据，则GPU集群会确定目标GPU，并继续执行S120。

S120，向该目标GPU发送处理该待处理GPU任务时所需的目标参数数据，该目标GPU用于处理与该目标参数数据对应的GPU任务。

具体地，在GPU集群中为待处理GPU任务确定其对应的目标GPU后，由于该目标GPU首次处理该类GPU任务，因此会先保存该待处理GPU任务的目标参数数据，以便于之后再通过该目标参数数据，处理同类型其他任务，实现数据复用。

S130，将该待处理GPU分配给该目标GPU处理。

具体地，目标GPU保存处理该待处理GPU任务时所需的目标参数数据后，即可以通过该目标参数数据处理该待处理GPU任务，CPU可以将该任务分配给该目标GPU进行处理。

因此，本发明实施例的GPU任务的分配方法，通过在GPU集群中确定处理待处理GPU任务的目标GPU，并向该目标GPU发送处理该待处理GPU任务的目标参数数据，使得该目标GPU可以保存该目标参数数据，该目标GPU可以用于处理待处理GPU任务，还可以用于处理与目标参数数据对应的其他GPU任务，这样，采用相同参数数据的任务可以通过同一GPU进行处理，实现参数数据复用，极大降低了数据初始化以及CPU与GPU间传输参数数据的开销，由此能够提高GPU的利用率。

可选地，作为一个实施例，对于上述方法100，尤其该方法100中的S110，可以通过如图3所示的方法200来具体实现，图3示出了根据本发明另一实施例的GPU任务的分配方法200的示意性流程图，该方法200包括：

S210，接收任务请求，该任务请求用于请求处理待处理GPU任务。

可选地，可以通过CPU接收该任务请求，由CPU对该任务请求中请求处理的待处理GPU任务进行分配。

S220，确定该待处理GPU任务的目标参数数据。

S230，在GPU集群中确定是否存在与目标参数数据对应的GPU，如果存在，则执行S240；如果不存在，则执行S250。

具体地，CPU可以对GPU集群进行统一管理和分配，每个GPU可以保存有一个或多个参数数据，可以根据该待处理GPU任务在被处理时所需要的目标参数数据，通过查找参数数据与GPU映射表，确定是否存在与该待处理GPU任务的目标参数数据对应的GPU，该对应的GPU中保存有该目标参数数据，如果存在，则执行S240；如果不存在，则执行S250。

S240，将与目标参数数据对应的GPU确定为目标GPU，并继续执行S260。

具体地，将GPU集群中与待处理GPU任务的目标参数数据对应的GPU，确定为目标GPU，该目标GPU中保存了目标参数数据，可以用于处理该待处理GPU任务。

由于，该GPU集群中可能存在多个GPU保存了相同的目标参数，因此，该目标GPU可以为一个或多个GPU，当存在多个目标GPU时，可以继续执行S260。

S250，将GPU集群中的GPU进行重新分配，确定目标GPU，并继续执行S260。可选地，该目标GPU可以用于保存处理待处理GPU任务的目标参数数据，即该目标GPU可以用于处理待处理GPU任务，以及与该待处理GPU任务使用相同目标参数数据的同类其他GPU任务。

可选地，将GPU集群中的GPU进行重新分配包括：从将保存了相同参数数据的多个GPU中选择一个或多个GPU为目标GPU，该目标GPU改为保存目标参数数据；或者，将保存了其他参数数据的GPU确定为目标GPU，使得该目标GPU同时包括其他参数数据和目标参数数据；或者，将GPU集群中可以合并的两个GPU合并，由其中一个GPU处理原两个GPU处理的全部任务，而另一个GPU确定为目标GPU，用于保存目标参数数据以及处理待处理GPU任务。

具体地，当GPU集群中存在多个GPU保存有相同的参数数据时，例如，该GPU集群中第一GPU和第二GPU保存有相同的第一参数数据，该第一和GPU和第二GPU可以分别指一个GPU，也可以指多个GPU，则可以将第一GPU确定为目标GPU，相应地，该目标GPU可以为一个GPU，也可以为多个GPU。

可选地，可以向该目标GPU发送第一删除指令，指示该目标GPU删除原来保存的第一参数数据。具体地，该目标GPU当前可能存在正在处理的GPU任务和未处理的GPU任务，这些GPU任务都对应第一参数数据，则该目标GPU可以在处理完该当前正在处理的任务后，删除原来保存的第一参数数据，并将其他未处理的GPU任务转为由第二GPU处理；或者，也可以将该当前正在处理的GPU任务以及其他未处理的GPU任务都转为由第二GPU处理，并删除目标GPU中原来保存的第一参数数据。

表示向下取整运算。

可选地，当GPU集群中不存在保存有相同第一参数数据的第一GPU和第二GPU时，即该GPU集群中不同GPU处理不同类的GPU任务时，则可以在该GPU集群中确定满足第一预设条件的第三GPU为目标GPU，该第三GPU中保存有第二参数数据，则该第三GPU被确定为目标GPU后，既可以处理目标参数数据对应待处理GPU任务，还可以继续处理原来可以处理的第二参数数据对应的任务。具体地，该第三GPU满足的第一预设条件包括：该第三GPU中保存的第二参数数据与待处理GPU任务的目标参数数据之和小于或等于第三GPU的内存大小。其中，该第二参数数据为该第三GPU之前保存的参数数据，该第二参数数据可以为一种或多种参数数据，本发明实施例并不限于此。

可选地，该第三GPU满足的第一预设条件还可以包括：该第三GPU中的已存在的任务被处理时所需的时长小于或等于第一时长，且待处理GPU任务被处理时所需时长小于或等于第二时长。应理解，第一时长和第二时长可以根据实际情况进行设置，例如，若不限制第三GPU对应的原有任务或待处理GPU任务的处理时间，则可以将第一时长和第二时长设置为无限大；或者，可以将第一时长设置为待处理GPU任务等待时间的容忍值，对应地，第二时长设置为第三GPU对应的原有任务等待时间的容忍值，但本发明实施例并不限于此。

可选地，当GPU集群中不存在保存有相同第一参数数据的第一GPU和第二GPU时，即该GPU集群中不同GPU处理不同类的GPU任务时，还可以在该GPU集群中确定第四GPU和第五GPU，该第四GPU保存有第三参数数据，该第五GPU保存有第四参数数据，当第四GPU和第五GPU满足第二预设条件时，向第四GPU发送第四参数数据，使得该第四GPU同时保存有第三参数数据和第四参数数据，即该第四GPU可以处理第三参数数据和第四参数数据对应的任务；而将第五GPU确定为目标GPU。可选地，可以向该目标GPU，即第五GPU，发送第二删除指令，指示该第五GPU删除原来保存的第四参数数据，向该第五GPU发送目标参数数据，则该第五GPU用于处理该目标参数数据对应的待处理GPU任务以及其他同类任务。

其中，该第四GPU和第五GPU满足的第二预设条件包括：该第四GPU中保存的第三参数数据和该第五GPU中保存的第四参数数据的大小之和不大于该第四GPU的内存。可选地，该第二预设条件还可以包括：该第四GPU中第三参数数据对应的未被处理的GPU任务被处理时所需时长小于或等于第三时长，该第五GPU中第四参数数据对应的未被处理的GPU任务被处理时所需时长小于或等于第四时长。

应理解，将第四GPU中的任务与第五GPU中的任务合并后，可以选择第四GPU或第五GPU处理合并后的任务。具体地，当第三参数数据与第四参数数据的大小之和小于或等于第四GPU而大于第五GPU的内存大小时，则合并后的任务由第四GPU处理，第五GPU则确定为目标GPU，用于处理目标参数数据对应的待处理GPU任务；当该第三参数数据与第四参数数据的大小之和大于第四GPU而小于或等于第五GPU的内存大小时，则合并后的任务由第五GPU处理，第四GPU则确定为目标GPU，用于处理目标参数数据对应的待处理GPU任务；当该第三参数数据与第四参数数据的大小之和小于或等于第四GPU也小于或等于第五GPU时，则可以通过第四GPU 和第五GPU中任意一个GPU处理合并后的任务，而另一个GPU确定为目标GPU，用于处理目标参数数据对应的待处理GPU任务。

应理解，在确定GPU集群中不存在保存了相同第一参数数据的第一GPU和第二GPU后，可以先在GPU集群中确定是否存在上述第三GPU，若不存在，再确定是否存在上述的第四GPU和第五GPU；或者，在确定GPU集群中不存在保存了相同第一参数数据的第一GPU和第二GPU后，也可以先在GPU集群中确定是否存在上述的第四GPU和第五GPU，若不存在，再确定是否存在上述第三GPU，本发明实施例并不限于此。

根据上述方法，在GPU集群中确定处理待处理GPU任务的目标GPU，并继续执行S260。可选地，若无法确定该目标GPU，或者不存在目标GPU，则可以直接执行S280。

S260，上述方法确定耳朵目标GPU可以为一个或多个GPU，当确定出多个目标GPU时，可以在该多个目标GPU中确定一个目标GPU用于处理该待处理GPU任务。可选地，当确定了处理待处理GPU任务的目标GPU后，执行S270；当无法确定该目标GPU时，执行S280。

在本发明实施例中，当确定了多个目标GPU后，可以称该多个目标GPU为候选GPU，可以在候选GPU中，根据每个候选GPU的任务量，确定一个目标GPU用于处理该待处理GPU任务，即确定每个候选GPU对应的待执行的任务的任务量总和，并确定出任务量最小的候选GPU。

具体地，每个候选GPU的任务量可以通过处理任务的时间确定。对于任意一个候选GPU，该GPU在处理待处理GPU任务之前，可能存在其他还未处理的任务，对这些任务中每个任务的处理时间进行预估，将处理这些任务的时间求和即为该候选GPU的任务量。根据每个候选GPU的任务量，确定任务量最小的候选GPU。

若该任务量最小的候选GPU的任务量小于或等于预设值，则该候选GPU即为目标GPU，用于处理待处理GPU任务，即继续执行S270；若该任务量最小的候选GPU的任务量大于该预设值，则不存在满足条件的目标GPU来处理待处理GPU任务，并继续执行S280。

应理解，该预设值可以根据实际情况进行设定，例如，可以根据该待处理GPU任务的容忍值设置该预设值，若该待处理GPU任务对等待被处理的时间没有限制，可以将预设值设置为无限大，则该任务量最小的候选GPU 可以确定为目标GPU，用于处理待处理GPU任务。

S270，通过该目标GPU处理该待处理GPU任务。

应理解，确定用于处理待处理GPU任务的目标GPU后，该目标GPU可能对应一个或多个任务类型的任务未进行处理，则可以将该待处理GPU任务放入该目标GPU对应的队列中，等待被处理。

具体地，当该目标GPU处理待处理GPU任务的前一个任务时，该前一个任务的任务类型与该待处理GPU任务的任务类型可能相同也可能不同。当该前一个任务的任务类型与待处理GPU任务的任务类型相同时，说明该目标GPU处理该前一个任务时所需的参数数据与待处理GPU任务的目标参数数据一致，则此时GPU中已经保存了该目标参数数据，GPU可以根据该目标参数数据对待处理GPU任务进行处理，也就是复用该目标参数数据。这样，可以极大降低了数据初始化以及CPU与GPU间传输参数数据的开销，提升了GPU的使用效率。

当该前一个任务的任务类型与待处理GPU任务的任务类型不同时，说明该目标GPU处理的任务经过合并，若该前一个任务为属于原第三GPU中的任务，即目标GPU位第三GPU，即该前一个任务对应第二参数数据，则可以保留该前一个任务的第二参数数据，并新建一个该待处理GPU任务的处理类实例，传入所需的目标参数数据，以便于该目标GPU处理该待处理GPU任务。这样，该目标GPU既可以处理第二参数数据对应的任务，也可以处理目标参数数据对应的任务，同样可以实现参数数据的复用。

例如，将第四GPU和第第五GPU的任务合并后，由第四GPU处理合并后的任务，由第五GPU处理目标参数数据对应的待处理GPU任务，则该第物GPU被确定为目标GPU，该目标GPU处理的待处理GPU任务的前一个任务为第四参数数据对应的任务，因此该目标GPU可以在处理完该前一个任务后，删除保存的第四参数数据，新建一个该待处理GPU任务的处理类实例，传入所需的目标参数数据，以便于该目标GPU处理该待处理GPU任务，并且该目标GPU会保存该目标参数数据，以便于再次接收到目标参数数据对应的任务时，可以复用该保存的目标参数数据，降低CPU与GPU间传输参数数据的开销，提升GPU的使用效率。

应理解，在处理任意一类GPU任务时，可以分别针对各类任务在执行时的所需的参数数据，定义CPU和GPU的数据接口，这些数据接口在该类任务实例化时通过指针从当前环境中的已缓存数据传入，从而达到数据复用的目的。GPU任务对应的具体操作逻辑则可以封装到对应的处理函数接口，如compute接口。

S280，该待处理GPU任务分配失败，返回该待处理GPU任务的任务请求。

应理解，若没有确定出目标GPU用于处理待处理GPU任务，则该任务请求失败。例如，该CPU确定本次待处理GPU任务的任务请求失败后，可以重新分配该任务，或不处理该任务请求，本发明实施例并不限于此。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

因此，本发明实施例的GPU任务的分配方法，通过在GPU集群中为待处理GPU任务确定目标GPU，向该目标GPU发送目标参数数据，该目标GPU保存该目标参数数据，以便于处理该目标参数数据对应的待处理GPU任务以及其他同类任务，这样，相同类型的任务可以通过同一GPU进行处理，实现参数数据复用，极大降低了数据初始化以及CPU与GPU间传输参数数据的开销，提升了GPU的使用效率。并且，可以通过动态调配已经保存参数数据的GPU，使得GPU保存的参数数据可以根据处理需要而变化，进一步提高了GPU的使用率和处理任务的灵活性。

具体地，根据实际测试表明，将本发明实施例的GPU任务的分配方法用于人类基因序列比对任务的计算，吞吐量可提升80％～100％。

上文中结合图1至图3，详细描述了根据本发明实施例的GPU任务的分配方法，下面将结合图4至图5，描述根据本发明实施例的GPU任务的分配装置。

如图4所示，根据本发明实施例的GPU任务的分配装置300包括：

确定单元310，用于从GPU集群中为待处理GPU任务确定目标GPU，其中该GPU集群中包含至少两个GPU，该GPU集群中每个GPU保存有至少一个参数数据；

发送单元320，用于向该目标GPU发送处理该待处理GPU任务时所需的目标参数数据，该目标GPU用于处理与该目标参数数据对应的GPU任务；

该发送单元320还用于：将该待处理GPU分配给该目标GPU处理。

因此，本发明实施例的GPU任务的装置，通过在GPU集群中确定处理待处理GPU任务的目标GPU，并向该目标GPU发送处理该待处理GPU任务的目标参数数据，使得该目标GPU可以保存该目标参数数据，该目标GPU可以用于处理待处理GPU任务，还可以用于处理与目标参数数据对应的其他GPU任务，这样，采用相同参数数据的任务可以通过同一GPU进行处理，实现参数数据复用，极大降低了数据初始化以及CPU与GPU间传输参数数据的开销，由此能够提高GPU的利用率。

可选地，该确定单元310具体用于：从该GPU集群中确定第一GPU和第二GPU，其中，该第一GPU和该第二GPU保存有相同的第一参数数据；确定该第一GPU为该目标GPU。

可选地，该发送单元320还用于：在确定该第一GPU为该目标GPU之后，向该第一GPU发送第一删除指令，该第一删除指令用于指示该第一GPU删除该第一参数数据。

可选地，该确定单元310具体用于：当该GPU集群中不存在保存有相同的第一参数数据的第一GPU和第二GPU时，从该GPU集群中确定第三GPU，其中，该第三GPU保存有第二参数数据，且该目标参数数据和该第二参数数据的大小之和不大于该第三GPU的内存大小；确定该第三GPU为该目标GPU，该目标GPU用于处理与该目标参数数据和该第三参数数据对应的GPU任务。

可选地，该第三GPU中未被处理的GPU任务被处理时所需时长小于或等于第一时长，且该待处理GPU任务被处理时所需时长小于或等于第二时长。

可选地，该确定单元310具体用于：当该GPU集群中不存在保存有相同的第一参数数据的第一GPU和第二GPU时，从该GPU集群中确定第四 GPU和第五GPU，该第四GPU中保存的第三参数数据和该第五GPU中保存的第四参数数据的大小之和不大于该第四GPU的内存；该发送单元320具体用于：向该第四GPU发送该第四参数数据，该第四GPU用于处理与该第三参数数据和该第四参数数据对应的GPU任务；该确定单元310具体用于：确定该第五GPU为该目标GPU。

可选地，该发送单元320具体用于：在确定该第五GPU为该目标GPU之后，向该第五GPU发送第二删除指令，该第二删除指令用于指示该第五GPU删除该第四参数数据。

可选地，该第四GPU中该第三参数数据对应的未被处理的GPU任务被处理时所需时长小于或等于第三时长，该第五GPU中该第四参数数据对应的未被处理的GPU任务被处理时所需时长小于或等于第四时长。

应理解，根据本发明实施例的GPU任务的分配装置300可对应于执行本发明实施例中的方法100和方法200，并且装置300中的各个单元的上述和其它操作和/或功能分别为了实现图1至图3中的各个方法的相应流程，为了简洁，在此不再赘述。

因此，本发明实施例的GPU任务的分配装置，通过在GPU集群中为待处理GPU任务确定目标GPU，向该目标GPU发送目标参数数据，该目标GPU保存该目标参数数据，以便于处理该目标参数数据对应的待处理GPU任务以及其他同类任务，这样，相同类型的任务可以通过同一GPU进行处理，实现参数数据复用，极大降低了数据初始化以及CPU与GPU间传输参数数据的开销，提升了GPU的使用效率。并且，可以通过动态调配已经保存参数数据的GPU，使得GPU保存的参数数据可以根据处理需要而变化，进一步提高了GPU的使用率和处理任务的灵活性。

图5示出了根据本发明实施例的GPU任务的分配装置400的示意性框图，如图5所示，该装置400包括：处理器410和收发接口420，处理器410和收发接口420相连，可选地，该装置400还包括存储器430，存储器430与处理器410相连，进一步可选地，该装置400包括总线系统440。其中，处理器410、存储器430和收发接口420可以通过总线系统440相连，该存储器430可以用于存储指令，该处理器410用于执行该存储器430存储的指令，以控制收发接口420发送信息或信号，

该处理器410用于：从GPU集群中为待处理GPU任务确定目标GPU，其中该GPU集群中包含至少两个GPU，该GPU集群中每个GPU保存有至少一个参数数据；通过该收发接口420向该目标GPU发送处理该待处理GPU任务时所需的目标参数数据，该目标GPU用于处理与该目标参数数据对应的GPU任务；通过该收发接口420将该待处理GPU分配给该目标GPU处理。

因此，本发明实施例的GPU任务的分配装置，通过在GPU集群中确定处理待处理GPU任务的目标GPU，并向该目标GPU发送处理该待处理GPU任务的目标参数数据，使得该目标GPU可以保存该目标参数数据，该目标GPU可以用于处理待处理GPU任务，还可以用于处理与目标参数数据对应的其他GPU任务，这样，采用相同参数数据的任务可以通过同一GPU进行处理，实现参数数据复用，极大降低了数据初始化以及CPU与GPU间传输参数数据的开销，由此能够提高GPU的利用率。

应理解，在本发明实施例中，该处理器410可以是CPU，该处理器410还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器430可以包括只读存储器和随机存取存储器，并向处理器410提供指令和数据。存储器430的一部分还可以包括非易失性随机存取存储器。例如，存储器430还可以存储设备类型的信息。

该总线系统440除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统440。

在实现过程中，上述方法的各步骤可以通过处理器410中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器430，处理器410读取存储器430中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

可选地，该处理器410用于：从该GPU集群中确定第一GPU和第二 GPU，其中，该第一GPU和该第二GPU保存有相同的第一参数数据；确定该第一GPU为该目标GPU。

可选地，该处理器410用于：通过收发接口420在确定该第一GPU为该目标GPU之后，向该第一GPU发送第一删除指令，该第一删除指令用于指示该第一GPU删除该第一参数数据。

可选地，该处理器410用于：当该GPU集群中不存在保存有相同的第一参数数据的第一GPU和第二GPU时，从该GPU集群中确定第三GPU，其中，该第三GPU保存有第二参数数据，且该目标参数数据和该第二参数数据的大小之和不大于该第三GPU的内存大小；确定该第三GPU为该目标GPU，该目标GPU用于处理与该目标参数数据和该第三参数数据对应的GPU任务。

可选地，该处理器410用于：当该GPU集群中不存在保存有相同的第一参数数据的第一GPU和第二GPU时，从该GPU集群中确定第四GPU和第五GPU，该第四GPU中保存的第三参数数据和该第五GPU中保存的第四参数数据的大小之和不大于该第四GPU的内存；通过收发接口420向该第四GPU发送该第四参数数据，该第四GPU用于处理与该第三参数数据和该第四参数数据对应的GPU任务；该处理器410用于：确定该第五GPU为该目标GPU。

可选地，该处理器410用于：通过收发接口420在确定该第五GPU为该目标GPU之后，向该第五GPU发送第二删除指令，该第二删除指令用于指示该第五GPU删除该第四参数数据。

应理解，根据本发明实施例的GPU任务的分配装置400可对应于本发明实施例中的装置300，并可以对应于执行根据本发明实施例的方法100和方法200中的相应主体，并且装置400中的各个模块的上述和其它操作和/或功能分别为了实现图1至图3中的各个方法的相应流程，为了简洁，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

一种图形处理器GPU任务的分配方法，其特征在于，包括：

从GPU集群中为待处理GPU任务确定目标GPU，其中所述GPU集群中包含至少两个GPU，所述GPU集群中每个GPU保存有至少一个参数数据；

向所述目标GPU发送处理所述待处理GPU任务时所需的目标参数数据，所述目标GPU用于处理与所述目标参数数据对应的GPU任务；

将所述待处理GPU分配给所述目标GPU处理。
根据权利要求1所述的方法，其特征在于，所述从GPU集群中为待处理GPU任务确定目标GPU，包括：

从所述GPU集群中确定第一GPU和第二GPU，其中，所述第一GPU和所述第二GPU保存有相同的第一参数数据；

确定所述第一GPU为所述目标GPU。
根据权利要求2所述的方法，其特征在于，所述确定所述第一GPU为所述目标GPU之后，所述方法还包括：

向所述第一GPU发送第一删除指令，所述第一删除指令用于指示所述第一GPU删除所述第一参数数据。
根据权利要求1所述的方法，其特征在于，当所述GPU集群中不存在保存有相同的第一参数数据的第一GPU和第二GPU时，所述从GPU集群中为待处理GPU任务确定目标GPU，包括：

从所述GPU集群中确定第三GPU，其中，所述第三GPU保存有第二参数数据，且所述目标参数数据和所述第二参数数据的大小之和不大于所述第三GPU的内存大小；

确定所述第三GPU为所述目标GPU，所述目标GPU用于处理与所述目标参数数据和所述第三参数数据对应的GPU任务。
根据权利要求4所述的方法，其特征在于，

所述第三GPU中未被处理的GPU任务被处理时所需时长小于或等于第一时长，且所述待处理GPU任务被处理时所需时长小于或等于第二时长。
根据权利要求1所述的方法，其特征在于，当所述GPU集群中不存在保存有相同的第一参数数据的第一GPU和第二GPU时，所述从GPU集群中为待处理GPU任务确定目标GPU，包括：

从所述GPU集群中确定第四GPU和第五GPU，所述第四GPU中保存的第三参数数据和所述第五GPU中保存的第四参数数据的大小之和不大于所述第四GPU的内存；

向所述第四GPU发送所述第四参数数据，所述第四GPU用于处理与所述第三参数数据和所述第四参数数据对应的GPU任务；

确定所述第五GPU为所述目标GPU。
根据权利要求6所述的方法，其特征在于，所述确定所述第五GPU为所述目标GPU之后，所述方法还包括：

向所述第五GPU发送第二删除指令，所述第二删除指令用于指示所述第五GPU删除所述第四参数数据。
根据权利要求6或7所述的方法，其特征在于，

所述第四GPU中所述第三参数数据对应的未被处理的GPU任务被处理时所需时长小于或等于第三时长，所述第五GPU中所述第四参数数据对应的未被处理的GPU任务被处理时所需时长小于或等于第四时长。
一种图形处理器GPU任务的分配装置，其特征在于，包括：

确定单元，用于从GPU集群中为待处理GPU任务确定目标GPU，其中所述GPU集群中包含至少两个GPU，所述GPU集群中每个GPU保存有至少一个参数数据；

发送单元，用于向所述目标GPU发送处理所述待处理GPU任务时所需的目标参数数据，所述目标GPU用于处理与所述目标参数数据对应的GPU任务；

所述发送单元还用于：将所述待处理GPU分配给所述目标GPU处理。
根据权利要求9所述的装置，其特征在于，所述确定单元具体用于：

从所述GPU集群中确定第一GPU和第二GPU，其中，所述第一GPU和所述第二GPU保存有相同的第一参数数据；

确定所述第一GPU为所述目标GPU。
根据权利要求10所述的装置，其特征在于，所述发送单元还用于：

在确定所述第一GPU为所述目标GPU之后，向所述第一GPU发送第一删除指令，所述第一删除指令用于指示所述第一GPU删除所述第一参数数据。
根据权利要求9所述的装置，其特征在于，所述确定单元具体用于：

当所述GPU集群中不存在保存有相同的第一参数数据的第一GPU和第二GPU时，从所述GPU集群中确定第三GPU，其中，所述第三GPU保存有第二参数数据，且所述目标参数数据和所述第二参数数据的大小之和不大于所述第三GPU的内存大小；

确定所述第三GPU为所述目标GPU，所述目标GPU用于处理与所述目标参数数据和所述第三参数数据对应的GPU任务。
根据权利要求12所述的装置，其特征在于，

所述第三GPU中未被处理的GPU任务被处理时所需时长小于或等于第一时长，且所述待处理GPU任务被处理时所需时长小于或等于第二时长。
根据权利要求9所述的装置，其特征在于，所述确定单元具体用于：

当所述GPU集群中不存在保存有相同的第一参数数据的第一GPU和第二GPU时，从所述GPU集群中确定第四GPU和第五GPU，所述第四GPU中保存的第三参数数据和所述第五GPU中保存的第四参数数据的大小之和不大于所述第四GPU的内存；

所述发送单元具体用于：

向所述第四GPU发送所述第四参数数据，所述第四GPU用于处理与所述第三参数数据和所述第四参数数据对应的GPU任务；

所述确定单元具体用于：

确定所述第五GPU为所述目标GPU。
根据权利要求14所述的装置，其特征在于，所述发送单元具体用于：

在确定所述第五GPU为所述目标GPU之后，向所述第五GPU发送第二删除指令，所述第二删除指令用于指示所述第五GPU删除所述第四参数数据。
根据权利要求14或15所述的装置，其特征在于，

所述第四GPU中所述第三参数数据对应的未被处理的GPU任务被处理时所需时长小于或等于第三时长，所述第五GPU中所述第四参数数据对应的未被处理的GPU任务被处理时所需时长小于或等于第四时长。
一种图形处理器GPU任务的分配装置，其特征在于，包括：处理器、存储器和总线；

所述存储器用于存储执行指令，所述处理器与所述存储器通过所述总线连接，当所述存储控制器运行时，所述处理器执行所述存储器存储的所述执行指令，以使所述装置执行权利要求1-8任一项所述的方法。