WO2015176689A1

WO2015176689A1 - 一种数据处理的方法及装置

Info

Publication number: WO2015176689A1
Application number: PCT/CN2015/079633
Authority: WO
Inventors: 崔慧敏; 杨文森; 谢睿
Original assignee: 华为技术有限公司
Priority date: 2014-05-23
Filing date: 2015-05-23
Publication date: 2015-11-26
Also published as: CN105094981B; CN105094981A

Abstract

本发明实施例公开了一种数据处理的方法及装置，涉及通信领域，用以提高数据处理的效率。所述方法，包括：获取待处理任务以及与待处理任务对应的至少一个待处理的数据；为待处理任务分配图形处理器GPU；将待处理任务对应的至少一个待处理数据转换为数据集合类型的数据；将数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块；将生成的至少一个数据块发送给所述被分配的GPU，以使得GPU根据待处理任务对至少一个数据块进行计算处理。本发明适用于触发加速部件处理数据的场景。

Description

一种数据处理的方法及装置

本申请要求于2014年5月23日提交中国专利局、申请号为201410223152.8、发明名称为“一种数据处理的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信领域，尤其涉及一种数据处理的方法及装置。

背景技术

随着科学技术和互联网的发展，现代社会的信息量迅速增长，这些信息里积累着大量的数据，这些数据中将会有部分数据存储在云平台中或借助云平台进行处理，借助Hadoop可以高效地存储、管理和分析这些存储在云平台中的数据。

Hadoop是一个能够对大量数据进行分布式处理的软件架构，其最底部是一个分布式文件系统，通过采用分布式存储方式来进行数据存储，提高了数据的读写速度，也扩大了存储容量。分布式文件系统的上一层是映射简化(MapReduce)引擎，通过MapReduce引擎对分布式文件系统中的数据进行整合，可以保证分析和处理数据的高效性，正是由于Hadoop突出的优势，其在许多领域中被广泛应用。但是在具有如图形处理器(Graphics Processing Unit，GPU)等加速部件的集群环境中，由于现有的Hadoop的MapReduce引擎为用户提供的<key，value>编程接口的局限性，使得Hadoop的MapReduce引擎无法触发已有的加速部件进行数据的处理，这样也就无法利用加速部件强大的计算能力，使得处理数据的效率得不到提高。

发明内容

本发明的实施例提供一种数据处理的方法及装置，用以提高数据处理的效率。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供了一种数据处理的方法，包括：获取待处理任务以及与所述待处理任务对应的至少一个待处理的数据；为所述待处理任务分配图形处理器GPU；将所述待处理任务对应的所述至少一个待处理数据转换为数据集合类型的数据；将所述数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块；将所述生成的至少一个数据块发送给所述被分配的GPU，以使得所述GPU根据所述待处理任务对所述至少一个数据块进行计算处理。

在第一方面的第一种可能的实现方式中，在为所述待处理任务分配图形处理器GPU之前还包括：获取预先配置的资源信息表；所述资源信息表用于记录GPU的数量以及所述GPU的使用情况信息。

结合第一方面的第一种可能的实现方式中，在第一方面的第二种可能的实现方式中，在所述获取资源信息表之后，还包括：确定所述待处理任务需要的GPU的使用数量；所述为待处理任务分配图形处理器GPU包括：根据所述资源信息表中GPU的数量及所述GPU的使用情况信息，确定未使用的GPU的数量满足所述待处理任务需要的GPU的使用数量时，为所述待处理任务分配GPU。

结合第一方面第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述资源信息表还用于记录中央处理器CPU的数量以及所述CPU的使用情况信息；在所述确定所述待处理任务需要的GPU的使用数量之后，还包括：确定所述资源信息表中未使用的GPU的数量不满足待处理任务需要的GPU的使用数量时，为所述待处理任务分配CPU。

结合第一方面，或第一方面的第一至第三任一种可能的实现方式，在第一方面的第四种可能的实现方式中，所述将所述待处理任务对应的所述至少一个待处理数据转换为数据集合类型的数据包括：确定所述数据集合类型的数据大小；根据所述数据集合类型的数据大小，将所述至少一个待处理数据分配至至少一个数据集合中；所述数据集合中包含的待处理数据的大小不大于所述数据集合类型的数据大小。

结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，所述根据所述数据集合类型的数据大小，将所述至少一个待处理数据分配至至少一个数据集合中包括：在所述待处理任务对应的所述至少一个待处理数据的数据类型为变长数据类型时，根据所述数据集合类型的数据大小，将所述至少一个待处理数据分配至至少一个数据集合中，且记录所述至少一个待处理数据在所述至少一个数据集合中的位置信息，以使得所述GPU根据所述位置信息，获取所述待处理数据；所述位置信息用于记录变长类型的待处理数据在数据集合中的位置相关信息。

结合第一方面，或第一方面的第一至第五任一种可能的实现方式，在第一方面的第六种可能的实现方式中，所述将所述数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块包括：利用预设的解析函数，将所述数据集合类型中的数据的数据格式转换为所述GPU进行计算处理时所需的数据格式；将转换数据格式后的数据生成至少一个数据块。

结合第一方面，或第一方面的第一至第六任一种可能的实现方式，在第一方面的第七种可能的实现方式中，所述将所述生成的至少一个数据块发送给所述被分配的GPU包括：将所述生成的至少一个数据块存储至所述被分配的GPU的缓存区中。

结合第一方面，或第一方面的第一至第七六任一种可能的实现方式，在第一方面的第八种可能的实现方式中，在所述将所述生成的至少一个数据块发送给所述被分配的GPU之后，还包括：接收所述被分配的GPU发送的计算处理结果，并对所述计算处理结果进行分区、排序及合并处理。

第二方面，本发明实施例提供了一种数据处理的装置，包括：获取单元，用于获取待处理任务以及和所述待处理任务对应的至少一个待处理的数据；分配单元，用于为待处理任务分配图形处理器GPU；转换单元，用于将所述待处理任务对应的所述至少一个待处理数据转换为数据集合类型的数据；解析单元，用于将所述转换单元转换的所述数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块；发送单元，用于将所述解析单元生成的所述至少一个数据块发送给所述分配单元分配的GPU，以使得所述GPU根据所述待处理任务对所述至少一个数据块进行计算处理。

在第二方面的第一种可能的实现方式中，所述获取单元，还用于获取预先配置的资源信息表；所述资源信息表用于记录GPU的数量以及所述GPU的使用情况信息。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述装置还包括：确定单元，用于确定所述待处理任务需要的GPU的使用数量；所述分配单元，具体用于根据所述获取单元获取的资源信息表中GPU的数量及所述GPU的使用情况信息，确定未使用的GPU的数量满足所述确定单元确定的所述待处理任务需要的GPU的使用数量时，为所述待处理任务分配GPU。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述资源信息表还用于记录中央处理器CPU的数量以及所述CPU的使用情况信息；所述分配单元，还用于确定未使用的GPU的数量不满足所述确定单元确定的所述待处理任务需要的GPU的使用数量时，为所述待处理任务分配CPU。

结合第二方面，或第二方面的第第一至第三任一种可能的实现方式，在第二方面的第四种可能的实现方式中，所述转换单元，具体用于确定所述数据集合类型的数据的大小；根据所述数据集合类型的数据的大小，将所述至少一个待处理数据分配至至少一个数据集合中；所述数据集合中包含的待处理数据的大小不大于所述数据集合类型的数据的大小。

结合第二方面的第三种可能的实现方式，在第二方面的第五种可能的实现方式中，所述转换单元，具体用于在所述待处理任务对应的所述至少一个待处理数据的数据类型为变长数据类型时，根据所述数据集合类型的数据的大小，将所述至少一个待处理数据分配至至少一个数据集合中，且记录所述至少一个待处理数据在所述至少一个数据集合中的位置信息，以使得所述GPU根据所述位置信息，获取所述待处理数据；所述位置信息用于记录变长类型的待处理数据在数据集合中的位置相关信息。

结合第二方面，或第二方面的第第一至第五任一种可能的实现方式，在第二方面的第六种可能的实现方式中，所述解析单元，具体用于利用预设的解析函数，将所述数据集合类型中的数据的数据格式转换为所述GPU进行计算处理时所需的数据格式；将转换数据格式后的数据生成至少一个数据块。

结合第二方面，或第二方面的第第一至第六任一种可能的实现方式，在第二方面的第七种可能的实现方式中，所述发送单元，具体用于将所述生成的至少一个数据块发送给所述被分配的GPU的缓存区中。

结合第二方面，或第二方面的第第一至第七任一种可能的实现方式，在第二方面的第八种可能的实现方式中，所述装置还包括：接收单元，用于接收所述GPU发送的计算处理结果；处理单元，用于对所述计算处理结果进行分区、排序及合并处理。

第三方面，本发明实施例提供了一种数据处理的装置，包括：处理器，存储器，通信接口，和总线，其中，所述处理器、所述存储器和所述通信接口通过所述总线通信；所述存储器，用于存放程序；所述处理器，用于执行所述存储器存储的执行指令；所述通信接口，用于接收待处理任务以及与所述待处理任务对应的至少一个待处理的数据；当所述数据处理装置运行时，处理器运行程序，以执行以下指令：获取待处理任务以及和所述待处理任务对应的至少一个待处理的数据；为所述待处理任务分配图形处理器GPU；将所述待处理任务对应的所述至少一个待处理数据转换为数据集合类型的数据；将所述数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块；将所述生成的至少一个数据块发送给所述被分配的GPU，以使得所述GPU根据所述待处理任务对所述至少一个数据块进行计算处理。

本发明实施例提供了一种数据处理的方法及装置，数据处理的装置获取待处理任务及待处理任务对应的至少一个待处理数据，为此待处理任务分配GPU；将待处理任务对应的至少一个待处理数据转换为数据集合类型的数据，并将数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块，将生成的至少一个数据块发送至被分配的GPU中，以使得GPU进行计算处理。这样，数据处理的装置在获取到待处理任务及其对应的至少一个待处理数据后，可以为其分配GPU，并将此待处理任务对应的待处理数据发送至被分配的GPU，触发GPU对待处理数据进行计算处理，提高了处理数据的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据处理的方法流程图；

图2为本发明实施例提供的另一种数据处理的方法流程图；

图3为本发明实施例提供的一种数据处理的装置的功能示意图；

图4为本发明实施例提供的另一种数据处理的转置的功能示意图；

图5为本发明实施例提供的另一种数据处理的转置的功能示意图；

图6为本发明实施例提供的一种数据处理的转置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种数据处理的方法，如图1所示，该方法可以包括：

101、获取待处理任务及所述待处理任务对应的至少一个待处理的数据。

具体的，数据处理的装置执行某个应用时，可以获取此应用对应的待处理任务。并且根据此待处理任务在分布式文件系统中获取到此待处理任务对应的至少一个待处理数据。

需要说明的是，数据处理的装置可以运行在Hadoop系统中。此时，数据处理的装置某个应用运行时，可以在Hadoop系统中获取待处理任务，并根据此待处理任务在Hadoop系统中的分布式文件系统获取到其对应的至少一个待处理数据。

需要说明的是，数据处理的装置还可以运行在其他任何需要将数据发送至GPU，由GPU进行计算处理的系统，本发明对此不做限制。

102、为所述待处理任务分配图形处理器GPU。

具体的，数据处理的装置在获取待处理任务的至少一个待处理数据后，可以根据此待处理任务的需求确定此待处理任务的对应的至少一个待处理数据是否由GPU(Graphic Processing Unit，图形处理器)处理。若数据处理的装置确定此待处理任务需要GPU处理其对应的至少一个待处理数据，则数据处理的装置可以为此待处理任务分配GPU。

需要说明的是，GPU在集群系统中无法作为独立部件存在，必须作为加速部件配置在数据处理的装置上，因此对GPU计算资源的管理必须通过数据处理的装置实现。这样，在数据处理的装置中有两种计算资源，分别为：CPU (Central Processing Unit，中央处理器)和GPU。

103、将所述待处理任务对应的所述至少一个待处理数据转换为数据集合类型的数据。

具体的，数据处理的装置为待处理任务分配完GPU后，可以确定所述数据集合类型的数据大小。并根据所述数据集合类型的数据大小，将所述至少一个待处理数据分配至至少一个数据集合中。

其中，所述数据集合中包含的待处理数据的大小不大于所述数据集合类型的数据大小。

也就是说，数据处理的装置在待处理任务分配完GPU后，需要将至少一个待处理数据由单个数据转换为一组数据，即为转换为数据集合(Data Set)类型的数据，此时在确定出数据集合类型的数据大小后，根据此数据集合类型的数据大小将所述至少一个待处理数据分配至至少一个数据集合中，从而可以以一个数据集合为单位进行后续的处理。

进一步的，所述至少一个待处理数据的数据类型可以是等长数据类型，也可以是变长数据类型。

在所述至少一个待处理数据的数据类型是等长数据类型时，根据所述数据集合类型的数据大小，可以将至少一个待处理数据的数据直接分配至至少一个数据集合中。由于每个数据的大小是一定的，则在数据集合中的位置也是一定的，所以无需记录等长数据类型的至少一个待处理数据在数据集合中的位置。

在所述待处理任务对应的所述至少一个待处理数据的数据类型为变长数据类型时，根据所述数据集合类型的数据大小，将所述至少一个待处理数据分配至至少一个数据集合中，且记录所述至少一个待处理数据在所述至少一个数据集合中的位置信息，以使得所述GPU根据所述位置信息，获取所述待处理数据。

其中，所述位置信息用于记录变长类型的待处理数据在数据集合中的位置相关信息。

也就是说，在所述待处理任务对应的所述至少一个待处理数据的数据类型为变长数据类型时，在根据所述数据集合类型的数据大小，将所述至少一个待处理数据分配至至少一个数据集合中时，由于每个待处理数据的大小不一致，需要在将至少一个待处理数据分配至至少一个数据集合时，记录每个待处理数据在数据集合中的位置信息，从而将确定GPU在进行数据处理时，可以根据此位置信息获取到完整的待处理数据。

可选的，作为举例，数据集合可以为缓存数据区。数据处理的装置可以将至少一个待处理数据存放至缓存数据区中，从而实现将所述待处理任务对应的所述至少一个待处理数据转换为数据集合类型的数据。

104、将所述数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块。

具体的，数据处理的装置，在将所述至少一个待处理数据转换为数据集合类型的数据后，将此数据集合类型的数据进行解析，从而可以将数据集合类型的数据转换为GPU进行计算处理时所需的数据类型，并利用解析后的数据集合类型的数据生成至少一个数据块。

进一步的，数据处理的装置利用预设的解析函数，将所述数据集合类型中的数据的数据格式转换为所述GPU进行计算处理时所需的数据格式；将转换数据格式后的数据生成至少一个数据块。

也就是说，数据处理的装置以数据集合为单位，将数据集合中的数据利用预设的解析函数将其数据类型转换为GPU进行计算处理时所需的数据类型。并将转换数据格式后的至少一个数据集合生成至少一个数据块。

需要说明的是，用户在设置待处理任务由GPU执行时，需要事先确定出由GPU执行怎样的计算，此时可以根据GPU执行怎样的计算确定出其解析函数。即为，GPU执行不同的计算，预设的解析函数是不同的。示例性的，若需要由GPU对待处理数据进行逻辑运算，此时，预设的解析函数可以是将待处理数据的数据格式转换为进行逻辑运算所需的数据格式。例如，解析函数是将将数据格式为文本类型或二进制类型的待处理数据，转换为可以进行逻辑运算的整形数据类型的数据。

105、将所述生成的至少一个数据块发送给所述被分配的GPU，以使得所述GPU根据所述待处理任务对所述至少一个数据块进行计算处理。

具体的，数据处理的装置在生成至少一个数据块后，将此数据块通过GPU的数据接口发送至被分配的GPU中。

进一步的，数据处理的装置可以将所述生成的至少一个数据块存储至所述被分配的GPU的缓存区中。

本发明实施例提供了一种数据处理的方法，数据处理的装置获取待处理任务及待处理任务对应的至少一个待处理数据，为此待处理任务分配GPU；将待处理任务对应的至少一个待处理数据转换为数据集合类型的数据，并将数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块，将生成的至少一个数据块发送至被分配的GPU中，以使得GPU进行计算处理。这样，数据处理的装置在获取到待处理任务及其对应的至少一个待处理数据后，可以为其分配GPU，并将此待处理任务对应的待处理数据发送至被分配的GPU，触发GPU对待处理数据进行计算处理，提高了处理数据的效率。

进一步的，上述过程并不要求对待处理任务的对应的至少一个待处理数据的数据格式为等长数据类型，提高了系统的性能。在运行过程中无需用户手动参与，进一步提高了处理数据的效率。

本发明实施例提供了一种数据处理的方法，如图2所示，包括：

201、数据处理的装置获取待处理任务以及与所述待处理任务对应的至少一个待处理的数据。

具体的，可参考步骤101，在此不再赘述。

202、数据处理的装置获取预先配置的资源信息表。

其中，所述资源信息表用于记录GPU的数量以及所述GPU的使用情况信息。

具体的，数据处理的装置首次获取资源信息表时，可以从初始集群文件系统中获取。数据处理的装置在首次获取资源信息表后，可以将此资源信息表存储中缓存中，以便之后获取。

进一步的，所述资源信息表还用于记录中央处理器CPU的数量以及所述CPU的使用情况信息。

需要说明的是，本发明对步骤201与步骤202间的顺序不做限制。可以先执行步骤201，在执行步骤202，也可先执行步骤202，在执行步骤201，还可同时执行步骤201，202。在图示中只表示出一种。

203、数据处理的装置确定所述待处理任务需要的GPU的使用数量。

具体的，数据处理的装置在获取到待处理任务后，待处理任务中携带了其所需的资源信息。数据处理的装置可以根据此资源信息获知所述待处理任务需要的GPU的使用数量。

需要说明的是，待处理任务还可用其他方式将其所需的GPU的使用数量通知数据处理的装置，本发明对此不做限制。

204、数据处理的装置确定是否为所述待处理任务分配GPU。

具体的，数据处理的装置在获知待处理任务所需的GPU数量后，根据资源信息表可以确定出未使用的GPU数据，从而可以确定是否为所述待处理任务分配GPU。

进一步的，数据处理的装置根据所述资源信息表中GPU的数量及所述GPU的使用情况信息，确定未使用的GPU的数量是否满足所述待处理任务需要的GPU的使用数量，从而确定是否为所述待处理任务分配GPU。确定未使用的GPU的数量满足所述待处理任务需要的GPU的使用数量时，数据处理的装置确定为所述待处理任务分配GPU。

确定所述资源信息表中未使用的GPU的数量不满足待处理任务需要的GPU的使用数量时，数据处理的装置确定不为待处理任务分配GPU，可以为所述待处理任务分配CPU。

也就是说，数据处理的装置根据所述资源信息表中GPU的数量及所述GPU的使用情况信息可以确定未使用的GPU的数量，将所述未使用GPU的数量与待处理任务所需的GPU的数量进行比较，在所述未使用GPU的数量大于等于待处理任务所需的GPU的数量时，数据处理的装置确定未使用的GPU的数量满足所述待处理任务需要的GPU的使用数量，此时数据处理的装置确定为待处理任务分配GPU。在所述未使用GPU的数量小于待处理任务所需的GPU的数量时，数据处理的装置确定未使用的GPU的数量不满足所述待处理任务需要的GPU的使用数量，此时数据处理的装置确定不为待处理任务分配GPU，可以为待处理任务分配CPU。

需要说明的是，数据处理的装置根据确定的结果不同，下面执行的不同。若确定为待处理任务分配GPU，则执行步骤205a，206-209。若确定不为待处理任务分配GPU，则执行步骤205b。

205a、确定未使用的GPU的数量满足所述待处理任务需要的GPU的使用数量时，数据处理的装置为所述待处理任务分配GPU。

具体的，数据处理的装置可以根据待处理任务所需的GPU的数量为其分配GPU，具体可参考步骤102，在此不再赘述。

205b、确定所述资源信息表中未使用的GPU的数量不满足待处理任务需要的GPU的使用数量时，数据处理的装置为所述待处理任务分配CPU。

具体的，数据处理的装置在确定所述资源信息表中未使用的GPU的数量不满足待处理任务需要的GPU的使用数量时，由于不能为其分配GPU进行计算，可以为此待处理任务分配CPU，通过CPU进行相应的计算处理。

206、数据处理的装置将所述待处理任务对应的所述至少一个待处理数据转换为数据集合类型的数据。

具体的，可参考步骤103，在此不再赘述。

207、数据处理的装置将所述数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块。

具体的，可参考步骤104，在此不再赘述。

208、数据处理的装置将所述生成的至少一个数据块发送给所述被分配的GPU，以使得所述GPU根据所述待处理任务对所述至少一个数据块进行计算处理。

具体的，可参考步骤105，在此不再赘述。

209、数据处理的装置接收所述被分配的GPU发送的计算处理结果，并对所述计算处理结果进行分区、排序及合并处理。

具体的，数据处理的装置在接收到所述被分配的GPU发送的计算处理结果后，可以将所述计算处理结果进行分区、排序及合并处理，即分区为将关键字相同的计算结果划分到同一个组中。针对分组后的计算结果，根据各组对应的关键字，对每组的计算结果进行排序。将相同关键字的计算结果进行合并处理。

本发明实施例提供了一种数据处理的方法，数据处理的装置获取待处理任务及待处理任务对应的至少一个待处理数据，为此待处理任务分配GPU；将待处理任务对应的至少一个待处理数据转换为数据集合类型的数据，并将数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块，将生成的至少一个数据块发送至被分配的GPU中，以使得GPU进行计算处理。这样，数据处理的装置在获取到待处理任务及其对应的至少一个待处理数据后，可以为其分配GPU，并将此待处理任务对应的待处理数据发送至被分配的GPU，触发GPU对待处理数据进行计算处理，提高了处理数据的效率。并且上述过程并不要求对待处理任务的对应的至少一个待处理数据的数据格式为等长数据类型，提高了系统的性能。在运行过程中无需用户手动参与，进一步提高了处理数据的效率。

本发明实施例提供了一种数据处理的装置，如图3所示，包括：

获取单元301，用于获取待处理任务以及和所述待处理任务对应的至少一个待处理的数据。

分配单元302，用于为待处理任务分配图形处理器GPU。

具体的，分配单元302可以根据此待处理任务的需求确定此待处理任务的对应的至少一个待处理数据是否由GPU处理。若此待处理任务需要GPU处理其对应的至少一个待处理数据，则分配单元302可以为此待处理任务分配GPU。

转换单元303，用于将所述待处理任务对应的所述至少一个待处理数据转换为数据集合类型的数据。

具体的，所述转换单元303，具体用于确定所述数据集合类型的数据的大小；根据所述数据集合类型的数据的大小，将所述至少一个待处理数据分配至至少一个数据集合中。

其中，所述数据集合中包含的待处理数据的大小不大于所述数据集合类型的数据的大小。

进一步的，所述转换单元303，具体用于在所述待处理任务对应的所述至少一个待处理数据的数据类型为变长数据类型时，根据所述数据集合类型的数据的大小，将所述至少一个待处理数据分配至至少一个数据集合中，且记录所述至少一个待处理数据在所述至少一个数据集合中的位置信息，以使得所述GPU根据所述位置信息，获取所述待处理数据。

所述转换单元303，具体用于在所述至少一个待处理数据的数据类型是等长数据类型时，根据所述数据集合类型的数据大小，可以将至少一个待处理数据的数据直接分配至至少一个数据集合中。由于每个数据的大小是一定的，则在数据集合中的位置也是一定的，所以无需记录等长数据类型的至少一个待处理数据在数据集合中的位置。

解析单元304，用于将所述转换单元303转换的所述数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块。

具体的，所述解析单元304，具体用于利用预设的解析函数，将所述数据集合类型中的数据的数据格式转换为所述GPU进行计算处理时所需的数据格式。将转换数据格式后的数据生成至少一个数据块。

发送单元305，用于将所述解析单元304生成的所述至少一个数据块发送给所述分配单元分配的GPU，以使得所述GPU根据所述待处理任务对所述至少一个数据块进行计算处理。

具体的，所述发送单元305，具体用于将所述生成的至少一个数据块发送给所述被分配的GPU的缓存区中。

进一步的，所述获取单元301，还用于获取预先配置的资源信息表。

所述数据处理的装置，如图4所示，还包括：

确定单元306，用于确定所述待处理任务需要的GPU的使用数量。

此时，所述分配单元302，具体用于根据所述获取单元301获取的资源信息表中GPU的数量及所述GPU的使用情况信息，确定未使用的GPU的数量满足所述确定单元306确定的所述待处理任务需要的GPU的使用数量时，为所述待处理任务分配GPU。

进一步的，所述分配单元302，还用于确定未使用的GPU的数量不满足所述确定单元306确定的所述待处理任务需要的GPU的使用数量时，为所述待处理任务分配CPU。

进一步的，所述数据处理的装置，如图5所示，还包括：

接收单元307，用于接收所述被分配的GPU发送的计算处理结果。

处理单元308，用于对所述计算处理结果进行分区、排序及合并处理。

具体的，在所述接收单元307接收到所述被分配的GPU发送的计算处理结果后，处理单元308可以将所述计算处理结果进行分区、排序及合并处理，即分区为将关键字相同的计算结果划分到同一个组中。针对分组后的计算结果，根据各组对应的关键字，对每组的计算结果进行排序。将相同关键字的计算结果进行合并处理。

本发明实施例提供了一种数据处理的转置，数据处理的装置获取待处理任务及待处理任务对应的至少一个待处理数据，为此待处理任务分配GPU；将待处理任务对应的至少一个待处理数据转换为数据集合类型的数据，并将数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块，将生成的至少一个数据块发送至被分配的GPU中，以使得GPU进行计算处理。这样，数据处理的装置在获取到待处理任务及其对应的至少一个待处理数据后，可以为其分配GPU，并将此待处理任务对应的待处理数据发送至被分配的GPU，触发GPU对待处理数据进行计算处理，提高了处理数据的效率。并且上述过程并不要求对待处理任务的对应的至少一个待处理数据的数据格式为等长数据类型，提高了系统的性能。在运行过程中无需用户手动参与，进一步提高了处理数据的效率。

本发明实施例提供了一种数据处理的装置，如图6所示，包括：处理器601，存储器602，通信接口603，和总线604，其中，所述处理器601、所述存储器602和所述通信接口603通过所述总线604通信。

所述存储器602，用于存放程序。

所述处理器601，用于执行所述存储器存储的执行指令。

所述通信接口603，用于接收待处理任务以及与所述待处理任务对应的至少一个待处理的数据，

当所述数据处理装置运行时，所述处理器601运行程序，以执行以下指令：

所述处理器601，用于获取待处理任务以及和所述待处理任务对应的至少一个待处理的数据。

所述处理器601，还用于为所述待处理任务分配图形处理器GPU。

具体的，处理器601可以根据此待处理任务的需求确定此待处理任务的对应的至少一个待处理数据是否由GPU处理。若此待处理任务需要GPU处理其对应的至少一个待处理数据，则处理器601可以为此待处理任务分配GPU。

所述处理器601，还用于将所述待处理任务对应的所述至少一个待处理数据转换为数据集合类型的数据。

具体的，处理器601具体用于确定所述数据集合类型的数据的大小；根据所述数据集合类型的数据的大小，将所述至少一个待处理数据分配至至少一个数据集合中。

进一步的，所述处理器601，具体用于在所述待处理任务对应的所述至少一个待处理数据的数据类型为变长数据类型时，根据所述数据集合类型的数据的大小，将所述至少一个待处理数据分配至至少一个数据集合中，且记录所述至少一个待处理数据在所述至少一个数据集合中的位置信息，以使得所述GPU根据所述位置信息，获取所述待处理数据。

所述处理器601，具体用于在所述至少一个待处理数据的数据类型是等长数据类型时，根据所述数据集合类型的数据大小，可以将至少一个待处理数据的数据直接分配至至少一个数据集合中。由于每个数据的大小是一定的，则在数据集合中的位置也是一定的，所以无需记录等长数据类型的至少一个待处理数据在数据集合中的位置。

所述处理器601，还用于将所述数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块。

具体的，处理器601，具体用于利用预设的解析函数，将所述数据集合类型中的数据的数据格式转换为所述GPU进行计算处理时所需的数据格式。将转换数据格式后的数据生成至少一个数据块。

所述处理器601，还用于将所述生成的至少一个数据块发送给所述被分配的GPU，以使得所述GPU根据所述待处理任务对所述至少一个数据块进行计算处理。

具体的，所述处理器601，具体用于将所述生成的至少一个数据块发送给所述被分配的GPU的缓存区中。

进一步的，所述处理器601，还用于获取预先配置的资源信息表。

所述处理器601，还用于确定所述待处理任务需要的GPU的使用数量。

此时，所述处理器601，用于为所述待处理任务分配图形处理器GPU具体为：

所述处理器601，具体用于根据所述资源信息表中GPU的数量及所述GPU的使用情况信息，确定未使用的GPU的数量满足所述待处理任务需要的GPU的使用数量时，为所述待处理任务分配GPU。

进一步的，所述处理器601，还用于确定未使用的GPU的数量不满足所述确定单元306确定的所述待处理任务需要的GPU的使用数量时，为所述待处理任务分配CPU。

进一步的，所述通信接口603，还用于接收所述被分配的GPU发送的计算处理结果。

所述处理器601，还用于对所述计算处理结果进行分区、排序及合并处理。

具体的，在所述通信接口603接收到所述被分配的GPU发送的计算处理结果后，处理器601可以将所述计算处理结果进行分区、排序及合并处理，即分区为将关键字相同的计算结果划分到同一个组中。针对分组后的计算结果，根据各组对应的关键字，对每组的计算结果进行排序。将相同关键字的计算结果进行合并处理。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种数据处理的方法，其特征在于，所述方法包括：

获取待处理任务以及与所述待处理任务对应的至少一个待处理的数据；

为所述待处理任务分配图形处理器GPU；

将所述待处理任务对应的所述至少一个待处理数据转换为数据集合类型的数据；

将所述数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块；

将所述生成的至少一个数据块发送给所述被分配的GPU，以使得所述GPU根据所述待处理任务对所述至少一个数据块进行计算处理。
根据权利要求1所述的方法，其特征在于，在为所述待处理任务分配图形处理器GPU之前还包括：

获取预先配置的资源信息表；所述资源信息表用于记录GPU的数量以及所述GPU的使用情况信息。
根据权利要求2所述的方法，其特征在于，在所述获取资源信息表之后，还包括：确定所述待处理任务需要的GPU的使用数量；

所述为待处理任务分配图形处理器GPU包括：

根据所述资源信息表中GPU的数量及所述GPU的使用情况信息，确定未使用的GPU的数量满足所述待处理任务需要的GPU的使用数量时，为所述待处理任务分配GPU。
根据权利要求3所述的方法，其特征在于，

所述资源信息表还用于记录中央处理器CPU的数量以及所述CPU的使用情况信息；

在所述确定所述待处理任务需要的GPU的使用数量之后，还包括：

确定所述资源信息表中未使用的GPU的数量不满足待处理任务需要的GPU的使用数量时，为所述待处理任务分配CPU。
根据权利要求1-4任一项所述的方法，其特征在于，

所述将所述待处理任务对应的所述至少一个待处理数据转换为数据集合类型的数据包括：

确定所述数据集合类型的数据大小；

根据所述数据集合类型的数据大小，将所述至少一个待处理数据分配至至少一个数据集合中；所述数据集合中包含的待处理数据的大小不大于所述数据集合类型的数据大小。
根据权利要求5所述的方法，其特征在于，所述根据所述数据集合类型的数据大小，将所述至少一个待处理数据分配至至少一个数据集合中包括：

在所述待处理任务对应的所述至少一个待处理数据的数据类型为变长数据类型时，根据所述数据集合类型的数据大小，将所述至少一个待处理数据分配至至少一个数据集合中，且记录所述至少一个待处理数据在所述至少一个数据集合中的位置信息，以使得所述GPU根据所述位置信息，获取所述待处理数据；所述位置信息用于记录变长类型的待处理数据在数据集合中的位置相关信息。
根据权利要求1-6任一项所述的方法，其特征在于，所述将所述数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块包括：

利用预设的解析函数，将所述数据集合类型中的数据的数据格式转换为所述GPU进行计算处理时所需的数据格式；

将转换数据格式后的数据生成至少一个数据块。
根据权利要求1-7任一项所述的方法，其特征在于，所述将所述生成的至少一个数据块发送给所述被分配的GPU包括：

将所述生成的至少一个数据块存储至所述被分配的GPU的缓存区中。
根据权利要求1-8任一项所述的方法，其特征在于，在所述将所述生成的至少一个数据块发送给所述被分配的GPU之后，还包括：

接收所述被分配的GPU发送的计算处理结果，并对所述计算处理结果进行分区、排序及合并处理。
一种数据处理的装置，其特征在于，包括：

获取单元，用于获取待处理任务以及和所述待处理任务对应的至少一个待处理的数据；

分配单元，用于为待处理任务分配图形处理器GPU；

转换单元，用于将所述待处理任务对应的所述至少一个待处理数据转换为数据集合类型的数据；

解析单元，用于将所述转换单元转换的所述数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块；

发送单元，用于将所述解析单元生成的所述至少一个数据块发送给所述分配单元分配的GPU，以使得所述GPU根据所述待处理任务对所述至少一个数据块进行计算处理。
根据权利要求10所述的装置，其特征在于，

所述获取单元，还用于获取预先配置的资源信息表；所述资源信息表用于记录GPU的数量以及所述GPU的使用情况信息。
根据权利要求11所述的装置，其特征在于，所述装置还包括：

确定单元，用于确定所述待处理任务需要的GPU的使用数量；

所述分配单元，具体用于根据所述获取单元获取的资源信息表中GPU的数量及所述GPU的使用情况信息，确定未使用的GPU的数量满足所述确定单元确定的所述待处理任务需要的GPU的使用数量时，为所述待处理任务分配GPU。
根据权利要求12所述的装置，其特征在于，所述资源信息表还用于记录中央处理器CPU的数量以及所述CPU的使用情况信息；

所述分配单元，还用于确定未使用的GPU的数量不满足所述确定单元确定的所述待处理任务需要的GPU的使用数量时，为所述待处理任务分配CPU。
根据权利要求10-13任一项所述的装置，其特征在于，

所述转换单元，具体用于确定所述数据集合类型的数据的大小；根据所述数据集合类型的数据的大小，将所述至少一个待处理数据分配至至少一个数据集合中；所述数据集合中包含的待处理数据的大小不大于所述数据集合类型的数据的大小。
根据权利要求14所述的装置，其特征在于，

所述转换单元，具体用于在所述待处理任务对应的所述至少一个待处理数据的数据类型为变长数据类型时，根据所述数据集合类型的数据的大小，将所述至少一个待处理数据分配至至少一个数据集合中，且记录所述至少一个待处理数据在所述至少一个数据集合中的位置信息，以使得所述GPU根据所述位置信息，获取所述待处理数据；所述位置信息用于记录变长类型的待处理数据在数据集合中的位置相关信息。
根据权利要求10-15任一项所述的装置，其特征在于，

所述解析单元，具体用于利用预设的解析函数，将所述数据集合类型中的数据的数据格式转换为所述GPU进行计算处理时所需的数据格式；

将转换数据格式后的数据生成至少一个数据块。
根据权利要求10-16任一项所述的装置，其特征在于，

所述发送单元，具体用于将所述生成的至少一个数据块发送给所述被分配的GPU的缓存区中。
根据权利要求10-17任一项所述的装置，其特征在于，所述装置还包括：

接收单元，用于接收所述GPU发送的计算处理结果；

处理单元，用于对所述计算处理结果进行分区、排序及合并处理。
一种数据处理的装置，其特征在于，所述装置包括：处理器，存储器，通信接口，和总线，其中，所述处理器、所述存储器和所述通信接口通过所述总线通信；

所述存储器，用于存放程序；

所述处理器，用于执行所述存储器存储的执行指令；

所述通信接口，用于接收待处理任务以及与所述待处理任务对应的至少一个待处理的数据；

当所述数据处理装置运行时，处理器运行程序，以执行以下指令：

获取待处理任务以及和所述待处理任务对应的至少一个待处理的数据；

为所述待处理任务分配图形处理器GPU；

将所述待处理任务对应的所述至少一个待处理数据转换为数据集合类型的数据；

将所述数据集合类型中的数据进行解析，将解析后的数据生成至少一个数据块；

将所述生成的至少一个数据块发送给所述被分配的GPU，以使得所述GPU 根据所述待处理任务对所述至少一个数据块进行计算处理。