WO2017020637A1

WO2017020637A1 - 一种分布式数据计算的任务分配方法和任务分配装置

Info

Publication number: WO2017020637A1
Application number: PCT/CN2016/083279
Authority: WO
Inventors: 刘志辉
Original assignee: 杭州海康威视数字技术股份有限公司
Priority date: 2015-08-05
Filing date: 2016-05-25
Publication date: 2017-02-09
Also published as: US11182211B2; CN106445676A; CN106445676B; US20180232257A1; EP3333718A4; EP3333718B1; EP3333718A1

Abstract

本申请公开了一种分布式数据计算的任务分配方法和任务分配装置。该任务分配方法，包括：接收分布式数据中计算的目标数据的存储参数；根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集，每个数据片分别对应所述弹性分布式数据集中的一个分区；将分区指定到存储节点生成计算任务进行计算。通过分布式数据库中的数据存储信息将计算任务分配到数据对应的存储节点，计算过程中只需调用本地内存数据，减少了多次数据转发导致的IO冗余和耗时。

Description

一种分布式数据计算的任务分配方法和任务分配装置

本申请要求于2015年8月5日提交中国专利局、申请号为201510472782.3发明名称为“一种分布式数据计算的任务分配方法和任务分配装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及视频监控技术领域，尤其涉及一种分布式数据计算的任务分配方法和任务分配装置。

背景技术

目前Spark中弹性分布式数据集的数据初始化方式主要有两种：直接从集合中获取数据，并存入RDD(Resilient Distributed Datasets，弹性分布式数据集)中；读取本地或者分布式文件系统(HDFS、S3等)的文本文件、sequence文件等。对于HBase中的数据，主要是通过HBase客户端拉取数据，进行转化处理后，保存到RDD中，分发到多个切片中，再通过RDD的算子进行分布式计算。这样数据需要反复走网络，造成IO冗余，增加耗时。

发明内容

本申请的目的是提供一种分布式数据计算的任务分配方法和任务分配装置，其将分布式数据库中的数据存储信息作为计算任务的参数，再将计算任务分配到数据存储信息对应的存储节点，由存储节点对计算任务中指向的数据进行计算，计算过程中只需调用本地内存数据，减少了多次数据转发导致的IO冗余和耗时。

为实现上述目的，具体采用以下技术方案：

一方面采用一种分布式数据计算的任务分配方法，包括：

接收分布式数据中计算的目标数据的存储参数；

根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集，每个数据片分别对应所述弹性分布式数据集中的一个分区；

将分区指定到存储节点生成计算任务进行计算。

另一方面采用一种分布式数据计算的任务分配装置，包括：

目标数据确认单元，用于接收分布式数据中计算的目标数据的存储参数；

目标数据映射单元，用于根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集，每个数据片分别对应所述弹性分布式数据集中的一个分区；

计算任务分配单元，用于将分区指定到存储节点生成计算任务进行计算。

本申请的提供一种电子设备，其特征在于，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，所述电路板安置在所述壳体围成的空间内部，所述处理器和所述存储器设置在所述电路板上；所述电源电路，用于为所述电子设备的各个电路或器件供电；所述存储器用于存储可执行程序代码；所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行所述分布式数据计算的任务分配方法。

本申请的还提供一种应用程序，所述应用程序用于在运行时执行所述分布式数据计算的任务分配方法。

本申请的还提供一种存储介质，所述存储介质用于存储应用程序，所述应用程序用于执行所述分布式数据计算的任务分配方法。

本申请的有益效果在于：通过将分布式数据库中的数据存储信息作为计算任务的参数，再将计算任务分配到数据存储信息对应的存储节点，由存储节点对计算任务中指向的数据进行计算，计算过程中只需调用本地内存数据，减少了多次数据转发导致的IO冗余和耗时。

附图说明

图1是本申请具体实施方式中提供的一种分布式数据计算的任务分配方法的第一实施例的方法流程图；

图2是本申请具体实施方式中提供的一种分布式数据计算的任务分配方法的第二实施例的方法流程图；

图3是本申请具体实施方式中提供的一种分布式数据计算的任务分配方法的第二实施例中数据的结构示意图；

图4是本申请具体实施方式中提供的一种分布式数据计算的任务分配方法的第二实施例中计算任务的示意图；

图5是本申请具体实施方式中提供的一种分布式数据计算的任务分配装置的第一实施例的结构方框图；

图6是本申请具体实施方式中提供的一种分布式数据计算的任务分配装置的第二实施例的结构方框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本申请进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本申请的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本申请的概念。

请参考图1，其是本申请具体实施方式中提供的一种分布式数据计算的任务分配方法的第一实施例的方法流程图。本实施例中的任务分配方法，主要用于分布式数据库中对大量数据进行并行计算，提高计算效率。如图所示，该任务分配方法，包括：

步骤S101：接收分布式数据中计算的目标数据的存储参数。

分布式数据库的基本思想是将原来集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上，以获取更大的存储容量和更高的并发访问量。分布式数据库系统通常使用较小的计算机系统，每台计算机可单独放在一个地方，每台计算机中都可能有DBMS(Database Management System，数据库管理系统)的一份完整拷贝副本，或者部分拷贝副本，并具有自己局部的数据库，位于不同地点的许多计算机通过网络互相连接，共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。

分布式数据中计算的目标数据只是一个存储节点其中的一个或多个数据表，具体到数据表中的一段数据。在进行任务分配时，进行任务分配的节点只需要读取待处理的数据在数据表中的起止位置即可，不需要将所有的数据集中到本节点。如果将所有的数据本身集中到一个节点，可能需要几TB的数据传输量，如果仅仅将目标数据的存储参数集中，可能只需要不超过5M的数据传输量，免除了数据集中时大量的数据传输。

步骤S102：根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集，每个数据片分别对应所述弹性分布式数据集中的一个分区。

一般而言，需要处理的数据在数据表中是一段连续的记录，这一段连续的记录分属于不同的存储节点，为方便数据处理，免除数据传输。在分布式数据库中，每一个数据片中的数据都是位于同一存储节点。在本方案中，即以数据片为基本的数据单位进行处理。

步骤S103：将分区指定到存储节点生成计算任务进行计算。

在将计算任务发送到存储节点进行处理时，并不是如现有技术中，将需要处理的数据随机派发到存储节点，而是根据存储信息发送到数据片对应的存储节点，并且发送的内容也不是大量的数据本身，而是数据的相关存储参数，各个存储节点在接收到计算任务之后，根据数据片所在的目标数据表的表名、数据片的起始和终止位置读取数据，根据计算方式执行计算任务。整个计算过程中，所有的数据都相当于从本地读取，减少了数据IO冗余，避免了由此导致的耗时。

综上所述，通过将分布式数据库中的数据存储信息作为计算任务的参数，再将计算任务分配到数据存储信息对应的存储节点，由存储节点对计算任务中指向的数据进行计算，计算过程中只需调用本地内存数据，减少了多次数据转发导致的IO冗余和耗时。

请参考图2，其是申请具体实施方式中提供的一种分布式数据计算的任务分配方法的第二实施例的方法流程图，如图所示，该方法包括：

步骤S201：接收分布式数据中计算的目标数据的存储参数。

所述分布式数据的数据库为HBase。

HBase是一个分布式的、面向列的开源数据库，HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库；另一个不同的是HBase基于列的而不是基于行的模式。

本实施例中基于HBase的方案，相当于自定义弹性数据集，根据HBase的数据分区规则与用户输入的目标数据范围划分弹性数据集，将HBase数据表的数据片映射到弹性数据集的分区，指定分区数据的处理节点。实现在使用并行计算框架(例如Spark)分布式计算Hbase数据表中数据时，Spark的工作节点中的任务所处理的数据均是本节点内存中的HBase数据，最终实现针对HBase数据的分布式内存并行计算。

步骤S202：根据所述存储参数判断所述数据片中的数据是否全部属于目标数据。

在分布式数据库中，随着数据表中记录的不断增加，数据表会分裂成多个数据片，每个数据片中对应的数据存储到一个存储节点。具体到HBase中，当数据表随着记录数不断增加而变大后，会逐渐分裂成多份regions，一个region由[startkey,endkey)表示，其中startkey和endkey分别表示region的起始位置和终止位置；不同的region会被Master分配给相应的RegionServer进行管理，存储信息相当于RegionServer的信息。

在本方案中，目标数据至少与两个数据片相关联，如果所有的目标数据处于同一存储节点中，直接向该存储节点发送计算任务即可，无需进行并行计算。

因为单个数据片中的数据不一定全是需要计算的目标数据，在实际进行计算时，需要对数据片中的数据进行校准，将需要进行处理的数据映射到弹性分布式数据集中，弹性分布式数据集的一个分区对应一个数据片，弹性分布式数据集中的数据均是需要处理的目标数据。

步骤S203：若所述数据片中的数据全部属于目标数据，将该数据片映射到弹性分布式数据集的一个分区。

步骤S204：若所述数据片中的数据不是全部属于目标数据，将该数据片中属于目标数据的部分映射到弹性分布式数据集的一个分区。

因为数据片中本身已经记载有该数据片的存储节点的相关信息，在映射到分区时，分区同样会携带存储节点的相关信息。

步骤S205：将分区指定到该分区对应的数据片所在的存储节点。

各个分区有数据片映射而来，携带有数据片对应的存储信息，直接根据存储信息指定到对应的存储节点即可。

步骤S206：调用转化算子，在所述存储节点根据分区的数据生成计算任务。

根据数据片中本身记载的该数据片的存储节点的相关信息和目标数据信息，可以获得该数据片的计算任务数据单。

步骤S207：调用行动算子对所述计算任务进行计算。

计算任务已经在每个存储节点中生成，每个存储节点的计算任务根据计算任务数据单调用本存储节点中与计算任务相关的数据，对其进行计算。

步骤S208：接收每个存储节点返回的计算任务的处理结果。

各个存储节点对计算任务的处理结果需要回收，各个存储节点本身也可能缓存处理结果，供迭代使用。

针对HBase中的任务分配方法的处理过程，结合图3和图4，对本方案进行进一步说明。

在分配计算任务前，获取目标数据的目标数据表的表名、目标数据表中目标数据的起始位置、目标数据表中目标数据的终止位置；其中目标数据的结构如图3所示，其中TableDes表示目标数据表的表名，Lx表示目标数据的起始位置，Ly表示目标数据的终止位置。获取目标数据关联的至少也两个数据片，也就是图3中的数据片Region1、Region2、Region3、…、Regioni，每个数据片Regioni的起始位置和终止位置分别为Lm、Ln(m＝2i-1，n＝2i)，即HBase数据库中该数据片的起止位置。再将数据片中的无效数据去除后得到更加精确的分区P1、P2、P3、…、Pi。分区的起止位置也作为参数创建弹性分布式数据集的分区。数据片和分区的关系如图3所示。图3中所示的L1-Lx、Ly-Ln区间内的数据即为无效数据。

将HBase的Region数据映射到弹性分布式数据集的分区，每个相关的Region产生一个分区，对应将会生成一个计算任务。通过Regioni信息得到该Regioni所在节点Ni，Regioni对应弹性数据集的分区Pi，在最优选择Pi的处理节点时，指定为Ni。调用存储节点的转化算子，生成弹性分布式数据集中所有分区P1、P2、P3…Pi的计算任务Task1、Task2、Task3…Taski。Task根据分区产生，与对应的分区数据在同一存储节点。从而保证处理Regioni数据的存储节点就是Regioni所在的存储节点。HBase的数据片Regioni，弹性数据集的分区Pi(数据片Pi)，存储节点Ni，作业Taski的对应关系如图4所示。

存储节点Ni中Pi读取本节点内存中Regioni数据，Taski处理Pi分区数据，节点Ni执行作业Taski，得到结果Ri返回，同时可以缓存中间结果，供迭代使用。

另外，使用缓存中间结果进行迭代，无需重头开始计算，能够有效地提高计算效率。

调用行动算子，执行作业Task1、Task2、Task3、…、Taski，进行不同的业务。通过弹性分布式数据集汇总所有作业的结果数据，完成计算任务。

整体而言，需要处理的数据量越大，本方案的技术效果越明显，由发送1M数据变为发送1M数据的存储信息，其减少的IO冗余和耗时还可以说不太明显；但是发送1G数据甚至1T数据变为发送1G数据甚至1T数据的存储信息，其减少的IO冗余和耗时则是十分突出的。

以下是本申请具体实施方式中提供的一种分布式数据计算的任务分配装置的实施例，任务分配装置的实施例基于上述的任务分配方法的实施例实现，在任务分配装置的实施例中未尽的阐述，请参考上述的任务分配方法的实施例。

请参考图5，其是本申请具体实施方式中提供的一种分布式数据计算的任务分配装置的第一实施例的结构方框图，如图所示，该任务分配装置，包括：

目标数据确认单元310，用于接收分布式数据中计算的目标数据的存储参数；

目标数据映射单元320，用于根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集，每个数据片分别对应所述弹性分布式数据集中的一个分区；

计算任务分配单元330，用于将分区指定到存储节点生成计算任务进行计算。

在本方案中，任何一个存储节点都可进行计算任务的派发，其它任何具备权限的客户端可以根据用户的需要选择数据派发计算任务，因为用户端本身不涉及到数据本身的传输和访问，所以只要能够通过网络接入分布式数据库的终端设备基本都可是实现该方案，实现对数据库的更为广泛的使用。

综上所述，上述各单元的协同工作，通过将分布式数据库中的数据存储信息作为计算任务的参数，再将计算任务分配到数据存储信息对应的存储节点，由存储节点对计算任务中指向的数据进行计算，计算过程中只需调用本地内存数据，减少了多次数据转发导致的IO冗余和耗时。

请参考图6，其是本申请具体实施方式中提供的一种分布式数据计算的任务分配装置的第二实施例的结构方框图，如图所示，该任务分配装置，包括：

目标数据映射元320，用于根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集，每个数据片分别对应所述弹性分布式数据集中的一个分区；

其中，所述目标数据映射单元320，包括：

数据片判断模块321，用于根据所述存储参数判断所述数据片中的数据是否全部属于目标数据；

第一映射模块322，用于若所述数据片中的数据全部属于目标数据，将该数据片映射到弹性分布式数据集的一个分区；

第二映射模块323，用于若所述数据片中的数据不是全部属于目标数据，将该数据片中属于目标数据的部分映射到弹性分布式数据集的一个分区。

其中，所述计算任务分配单元330，包括：

分区指定模块331，用于将分区指定到该分区对应的数据片所在的存储节点；

计算任务生成模块332，用于调用转化算子，在所述存储节点根据分区的数据生成计算任务；

计算任务执行模块333，用于调用行动算子对所述计算任务进行计算。

其中，还包括：

结果接收单元340，用于接收每个存储节点返回的计算任务的处理结果。

其中，所述分布式数据的数据库为HBase。

综上所述，上述各单元和模块的协同合作，通过将分布式数据库中的数据存储信息作为计算任务的参数，再将计算任务分配到数据存储信息对应的存储节点，由存储节点对计算任务中指向的数据进行计算，计算过程中只需调用本地内存数据，减少了多次数据转发导致的IO冗余和耗时。

本申请实施例提供了一种电子设备，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，所述电路板安置在所述壳体围成的空间内部，所述处理器和所述存储器设置在所述电路板上；所述电源电路，用于为所述电子设备的各个电路或器件供电；所述存储器用于存储可执行程序代码；所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

接收分布式数据中计算的目标数据的存储参数；

将分区指定到存储节点生成计算任务进行计算。

处理器对上述步骤的具体执行过程以及处理器通过运行可执行程序代码来进一步执行的步骤，可以参见本申请图1-6所示实施例的描述，在此不再赘述。

由上可见，本申请实施例中，通过将分布式数据库中的数据存储信息作为计算任务的参数，再将计算任务分配到数据存储信息对应的存储节点，由存储节点对计算任务中指向的数据进行计算，计算过程中只需调用本地内存数据，减少了多次数据转发导致的IO冗余和耗时。

该电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

本申请实施例提供了一种应用程序，该应用程序用于在运行时执行本申请实施例提供的分布式数据计算的任务分配方法。其中，分布式数据计算的任务分配方法，包括：

接收分布式数据中计算的目标数据的存储参数；

将分区指定到存储节点生成计算任务进行计算。

本申请的一种实现方式中，上述应用程序运行时所执行的分布式数据计算的任务分配方法中，所述根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集，每个数据片分别对应所述弹性分布式数据集中的一个分区，包括：

根据所述存储参数判断所述数据片中的数据是否全部属于目标数据；

若所述数据片中的数据全部属于目标数据，将该数据片映射到弹性分布式数据集的一个分区；

若所述数据片中的数据不是全部属于目标数据，将该数据片中属于目标数据的部分映射到弹性分布式数据集的一个分区。

本申请的一种实现方式中，上述应用程序运行时所执行的分布式数据计算的任务分配方法中，所述将分区指定到存储节点生成计算任务进行计算，包括：

将分区指定到该分区对应的数据片所在的存储节点；

调用转化算子，在所述存储节点根据分区的数据生成计算任务；

调用行动算子对所述计算任务进行计算。

本申请的一种实现方式中，上述应用程序运行时所执行的分布式数据计算的任务分配方法中，所述将分区指定到存储节点生成计算任务进行计算之后，还包括：

接收存储节点返回的计算任务的处理结果。

本申请的一种实现方式中，上述应用程序运行时所执行的分布式数据计算的任务分配方法中，所述分布式数据的数据库为HBase。

本申请实施例中，上述应用程序通过将分布式数据库中的数据存储信息作为计算任务的参数，再将计算任务分配到数据存储信息对应的存储节点，由存储节点对计算任务中指向的数据进行计算，计算过程中只需调用本地内存数据，减少了多次数据转发导致的IO冗余和耗时。

本申请实施例提供了一种存储介质，用于存储应用程序，该应用程序用于执行本申请实施例提供的分布式数据计算的任务分配方法。其中，分布式数据计算的任务分配方法，包括：

接收分布式数据中计算的目标数据的存储参数；

将分区指定到存储节点生成计算任务进行计算。

在本申请的一种实现方式中，上述存储介质存储的应用程序所执行的分布式数据计算的任务分配方法中，所述根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集，每个数据片分别对应所述弹性分布式数据集中的一个分区，包括：

在本申请的一种实现方式中，上述存储介质存储的应用程序所执行的分布式数据计算的任务分配方法中，所述将分区指定到存储节点生成计算任务进行计算，包括：

将分区指定到该分区对应的数据片所在的存储节点；

调用行动算子对所述计算任务进行计算。

在本申请的一种实现方式中，上述存储介质存储的应用程序所执行的分布式数据计算的任务分配方法中，所述将分区指定到存储节点生成计算任务进行计算之后，还包括：

接收存储节点返回的计算任务的处理结果。

在本申请的一种实现方式中，上述存储介质存储的应用程序所执行的分布式数据计算的任务分配方法中，所述分布式数据的数据库为HBase。

本申请实施例中，上述存储介质用于存储上述应用程序，上述应用程序通过将分布式数据库中的数据存储信息作为计算任务的参数，再将计算任务分配到数据存储信息对应的存储节点，由存储节点对计算任务中指向的数据进行计算，计算过程中只需调用本地内存数据，减少了多次数据转发导致的IO冗余和耗时。

应当理解的是，本申请的上述具体实施方式仅仅用于示例性说明或解释本申请的原理，而不构成对本申请的限制。因此，在不偏离本申请的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。此外，本申请所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

尽管已经详细描述了本申请的实施方式，但是应该理解的是，在不偏离本申请的精神和范围的情况下，可以对本申请的实施方式做出各种改变、替换和变更。

Claims

一种分布式数据计算的任务分配方法，其特征在于，包括：

接收分布式数据中计算的目标数据的存储参数；

根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集，每个数据片分别对应所述弹性分布式数据集中的一个分区；

将分区指定到存储节点生成计算任务进行计算。
根据权利要求1所述的一种分布式数据计算的任务分配方法，其特征在于，所述根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集，每个数据片分别对应所述弹性分布式数据集中的一个分区，包括：

根据所述存储参数判断所述数据片中的数据是否全部属于目标数据；

若所述数据片中的数据全部属于目标数据，将该数据片映射到弹性分布式数据集的一个分区；

若所述数据片中的数据不是全部属于目标数据，将该数据片中属于目标数据的部分映射到弹性分布式数据集的一个分区。
根据权利要求1所述的一种分布式数据计算的任务分配方法，其特征在于，所述将分区指定到存储节点生成计算任务进行计算，包括：

将分区指定到该分区对应的数据片所在的存储节点；

调用转化算子，在所述存储节点根据分区的数据生成计算任务；

调用行动算子对所述计算任务进行计算。
根据权利要求1所述的一种分布式数据计算的任务分配方法，其特征在于，所述将分区指定到存储节点生成计算任务进行计算之后，还包括：

接收存储节点返回的计算任务的处理结果。
根据权利要求1所述的一种分布式数据计算的任务分配方法，其特征在于，所述分布式数据的数据库为HBase。
一种分布式数据计算的任务分配装置，其特征在于，包括：

目标数据确认单元，用于接收分布式数据中计算的目标数据的存储参数；

目标数据映射单元，用于根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集，每个数据片分别对应所述弹性分布式数据集中的一个分区；

计算任务分配单元，用于将分区指定到存储节点生成计算任务进行计算。
根据权利要求6所述的一种分布式数据计算的任务分配装置，其特征在于，所述目标数据映射单元，包括：

数据片判断模块，用于根据所述存储参数判断所述数据片中的数据是否全部属于目标数据；

第一映射模块，用于若所述数据片中的数据全部属于目标数据，将该数据片映射到弹性分布式数据集的一个分区；

第二映射模块，用于若所述数据片中的数据不是全部属于目标数据，将该数据片中属于目标数据的部分映射到弹性分布式数据集的一个分区。
根据权利要求6所述的一种分布式数据计算的任务分配装置，其特征在于，所述计算任务分配单元，包括：

分区指定模块，用于将分区指定到该分区对应的数据片所在的存储节点；

计算任务生成模块，用于调用转化算子，在所述存储节点根据分区的数据生成计算任务；

计算任务执行模块，用于调用行动算子对所述计算任务进行计算。
根据权利要求6所述的一种分布式数据计算的任务分配装置，其特征在于，还包括：

结果接收单元，用于接收每个存储节点返回的计算任务的处理结果。
根据权利要求6所述的一种分布式数据计算的任务分配装置，其特征在于，所述分布式数据的数据库为HBase。
一种电子设备，其特征在于，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，所述电路板安置在所述壳体围成的空间内部，所述处理器和所述存储器设置在所述电路板上；所述电源电路，用于为所述电子设备的各个电路或器件供电；所述存储器用于存储可执行程序代码；所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行权利要求1-5任一项所述的分布式数据计算的任务分配方法。
一种应用程序，其特征在于，所述应用程序用于在运行时执行权利要求1-5任一项所述的分布式数据计算的任务分配方法。
一种存储介质，其特征在于，所述存储介质用于存储应用程序，所述应用程序用于执行权利要求1-5任一项所述的分布式数据计算的任务分配方法。