WO2020233262A1

WO2020233262A1 - 一种基于Spark的多中心数据协同计算的流处理方法

Info

Publication number: WO2020233262A1
Application number: PCT/CN2020/083593
Authority: WO
Inventors: 李劲松; 李润泽; 陆遥; 王昱; 赵英浩
Original assignee: 之江实验室
Priority date: 2019-07-12
Filing date: 2020-04-07
Publication date: 2020-11-26
Also published as: JP2022508354A; JP6990802B1; CN110347489B; CN110347489A

Abstract

本发明公开了一种基于Spark的多中心数据协同计算的流处理方法，多个客户端生成和提交用户的计算任务请求给计算端，计算端解析请求，生成并执行计算指令；本发明对于多中心的数据计算的需求和操作的执行流处理计算，提高程序执行性能和资源分配效率；设置资源管理的日志和RESTFul，准确调控记录来自多中心的Spark请求任务所占用和需求的内存和线程资源；利用最大最小公平原则的策略，执行对流计算中每一步的资源分配；本发明解决了多中心数据协同计算的大批量的线程阻塞延迟问题，减少单个用户的等待时间，提升资源分配的灵活性和公平程度。

Description

一种基于Spark的多中心数据协同计算的流处理方法

技术领域

本发明属于流处理技术领域，尤其涉及一种基于Spark的多中心数据协同计算的流处理方法。

背景技术

流处理技术(Stream Processing)是一种计算机编程范式，也可以叫做数据流编程或者交互式编程，是一种让计算应用在有限的并行处理模式下获得更高效使用效率的技术。这一类型的技术应用可以在多种运算单元上存在，比如图形运算单元(Graphic Processing Unit，GPU)或者可编程阵列门电路(Field-programmable Gate Arrays，FPGA)，并且不显式的管理内存分配，同步和单元之间的交流。Spark streaming是Spark核心API的一个扩展，它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。主要提供的接口为上下文创建StreamingContext，流开始start，流结束stop，缓存cache，Checkpointing等。

多中心数据协同计算是大数据背景下出现的应用场景，多方数据中心需要统筹数据资源以及数据处理的需求，以求为各个单体用户提供更易用和强大的数据处理平台资源。单个个体用户可以选择将自己的数据资源和多方的数据资源整合进行集中分析，同时可以选择多种运算需求，在多中心背景下进行并行计算。

现有的多中心协同分析平台大多为实质上的单中心，即将多方数据库缓存到同一处数据节点，再将多种分析需求逐个进行处理，实际上等价于将所有并发默认到一个流上进行，这种方式会导致大批量的线程阻塞延迟，每个批在队列中的等待时间增加，新加入用户的计算需求很难得到即时的反馈和满足，数据实时性也难以保持。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于Spark的多中心数据协同计算的流处理方法，本发明通过资源管理日志和Spark的流计算实现对多中心数据协同计算的流处理化，将流处理的资源分配优势和多中心化的异质化计算需求进行耦合，提高多中心协同计算的资源分配公平性和数据分析效率，降低计算队列任务等待时间。

本发明的目的是通过以下技术方案来实现的：一种基于Spark的多中心数据协同计算的流处理方法，该方法在多中心数据协同计算系统上实现，所述多中心数据协同计算系统包括若干客户端和一个计算端，所述客户端用于生成和提交用户的计算任务请求给计算端，所述计算端用于解析请求，生成并执行计算指令；该方法包括以下步骤：

(1)在客户端和计算端建立RESTFul服务，记计算任务队列为Q＝[(c _k,t _k,nt _k,nm _k,D _k)],1≤k≤L，L为计算任务队列Q的长度，任意一个客户端c _k向计算端发起一个新的计算任务请求t _k，该请求包括计算的线程资源需求nt _k、计算内存的需求nm _k、对应此任务的待计算数据D _k；

(2)计算端解析客户端c _k发送的计算任务请求，得到(c _k,t _k,nt _k,nm _k,D _k)；

(3)计算端将(c _k,t _k,nt _k,nm _k,D _k)作为一个元素插入计算任务队列Q，之后发起Scheduling计算，在Scheduling计算中任务队列Q各个元素的计算需求取值按照客户端为单位的最大最小原则进行优化，更新每个元素的nt _k和nm _k；

(4)计算队列Q的长度len(Q)＝L，以L为循环边界条件，用Spark.StreamingContext(Spark.StreamingContext为Spark框架下的流处理任务创建指令接口)创建L个流，并用Spark.Conf(Spark.Conf为Spark框架下的流处理任务配置指令接口)声明分配给各个流的资源；对于依次向Spark发起实际的流任务，载入数据D _k，对数据执行计算任务t _k，分配的线程资源为nt _k，内存资源为nm _k；其中，如果D _k中存在中间结果和计算任务元数据，则直接从其对应的步骤开始计算任务。

流1:载入数据D ₁，对数据执行计算任务t ₁，分配的线程资源为nt ₁，内存资源为nm ₁；

流2:载入数据D ₂，对数据执行计算任务t ₂，分配的线程资源为nt ₂，内存资源为nm ₂；

…

流L:载入数据D _L，对数据执行计算任务t _L，分配的线程资源为nt _L，内存资源为nm _L；

(5)对于已经在流处理的任务(c _l,t _l,nt _l,nm _l,D _l)，利用StreamingContext.CheckPointing(StreamingContext.CheckPointing为Spark框架下的流处理任务数据持久化指令接口)在流处理过程中的数据读取至HDFS、数据预处理缓存、计算、返回这四个步骤中执行数据流持久化操作，保存中间结果和计算任务元数据至D _l；同时监听队列的更新状况，如果监听到队列更新，则利用StreamingContext.stop(StreamingContext.stop为Spark框架下的流处理任务中止指令接口)停止该流，返回步骤(4)；如果完成了流处理过程中的计算任务，则向该流处理任务对应的客户端返回任务处理结果，并将任务从队列Q弹出。

进一步地，所述步骤(3)中，基于客户端的Scheduling计算流程如下：

(3.1)对于队列Q＝[(c _k,t _k,nt _k,nm _k,D _k)],1≤k≤L，L为计算队列Q的长度，如果客户端存在多条记录，先按照客户端进行求和，得到以客户端为单位的新队列

L _mid为Q _mid长度，s _j为每个客户端发起的任务总数，

分别为客户端c _j请求的线程资源总数和内存资源总数；

(3.2)对于线程资源，执行如下优化分配流程：

(3.2.1)对于所有客户端的线程资源请求总数队列

按大小进行排序得到

和下标映射

记计算中心计算资源池的总线程资源为NT，则预给

的资源为

(3.2.2)如果存在

记这个集合为

进入步骤(3.2.3)；否则输出最终的线程资源分配策略

利用下标映射得到对应恢复排序前顺序的线程资源分配策略

进入步骤(3.2.4)；

(3.2.3)需要重新分配的线程资源为

其中|J|为J的元素个数，返回步骤(3.2.2)；

(3.2.4)将同一个客户端所分配到的线程资源平均分配给该客户端所对应的所有任务，对于同一c _j对应任务T _j＝{t _z|1≤z≤s _j}，

其中

为用户c _j实际提交的一个任务t _z所分配到的线程资源，

为(3.2.2)得到的该用户分配到的所有线程资源，s _j为用户c _j发起的任务总数。

(3.3)对于内存资源，执行如下优化分配流程：

(3.3.1)对于所有客户端的内存资源请求总数队列

按大小进行排序得到

和下标映射

记计算中心计算资源池的总内存资源为NM，则预给

的资源为

(3.3.2)如果存在

记这个集合为

进入步骤(3.2.3)；否则输出最终的内存资源分配策略

利用下标映射得到对应恢复排序前顺序的内存资源分配策略

进入步骤(3.2.4)；

(3.3.3)需要重新分配的内存资源为

其中|J|为J的元素个数，返回步骤(3.3.2)；

(3.3.4)将同一个客户端所分配到的内存资源平均分配给该客户端所对应的所有任务，对于同一c _j对应任务T _j＝{t _z|1≤z≤s _j}，

其中

为用户c _j实际提交的一个任务t _z所分配到的内存资源，

为(3.2.2)得到的该用户分配到的所有内存资源，s _j为用户c _j发起的任务总数。

(3.4)从(3.2)和(3.3)中得到的[nt _k]和[nm _k]，重新组成Q＝[(c _k,t _k,nt _k,nm _k,D _k)]。

本发明的有益效果是：本发明对于多中心的数据计算的需求和操作的执行流处理计算，提高程序执行性能和资源分配效率；设置资源管理的日志和RESTFul，准确调控记录来自多中心的Spark请求任务所占用和需求的内存和线程资源；利用最大最小公平原则的策略，执行对流计算中每一步的资源分配；本发明解决了多中心数据协同计算的大批量的线程阻塞延迟问题，减少单个用户的等待时间，提升资源分配的灵活性和公平程度。

附图说明

图1为本发明中心协同计算流处理方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1所示，本发明提供的一种基于Spark的多中心数据协同计算的流处理方法，该方法在多中心数据协同计算系统上实现，所述多中心数据协同计算系统包括若干客户端和一个计算端，所述客户端用于生成和提交用户的计算任务请求给计算端，所述计算端用于解析请求，生成并执行计算指令；该方法包括以下步骤：

…

L _mid为Q _mid长度，s _j为每个客户端发起的任务总数，

分别为客户端c _j请求的线程资源总数和内存资源总数；

(3.2)对于线程资源，执行如下优化分配流程：

(3.2.1)对于所有客户端的线程资源请求总数队列

按大小进行排序得到

和下标映射

记计算中心计算资源池的总线程资源为NT，则预给

的资源为

(3.2.2)如果存在

记这个集合为

进入步骤(3.2.3)；否则输出最终的线程资源分配策略

利用下标映射得到对应恢复排序前顺序的线程资源分配策略

进入步骤(3.2.4)；

(3.2.3)需要重新分配的线程资源为

其中|J|为J的元素个数，返回步骤(3.2.2)；

其中

为用户c _j实际提交的一个任务t _z所分配到的线程资源，

(3.3)对于内存资源，执行如下优化分配流程：

(3.3.1)对于所有客户端的内存资源请求总数队列

按大小进行排序得到

和下标映射

记计算中心计算资源池的总内存资源为NM，则预给

的资源为

(3.3.2)如果存在

记这个集合为

进入步骤(3.2.3)；否则输出最终的内存资源分配策略

利用下标映射得到对应恢复排序前顺序的内存资源分配策略

进入步骤(3.2.4)；

(3.3.3)需要重新分配的内存资源为

其中|J|为J的元素个数，返回步骤(3.3.2)；

其中

为用户c _j实际提交的一个任务t _z所分配到的内存资源，

以下给出本发明基于Spark的多中心数据协同计算的流处理方法在多中心医学数据协同计算平台上应用的一个具体实例，该实例的实现具体包括以下步骤：

(1)在客户端(3家医院)和计算端(数据中心)建立RESTFul服务，记计算任务队列为

Q＝[(“hospital1”,”task1”,8,4,”path1”),("hospital2","task2",8,8,"path2"),("hospital2","task3",4,8,"path3")]，

L＝3，第三家医院"hospital3"向计算端发起一个新的计算任务请求"task4"，该请求包括计算的线程资源需求16、计算内存的需求16、对应此任务的待计算数据"path4"；

(2)计算端解析客户端c _i发送的计算任务请求，得到(“hospital3”,”task4”,16,16,”path4”)；

(3)计算端将(“hospital3”,”task4”,16,16,”path4”)作为一个元素插入计算任务队列Q，

Q＝[(“hospital1”,”task1”,8,4,”path1”),("hospital2","task2",8,8,"path2"),("hospital2","task3",4,8,"path3"),("hospital3","task4",16,16,"path4")]；

之后发起Scheduling计算，在Scheduling计算中任务队列Q各个元素的计算需求取值按照客户端为单位的最大最小原则进行优化，更新每个元素的nt _k和nm _k，队列Q取值变为：

Q＝[("hospital1","task1",8,4,"path1"),("hospital2","task2",5,6.5,"path2"),("hospital2","task3",6,6.5,"path3"),("hospital3","task4",13,15,"path4")]；

其中，Scheduling计算流程如下：

(3.1)对于队列

Q＝[(“hospital1”,”task1”,8,4,”path1”),("hospital2","task2",8,8,"path2"),("hospital2","task3",4,8,"path3"),("hospital3","task4",16,16,"path4")]

L为计算队列Q的长度L＝4,如果客户端"hospital2"存在多条记录，先按照客户端进行求和，得到

Q _mid＝[("hospital1",8,4,1),("hospital2",12,16,2),("hospital1",16,16,1)]，

L _mid为Q _mid长度L _mid＝3；

(3.2)对于线程资源，执行如下优化分配流程：

(3.2.1)对于所有客户端的线程资源请求总数队列[8,12,16]，按大小进行排序得到[8,12,16]和下标映射M＝[1,2,3]；记计算中心计算资源池的总线程资源为NT＝32，则预给[8,12,16]的资源为[10,10,12]；

(3.2.2)存在

记这个集合为J＝{1}，进入步骤(3.2.3)；

(3.2.3)需要重新分配的线程资源为R＝10-8＝2，

其中|J|为J的元素个数|J|＝1，返回步骤(3.2.2)；

(3.2.2)不存在

所以输出最终的线程资源分配策略P _mid＝[8 11 13]，利用下标映射得到对应恢复排序前顺序的线程资源分配策略P＝[8 11 13]，进入步骤(3.2.4)；

(3.2.4)对于同一"hospital2"对应任务z＝2,3，

(3.3)对于内存资源，执行如下优化分配流程：

(3.3.1)对于所有客户端的内存资源请求总数队列[4 16 16]，按大小进行排序得到[4 16 16]和下标映射M＝[1 2 3]；记计算中心计算资源池的总内存资源为32，则预给[4 16 16]的资源为[10 10 12]；

(3.3.2)存在

记这个集合为J＝{1}，进入步骤(3.3.3)；

(3.3.3)需要重新分配的线程资源为R＝10-4＝6，

其中|J|＝1为J的元素个数，返回步骤(3.3.2)；

(3.3.2)不存在

输出最终的线程资源分配策略P _mid＝[4 13 15]，利用下标映射得到对应恢复排序前顺序的线程资源分配策略P＝[4 13 15]，进入步骤(3.3.4)；

(3.3.4)对于同一"hospital2"对应任务z＝2,3，

(3.4)从(3.2)和(3.3)中得到的[nt _k]和[nm _k]，重新组成

Q＝[("hospital1","task1",8,4,"path1"),("hospital2","task2",5,6.5,"path2"),("hospital2","task3",6,6.5,"path3"),("hospital3","task4",13,15,"path4")]

(4)计算队列Q的长度len(Q)＝4，以4为循环边界条件，用Spark.StreamingContext(Spark.StreamingContext为Spark框架下的流处理任务创建指令接口)创建4个流，并用Spark.Conf(Spark.Conf为Spark框架下的流处理任务配置指令接口)声明分配给各个流的资源；对于依次向Spark发起实际的流任务，

流1:载入数据"path1"，对数据执行计算任务"task1"，分配的线程资源为9，内存资源为4；

流2:载入数据"path2"，对数据执行计算任务"task2"，分配的线程资源为9，内存资源为9；

流3:载入数据"path3"，对数据执行计算任务"task3"，分配的线程资源为4，内存资源为9；

流4:载入数据"path4"，对数据执行计算任务"task4"，分配的线程资源为10，内存资源为10；

其中，如果流1、流2、流3中检查存在中间结果和计算任务元数据，则直接从其对应的步骤开始计算任务。

(5)对于已经在流处理的任务

利用StreamingContext.CheckPointing(StreamingContext.CheckPointing为Spark框架下的流处理任务数据持久化指令接口)在流处理过程中的数据读取至HDFS、数据预处理缓存、计算、返回这四个步骤中执行数据流持久化操作，保存中间结果和计算任务元数据至path1,path2,path3,path4；同时监听队列的更新状况，如果监听到队列更新，则利用StreamingContext.stop(StreamingContext.stop为Spark框架下的流处理任务中止指令接口)停止该流，返回步骤(4)；如果完成了流处理过程中的计算任务，则向该流处理任务对应的客户端返回任务处理结果，并将任务从队列Q弹出。

以上仅为本发明的实施实例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，不经过创造性劳动所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

一种基于Spark的多中心数据协同计算的流处理方法，其特征在于，该方法在多中心数据协同计算系统上实现，所述多中心数据协同计算系统包括若干客户端和一个计算端，所述客户端用于生成和提交用户的计算任务请求给计算端，所述计算端用于解析请求，生成并执行计算指令；该方法包括以下步骤：

(1)在客户端和计算端建立RESTFul服务，记计算任务队列为Q＝[(c _k,t _k,nt _k,nm _k,D _k)],1≤k≤L，L为计算任务队列Q的长度，任意一个客户端c _k向计算端发起一个新的计算任务请求t _k，该请求包括计算的线程资源需求nt _k、计算内存的需求nm _k、对应此任务的待计算数据D _k。

(2)计算端解析客户端c _k发送的计算任务请求，得到(c _k,t _k,nt _k,nm _k,D _k)。

(3)计算端将(c _k,t _k,nt _k,nm _k,D _k)作为一个元素插入计算任务队列Q，之后发起Scheduling计算，在Scheduling计算中任务队列Q各个元素的计算需求取值按照客户端为单位的最大最小原则进行优化，更新每个元素的nt _k和nm _k。

(4)计算队列Q的长度len(Q)＝L，以L为循环边界条件，用Spark.StreamingContext创建L个流，并用Spark.Conf声明分配给各个流的资源；对于依次向Spark发起实际的流任务k，载入数据D _k，执行计算任务t _k，分配其满足计算的线程资源需求nt _k的线程数，分配满足计算内存的需求nm _k；其中，如果D _k中存在中间结果和计算任务元数据，则直接从其对应的步骤开始计算任务。

(5)对于已经在流处理的任务(c _l,t _l,nt _l,nm _l,D _l)，利用StreamingContext.CheckPointing在流处理过程中的数据读取至HDFS、数据预处理缓存、计算、返回这四个步骤中执行数据流持久化操作，保存中间结果和计算任务元数据至D _l；同时监听队列的更新状况，如果监听到队列更新，则利用StreamingContext.stop停止该流，返回步骤(4)；如果完成了流处理过程中的计算任务，则向该流处理任务对应的客户端返回任务处理结果，并将任务从队列Q弹出。
根据权利要求1所述的一种基于Spark的多中心数据协同计算的流处理方法，其特征在于，所述步骤(3)中，基于客户端的Scheduling计算流程如下：

(3.1)对于队列Q＝[(c _k,t _k,nt _k,nm _k,D _k)],1≤k≤L，L为计算队列Q的长度，如果客户端存在多条记录，先按照客户端进行求和，得到以客户端为单位的新队列
1≤j≤L _mid，L _mid为Q _mid长度，s _j为每个客户端发起的任务总数，
分别为客户端c _j请求的线程资源总数和内存资源总数。

(3.2)对于线程资源，执行如下优化分配流程：

(3.2.1)对于所有客户端的线程资源请求总数队列
1≤j≤L _mid，按大小进行排序得到
和下标映射
记计算中心计算资源池的总线程资源为NT，则预给
的资源为
1≤j≤L _mid；

(3.2.2)如果存在
记这个集合为
进入步骤(3.2.3)；否则输出最终的线程资源分配策略
利用下标映射得到对应恢复排序前顺序的线程资源分配策略
m _i∈M，进入步骤(3.2.4)；

(3.2.3)需要重新分配的线程资源为
其中|J|为J的元素个数，返回步骤(3.2.2)；

(3.2.4)将同一个客户端所分配到的线程资源平均分配给该客户端所对应的所有任务，对于同一c _j对应任务T _j＝{t _z|1≤z≤s _j}，
其中
为用户c _j实际提交的一个任务t _z所分配到的线程资源，
为(3.2.2)得到的该用户分配到的所有线程资源，s _j为用户c _j发起的任务总数。

(3.3)对于内存资源，执行如下优化分配流程：

(3.3.1)对于所有客户端的内存资源请求总数队列
1≤j≤L _mid，按大小进行排序得到
和下标映射
记计算中心计算资源池的总内存资源为NM，则预给
的资源为
1≤j≤L _mid；

(3.3.2)如果存在
记这个集合为
进入步骤(3.2.3)；否则输出最终的内存资源分配策略
利用下标映射得到对应恢复排序前顺序的内存资源分配策略
m _i∈M，进入步骤(3.2.4)；

(3.3.3)需要重新分配的内存资源为
其中|J|为J的元素个数，返回步骤(3.3.2)；

(3.3.4)将同一个客户端所分配到的内存资源平均分配给该客户端所对应的所有任务，对于同一c _j对应任务T _j＝{t _z|1≤z≤s _j}，
其中
为用户c _j实际提交的一个任务t _z所分配到的内存资源，
为(3.2.2)得到的该用户分配到的所有内存资源，s _j为用户c _j发起的任务总数。

(3.4)从(3.2)和(3.3)中得到的[nt _k]和[nm _k]，重新组成Q＝[(c _k,t _k,nt _k,nm _k,D _k)]。