WO2021052169A1

WO2021052169A1 - 分布式数据的均衡处理方法、装置、计算终端和存储介质

Info

Publication number: WO2021052169A1
Application number: PCT/CN2020/112877
Authority: WO
Inventors: 刘少麟; 张强
Original assignee: 中兴通讯股份有限公司
Priority date: 2019-09-18
Filing date: 2020-09-01
Publication date: 2021-03-25
Also published as: CN110673794B; CN110673794A

Abstract

一种分布式数据的均衡处理方法、装置、计算终端和存储介质。分布式数据的均衡处理方法包括：获取shuffle统计数据(S100)；根据shuffle统计数据，判断是否存在数据倾斜分区(S200)；当存在数据倾斜分区时，对数据倾斜分区进行切分(S300)；根据切分后的分区，改写物理计划(S400)；执行改写后的物理计划(S500)。

Description

分布式数据的均衡处理方法、装置、计算终端和存储介质

相关申请的交叉引用

本申请基于申请号为201910882725.0、申请日为2019年9月18日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及一种分布式数据的均衡处理方法、装置、计算终端和存储介质。

背景技术

MapReduce是处理海量数据的计算模型，其包括映射(Map)和归约(Reduce)两个处理过程，而数据从Map task输出到Reduce task输入的这段过程为重排(Shuffle)。在Map中，每个Map task会输出一组key/value对,Shuffle阶段需要从所有Map上把key相同的key/value对组合在一起，作为输入传至Reduce task里。

在Shuffle阶段，当某个Key的分区的数据过度集中，就会产生数据倾斜。数据倾斜会导致任务集中在某一台或者某几台机器中处理，这些过度集中的任务由于数据量很大，导致计算过程缓慢，从而拉低了整个作业的运行速度。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

一方面，本申请实施例提供了一种分布式数据的均衡处理方法、装置、计算终端和存储介质，用于至少在一定程度上解决数据倾斜的问题，提升分布式数据处理的运行速度。另一方面，本申请实施例提供了一种分布式数据的均衡处理方法，包括：获取shuffle统计数据，其中，所述shuffle统计数据包括shuffle阶段中各个分区的数据量；根据shuffle统计数据，判断是否存在数据倾斜分区；当存在数据倾斜分区时，对数据倾斜分区进行切分；根据切分后的分区，改写物理计划；执行改写后的物理计划。

另一方面，本申请实施例提供了一种分布式数据均衡处理装置，包括：shuffle统计获取模块，用于获取shuffle统计数据，其中，所述shuffle统计数据包括shuffle阶段中各个分区的数据量；倾斜判断模块，用于根据shuffle统计数据，判断是否存在数据倾斜分区；分区切分模块，用于当存在数据倾斜分区时，对数据倾斜分区进行切分；物理计划改写模块，用于根据切分后的分区，改写物理计划；物理计划执行模块，用于执行改写后的物理计划。

另一方面，本申请实施例提供了一种计算终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序时执行所述的分布式数据的均衡处理方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行所述的分布式数据的均衡处理所述的方法。

本申请的其它特征和优点将在随后的说明书中阐述，部分将从说明书随后的描述中变得显而易见，或者通过本申请的实施例而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请实施例提供的分布式数据的均衡处理方法的流程图；

图2是本申请实施例提供的分布式数据的均衡处理方法中获取shuffle统计数据的流程图；

图3A是本申请实施例提供的分布式数据的均衡处理方法中对数据倾斜分区进行切分的示意图；

图3B是本申请另一实施例提供的分布式数据的均衡处理方法中对数据倾斜分区进行切分的示意图；

图3C是本申请另一实施例提供的分布式数据的均衡处理方法中对数据倾斜分区进行切分的示意图；

图4、图5是本申请实施例提供的分布式数据的均衡处理方法的示例流程图；

图6是本申请实施例提供的分布式数据均衡处理装置的示意图；

图7是本申请实施例提供的计算终端的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

在本申请实施例的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

现有的分布式SQL(结构化查询语言，Structured Query Language)引擎是基于MapReduce理论的，无论是Hive、SparkSQL还是Impala，当进行Join或者统计操作的时候，Map过程会将Key相同的数据进行汇总写入Shuffle文件，Reduce过程会从Shuffle 中抓取Key相同的数据进入同一节点进行处理，因为相同的Key在不同的机器上是无法算出结果，这是现有硬件和软件架构下的唯一处理方式。当某个key的数据特别多，就会产生数据倾斜。数据倾斜体现在绝大多数节点的task执行得都非常快，但个别节点的task执行极慢，而整个作业的运行速度正是由运行时间最长的那个task决定的，所以数据倾斜会拉低整个作业的运行速度。

本申请实施例即为至少在一定程度上解决上述数据倾斜问题。

下面结合附图，对本申请实施例作进一步阐述。

第一方面，参照图1，本申请实施例提供了一种分布式数据的均衡处理方法，包括以下步骤：

步骤S100，获取shuffle统计数据。其中，shuffle统计数据包括shuffle阶段中各个分区的数据量。

参照图2，在一实施例中，步骤S100可以包括以下步骤：

步骤S110，在shuffle阶段每执行一条记录的写入操作，则更新对应分区的记录统计值；

步骤S120，根据记录统计值，获得各个分区的数据量。

举例来说，在不新起单独统计任务的情况下，可以在Shuffle Write阶段，通过简单的代码重构，获取本次作业中每个Map task里每个分区的数据量，数据量包含记录数和记录大小。具体实现可以在Shuffle Write阶段处理Map的每条记录的时候，以分区为统计单位，更新记录数与记录大小的统计值。以上流程嵌入现有的计算框架内部，基本没有性能损失。在后续步骤中，根据各分区记录数与记录大小的统计值，即可进行倾斜判断。

步骤S200，根据shuffle统计数据，判断是否存在数据倾斜分区。

在一些实施例中，通过预置的记录数阈值判断是否存在数据倾斜分区。当某个分区在所有Map的记录数之和大于预置的记录数阈值时，则认定该分区发生数据倾斜。

在另一些实施例中，通过预置的记录大小阈值判断是否存在数据倾斜分区。当某个分区在所有Map的记录大小之和大于预置的记录大小阈值时，则认定该分区发生数据倾斜。

其中，记录数阈值和记录大小阈值可以根据分区配置来定义。当一个分区Shuffle写的记录数或者记录大小的其中一项大于配置值的时候，即认为这个分区倾斜，即当R(P)>RSkew or S(P)>SSkew时，认定该分区倾斜。其中R(P)表示分区记录数，S(P)表示分区记录大小，RSkew表示分区配置的记录数阈值，SSkew表示分区配置的记录大小阈值。

记录数阈值和记录大小阈值还可以根据分区数据值的中位数的方式来定义，这里不使用平均数是因为平均数会受分区的分布情况影响，当存在极大或者极小值时，平均数失去比较的意义。具体实现可设置参数定义中位数阈值Cthreshold，当R(P)>RMedian*(1+Cthreshold)or S(P)>SMedian*(1+Cthreshold)，认定该分区倾斜。其中，RMedian、SMedia分别表示记录数和记录大小的中位数。

本申请实施例中提供的判断数据倾斜的方法，无需用户以任何方式感知倾斜，即能实现数据倾斜自动检测和数据倾斜分区的自动定位，也不会带来任何的性能损耗。

步骤S300，当存在数据倾斜分区时，对数据倾斜分区进行切分。

以下通过实施例，示例性地对步骤S300作进一步说明。

在一些实施例中，对数据倾斜分区进行切分可以根据数据倾斜分区在各个Map的数据量，以Map为单位将分区数据写入多个切分文件中，每个切分文件中的分区数据量小于预置阈值。

如图3A所示，假定P2分区为数据倾斜分区，并假定从Map1、Map2和Map3输出的P2分区数据相加后大于阈值，而Map1、Map2和Map3输出的各个P2分区数据均没有大于阈值，这时可以通过如下步骤对P2分区进行切分：

获取P2分区的每个Map的统计信息，设P2分区在Map1、Map2和Map3的记录数为：Rp{R(M1P2)，R(M2P2)，R(M3P2)}，P2分区在Map1、Map2和Map3的记录大小为：Sp{S(M1P2)，S(M2P2)，S(M3P2)}；

将Map1中P2分区的数据写入第一切分文件中；

判断R(M1P2)+R(M2P2)>记录数阈值,或者S(M1P2)+S(M2P2)>记录大小阈值是否成立，若有任一项成立，则生成新的切分文件，此处将新切分文件定义为第二切分文件，然后将Map2中P2分区的数据写入第二切分文件中；

判断R(M2P2)+R(M3P2)>记录数阈值,或者S(M2P2)+S(M3P2)>记录大小阈值是否成立，若两项均不成立，则将Map3中P2分区的数据写入第二切分文件中；

最后输出切分文件{M1P2，(M2P2,M3P2)}，对应为P2分区的P2-1和P2-2两个子分区。

上述是一个简单且普遍适用于多数计算框架的逻辑，这种方式可以减小对于计算框架的改动，且实际应用中会有不错的效果。这种方式下需要调整计算框架，支持一个ReduceTask读取该Reduce的部分Map数据。上述步骤可以在Map端执行，更一般的说，可以在现有计算框架中增加起始Map、结束Map来实现。当然本实施例提供的技术方案也可以在Reduce端执行，本申请对此不作过多的限制。

然而在一些实施例中，可能存在某个分区单个Map的Shuffle数据就大于阈值的情况，这时单个Map的数据无法完全写入一个切分列表中。针对这种情况，可以通过另外两个变体实施例来解决，这两个变体实施例分别是在Map端和Reduce端执行。

例如，一个变体实施例中，可以在Map端将分区数据写入输出文件的过程中，当输出文件中某个分区的数据值大于预置阈值时，生成新的输出文件写入余下的分区数据。

示例性地，如图3B所示，当P2分区在Map1的数据量大于记录数阈值或者记录大小阈值时，则在Map1的shuffle阶段，P2分区数据在写入输出文件的过程中，当输出文件的数据值大于预置阈值时，生成新的输出文件，将P2分区余下的数据写入新的输出文件中。

例如，另一变体实施例中，可以在Reduce端将抓取的分区数据写入输入文件时，当输入文件中的数据值大于预置阈值时，生成新的输入文件写入余下的分区数据。

示例性地，如图3C所示，当P2分区在Map1的数据量大于记录数阈值或者记录大小阈值，Reduce端抓取P2分区在Map1的数据写入输入文件时，当输入文件中的数据值大于预置阈值时，生成一个新的输入文件，将P2分区余下的数据写入新的输入文件中。

以上在Map端或在Reduce端执行的技术方案，均能达到将P2分区分成P2-1和P2-2两个子分区的目的。

步骤S400，根据切分后的分区，改写物理计划。

步骤S500，执行改写后的物理计划。

请参照图4，以下通过一个实施例来对步骤S400和步骤S500作进一步示例性说明。

如图4所示，A表和B表按照Key1进行Join操作；

假设表A的数据经过map函数形成两个分区A1、A2，表B的数据经过map函数形成两个分区B1、B2；

分区A1出现数据倾斜，则将分区A1切分为A1-1、A1-2两个子分区；

对原先的Join物理计划进行改写，生成新的以A1-1、A1-2与B1以及A2与B2子Join组成新的Union物理计划：

Join(A,B)＝Union(

Join(A1-1,B1),

Join(A1-2,B1),

Join(A2,B2),

)；

SQL引擎将Union翻译成计算框架的任务，提交给计算框架计算，计算完成返回整个Join操作的结果。

请参照图5，以下再通过一个实施例来对步骤S400和步骤S500作进一步示例性说明。

如图5所示，A表与B表按照Key1进行Join操作。

Join后生成的表T会按照Key2生成Shuffle数据；

假定T2分区所有Map的记录数：Rm1+Rm2+Rm3+Rm4+Rm5>RSkew，所以T2为倾斜分区；

T表与C表按照Key2进行Join操作,其中T按照Key2进行分区，本次Join按照Key2分成T1、T2、T3三个分区，T2分区倾斜，包含Map为{m1,m2,m3,m4,m5}，C表的C1、C2、C3分区没有倾斜。

因为T表T2分区的记录数满足RT2>RSkew，所以需要对T2分区进行切分，T2分区会被切分为{T2m1+T2m2，T2m3，T2m4+T2m5}三个子分区。

SQL引擎根据分区切分，会将物理计划重新生成，优化后的物理计划为：

Join(T,C)＝Union(

Join(T1,C1),

Join(T2m1+T2m2,C2),

Join(T2m3,C2),

Join(T2m4+T2m5,C2),

Join(T3,C3)

)；

先执行改写后的物理计划中的各个子Join。

将相应所有子Join的结果执行Union操作，生成一个新的结果。

通过以上本示例性说明，可以看出本方法即使对于多次Join后的场景，也可以很好的满足，同样地，在其它的子查询或者计算后也可以普遍满足。因为本申请的技术方案是基于普遍的SQL理论来动态设计的，所以具有广泛的适用性。

第二方面，请参照图6，本申请实施例提供了一种分布式数据均衡处理装置100，该装置100可应用于SQL引擎中，该装置100包括：

shuffle统计获取模块110，用于获取shuffle统计数据，其中，所述shuffle统计数据包括shuffle阶段中各个分区的数据量；

倾斜判断模块120，用于根据shuffle统计数据，判断是否存在数据倾斜分区；

分区切分模块130，用于当存在数据倾斜分区时，对数据倾斜分区进行切分；

物理计划改写模块140，用于根据切分后的分区，改写物理计划；

物理计划执行模块150，用于执行改写后的物理计划。

所述shuffle统计获取模块110，具体用于：

在shuffle阶段每执行一条记录的写入操作，则更新对应分区的记录统计值；

根据记录统计值，获得各个分区的数据量。

所述倾斜判断模块120具体用于：

当某个分区在所有Map的记录数之和大于预置的记录数阈值时，认定该分区发生数据倾斜；或者当某个分区在所有Map的记录大小之和大于预置的记录大小阈值时，认定该分区发生数据倾斜。

所述分区切分模块130具体用于：

根据数据倾斜分区在各个Map的数据量，以Map为单位将分区数据写入多个切分文件中，每个切分文件中的分区数据量小于预置阈值。

在另一变体中，所述分区切分模块130具体用于：

在Map端将分区数据写入输出文件的过程中，当输出文件中某个分区的数据值大于预置阈值时，生成新的输出文件写入余下的分区数据；或者在Reduce端将抓取的分区数据写入输入文件的过程中，当输入文件中的数据值大于预置阈值时，生成新的输入文件写入余下的分区数据。

本实施例提供的分布式数据均衡处理装置100，可执行上述第一方面提供的分布式数据均衡处理方法中各个实施例的技术方案，其实现原理和技术效果类似，其中各个模块的功能可以参考方法实施例中相应的描述，此处不再赘述。

第三方面，请参照图7，本申请实施例提供了一种计算终端200，包括处理器210、存储器220及存储在存储器220上并可在处理器210上运行的计算机程序，所述计算机程序时执行所述的分布式数据的均衡处理方法。

处理器210和存储器220可以通过总线或者其他方式连接。

存储器220作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如本申请第一方面实施例中的分布式数据的均衡方法。处理器210通过运行存储在存储器220中的非暂态软件程序以及指令，从而实现上述第一方面实施例中的分布式数据的均衡方法。

存储器220可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储执行上述第一方面实施例中的方法。此外，存储器220可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器220可选包括相对于处理器210远程设置的存储器，这些远程存储器可以通过网络连接至该终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述第一方面实施例中的分布式数据的均衡方法所需的非暂态软件程序以及指令存储在存储器220中，当被一个或者多个处理器210执行时，执行上述第一方面实施例中的方法，例如执行图1中描述的方法步骤S100至S500，图2中描述的方法步骤S210至S220。

第四方面，本申请实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行所述的分布式数据的均衡方法。

在一实施例中，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器210执行，例如，被第三方面实施例的计算终端中的一个处理器210执行，可使得上述一个或多个处理器210执行上述第一方面实施例中的分布式数据的均衡方法，例如，执行以上描述的图1中的方法步骤S100至S500，图2中的方法步骤S210至S220。

本申请实施例包括：获取shuffle统计数据；根据shuffle统计数据，判断是否存在数据倾斜分区；当存在数据倾斜分区时，对数据倾斜分区进行切分；根据切分后的分区，改写物理计划；执行改写后的物理计划。通过以上技术手段，能至少在一定程度上解决数据倾斜情况下导致性能大幅下降问题，实现分布式数据的均衡处理，提升分布式计算的运行速度。

当然，上述说明并非是对本申请的限制，本申请也并不仅限于上述举例，本技术领域的技术人员在本申请的实质范围内所做出的变化、改型、添加或替换，也应属于本申请的保护范围。

Claims

分布式数据的均衡处理方法，包括：

获取shuffle统计数据，其中，所述shuffle统计数据包括shuffle阶段中各个分区的数据量；

根据shuffle统计数据，判断是否存在数据倾斜分区；

当存在数据倾斜分区时，对数据倾斜分区进行切分；

根据切分后的分区，改写物理计划；

执行改写后的物理计划。
根据权利要求1所述的方法，其中，所述获取shuffle统计数据，包括：

在shuffle阶段每执行一条记录的写入操作，则更新对应分区的记录统计值；

根据记录统计值，获得各个分区的数据量。
根据权利要求1所述的方法，其中，

所述根据shuffle统计数据，判断是否存在数据倾斜分区，包括：

当某个分区在所有Map的记录数之和大于预置的记录数阈值时，认定该分区发生数据倾斜；

或者

当某个分区在所有Map的记录大小之和大于预置的记录大小阈值时，认定该分区发生数据倾斜。
根据权利要求1所述的方法，其中，所述当存在数据倾斜分区时，对数据倾斜分区进行切分，包括：

根据数据倾斜分区在各个Map的数据量，以Map为单位将分区数据写入多个切分文件中，每个切分文件中的分区数据量小于预置阈值。
根据权利要求1所述的方法，其中，所述当存在数据倾斜分区时，对数据倾斜分区进行切分，包括：

在Map端将分区数据写入输出文件的过程中，当输出文件中某个分区的数据值大于预置阈值时，生成新的输出文件写入余下的分区数据；

或者

在Reduce端将抓取的分区数据写入输入文件的过程中，当输入文件中的数据值大于预置阈值时，生成新的输入文件写入余下的分区数据。
分布式数据均衡处理装置，包括：

shuffle统计获取模块，用于获取shuffle统计数据，其中，所述shuffle统计数据包括shuffle阶段中各个分区的数据量；

倾斜判断模块，用于根据shuffle统计数据，判断是否存在数据倾斜分区；

分区切分模块，用于当存在数据倾斜分区时，对数据倾斜分区进行切分；

物理计划改写模块，用于根据切分后的分区，用于改写物理计划；

物理计划执行模块，用于执行改写后的物理计划。
根据权利要求6所述的装置，其中，所述shuffle统计获取模块具体用于：

在shuffle阶段每执行一条记录的写入操作，则更新对应分区的记录统计值；

根据记录统计值，获得各个分区的数据量。
根据权利要求6所述的装置，其中，所述倾斜判断模块具体用于：

当某个分区在所有Map的记录数之和大于预置的记录数阈值时，认定该分区发生数据倾斜；

或者

当某个分区在所有Map的记录大小之和大于预置的记录大小阈值时，认定该分区发生数据倾斜。
根据权利要求6所述的装置，其中，所述分区切分模块具体用于：

根据数据倾斜分区在各个Map的数据量，以Map为单位将分区数据写入多个切分文件中，每个切分文件中的分区数据量小于预置阈值。
根据权利要求6所述的装置，其中，所述分区切分模块具体用于：

在Map端将分区数据写入输出文件的过程中，当输出文件中某个分区的数据值大于预置阈值时，生成新的输出文件写入余下的分区数据；

或者

在Reduce端将抓取的分区数据写入输入文件的过程中，当输入文件中的数据值大于预置阈值时，生成新的输入文件写入余下的分区数据。
计算终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述计算机程序时执行权利要求1-5任一所述的方法。
计算机可读存储介质，存储有计算机可执行指令，其中，所述计算机可执行指令用于执行权利要求1-5任一所述的方法。