WO2019169619A1

WO2019169619A1 - 大数据随机采样数据子块的划分方法及装置

Info

Publication number: WO2019169619A1
Application number: PCT/CN2018/078509
Authority: WO
Inventors: 黄哲学; 何玉林; 张晓亮; 魏承昊; 朱胡飞
Original assignee: 深圳大学
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2019-09-12

Abstract

一种大数据随机采样数据子块的划分方法，适用于大数据处理技术领域，包括：切割一个大数据块，得到P个原始数据子块（S101）；从P个中的每一个所述原始数据子块中随机取出若干条数据，并把从每一个所述原始数据子块中取出的若干条数据组合，生成一个新的随机采样数据子块；重复提取组合的操作共K次，得到K个所述随机采样数据子块（S102）。该划分方法可以保证所得到的随机采样数据子块是整个大数据块的随机采样；并且，在得到各个随机采样数据子块时，并不需要对整个大数据块进行遍历，从而大大提高了效率。

Description

大数据随机采样数据子块的划分方法及装置

本发明属于大数据处理技术领域，尤其涉及一种大数据随机采样数据子块的划分方法及装置。

对于数据处理的任务，常规的传统数据分析的处理方式是直接处理全部数据；然而，随着数据量变大，直接处理全部数据在技术上不可行。

因此，一方面，Hadoop、Spark等的大数据处理系统的处理方式是divide-and-conquer (即分块处理)，将原始的大数据块切成若干个小数据块存储，再由相应的各个计算集群(computing clusters)处理，从而将大数据整体的分析任务转变成多个可并行处理的子任务。然而，现有的这种大数据分块处理方法不考虑这些数据块的概率分布，通常顺序的把一个大数据块切割成多个数据子块，对大数据块做顺序切割得到的数据子块，没法保证是整个大数据块的随机采样；相应的，直接用数据子块估计整个大数据的统计特性或者做数据分析，将得到有偏差的结果。

另一方面，传统的随机采样方法为：每次扫描整个大数据块以得到一个随机采样数据子块，若采用这种方式，每次为了得到一个随机采样数据子块，都需要扫描整个大数据块，随着大数据块尺寸越来越大，这种策略的效率急剧下降。

所以，高效率的把一个大数据块切分成多个数据子块，每个数据子块是整个大数据块的随机采样，成为大数据分析面临的基础问题。有了随机采样数据子块，我们就能进行统计抽样，即通过处理部分子数据小块得到的信息去近似替代大数据整体的信息。

发明内容

本发明提供一种大数据随机采样数据子块的划分方法及装置，旨在提出高效率的随机采样数据分块技术，把大数据块表示成一系列互不重叠的数据子块，每个数据子块本身是整个大数据块的随机采样。

本发明提供了一种大数据随机采样数据子块的划分方法，所述方法包括：

步骤S1，切割一个大数据块，得到P个原始数据子块；

步骤S2，从P个中的每一个所述原始数据子块中随机取出若干条数据，并把从每一个所述原始数据子块中取出的若干条数据组合，生成一个新的随机采样数据子块；重复执行此步骤共K次，得到K个所述随机采样数据子块。

进一步地，所述步骤S1具体为：顺序的均匀切割一个大数据块，得到P个原始数据子块，其中，每个所述原始数据子块中包含n条数据。

进一步地，所述步骤S2中，所述若干条数据为b条数据，K=n/b，其中，n为每个所述原始数据子块中包含的数据条数，b为每次从每一个所述原始数据子块中提取出的数据条数。

进一步地，所述步骤S2中，所述若干条数据为b条数据；b=n/P，其中，n为每个所述原始数据子块中包含的数据条数，P为原始数据子块的个数；K=P。

进一步地，所述大数据块为Hadoop分布式文件系统。

本发明还提供了一种大数据随机采样数据子块的划分装置，所述装置包括：

切割模块，用于切割一个大数据块，得到P个原始数据子块；

随机采样模块，用于从P个中的每一个所述原始数据子块中随机取出若干条数据，并把从每一个所述原始数据子块中取出的若干条数据组合，生成一个新的随机采样数据子块；重复此操作共K次，得到K个所述随机采样数据子块。

进一步地，所述切割模块具体用于：顺序的均匀切割一个大数据块，得到P个原始数据子块，其中，每个所述原始数据子块中包含n条数据。

进一步地，所述随机采样模块中，所述若干条数据为b条数据，K=n/b，其中，n为每个所述原始数据子块中包含的数据条数，b为每次从每一个所述原始数据子块中提取出的数据条数。

进一步地，所述随机采样模块中，所述若干条数据为b条数据；b=n/P，其中，n为每个所述原始数据子块中包含的数据条数，P为原始数据子块的个数；K=P。

进一步地，所述大数据块为Hadoop分布式文件系统。

本发明与现有技术相比，有益效果在于：本发明提供的一种大数据随机采样数据子块的划分方法及装置，首先，将一个大数据块进行切割，得到P个原始数据子块；然后，从P个中的每一个原始数据子块中随机取出若干条数据，并把从每一个所述原始数据子块中取出的若干条数据组合，生成一个新的随机采样数据子块；重复提取组合操作K次，共得到K个随机采样数据子块；本发明与现有技术相比，先进行数据分块，再进行数据随机化，可以保证所得到的随机采样数据子块是整个大数据块的随机采样；并且，在得到各个随机采样数据子块时，不需要遍历扫描整个大数据块，从而大大提高了效率。

附图说明

图1是本发明实施例提供的一种大数据随机采样数据子块的划分方法的流程示意图；

图2是本发明实施例提供的另一种大数据随机采样数据子块的划分方法的流程示意图；

图3是本发明实施例提供的另一种大数据随机采样数据子块的划分方法的流程示意图；

图4是本发明实施例提供的一种大数据随机采样数据子块的划分装置的模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

由于现有技术中，一方面存在每个数据子块本身无法保证是整个大数据块的随机采样的问题，另一方面存在每次得到一个随机采样数据子块都需要扫描整个大数据块，从而导致效率低的问题。

为了解决上述技术问题，本发明提出一种大数据随机采样数据子块的划分方法及装置，该方法先将大数据分块，再进行数据随机化，得到新的随机采样数据子块，这种新的随机采样数据子块本身是整个大数据块的随机采样，在执行效率上有很大的优势，不需要遍历扫描整个大数据块。

下面举一具体实施例介绍一种大数据随机采样数据子块的划分方法，如图1所示，包括：

步骤S101，切割一个大数据块，得到P个原始数据子块；

具体地，在实际操作中，通常是顺序的切割，在现有的大数据处理系统中，这是一个很常见的操作；但是本发明实施例不限于顺序的切割，也可以采用其它的办法切割。比如，假定一个大数据块有100条数据，编号为1到100，需要切割成10个原始数据子块，如果顺序切割，就是1到10为一块，11到20为一块，等等；也可以用其它办法切割成10个原始数据子块，比如1、11、21、31直到91为一块，2、12、22、32直到92为一块，等等。

通常大数据块D是一个分布式数据集，例如，用分布式文件系统例如Hadoop分布式文件系统(HDFS)切分成P个数据子块并且分布式放置在一个计算集群中。

步骤S102，从P个中的每一个所述原始数据子块中随机取出若干条数据，并把从每一个所述原始数据子块中取出的若干条数据组合，生成一个新的随机采样数据子块；重复执行此操作共K次，得到K个所述随机采样数据子块。

具体地，本发明实施例提供的所述原始数据子块中的数据为记录，从每个所述原始数据子块中取出记录的条数不一定是相同的，且取出之后不再用其它记录去替换，把从每个所述原始数据子块中取出的若干条记录组合，即可得到一个新的随机采样数据子块，而得到的这种新的所述随机采样数据子块即为整个大数据块D的随机采样。

具体地，得到的K个所述随机采样数据子块中的每一个皆为整个大数据块D的随机采样。

本发明实施例提供的一种大数据随机采样数据子块的划分方法，在一个计算集群(computing cluster)上生成一个随机采样数据划分(RSDP: Random Sample Data Partition)，把大数据块D表示成一系列互不重叠的随机采样数据子块，每个随机采样数据子块本身是整个大数据块D的随机采样；特别的，本发明实施例在得到各个随机采样数据子块时，并不需要对整个大数据块进行遍历，从而大大提高了效率。

下面再举一具体实施例介绍一种大数据随机采样数据子块的划分方法，如图2所示，包括：

步骤S201，顺序的均匀切割一个大数据块，得到P个原始数据子块，其中，每个所述原始数据子块中包含n条数据；

具体地，本发明实施例提供的所述原始数据子块中的数据为记录，通过均匀切割，得到的每个所述原始数据子块中包含的记录条数是相等的，为n条记录。

步骤S202，从P个中的每一个所述原始数据子块中随机取出b条数据，并把从每一个所述原始数据子块中取出的b条数据组合，生成一个新的随机采样数据子块；重复执行此操作共K次，得到K个所述随机采样数据子块；其中，K=n/b。

具体地，从每个所述原始数据子块中随机取出相等的b条记录，把从每个所述原始数据子块中取出的b条记录组合，即可得到一个新的随机采样数据子块，而得到的这种新的所述随机采样数据子块即为整个大数据块D的随机采样。

具体地，K=n/b，其中，n为每个所述原始数据子块中包含的记录条数，b为每次从每一个所述原始数据子块中提取出的记录条数；通过提取并组合共n/b次，即可得到n/b个所述随机采样数据子块。

本发明实施例提供的一种大数据随机采样数据子块的划分方法，通过均匀分割并均匀提取组合的方式，得到一系列互不重叠的随机采样数据子块，一方面，可以保证所得到的数据子块是整个大数据块的随机采样；另一方面，在执行效率上有很大的优势，不需要遍历扫描整个大数据块。

下面再举一具体实施例介绍一种大数据随机采样数据子块的划分方法，如图3所示，包括：

步骤S301，顺序的均匀切割一个大数据块，得到P个原始数据子块，其中，每个所述原始数据子块中包含n条数据；

步骤S302，从P个中的每一个所述原始数据子块中随机取出b条数据，并把从每一个所述原始数据子块中取出的b条数据组合，生成一个新的随机采样数据子块；重复执行此操作共K次，得到K个所述随机采样数据子块；其中，b=n/P。

具体地，b=n/P，其中，n为每个所述原始数据子块中包含的数据条数，P为原始数据子块的个数。

具体地，从每个所述原始数据子块中随机取出相等的n/P条记录，把从每个所述原始数据子块中取出的n/P条记录组合，即可得到一个新的随机采样数据子块，而得到的这种新的所述随机采样数据子块即为整个大数据块D的随机采样。

具体地，K=P；通过提取并组合共P次，即可得到P个所述随机采样数据子块。通过这种提取组合的方式得到的所述随机采样数据子块的个数和分割之后得到的所述原始数据子块的个数相等，并且，每个所述随机采样数据子块的记录条数也和所述原始数据子块的记录条数相等。

本发明实施例提供的一种大数据随机采样数据子块的划分方法，提出高效率的随机采样数据分块技术，通过把大数据块D划分成K个随机采样数据子块，每个随机采样数据块包含n条记录；可以保证所得到的随机采样数据子块是整个大数据块的随机采样；并且在执行效率上有很大的优势，不需要遍历扫描整个大数据块。

下面再举一具体实施例介绍一种大数据随机采样数据子块的划分装置，如图4所示，包括：

切割模块401，用于切割一个大数据块，得到P个原始数据子块；

随机采样模块402，用于从P个中的每一个所述原始数据子块中随机取出若干条数据，并把从每一个所述原始数据子块中取出的若干条数据组合，生成一个新的随机采样数据子块；重复此操作共K次，得到K个所述随机采样数据子块。

需要说明的是，大数据随机采样数据子块的划分装置的相关内容具体可参阅图1-3所示实施例中描述的大数据随机采样数据子块的划分方法，此处不做赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种大数据随机采样数据子块的划分方法，其特征在于，所述方法包括：
步骤S1，切割一个大数据块，得到P个原始数据子块；
步骤S2，从P个中的每一个所述原始数据子块中随机取出若干条数据，并把从每一个所述原始数据子块中取出的若干条数据组合，生成一个新的随机采样数据子块；重复执行此步骤共K次，得到K个所述随机采样数据子块。
如权利要求1所述的大数据随机采样数据子块的划分方法，其特征在于，所述步骤S1具体为：顺序的均匀切割一个大数据块，得到P个原始数据子块，其中，每个所述原始数据子块中包含n条数据。
如权利要求2所述的大数据随机采样数据子块的划分方法，其特征在于，所述步骤S2中，所述若干条数据为b条数据，K=n/b，其中，n为每个所述原始数据子块中包含的数据条数，b为每次从每一个所述原始数据子块中提取出的数据条数。
如权利要求2所述的大数据随机采样数据子块的划分方法，其特征在于，所述步骤S2中，所述若干条数据为b条数据；b=n/P，其中，n为每个所述原始数据子块中包含的数据条数，P为原始数据子块的个数；K=P。
如权利要求1-4任一项所述的大数据随机采样数据子块的划分方法，其特征在于，所述大数据块为Hadoop分布式文件系统。
一种大数据随机采样数据子块的划分装置，其特征在于，所述装置包括：
切割模块，用于切割一个大数据块，得到P个原始数据子块；
随机采样模块，用于从P个中的每一个所述原始数据子块中随机取出若干条数据，并把从每一个所述原始数据子块中取出的若干条数据组合，生成一个新的随机采样数据子块；重复此操作共K次，得到K个所述随机采样数据子块。
如权利要求6所述的大数据随机采样数据子块的划分装置，其特征在于，所述切割模块具体用于：顺序的均匀切割一个大数据块，得到P个原始数据子块，其中，每个所述原始数据子块中包含n条数据。
如权利要求7所述的大数据随机采样数据子块的划分装置，其特征在于，所述随机采样模块中，所述若干条数据为b条数据，K=n/b，其中，n为每个所述原始数据子块中包含的数据条数，b为每次从每一个所述原始数据子块中提取出的数据条数。
如权利要求7所述的大数据随机采样数据子块的划分装置，其特征在于，所述随机采样模块中，所述若干条数据为b条数据；b=n/P，其中，n为每个所述原始数据子块中包含的数据条数，P为原始数据子块的个数；K=P。
如权利要求6-9任一项所述的大数据随机采样数据子块的划分装置，其特征在于，所述大数据块为Hadoop分布式文件系统。