WO2017181614A1

WO2017181614A1 - 流式数据定位方法、装置及电子设备

Info

Publication number: WO2017181614A1
Application number: PCT/CN2016/101092
Authority: WO
Inventors: 赵富欣
Original assignee: 乐视控股（北京）有限公司; 乐视网信息技术（北京）股份有限公司
Priority date: 2016-04-21
Filing date: 2016-09-30
Publication date: 2017-10-26
Also published as: CN105912274A

Abstract

一种数据定位方法、装置及电子设备，所述方法包括：接收数据定位参数，根据所述数据定位参数查询对应的数据块的说明信息从而确定目标数据所在的数据段（110）；以预设的步长对所述数据段进行数据采样，并获取所述数据采样结果的数据识别标识（120）；根据所述数据识别标识以及所述数据定位参数判断所述数据采样结果是否包含所述目标数据，当判定为是时，在所述数据采样结果中逐条进行判断，直至定位目标数据（130）。所述方法实现了精准高效的数据定位。

Description

流式数据定位方法、装置及电子设备

交叉引用

本申请要求于2016年04月21日递交中国专利局，申请号为201610252499.4的中国专利申请的优先权，其全部内容通过引用被全部并入本申请。

技术领域

本申请涉及数据处理领域，尤其涉及一种流式数据定位方法及装置。

背景技术

大量的实时消息保存在消息队列之后，通过分布式处理的方式保存在HDFS(Hadoop分布式文件系统)中。例如互联网环境下，每一个时刻产生的消息数量都是十分庞大的，后台会通过消息管道收集这些消息。

这些实时的消息数据是流式传输的，其特点是像水流一样不间断传输的且其存储是分片的。在对流式数据进行处理的时候，因其数据量较大，需要足够多的资源才能够高效地对其进行处理。而分布式系统有足够多的资源，因此，在数据处理之前，需将保存的流式数据上传至分布式文件系统。

接收到的流式数据不一定都保存在内存中，也可能持久化保存在磁盘上，磁盘上的数据是一块一块的。随着时间的推移以及数据量的增多，每一个数据块中存储的数据量达到一定量之后，会生成一个新的数据块。

将流式数据保存至分布式文件系统中时，其难点在于，根据用户发送的数据需求进行流式数据的定位；例如，定位某一天的数据或者某一天中某几个小时的数据。因为数据存储的单位是块，而不是按照时间粒度来存储的。块是数据存储的最小粒度单位，因此，某一种数据如果一个月只有一块数据，那么，这块数据包含了此月份的30天数据，在数据进行定位的时候就只能定位到月粒度，而不能定位到天粒度；如果某一种数据的1天有10块数据，那么定位的精度就小于1天。现有的方案流式定位解决方案不能提供精确定位的数据功能，只能得到一个比较粗略的定位值，而且准确度不高。

例如，用户想查找的数据是3月1号的数据，然而3月1号的数据是保存在3月份的数据中，在粗略定位的时候，只能粗略定位到用户所需求的数据段存储在3月的数据块中，但并不能够告知具体是哪一块数据。若是将整个数据块中的数据均上传至处理系统，则工作量非常庞大。

因此，一种流式数据定位方法亟待提出。

发明内容

本申请实施例提供一种流式数据定位方法、装置及电子设备，用以解决现有技术中数据定位不准确以及数据上传至分布式系统时效率低的缺陷，实现数据精准高效的数据定位。

本申请实施例提供一种流式数据定位方法，包括：

接收数据定位参数，根据所述数据定位参数查询对应的数据块的说明信息，确定目标数据所在的数据段；

以预设的步长对所述数据段进行数据采样，并获取所述数据采样结果的数据识别标识；

根据所述数据识别标识以及所述数据定位参数，判断所述数据采样结果是否包含所述目标数据，当判定为是时，在所述数据采样结果中逐条判断，直至定位目标数据。

本申请实施例提供一种流式数据定位装置，包括：

第一定位模块，用于接收数据定位参数，根据所述数据定位参数查询对应的数据块的说明信息，确定目标数据所在的数据段；

采样模块，用于以预设的步长对所述数据段进行数据采样，并获取所述数据采样结果的数据识别标识；

第二定位模块，用于根据所述数据识别标识以及所述数据定位参数，判断所述数据采样结果是否包含所述目标数据，当判定为是时，在所述数据采样结果中逐条进行判断，直至定位目标数据。

本申请实施例还提供一种非暂态计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行本申请上述任一项流式数据定位方法。

本申请实施例提供一种数据定位电子设备，包括：至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请上述任一项网页页面显示方法。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本申请上述任一项网页页面显示方法。

本申请实施例提供的流式数据定位方法及装置，根据数据定位参数获取目标数据所在数据段，并对所述数据段进行取样从而根据取样结果对数据进行定位，改变了现有技术进行流式数据定位时，需要逐一对数据段进行对比的繁琐操作，实现了精确的数据定位，提高了数据上传至分布式文件系统的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一的技术流程图；

图2为本申请实施例二的技术流程图；

图3为本申请实施例三的装置实施例结构示意图；

图4为本申请实施例四的数据定位电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例可以有如下应用场景：流式数据需要上传至分布式系统并行处理，在上传之前，需要根据目标数据需求来对当前保存的数据进行定位，即在大量存储的流式数据精确地中找到目标数据并且在找到这些数据之后将这些数据上传至分布式系统进行处理。

图1是本申请实施例一的技术流程图，结合图1，本申请实施例一种数据定位方法，主要包括如下的步骤：

步骤S110：接收数据定位参数，根据所述数据定位参数查询对应的数据块的说明信息从而确定目标数据所在的数据段；

步骤S120：以预设的步长对所述数据段进行数据采样，并获取所述数据采样结果的数据识别标识；

步骤S130：根据所述数据识别标识以及所述数据定位参数判断所述数据采样结果是否包含所述目标数据，当判定为是时，在所述数据采样结果中逐条进行判断，直至定位目标数据。

具体的，在步骤S110中，所述数据定位参数是数据需求方发送的，用于根据此参数进行数据的定位。所述数据定位参数可以包括数据对应的时间标签、行号、索引号、偏移量等。例如，某一用户需要获取xx年x月x日的数据进行分析，“xx年x月x日”即数据定位参数；或，用户需要获取索引号为xxx的数据，“索引号xxx”即数据定位参数。

本步骤中，根据所述数据定位参数查询数据库的说明信息，具体以所述数据定位参数为参考，查询现有每一个数据块的说明信息。所述数据块的说明信息是描述数据块的数据，包含对数据块及信息资源的描述性信息，例如，某一数据块中存储的是某个月几号至几号的数据。

由于每一个数据库中都存在大量的数据，在进行数据定位时，若是根据定位需求参数对每一条数据逐条比对则十分浪费时间以及计算资源。然而，相对于每一数据中的数据量而言，其对应说明信息的数据量是极小的，因此，本申请实施例中，首先根据所述定位需求参数遍历查询每一数据块的说明信息，粗略定位目标数据所在的数据块，后续再根据这些数据块进行下一步更细致的定位。这一步粗略查询过程极大缩小了数据定位的范围，节省了数据定位时间。

具体的，在步骤S120中，所述预设的步长可以是一个变量，根据数据块中包含的数据总量的大小以及每一次采样的结果进行调整。例如，某一数据块中包含的数据量十分庞大，若采样步长过小，则采样的次数增多，导致数据定位的效率无法提升；若某一数据块中包含的数据量比较小，若采用过大的采样步长，则容易导致采样得到的数据量占整个数据块的比重很大，在后续进行精确定位时，需要逐条比较的数据量增大。因此，所述预设的步长是一个与数据块包含的数据量大小相关的经验值。

另，当以较小的步长对数据块进行第一次采样后，对采样结果进行识别，根据采样数据的数据识别标识判断得知采样结果十分接近目标数据，此时可以保持原步长进行采样也可以适当增大采样步长，从而能够以最节省时间的方式快速找到目标数据所在的数据段。

其中，所述数据识别标识同步骤S110中的所述数据定位参数相同，这些识别标识是数据本身带有的，可以包括数据对应的时间标签、行号、索引号、偏移量等。

具体的，在步骤S130中，根据所述数据识别标识以及所述数据定位参数判断所述数据采样结果是否包含所述目标数据，即对比接收到的来自用户的所述数据定位参数以及从采样数据中读取到的采样数据的所述数据识别标识是否一致。例如，当所述数据定位参数为数据的时间标签时，则根据所述时间标签，查询采样得到的数据的所述数据识别标识中包含的时间标签，判断是否有一致的，若有，则判定所述数据采样结果包含所述目标数据。

若所述数据采样结果中并不包含所述目标数据，则将对所述数据段继续采样。具体的，从所述数据采样结果的结束位置起，以所述预设的步长对所述数据段进行数据再采样，并获取所述数据再采样结果的数据识别标识直至根据所述数据识别标识以及所述数据定位参数判定所述数据再采样结果包含所述目标数据。

其中，判断所述数据采样结果是否包含所述目标数据，可以是如下的方法：

当所述数据定位参数为数据时间标签时，查询数据采样结果中的第一条数据的数据识别标识中包含的数据时间标签，对比两个数据时间标签哪个在前哪一个在后。因流式数据是一条按照数据来的时间顺序进行存储的，在时间上是有先后的，因此，对比采样得到数据的时间标签即可判断所述采样数据是否包含目标数据。若是采样结果的第一条数据在时间上滞后定位需求的时间标签上对应的时间，则说明，目标数据一定是当前采样结果之前的数据，所述第一条数据之后的数据一定不是目标数据，则无需再向后采样；反之，若采样结果的第一条数据在时间上超前定位需求的时间标签对应的时间，则说明定位需求的目标数据在所述第一条数据之后，还需继续在剩下的数据段中进行采样甚至多次采样。其中，在所述数据采样的过程中，所述预设的步长可以不断进行更新，步长的更新过程中更新值的取值大小是一个经验过程，本申请实施例中并不限制具体更新值的大小。

例如，本申请实施例可以有如下的步长更新过程，对定位得到的数据段进行采样，以固定步长N(设N＝5000)进行采样，采样步长的设置逻辑可以为0+5000*n，即首先在0+5000*1处采样一条数据，进行匹配，如果不包含目标数据，继续取在0+5000*2处采样一条数据，发现包含目标数据，则可判断得知目标数据在第5000条数据至第1000条数据之间，此时需要在5000至10000的数据段之间进行采样，步长需要更新。例如可更新为 (10000-5000)/2＝2500，步长为采样数据中数据条数的一半。即在7500条数据处采样一条数据并与定位参数进行对比，若不匹配，则继续更新(缩小)采样步长。如果采样结果中，数据的条数小于预设的数据量阈值，则就一次采样出所有数据，逐条判断是否匹配，此时的步长就理论是1。本申请实施例中，所述数据量阈值可以是200，因为当数据量小于200时，网络访问开销的时间和本地查询的时间开销相近，这时停止抽样，效率最高。

需要说明的是，在本申请实施例中，对所述数据定位参数以及所述数据识别标识进行比对时，通常选择当前数据采样结果中的第一条数据的数据识别标识与所述数据定位参数进行对比，若第一条数据的所述数据识别标识与所述数据定位参数不一致，则不再对比当前采样结果中的剩余数据，可直接判断当前采样数据结果中不包含目标数据。

当确认对数据进行采样甚至再采样的结果中包含目标数据且下一次再采样的结果中不包含目标数据时，便停止采样，如此便得到了包含目标数据的所有采样数据。之后，在得到的采样数据中，根据所述数据定位参数，逐条对比采样数据中的每一条数据是否为目标数据，从而做到高效率定位。本实施例中，根据数据定位参数获取目标数据所在数据段，并对所述数据段进行取样从而根据取样结果对数据进行定位，改变了现有技术进行流式数据定位时，需要逐一对数据段进行对比的繁琐操作，实现了精确的数据定位，提高了数据上传至分布式文件系统的效率。

图2是本申请实施例二的技术流程图，结合图2，本申请一种数据定位方法，还包括如下可行的实施步骤：

步骤S210：接收数据定位参数，根据所述数据定位参数查询对应的数据块的说明信息从而确定目标数据所在的数据段；

步骤S220：以预设的步长对所述数据段进行数据采样，并获取所述数据采样结果的数据识别标识；

步骤S230：根据所述数据识别标识以及所述数据定位参数判断所述数据采样结果是否包含所述目标数据，当判定为是时，在所述数据采样结果中逐条进行判断，直至定位目标数据。

步骤S240：根据预设策略对所述目标数据进行分段；

步骤S250：将所述分段的结果封装并生成分布式并行任务上传至分布式文件系统。

上述步骤S210～步骤S230同实施例一种的步骤S110～步骤S130，此处不再赘述。

具体的，在步骤S240中，所述预设策略可以包括如下方式：

其一，根据分布式集群中计算节点的数量对所述目标数据进行均分；

其二，根据分布式集群中计算节点的数量、所述计算节点的计算效率以及计算时间需求计算数据分段阈值并根据所述数据分段阈值对所述目标数据进行分段。

其中，均分的过程并没有考虑到服务器集群中每个计算节点的计算资源剩余量以及计算能力，直接按照计算节点的数量对待处理的目标数据进行平均分，其优势在于，省去对每一计算节点计算能力的分析，更加节约时间。

在另一种数据分段方式中，在分段之前，优先获取服务器集群中每个节点字计算能力，例如计算效率以及计算时间需求，从而根据这些参考数据在对数据进行分段的时候适当做一些倾斜，能够实现更合理的计算任务分配。

具体的，在步骤S250中，定位得到的目标数据在上传至分布式文件系统之前需要进行封装。

通过前述步骤，得到了精确定位以及分段后的目标数据，对于分段的数据而言，每一段数据都有开始位置，结束位置，数据的存储服务器位置，数据的元数据信息等。

本步骤中，所述封装是将每个分段的开始位置，结束位置，数据的存储服务器位置，数据的元数据信息等都包装成一种Hadoop分布式任务MapReduce认识的数据对象，从而MapReduce任务拿到这些分段信息，就可以访问分段里的具体数据，将数据保存到分布式文件系统中。由于MapReduce任务是分布式的，资源充足的，处理效率非常高。

本实施例中，在精确定位用户所需数据后，按照预设的策略对数据进行分段，充分考虑了分布式处理系统的服务器资源利用率以及计算资源利用率，进一步提升了数据上传至分布式文件系统的效率。

图3是本申请实施例三的装置结构示意图，结合图3，本申请实施例一种数据定位装置，包括如下的模块：

第一定位模块310，用于接收数据定位参数，根据所述数据定位参数查询对应的数据块的说明信息从而确定目标数据所在的数据段；

采样模块320，用于以预设的步长对所述数据段进行数据采样，并获取所述数据采样结果的数据识别标识；

第二定位模块330，用于根据所述数据识别标识以及所述数据定位参数判断所述数据采样结果是否包含所述目标数据，当判定为是时，在所述数据采样结果中逐条进行判断，直至定位目标数据。

。

其中，所述数据定位参数，具体包括：数据对应的时间标签、行号、索引号、偏移量。

其中，所述采样模块320具体用于：从所述数据段的起始位置开启，以所述预设的步长从所述数据段中取出相应数量的数据。

其中，所述第二定位模块330具体还用于：若为否，则从所述数据采样结果的结束位置起，以所述预设的步长对所述数据段进行数据再采样，并获取所述数据再采样结果的数据识别标识直至根据所述数据识别标识以及所述数据定位参数判定所述数据再采样结果包含所述目标数据。

其中，所述第二定位模块330还用于：在所述数据采样的过程中，根据所述数据识别标识以及所述数据定位参数的对比结果对所述预设的步长进行更新。

其中，所述装置还包括分段模块340，所述分段模块340用于：根据预设策略对所述目标数据进行分段，将所述分段的结果封装并生成分布式并行任务上传至分布式文件系统。

其中，所述预设策略包括：根据分布式集群中计算节点的数量对所述目标数据进行均分；或，根据分布式集群中计算节点的数量、所述计算节点的计算效率以及计算时间需求计算数据分段阈值并根据所述数据分段阈值对所述目标数据进行分段。

图3所示装置可以执行图1以及图2所示实施例的方法，实现原理和技术效果参考图1以及图2所示实施例，不再赘述。

本申请实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的数据定位方法。

图4为本申请实施例四的数据定位电子设备的结构示意图，本实施例所述设备可以为数据定位服务器或数据定位服务器中的一部分，该设备可以包括：

一个或多个处理器401以及存储器402，图4中以一个处理器401为例。

网页页面显示电子设备还可以包括：输入装置403和输出装置404。

处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接。

存储器402作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的网页页面显示方法对应的程序指令/模块。处理器401通过运行存储在存储器402中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例网页页面显示方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据网页页面显示装置的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至列表项操作的处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置403可接收输入的数字或字符信息，以及产生与网页页面显示装置的用户设置以及功能控制有关的键信号输入。输出装置404可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器402中，当被所述一个或者多个处理器401执行时，执行上述任意方法实施例中的网页页面显示方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

应用实例

以下部分将结合一个具体的应用场景，以一个实际的例子对本申请实施例的技术方案进行进一步的阐述。

在一存储介质上存储有来自视频网站的用户评论数据，数据消费者需要对这些评论数据进行处理从而分析用户的视频观看兴趣度以及观看热点。用户的评论数据是不断产生的流式数据，在服务器端，这些评论数据以数据块的形式存放在存储介质中。存储数据源源不断的来，当前数据块存满之后，新来的数据会另起一个数据块来存储数据。

假设该视频网站于2016年4月1日首映了一部电影，此时想获取电影首映一周后的用户评论数据从而对电影的播放效果进行分析。然而所有的评论数据都是分块存放的，数据块的数量较多，从这些大量的数据中定位出数据消费者所需的数据是一个难点。按照本申请实施例的技术方案，为节省效率，不能将所有的数据块都扫描一遍，只能根据数据消费者需求的数据首先告诉获取某一段时间内产生的数据块的地址，例如2016年的评论数据存放在哪些数据块或2016年4月的数据存放在那些数据块。

每一数据块都有说明信息，读取每一数据块的说明信息，即可知道这一数据块中存放了那些时段的评论数据。假设，本实施例中，根据用户给的定位参数，即2016年4月这一时间标签定位到存储介质中数据块1和数据块2存放有2016年4月份的评论数据。那么接下来，将在数据块1和数据块2中继续查询有哪些数据是2016年4月的数据甚至具体到哪些数据是2016年4月1日～2016年4月7日的数据。此时，存储介质中，除数据块1和数据块2的其他数据块都可以放弃，不对它们进行查询，从而一改现有技术对所有数据块均进行扫描的缺陷，提升了数据粗定位的效率。

在确定数据块1和数据块2中包含需求的目标数据之后，采用一定的采样步长对分别对数据块1和数据块2进行采样。以下部分以对数据块1的采样过程为例进行详细阐述。

假设采样步长为每次采样1000条数据，则从数据块1的起始位置开始，抽取1000条数据，并获取这1000条数据中的第一条数据的时间标签，查询时间标签对应的时间，若是时间在2016年4月1日之前，则放弃这1000条采样数据，对数据块1继续采样。下一次采样的步长可以是一次取1000条数据或者一次取5000条数据。采样的起始节点从上一次采样的末端开始，假设再采样1000条数据，取1000条数据中的第一条数据，对比时间标签后发现仍然包括目标数据，则可再增大采样步长，例如，从第二次采样数据的末端开始，再采样1000条数据。选取1000条数据中的第一条数据，对比时间标签后，发现这次采样得到的第一条数据的时间标签滞后于2016年4月，可判定目标数据在第2000条数据和第3000条数据之间，此时更新采样步长为(3000-2000)/2＝500。接下来以500为采样步长，对采样得到的第2000条数据和第3000条数据之间进行采样，即判断第2500条数据是否大于2016年4月7，若判定为是，这继续缩小采样步长为(2500-2000)/2＝250，即判断第2250条数据是否大于2016年4月7，若判定为是，则抽出2000至2250之间的250条数据，逐条对比这250条数据中哪些数据是2016年4月1日～2016年4月7日的数据。由于流式数据是有序的，因此，采用上述方法即可完全找出用户所需求的2016年4月1日～2016年4月7日的用户评论数据。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种数据定位方法，应用于电子设备，其特征在于，包括如下的步骤：

接收数据定位参数，根据所述数据定位参数查询对应的数据块的说明信息，确定目标数据所在的数据段；

以预设的步长对所述数据段进行数据采样，并获取所述数据采样结果的数据识别标识；

根据所述数据识别标识以及所述数据定位参数，判断所述数据采样结果是否包含所述目标数据，当判定为是时，在所述数据采样结果中逐条进行判断，直至定位目标数据。
根据权利要求1所述的方法，其特征在于，以预设的步长对所述数据段进行数据采样，具体包括：

从所述数据段的起始位置开启，以所述预设的步长从所述数据段中取出相应数量的数据。
根据权利要求1所述的方法，其特征在于，根据所述数据识别标识以及所述数据定位参数判断所述数据采样结果是否包含所述目标数据，还包括：

若为否，则从所述数据采样结果的结束位置起，以所述预设的步长对所述数据段进行数据再采样，并获取所述数据再采样结果的数据识别标识，直至根据所述数据识别标识以及所述数据定位参数判定所述数据再采样结果包含所述目标数据。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述数据采样的过程中，根据所述数据识别标识以及所述数据定位参数的对比结果对所述预设的步长进行调整。
根据权利要求1所述的方法，其特征在于，所述数据定位参数，具体包括：

数据对应的时间标签、行号、索引号、偏移量。
根据权利要求1所述的方法其特征在于，所述方法还包括：

根据预设方法对所述目标数据进行分段，将所述分段的结果封装并生成分布式并行任务上传至分布式文件系统。
根据权利要求6所述的方法，其特征在于，所述预设方法包括：

根据分布式集群中计算节点的数量对所述目标数据进行均分；或，

根据分布式集群中计算节点的数量、所述计算节点的计算效率以及计算时间需求计算数据分段阈值并根据所述数据分段阈值对所述目标数据进行分段。
一种数据定位装置，其特征在于，包括如下的模块：

第一定位模块，用于接收数据定位参数，根据所述数据定位参数查询对应的数据块的说明信息，确定目标数据所在的数据段；

采样模块，用于以预设的步长对所述数据段进行数据采样，并获取所述数据采样结果的数据识别标识；

第二定位模块，用于根据所述数据识别标识以及所述数据定位参数，判断所述数据采样结果是否包含所述目标数据，当判定为是时，在所述数据采样结果中逐条进行判断，直至定位目标数据。
根据权利要求7所述的装置，其特征在于，所述采样模块具体用于：

从所述数据段的起始位置开启，以所述预设的步长从所述数据段中取出相应数量的数据。
根据权利要求7所述的装置，其特征在于，所述第二定位模块具体还用于：

若为否，则从所述数据采样结果的结束位置起，以所述预设的步长对所述数据段进行数据再采样，并获取所述数据再采样结果的数据识别标识，直至根据所述数据识别标识以及所述数据定位参数判定所述数据再采样结果包含所述目标数据。
根据权利要求7所述的装置，其特征在于，所述第二定位模块还用于：

在所述数据采样的过程中，根据所述数据识别标识以及所述数据定位参数的对比结果对所述预设的步长进行更新。
根据权利要求8所述的装置，其特征在于，所述数据定位参数，具体包括：

数据对应的时间标签、行号、索引号、偏移量。
根据权利要求8所述的装置其特征在于，所述装置还包括分段模块，所述分段模块用于：

根据预设方法对所述目标数据进行分段，将所述分段的结果封装并生成分布式并行任务上传至分布式文件系统。
根据权利要求13所述的装置，其特征在于，所述预设方法包括：

根据分布式集群中计算节点的数量对所述目标数据进行均分；或，

根据分布式集群中计算节点的数量、所述计算节点的计算效率以及计算时间需求计算数据分段阈值并根据所述数据分段阈值对所述目标数据进行分段。
一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一所述方法。
一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，当所述计算机可执行指令被电子设备执行时，使所述电子设备执行权利要求1-7任一所述方法。
一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被电子设备执行时，使所述电子设备执行权利要求1-7任一所述方法。