WO2014101199A1

WO2014101199A1 - 数据的处理方法和装置

Info

Publication number: WO2014101199A1
Application number: PCT/CN2012/088073
Authority: WO
Inventors: 叶开河
Original assignee: 华为技术有限公司
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2014-07-03
Also published as: CN104321766A; EP2924587A1; EP2924587A4; US20150293816A1

Abstract

本发明提供一种数据的处理方法和装置，该方法应用于非关系型数据库中，包括：接收客户端发送的第一查询请求，该第一查询请求中包括查询对象和数据获取方式；对该查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中；若该数据获取方式为获取非排序结果集方式，则在该结果集满足预设的条件后，停止扫描，将满足条件的结果集发送给该客户端，并记录当前扫描的第一位置信息；若该数据获取方式为获取排序结果集方式，在该结果集满足该预设的条件后，将该结果集存入临时空间中，在扫描完成后，对该临时空间中保存的所有数据进行排序，并将排序后的结果集分批提取发送给该客户端，并记录每次提取的第二位置信息。

Description

数据的处理方法和装置

技术领域本发明涉及计算机技术，尤其涉及一种数据的处理方法和装置。背景技术

随着互联网不断的发展，互联网应用的规模也不断壮大，互联网应用所依赖的数据库存储也面临着越来越大的挑战。目前，传统的关系型数据库已经 4艮难满足这些互联网公司的海量数据的存储需求，因此，数据库领域也由传统的关系型数据库（例如： Oracle, DB2、 MySQL )逐步发展成百家争鸣的局面，特别是在非关系型数据库。

在现有技术中，非关系型数据库具有如下优点：海量存储，高可用以及分区扩展，因此，其在软件构架和模型上，与传统的关系型数据库的软件架构和模型有很大的差别。另外，在非关系型数据库中，数据的分布方式也不同于传统的关系型数据库中数据的分布，其主要分布在内存表和数据文件中，其中，内存表中的数据不是数据的副本，而是完整数据的一部分。

但是，由于该非关系型数据库中数据的分布方式，因此，在非关系型数据库中，基本只能一次性地对结果集进行提取，从而使得在对结果集提取时内存占用很大，进而导致结果集提取响应速度相对较低。发明内容

本发明提供一种数据的处理方法和装置，用于避免现有技术中在非关系数据库中基本只能一次性地对结果集进行提取而导致内存占用过多而崩溃的情况，从而有效地提高了结果集获取的响应速度。

本发明的第一方面是提供一种数据的处理方法，应用于非关系型数据库中，包括：

对所述查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中；若所述数据获取方式为获取非排序结果集方式，则在所述结果集满足预设的条件后，停止扫描，将满足条件的结果集发送给所述客户端，并记录当前扫描的第一位置信息；

若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入临时空间中，继续扫描，在扫描完成后，对所述临时空间中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端，并记录每次提取的第二位置信息。

在第一方面的第一种可能的实现方式中，所述查询对象中包含内存表，若至少一个内存表中的数据未扫描完，且达到了持久化条件时，所述方法还包括：

在将所述至少一个内存表中的数据转存到至少一个数据文件中时，记录所述至少一个数据文件和所述至少一个内存表的映射信息。

结合第一方面或第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述若所述数据获取方式为获取非排序结果集方式，则在所述结果集满足预设的条件后，停止扫描，将满足条件的结果集发送给所述客户端，并记录当前扫描的第一位置信息之后，所述方法还包括：

为所述第一查询请求配置唯一的查询标识；

保存所述第一位置信息、查询对象和数据获取方式，并将所述第一位置信息、查询对象和数据获取方式与所述查询标识相对应；

则所述将满足条件的结果集发送给所述客户端，包括：

将所述查询标识和满足条件的结果集发送给所述客户端。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，还包括：

接收所述客户端发送的第二查询请求，所述第二查询请求中包括所述查询标识；

根据所述第二查询请求，以及与所述查询标识对应的所述第一位置信息、查询对象和数据获取方式，对所述查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中；

在所述结果集满足预设的条件后，停止扫描，将满足条件的结果集发送给所述客户端，并记录当前扫描的第三位置信息；

将所述查询标识对应的第一位置信息更新为所述查询标识对应的第三位置信息。

结合第一方面的第二种可能的实现方式，在第一方面的第四种可能的实现方式中，还包括：

接收所述客户端发送的第二查询请求，所述第二查询请求中包括所述查询标识 ^

根据所述第二查询请求，与所述查询标识对应的所述第一位置信息、查询对象和数据获取方式，以及所述至少一个数据文件和所述至少一个内存表的映射信息，对所述查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中；

结合第一方面的第三种或者第四种可能的实现方式，在第一方面的第五种可能的实现方式中，当所述第一查询请求包括查询方式，且所述查询方式为顺序查询方式时，所述第一位置信息和所述第二位置信息均包括当前扫描到的内存表中的扫描位置或者当前扫描到的数据文件中的扫描位置；或者，当所述查询方式为并行查询方式时，所述第一位置信息和所述第二位置信息均包括所述内存表中的扫描位置和所述数据文件中的扫描位置。

结合第一方面或者第一方面的第一种可能的实现方式，在第一方面的第六种可能的实现方式中，所述若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入临时空间中，继续扫描，在扫描完成后，对所述临时空间中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端，并记录每次提取的第二位置信息，包括：

若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入内存页中，继续扫描，在扫描完成后，对所述内存页中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端，并记录每次提取的第二位置信息；其中，所述内存空间包括所述内存页。

结合第一方面或者第一方面的第一种可能的实现方式，在第一方面的第七种可能的实现方式中，所述若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入临时空间中，继续扫描，在扫描完成后，对所述临时空间中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端，并记录每次提取的第二位置信息，包括：

若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入内存页中，并在所述内存页中对所述结果集中的数据进行排序处理，再将排序处理后的结果集放入到临时页中；

在扫描完成后，在所述临时空间中，采用多路归并的方式，对所述排序处理后的结果集进行排序，并依次将采用多路归并和排序处理后的结果集分批提取发送给所述客户端，并记录每次提取的第二位置信息；

其中，所述临时空间包括所述内存页和所述临时页。

本发明的第二方面是提供一种数据的处理装置，应用于非关系型数据库中，包括：

接收模块，用于接收客户端发送的第一查询请求，所述第一查询请求中包括查询对象和数据获取方式；

扫描模块，用于对所述查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中；

结果集处理模块，用于若所述数据获取方式为获取非排序结果集方式，则在所述结果集满足预设的条件后，触发所述扫描模块停止扫描，并将满足条件的结果集发送给所述客户端，再记录当前扫描的第一位置信息；

所述结果集处理模块，还用于若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入临时空间中，继续扫描，在扫描完成后，对所述临时空间中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端 , 并记录每次提取的第二位置信息。

在第二方面的第一种可能的实现方式中，所述查询对象中包含内存表，若至少一个内存表中的数据未扫描完，且达到了持久化条件时，所述装置还包括：

记录模块，用于在将所述至少一个内存表中的数据转存到至少一个数据文件中时，记录所述至少一个数据文件和所述至少一个内存表的映射信息。

结合第二方面或者第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，还包括：

配置模块，用于为所述第一查询请求配置唯一的查询标识；

保存模块，用于保存所述第一位置信息、查询对象和数据获取方式，并将所述第一位置信息、查询对象和数据获取方式与所述查询标识相对应；则所述结果集处理模块具体用于若所述数据获取方式为获取非排序结果集方式，则在所述结果集满足预设的条件后，停止扫描，将所述查询条件和满足条件的结果集发送给所述客户端，并记录当前扫描的第一位置信息。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述接收模块还用于接收所述客户端发送的第二查询请求，所述第二查询请求中包括所述查询标识；

所述扫描模块还用于根据所述第二查询请求，以及与所述查询标识对应的所述第一位置信息、查询对象和数据获取方式，对所述查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中；

所述结果集处理模块还用于在所述结果集满足预设的条件后，触发所述扫描模块停止扫描，并将满足条件的结果集发送给所述客户端，再记录当前扫描的第三位置信息，以及将所述查询标识对应的第一位置信息更新为所述查询标识对应的第三位置信息。

结合第二方面的第二种可能的实现方式，在第二方面的第四种可能的实现方式中，所述接收模块还用于接收所述客户端发送的第二查询请求，所述第二查询请求中包括所述查询标识；

所述扫描模块还用于根据所述第二查询请求，与所述查询标识对应的所述第一位置信息、查询对象和数据获取方式，以及所述至少一个数据文件和所述至少一个内存表的映射信息，对所述查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中；

结合第二方面或者第二方面的第一种可能实现方式，在第二方面的第五种可能的实现方式中，所述结果集处理模块还具体用于若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入内存页中，继续扫描，在所述扫描模块扫描完成后，对所述内存页中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端，并记录每次提取的第二位置信息；

其中，所述内存空间包括所述内存页。

结合第二方面或者第二方面的第一种可能实现方式，在第二方面的第六种可能的实现方式中，所述结果集处理模块还具体用于若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入内存页中，并在所述内存页中对所述结果集中的数据进行排序处理，再将排序处理后的结果集放入到临时页中；在所述扫描模块扫描完成后，在所述临时空间中，采用多路归并的方式，对所述排序处理后的结果集进行排序，并依次将采用多路归并和排序处理后的结果集分批提取发送给所述客户端，并记录每次提取的第二位置信息；

其中，所述临时空间包括所述内存页和所述临时页。

本发明的技术效果是：接收客户端发送的第一查询请求，该第一查询请求中包括查询对象和数据获取方式；对该查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中，若该数据获取方式为获取非排序结果集方式，则在该结果集满足预设的条件后，停止扫描，将满足条件的结果集发送给该客户端，并记录当前扫描的第一位置信息；若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入临时空间中，继续扫描，在扫描完成后，对所述临时空间中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端，并记录每次提取的第二位置信息，从而保证了结果集不会因为过大而导致内存不够用而崩溃，即避免了现有技术中在非关系数据库中基本只能一次性地对结果集进行提取而导致内存占用过多而崩溃的情况，进而有效地提高了结果集获取的响应速度。附图说明图 1为本发明数据的处理方法所基于的数据库的架构示意图；

图 2为本发明数据的处理方法的一个实施例的流程图；

图 3为本发明数据的处理方法的另一个实施例的流程图；

图 4为本发明数据的处理方法的又一个实施例的流程图；

图 5为本发明数据的处理装置的一个实施例的结构示意图；

图 6为本发明数据的处理装置的另一个实施例的结构示意图；

图 7为本发明一个实施例提供的数据的处理装置的硬件架构图。具体实施方式图 1为本发明数据的处理方法所基于的非关系型数据库的架构示意图，如图 1所示，该数据库包括：内存表 11、数据文件 12、内存页 13和临时页 14。其中，数据可以分布在内存表 11和数据文件 12中，或者，内存表 11中，又或者数据文件 12中。其中，内存表 11中的数据不是数据的副本，而是完整数据的一部分。另外，可以对内存表 11和数据文件 12进行扫描，并可以将扫描到的数据临时存在内存页 13或者，内存页 13和临时页 14中，需要说明的是，该内存页 13和临时页 14属于内存空间。

图 2为本发明数据的处理方法的一个实施例的流程图，结合图 1所示的数据库，如图 2所示，本实施例的执行主体为数据的处理装置，并应用于非关系型数据库中，则该方法包括：

步骤 201、接收客户端发送的第一查询请求，该第一查询请求中包括查询对象和数据获取方式。

步骤 202、对该查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中。

在本实施例中，优选地，数据获取方式可以为获取非排序结果集方式或者获取排序结果集方式。当数据获取方式为获取非排序结果集方式，则可以执行步骤 203;当数据获取方式为获取排序结果集方式，则可以执行步骤 204。

步骤 203、若该数据获取方式为获取非排序结果集方式，则在该结果集满足预设的条件后，停止扫描，将满足条件的结果集发送给该客户端，并记录当前扫描的第一位置信息。结束。

步骤 204、若该数据获取方式为获取排序结果集方式，则在该结果集满足预设的条件后，将满足条件的结果集存入临时空间中，继续扫描，在扫描完成后，对临时空间中保存的所有数据进行排序，并将排序后的数据加入到满足预设条件的结果集中分批发送给客户端，并记录每次提取的第二位置信息。

在本实施例中，预设的条件用于使得满足该预设条件的结果集不会导致内存不够而崩溃。优选地，预设的条件可以为结果集中数据的条数或者结果集容量的大小；举例来说，该结果集满足该预设的条件可以为：该结果集中数据的条数满足预设的结果集中数据的条数；或者，该结果集容量的大小满足预设的结果集容量的大小。

在本实施例中，保证了结果集不会因为过大而导致内存不够用而崩溃，即避免了现有技术中在非关系数据库中基本只能一次性地对结果集进行提取而导致内存占用过多而崩溃的情况，进而有效地提高了结果集获取的响应速度。

图 3为本发明数据的处理方法的另一个实施例的流程图，在本实施例中，以获取方式为获取非排序结果集方式为例，详细介绍本实施例的技术方案，如图 3所示，该方法包括：

步骤 301、接收客户端发送的第一查询请求，该第一查询请求中包括查询对象、数据获取方式、查询方式、查询过滤条件和预设的结果集条件，并为该第一查询请求配置唯一查询标识。

需要说明的是，第一查询请求除了包括查询对象和数据获取方式外，还可以包括如下一种或者几种的组合：查询方式、查询过滤条件和预设的结果集条件。在本实施例中，优选地，第一查询请求还包括查询方式、查询过滤条件和预设的结果集条件为例。

其中，查询方式可以为串行查询方式或者并行查询方式。该查询过滤条件包括数据的特征，从而能够根据数据的特征，对扫描到的数据进行过滤，以获取与该查询过滤条件中的数据的特征匹配的数据。例如：当查询对象为学生成绩，且第一查询请求中没有携带查询过滤条件，则将扫描到的学生成绩的数据均加入到结果集中；若查询对象为学生成绩，且第一查询请求中携带查询过滤条件，该查询过滤条件为学生成绩为 60分以上，则将扫描到的学生成绩，且为 60分以上的数据加入到结果集中。

步骤 302、根据该查询方式，对该查询对象中的数据进行扫描，并根据查询过滤条件，对扫描到的数据进行过滤，再将满足查询过滤条件的数据加入到结果集中。

步骤 303、在结果集满足预设的结果集条件后，停止扫描，将满足预设的结果集条件的结果集和查询标识发送给客户端，并记录当前扫描的第一位置信息。

在本实施例中，当接收到第一查询请求后，根据该第一查询请求中的查询方式，对该第一查询请求中的查询对象中的数据逐条进行扫描，并将扫描到的数据加入到结果集中，直至结果集满足预设的结果集条件后，停止扫描，并将满足预设的结果集条件的结果集发送给客户端，并将结果集发送给客户端后，将结果集中的数据清空，等待存储下一次扫描到的数据。

另外，在本实施例中，预设的结果集条件可以为结果集中的数据条数或者结果集容量的大小，可以与上述预设的条件相同，也可以不相同。其中，在本实施例中，该预设的结果集条件大于或等于上限阈值。

还需要说明的是，当预设的结果集条件小于上限阈值时，则可以执行步骤 303 中的操作，当预设的结果集条件大于或等于上限阈值时，则步骤 303 的具体实现方式可以为：在该结果集满足预设的条件后，停止扫描，将满足条件的结果集发送给该客户端，并记录当前扫描的第一位置信息。

步骤 304、保存该第一位置信息、查询对象、数据获取方式、查询方式、查询过滤条件和预设的结果集条件，并将该第一位置信息、查询对象、数据获取方式、查询方式、查询过滤条件和预设的结果集条件与该查询标识相对应。

在本实施例中，客户端在接收到结果集后，若判断结果集未获取完，则请求获取下一批结果集，从而触发数据的处理装置根据当前扫描的第一位置信息继续扫描；若判断获取完所有结果集，则结束处理。

更为优选的，在本实施例中，第一位置信息可以如表一所示：

内存表内存表 id+rowkey+supername 多组 * 数据文件文件名 +文件偏移量多组 * 其中，该 id用于标记内存表， owkey用于标记用户 , supername用于标记用户下的数据。 "多组 *"用于表示内存表和数据文件的数量为多个。

步骤 305、接收该客户端发送的第二查询请求，该第二查询请求中包括该查询标识。

在本实施例中，客户端接收到结果集后进行判断，当结果集还未获取完时，还可以继续发送查询请求，以继续获取结果集。

步骤 306、根据该第二查询请求，与该查询标识对应的该第一位置信息、查询对象、数据获取方式、查询方式、查询过滤条件和预设的结果集条件，以及内存表和数据文件的映射信息，对该查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中。

在本实施例中，当查询对象包括内存表，或者内存表和数据文件时，在将所述查询标识和所述满足该预设的结果集条件的结果集发送给所述客户端之后，当至少一个内存表中的数据未扫描完，且达到了持久化条件时，在将至少一个内存表中的数据转存到至少一个数据文件中时，记录至少一个数据文件和所述至少一个内存表的映射信息。从而在继续扫描时，若查询对象中的一个内存表中的数据未扫描完，且达到了持久化条件，则根据第一位置信息，查询该映射信息，获取与该一个内存表对应的内存表和数据文件的映射信息，并根据该内存表和数据文件的映射信息，找到该一个内存表对应的数据文件，对该数据文件中的数据进行扫描。

步骤 307、在该结果集满足预设的条件后，停止扫描，将满足条件的结果集发送给该客户端，并记录当前扫描的第三位置信息；

步骤 308、将该查询标识对应的第一位置信息更新为该查询标识对应的第三位置信息。

另外，还需要说明的是，当该查询对象包括内存表，或者内存表和数据文件，在将该查询标识和上述结果集发送给该客户端之后，且该内存表中的数据未扫描完，且没有达到了持久化条件时，步骤 306的还一种具体实现方式为：根据该第二查询请求，以及与该查询标识对应的该第一位置信息、查询对象、数据获取方式、查询方式、查询过滤条件和预设的结果集条件，对该查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中。

其中，持久化条件可以为如下一种：内存表中的数据达到预设阈值；和，内存表中的数据达到预设配置时间。需要说明的是，在内存表达到预设化条件时，该内存表中的数据将转存到数据文件中。

进一步地，在本发明的还一个实施例中，在上述图 3方法所示实施例中，当该查询方式为顺序查询方式时，该第一位置信息和该第二位置信息均包括当前扫描到的内存表中的扫描位置或者当前扫描到的数据文件中的扫描位置; 或者，

当该查询方式为并行查询方式时，该第一位置信息和该第二位置信息均包括多个内存表中的扫描位置和多个数据文件中的扫描位置。

图 4为本发明数据的处理方法的又一个实施例的流程图，在本实施例中，以获取结果集方式为获取排序结果集方式为例，详细介绍本实施例的技术方案，如图 4所示，该方法包括：

步骤 401、接收客户端发送的第一查询请求，该第一查询请求中包括查询对象、数据获取方式、查询方式、查询过滤条件和预设的结果集条件。

步骤 402、根据该查询方式，对该查询对象中的数据进行扫描，并根据查询过滤条件，对扫描到的数据进行过滤，再将满足查询过滤条件的数据加入到结果集中。

步骤 403、在该结果集满足所述预设的条件后，将所述结果集存入内存页中。

在本实施例中，上述内存空间包括内存页和临时页。

步骤 404、判断在内存页中排序的结果集中的数据量是否小于或等于内存页大小；若小于或等于，则执行步骤 405; 若大于，则执行步骤 406。

步骤 405、在该内存页中对该结果集进行排序处理，再将排序处理后的结果集分批提取发送给该客户端，并记录每次提取的第二位置信息。结束。

步骤 406、将该结果集存入内存页中，并在该内存页中对该结果集进行排序处理，再将排序处理后的结果集放入到临时页中。

在本实施例中，内存页中排序的结果集中的数据量大于内存页的大小，需要对内存页中的结果集进行部分排序，即若内存页中的结果集有多个，则将多个结果集进行划分，对划分后的结果集进行排序，在分别放入到临时页中。

步骤 407、在扫描完成后，在该临时空间中，采用多路归并的方式，对该排序处理后的结果集进行排序，并依次将采用多路归并和排序处理后的结果集分批提取发送给该客户端，并记录每次提取的第二位置信息。

还需要说明的而是，在本实施例第二位置信息可以如表二所示：

进一步的，在本发明的还一个实施例中，在上述各个所示方法实施例的基础上，该查询对象中包含内存表，若至少一个内存表中的数据未扫描完，且达到了持久化条件时，该方法还包括：

在将该至少一个内存表中的数据转存到至少一个数据文件中时，记录该至少一个数据文件和该至少一个内存表的映射信息。

在本实施例中，初始化内存表时，建立内存表 ID与数据文件 ID的映射关系，并为每个内存表设置其对应的引用计数，初始时引用计数为 0。该内存表对应的引用计数用于说明该内存表是否被引用（即被扫描），例如：当引用内存表（即对该内存表进行扫描）时，将该内存表对应的引用计数加 1；在引用结束时，对该内存表对应的引用计数减 1。对于多批次获取结果集的场景中，在开始获取第一批次的结果集时，可以对引用的内存表对应的引用计数加 1 , 只有当结果获取完，或者后续不在引用该内存表时，才对该内存表对应的引用计数减 1。

另外，当在多批结果集提取的周期中，引用的内存表中的数据达到了持久化条件，且当该内存表 Flush (指内存表的数据持久化到数据文件的过程）时，判断其对应的引用计数是否为零，如果不为零（即说明该内存表中的数据未扫描完），则将其内存表的引用置为 NULL, 同时，将该内存表对应的数据文件的引用设置为持久化的文件引用，并根据该内存表 ID和数据文件 ID 的映射关系，生成映射信息（例如： rowkey+supername映射为文件偏移量）。同时，将该内存表对应的引用计数为 0。则继续扫描时，由于内存表的引用置为 NULL, 因此，查询映射信息，获取该内存表对应的数据文件，以继续对该数据文件进行扫描。

另外，当引用计数对应的内存表已经持久化，且引用计数为 0, 说明在该内存表中扫描已经完成，因此，可以删除该内存表 ID对应的数据文件 ID 的映射关系。

图 5为本发明数据的处理装置的一个实施例的结构示意图，如图 5所示，本实施例的装置应用于非关系型数据库，该装置包括：接收模块 51、扫描模块 52和结果集处理模块 53; 其中，接收模块 51用于接收客户端发送的第一查询请求，所述第一查询请求中包括查询对象和数据获取方式；扫描模块 52 用于对所述查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中；结果集处理模块 53用于若所述数据获取方式为获取非排序结果集方式，则在所述结果集满足预设的条件后，触发所述扫描模块停止扫描，并将满足条件的结果集发送给所述客户端，再记录当前扫描的第一位置信息；或者，所述结果集处理模块 53还用于若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入临时空间中，继续扫描，在扫描完成后，对所述临时空间中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端，并记录每次提取的第二位置信息。

本实施例的数据的处理装置可以执行图 2所示方法实施例的技术方案，其实现原理相类似，此处不再赘述。

在本实施例中，接收客户端发送的第一查询请求，该第一查询请求中包括查询对象和数据获取方式；对该查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中，若该数据获取方式为获取非排序结果集方式，则在该结果集满足预设的条件后，停止扫描，将满足条件的结果集发送给该客户端，并记录当前扫描的第一位置信息；若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入临时空间中，继续扫描，在扫描完成后，对所述临时空间中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端，并记录每次提取的第二位置信息，从而保证了结果集不会因为过大而导致内存不够用而崩溃，即避免了现有技术中在非关系数据库中基本只能一次性地对结果集进行提取而导致内存占用过多而崩溃的情况，进而有效地提高了结果集获取的响应速度。

图 6为本发明数据的处理装置的另一个实施例的结构示意图，在上述图

5所示实施例的基础上，如图 6所示，该查询对象中包含内存表，若至少一个内存表中的数据未扫描完，且达到了持久化条件时，该装置还包括：记录模块 54用于在将该至少一个内存表中的数据转存到至少一个数据文件中时，记录该至少一个数据文件和该至少一个内存表的映射信息。

优选地，该装置还包括：配置模块 55和保存模块 56; 其中，配置模块

55用于为该第一查询请求配置唯一的查询标识；保存模块 56用于保存该第一位置信息、查询对象和数据获取方式，并将该第一位置信息、查询对象和数据获取方式与该查询标识相对应。

则该结果集处理模块 53 具体用于若该数据获取方式为获取非排序结果集方式，则在该结果集满足预设的条件后，停止扫描，将该查询条件和满足条件的结果集发送给该客户端，并记录当前扫描的第一位置信息。

更为优选地，该接收模块 51还用于接收该客户端发送的第二查询请求，该第二查询请求中包括该查询标识；

该扫描模块 52还用于根据该第二查询请求，以及与该查询标识对应的该第一位置信息、查询对象和数据获取方式，对该查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中；

该结果集处理模块 53还用于在该结果集满足预设的条件后，触发该扫描模块停止扫描，并将满足条件的结果集发送给该客户端，再记录当前扫描的第三位置信息，以及将该查询标识对应的第一位置信息更新为该查询标识对应的第三位置信息。

或者，更为优选地，该接收模块 51还用于接收该客户端发送的第二查询请求，该第二查询请求中包括该查询标识；

该扫描模块 52还用于根据该第二查询请求，与该查询标识对应的该第一位置信息、查询对象和数据获取方式，以及该至少一个数据文件和该至少一个内存表的映射信息，对该查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中；

本实施例的数据的处理装置可以执行图 3所示方法实施例的技术方案，其实现原理相类似，此处不再赘述。

在本发明的还一个实施例的结构示意图，在上述图 5所示实施例的基础上，结果集处理模块 53还具体用于若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入内存页中，继续扫描，在所述扫描模块扫描完成后，对所述内存页中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端，并记录每次提取的第二位置信息；

其中，该内存空间包括该内存页。

或者，该结果集处理模块 53还具体用于若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入内存页中，并在所述内存页中对所述结果集中的数据进行排序处理，再将排序处理后的结果集放入到临时页中；在所述扫描模块扫描完成后，在所述临时空间中，采用多路归并的方式，对所述排序处理后的结果集进行排序，并依次将采用多路归并和排序处理后的结果集分批提取发送给所述客户端，并记录每次提取的第二位置信息；

其中，该临时空间包括该内存页和该临时页。

本实施例的数据的处理装置可以执行图 4所示方法实施例的技术方案，其实现原理相类似，此处不再赘述。

图 7描述了本发明另一个实施例提供的数据的处理装置的硬件架构图，包括至少一个处理器 71 (例如 CPU ) , 至少一个网络接口 72或者其他通信接口，存储器 73 , 和至少一个通信总线 74, 用于实现这些装置之间的连接通信。处理器 71用于执行存储器 73中存储的可执行模块，例如计算机程序。存储器 73可能包含高速随机存取存储器（ RAM: Random Access Memory ) , 也可能还包括非易失性存储器（ non-volatile memory ) , 例如至少一个磁盘存储器。通过至少一个网络接口 72 (可以是有线或者无线）实现该系统网关与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

在一些实施方式中，存储器 73存储了程序指令，程序指令可以被处理器 71执行，其中，程序指令包括接收模块 51、扫描模块 52和结果集处理模块 53。其中，各模块的具体实现参见图 5所揭示的相应模块，这里不再累述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可以用硬件实现，或固件实现，或它们的组合方式来实现。当使用软件实现时，可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于：计算机可读介质可以包括 RAM、 ROM, EEPROM、 CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如，如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线（DSL )或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的，那么同轴电缆、光纤光缆、双绞线、 DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的，盘（Disk )和碟（disc ) 包括压缩光碟（CD ) 、激光碟、光碟、数字通用光碟 ( DVD ) 、软盘和蓝光光碟，其中盘通常磁性的复制数据，而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护层级之内。

总之，以上所述仅为本发明技术方案的较佳实施例而已，并非用于限定本发明的保护层级。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护层级之内。

Claims

权利要求书

1、一种数据的处理方法，应用于非关系型数据库中，其特征在于，包括：接收客户端发送的第一查询请求，所述第一查询请求中包括查询对象和数据获取方式；

2、根据权利要求 1所述的方法，其特征在于，所述查询对象中包含内存表，若至少一个内存表中的数据未扫描完，且达到了持久化条件时，所述方法还包括：

3、根据权利要求 1或 2所述的方法，其特征在于，所述若所述数据获取方式为获取非排序结果集方式，则在所述结果集满足预设的条件后，停止扫描，将满足条件的结果集发送给所述客户端，并记录当前扫描的第一位置信息之后，所述方法还包括：

为所述第一查询请求配置唯一的查询标识；

则所述将满足条件的结果集发送给所述客户端，包括：

将所述查询标识和满足条件的结果集发送给所述客户端。

4、根据权利要求 3所述的方法，其特征在于，还包括：

接收所述客户端发送的第二查询请求，所述第二查询请求中包括所述查询标识；根据所述第二查询请求，以及与所述查询标识对应的所述第一位置信息、查询对象和数据获取方式，对所述查询对象中的数据进行扫描，并将扫描到的数据加入到结果集中；

5、根据权利要求 3所述的数据的处理方法，其特征在于，还包括：接收所述客户端发送的第二查询请求，所述第二查询请求中包括所述查询标识；

6、根据权利要求 4或 5所述的数据的处理方法，其特征在于，当所述第一查询请求包括查询方式，且所述查询方式为顺序查询方式时，所述第一位置信息和所述第二位置信息均包括当前扫描到的内存表中的扫描位置或者当前扫描到的数据文件中的扫描位置；或者，

当所述查询方式为并行查询方式时，所述第一位置信息和所述第二位置信息均包括所述内存表中的扫描位置和所述数据文件中的扫描位置。

7、根据权利要求 1或 2所述的数据的处理方法，其特征在于，所述若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入临时空间中，继续扫描，在扫描完成后，对所述临时空间中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端，并记录每次提取的第二位置信息，包括：若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入内存页中，继续扫描，在扫描完成后，对所述内存页中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端，并记录每次提取的第二位置信息；

其中，所述内存空间包括所述内存页。

8、根据权利要求 1或 2所述的数据的处理方法，其特征在于，所述若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入临时空间中，继续扫描，在扫描完成后，对所述临时空间中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端，并记录每次提取的第二位置信息，包括：

其中，所述临时空间包括所述内存页和所述临时页。

9、一种数据的处理装置，应用于非关系型数据库中，其特征在于，包括：接收模块，用于接收客户端发送的第一查询请求，所述第一查询请求中包括查询对象和数据获取方式；

结果集处理模块，用于若所述数据获取方式为获取非排序结果集方式，则在所述结果集满足预设的条件后，触发所述扫描模块停止扫描，并将满足条件的结果集发送给所述客户端，再记录当前扫描的第一位置信息；或者，所述结果集处理模块，还用于若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入临时空间中，继续扫描，在扫描完成后，对所述临时空间中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端 , 并记录每次提取的第二位置信息。

10、根据权利要求 8所述的数据的处理装置，其特征在于，所述查询对象中包含内存表，若至少一个内存表中的数据未扫描完，且达到了持久化条件时，所述装置还包括：

11、根据权利要求 9或 10所述的数据的处理装置，其特征在于，还包括：配置模块，用于为所述第一查询请求配置唯一的查询标识；

保存模块，用于保存所述第一位置信息、查询对象和数据获取方式，并将所述第一位置信息、查询对象和数据获取方式与所述查询标识相对应；

则所述结果集处理模块具体用于若所述数据获取方式为获取非排序结果集方式，则在所述结果集满足预设的条件后，停止扫描，将所述查询条件和满足条件的结果集发送给所述客户端，并记录当前扫描的第一位置信息。

12、根据权利要求 11所述的数据的处理装置，其特征在于，所述接收模块还用于接收所述客户端发送的第二查询请求，所述第二查询请求中包括所述查询标识；

13、根据权利要求 11所述的数据的处理装置，其特征在于，所述接收模块还用于接收所述客户端发送的第二查询请求，所述第二查询请求中包括所述查询标识；

14、根据权利要求 9或 10所述的数据的处理装置，其特征在于，所述结果集处理模块还具体用于若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入内存页中，继续扫描，在所述扫描模块扫描完成后，对所述内存页中保存的所有数据进行排序，并将排序后的数据加入到满足所述预设条件的结果集中分批发送给所述客户端 , 并记录每次提取的第二位置信息；

其中，所述内存空间包括所述内存页。

15、根据权利要求 9或 10所述的数据的处理装置，其特征在于，所述结果集处理模块还具体用于若所述数据获取方式为获取排序结果集方式，则在所述结果集满足所述预设的条件后，将所述结果集存入内存页中，并在所述内存页中对所述结果集中的数据进行排序处理，再将排序处理后的结果集放入到临时页中；在所述扫描模块扫描完成后，在所述临时空间中，采用多路归并的方式，对所述排序处理后的结果集进行排序，并依次将采用多路归并和排序处理后的结果集分批提取发送给所述客户端，并记录每次提取的第二位置信息；

其中，所述临时空间包括所述内存页和所述临时页。