WO2018058671A1

WO2018058671A1 - 执行多表连接操作的控制方法及对应装置

Info

Publication number: WO2018058671A1
Application number: PCT/CN2016/101366
Authority: WO
Inventors: 刘文洁; 魏建生; 张晓飞; 陈雷
Original assignee: 华为技术有限公司
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2018-04-05
Also published as: CN109791543A; US20190228014A1; CN109791543B; US11301470B2

Abstract

一种执行多表连接操作的控制方法及对应装置，其中，将参与theta连接操作、且在所述查询语句中涉及的字段满足第一预设条件的表、在所述查询语句中所涉及的字段进行分解，得到多个第一字段组，可以实现以多个字段组的形式分步完成theta连接操作，能够实现降低了一次进行连接操作时笛卡尔积计算的数据量，大幅度减少的网络传输开销、计算开销和内存开销，提升执行效率的效果。

Description

执行多表连接操作的控制方法及对应装置

技术领域

本发明涉及计算机技术领域，更具体地说，涉及一种数据库多表连接查询技术。

背景技术

关系型数据库，是创建在关系模型基础上的数据库，关系模型就是指二维表格模型,用于将数据组织为多张由行和列组成的表。存储关系型数据库中的表时，因计算机内存采用一维结构的顺序编址，所以可以采用逐条输入表中各行数据的方式(即行存)，或者批量导入表中各列数据的方式(即列存)。

在关系型数据库中的表存储后，可基于关系代数对表执行多种连接操作，例如：对两张表执行theta连接，即合并两张表中满足theta条件的字段。

目前，在基于分布式计算框架的关系型数据库系统中，存储系统和数据库查询引擎通常相互独立，所述数据库查询引擎无法感知存储系统中数据的组织方式。为此，依据查询语句对存储系统存储的表执行theta连接操作时，通常需要首先读取表中在查询语句中涉及的所有字段并计算笛卡尔积，然后根据查询条件过滤出连接结果。当执行theta连接操作的表较大时，对表中在查询语句中涉及的所有字段进行笛卡儿积的计算会导致数据运算量剧烈膨胀，从而大幅增加计算开销、内存开销和节点间的网络传输开销，严重降低性能。

发明内容

有鉴于此，本发明提供一种执行多表连接操作的控制方法及对应装置，以解决现有技术中进行多表theta连接操作时，由于对表中在查询语句中涉及的所有字段计算笛卡尔积导致的数据运算量剧烈膨胀，计算开销、内存开销和节点间的网络传输开销大，性能低的问题。

为了实现上述目的，现提出的方案如下：

本发明的第一方面提供了一种执行多表连接操作的控制方法，包括以下步骤：

解析查询语句，获得查询条件、表名以及所述表名对应的表在所述查询语句中涉及的字段。

将第一类表中的每张表在所述查询语句中所涉及的字段进行分解，得到所述第一类表中的每张表的多个第一字段组；其中，所述查询条件表明参与theta连接操作、且在所述查询语句中涉及的字段满足第一预设条件的表为第一类表，所述第一预设条件用于表明表在所述查询语句中涉及的字段执行theta连接操作时，进行笛卡儿积计算导致数据运算量超于预设阈值。

采用将第二类表中的每张表在所述查询语句中涉及的字段，构成一个第二字段组的方式，获得所述第二类表中的每张表的第二字段组；其中，所述第二类表为所述表名对应的表中除所述第一类表以外的表。

依据所述查询语句、所述第一字段组和所述第二字段组，生成执行计划，所述执行计划用于控制读取所述第一字段组和所述第二字段组中字段对应的数据，并按照执行步骤对读取的数据进行满足执行条件的连接操作，得到符合所述查询语句要求的查询结果。

从上述过程可以看出：将参与theta连接操作、且在所述查询语句中涉及的字段满足第一预设条件的表、在所述查询语句中所涉及的字段进行分解，得到多个第一字段组，以实现以多个字段组的形式分步完成theta连接操作，能够实现降低了一次进行连接操作时笛卡尔积计算的数据量，大幅度减少的网络传输开销、计算开销和内存开销，提升执行效率的效果。

本发明的第二方面公开了一种优化器，包括：存储器，用于存储程序以及程序运行中产生的数据；处理器，用于通过运行所述存储器中的程序，实现以下功能：

解析查询语句，获得查询条件、表名以及所述表名对应的表在所述查询语句中涉及的字段；将第一类表中的每张表在所述查询语句中所涉及的字段进行分解，得到所述第一类表中的每张表的多个第一字段组；采用将第二类表中的每张表在所述查询语句中涉及的字段，构成一个第二字段组的方式，获得所述第二类表中的每张表的第二字段组；依据所述查询语句、所述第一字段组和所述第二字段组，生成执行计划。

其中，所述查询条件表明参与theta连接操作、且在所述查询语句中涉及的字段满足第一预设条件的表为第一类表，所述第一预设条件用于表明表在所述查询语句中涉及的字段执行theta连接操作时，进行笛卡儿积计算导致数据运算量超于预设阈值；所述第二类表为所述表名对应的表中除所述第一类表以外的表；所述执行计划用于控制读取所述第一字段组和所述第二字段组中字段对应的数据，并按照执行步骤对读取的数据进行满足执行条件的连接操作，得到符合所述查询语句要求的查询结果。

在一个实现方式中，所述第一预设条件包括：

表在所述查询语句中涉及的字段的数量超过第一预设阈值。

表在所述查询语句中涉及的字段的存储开销超过第一预设空间阈值。

表在所述查询语句中涉及参与theta连接操作的字段的数量超过第二预设阈值。或者，

表在所述查询语句中涉及参与theta连接操作的字段的存储开销超过第二预设空间阈值。

在一个实现方式中，所述将第一类表中的每张表在所述查询语句中所涉及的字段进行分解，得到所述第一类表中的每张表的多个第一字段组，包括：

对于所述第一类表中的每张表，分别将表中参与theta连接操作的字段和主键构成第一子类字段组，将表中在所述查询语句中涉及、但未参与theta连接操作的字段和主键构成第二子类字段组；

其中，所述依据所述查询语句所述第一字段组和所述第二字段组，生成执行计划，包括：

依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划，所述执行计划用于控制读取所述第一子类字段组、所述第二子类字段组和所述第二字段组中字段对应的数据，并按照执行步骤对读取的数据进行满足执行条件的连接操作，得到符合所述查询语句要求的查询结果。

在一个实现方式中，所述将表中参与theta连接操作的字段和主键构成第一子类字段组，包括：

将表中参与theta连接操作的所有字段和主键构成一个第一子类字段组。

或者；将表中与同一个表的字段进行theta连接操作的字段和主键构成一个第一子类字段组。

在一个实现方式中，所述依据查询语句、第一类字段组、第二类字段组和第三类字段组，生成执行计划，包括：

将第一类字段组、第二类字段组和第三类字段组作为执行计划中包含的待构建的字段组。

依据查询语句中的查询条件，生成执行条件中的theta连接执行条件和原生等值连接执行条件。

为满足查询语句对应的查询结果的要求，将以第一类表的主键为等值连接参数，对第一类字段组和第二类字段组执行查询条件生成的中间结果执行等值连接的条件，作为执行条件中的派生等值连接执行条件。

为满足查询语句对应的查询结果的要求，将执行条件的执行顺序作为执行步骤。

在一个实现方式中，构成所述第一子类字段组和所述第二类子字段组之后，还包括：

若所述第一类表中的某张表的第一子类字段组中的字段用于参与多个表的theta连接操作，按照预定规则分解所述第一子类字段组，得到多个字段组，其中，所述预设规则包括：所述第一类字段组中与同一个表进行theta连接的字段分解为一个字段组，且分解成的任意两个字段组之间的共有字段满足第三预设条件，第三预设条件用于判断分解构成的两个字段组之间的关联性。

判断所述分解得到的多个字段组是否均包含主键。

若所述分解得到的多个字段组未均包含主键，则在未包含主键的字段组中添加主键，并返回执行依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划的步骤。

若所述分解得到的多个字段组均包含主键，则返回执行依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划的步骤。

从上述过程可以看出：若第一类表中的某张表的第一子类字段组用于参与多个表的theta连接，说明该第一子类字段组中的字段还可以进一步分解，再降低参与theta连接操作时的字段数量。

在一个实现方式中，所述依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划之前，还包括：

若所述第一类表中的某张表的第一子类字段组中字段满足第二预设条件，分解所述第一子类字段组，得到多个字段组。

判断对满足所述第二预设条件的第一子类字段组进行分解得到的多个字段组、是否均包含主键。

若所述对满足所述第二预设条件的第一子类字段组进行分解得到的多个字段组、未均包含主键，则在未包含主键的字段组中添加主键，并返回执行依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划的步骤。

若所述对满足所述第二预设条件的第一子类字段组进行分解得到的多个字段组均包含主键，则返回执行依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划的步骤。

从上述过程可以看出：判断出第一子类字段组中的字段满足第二预设条件，说明第一子类字段组中的字段进行theta连接操作时的笛卡尔积执行过程，还会存在数据运算量剧烈膨胀的问题，因此将第一子类字段组中的字段分解，得到多个字段组，进一步降低参与theta连接操作时的字段数量，降低笛卡尔积执行过程的数据运算量。

在一个实现方式中，所述第二预设条件包括：

所述第一子类字段组中字段的数量超过第三预设阈值。

所述第一子类字段组中字段的存储开销超过第三预设空间阈值。

本发明的第三方面提供了一种执行多表连接操作的控制方法，包括以下步骤：

接收执行计划，所述执行计划包含待构建的第一字段组和第二字段组、执行步骤和执行条件。

读取所述待构建的第一字段组和第二字段组中字段对应的数据。

依据所述待构建的第一字段组和第二字段组对读取的数据进行分组，形成字段组数据。

按照所述执行步骤对所述字段组数据进行满足所述执行条件的连接操作，得到查询结果。

将所述查询结果映射为输出字段序列。

发送所述输出字段序列。

从上述过程可以看出：依据执行计划中的待构建的第一字段组和第二字段组，对读取的数据进行分组，形成字段组数据，且对字段组数据进行连接操作，实现了以多个字段组的形式分步完成theta连接操作，能够实现降低了一次进行连接操作时笛卡尔积计算的数据量，大幅度减少的网络传输开销、计算开销和内存开销，提升执行效率的效果。

本发明的第二方面公开了一种服务器集群，包括n个服务器，n大于或等于1，每个所述服务器均包括处理器和存储器；其中：

所述n个服务器的处理器组成分布式计算平台，用于接收执行计划，所述执行计划包含待构建的第一字段组和第二字段组、执行步骤和执行条件；读取所述待构建的第一字段组和第二字段组中字段对应的数据；依据所述待构建的第一字段组和第二字段组对读取的数据进行分组，形成字段组数据；按照所述执行步骤对所述字段组数据进行满足所述执行条件的连接操作，得到查询结果；将所述查询结果映射为输出字段序列；发送所述输出字段序列。

所述n个服务器的存储器组成分布式存储系统，用于存储字段对应的数据。

在一个实现方式中，所述读取所述待构建的第一字段组和第二字段组中涉及的字段的数据之后，还包括：

判断所述执行条件中是否包含单表过滤条件。

若所述执行条件中包含单表过滤条件，则依据所述单表过滤条件，对读取的数据执行过滤。

其中，所述依据所述待构建的第一字段组和第二字段组对读取的数据进行分组，形成字段组数据，包括：

依据所述待构建的第一字段组和第二字段组对过滤后的数据进行分组，形成字段组数据。

在一个实现方式中，所述执行条件包括：theta连接执行条件和等值连接执行条件；所述按照所述执行步骤对所述字段组数据进行满足所述执行条件的连接操作，得到查询结果，包括：

按照所述执行步骤对所述字段组数据进行theta连接，得到符合所述theta连接执行条件的中间结果。

按照所述执行步骤、对所述中间结果和所述字段组数据中未进行theta连接的字段组数据进行等值连接，得到符合所述等值连接执行条件的查询结果。

在一个实现方式中，所述依据所述待构建的字段组对读取的数据进行分组，形成字段组数据之后，还包括：

判断所述执行条件包含原生等值连接执行条件，按照执行步骤，依据所述原生等值连接执行条件对所述字段组数据执行等值连接。

其中，所述按照所述执行步骤对所述字段组数据进行连接，得到符合所述执行条件的查询结果，包括：

按照执行步骤对执行等值连接后的字段组数据进行连接，得到符合所述执行条件的查询结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为分布式计算框架的数据库系统的结构示意图；

图2为本发明实施例公开的执行多表连接操作的控制方法的流程图；

图3为本发明另一实施例公开的执行多表连接操作的控制方法的流程图；

图4为本发明另一实施例公开的执行多表连接操作的控制方法的流程图；

图5为本发明另一实施例公开的执行多表连接的控制方法的流程图；

图6为本发明另一实施例公开的对字段组执行执行条件的展示图；

图7为本发明另一实施例公开的优化器的结构示意图；

图8为本发明另一实施例公开的服务器集群的结构示意图。

具体实施方式

图1为本发明实施例提供的一种分布式计算框架的数据库系统，包括数据库查询引擎101和n个服务器102，其中，数据库查询引擎101包含优化器11，每个服务器均包含执行器12和存储节点13，n个服务器102中的执行器组成分布式计算平台，n个服务器102中的存储节点组成分布式存储系统。

具体的，数据库查询引擎101接收用户输入的查询语句，优化器11解析查询语句，生成执行计划；数据库查询引擎101发送执行计划到n个服务器102。n个服务器102中执行器组成的分布式计算平台接收执行计划，依据执行计划，读取n个服务器102中的存储节点组成分布式存储系统中存储的字段数据，处理读取的字段数据并生成查询结果，并将查询结果映射为输出字段序列，向数据库查询引擎101发送所述输出字段序列。

本发明提供的执行多表连接操作的控制方法，其目的是解决现有技术中进行多表theta连接操作时，由于对表中在查询语句中涉及的所有字段计算笛卡尔积导致的数据运算量剧烈膨胀，计算开销、内存开销和节点间的网络传输开销大，性能低的问题。

参见图1和图2，本发明实施例公开的一种执行多表连接操作的控制方法，应用于优化器11，所述控制方法包括：

S201、解析查询语句，获得查询条件、表名以及表名对应的表在查询语句中涉及的字段；

需要说明的是，用户想对存储的多个表执行连接操作时，在数据库查询引擎101中输入查询语句，数据库查询引擎101接收到查询语句后，向优化器11转发。优化器11接收到查询语句，解析该查询语句得到查询条件、表名以及表名对应的表在查询语句中涉及的字段；其中，查询条件可以分为：theta连接条件、等值连接条件以及单表过滤条件；theta连接条件指代对两张表中的字段执行theta连接操作，等值连接条件指代对两张表中的字段执行等值连接操作，单表过滤条件指代对某张表中的某字段按照过滤条件筛选数据。

以下以一个实例具体说明，该实例中，用户输入查询语句如下：

Select c_custkey,c_name,c_nationkey,n_nationkey,n_regionkey,n_name,o_custkey,o_orderdate r_regionkey,r_name FROM customer,nation,orders,region where c_nationkeyθn_nationkey and c_custkeyθo_custkey and n_regionkeyθr_regionkey。

其中，customer表主键为c_custkey，nation表主键为n_nationkey，region表主键为r_regionkey。

优化器11接收到上述查询语句，解析后得到的查询条件包括：

theta连接条件：c_nationkeyθn_nationkey、c_custkeyθo_custkey以及n_regionkeyθr_regionkey；

查询语句中的表名包括：customer、nation、orders以及region；其中：

上述四个表名对应的表在查询语句中涉及的字段为：

customer表涉及的字段包括：c_custkey，c_name和c_nationkey；nation表涉及的字段包括：n_nationkey，n_regionkey和n_name；orders表涉及的字段包括：o_custkey和o_orderdate；region表涉及的字段包括：r_regionkey和r_name。

还需要说明的是，上述实例中，θ指代theta连接，可以包括的连接运算符包括：＞、≥、＜、≤等等；此实例中没有写出具体的运算符，仅用θ来替代。但在本发明公开的执行多表连接操作的控制方法实际使用过程中，需要在查询语句中明确写明θ为哪种运算符。

S202、识别查询条件中表明参与theta连接操作、且在查询语句中涉及的字段满足第一预设条件的表为第一类表，否则识别为第二类表；

本步骤中，将步骤S201中获得的所有表名对应的表，分别依据判断是否参与theta连接操作和在查询语句中涉及的字段是否满足第一预设条件这两个条件，来识别是否为第一类表。

其中，第一预设条件的设定原则为：判断表中在查询语句中涉及的字段进行theta连接操作时，笛卡尔积的计算过程，是否会导致数据运算量超于预设阈值。需要说明的是，若表中在查询语句中涉及的字段进行theta连接操作时的笛卡尔积执行过程的计算，会导致数据运算量超于预设阈值，说明数据运算量剧烈膨胀。为了解决数据运算量剧烈膨胀的问题，则需要把表归为需要进行字段分解的表。

还需要说明的是，第一预设条件具体可以为：表在查询语句中涉及的字段的数量超过第一预设阈值；或者可以为表在查询语句中涉及的字段的存储开销超过第一预设空间阈值；还可以为表在所述查询语句中涉及参与theta连接操作的字段的数量超过第二预设阈值；或者，表在查询语句中涉及参与theta连接操作的字段的存储开销超过第二预设空间阈值。

接上述实例中，以第一预设条件为表在查询语句中涉及的字段的存储开销超过预设空间阈值为例说明，且设定customer表中的c_custkey，c_name和c_nationkey三个字段、以及nation表中的n_nationkey，n_regionkey和n_name三个字段的存储开销均超过预设空间阈值，orders表和region表在查询语句中涉及的字段的存储开销未超过预设空间阈值。

则在本实例中，经步骤S201中得到的查询条件可知：

customer表与orders表存在基于字段c_custkeyθo_custkey的连接操作，且customer表中的c_custkey，c_name和c_nationkey三个字段的存储开销均超过预设空间阈值，因此，customer表为第一类表；

nation表与region表存在基于字段n_regionkeyθr_regionkey的连接操作，且nation表中的n_nationkey，n_regionkey和n_name三个字段的存储开销均超过预设空间阈值，因此，nation表为第一类表。

orders表和region表为第二类表。

还需要说明的是，对本步骤识别的第一类表执行步骤S203；对本步骤识别的第二类表执行步骤S206。

S203、对于第一类表中的每张表，将表中参与theta连接操作的字段构成第一类字段组，将表中在查询语句中涉及、但未参与theta连接操作字段构成第二类字段组；

需要说明的是，由于第一类表中的表，其在查询语句中所涉及的字段参与theta连接操作，且表在查询语句中涉及的字段满足第一预设条件，说明该表的字段在进行theta连接操作时的笛卡尔积执行过程，会存在数据运算量剧烈膨胀的问题，因此，将第一类表在查询语句中涉及的字段分解，得到第一类表中的每张表的多个字段组，实现以多个字段组的形式分步完成theta连接操作，能够实现降低了一次进行连接操作时笛卡尔积计算的数据量，大幅度减少的网络传输开销、计算开销和内存开销，提升执行效率的效果。

分解第一类表中的每张表在查询语句中涉及的字段，得到第一类表中的每张表的对个第一字段组的方式，可以如步骤S203的方式，将表中参与theta连接操作的字段构成第一类字段组，将表中在查询语句中涉及、但未参与theta连接操作的字段构成第二类字段组，还可以有其他的分解方式，只要能满足降低实际参与执行theta连接操作的字段数量即可。例如：将参与theta连接操作的字段和未参与theta连接操作、但在查询语句中涉及的字段中的部分字段构成字段组，剩余的字段构成字段组。并且，本步骤中的第一类字段组可以称之为第一子类字段组，第二类字段组也可以称之为第二子类字段组。

还需要说明的是，本步骤中，第一类字段组可以为：将表中参与theta连接操作的所有字段构成一个字段组；第二类字段组可以理解成将表中在查询语句中涉及、但未参与theta连接操作的所有字段构成的一个字段组。

可选地，构成的第一类字段组的方式还可以为：将表中参与theta连接操作的字段构成的多个字段组。

具体的，将第一类表中参与theta连接操作的字段，按照预定规则分解得到多个第一类字段组；其中，预定规则为：与同一个表进行theta连接的字段分解为一个字段组，且任意两个不同字段组之间的共有字段满足第三预设条件。并且，具体内容可参见以下对应图4的实施例中步骤S409的内容，此处不再赘述。

接上述实例中，对customer表中字段分解形成的第一类字段组包括：(c_custkey，c_nationkey)，对customer表中字段分解形成的第二类字段组包括：(c_name)。对nation表中字段分解形成的第一类字段组包括：(n_regionkey，n_nationkey)，对nation表中字段分解形成的第二类字段组包括：(n_name)。

S204、判断第一类字段组和第二类字段组是否均包含主键；

若第一类字段组或第二类字段组未包含主键，则执行步骤S205和S207；

若第一类字段组和第二类字段组均包含主键，则执行步骤S207；

S205、对未含主键的字段组中添加主键；

其中，主键为非空字段，若第一类字段组或第二类字段组中未包含主键，需添加主键，其目的是，将第一类字段组和第二类字段组在执行theta连接操作后的结果，可以再通过主键进行等值连接，以得到完整的查询结果。并且，需要对第一类字段组和第二类字段组中未包含主键的字段组，添加该字段组所属的表的主键。

还需要说明的是，步骤S203-S205是实现将第一类表中的每张表中参与theta连接操作的字段和主键构成第一类字段组；将第一类表中的每张表中在所述查询语句中涉及、但未参与theta连接操作的字段和主键构成第二类字段组的一种实现方式，还可以有其他的实现方式，此处不再说明。

接上述实例，第一类字段组(c_custkey，c_nationkey)和(n_regionkey，n_nationkey)均包含主键，第二类字段组(c_name)和(n_name)均不包含主键，对第二类字段组添加主键后，形成字段组(c_name，c_custkey)和字段组(n_name，n_nationkey)。

S206、对第二类表中的每张表，将表中在查询语句中涉及的字段构成一个字段组，可以称为第三类字段组(也可称之为第二字段组)；

接上述实例中，orders表和region表为获取的表中除第一类表以外的表，orders表中在查询语句中涉及的字段构成的第三类字段组为：(o_custkey，o_orderdate)；并且，region表在查询语句中涉及的字段构成的第三类字段组为：(r_regionkey，r_name)。

S207、依据查询语句、第一类字段组、第二类字段组和第三类字段组，生成执行计划。

其中，执行计划包含待构建的第一类字段组、第二类字段组和第三类字段组、执行步骤和执行条件，生成的执行计划用于控制读取第一类字段组、第二类字段组和第三类字段组中字段对应的数据，并按照执行步骤对读取的数据进行满足执行条件的连接操作，得到符合查询语句要求的查询结果。

还需要说明的是：执行条件包括theta连接执行条件和等值连接执行条件，且等值连接执行条件又可分为原生等值连接执行条件和派生等值连接执行条件；其中，theta连接执行条件与查询语句中的theta连接条件相同；原生等值连接执行条件与查询语句中的等值连接条件相同；派生等值连接执行条件一般以第一类表的主键为等值连接参数，对第一类表分解出的第一类字段组和第二类字段组执行查询条件生成的中间结果执行等值连接。

因此，步骤S207中，依据查询语句、第一类字段组、第二类字段组和第三类字段组，生成执行计划的一种实现方式可以包括：

将第一类字段组、第二类字段组和第三类字段组作为执行计划中包含的待构建的字段组；

依据查询语句中的查询条件，生成执行条件中的theta连接执行条件和原生等值连接执行条件；

为满足查询语句对应的查询结果的要求，将以第一类表的主键为等值连接参数，对第一类字段组和第二类字段组执行查询条件生成的中间结果执行等值连接的条件，作为执行条件中的派生等值连接执行条件；

可选地，参见图3，在本发明的另一实施例公开的执行多表连接操作的控制方法，包含步骤S301～S307，其中，步骤S301-S307的内容可参见对应图2的实施例中的步骤S201-S207，此处不再赘述。

并且，本实施例中，在步骤S305之后以及步骤S304的判断结果为第一类字段组和第二类字段组均包含主键之后，均还包括：

S308、判断第一类字段组中字段是否满足第二预设条件；

需要说明的是，需要判断第一类表中的每张表的第一类字段组中的字段是否满足第二预设条件。

其中，第二预设条件和第一预设条件的设定原则相同，也用于判断第一类字段组中的字段进行theta连接操作时，笛卡尔积的计算过程是否会导致数据运算量超于预设阈值，因此，第二预设条件也可以是从字段数量和字段存储开销来设定，例如：第一类字段组中的字段的数量超过第三预设阈值，或者第一类字段组中的字段的存储开销超过第三预设空间阈值。当然，设定的第二预设条件中字段数量对应的第三预设阈值和字段存储开销对应的第三预设空间阈值可以和第一预设条件可以相同，也可以小于第一预设条件中的值。

若判断出第一类表字段组中字段不满足第二预设条件，则执行步骤S307；

其中，若第一类表中的每张表的第一类字段组中的字段均不满足第二预设条件，则说明第一类表中的每张表的第一类字段组均不需要进一步分解，可直接执行步骤S307。

若判断出第一类表中的某张表的第一类字段组中的字段满足第二预设条件，则执行步骤S309、分解满足第二预设条件的第一类字段组，得到多个字段组；

其中，判断出第一类字段组中的字段满足第二预设条件，说明第一类字段组中的字段进行theta连接操作时的笛卡尔积执行过程，还会存在数据运算量剧烈膨胀的问题，因此将第一类字段组中的字段分解，得到多个字段组，进一步降低参与theta连接操作时的字段数量，降低笛卡尔积执行过程的数据运算量。

还需要说明的是，步骤S309中，分解第一类字段组中字段的方式可以有多种，例如：均分方式，即将第一类字段组中的字段等分，形成多个字段组；或者采用由存储开销大的字段和存储开销小的字段构成字段组的方式；甚至还是可以随机分解等等。

并且，在对第一类字段组中的字段进行分解可以理解为一次分解，即仅分解一次，形成两个字段组；还可以理解为多次分解，可以设定多次分解的次数，作为截止分解的条件，或者分解一次后，对分解后的字段组执行步骤S308和S309，直到分解后的字段组中的字段不满足第二预设条件为止。

还需要说明的是，步骤S309中执行过程中，若第一类字段组中有多个字段参与同一个theta连接操作的情况，对这样的字段不做分解，例如：theta连接操作t1.a1+t1.a2>t2.b，其中，t1表的a1字段和a2字段参与同一个theta连接操作—t1.a1+t1.a2>t2.b，此时，对t1表的a1字段和a2字段不做分解。

S310、判断分解得到的字段组是否均包含主键；

若分解得到的字段组中有字段组不包含主键，则执行步骤S311、在不包含主键的字段组中添加主键；

需要说明的是，若分解得到的字段组中有字段组不包含主键，则需要将该字段组所属的表的主键添加到字段组中。并且，在不包含主键的字段组中添加主键的目的，与上述实施例中步骤S205相同，此处不再赘述。

若分解得到的字段组均包含主键，则执行步骤S307。

还需要说明的是，若在步骤S310和S311之后执行步骤S307时，步骤S307具体为：依据查询语句、第一类字段组分解后的字段组、第二类字段组和第三类字段组，生成执行计划。

可选地，参见图4，在本发明的另一实施例公开的执行多表连接操作的控制方法，包含步骤S401～S407，其中，步骤S401-S407的内容可参见对应图2的实施例中的步骤S201-S207，此处不再赘述。

其中，本实施例中，在步骤S405之后以及步骤S404的判断结果为第一类字段组和第二类字段组均包含主键之后，还包括：

S408、判断第一类字段组中的字段是否用于参与多个表的theta连接；

需要说明的是，对分解得到的第一类表中的每张表的第一类字段组，都需要判断字段组中的字段是否用于参与多个表的theta连接。

若判断出第一类表字段组中字段不用于参与多个表的theta连接，则执行步骤S407；

其中，若第一类表中的每张表的第一类字段组均不用于参与多个表的theta连接，则说明第一类字段组的字段进行theta连接操作时的笛卡尔积执行过程，存在数据运算量剧烈膨胀的问题的概率较低，因此可以执行步骤S407。

若判断出第一类表中的某张表的第一类字段组中的字段用于参与多个表的theta连接，则执行步骤S409；

S409、按照预定规则分解第一类字段组，得到多个字段组；

需要说明的是，若第一类表中的某张表的第一类字段组用于参与多个表的theta连接，说明该第一类字段组中的字段还可以进一步分解，再降低参与theta连接操作时的字段数量。

其中，分解第一类字段组的预定规则为，与同一个表进行theta连接的字段分解为一个字段组，且任意两个不同字段组之间的共有字段满足第三预设条件。第三预设条件用于判断分解构成的两个字段组之间的关联性，若两者的关联性较高，则不应该将两个字段组分解，应合并为一个字段组，若两者的关联性较低，说明两者字段组互相的影响性较小，可以为独立的两个字段组执行theta连接。其中，两个字段组的公共字段用于评判两个字段组之间的关联性的，公共字段的数量越少或者占有的空间开销越低，则说明两个字段组的关联性越低，因此所述第三预设条件可以是，共有字段的数量占两个字段组中所有字段数量的比例低于指定值，还可以是，共有字段的空间开销占两个字段组所有字段空间开销的比例低于指定值。还需要说明的是，两个字段组的所有字段中不包含重复的字段。

例如：t1表的a1字段、a2字段和a3字段和t2表中的字段有theta连接，t1表的a1字段、a2字段、a4字段和a5字段与t3表中的字段有theta连接。

t1表中的a1字段、a2字段、a3字段、a4字段和a5字段构成了第一类字段组，在公共字段a1字段和a2字段满足第三预设条件时，才会分解a1字段、a2字段、a3字段、a4字段和a5字段构成的第一类字段组，得到由a1字段、 a2字段和a3字段构成的字段组，以及由a1字段、a2字段、a4字段和a5字段构成字段组。

接上述实例，第一类字段组(c_custkey，c_nationkey)中，c_custkey用于与orders表中o_custkey字段进行theta连接，c_nationkey用于与nation表中n_nationkey字段进行theta连接，因此，第一类字段组(c_custkey，c_nationkey)满足步骤S408，需要对其进行分解，且分解得到的字段组为：(c_custkey)和(c_nationkey)。

S410、判断分解得到的字段组是否均包含主键；

若有字段组不包含主键，则执行步骤S411、在字段组中添加主键；

需要说明的是，若分解得到的字段组中，有字段组不包含主键，则需要将该字段组所属的表的主键添加到字段组中。并且，在不包含主键的字段组中添加主键的目的，与上述实施例中步骤S205相同，此处不再赘述。

接上述实例，步骤S409中分解第一类字段组(c_custkey，c_nationkey)后得到的字段组(c_nationkey)没有主键，则为其添加主键，形成字段组(c_nationkey，c_custkey)。

若分解得到的字段组均包含主键，则执行步骤S407。

还需要说明的是，若在步骤S410和S411之后执行步骤S407时，步骤S407、依据查询语句、第一类字段组、第二类字段组和第三类字段组，生成执行计划，具体为：依据查询语句、第一类字段组分解后的字段组、第二类字段组和第三类字段组，生成执行计划。

可选地，参见图3和图4，执行图4中步骤S408之前，还可以执行图3中步骤S308-步骤S311，即采用判断是否参与多个表的theta连接的方式，来判断是否分解第一类字段组之前，可以先采用判断字段是否满足第二预设条件的方式，来判断是否分解第一类字段组。

或者，执行S407之前，还可以执行图3中步骤S308-步骤S311，即先采用判断字段是否满足第二预设条件的方式，来判断是否分解第一类字段组，再采用判断是否参与多个表的theta连接的方式，来判断是否分解第一类字段组。

其中，步骤S308-步骤S311具体内容可参见对应图3的实施例的内容，此处不再赘述。

本发明另一实施例还公开了一种执行多表连接的控制方法，参见图1和图5，应用于由n个服务器组成的服务器集群，n大于或等于1，本实施例公开的控制方法包括：

S501、接收执行计划；

其中，执行计划包含待构建的第一字段组和第二字段组、执行步骤和执行条件；其中，执行条件包含：theta连接执行条件和等值连接执行条件，且执行步骤和执行条件的要求，请参见对应图2的实施例中步骤S207的内容，此处不再赘述。

还需要说明的是，执行计划中的第一字段组可以是：上述对应图2的方法实施例中步骤S203中的第一类字段组和第二类字段组；也可以是对应图3的方式实施例中步骤S309中分解得到的多个字段组；还可以是对应图4的方式实施例中步骤S409中分解得到的多个字段组。并且，执行计划中的第二字段组，是指：上述对应图2的方法实施例中步骤S206中的第三类字段组。

S502、读取待构建的第一字段组和第二字段组中字段对应的数据；

具体的，待构建的第一字段组和第二字段组中字段对应的数据可存储于n个服务器中的n个存储节点，由n个服务器102中的执行器组成的分布式计算平台接收到执行计划，从由n个存储节点组成分布式存储系统中读取所述待构建的字段组中字段对应的数据。

S503、依据待构建的第一字段组和第二字段组，对读取的数据进行分组，形成字段组数据；

其中，待构建的字段组为优化器11得到的字段组，将组成字段组中的字段对应的数据读取之后，将读取得到的数据按照字段组展示的方式组合，形成字段组数据。

参见图6，接上述实例，对customer表中c_custkey,c_name,c_nationkey三个字段的数据，组合形成如下的字段组数据：

cp1:c_custkey

cp2:c_custkey，c_nationkey

cp3:c_custkey，c_name

对nation表中的n_nationkey,n_regionkey,n_name三个字段的数据，组合形成如下的字段组数据：

np1:n_nationkey，n_name

np2:n_nationkey，n_regionkey

对orders表中的o_custkey和o_orderdate字段中的数据，组成字段组数据：o_custkey，o_orderdate。

对region表中的r_regionkey和r_name字段中的数据，组成字段组数据：r_regionkey，r_name。

S504、按照执行步骤对字段组数据进行theta连接，得到符合theta连接执行条件的中间结果；

参见图6，针对theta连接条件c_custkeyθo_custkey，对cp1:c_custkey和字段组：o_custkey，o_orderdate做笛卡尔积，得到满足c_custkeyθo_custkey连接条件的数据r1；针对theta连接条件_nationkeyθn_nationkey，对字段组cp2:c_custkey，c_nationkey和np2:n_nationkey，n_regionkey做做笛卡尔积，得到满足c_nationkeyθn_nationkey的数据r2；针对theta连接条件n_regionkeyθr_regionkey，对字段组np2:n_nationkey，n_regionkey和字段组：r_regionkey，r_name做笛卡尔积，得到满足n_regionkeyθr_regionkey连接条件的数据r3。

S505、按照执行步骤、对中间结果和字段组数据中未进行theta连接的字段组数据进行等值连接，得到符合等值连接执行条件的查询结果；

需要说明的是，步骤S504中得到的中间结果同样为带有数据的字段组，执行等值连接操作时，以字段组共有的主键字段为等值连接参数。

本发明的实例中，参见图6，以主键c_custkey为等值连接的连接条件，对r1和cp3:c_custkey，c_name执行等值连接，得到r4；以主键n_nationkey为等值连接的连接条件，对r2和r3执行等值连接，得到r5；最后以主键c_custkey为等值连接的连接条件，对r4和r5执行等值连接，得到r6。

还需要说明的是，等值连接执行条件可以包含有原生等值连接执行条件和派生等值连接执行条件；原生等值连接执行条件是指依据查询语句的查询条件中包含的字段间的等值连接而形成的执行条件，派生等值连接执行条件是指为了实现得到查询结果而进行的基于共同主键字段的等值连接的执行条件。

若等值连接执行条件包含有原生等值连接执行条件，本步骤可以成：先对字段组数据中未进行theta连接的字段组数据、且涉及原生等值连接的字段组数据，按照原生等值连接执行条件进行等值连接；再对执行完原生等值连接的字段组数据、字段组数据中未进行theta连接的字段组数据、且不涉及原生等值连接的字段组数据、以及中间结果进行基于共同主键字段的等值连接，得到查询结果。

若等值连接执行条件未包含有原生等值连接执行条件，本步骤即为：对中间结果和字段组数据中未进行theta连接的字段组数据进行基于共同主键字段的等值连接，得到查询结果。

S506、将查询结果映射为输出字段序列；

具体的，本发明的实例中，将得到的r6映射成输出字段序列。

S507、发送输出字段序列。

具体的，得到输出字段序列之后，向数据块查询引擎101发送。

需要说明的是，步骤S501中待构建的第一字段组和第二字段组和执行条件的形式，以及步骤S504和S505公开的处理字段组数据的方式，仅是实现将字段组数据进行过滤，得到符合执行条件的查询结果的一种实现方式。可以确定的是，针对待构建的字段组和执行条件的其他实现方式，若相对现有技术来说，均采用将进行theta连接操作的字段分解成多个字段组，实现以多个字段组的形式分步完成连接操作，能够实现降低了一次进行连接操作时笛卡尔积计算的数据量，大幅度减少的网络传输开销和计算开销，提升执行效率的效果，那均可以落在本发明方案的保护范围之内。

可选地，在本发明的另一实施例中，在步骤S502之后，还包括：

判断执行条件中是否包含单表过滤条件；

若判断出执行条件中包含单表过滤条件，则依据单表过滤条件，对读取得到的数据执行过滤；

此种情况下，步骤S503、依据所述待构建的字段组对读取的数据进行分组，形成字段组数据，包括：

依据待构建的字段组对过滤后的数据进行分组，形成字段组数据；

若判断筛选条件中没有包含单表过滤条件，则执行步骤S503。

其中，在优化器解析的查询语句中，若查询条件包含单表过滤条件，则生成的执行计划中执行条件会包含单表过滤条件，因此，需要以此条件为过滤条件，删除步骤S502中读取得到的数据中不满足该过滤条件的数据。

可选地，在本发明的另一实施例中，在步骤S503之后，还包括：

判断执行条件中是否包含有字段等值连接执行条件；

若执行条件中包含有原生等值连接执行条件，按照执行步骤，依据原生等值连接执行条件对字段组数据执行等值连接；

可以理解的是，若执行条件中包含有原生等值连接执行条件，那在执行步骤中还应该包含有执行原生等值连接的步骤；另外，在此种情况下，步骤S504为按照执行步骤对执行等值连接后的字段组数据进行连接，得到符合执行条件的中间结果；

若执行条件中未包含原生等值连接执行条件，则直接执行步骤S504。

还需要说明的是，本实施例中，步骤S505可以理解为：按照执行步骤、对中间结果和字段组数据中未进行theta连接的字段组数据、且不涉及原生等值连接的字段组数据进行基于共同主键字段的等值连接，得到查询结果。

下面以“Select c_custkey,c_name,c_nationkey,n_nationkey,n_name,o_custkey,o_orderdate FROM customer,nation,orders where c_nationkey>n_nationkey and c_custkey>o_custkey and c_custkey<n”查询语句为例，说明本发明公开的执行多表连接的控制方法。

上述查询语句中包含两个“>”Theta连接条件和一个“c_custkey<n”单表过滤条件，如下表所示，当单表过滤阈值n设置为5、10、15时，采用本发明的执行多表连接的控制方法可在6～7秒返回查询结果，而未采用本发明公开的方法需要147～524秒才能返回查询结果，本发明方法的最高加速比可达87.3倍。

过滤条件	分解映射优化执行时间(秒)	Spark SQL执行时间(秒)
n＝5	7	147
n＝10	6	365
n＝15	6	524

本发明另一实施例还公开了一种优化器，参见图5，包括：

存储器701，用于存储程序以及程序运行中产生的数据；

处理器702，用于通过运行存储器701中的程序，实现以下功能：

解析查询语句，获得查询条件、表名以及表名对应的表在查询语句中涉及的字段；将第一类表中的每张表在查询语句中所涉及的字段进行分解，得到第一类表中的每张表的多个第一字段组；采用将第二类表中的每张表在查询语句中涉及的字段，构成一个第二字段组的方式，获得第二类表中的每张表的第二字段组；依据查询语句、第一字段组和第二字段组，生成执行计划；

其中，查询条件表明参与theta连接操作、且在查询语句中涉及的字段满足第一预设条件的表为第一类表，第一预设条件用于表明表在查询语句中涉及的字段执行theta连接操作时，进行笛卡儿积计算导致数据运算量超于预设阈值；第二类表为表名对应的表中除第一类表以外的表；执行计划用于控制读取第一字段组和第二字段组中字段对应的数据，并按照执行步骤对读取的数据进行满足执行条件的连接操作，得到符合查询语句要求的查询结果。

可选地，本发明的另一实施例中，依据上述第一预设条件的用途，设定的第一预设条件可以包括：

表在所述查询语句中涉及的字段的数量超过第一预设阈值；

表在所述查询语句中涉及的字段的存储开销超过第一预设空间阈值；

表在所述查询语句中涉及参与theta连接操作的字段的数量超过第二预设阈值；或者，

可选地，本发明的另一实施例中，处理器702执行将第一类表中的每张表在查询语句中所涉及的字段进行分解，得到第一类表中的每张表的多个第一字段组时，具体用于：

对于第一类表中的每张表，分别将表中参与theta连接操作的字段和主键构成第一子类字段组，将表中在查询语句中涉及、但未参与theta连接操作的字段和主键构成第二子类字段组；

其中，处理器702执行依据查询语句、第一字段组和第二字段组，生成执行计划时，具体用于：

依据查询语句、第一子类字段组、第二子类字段组和第二字段组，生成执行计划，执行计划用于控制读取第一子类字段组、第二子类字段组和第二字段组中字段对应的数据，并按照执行步骤对读取的数据进行满足执行条件的连接操作，得到符合查询语句要求的查询结果。

可选地，本发明的另一实施例中，处理器702执行将表中参与theta连接操作的字段和主键构成第一子类字段组操作时，具体用于：

将表中参与theta连接操作的所有字段和主键构成一个第一子类字段组；

或者具体用于：将表中与同一个表的字段进行theta连接操作的字段和主键构成一个第一子类字段组。

需要说明的是，处理器702在上述实施例的具体工作过程均可参见对应图2的方法实例中的内容，此处不再赘述。

可选地，本发明的另一实施例中，处理器702在依据查询语句、第一子类字段组、第二子类字段组和第二字段组，生成执行计划之前，还用于：

若判断第一类表中的某张表的第一子类字段组中字段满足第二预设条件，分解第一子类字段组，得到多个字段组；判断对满足第二预设条件的第一子类字段组进行分解得到的多个字段组是否均包含主键；若对满足所述第二预设条件的第一子类字段组进行分解得到的多个字段组未均包含主键，则在未包含主键的字段组中添加主键；

其中，处理器702还用于在未包含主键的字段组中添加主键之后，以及在判断出对满足第二预设条件的第一子类字段组进行分解得到的多个字段组中均包含主键之后，执行依据查询语句、第一子类字段组、第二子类字段组和第二字段组，生成执行计划的步骤。

可选地，上述的第二预设条件包括：

第一子类字段组中字段的数量超过第三预设阈值；

第一子类字段组中字段的存储开销超过第三预设空间阈值。

其中，本实施例中，处理器702具体工作过程可参见对应图3的实施例中，步骤S308～S311的内容，此处不再赘述。

可选地，本发明的另一实施例中，处理器702在构成第一子类字段组和第二子类字段组之后，还用于：

若判断出第一类表中的某张表的第一类字段组中的字段用于参与多个表的theta连接操作，按照预定规则分解第一子类字段组，得到多个字段组；判断分解得到的多个字段组是否均包含主键；若分解得到的多个字段组未均包含主键，则在未包含主键的字段组中添加主键；

其中，上述的预设规则包括：第一子类字段组中与同一个表进行theta连接的字段分解为一个字段组，且分解成的任意两个字段组之间的共有字段满足第三预设条件，第三预设条件用于判断分解构成的两个字段组之间的关联性；

其中，处理器702还用于在未包含主键的字段组中添加主键之后，以及在判断出分解得到的多个字段组均包含主键之后，执行依据查询语句、第一子类字段组、第二子类字段组和第二字段组，生成执行计划的步骤。

其中，本实施例中，处理器702具体工作过程可参见对应图4的实施例中，步骤S408～S411的内容，此处不再赘述。

本发明还公开了一种服务器集群，参见图6，包括n个服务器，n大于或等于1，每个服务器均包括处理器801和存储器802；其中：

n个服务器的处理器801组成分布式计算平台，用于接收执行计划，执行计划包含待构建的第一字段组和第二字段组、执行步骤和执行条件；读取待构建的第一字段组和第二字段组中字段对应的数据；依据待构建的第一字段组和第二字段组对读取的数据进行分组，形成字段组数据；按照执行步骤对字段组数据进行满足执行条件的连接操作，得到查询结果；将查询结果映射为输出字段序列；发送输出字段序列；

n个服务器的存储器202组成分布式存储系统，用于存储字段对应的数据。

其中，处理器201可以理解成每个服务器中的执行器，存储器202可以理解成每个服务器中的存储节点。

可选地，本发明的另一实施例中，执行条件包括：theta连接执行条件和等值连接执行条件；分布式计算平台执行按照执行步骤对字段组数据进行满足执行条件的连接操作，得到查询结果时，具体用于：

按照执行步骤对字段组数据进行theta连接，得到符合theta连接执行条件的中间结果；按照执行步骤、对中间结果和字段组数据中未进行theta连接的字段组数据进行等值连接，得到符合等值连接执行条件的查询结果。

需要说明的是，由处理器801组成分布式计算平台在上述实施例的具体工作过程均可参见对应图5的方法实例中的内容，此处不再赘述。

可选地，本发明的另一实施例中，分布式计算平台读取所述待构建的第一字段组和第二字段组中涉及的字段的数据之后，还用于：

判断执行条件中是否包含单表过滤条件；若执行条件中包含单表过滤条件，则依据所述单表过滤条件，对读取得到的数据执行过滤；

其中，分布式计算平台执行依据待构建的第一字段组和第二字段组对读取的数据进行分组，形成字段组数据的操作时，具体用于：

依据待构建的第一字段组和第二字段组对过滤后的数据进行分组，形成字段组数据。

可选地，本发明的另一实施例中，分布式计算平台依据待构建的字段组对读取的数据进行分组，形成字段组数据之后，还用于：

判断执行条件包含原生等值连接执行条件，按照执行步骤，依据原生等值连接执行条件对字段组数据执行等值连接；

其中，分布式计算平台执行按照执行步骤对字段组数据进行连接，得到符合执行条件的查询结果时，具体用于：按照执行步骤对执行等值连接后的字段组数据进行连接，得到符合执行条件的查询结果。

需要说明的是，由处理器801组成分布式计算平台在上述实施例的具体工作过程均可参见对应的方法实例中的内容，此处不再赘述。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种执行多表连接操作的控制方法，其特征在于，包括：

解析查询语句，获得查询条件、表名以及所述表名对应的表在所述查询语句中涉及的字段；

将第一类表中的每张表在所述查询语句中所涉及的字段进行分解，得到所述第一类表中的每张表的多个第一字段组；其中，所述查询条件表明参与theta连接操作、且在所述查询语句中涉及的字段满足第一预设条件的表为第一类表，所述第一预设条件用于表明表在所述查询语句中涉及的字段执行theta连接操作时，进行笛卡儿积计算导致数据运算量超于预设阈值；

采用将第二类表中的每张表在所述查询语句中涉及的字段，构成一个第二字段组的方式，获得所述第二类表中的每张表的第二字段组；其中，所述第二类表为所述表名对应的表中除所述第一类表以外的表；

依据所述查询语句、所述第一字段组和所述第二字段组，生成执行计划，所述执行计划用于控制读取所述第一字段组和所述第二字段组中字段对应的数据，并按照执行步骤对读取的数据进行满足执行条件的连接操作，得到符合所述查询语句要求的查询结果。
根据权利要求1所述的控制方法，其特征在于，所述第一预设条件包括：

表在所述查询语句中涉及的字段的数量超过第一预设阈值；

表在所述查询语句中涉及的字段的存储开销超过第一预设空间阈值；

表在所述查询语句中涉及参与theta连接操作的字段的数量超过第二预设阈值；或者，

表在所述查询语句中涉及参与theta连接操作的字段的存储开销超过第二预设空间阈值。
根据权利要求1所述的控制方法，其特征在于，所述将第一类表中的每张表在所述查询语句中所涉及的字段进行分解，得到所述第一类表中的每张表的多个第一字段组，包括：

对于所述第一类表中的每张表，分别将表中参与theta连接操作的字段和主键构成第一子类字段组，将表中在所述查询语句中涉及、但未参与theta连接操作的字段和主键构成第二子类字段组；

其中，所述依据所述查询语句、所述第一字段组和所述第二字段组，生成执行计划，包括：

依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划，所述执行计划用于控制读取所述第一子类字段组、所述第二子类字段组和所述第二字段组中字段对应的数据，并按照执行步骤对读取的数据进行满足执行条件的连接操作，得到符合所述查询语句要求的查询结果。
根据权利要求3所述的控制方法，其特征在于，所述将表中参与theta连接操作的字段和主键构成第一子类字段组，包括：

将表中参与theta连接操作的所有字段和主键构成一个第一子类字段组；

或者；将表中与同一个表的字段进行theta连接操作的字段和主键构成一个第一子类字段组。
根据权利要求3或4所述的控制方法，其特征在于，构成所述第一子类字段组和所述第二类子字段组之后，还包括：

若所述第一类表中的某张表的第一子类字段组中的字段用于参与多个表的theta连接操作，按照预定规则分解所述第一子类字段组，得到多个字段组；其中，所述预设规则包括：所述第一子类字段组中与同一个表进行theta连接的字段分解为一个字段组，且分解成的任意两个字段组之间的共有字段满足第三预设条件，所述第三预设条件用于判断分解构成的两个字段组之间的关联性；

判断所述分解得到的多个字段组是否均包含主键；

若所述分解得到的多个字段组未均包含主键，则在未包含主键的字段组中添加主键，并返回执行依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划的步骤；

若所述分解得到的多个字段组均包含主键，则返回执行依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划的步骤。
根据权利要求3、4或5所述的控制方法，其特征在于，所述依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划之前，还包括：

若所述第一类表中的某张表的第一子类字段组中字段满足第二预设条件，分解所述第一子类字段组，得到多个字段组；

判断对满足所述第二预设条件的第一子类字段组进行分解得到的多个字段组、是否均包含主键；

若所述对满足所述第二预设条件的第一子类字段组进行分解得到的多个字段组、未均包含主键，则在未包含主键的字段组中添加主键，并返回执行依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划的步骤；

若所述对满足所述第二预设条件的第一子类字段组进行分解得到的多个字段组均包含主键，则返回执行依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划的步骤。
根据权利要求6所述的控制方法，其特征在于，所述第二预设条件包括：

所述第一子类字段组中字段的数量超过第三预设阈值；

所述第一子类字段组中字段的存储开销超过第三预设空间阈值。
一种执行多表连接的控制方法，其特征在于，包括：

接收执行计划，所述执行计划包含待构建的第一字段组和第二字段组、执行步骤和执行条件；

读取所述待构建的第一字段组和第二字段组中字段对应的数据；

依据所述待构建的第一字段组和第二字段组对读取的数据进行分组，形成字段组数据；

按照所述执行步骤对所述字段组数据进行满足所述执行条件的连接操作，得到查询结果；

将所述查询结果映射为输出字段序列；

发送所述输出字段序列。
根据权利要求8所述的控制方法，其特征在于，所述读取所述待构建的第一字段组和第二字段组中涉及的字段的数据之后，还包括：

判断所述执行条件中是否包含单表过滤条件；

若所述执行条件中包含单表过滤条件，则依据所述单表过滤条件，对所述读取的数据执行过滤；

其中，所述依据所述待构建的第一字段组和第二字段组对所述读取的数据进行分组，形成字段组数据，包括：

依据所述待构建的第一字段组和第二字段组对过滤后的数据进行分组，形成字段组数据。
根据权利要求8所述的控制方法，其特征在于，所述执行条件包括：theta连接执行条件和等值连接执行条件；所述按照所述执行步骤对所述字段组数据进行满足所述执行条件的连接操作，得到查询结果，包括：

按照所述执行步骤对所述字段组数据进行theta连接，得到符合所述theta连接执行条件的中间结果；

按照所述执行步骤、对所述中间结果和所述字段组数据中未进行theta连接的字段组数据进行等值连接，得到符合所述等值连接执行条件的查询结果。
根据权利要求8所述的控制方法，其特征在于，所述依据所述待构建的字段组对读取的数据进行分组，形成字段组数据之后，还包括：

判断所述执行条件包含原生等值连接执行条件，按照执行步骤，依据所述原生等值连接执行条件对所述字段组数据执行等值连接；

其中，所述按照所述执行步骤对所述字段组数据进行连接，得到符合所述执行条件的查询结果，包括：

按照执行步骤对执行等值连接后的字段组数据进行连接，得到符合所述执行条件的查询结果。
一种优化器，其特征在于，包括：

存储器，用于存储程序以及程序运行中产生的数据；

处理器，用于通过运行所述存储器中的程序，实现以下功能：

解析查询语句，获得查询条件、表名以及所述表名对应的表在所述查询语句中涉及的字段；将第一类表中的每张表在所述查询语句中所涉及的字段进行分解，得到所述第一类表中的每张表的多个第一字段组；采用将第二类表中的每张表在所述查询语句中涉及的字段，构成一个第二字段组的方式，获得所述第二类表中的每张表的第二字段组；依据所述查询语句、所述第一字段组和所述第二字段组，生成执行计划；

其中，所述查询条件表明参与theta连接操作、且在所述查询语句中涉及的字段满足第一预设条件的表为第一类表，所述第一预设条件用于表明表在所述查询语句中涉及的字段执行theta连接操作时，进行笛卡儿积计算导致数据运算量超于预设阈值；所述第二类表为所述表名对应的表中除所述第一类表以外的表；所述执行计划用于控制读取所述第一字段组和所述第二字段组中字段对应的数据，并按照执行步骤对读取的数据进行满足执行条件的连接操作，得到符合所述查询语句要求的查询结果。
根据权利要求12所述的优化器，其特征在于，所述第一预设条件包括：

表在所述查询语句中涉及的字段的数量超过第一预设阈值；

表在所述查询语句中涉及的字段的存储开销超过第一预设空间阈值；

表在所述查询语句中涉及参与theta连接操作的字段的数量超过第二预设阈值；或者，

表在所述查询语句中涉及参与theta连接操作的字段的存储开销超过第二预设空间阈值。
根据权利要求12所述的优化器，其特征在于，所述处理器执行将第一类表中的每张表在所述查询语句中所涉及的字段进行分解，得到所述第一类表中的每张表的多个第一字段组时，具体用于：

对于所述第一类表中的每张表，分别将表中参与theta连接操作的字段和主键构成第一子类字段组，将表中在所述查询语句中涉及、但未参与theta连接操作的字段和主键构成第二子类字段组；

其中，所述处理器执行依据所述查询语句所述第一字段组和所述第二字段组，生成执行计划时，具体用于：

依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划，所述执行计划用于控制读取所述第一子类字段组、所述第二子类字段组和所述第二字段组中字段对应的数据，并按照执行步骤对读取的数据进行满足执行条件的连接操作，得到符合所述查询语句要求的查询结果。
根据权利要求14所述的优化器，其特征在于，所述处理器执行所述将表中参与theta连接操作的字段和主键构成第一子类字段组操作时，具体用于：

将表中参与theta连接操作的所有字段和主键构成一个第一子类字段组；

或者具体用于：将表中与同一个表的字段进行theta连接操作的字段和主键构成一个第一子类字段组。
根据权利要求14或15所述的优化器，其特征在于，所述处理器在构成第一子类字段组和第二子类字段组之后，还用于：

若判断出所述第一类表中的某张表的第一类字段组中的字段用于参与多个表的theta连接操作，按照预定规则分解所述第一子类字段组，得到多个字段组，其中，所述预设规则包括：所述第一子类字段组中与同一个表进行theta连接的字段分解为一个字段组，且分解成的任意两个字段组之间的共有字段满足第三预设条件，所述第三预设条件用于判断分解构成的两个字段组之间的关联性；判断所述分解得到的多个字段组是否均包含主键；若所述分解得到的多个字段组未均包含主键，则在未包含主键的字段组中添加主键；

其中，所述处理器还用于在未包含主键的字段组中添加主键之后，以及在判断出所述分解得到的多个字段组均包含主键之后，执行依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划的步骤。
根据权利要求14、15或16所述的优化器，其特征在于，所述处理器在依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划之前，还用于：

若判断所述第一类表中的某张表的第一子类字段组中字段满足第二预设条件，分解所述第一子类字段组，得到多个字段组；判断对满足所述第二预设条件的第一子类字段组进行分解得到的多个字段组是否均包含主键；若所述对满足所述第二预设条件的第一子类字段组进行分解得到的多个字段组未均包含主键，则在未包含主键的字段组中添加主键；

其中，所述处理器还用于在未包含主键的字段组中添加主键之后，以及在判断出对满足所述第二预设条件的第一子类字段组进行分解得到的多个字段组中均包含主键之后，执行依据所述查询语句、所述第一子类字段组、所述第二子类字段组和所述第二字段组，生成执行计划的步骤。
根据权利要求17所述的优化器，其特征在于，所述第二预设条件包括：

所述第一子类字段组中字段的数量超过第三预设阈值；

所述第一子类字段组中字段的存储开销超过第三预设空间阈值。
一种服务器集群，其特征在于，包括n个服务器，n大于或等于1，每个所述服务器均包括处理器和存储器；其中：

所述n个服务器的处理器组成分布式计算平台，用于接收执行计划，所述执行计划包含待构建的第一字段组和第二字段组、执行步骤和执行条件；读取所述待构建的第一字段组和第二字段组中字段对应的数据；依据所述待构建的第一字段组和第二字段组对读取的数据进行分组，形成字段组数据；按照所述执行步骤对所述字段组数据进行满足所述执行条件的连接操作，得到查询结果；将所述查询结果映射为输出字段序列；发送所述输出字段序列；

所述n个服务器的存储器组成分布式存储系统，用于存储字段对应的数据。
根据权利要求19所述的服务器集群，其特征在于，所述分布式计算平台读取所述待构建的第一字段组和第二字段组中涉及的字段的数据之后，还用于：

判断所述执行条件中是否包含单表过滤条件；若所述执行条件中包含单表过滤条件，则依据所述单表过滤条件，对读取的数据执行过滤；

其中，所述分布式计算平台执行所述依据所述待构建的第一字段组和第二字段组对读取的数据进行分组，形成字段组数据的操作时，具体用于：

依据所述待构建的第一字段组和第二字段组对过滤后的数据进行分组，形成字段组数据。
根据权利要求19所述的服务器集群，其特征在于，所述执行条件包括：theta连接执行条件和等值连接执行条件；所述分布式计算平台执行所述按照所述执行步骤对所述字段组数据进行满足所述执行条件的连接操作，得到查询结果时，具体用于：

按照所述执行步骤对所述字段组数据进行theta连接，得到符合所述theta连接执行条件的中间结果；按照所述执行步骤、对所述中间结果和所述字段组数据中未进行theta连接的字段组数据进行等值连接，得到符合所述等值连接执行条件的查询结果。
根据权利要求19所述的服务器集群，其特征在于，所述分布式计算平台在依据所述待构建的字段组对读取的数据进行分组，形成字段组数据之后，还用于：

判断所述执行条件包含原生等值连接执行条件，按照执行步骤，依据原生等值连接执行条件对所述字段组数据执行等值连接；

其中，所述分布式计算平台执行按照所述执行步骤对所述字段组数据进行连接，得到符合所述执行条件的查询结果时，具体用于：

按照执行步骤对执行等值连接后的字段组数据进行连接，得到符合所述执行条件的查询结果。