WO2019101119A1

WO2019101119A1 - 代价优化器与代价估计的方法及其设备

Info

Publication number: WO2019101119A1
Application number: PCT/CN2018/116874
Authority: WO
Inventors: 夏立; 陈振强
Original assignee: 星环信息科技（上海）有限公司
Priority date: 2017-11-22
Filing date: 2018-11-22
Publication date: 2019-05-31
Also published as: CA3083148A1; CN107885865A; JP2021504852A; US20200379999A1; EP3716093A1; US11023466B2; CA3083148C; EP3716093B1; CN107885865B; EP3716093A4; SG11202004818SA

Abstract

一种代价优化器与代价估计的方法及其设备，当判断获取到的统计信息不完备时，则根据依赖于所述统计信息的操作树的操作类型确定对应的代价估计方式（S11）；基于所述代价估计方式确定所述对应操作类型的代价估计（S12）；根据依赖于所述统计信息操作类型对应的代价估计及未依赖于统计信息的操作类型对应的代价估计确定所述操作树的累积代价估计（S13）。从而对于运行时创建临时表和子查询可以进行代价估算，实现对海量数据的场景不受数据规模限制。

Description

代价优化器与代价估计的方法及其设备

本申请要求在2017年11月22日提交中国专利局、申请号为201711175349.9的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机领域，例如涉及代价优化器与代价估计的方法及其设备。

背景技术

代价优化器(CBO，Cost Based Optimizer)是数据库系统中的核心部件，由于对数据库系统的性能影响显著，因而在现代数据库系统中占据重要地位。代价优化器的核心是代价估计模型，用于对数据库系统生成的执行计划进行代价估计，从而选择最优的执行计划。估计模型的好坏影响最终执行计划的优劣。代价优化器基于目标数据的统计信息对执行计划进行优化，统计信息的完整性和精确性直接影响到估计模型对执行计划的估计。

进行代价优化需要统计信息，因此收集完整而精确的统计信息是所有代价优化器必不可少的环节。优化代价优化器是为了生成最优的执行计划。在数据库系统中，执行计划一般用操作树表示，操作树由不同类型的操作构成，一棵操作树包括的操作类型可以为扫表、选择、过滤、聚合、连接、投影等。基于统计信息，代价优化器可以借助代价估算模型，对执行计划的每一步操作进行代价估算，并从所有可能的执行计划中选取整体代价最小者作为最终的执行计划，由此就完成了整个代价优化的过程。从中可知，代价优化器的核心在于基于统计信息的代价估算，统计信息是代价优化器的基础。

代价优化器需要统计信息，在缺少必要统计信息的情况下无法完成代价优化。例如，在运行时创建的临时表或者存在子查询的场景，在编译阶段不能确定其统计信息，因此无法完成代价优化。另一方面，当代价优化器被应用到大数据系统中处理海量数据时，由于海量数据的统计信息收集代价巨大，收集该海量数据的统计信息将成为应用代价优化器的瓶颈。对于给定的数据集，并非需要收集全量数据的统计信息，基于部分统计信息也可能得到最优计划。在统计信息不完整或者不可获取的情况下，相关技术中的代价优化器失效。

发明内容

本申请提供一种代价优化器与代价估计的方法及其设备，可以解决统计信息不完备时无法进行代价估计的问题。

根据本申请的一个方面，提供了一种代价估计的方法，该方法包括：判断获取到的统计信息是否完备，若统计信息不完备，确定第一操作类型的代价估计方式；基于所述代价估计方式确定所述第一操作类型的第一代价估计，该第一操作类型为依赖于所述统计信息的操作树的操作类型；以及根据第一代价估计及第二操作类型的第二代价估计确定所述操作树的累积代价估计，第二操作类型为不依赖于所述统计信息的操作树的操作类型。

根据本申请的另一方面，还提供了一种代价估计的设备，所述设备包括：判断装置、确定装置和估算装置。

判断装置设置为判断获取到的统计信息是否完备，若统计信息不完备，则根据依赖于所述统计信息的操作树的操作类型确定对应的代价估计方式。

确定装置设置为基于所述代价估计方式确定所述对应操作类型的代价估计。

估算装置设置为根据依赖于所述统计信息操作类型对应的代价估计及未依赖于统计信息的操作类型对应的代价估计确定所述操作树的累积代价估计。

根据本申请再一个方面，还提供了一种代价优化器，该代价优化器设置为：生成原始执行计划；判断获取到的统计信息是否完备，若统计信息完备，则根据基于统计信息的第一代价估算模型估算代价，若统计信息不完备，则根据第二代价估算模型估算代价；根据所述第一代价估算模型估算的代价或所述第二代价估算模型估算的代价生成最优执行计划。

根据本申请再一个方面，还提供了一种基于计算的设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：判断获取到的统计信息是否完备，若统计信息不完备，则根据依赖于所述统计信息的操作树的操作类型确定对应的代价估计方式；基于所述代价估计方式确定所述对应操作类型的代价估计；根据依赖于所述统计信息操作类型对应的代价估计及未依赖于统计信息的操作类型对应的代价估计确定所述操作树的累积代价估计。

根据本申请再一个方面，还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述代价估计的方法。

本申请判断获取到的统计信息不完备时，则根据依赖于所述统计信息的操作树的操作类型确定对应的代价估计方式；基于所述代价估计方式确定所述对应操作类型的代价估计；根据依赖于所述统计信息操作类型对应的代价估计及未依赖于统计信息的操作类型对应的代价估计确定所述操作树的累积代价估计。从而解决传统代价优化器对于运行时创建临时表和子查询无法进行代价估算，对海量数据的场景受数据规模限制的问题。此外，根据所述累积代价估计优化结构化查询语言(Structured Query Language，SQL)的语句对应的执行计划，可应用于数据库系统中SQL的优化，提高SQL的代价优化器代价估计的准确性，从而生成性能更好的执行计划。

附图说明

图1示出根据本申请一个方面提供的一种代价估计的方法流程示意图。

图2示出本申请中的一实施例的一棵的操作树示意图。

图3示出根据本申请另一个方面提供的一种代价估计的设备结构示意图。

图4示出根据本申请再一个方面提供的一种改进的代价优化器示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在本申请一个实施例中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如，中央处理器(Central Processing Unit，CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读存储介质中的非永久性存储器，随机存取存储器(Random-Access Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read-Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读存储介质的示例。

计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括但不限于相变内存(Phase RAM，PRAM)、静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable ROM，EEPROM)、快闪记忆体或其他内存技术、只读型存储器(Compact Disc ROM，CD-ROM)、数字多功能光盘(Digital Versatile Disc，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读存储介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1示出根据本申请一个方面提供的一种代价估计的方法流程示意图，所述方法包括：S11～S13。

在S11中，判断获取到的统计信息是否完备，若获取到的统计信息不完备，则根据依赖于所述统计信息的操作树的操作类型确定对应的代价估计方式。

一棵操作树可以包括多种操作类型，如包括依赖于统计信息的操作类型和不依赖于统计信息的操作类型。在本申请中，将依赖于统计信息的操作树的操作类型称为第一操作类型，第一操作类型的代价估计称为第一代价估计；将不依赖于统计信息的操作树的操作类型称为第二操作类型，第二操作类型的代价估计称为第二代价估计。

在S12中，基于所述代价估计方式确定第一操作类型的第一代价估计。

在S13中，根据依赖于所述统计信息操作类型对应的代价估计(即第一操作类型的第一代价估计)及不依赖于统计信息的操作类型对应的代价估计(即第二操作类型的第二代价估计)确定所述操作树的累积代价估计。

上述方法可以解决在运行时创建临时表和子查询无法进行代价估算的场景，或者对海量数据的场景受数据规模限制，传统代价优化器无法进行代价优化的问题。

在一个可选示例中，本申请所述方法包括：根据所述累积代价估计优化结构化查询语言语句对应的执行计划。本申请所述的代价估计的方法应用于数据库系统中SQL的优化，提高SQL的代价优化器代价估计的准确性，从而生成性能更好的执行计划。

在本申请一实施例中，可以基于不完备的统计信息对执行计划进行代价优化。当统计信息完备时，利用相关技术中的代价估算模型进行估算，基于估算结果生成最优执行计划；当统计信息不完备时，通过本申请所述的代价估计的方法，对相应操作进行代价估算以得到估算结果，并基于估算结果生成最优执行计划。

在S11中，判断获取到的统计信息是否完备，若统计信息不完备，则根据依赖于所述统计信息的操作树的操作类型(即第一操作类型)确定对应的代价估计方式。所述依赖于所述统计信息的操作树的操作类型可以包括：扫表操作、过滤操作、连接操作和聚合操作。在此，一棵操作树由不同的操作符构成，每一种操作符代表一种操作类型，该操作类型可以包括扫表、过滤、连接、投影、聚合、选择等。如图2所示的一棵操作树示意图，调整操作树上的操作类型，估算每一种操作类型的代价，最终生成一棵累积代价最小的操作树，生成执行计划。不同操作类型的代价对统计信息的依赖不同，比如，扫表操作、过滤操作、连接操作和聚合操作的代价需要依赖统计信息，即只有获得了扫表操作、过滤操作、连接操作和聚合操作对应的完整的统计信息，才可确定扫表操作、过滤操作、连接操作、和聚合操作的代价估计；而投影操作和选择操作的代价不依赖于统计信息，即无需获取投影操作和选择操作对应的完整的统计信息，也可以确定投影操作和选择操作的代价估计。因此需要确定操作树的操作类型，采用与操作类型对应的代价估计方式确定每一种操作类型的代价估计。本申请判断获取到的统计信息是否完备，若统计信息不完备，则对依赖于统计信息的操作类型的代价估算方法进行改进。

在S12中，确定依赖于统计信息的操作类型的代价估计方式，从而根据代价估计方式确定该依赖于统计信息的操作类型的代价估计。

在S13中，根据依赖于所述统计信息操作类型的代价估计(即第一操作类型的第一代价估计)及不依赖于统计信息的操作类型对应的代价估计(第二操作类型的第二代价估计)确定所述操作树的累积代价估计。

比如，将依赖于统计信息的扫表操作、过滤操作、连接操作和聚合操作的代价估计与不依赖于统计信息的投影操作和选择操作的代价估计进行累积得到操作树的代价估计，进而生成最优执行计划。

在本申请一实施例中，在S12中，根据数据集的记录数确定扫表操作的代价估计；根据过滤谓词的类型确定过滤条件的选择率，根据所述选择率确定过滤操作的代价估计；根据确定的连接结果集的记录数确定连接操作的代价估计；根据聚合字段及聚合函数确定聚合字段的聚合率，根据所述聚合率确定聚合操作的代价估计。

扫表操作的代价与数据集的大小(又可称为数据集的记录数)相关，数据集越大，扫表代价越高，因此可以根据数据集的记录数确定扫表操作的代价估计。

过滤操作的代价与过滤条件的选择率相关，选择率又根据过滤条件计算得到，而过滤谓词类型不同时，过滤条件的选择率的确定方式也不同。

连接操作的代价与参与连接的数据集大小有关，也与连接后的连接结果集的大小有关，因此，先确定连接结果集的记录数，再根据连接结果集的记录数确定连接操作的代价估计。

聚合操作的代价与参与聚合的数据量大小和聚合字段的聚合率有关，聚合字段的聚合率需要根据聚合字段的异值数计算得到，因此，在确定聚合操作的代价时，需要计算聚合字段的异值数。

在本申请一实施例中，将数据集的记录数记为RC(Row Count)，数据集的大小(记为A)与RC成正比例关系，即：A∝RC，因此在本申请实施例中，可以使用RC代表数据集的大小，则扫表操作的代价估计cost为：

cost＝Op.getOriginalCost(RC)；

该公式表示可以根据数据集的记录数RC确定扫表操作的代价估计，其中，所述Op表示想要估计代价的目标操作，getOriginalCost表示使用相关技术的方法和RC来估计代价。

在本申请一实施例中，在过滤操作中，过滤操作的代价估计与过滤谓词的选择率相关，不同类型的过滤谓词的选择率的估算算法不同。可以通过判断过滤谓词的类型对应的计算选择率的对象是否可获取，从而确定过滤条件的选择率。若过滤谓词的类型对应的计算选择率的对象不可获取，则过滤条件的选择率S＝1/指定值。在此，过滤谓词的类型对应的计算选择率的对象包括异值数、谓词字段的极值和谓词字段的空值数，指定值根据具体的实际应用而定，为大于1的正数，在不同过滤谓词的类型中，该指定值可能相同也可能不同，例如，S＝1/5，S＝1/9等。

在一个可选示例中，过滤操作的代价与过滤条件的选择率有关，过滤条件的选择率又根据过滤条件计算得到，在本申请实施例中，定义过滤条件的选择率为S＝结果集记录总数/参与过滤操作记录总数。当过滤谓词的类型对应的计算选择率的对象不可获取时，根据过滤谓词的类型确定过滤条件的选择率作以下讨论。

当过滤谓词的类型为恒等谓词时，判断所述过滤操作的异值数是否可获取，若过滤操作的异值数不可获取，则过滤条件的选择率S＝1/指定值；在此，恒等谓词(Equal、＝)时，若异值数(NDV)可获取，则过滤条件的选择率S＝1/NDV，当异值数不可获取时，S _{(恒等谓词)}＝1/10，其中，S _{(恒等谓词)}＝1/10是根据经验值确定，也可以为其他指定值。

当过滤谓词是不等谓词(Non-Equal、！＝)时，恒等谓词与不等谓词是一对互补谓词，即恒定谓词和不等谓词的过滤条件的选择率之和为1，因此，不等谓词的选择率为S _{(不等谓词)}＝1-S _{(恒等谓词)}。

当过滤谓词的类型为范围谓词时，其中，范围谓词包括一边区间范围(形如＞、＜、＞＝、＜＝)，两值区间范围(形如between)，是否在集合内(形如In)。若范围谓词的字段的极值或异值数未能获取，则过滤条件的选择率S＝1/指定值。范围谓词形如＞、＜、＞＝、＜＝时，过滤条件的选择率根据范围谓词字段的极值确定，当极值不可获取时，定义过滤条件的选择率S＝1/3。范围谓词形如between时，即过滤条件在两值之间，当极值不可获取时，定义过滤条件的选择率S＝1/9。当范围谓词形如In时，C＝{v ₁，v ₂，...，v _n}，即过滤条件col IN为：

col IN(v ₁，v ₂，...，v _n)，n＝|C|

其中，v ₁，v ₂，...，v _n为过滤值，C为过滤值的集合，n为集合C中过滤值的个数，过滤时判断待过滤的数据是否属于该集合C内的值。当异值数不可获取时，定义过滤条件的选择率S＝1/5。

当过滤谓词的类型为判空谓词时，判断判空谓词字段的空值数是否可获取，若判空谓词字段的空值数不可获取，则确定所述过滤条件的选择率S＝1/指定值。当过滤谓词的类型为判空谓词时，选择率需要根据判空谓词字段的空值数估算，当空值数不可获取时，定义过滤条件的选择率S＝1/10。当过滤谓词的类型为非空谓词时，由于非空谓词与判空谓词为互补谓词，则过滤条件的选择率S _非空谓词＝1-S _判空谓词。

过滤谓词的类型还包括以下几种情况：当过滤谓词的类型为like时，所述过滤条件的选择率为S＝1/指定值。当过滤谓词的类型为like时，定义选择率S＝1/5。当过滤谓词的类型为和级联谓词时，根据级联谓词的选择率的乘积与和级联谓词中过滤率最小值确定过滤条件的选择率。

And级联的过滤谓词，记AND级联的过滤谓词为，为防止估算误差被级联放大，在本申请实施例中，通过以下方式估算过滤条件的选择率：

其中，α定义了And级联过滤谓词过滤率的最小值，可以根据实际情况调整α的值；selectivity为选择率，上述公式表示And级联过滤谓词的级联的选择率值与And级联过滤谓词过滤率的最小值中的最大值作为该过滤条件的选择率。

当过滤谓词的类型为或级联谓词时，根据所述或级联谓词对应的级联谓词的选择率确定过滤条件的选择率。在此，记或级联的过滤谓词为：

P＝P ₁OR P ₂OR...P _n

则过滤条件的选择率按照如下方式确定：

对不同类型的过滤谓词讨论其对应的过滤条件的选择率，根据确定的选择率可计算过滤操作的代价：

cost＝Op.getOriginalCost(selectivity)

需要说明的是，本领域技术人员应能理解，上述实施例中出现的S＝1/指定值中的数值仅为举例，且在上述实施例中每种过滤谓词对应的过滤条件选择率可以根据实际情况做调整，也可以通过参数传递等方式动态改变。

在本申请一实施例中，根据确定的连接结果集的记录数确定连接操作的代价估计之前，根据相连接的左表和右表的连接字段的异值数确定连接结果集的记录数。在此，参与连接的左表记为T _left，其记录数为RC _left，异值数为NDV _left；参与连接的右表记为T _right，其记录数为RC _right，异值数为NDV _right；结果集的记录数记为RC _result。参与连接的左右表均有以下操作构成：选择操作、过滤操作、扫表操作等，左表和右表分别构成了左边操作树和右边操作树，操作树上的每一种操作类型的代价估计均可以估算得到，因此，参与连接的左表和右表的的数据集大小(即RC _left和RC _right)可由对左表和右表包含的操作类型的估算和已有的计算方法计算得到。

在本申请一实施例中，当相连接的左表和右表的连接字段的异值数不可获取时，基于连接字段的连接类型确定连接结果集的记录数。下文讨论如何基于连接字段的连接类型确定连接结果集的记录数。

当左表和右表的连接字段的连接类型为主键(PK)-外键(FK)形式连接时，则根据外键字段的记录数与主键字段的过滤条件的选择率确定连接结果集的记录数。此处的左表和右表的连接字段的连接类型为主键-外键形式连接可以是指：左表的连接字段的连接类型为主键形式连接，右表的连接字段的连接类型为外键形式连接；或者左表的连接字段的连接类型为外键形式连接，右表的连接字段的连接类型为主键形式连接。

如果左表的连接字段的连接类型是主键形式连接，右表的连接字段的连接类型是外键形式连接，则连接结果集的记录数RC _result为：

RC _result＝RC _fk×selectivity(PK)

其中，RC _fk为RC _left和RC _right之一，表示外键字段记录数；selectivity(PK)表示主键字段的的过滤条件的选择率。如果主键字段存在过滤条件，则最终连接的结果也会受该过滤条件的影响，因此，在计算连接结果集的记录数时，外键字段记录数要乘以主键字段过滤条件的选择率。当主键字段不存在过滤条件时，则主键字段的过滤条件的选择率selectivity(PK)＝1。

当左表和右表的连接字段的连接类型为非主键-外键连接时，则又可分为以下情况1-情况4。

情况1：当左表和右表的连接字段的连接类型为内连接时，则将相连接的左表的记录数及右表的记录数中的最大值作为连接结果集的记录数；在此，在本申请一实施例中，将连接结果的记录数估算为左表连接记录数和右表连接记录数的最大值，即RC _result＝max(RC _left，RC _right)。即结果记录数为RC _left和RC _right中的最大值。

情况2：当左表和右表的连接字段的连接类型为叉乘连接时，则将相连接的左表的记录数及右表的记录数的乘积作为连接结果集的记录数；对于叉乘连接，其连接结果集的记录数为连接记录数之乘积，即：RC _result＝RC _left×RC _right。

情况3：当左表的连接字段的连接类型为左外连接，或当右表的连接字段的连接类型为右外连接时，则将对应的相连接的左表的记录数或右表的记录数作为连接结果集的记录数。当连接字段的连接类型为左外连接时，连接结果集的记录数为T _left的记录数R _left，即RC _result＝RC _left。当连接字段的连接类型为右外连接时，连接结果集的记录数为T _right的记录数R _right，即RC _result＝RC _right。

情况4：当左表和右表的连接字段的连接类型为全连接时，则将相连接的左表的记录数及右表的记录数的累加作为连接结果集的记录数。在此，当连接字段的连接类型为全外连接时，连接结果集的记录数为T _left和T _right的记录数之和，即：RC _result＝RC _left+RC _right。

最终，连接操作的代价估计为：cost＝Op.getOriginalCost(RC _left，RC _right，RC _result)。

在本申请一实施例中，对于聚合操作过程，聚合操作的代价估计与参与聚合的数据量大小和聚合字段的聚合率有关，可以定义聚合率R _agg为：

聚合字段的聚合率需要根据聚合字段的异值数计算得到，当聚合字段的异值数无法获取时，进行如下讨论。

记聚合字段的集合C为C＝{c ₁，c ₂，...，c _n}，n＝|C|，其中，c ₁、c ₂和c _n为聚合字段，n为聚合字段的集合中聚合字段的个数。

当聚合字段的集合C中至少存在一个主键时，聚合字段的聚合率R _agg为1，即R _agg＝1。

当聚合字段对应的聚合函数为简单聚合函数Group By时，聚合字段的聚合率R _agg为如下的分段函数：

其中，n为聚合字段的集合中聚合字段的个数。

当聚合字段对应的聚合函数为Rollup时，聚合字段的聚合率R _agg为：

其中，n为聚合字段的集合中聚合字段的个数，k为正整数。

当聚合字段对应的聚合函数为Cube时，聚合字段的聚合率R _agg为：

其中，n为聚合字段的集合中聚合字段的个数，k为正整数。

综上所述，在统计信息不准确或不完整的情况下，可以通过本申请上述实施例中所述的代价估计的方法进行操作树的代价估算，本申请所述的代价估计的方法可以应用于运行时创建的临时表和子查询，以及海量数据的场景。可以快速地进行代价估计而不受数据规模的限制。另一方面，基于本申请所述的代价估计的方法对相关技术中的代价优化器进行改进，可以基于不完备的统计信息对执行计划进行代价优化。当统计信息完备时，相关技术中的代价估算模型可以估算相应操作的代价，基于估算结果生成最优执行计划。当统计信息不完备时，相关技术中的代价优化器无法对相应操作进行代价估算，则可以利用本申请所述的代价估算模型(即对操作树的相关操作的代价估计方法进行改进)对相应操作进行代价估算，并基于估算结果生成最优执行计划。

图3示出根据本申请另一个方面提供的一种代价估计的设备结构示意图，所述设备包括：判断装置11、确定装置12和估算装置13。

判断装置11设置为判断获取到的统计信息是否完备，若统计信息不完备，则根据依赖于所述统计信息的操作树的操作类型确定对应的代价估计方式。

确定装置12设置为基于所述代价估计方式确定所述对应操作类型的代价估计。

估算装置13设置为根据依赖于所述统计信息操作类型对应的代价估计及未依赖于统计信息的操作类型对应的代价估计确定所述操作树的累积代价估计。

利用上述装置可以解决相关技术中的代价优化器对于运行时创建临时表和子查询无法进行代价估算，对海量数据的场景受数据规模限制的问题。

在一个可选示例中，所述设备还包括：执行装置，该执行装置设置为根据所述累积代价估计优化结构化查询语言的语句对应的执行计划。本申请所述的代价估计的方法应用于数据库系统中SQL的优化，提高SQL的代价优化器代价估计的准确性，从而生成性能更好的执行计划。

在本申请一实施例中，利用本申请代价优化器，可以基于不完备的统计信息对执行计划进行代价优化。当统计信息完备时，利用相关技术中的代价估算模型进行估算，基于估算结果生成最优执行计划；当统计信息不完备时，通过本申请所述的代价估计的方法，对相应操作进行代价估算，并基于估算结果生成最优执行计划。

判断装置11设置为在判断获取到的统计信息不完备时，则根据依赖于所述统计信息的操作树的操作类型确定对应的代价估计方式。所述依赖于所述统计信息的操作树的操作类型包括扫表操作、过滤操作、连接操作和聚合操作。在此，一棵操作树由不同的操作符构成，每一种操作符代表一种操作类型，一棵操作树的操作类型可以包括扫表、过滤、连接、投影、聚合、选择等操作。如图2所示的一棵操作树示意图，调整操作树上操作类型，估算每一种操作类型的代价，最终生成一棵累积代价最小的操作树，生成执行计划，而不同操作类型的代价对统计信息的依赖不同。比如，扫表操作、过滤操作、连接操作、聚合操作的代价估计需要依赖统计信息，而投影操作、选择操作的代价估计不依赖于统计信息。因此需要确定操作类型，采用对应的代价估计方式，进行每一种操作类型的代价估计。当判断获取到的统计信息不完备时，则对依赖于统计信息的操作类型的代价估算方法进行改进。

确定装置12设置为确定依赖于统计信息的操作类型的代价估计方式，进而确定操作类型的代价估计。

估算装置13设置为根据依赖于所述统计信息操作类型对应的代价估计及未依赖于统计信息的操作类型对应的代价估计确定所述操作树的累积代价估计。比如，将依赖于统计信息的扫表操作、过滤操作、连接操作和聚合操作的代价估计与不依赖于统计信息的投影操作和选择操作的代价估计进行累积得到操作树的代价估计，进而生成最优执行计划。

在本申请一实施例中，确定装置12设置为根据数据集的记录数确定扫表操作的代价估计；根据过滤谓词的类型确定过滤条件的选择率，根据所述选择率确定过滤操作的代价估计；根据确定的连接结果集的记录数确定连接操作的代价估计；根据聚合字段及聚合函数确定聚合字段的聚合率，根据所述聚合率确定聚合操作的代价估计。

在此，扫表操作的代价与数据集的大小(又可称为数据集的记录数)相关，数据集越大，其扫表代价越高，因此可以根据数据集的记录数确定扫表操作的代价估计。

过滤操作的代价与过滤条件的选择率相关，选择率又根据过滤条件计算得到，而过滤谓词类型不同时，选择率确定的方式也不同。

连接操作的代价与参与连接的数据集大小有关，也与连接后结果集的大小有关，因此，先确定连接结果集的记录数，再根据连接结果集的记录数确定连接操作的代价估计。

聚合操作的代价与参与聚合的数据量大小和聚合字段的聚合率有关，聚合字段的聚合率需要根据聚合字段的异值数计算得到，因此，需要计算聚合字段的异值数。

cost＝Op.getOriginalCost(RC)；

在一个可选示例中，过滤操作的代价与过滤条件的选择率有关，过滤条件的选择率又根据过滤条件计算得到，在本申请实施例中，定义过滤条件的选择率为S＝结果集记录总数/参与过滤操作记录总数。当过滤谓词的类型对应的计算选择率的对象不可获取时，根据过滤谓词的类型确定过滤条件的选择率作以下讨论：

当过滤谓词是不等谓词(Non-Equal、！＝)时，恒等谓词与不等谓词是一对互补谓词，即恒定谓词和不等谓词的过滤条件的选择率之和应该为1，因此，不等谓词的选择率为S _{(不等谓词)}＝1-S _{(恒等谓词)}。

当过滤谓词的类型为范围谓词时，其中，范围谓词包括一边区间范围(形如＞、＜、＞＝、＜＝)，两值区间范围(形如between)，是否在集合内(形如In)。若范围谓词的字段的极值或异值数未能获取，则过滤条件的选择率S＝1/指定值；范围谓词形如＞、＜、＞＝、＜＝时，过滤条件的选择率根据范围谓词字段的极值确定，当极值不可获取时，定义过滤条件的选择率S＝1/3。范围谓词形如between时，即过滤条件在两值之间，当极值不可获取时，定义过滤条件的选择率S＝1/9。当范围谓词形如In时，C＝{v ₁，v ₂，...，v _n}，即过滤条件col IN为：

col IN(v ₁，v ₂，...，v _n)，n＝|C|

过滤谓词的类型还包括以下几种情况：当过滤谓词的类型为like时，所述过滤条件的选择率S＝1/指定值。当过滤谓词的类型为like时，定义选择率＝1/5。当过滤谓词的类型为和级联谓词时，根据级联谓词的选择率的乘积与和级联谓词中过滤率最小值确定过滤条件的选择率。

And级联的过滤谓词，记AND级联的过滤谓词为P＝P ₁AND P ₂AND...P _n，为防止估算误差被级联放大，在本申请实施例中，通过以下方式估算过滤条件的选择率：

P＝P ₁OR P ₂OR...P _n

则过滤条件的选择率按照如下方式确定：

对于不同类型的滤谓词讨论其对应的过滤条件的选择率，根据确定的选择率可计算过滤操作的代价：

cost＝Op.getOriginalCost(selectivity)

需要说明的是，本领域技术人员应能理解，上述实施例中出现的S＝1/指定值中的数值仅为举例，且在上述实施例中每种过滤谓词的过滤条件选择率可以根据实际情况做调整，也可以通过参数传递等方式动态改变。

在本申请一实施例中，根据确定的连接结果集的记录数确定连接操作的代价估计之前，根据相连接的左表和右表的连接字段的异值数确定连接结果集的记录数。在此，参与连接的左表记为T _left，其记录数为RC _left，异值数为NDV _left；参与连接的右表记为T _right，其记录数为RC _right，异值数为NDV _right；结果集的记录数记为RC _result。参与连接的左右表均有以下操作：选择操作、过滤操作、扫表操作等，左表和右表分别构成了左边操作树和右边操作树，操作树上的每一种操作类型的代价估计均可以估算得到，因此，参与连接的左表和右表的数据集大小(即RC _left和RC _right)可由对左表和右表的操作类型的估算和已有的计算方法计算得到。

当连接字段的连接类型为主键-外键形式连接时，则根据外键字段的记录数与主键字段的过滤条件的选择率确定连接结果集的记录数。如果左表的连接字段的连接类型和右表的连接字段的连接类型分别是主键-外键形式连接，则连接结果集的记录数RC _result为：

RC _result＝RC _fk×selectivity(PK)

其中，RC _fk为RC _left和RC _right之一，表示外键字段记录数；selectivity(PK)表示主键字段的过滤条件的选择率。如果主键字段存在过滤条件，则最终连接的结果也会受该过滤条件的影响，因此，在计算连接结果集的记录数时，外键字段记录数要乘以主键字段过滤条件的选择率，当主键字段不存在过滤条件时，则主键字段的过滤条件的选择率selectivity(PK)＝1。

当连接字段的连接类型为非主键-外键连接时，则又可分为以下情况1-情况4。

情况1：当连接字段的连接类型为内连接时，则将相连接的左表的记录数及右表的记录数中的最大值作为连接结果集的记录数；在此，在本申请一实施例中，将连接结果的记录数估算为左表连接记录数和右表连接记录数的最大值，即RC _result＝max(RC _left，RC _right)。即结果记录数为RC _left和RC _right中的最大值。

情况2：当连接字段的连接类型为叉乘连接时，则将相连接的左表的记录数及右表的记录数的乘积作为连接结果集的记录数；对于叉乘连接，其连接结果的记录数为连接记录数之乘积，即：RC _result＝RC _left×RC _right。

情况3：当连接字段的连接类型为左外连接或右外连接时，则将对应的相连接的左表的记录数或右表的记录数作为连接结果集的记录数。当是连接字段的连接类型为左外连接时，连接结果集的记录数为T _left的记录数R _left，即RC _result＝RC _left。当连接字段的连接类型是右外连接时，连接结果集的记录数为T _right的记录数R _right，即RC _result＝RC _right。

情况4：当连接字段的连接类型为全连接时，则将相连接的左表的记录数及右表的记录数的累加作为连接结果集的记录数。在此，当连接字段的连接类型为全外连接时，连接结果集的记录数为T _left和T _right的记录数之和，即：RC _result＝RC _left+RC _right。

其中，n为聚合字段的集合中聚合字段的个数；

其中，n为聚合字段的集合中聚合字段的个数，k为正整数；

其中，n为聚合字段的集合中聚合字段的个数，k为正整数。

根据本申请再一个方面，还提供了一种代价优化器，其中，所述代价优化器设置为：生成原始执行计划；判断获取到的统计信息是否完备，若统计信息完备，则根据基于统计信息的第一代价估算模型(即相关技术中的代价估算模型)估算代价，若统计信息不完备，则根据基于第一代价估算模型进行优化的第二代价估算模型(即本申请中的代价估算模型)估算代价；根据所述第一代价估算模型估算的代价或所述第二代价估算模型估算的代价生成最优执行计划。

在本申请一实施例中，如图4所示的代价优化器，可以基于不完备的统计信息对执行计划进行代价优化。当存在完备统计信息时，使用第一代价估算模型估算代价，其中，第一代价估算模型为相关技术中的代价估算模型，相关技术中的代价估算模型进行代价优化时需要统计信息，因此，需要收集完整而精确的统计信息。在数据库系统中，执行计划一般用操作树表示，操作树由不同的操作类型构成，该操作可以包括扫表、选择、过滤、聚合、连接、投影等。当存在完整的统计信息时，基于该统计信息，代价优化器可以借助代价估算模型，对执行计划的每一种操作类型进行代价估算，并从所有可能的执行计划中选取整体代价最小者作为最终的执行计划，由此就完成了整个代价优化的过程。而当不存在完备统计信息时，使用对第一代价估算模型进行优化的第二代价估算模型估算代价，即使用本申请的代价估算模型估算代价，并基于估算结果生成最优执行计划。其中，本申请的代价估算模型设置为根据依赖于所述统计信息的操作树的操作类型(即第一操作类型)确定对应的代价估计方式；基于所述代价估计方式确定所述对应操作类型的代价估计(即第一操作类型的第一代价估计)；根据依赖于所述统计信息操作类型对应的代价估计及未依赖于统计信息的操作类型对应的代价估计(即第二操作类型对应的代价估计)确定所述操作树的累积代价估计。

综上所述，在统计信息不准确或不完整的情况下，可以通过本申请上述实施例中所述的代价估计的设备中执行的方法进行操作树的代价估算，本申请所述的代价估计的设备可以应用于运行时创建的临时表和子查询，以及对于海量数据的场景，可以快速地代价估计而不受数据规模的限制。另一方面，基于本申请所述的代价估计的设备得到的代价优化器，可以基于不完备的统计信息对执行计划进行代价优化。当统计信息完备时，相关技术中的代价估算模型可以估算相应操作的代价，基于估算结果生成最优执行计划。当统计信息不完备时，相关技术中的代价优化器无法对相应操作进行代价估算，则利用本申请的代价估算模型(即对操作树的相关操作的代价估计方法进行改进)对相应操作进行代价估算，并基于估算结果生成最优执行计划。

在本申请一实施例中，还提供了一种基于计算的设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器。

所述可执行指令在被执行时使所述处理器：判断获取到的统计信息是否完备，若统计信息不完备，则根据依赖于所述统计信息的操作树的操作类型(第一操作类型)确定对应的代价估计方式；基于所述代价估计方式确定所述对应操作类型的代价估计(即第一操作类型的第一代价估计)；以及根据依赖于所述统计信息操作类型对应的代价估计(第一操作类型的第一代价估计)及未依赖于统计信息的操作类型对应的代价估计(即第二操作类型对应的第二代价估计)确定所述操作树的累积代价估计。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，本申请不限于上述示范性实施例的细节。因此，应将实施例看作是示范性的，而且是非限制性的。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

一种代价估计的方法，包括：

判断获取到的统计信息是否完备，若所述统计信息不完备，确定第一操作类型的代价估计方式，所述第一操作类型为依赖于所述统计信息的操作树的操作类型；

基于所述代价估计方式确定所述第一操作类型的第一代价估计；以及

根据所述第一代价估计及第二操作类型的第二代价估计确定所述操作树的累积代价估计，所述第二操作类型为不依赖于所述统计信息的操作树的操作类型。
根据权利要求1所述的方法，其中，所述第一操作类型包括：扫表操作、过滤操作、连接操作和聚合操作。
根据权利要求1所述的方法，还包括：

根据所述累积代价估计优化结构化查询语言(SQL)的语句对应的执行计划。
根据权利要求2所述的方法，其中，基于所述代价估计方式确定所述第一操作类型的第一代价估计，包括：

根据数据集的记录数确定扫表操作的代价估计；

根据过滤谓词的类型确定过滤条件的选择率，根据所述选择率确定过滤操作的代价估计；

根据确定的连接结果集的记录数确定连接操作的代价估计；以及

根据聚合字段及聚合函数确定聚合字段的聚合率，根据所述聚合率确定聚合操作的代价估计。
根据权利要求4所述的方法，其中，根据过滤谓词的类型确定过滤条件的选择率，包括：

判断过滤谓词的类型对应的计算选择率的对象是否可获取，若所述计算选择率的对象不可获取，则所述过滤条件的选择率S＝1/指定值。
根据权利要求5所述的方法，其中，判断过滤谓词的类型对应的计算选择率的对象是否可获取，若所述计算选择率的对象不可获取，则所述过滤条件的选择率，则所述过滤条件的选择率S＝1/指定值，包括：

当过滤谓词的类型为恒等谓词时，判断所述过滤操作的异值数是否可获取，若所述过滤操作的异值数不可获取，则所述过滤条件的选择率S＝1/指定值；

当过滤谓词的类型为范围谓词时，若谓词的字段的极值或异值数未能获取，则所述过滤条件的选择率S＝1/指定值；以及

当过滤谓词的类型为判空谓词时，判断谓词字段的空值数是否可获取，若所述谓词字段的空值数不可获取，则所述过滤条件的选择率S＝1/指定值。
根据权利要求4所述的方法，其中，根据过滤谓词的类型确定过滤条件的选择率，包括：

当过滤谓词的类型为like时，所述过滤条件的选择率S＝1/指定值；

当过滤谓词的类型为和级联谓词时，根据级联谓词的选择率的乘积与和级联谓词中过滤率最小值确定所述过滤条件的选择率；以及

当过滤谓词的类型为或级联谓词时，根据所述或级联谓词对应的级联谓词的选择率确定所述过滤条件的选择率。
根据权利要求4所述的方法，根据确定的连接结果集的记录数确定连接操作的代价估计之前，包括：

当相连接的左表和右表的连接字段的异值数不可获取时，基于连接字段的连接类型确定连接结果集的记录数。
根据权利要求8所述的方法，其中，基于连接字段的连接类型确定连接结果集的记录数，包括：

当连接字段的连接类型为主键-外键形式连接时，则根据外键字段的记录数与主键字段的过滤条件的选择率确定连接结果集的记录数；

当连接字段的连接类型为内连接时，则将相连接的左表的记录数及右表的记录数中的最大值作为连接结果集的记录数；

当连接字段的连接类型为叉乘连接时，则将相连接的左表的记录数及右表的记录数的乘积作为连接结果集的记录数；

当连接字段的连接类型为左外连接时，将相连接的左表的记录数作为连接结果集的记录数，当连接字段的连接类型为右外连接时，将相连接的右表的记录数作为连接结果集的记录数；以及

当连接字段的连接类型为全连接时，将相连接的左表的记录数及右表的记录数的累加作为连接结果集的记录数。
根据权利要求4所述的方法，其中，根据聚合字段及聚合函数确定聚合字段的聚合率，包括：

当聚合字段的集合中至少存在一个主键时，聚合字段的聚合率R _agg＝1；

当聚合字段对应的聚合函数为简单聚合函数时，聚合字段的聚合率R _agg为：

其中，n为聚合字段的集合中聚合字段的个数；

当聚合字段对应的聚合函数为Rollup时，聚合字段的聚合率R _agg为：

其中，n为聚合字段的集合中聚合字段的个数，k为正整数；

当聚合字段对应的聚合函数为Cube时，聚合字段的聚合率R _agg为：

其中，n为聚合字段的集合中聚合字段的个数，k为正整数。
一种代价估计的设备，包括：

判断装置，设置为判断获取到的统计信息是否完备，若所述统计信息不完备，确定第一操作类型的代价估计方式，所述第一操作类型为依赖于所述统计信息的操作树的操作类型；

确定装置，设置为基于所述代价估计方式确定所述第一操作类型的第一代价估计；

估算装置，设置为根据所述第一代价估计及第二操作类型对应的第二代价估计确定所述操作树的累积代价估计，所述第二操作类型为不依赖于所述统计信息的操作树的操作类型。
根据权利要求11所述的设备，其中，所述第一操作类型包括：扫表操作、过滤操作、连接操作和聚合操作。
根据权利要求11所述的设备，还包括：

执行装置，设置为根据所述累积代价估计优化结构化查询语言(SQL)的语句对应的执行计划。
根据权利要求12所述的设备，其中，所述确定装置设置为：

根据数据集的记录数确定扫表操作的代价估计；

根据过滤谓词的类型确定过滤条件的选择率，根据所述选择率确定过滤操作的代价估计；

根据确定的连接结果集的记录数确定连接操作的代价估计；以及

根据聚合字段及聚合函数确定聚合字段的聚合率，根据所述聚合率确定聚合操作的代价估计。
根据权利要求14所述的设备，其中，所述确定装置设置为：

判断过滤谓词的类型对应的计算选择率的对象是否可获取，若所述计算选择率的对象不可获取，则所述过滤条件的选择率S＝1/指定值。
根据权利要求15所述的设备，其中，所述确定装置设置为：

当过滤谓词的类型为恒等谓词时，判断所述过滤操作的异值数是否可获取，若所述过滤操作的异值数不可获取，则所述过滤条件的选择率S＝1/指定值；

当过滤谓词的类型为范围谓词时，若谓词的字段的极值或异值数未能获取，则所述过滤条件的选择率S＝1/指定值；以及

当过滤谓词的类型为判空谓词时，判断谓词字段的空值数是否可获取，若所述谓词字段的空值数不可获取，则所述过滤条件的选择率S＝1/指定值。
根据权利要求14所述的设备，其中，所述确定装置设置为：

当过滤谓词的类型为like时，所述过滤条件的选择率S＝1/指定值；

当过滤谓词的类型为和级联谓词时，根据级联谓词的选择率的乘积与和级联谓词中过滤率最小值确定所述过滤条件的选择率；

当过滤谓词的类型为或级联谓词时，根据所述或级联谓词对应的级联谓词的选择率确定所述过滤条件的选择率。
根据权利要求14所述的设备，其中，所述确定装置设置为：

当相连接的左表和右表的连接字段的异值数不可获取时，基于连接字段的连接类型确定连接结果集的记录数。
根据权利要求18所述的设备，其中，所述确定装置设置为：

当连接字段的连接类型为主键-外键形式连接时，则根据外键字段的记录数与主键字段的过滤条件的选择率确定连接结果集的记录数；

当连接字段的连接类型为内连接时，则将相连接的左表的记录数及右表的记录数中的最大值作为连接结果集的记录数；

当连接字段的连接类型为叉乘连接时，则将相连接的左表的记录数及右表的记录数的乘积作为连接结果集的记录数；

当连接字段的连接类型为左外连接时，将相连接的左表的记录数作为所述连接结果集的记录数，当连接字段的连接类型为右外连接，则将相连接的右表的记录数作为连接结果集的记录数；以及

当连接字段的连接类型为全连接时，则将相连接的左表的记录数及右表的记录数的累加作为连接结果集的记录数。
根据权利要求14所述的设备，其中，所述确定装置设置为：

当聚合字段的集合中至少存在一个主键时，聚合字段的聚合率R _agg＝1；

当聚合字段对应的聚合函数为简单聚合函数时，聚合字段的聚合率R _agg为：

其中，n为聚合字段的集合中聚合字段的个数；

当聚合字段对应的聚合函数为Rollup时，聚合字段的聚合率R _agg为：

其中，n为聚合字段的集合中聚合字段的个数，k为正整数；

当聚合字段对应的聚合函数为Cube时，聚合字段的聚合率R _agg为：

其中，n为聚合字段的集合中聚合字段的个数，k为正整数。
一种代价优化器，包括：

生成原始执行计划；

判断获取到的统计信息是否完备，若所述统计信息完备，则根据所述统计信息的第一代价估算模型估算代价，若所述统计信息不完备，则根据第二代价估算模型估算代价；以及

根据所述第一代价估算模型估算的代价或所述第二代价估算模型估算的代价对所述原始执行计划进行优化，生成最优执行计划。
根据权利要求21所述的代价优化器，其中，所述第二代价估算模型，包括：

确定第一操作类型的代价估计方式，所述第一操作类型为依赖于所述统计信息的操作树的操作类型；

基于所述代价估计方式确定所述第一操作类型的第一代价估计；以及

根据所述第一代价估计及第二代价估计确定所述操作树的累积代价估计，所述第二操作类型为不依赖于所述统计信息的操作树的操作类型。
一种基于计算的设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

判断获取到的统计信息是否完备，若所述统计信息不完备，确定第一操作类型的代价估计方式，所述第一操作类型为依赖于所述统计信息的操作树的操作类型；

基于所述代价估计方式确定所述第一操作类型的第一代价估计；

根据所述第一代价估计及第二操作类型的第二代价估计确定所述操作树的累积代价估计，所述第二操作类型为依赖于所述统计信息的操作树的操作类型。
一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-10任一项的方法。