WO2018153210A1

WO2018153210A1 - 一种自动创建索引的方法、装置及数据库系统

Info

Publication number: WO2018153210A1
Application number: PCT/CN2018/074134
Authority: WO
Inventors: 谢东
Original assignee: 中兴通讯股份有限公司
Priority date: 2017-02-22
Filing date: 2018-01-25
Publication date: 2018-08-30
Also published as: CN108460052B; CN108460052A

Abstract

本发明公开了一种自动创建索引的方法、装置及数据库系统。该方法包括：分析数据查询语句中的目标数据表以及操作条件；判断是否需要分析数据分布，其中，当判断需要分析数据分布时，计算目标数据表中满足操作条件的表数据的分布情况；以及当表数据的分布情况满足预设的索引创建策略时，用操作条件创建目标数据表的索引。摘图1

Description

一种自动创建索引的方法、装置及数据库系统

技术领域

本发明涉及数据库技术领域，尤其涉及一种自动创建索引的方法、装置及数据库系统。

背景技术

关系数据库是建立在关系数据库模型基础上的数据库，借助于集合代数等概念和方法来处理数据库中的数据。随着信息技术发展，关系数据库在各行各业得到了广泛应用。

在常规数据库中，索引是根据设计者经验预先创建的。然而，随着时间的推移，人们对数据使用的需求可能会发生变化。一般来说，在关系数据库中，依据需求收集和设计者经验能力来创建索引。如果需求收集不准确或者设计者经验不足，可能会导致索引不准确、不合理并且效率低下。因此，需要效率更高且灵活性更强的索引创建方法和装置。

发明内容

本发明提供一种自动创建索引的方法、装置及数据库系统，用以解决现有的索引创建方法中创建效率低和灵活性低的问题。

依据本发明的一个方面，提供一种自动创建索引的方法，包括：

分析数据查询语句中的目标数据表以及操作条件；

判断是否需要分析数据分布，其中，当判断需要分析数据分布时，计算所述目标数据表中满足所述操作条件的表数据的分布情况；以及

当所述表数据的分布情况满足预设的索引创建策略时，用所述操作条件创建为所述目标数据表的索引。

在一个示例性实施例中，分析数据查询语句中的目标数据表以及操作条件的步骤包括：

对所述数据查询语句进行语法检查，以判断所述数据查询语句是否为有效语句，其中

当判定所述数据查询语句为有效语句时，根据所述数据查询语句的语法规则获取所述目标数据表以及所述操作条件。

在一个示例性实施例中，判断是否需要分析数据分布的步骤包括：

获取所述索引创建策略的创建依据，根据所述创建依据判断所述目标数据表是否存在于预设的数据表白名单中，其中

当所述目标数据表存在于预设的数据表白名单时，则根据所述创建依据判断是否需要分析数据分布，当所述目标数据表不存在于预设的数据表白名单时，停止创建所述目标数据表的索引。

在一个示例性实施例中，计算所述目标数据表中满足所述操作条件的表数据的分布情况的步骤包括：

读取预设的表数据扫描策略；

根据所述预设的扫描策略从所述目标数据表中获取满足所述操作条件的表数据；以及

根据预设的统计方法计算所述表数据的分布情况。

在一个示例性实施例中，当所述表数据的分布情况满足预设的索引创建策略时，用所述操作条件创建为所述目标数据表的索引的步骤包括：

根据所述表数据的分布情况获取各个操作条件的筛选效率，按照筛选效率的从高到低的顺序将所述操作条件进行排序，并且根据排序后的所述操作条件建立复合索引；

用所述复合索引的先导创建单一索引；以及

判断所述复合索引的结果集和所述单一索引的结果集的占比是否大于预设阈值时，其中，当所述复合索引的结果集和所述单一索引的结果集的占比大于所述预设阈值时，则将所述单一索引作为所述目标数据表的索引；当所述复合索引的结果集和所述单一索引的结果集的占比不大于预设阈值时，将所述复合索作为所述目标数据表的索引。

在一个示例性实施例中，在用所述操作条件创建为所述目标数据表的索引之后，所述方法还包括：

实时监测数据查询语句和数据库中的数据表中的至少一者的是否发生变化，其中，当监测到数据查询语句和数据库中的数据表中的至少一者发生变化时，则根据变化情况进行建立索引操作和删除索引操作中的至少一种操作。

在一个示例性实施例中，所述方法还包括：

当判断不需要分析数据分布时，则直接用所述操作条件创建所述目标数据表的索引。

在一个示例性实施例中，所述操作条件包括WHERE筛选语句、GROUP BY分组语句和ORDER BY排序语句中的任意一种或多种操作所对应的条件。

依据本发明的一个方面，提供一种自动创建索引的装置，包括：

分析单元，用于分析数据查询语句中的目标数据表以及操作条件；

计算单元，用于判断是否需要分析数据分布，其中，当判断需要分析数据分布时，所述计算单元计算所述目标数据表中满足所述操作条件的表数据的分布情况；以及

创建单元，用于当所述表数据的分布情况满足预设的索引创建策略时，用所述操作条件创建所述目标数据表的索引。

在一个示例性实施例中，所述分析单元还用于：

对所述数据查询语句进行语法检查，以判断所述数据查询语句是否为有效语句；

当判定所述数据查询语句为有效语句时，根据所述数据查询语句的语法规则获取所述目标数据表以及操作条件。

在一个示例性实施例中，所述计算单元还用于：

判断是否需要分析数据分布时，以获取所述索引创建策略的创建依据，根据所述创建依据判断所述目标数据表是否存在于预设的数据表白名单中，其中

在一个示例性实施例中，所述计算单元还用于：

读取预设的表数据扫描策略；

根据所述扫描策略从所述目标数据表中获取满足所述操作条件的表数据；以及

利用预设的统计装置计算所述表数据的分布情况。

在一个示例性实施例中，所述创建单元还用于：

用所述复合索引的先导创建单一索引；以及

在一个示例性实施例中，所述装置还包括监测单元，用于：

在用所述操作条件创建为所述目标数据表的索引之后，实时监测数据查询语句和数据库中的数据表中的至少一者数据查询语句和数据库中的数据表中的至少一者的变化，当监测到数据查询语句和数据库中的数据表中的至少一者发生变化时，则根据变化情况进行建立索引操作和删除索引操作中的至少一种操作。

在一个示例性实施例中，所述创建单元还用于：

依据本发明的一个方面，还提供了一种数据库系统，包括上述所述的自动创建索引的装置。

上述说明仅是本发明技术方案的概述。为了能够更清楚了解本发明的技术手段，可依照说明书的内容予以实施。此外，提出本发明的一些实施方式以使本发明的上述和其它目的、特征和优点能够更明显易懂。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将结合附图对实施例进行详细描述。应当理解的是，附图是示例性的并且仅用于示出本发明的一些实施例。对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例所提供的自动创建索引方法的流程图；

图2为执行根据本发明提供的INSERT语句的流程示意图；

图3为执行根据本发明提供的新的SQL语句的流程示意图；。

图4为根据本发明实施例所提供的自动创建索引装置的结构示意图；

图5为根据本发明提供的数据发布模型的示意图；

图6为根据本发明提供的数据消费模型的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的范围。

在一些情况下，可以通过以下方式建立数据库应用模型：分析数据的逻辑关系，设计表结构；分析数据库的使用场景，预先估计可能的SQL语句；以及分析可能的查询条件，然后选取表的一个或者多个列作为索引字段以创建索引。然而，如上文所述，索引是根据设计者经验预先创建的。如果需求收集不准确或者设计者经验不足，可能会导致索引不准确、不合理并且效率低下。

本发明的一个实施例提供一种自动创建索引的方法。如图1所示，所述自动创建索引的方法包括如下步骤：

步骤S101，分析数据查询语句中的目标数据表以及操作条件；

步骤S102，判断是否需要分析数据分布，其中，当判断需要分析数据分布时，计算所述目标数据表中满足所述操作条件的表数据的分布情况；以及

步骤S103，当所述表数据的分布情况满足预设的索引创建策略时，则用所述操作条件创建所述目标数据表的索引。

这里，数据查询语句为SQL语句。当检测到系统启动创建索引命令后，自动获取SQL语句。数据可以从应用程序获取，也可以从数据库的相关数据字典表中获取。对于一张数据表，需要尽可能多地获取相关SQL语句，以便建立高效全面的索引。

在分析获取的SQL语句时，将符合ANSI SQL语法的SQL语句进行拆分，重点考虑与SQL执行效率相关的组成部分。拆分后的SQL语句包括目标数据表名以及操作条件。其中，操作条件可以包括WHERE筛选语句、GROUP BY分组语句、ORDER BY排序语句所对应的条件。分析结果按数据表进行分类和保存。

在一个示例性实施例中，分析数据查询语句中的目标数据表以及操作条件的步骤具体包括：

预先读取表结构信息，并且预先对SQL语句进行语法检查，其中，当所述SQL语句为有效语句时，根据所述数据查询语句的语法规则获取所述目标数据表以及所述操作条件；当所述SQL语句为无效语句时，则不再对所述数据查询语句进行分析。

通过上述步骤，可以预先排除无效SQL语句，从而有效提高创建索引的速度。

判断是否需要分析数据分布的步骤包括：

获取所述索引创建策略的创建依据，根据所述创建依据判断所述目标数据表是否存在于预设的数据表白名单中，其中，当所述目标数据表存在于预设的数据表白名单时，则根据所述创建依据判断是否需要分析数据分布，而当所述目标数据表不存在于预设的数据表白名单时，停止创建所述目标数据表的索引。

这里，索引创建策略是指创建索引专家知识(创建索引所要满足的条件或者规则)，索引专家知识是预先制定好，并且可以定期维护，例如，增加、修改和删除。这里的创建策略包括依据SQL语句、依据SQL语句和数据分布以及依据预先定义的规则。当然还可以使用其他索引创建策略，这里不做限定。

其中，当依据SQL语句创建索引而不需要分析数据分布时，则将所要操作的字段作为目标数据表的索引。例如，键值查询的SQL语句需要以WHERE条件字段建立索引。当依据SQL语句和数据分布创建索引时，需要考虑表数据分布，并根据具体的分布情况确定建立高效索引的方式。当依据预先定义的规则创建索引时，根据预先定义的规则判断是否需要建立索引。例如，根据应用的实际运行情况，禁止频繁插入数据的表创建索引。

其中，计算目标数据表中满足操作条件的表数据的分布情况的步骤具体包括：

读取预设的表数据扫描策略；

根据预设的统计方法计算所述表数据的分布情况。

这里的扫描策略包括预定触发条件和/或扫描粒度等信息。触发条件可以包括定时扫描和新的SQL语句。根据设定触发条件，当新的SQL语句发生改变时，系统能够自动创建与之对应的索引，或者删除不再需要的索引。扫描粒度可以包括全部扫描和按照数据百分比采样。

在计算的表数据分布情况时，基于表的组成结构，分析数据在表中的分布情况。分析数据包括操作的字段、每个字段的数据的类型、每个字段的数据的分布以及数据的基数。数据的分布情况包括数据分成的列(所属字段)数，以及每列数据的最大、最小、平均、方差等统计信息。数据也可以离散分布。这里的读取、扫描和计算的步骤可以同时进行，以充分利用数据库的关系运算能力。对每个列数据计算出的结果均按数据表分类和保存。

索引创建策略需要根据数据分布的情况来判断是否满足预设的建立条件。当满足预设建立条件时，则可以进一步创建索引。通过以下步骤，预设建立条件可以确保建立高效索引：

根据所述表数据的分布情况获取各个操作条件的筛选效率，按照所述筛选效率的从高到低的顺序将所述操作条件进行排序，并且根据排序后的操作条件建立复合索引；

用所述复合索引的先导创建单一索引；以及

判断所述复合索引的结果集和所述单一索引的结果集的占比是否大于预设阈值，其中，当所述复合索引的结果集和所述单一索引的结果集的占比大于预设阈值时，则将所述单一索引作为所述目标数据表的索引；当所述复合索引的结果集和所述单一索引的结果集的占比不大于预设阈值时，将所述复合索作为所述目标数据表的索引。

这里的复合索引是指包括多个操作条件的索引。复合索引的先导是指筛选效率最高的操作条件建立的单一索引。后面将以具体的实施例对上述索引建立的方式进行说明。在本发明中通过结合数据分布情况创建索引，可以使得SQL语句执行效率最高。

基于上述可知，在本发明所提供的自动创建索引的方法中，通过分析当前的SQL语句的组成结构，基于表数据在表中的分布情况，自动为SQL语句创建索引。与常规的人工分析预估创建索引的方法相比，本发明所提供的自动创建索引的方法的准确性更高，并且能够提高SQL语句执行效率。

下面结合具体的实施例对本发明自动创建索引的方法进行说明。以用户呼叫过程为例，信息记录在呼叫日志表中，需要对呼叫日志进行查询。如表1所示，用户呼叫日志表(calllog)，其中，calllog的主要字段包括：流水号、主叫号码、被叫号码、开始时刻、结束时刻、详情等。

表1

字段	解释	类型	长度
fno	流水号	char	30
cno	主叫号码	char	13
cerno	被叫号码	char	13

sdate	开始时刻	date	8
edate	结束时刻	date	8
mdetails	详情	char	900

系统需要满足某个用户在某个时间段内的详情查询。例如，当系统根据主叫号码查询某天的呼叫日志表时，SQL语句如下：

select*from calllog where cno＝’15800000000’

and sdate＞＝’2016-02-01 00:00:00’

and sdate＜’2016-02-02 00:00:00’

将拆分SQL语句拆分成以下几个部分：

查询表名，包括：calllog；

WHERE条件部分，包括：

cno＝’15800000000’

and sdate＞＝’2016-02-01 00:00:00’

and sdate＜’2016-02-02 00:00:00’

GROUP BY分组部分为空；

ORDER BY排序部分为空；以及

返回字段列表，包括：*，代表所有字段。

分析SQL语句后，同时在两个字段上进行以下筛选：

对字段cno进行单值筛选，操作条件为cno等于15800000000；以及

对字段sdate进行范围筛选，操作条件为sdate在区间[2016-02-01 00:00:00，2016-02-02 00:00:00]。

接着，计算数据在表及其列上的分布。根据SQL分析结果，考虑主叫号码、开始时间两个字段。例如，计算结果如表2所示。

表2

在本实例中，基于SQL分析结果和数据分布结果，读取对应的策略。

策略一：在多个筛选条件情况下，筛选效率高的条件放在最前面，从而效率更高。

条件一的结果占比是0.0005％，筛选效率高，而条件二的结果占比是1.9％，筛选效率低。因此，字段在索引中的先后顺序是：cno、sdate。因此，考虑到所有筛选条件的索引为索引一，即calllog(cno，sdate)。

策略二：用复合索引的先导创建索引。但是用复合索引的先导创建的索引不可以与索引一同时存在。因此，可以创建一个索引二，即calllog(cno)

策略三：在通常情况下，筛选记录数结果集的占比大于预设阈值，这里大于15％。在这种情况下，筛选效率较低，因此不建议创建索引。

条件三与条件一的结果记录的个数之比＝5/460＝1.1％。经过比较，由于筛选效率小于15％，筛选效率高，所以索引一是建议的索引。索引二不可以与索引一同时存在。不建议使用索引二。经过分析，最终建议的索引是索引一，即calllog(cno，sdate)。

为了能使索引的增加和删除更加灵活，在当索引创建完成之后，本发明实施例所提供的自动创建索引的方法还包括：

当监控到数据库的数据表中的数据发生变化，例如，数据的基数或者数据的分布等发生变化，重新计算表数据在表中的分布情况。计算方式可以采用增量计算，也可以采用全量计算。根据重新计算后的数据分布情况重新建立索引。

如图2所示，以执行INSERT语句的流程为例进行说明，该流程包括以下步骤：

步骤S201，启动数据采集；

步骤S202，执行INSERT语句，其中，数据库应用程序将数据从数据源采集到数据集后，封装成INSERT语句，然后发送给数据库执行；在执行完成后，数据保存到数据库表中；

步骤S203，计算数据分布，其中，检测数据库中表数据的变化，重新计算数据在表中的分布指标；计算的方式可以配置策略，例如可以采用增量计算，也可以采用全量计算；计算结果将作为自动创建索引的依据；以及

步骤S204，结束。

图3示出执行新的SQL语句的流程的示意图。如图3所示，该方法主要包括以下步骤：

步骤S301，开始。

步骤S302，分析新的SQL语句需要的索引，其中，通过分析SQL语句中的WHERE筛选条件部分、GROUP BY分组部分和ORDER BY排序部分，获得创建索引的方式以使SQL语句效率最高；

步骤S303，基于表索引定义信息，判断是否存在对应的索引，其中，如果不存在对应的索引，则进行步骤S304以创建索引；如果存在对应的索引，则进行步骤S305而无需创建索引；

步骤S304，自动创建索引；

步骤S305，执行SQL语句，其中，数据库执行SQL语句，并且将计算结果返回给数据库应用程序。

步骤S306，结束。

基于上述可知，本发明当需要运行新的SQL语句发生改变，系统能自动创建与之对应的索引，删除不再需要的索引；当数据分布不一样和/或列中数据基数不一样时，本发明的自动创建索引的方法能够自动适应这种变化，删除不再适合的索引，创建有效索引。

本发明的一个实施例还提供了一种自动创建索引的装置。如图4所示，所述自动创建索引的装置包括：

分析单元41，用于分析数据查询语句中的目标数据表以及操作条件；

计算单元42，用于判断是否需要分析数据分布，其中，当判断需要分析数据分布时，所述计算单元42计算目标数据表中满足所述操作条件的表数据的分布情况；以及

创建单元43，用于当所述表数据的分布情况满足预设的索引创建策略时，用所述操作条件创建所述目标数据表的索引；或者当确定不需要分析所述数据分布时，直接用所述操作条件创建为所述目标数据表的索引。

其中，所述操作条件包括WHERE筛选语句、GROUP BY分组语句和ORDER BY排序语句中的任意一种或多种操作所对应的条件。

在一个示例性实施例中，分析单元41具体用于：

对数据查询语句进行语法检查，以判断所述数据查询语句是否为有效语句，其中

在一个示例性实施例中，计算单元42具体用于：

判断是否需要分析数据分布时，以获取索引创建策略的创建依据，根据所述创建依据判断所述目标数据表是否存在于预设的数据表白名单中，其中，

当所述目标数据表存在于预设的数据表白名单时，则根据所述创建依据判断是否需要分析数据分布，而当所述目标数据表不存在于预设的数据表白名单时，停止创建所述目标数据表的索引。

在一个示例性实施例中，计算单元42具体用于：

读取预设的表数据扫描策略；

利用预设的统计装置计算所述表数据的分布情况。

在一个示例性实施例中，创建单元43具体用于：

用所述复合索引的先导创建单一索引；以及

判断所述复合索引的结果集和单一索引的结果集的占比是否大于预设阈值，其中，当所述复合索引的结果集和所述单一索引的结果集的占比大于预设阈值时，则将所述单一索引作为所述目标数据表的索引；当所述复合索引的结果集和所述单一索引的结果集的占比不大于预设阈值时，将所述复合索作为所述目标数据表的索引。

在一个示例性实施例中，该装置还包括监测单元，用于：

在用所述操作条件创建所述目标数据表的索引之后，实时监测数据查询语句和数据库中的数据表中的至少一者数据查询语句和数据库中的数据表中的至少一者的变化发生变化，其中，当监测到数据查询语句和数据库中的数据表中的至少一者发生变化时，则根据变化情况进行建立索引操作和删除索引操作中的至少一种操作。

本发明还提供了一种数据库系统，该系统包括根据以上实施例的自动创建索引装置。该系统可以应用于数据发布模型和数据消费模型中。

图5为根据本发明提供的数据发布模型的结构示意图。在图5中，数据库应用程序作为发布者。数据发布模型包括以下部分：

发布者(数据库应用程序)，构造成将数据从数据源采集到数据集中，并且发送给数据库系统；

数据库，构造成保存数据集，并且进行数据管理；以及

自动创建索引装置，构造成执行上述的自动创建索引方法。

对于该模型中各个部分的流程，可以参考上述图2中的步骤，这里不做进行说明。

图6为根据本发明提供的数据消费模型的结构示意图。在图6中，在数据库系统建立后，从数据源采集到系统的数据可以提供给应用程序使用。数据消费模型使用场景包括对数据库中的数据进行查询、修改和删除。该消费模型包括以下部分：

消费者(数据库应用程序)，构造成将用户的数据使用请求转换为查询/修改/删除等SQL语句，将SQL语句发送给数据库系统执行，并返回结果；

自动创建索引装置：构造成获取所述SQL语句，其中，如果没有需要的索引，则自动创建索引并且同时监控数据库中数据的变化，其中，如果数据库中的数据发生变化，则重新计算数据在表中的分布；以及

数据库，构造成对保存的数据进行计算，并且将计算后的数据返回给应用程序。

对于该模型中各个部分的流程，可以参考上述图3中的步骤，这里不做进行说明。

本发明所提供的数据库系统可以优化数据库设计。对数据的操作包括存储和使用。在存储数据时，应用程序属于数据的发布者；而在使用数据时，应用程序属于数据的消费者。一般来说，发布者重点关注数据结构；而消费者更加关注索引。利用本发明的数据库系统，可以自动分析SQL语句的组成结构，并且基于表组成结构和数据在表中的分布情况，自动创建索引供SQL语句使用。消费者不再受限于系统建设初期固定的索引的局限性，使得数据库设计将更加合理。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，相关之处参见方法实施例的部分说明即可。并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种自动创建索引的方法，包括：

分析数据查询语句中的目标数据表以及操作条件；

判断是否需要分析数据分布，其中，当判断需要分析数据分布时，计算所述目标数据表中满足所述操作条件的表数据的分布情况；以及

当所述表数据的分布情况满足预设的索引创建策略时，用所述操作条件创建所述目标数据表的索引。
如权利要求1所述的方法，其中，分析数据查询语句中的目标数据表以及操作条件的步骤包括：

对所述数据查询语句进行语法检查，以判断所述数据查询语句是否为有效语句，其中

当判定所述数据查询语句为有效语句时，根据所述数据查询语句的语法规则获取所述目标数据表以及所述操作条件。
如权利要求1所述的方法，其中，判断是否需要分析数据分布的步骤包括：

获取所述索引创建策略的创建依据，根据所述创建依据判断所述目标数据表是否存在于预设的数据表白名单中，其中

当所述目标数据表存在于预设的数据表白名单时，则根据所述创建依据判断是否需要分析数据分布，当所述目标数据表不存在于预设的数据表白名单时，停止创建所述目标数据表的索引。
如权利要求1或3所述的方法，其中，计算所述目标数据表中满足所述操作条件的表数据的分布情况的步骤包括：

读取预设的表数据扫描策略；

根据所述预设的扫描策略从所述目标数据表中获取满足所述操作条件的表数据；以及

根据预设的统计方法计算所述表数据的分布情况。
如权利要求1所述的方法，其中，当所述表数据的分布情况满足预设的索引创建策略时，用所述操作条件创建为所述目标数据表的索引的步骤包括：

根据所述表数据的分布情况获取各个操作条件的筛选效率，按照筛选效率的从高到低的顺序将所述操作条件进行排序，并且根据排序后的所述操作条件建立复合索引；

用所述复合索引的先导创建单一索引；以及

判断所述复合索引的结果集和所述单一索引的结果集的占比是否大于预设阈值时，其中，当所述复合索引的结果集和所述单一索引的结果集的占比大于所述预设阈值时，则将所述单一索引作为所述目标数据表的索引；当所述复合索引的结果集和所述单一索引的结果集的占比不大于预设阈值时，将所述复合索作为所述目标数据表的索引。
如权利要求1所述的方法，其中，在用所述操作条件创建所述目标数据表的索引之后，所述方法还包括：

实时监测数据查询语句和数据库中的数据表中的至少一者的是否发生变化，其中，当监测到数据查询语句和数据库中的数据表中的至少一者发生变化时，则根据变化情况进行建立索引操作和删除索引操作中的至少一种操作。
如权利要求1所述的方法，所述方法还包括：

当判断不需要分析数据分布时，则直接用所述操作条件创建所述目标数据表的索引。
如权利要求1所述的方法，其特征在于，所述操作条件包括WHERE筛选语句、GROUP BY分组语句和ORDER BY排序语句中的任意一种或多种操作所对应的条件。
一种自动创建索引的装置，包括：

分析单元，用于分析数据查询语句中的目标数据表以及操作条件；

计算单元，用于判断是否需要分析数据分布，其中，当判断需要分析数据分布时，所述计算单元计算所述目标数据表中满足所述操作条件的表数据的分布情况；以及

创建单元，用于当所述表数据的分布情况满足预设的索引创建策略时，用所述操作条件创建所述目标数据表的索引。
如权利要求9所述的装置，其中，所述分析单元还用于：

对所述数据查询语句进行语法检查，以判断所述数据查询语句是否为有效语句；

当判定所述数据查询语句为有效语句时，根据所述数据查询语句的语法规则获取所述目标数据表以及操作条件。
如权利要求9所述的装置，其中，所述计算单元还用于：

判断是否需要分析数据分布时，以获取所述索引创建策略的创建依据，根据所述创建依据判断所述目标数据表是否存在于预设的数据表白名单中，其中

当所述目标数据表存在于预设的数据表白名单时，则根据所述创建依据判断是否需要分析数据分布，当所述目标数据表不存在于预设的数据表白名单时，停止创建所述对所述目标数据表的索引。
如权利要求9或11所述的装置，其中，所述计算单元还用于：

读取预设的表数据扫描策略；

根据所述扫描策略从所述目标数据表中获取满足所述操作条件的表数据；以及

利用预设的统计装置计算所述表数据的分布情况。
如权利要求9所述的装置，其中，所述创建单元还用于：

根据所述表数据的分布情况获取各个操作条件的筛选效率，按照所述筛选效率的从高到低的顺序将所述操作条件进行排序，并且根据排序后的所述操作条件建立复合索引；

用所述复合索引的先导创建单一索引；以及

判断所述复合索引的结果集和所述单一索引的结果集的占比是否大于预设阈值时，其中，当所述复合索引的结果集和所述单一索引的结果集的占比大于所述预设阈值时，则将所述单一索引作为所述目标数据表的索引；当所述复合索引的结果集和所述单一索引的结果集的占比不大于预设阈值时，将所述复合索作为所述目标数据表的索引。
如权利要求9所述的装置，还包括监测单元，用于：

在用所述操作条件创建为所述目标数据表的索引之后，实时监测数据查询语句和数据库中的数据表中的至少一者的是否发生变化，其中，当监测到数据查询语句和数据库中的数据表中的至少一者发生变化时，则根据变化情况进行建立索引操作和删除索引操作中的至少一种操作。
如权利要求9所述的装置，其中，所述创建单元还用于：

当判断不需要分析数据分布时，则直接用所述操作条件创建所述目标数据表的索引。
如权利要求9所述的装置，其特征在于，所述操作条件包括WHERE筛选语句、GROUP BY分组语句、ORDER BY排序语句中的任意一种或多种操作所对应的条件。
一种数据库系统，包括权利要求9～16任一项所述的自动创建索引的装置。