WO2023029855A1

WO2023029855A1 - 物化视图的创建方法、装置、存储介质及电子设备

Info

Publication number: WO2023029855A1
Application number: PCT/CN2022/109471
Authority: WO
Inventors: 张友军; 郭俊; 杨诗旻
Original assignee: 北京火山引擎科技有限公司
Priority date: 2021-09-03
Filing date: 2022-08-01
Publication date: 2023-03-09
Also published as: CN113986933A

Abstract

本公开涉及一种物化视图的创建方法、装置、存储介质及电子设备，方法包括：提取历史查询语句中的原始子查询；根据所述原始子查询，按照预设规则生成候选查询集；从所述候选查询集中确定目标查询，其中，所述目标查询是查询收益大于预设收益阈值的查询；创建与所述目标查询对应的物化视图，其中，所述物化视图用于处理相应的查询，由于目标查询是候选查询集中查询收益大于预设收益阈值的查询，如此，便可以提高物化视图的命中率；此外，只基于目标查询建立物化视图，可以降低物化视图的计算成本和存储成本。

Description

物化视图的创建方法、装置、存储介质及电子设备

相关申请的交叉引用

本申请基于申请号为202111032832.8、申请日为2021年09月03日，名称为“物化视图的创建方法、装置、存储介质及电子设备”的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本公开涉及计算机技术领域，具体地，涉及一种物化视图的创建方法、装置、存储介质及电子设备。

背景技术

在数据分析领域中，联机分析处理技术(On-Line Analytical Processing，MOLAP)占据着非常重要的地位，它通过基于预计算的数据查询技术极大地缩短了数据分析的响应时间，降低了数据规模对于查询效率的影响。

然而，联机分析处理技术的应用需要依赖于物化视图。物化视图是预计算结果的集合，在遇到与物化视图对应的查询时，可以对物化视图直接进行复用，读取物化视图的结果，避免重复计算，以达到提升查询效率的目的。此外，基于查询的建立物化视图需要相应的计算成本和存储成本，因此，如何选取合适的查询来建立相应的物化视图是至关重要的。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开提供一种物化视图的创建方法，包括：

提取历史查询语句中的原始子查询；

根据所述原始子查询，按照预设规则生成候选查询集；

从所述候选查询集中确定目标查询，其中，所述目标查询是查询收益大于预设收益阈值的查询；

创建与所述目标查询对应的物化视图，其中，所述物化视图用于处理相应的查询。

第二方面，本公开提供一种物化视图的创建装置，包括：

提取模块，用于提取历史查询语句中的原始子查询；

生成模块，用于根据所述原始子查询，按照预设规则生成候选查询集；

确定模块，用于从所述候选查询集中确定目标查询，其中，所述目标查询是查询收益大于预设收益阈值的查询；

创建模块，用于创建与所述目标查询对应的物化视图，其中，所述物化视图用于处理相应的查询。

第三方面，本公开提供一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现上述第一方面中所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现上述第一方面中所述方法的步骤。

通过上述技术方案，利用从历史查询语句中提取到的原始子查询来构建候选查询集，在构建候选查询集中确定目标查询，并创建与目标查询对应的物化视图，由于目标查询是候选查询集中查询收益大于预设收益阈值的查询，如此，便可以提高物化视图的命中率；此外，只基于目标查询建立物化视图，可以降低物化视图的计算成本和存储成本。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。在附图中：

图1是根据本公开一示例性实施例示出的一种物化视图的创建方法的流程图。

图2是根据本公开一示例性实施例示出的一种生成候选查询集的流程图。

图3是根据本公开一示例性实施例示出的一种物化视图的创建装置的框图。

图4是根据本公开一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

可以理解的是，创建一个物化视图需要计算成本和存储成本，若创建的物化视图的命中率较低，将导致该物化视图的查询收益较低，其中，查询收益通过成本(计算成本和存储成本)和命中率确定。例如，创建第一物化视图的成本与第二物化视图的成本相同，但第一物化视图的命中次数为1，第二物化视图的命中次数为10，则第一物化视图的查询收益是低于第二物化视图的查询收益的。

在相关技术中，针对查询语句的所有子查询若均创建一对应的物化视图，由于子查询较多，但某些子查询对应的物化视图的命中率降低，导致物化视图的成本较高。因此，如何确定能囊括大部分高频查询语句的查询，并以此来建立高命中率的物化视图是至关重要的。

有鉴于此，本公开实施例提供一种物化视图的创建方法，利用从历史查询语句中提取到的原始子查询来构建候选查询集，在构建候选查询集中确定目标查询，并创建与目标查询对应的物化视图，由于目标查询是候选查询集中查询收益大于预设收益阈值的查询，如此，便可以提高物化视图的命中率；此外，只基于目标查询建立物化视图，可以降低物化视图的计算成本和存储成本。

为了帮助理解本公开实施例的物化视图的创建方法，在对本公开实施例进行详细说明之前，先对本公开实施例中可能的应用场景进行说明。

在一些可能的应用场景下，当需要多次计算相同的查询语句时，针对此类查询，可以创建与该查询语句对应的物化视图，便于在后续进行与该查询语句对应的查询时，可以直接通过查询物化视图来得到结果。

图1是根据本公开一示例性实施例示出的一种物化视图的创建方法的流程图。参照图1，该物化视图的创建方法包括：

步骤101，提取历史查询语句中的原始子查询。

可以理解的是，在提取原始子查询之前，需要获取历史查询语句，查询语句为附带有查询条件的语句，确定了用户需要查询的范围。

需要说明的是，历史查询语句为创建物化视图之前的历史结构化查询语句，例如SQL语句。以下以历史查询语句为历史SQL语句对本实施例进行解释说明。

在一些实施例中，可以对历史SQL语句进行语法解析，得到语法树，再基于该语法树，提取该语法树中的子查询作为原始子查询。其中，语法树是句子结构的图形表示，它代表了句子的推导结果，有利于理解句子语法结构的层次。因此，通过将SQL语句处理成语法树便于提取SQL语句中所有的子查询。

步骤102，根据原始子查询，按照预设规则生成候选查询集。

其中，预设规则是为了在原始子查询的基础上，生成区别于原始子查询的查询。

在一些实施例中，可以将两两原始子查询进行合并，生成一种区别与该两个子查询所对应的查询条件的查询，增加查询条件的多样化，进而增加查询的数量。

需要说明的是，通过原始子查询可以生成可以覆盖多类查询条件的查询，若以此类查询建立物化视图，可以提高物化视图的命中率。

步骤103，从候选查询集中确定目标查询，其中，目标查询是查询收益大于预设收益阈值的查询。

需要说明的是，目标查询表征了用户关心的数据所对应的查询范围。

在一些实施例中，查询收益可以是根据查询次数、基表的大小以及基表中被查询的列的参数所确定。其中，该参数例如可以是收敛比。收敛比可以反映物化视图的存储成本，收敛比越高的查询，其对应的物化视图的成本越低。

步骤104，创建与目标查询对应的物化视图，其中，物化视图用于处理相应的查询。

需要说明的是，针对某个查询，可以从物化视图中抽取到与该查询对应的查询结果，则该查询则为该物化视图的相应查询。

在一些实施例中，可以采用以下方式对物化视图进行应用。在接收到新查询时，Oracle数据库会自动判断能否通过查询物化视图来得到查询结果，如果可以，则将新查询进行查询重写，执行重写后的查询语句，重写后的查询语句直接从已经计算好的物化视图中读取数据，以便于从相应地物化视图中得到新查询对应的查询结果，避免了聚集或连接操作。

其中，查询重写是对查询语句进行重写。另外，判断能否通过查询物化视图来得到查询结果的相关过程与查询重写的相关过程可以参照相关技术，本公开实施例在此不做赘述。

通过上述方案，利用从历史查询语句中提取到的原始子查询来构建候选查询集，在构建候选查询集中确定目标查询，并创建与目标查询对应的物化视图，由于目标查询是候选查询集中查询收益大于预设收益阈值的查询，如此，便可以提高物化视图的命中率；此外，相较于基于每种子查询均建立对应的物化视图的方案来说可以降低物化视图的计算成本和存储成本，在降低计算成本和存储成本的前提上，系统的性能也趋于稳定。

为了使得本领域技术人员更加理解本公开提供的物化视图的创建方法，下面对上述各步骤进行详细举例说明。

在一些实施例中，原始子查询包括表字段，上述步骤102可以通过以下方式实施：根据原始子查询的表字段，将具有相同表字段的原始子查询划分为同一组，得到多个原始子查询集；针对每个原始子查询集，根据该原始子查询集中的原始子查询，按照预设规则生成候选查询集。

需要说明的是，原始子查询的表字段表征该原始子查询想要查询的数据所对应的基表。其中，基表中包括维度列、指标列等。在一些应用场景下，维度列例如可以是员工标识、交易日期等，指标列可以是薪水等，相应的，原始子查询例如可以是查询员工1的薪水大于10000的月份数据。

在一些实施例中，原始子查询还包括：过滤条件字段、维度列字段、指标列字段和查询次数字段。其中，过滤条件字段、维度列字段、指标列字段表征原始子查询的查询条件；原始子查询的查询次数表征该原始子查询历史查询过的次数。

如表1所示，包括提取的原始子查询以及与原始子查询相关的字段说明，根据表1中所示的各原始子查询和各原始子查询对应的表字段，划分的原始子查询集包括两个。一个原始子查询集是仅包括表字段为A的Querypattern1，Querypattern2，Querypattern3，Querypattern4以及Querypattern5。另一个原始子查询集是仅包括表字段为A和B的Querypattern6以及Querypattern7。

表1

通过上述方式，因此，基于原始子查询的表字段对原始子查询进行分组，由于同一表字段对应的原始子查询的相关性较高，优化了目标查询的选择，进而提高了物化视图集的优化效果。

在一些实施例中，以表1所确定的原始子查询集包括Querypattern1，Querypattern2，Querypattern3，Querypattern4以及Querypattern5为例，并结合图2示出的一种生成候选查询集的流程图，对候选查询集的生成过程进行解释说明。针对每个原始子查询集，可以通过图2所示的流程图中的步骤生成候选查询集，参照图2，包括以下步骤：

步骤201，将原始子查询集作为当前子查询集。

示例地，原始子查询集包括Querypattern1，Querypattern2，Querypattern3，Querypattern4以及Querypattern5，则当前子查询集包括Querypattern1，Querypattern2，Querypattern3，Querypattern4以及Querypattern5。

步骤202，根据当前子查询集中的查询，按照预设合并规则生成候选查询集。

需要说明的是，预设合并规则针对当前子查询集中的查询进行合并，例如，针对Querypattern1和Querypattern2，可以合并生成一个新的查询。

在一些实施例中，候选查询集中的查询包括过滤条件字段、维度列字段、指标列字段和查询次数字段，可以采用以下方式根据当前子查询集中的查询，按照预设合并规则生成候选查询集：针对当前子查询集中的每两个查询，根据该两个查询的过滤条件字段、维度列字段、指标列字段和查询次数字段，对该两个查询进行合并；根据合并结果和当前子查询集中包括的查询，生成候选查询集。

示例性地，针对Querypattern1，Querypattern2，Querypattern3，Querypattern4以及Querypattern5生成的候选查询集如下表2所示。

索引	过滤条件字段	维度列字段	指标列字段	查询次数
1	d>0,e<10	a,b	f,g	10
2	d>0	a,b	f,h	5
3	e<10	a	f	15
4	d>0	b,c	f,h,i	20
5	e>0	a	f,i	20
6(1&2)	d>0	a,b	f,g,h	15(10+5)
7(1&3)	e<10	a,b	f,g	25(10+15)
8(1&4)	d>0	a,b c	f,g,h,i	30(10+20)
9(1&5)	e>0	a,b	f,g,i	30(10+20)
10(2&3)	/	a,b,d,e	f,h	20(5+15)
11(2&4)	d>0	a,b c	f,h,i	25(5+20)
12(2&5)	/	a,b,d,e	f,h,i	25(5+20)
13(3&4)	/	a,b,c,d,e	f,h,i	35(15+20)
14(3&5	/	a,e	f,i	35(15+20)
15(4&5)	/	a,b,c,d,e	f,h,i	40(20+20)

表2

需要说明的是，索引1-5分别对应Querypattern1，Querypattern2，Querypattern3，

Querypattern4以及Querypattern5。索引6-15对应的查询是索引1-5所对应的Querypattern两两合并得到的查询。

针对合并得到的查询的过滤条件字段来说，在进行合并的两个查询的过滤条件字段存在交集的情况下，合并得到的查询的过滤条件字段取该两个查询的过滤条件字段的交集，例如，参照索引1和索引2所对应的查询合并得到的索引6所对应的查询的过滤条件字段。在进行合并的两个查询的过滤条件字段不存在交集的情况下，合并得到的查询的过滤条件字段取该两个查询的过滤条件字段的超集，例如，参照索引2和索引3所对应的查询合并得到的索引10所对应的查询得到的过滤条件字段。

针对合并得到的查询的维度列字段来说，合并得到的查询的维度列字段是进行合并的两个查询的维度列字段的并集。例如，参照索引1和索引4所对应的查询合并得到的索引8所对应的查询的维度列字段。

针对合并得到的查询的指标列字段来说，合并得到的查询的指标列字段是进行合并的两个查询的指标列字段的并集。例如，参照索引1和索引4所对应的查询合并得到的索引8所对应的查询的指标列字段。

针对合并得到的查询的查询次数来说，合并得到的查询的查询次数是进行合并的两个查询的查询次数的和。例如，参照索引1和索引4所对应的查询合并得到的索引8所对应的查询的查询次数。

步骤203，对候选查询集中的查询按照预设排序规则进行排序，并根据排序结果，从排序结果中选择预设数量的查询，组成新的候选查询集。

需要说明的是，预设排序规则是将候选查询集中的所有查询按照一定的规则进行排列。

在一些实施例中，预设排列规则可以根据过滤条件字段、维度列字段和查询次数字段进行排序。

进一步地，在预设排列规则包括根据过滤条件字段、维度列字段和查询次数字段设置的规则的情况下，在一些实施例中，可以按照以下排列方式对候选查询集中的查询进行排列：

将候选查询集中的查询按照维度列的个数进行升序排列，得到第一排序结果；在第一排序结果基础上，按照查询次数对第一排序结果进行降序排列，得到第二排序结果；在第二排序结果基础上，按照过滤条件的条件个数对第二排序结果进行升序排序，得到最终的排序结果。示例地，按照此排序方式对表2所示的候选查询集进行排列后的排序结果如下表3所示。

索引	过滤条件字段	维度列字段	指标列字段	查询次数
5	e>0	a	f,i	20
3	e<10	a	f	15
14(3&5	/	a,e	f,i	35(15+20)
9(1&5)	e>0	a,b	f,g,i	30(10+20)
7(1&3)	e<10	a,b	f,g	25(10+15)
4	d>0	b,c	f,h,i	20
6(1&2)	d>0	a,b	f,g,h	15(10+5)

1	d>0,e<10	a,b	f,g	10
2	d>0	a,b	f,h	5
8(1&4)	d>0	a,b c	f,g,h,i	30(10+20)
11(2&4)	d>0	a,b c	f,h,i	25(5+20)
12(2&5)	/	a,b,d,e	f,h,i	25(5+20)
10(2&3)	/	a,b,d,e	f,h	20(5+15)
15(4&5)	/	a,b,c,d,e	f,h,i	40(20+20)
13(3&4)	/	a,b,c,d,e	f,h,i	35(15+20)

表3

应当说明的是，维度列的个数越少，预期收敛比越高，所需存储成本越低；查询次数越高，则预期的命中率越高；过滤条件的条件个数越少，则覆盖的查询场景越多，从而能够提升命中率。

考虑到由于排列顺序决定了不同查询需要生成物化视图的重要性，因此，在存在多种排列规则的前提下，各个排列规则的顺序显得至关重要。基于此，考虑到排列时各类排列规则的强弱，按照上述设置的排序顺序(维度列-查询次数-过滤条件)进行排序，最大程度保证了可以筛选到最优的查询。

在一些实施例中，以预设数量为5为例，根据表3的排序结果，组成新的候选查询集包括索引5、索引3、索引14、索引9和索引7所分别对应的查询。

步骤204，判断是否满足预设迭代条件。在确定满足预设迭代条件的情况下，执行步骤205：输出当前的候选查询集。在确定不满足预设迭代条件的情况下，执行步骤206：将新的候选查询集作为新的当前子查询集，并返回执行步骤202。

在一些实施例中，预设迭代条件可以是迭代次数是否达到预设次数。

在一些实施例中，可以统计步骤202的执行次数，步骤204可以为：判断步骤202的执行次数是否达到预设次数。且在步骤202的执行次数达到预设次数的情况下，确定满足预设迭代条件；在步骤202的执行次数未达到预设次数的情况下，确定不满足预设迭代条件。

需要说明的是，预设次数可以根据实际情况进行设定，本实施例在此不作限定。

示例地，以组成新的候选查询集包括索引5、索引3、索引14、索引9和索引7所分别对应的查询。在确定满足预设迭代条件的情况下，输出的当前的候选查询集则是包括索引5、索引3、索引14、索引9和索引7所分别对应的查询组成的候选查询集；在确定不满足预设迭代条件的情况下，以包括索引5、索引3、索引14、索引9和索引7所分别对应的查询组成的候选查询集作为当前子查询集，并执行步骤202。

通过上述方式，采用迭代的方式来不断优化候选查询集中的查询，以此来提高依据优化的候选查询集中的查询所建立的物化视图的命中率。

在一些实施例中，图1所示的步骤103可以通过以下方式实施：计算候选查询集中每个查询的指标参数；根据候选查询集中每个查询的指标参数，选取指标参数满足与指标参数对应的预设参数条件的查询作为目标查询。

需要说明的是，目标查询是从最后迭代生成的候选查询集中选取的。

在一些实施例中，指标参数可以包括候选查询集中查询所对应的基表的数据量、查询的查询次数和查询的收敛比。考虑到数据小的表查询所需要的成本并不高，因此，针对此类表对应的查询可以无需建立物化视图。查询的查询次数可以反映后续该查询对应的物化视图的命中率。因此，查询次数越高的查询越适合建立物化视图。

在一些实施例中，可以通过读取数据库中基表所占的存储空间获取到基表的数据量。

在一些实施例中，查询的查询次数可以通过该查询的查询次数字段获取。

在一些实施例中，收敛比可以基于维度列字段对应的维度列的行数确定，该行数可以理解为该维度列的取值个数。示例地，收敛比可以为计算前的行数与计算后的行数的比值。例如，针对表3中索引为5的查询，若维度列字段表征的a维度列在基表中的对应的行数为1000行(即计算前的行数)，即存在1000个取值，且索引为5的查询对应的计算出来的查询结果的行数为10行(即计算后的行数)，即查询结果对应得到的a维度列的取值只有10个，则此时收敛比则为10。

在一些实施例中，若候选查询集中的同一个查询对应的维度列为多个，则可以将每个维度列对应的收敛比之和与维度列的个数的比值确定为该查询对应的收敛比。

在一些实施例中，若指标参数包括多个，则目标查询是所有指标参数均满足分别对应的预设参数条件的查询。

示例地，以指标参数包括查询所对应的基表的数据量、查询的查询次数以及查询的收敛比为例，在基表的数据量小于预设数据量阈值、查询次数大于预设查询次数阈值且收敛比大于预设收敛比阈值的查询为目标查询。

其中，预设数据量阈值、预设查询次数阈值以及预设收敛比阈值可以根据实际情况进行设定。本实施例在此不作限定。

通过上述方式，采用多维度的指标参数来综合选择目标查询，更为全面的选取目标选择，提高了目标查询的优化效果，进而提高了物化视图的质量，对于后续基于物化视图的应用提供了可靠的数据基础。

在一些实施例中，图1所示的步骤104可以通过以下方式实施：设置与目标查询对应的物化视图的数据时段，其中，物化视图包括在与目标查询的表字段对应的基表中的与数据时段对应的数据；根据目标查询和数据时段，生成数据定义语言；执行数据定义语言，以创建与目标查询对应的物化视图。

需要说明的是，数据时段表征物化视图的初始化数据的数据范围。例如，数据时段可以是2天内满足查询条件的数据。基于此，创建的物化视图包括两天的数据。

考虑到在相关物化视图的应用场景中，会基于基表的数据更新对物化视图执行更新。特别是随日期更新的数据场景，随着日期的不断延长，为更新数据，物化视图的数据量增大，导致物化视图的存储成本增加，但基于该类物化视图，若基于此物化视图的查询又偏向于查询最近数据，因此，物化视图中越先存入的数据未被命中的概率增加。基于此，可以通过设置数据时段确保对物化视图中过期数据进行舍弃，以此降低存储成本。

示例地，在用户偏好查询三天内的数据的应用场景下，初始化创建的物化视图包括数据时段为3天(例如1号-3号)的数据，在基表更新4号的数据后，在相关现有技术会将4号中满足该物化视图对应的查询的筛选条件的数据更新至物化视图中，此时，物化视图中包括1号-4号的数据。但由于用户偏向于查询最近三天的数据，因此，对于该物化视图中的1号数据的命中率下降。随着日期的不断延长，将极大的增加物化视图的存储成本。但采用本公开实施例提高的方案，可以基于设置的数据时段将物化视图中属于1号的数据删除，并将4号中满足该物化视图对应的查询的筛选条件的数据更新至物化视图中，如此，在可以满足查询最近3天的相关数据的情况下降低物化视图的存储成本。

可以理解的是，数据时段可以基于目标查询对应的历史记录来确定。该历史记录表征了每次查询所需要的数据的时段。

示例地，可以在创建物化视图的同时创建更新任务，用于物化视图的更新。

示例地，数据定义语言可以是可执行的SQL语句。基于该类语句，实现物化视图的创建。

在一些实施例中，方法还包括：检测物化视图是否属于失效视图；在检测到物化视图属于所述失效视图的情况下，删除物化视图。

在一些实施例中，失效视图可以是预设时长内未命中的物化视图。例如，在检测到物化视图在3天内未被命中时，即可确定该物化视图为失效视图。

在一些实施例中，失效视图还可以是预设时长内未命中预设次数的物化视图。

其中，预设时长可以根据实际情况进行设定，预设时长可以是1天，也可以是2天。本实施例在此不作限定。

在一些实施例中，失效视图可以是对应的基表已经删除的物化视图。例如，物化视图包括的查询结果是基表A中的数据，在检测到基表A从存储中删除时，即可确定该物化视图为失效视图。

在一些实施例中，失效视图可以是对应的基表数据发生变更的物化视图。例如，物化视图包括的查询结果是基表A中的数据，在检测到基表A部分数据发生变化时，即可确定该物化视图为失效视图。考虑到为确保数据的一致性，可以在物化视图对应的基表中的数据发生变化时，删除物化视图，避免查询基于数据错误的物化视图得到错误的查询结果。

在一些实施例中，前述的检测可以基于为物化视图创建的相应的监控任务实现。

在一些实施例中，删除物化视图可以通过生成相应的SQL执行语句实现。在一些实施例中，在删除物化视图后，还可以将为该物化视图所创建的任务删除，例如，更新任务，监控任务。

基于同一发明构思，本公开实施例提供一种物化视图的创建装置，参照图3，该创建装置300包括：

提取模块301，用于提取历史查询语句中的原始子查询；

生成模块302，用于根据所述原始子查询，按照预设规则生成候选查询集；

确定模块303，用于从所述候选查询集中确定目标查询，其中，所述目标查询是查询收益大于预设收益阈值的查询；

创建模块304，用于创建与所述目标查询对应的物化视图，其中，所述物化视图用于处理相应的查询。

可选地，所述原始子查询包括表字段，所述生成模块302包括：

分组子模块，用于根据所述原始子查询的表字段，将具有相同表字段的原始子查询划分为同一组，得到多个原始子查询集；

生成子模块，用于针对每个所述原始子查询集，根据该原始子查询集中的原始子查询，按照预设规则生成候选查询集。

可选地，所述生成子模块包括：

第一确定子单元，用于将所述原始子查询集作为当前子查询集；

合并子单元，用于根据所述当前子查询集中的查询，按照预设合并规则生成候选查询集；

排序子单元，用于对所述候选查询集中的查询按照预设排序规则进行排序；并根据排序结果，从所述排序结果中选择预设数量的查询，组成新的候选查询集；

第二确定子单元，用于在确定不满足预设迭代条件的情况下，将新的候选查询集作为新的当前子查询集。

可选地，所述候选查询集中的查询包括过滤条件字段、维度列字段、指标列字段和查询次数字段，所述合并子单元具体用于针对所述当前子查询集中的每两个查询，根据该两个查询的过滤条件字段、维度列字段、指标列字段和查询次数字段，对该两个查询进行合并；根据合并结果和所述当前子查询集中包括的查询，生成候选查询集。

可选地，所述确定模块303包括：

计算子模块，用于计算所述候选查询集中每个查询的指标参数；

选取子模块，用于根据所述候选查询集中每个查询的指标参数，选取所述指标参数满足与所述指标参数对应的预设参数条件的查询作为目标查询。

可选地，所述创建模块304包括：

设置子模块，用于设置与所述目标查询对应的物化视图的数据时段，其中，所述物化视图包括在与所述目标查询的表字段对应的基表中的与所述数据时段对应的数据；

语句生成子模块，用于根据所述目标查询和所述数据时段，生成数据定义语言；

执行子模块，用于执行所述数据定义语言，以创建与所述目标查询对应的物化视图。

可选地，所述创建装置300还包括：

检测模块，用于检测所述物化视图是否属于失效视图；

删除模块，用于在检测到所述物化视图属于所述失效视图的情况下，删除所述物化视图。

基于同一发明构思，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现方法实施例中所述创建方法的步骤。

基于同一发明构思，本公开实施例提供一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现方法实施例中所述创建方法的步骤。

下面参考图4，其示出了适于用来实现本公开实施例的电子设备400的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图4所示，电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

通常，以下装置可以连接至I/O接口405：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407；包括例如磁带、硬盘等的存储装置408；以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置409从网络上被下载和安装，或者从存储装置408被安装，或者从ROM 402被安装。在该计算机程序被处理装置401执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施例中，电子设备可以利用诸如HTTP(HyperText Transfer Protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：提取历史查询语句中的原始子查询；根据所述原始子查询，按照预设规则生成候选查询集；从所述候选查询集中确定目标查询，其中，所述目标查询是查询收益大于预设收益阈值的查询；创建与所述目标查询对应的物化视图，其中，所述物化视图用于处理相应的查询。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，提取模块还可以被描述为“提取历史查询语句中的原始子查询的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，示例1提供了一种物化视图的创建方法，包括：

提取历史查询语句中的原始子查询；

根据所述原始子查询，按照预设规则生成候选查询集；

根据本公开的一个或多个实施例，示例2提供了示例1的方法，所述原始子查询包括表字段，所述根据所述原始子查询，按照预设规则生成候选查询集，包括：

根据所述原始子查询的表字段，将具有相同表字段的原始子查询划分为同一组，得到多个原始子查询集；

针对每个所述原始子查询集，根据该原始子查询集中的原始子查询，按照预设规则生成候选查询集。

根据本公开的一个或多个实施例，示例3提供了示例2的方法，所述针对每个所述原始子查询集，根据该原始子查询集中的原始子查询，按照预设规则生成候选查询集，包括：

针对每个所述原始子查询集，执行以下步骤：

将所述原始子查询集作为当前子查询集；

根据所述当前子查询集中的查询，按照预设合并规则生成候选查询集；

对所述候选查询集中的查询按照预设排序规则进行排序；并，

根据排序结果，从所述排序结果中选择预设数量的查询，组成新的候选查询集；

在确定不满足预设迭代条件的情况下，将新的候选查询集作为新的当前子查询集，并返回执行所述按照预设组合规则，根据所述当前子查询集中的查询，生成候选查询集的步骤。

根据本公开的一个或多个实施例，示例4提供了示例3的方法，所述候选查询集中的查询包括过滤条件字段、维度列字段、指标列字段和查询次数字段，所述根据所述当前子查询集中的查询，按照预设合并规则生成候选查询集，包括：

针对所述当前子查询集中的每两个查询，根据该两个查询的过滤条件字段、维度列字段、指标列字段和查询次数字段，对该两个查询进行合并；

根据合并结果和所述当前子查询集中包括的查询，生成候选查询集。

根据本公开的一个或多个实施例，示例5提供了示例1的方法，所述从所述候选查询集中确定目标查询，包括：

计算所述候选查询集中每个查询的指标参数；

根据所述候选查询集中每个查询的指标参数，选取所述指标参数满足与所述指标参数对应的预设参数条件的查询作为目标查询。

根据本公开的一个或多个实施例，示例6提供了示例1-5中任一一项的方法，所述创建与所述目标查询对应的物化视图，包括：

设置与所述目标查询对应的物化视图的数据时段，其中，所述物化视图包括在与所述目标查询的表字段对应的基表中的与所述数据时段对应的数据；

根据所述目标查询和所述数据时段，生成数据定义语言；

执行所述数据定义语言，以创建与所述目标查询对应的物化视图。

根据本公开的一个或多个实施例，示例7提供了示例1-5中任一一项的方法，所述方法还包括：

检测所述物化视图是否属于失效视图；

在检测到所述物化视图属于所述失效视图的情况下，删除所述物化视图。

根据本公开的一个或多个实施例，示例8提供了一种物化视图的创建装置，包括：

提取模块，用于提取历史查询语句中的原始子查询；

根据本公开的一个或多个实施例，示例9提供了计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现示例1-7中任一项所述方法的步骤。

根据本公开的一个或多个实施例，示例10提供了一种电子设备，其特征在于，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现示例1-7中任一项所述方法的步骤。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

Claims

一种物化视图的创建方法，其特征在于，包括：

提取历史查询语句中的原始子查询；

根据所述原始子查询，按照预设规则生成候选查询集；

从所述候选查询集中确定目标查询，其中，所述目标查询是查询收益大于预设收益阈值的查询；

创建与所述目标查询对应的物化视图，其中，所述物化视图用于处理相应的查询。
根据权利要求1所述的创建方法，其特征在于，所述原始子查询包括表字段，所述根据所述原始子查询，按照预设规则生成候选查询集，包括：

根据所述原始子查询的表字段，将具有相同表字段的原始子查询划分为同一组，得到多个原始子查询集；

针对每个所述原始子查询集，根据该原始子查询集中的原始子查询，按照预设规则生成候选查询集。
根据权利要求2所述的创建方法，其特征在于，所述针对每个所述原始子查询集，根据该原始子查询集中的原始子查询，按照预设规则生成候选查询集，包括：

针对每个所述原始子查询集，执行以下步骤：

将所述原始子查询集作为当前子查询集；

根据所述当前子查询集中的查询，按照预设合并规则生成候选查询集；

对所述候选查询集中的查询按照预设排序规则进行排序；并，

根据排序结果，从所述排序结果中选择预设数量的查询，组成新的候选查询集；

在确定不满足预设迭代条件的情况下，将新的候选查询集作为新的当前子查询集，并返回执行所述按照预设组合规则，根据所述当前子查询集中的查询，生成候选查询集的步骤。
根据权利要求3所述的创建方法，其特征在于，所述候选查询集中的查询包括过滤条件字段、维度列字段、指标列字段和查询次数字段，所述根据所述当前子查询集中的查询，按照预设合并规则生成候选查询集，包括：

针对所述当前子查询集中的每两个查询，根据该两个查询的过滤条件字段、维度列字段、指标列字段和查询次数字段，对该两个查询进行合并；

根据合并结果和所述当前子查询集中包括的查询，生成候选查询集。
根据权利要求1所述的创建方法，其特征在于，所述从所述候选查询集中确定目标查询，包括：

计算所述候选查询集中每个查询的指标参数；

根据所述候选查询集中每个查询的指标参数，选取所述指标参数满足与所述指标参数对应的预设参数条件的查询作为目标查询。
根据权利要求1-5中任一所述的创建方法，其特征在于，所述创建与所述目标查询对应的物化视图，包括：

设置与所述目标查询对应的物化视图的数据时段，其中，所述物化视图包括在与所述目标查询的表字段对应的基表中的与所述数据时段对应的数据；

根据所述目标查询和所述数据时段，生成数据定义语言；

执行所述数据定义语言，以创建与所述目标查询对应的物化视图。
根据权利要求1-5中任一所述的创建方法，其特征在于，所述方法还包括：

检测所述物化视图是否属于失效视图；

在检测到所述物化视图属于所述失效视图的情况下，删除所述物化视图。
一种物化视图的创建装置，其特征在于，包括：

提取模块，用于提取历史查询语句中的原始子查询；

生成模块，用于根据所述原始子查询，按照预设规则生成候选查询集；

确定模块，用于从所述候选查询集中确定目标查询，其中，所述目标查询是查询收益大于预设收益阈值的查询；

创建模块，用于创建与所述目标查询对应的物化视图，其中，所述物化视图用于处理相应的查询。
一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。
一种电子设备，其特征在于，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。