WO2019127744A1

WO2019127744A1 - 一种olap数据模型自动建模的方法、分类器

Info

Publication number: WO2019127744A1
Application number: PCT/CN2018/073320
Authority: WO
Inventors: 李栋; 张逸凡; 李扬; 韩卿
Original assignee: 上海跬智信息技术有限公司
Priority date: 2017-12-29
Filing date: 2018-01-19
Publication date: 2019-07-04
Also published as: CN108153894A; US11055307B2; EP3709192A1; US20200394201A1; EP3709192A4; CN108153894B

Abstract

本发明涉及一种OLAP数据模型自动建模的方法、分类器，该方法包括：获取SQL查询语句；对SQL查询语句进行解析，判断该SQL查询语句中是否存在语法或者词法错误；若不存在，则对该SQL查询语句进行查询结构抽取，得到至少N组查询模式；对该至少N组查询模式进行分类；将每类中的查询模式进行合并，得到对应的模式关系树；将该模式关系树转换成对应的数据模型。还涉及一种分类器，该分类器包括：静态规则分类模块、统计规则和预设学习规则分类模块。通过本发明所生成的数据模型既能完全支持所有的输入SQL，同时又具有一定的泛化能力还可以完全支持Cube操作和快速查询有效降低了用户的学习难度和试错成本。

Description

一种OLAP数据模型自动建模的方法、分类器

技术领域

本发明属于OLAP大数据信息领域，尤其涉及一种OLAP数据模型自动建模的方法、分类器。

背景技术

在当今数据化的时代，如何通过OLAP分析海量、复杂的数据以辅助商业决策，是商务智能和数据分析领域的重要课题；而数据模型就是OLAP分析的基础。

一般的，OLAP分析的架构底层是数据仓库，包含一系列数据表；建模人员根据业务分析需求，基于这些表设计数据模型供分析人员使用；最终，分析人员的分析操作都会转化为一系列针对数据表的SQL查询。数据模型给数据表赋予了业务含义，解耦了数据底层和业务需求的关系，是整个架构中不可或缺的一部分。

在大数据多维分析场景中，数据规模可达千亿或万亿级别，且维度数量过多、业务场景复杂多变，增大了数据建模的难度；OLAP Cube的使用不建议数据模型有频繁的改动，又增大了数据建模的试错难度。这些都给建模人员带来了较大挑战，如何通过计算机算法实现自动建模以减少人工建模的代价，显得尤为重要。

发明内容

本发明所要解决的技术问题是：现有的OLAP模型极度依赖人工对数据表和业务需求的理解而实现，建模效率较低、成本较大，无法实现自动建模。

为解决上面的技术问题，本发明提供了一种OLAP数据模型自动建模的方法，该方法包括：

S1，获取SQL查询语句；

S2，对所述SQL查询语句进行解析，根据解析结果判断所述SQL查询语句是否存在语法或者词法错误；

S3，若不存在，则根据所述SQL查询语句使用到的与源数据相关的列信息和表信息，对所述SQL查询语句进行查询结构抽取，得到至少N组查询模式，其中N为大于等于1的自然数；

S4，对所述至少N组查询模式进行分类；

S5，将每类中的查询模式进行合并，得到对应的模式关系树；

S6，将所述模式关系树转换成对应的数据模型。

本发明的有益效果：通过上述的方法，对输入的SQL样例进行解析并抽取特征，寻找出数据模型所需的模式；再对这些模式进行聚类、合并，生成所需的所有数据模型，所生成的数据模型既能完全支持所有的输入SQL，同时又具有一定的泛化能力。另外所生成的数据模型可以完全支持Cube操作和快速查询，并保证Cube膨胀率在10倍以内，且该自动建模有效降低了用户的学习难度和试错成本，优化了用户体验。

进一步地，所述列信息是指所述SQL查询语句中使用的所有列，其中每列中包括：该列的列名、该列所在的表、该列的类型和该列出现的次数。

所述表信息是指所述SQL查询语句中使用的所有表，其中每表中包括：该表的表名、该表的类型、该表和事实表的关联信息。

进一步地，所述S4中对所述至少N组查询模式进行分类包括：

S41，采用静态规则对所述至少N组查询模式进行差异判断，其中，所述静态规则是指计算任意两组查询模式中相同的表的差异度，判断所述表的差异度是否大于第一预设阈值，若大于，则两组查询模式不可分为一类；

且在计算完表的差异度后，计算任意两组查询模式中相同的列的差异度，判断所述列的差异度是否大于所述第一预设阈值，若大于则两组查询模式不可分为一类；

S42，在进行差异判断后，采用统计规则和预设学习规则对所述至少N组查询模式进行聚类。

进一步地，所述S42中采用统计规则和预设学习规则对所述至少N组查询模式进行聚类包括：

S421，根据每组查询模式中使用的列信息和表信息，计算每组查询模式的特征向量；

S422，根据无监督机器学习中的聚类算法和所述预设学习规则对所有的所述特征向量进行聚类。

进一步地，所述预设学习规则是指在聚类后，判断聚类结果是否符合预设标准，若不符合，则采用有监督机器学习算法对聚类结果进行调整，并记录调整后的聚类结果。

进一步地，所述S5中将每类中的查询模式进行合并，得到对应的模式关系树包括：

计算每类中任意两组查询模式中相同的表的差异度，判断所述表的差异度是否小于第二预设阈值，若小于，则将两组查询模式合并，得到对应的模式关系树；

且在计算完每类中表的差异度后，计算每类中任意两组查询模式中相同的列的差异度，判断所述列的差异度是否小于所述第二预设阈值，若小于，则将两组查询模式合并，得到对应的模式关系树。

进一步地，所述S6中将所述模式关系树中转换成对应的数据模型包括：

将所述模式关系树中的表信息转换成对应的所述数据模型的表信息；

将所述模式关系树中的列信息转换成对应的所述数据模型的列信息。

进一步地，所述将所述模式关系树中的列信息转换成对应的所述数据模型的列信息还包括：

对所述模式关系树中的列进行分区评分，确定所述数据模型的分区列，其中对所述模式关系树中的列进行分区评分的计算公式为：

PartScore(i)＝PartFunc(Score(i),Stats(i))，其中PartFunc()是评分函数，Score(i)是每组查询模式上第(i)列评分，Stats(i)是第(i)列的特征统计值，当第(i)列分区评分PartScore(i)超过预定评分阈值，则将第(i)列设置为分区列。

本发明还涉及一种分类器，该分类器包括：静态规则分类模块、统计规则和预设学习规则分类模块；

所述静态规则分类模块，用于采用静态规则对至少N组查询模式进行差异判断，其中，所述静态规则是指计算任意两组查询模式中相同的表的差异度，判断所述表的差异度是否大于第一预设阈值，若大于，则两组查询模式不可分为一类，其中N为大于等于1的自然数；

所述统计规则和预设学习规则分类模块，用于在进行差异判断后，采用统计规则和预设学习规则对所述至少N组查询模式进行聚类。

本发明的有益效果：通过上述的分类器，可以将多个查询模式进行分类，且也提高了分类的精度。

附图说明

图1为本发明的一种OLAP数据模型自动建模的方法的流程图；

图2为本发明的一种分类器的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种OLAP数据模型自动建模的方法，该方法包括：

S1，获取SQL查询语句；

S4，对所述至少N组查询模式进行分类；

S6，将所述模式关系树转换成对应的数据模型。

可以理解的是，在本实施例中步骤S1是对获取的SQL查询语句进行预检，这样可以测试每条输入的SQL查询语句是否能够有效地在后续阶段发挥作用，步骤S2中是采用SQL语法解析器对输入SQL查询语句进行解析，判断每条SQL查询语句是否存在词法、语法错误；如果存在，则给出明确的错误提示引导用户对该SQL查询语句进行修正，如果全部校验通过，则允许进入下一步骤S3。

在步骤S3中是对输入SQL查询语句进行模拟执行，这个引擎并不返回任何有意义的查询结果，而是在执行过程中对查询计划的分析结果进行收集，并转换为一组查询模式。需要说明的是，很多SQL会包含：多个子查询(如包含子查询的SQL，每个子查询以及主查询都对应一个上下文(即查询结构))，每个上下文会生成一份查询模式；因此一条SQL可能生成多个查询模式。比如：如果输入SQL查询语句是：

select sellers.seller_name,order.location,sum(order.price)from order join sellers on sellers.id＝order.seller_id where order.time＝20120101group by sellers.seller_name,order.location，针对该条SQL查询语句其对应的抽取出的查询模式结构是：

列信息：

Col(0):sellers.seller_name-name(0):seller_name,tbl(0):sellers,Cat(0):维度,Score(0):基于出现次数1、使用用途(group by)计算。

Col(1):order.location-name(1):location,tbl(1):order,Cat(1):维度,Score(1):基于出现次数1、使用用途(group by)计算。

Col(2):order.price-name(2):price,tbl(2):order,Cat(2):度量,Score(2):基于出现次数1、使用用途(度量)计算。

Col(3):order.time-name(3):time,tbl(3):order,Cat(3):维度,Score(3):基于出现次数1、使用用途(filter)计算。

表信息：

Tbl(0):order-Name(0):order,Cat(0):事实表

Tbl(1):sellers-Name(1):sellers,Cat(1):维度表,join(1):order join sellers on sellers.id＝order.seller_id。

根据上述的列信息和表信息，对所述SQL查询语句进行查询结构抽取，得到至少N组查询模式。

其次，在步骤S4中就是对至少N组查询模式进行分类；

如下比如：假设有两个查询模式被分为一类：

模式1：

列信息：

Col(0)：sellers.seller_name-name(0):seller_name,tbl(0):sellers,Cat(0)：维度,Score(0):基于出现次数1、使用用途(group by)计算。

Col(1)：order.location-name(1):location,tbl(1):order,Cat(1):维度,Score(1):基于出现次数1、使用用途(group by)计算。

表信息：

Tbl(0):order-Name(0):order,Cat(0):事实表

Tbl(1):sellers-Name(1):sellers,Cat(1):维度表,join(1):order join sellers on sellers.id＝order.seller_id

模式2：

列信息：

Col(0):order.time-name(0):time,tbl(0):order,Cat(0):维度,Score(0):基于出现次数1、使用用途(filter)计算；

Col(1):buyers.buyer_name-name(1):buyer_name,tbl(1):buyers,

Cat(1):维度,Score(1):基于出现次数1、使用用途(group by)计算；

表信息：

Tbl(0):order-Name(0):order,Cat(0):事实表；

Tbl(1):buyers-Name(1):buyers,Cat(1):维度表,join(1):order join buyers on buyers.id＝order.buyer_id；

在步骤S5中将将每类中的查询模式进行合并，得到对应的模式关系树，如下合并过程就是取并集：

列信息：

Col(0):sellers.seller_name-name(0):seller_name,tbl(0):sellers,Cat(0):维度,Score(0):基于出现次数1、使用用途(group by)计算；

Col(1):order.location-name(1):location,tbl(1):order,Cat(1):维度,Score(1):基于出现次数1、使用用途(group by)计算；

Col(2):order.price-name(2):price,tbl(2):order,Cat(2):度量,Score(2):基于出现次数1、使用用途(度量)计算；

Col(3):order.time-name(3):time,tbl(3):order,Cat(3):维度,Score(3):基于出现次数1、使用用途(filter)计算；

Col(4):buyers.buyer_name-name(4):buyer_name,tbl(4):buyers,Cat(4):维度,Score(4):基于出现次数1、使用用途(group by)计算；

表信息：

Tbl(0):order-Name(0):order,Cat(0):事实表

Tbl(2):buyers-Name(2):buyers,Cat(2):维度表,join(2):order join buyers on buyers.id＝order.buyer_id。

最后，在步骤S6中上一步对查询模式进行了分类，并生成了模式关系树。每一个模式关系树会在该步骤生成一个数据模型。

从模式关系树到数据模型的过程主要是数据转换，即模式关系树中的表信息(如事实表、维度表、JOIN等)直接转换为数据模型中的表信息；同理，即模式关系树中的列信息(维度、度量、计算列等)直接转换为数据模型中的列信息。因此一组数据模型创建成功后，这一组数据模型就能够共同支持输入的一组SQL查询，以及这些SQL背后的业务分析需求。

可选地，在另一实施例2中所述列信息是指所述SQL查询语句中使用的所有列，其中每列中包括：该列的列名、该列所在的表、该列的类型和该列出现的次数。

可以理解的是，在本实施例2中所述SQL查询语句中使用的所有列的列信息：记为Col(i)，包含上下文中用到的所有列。对于每一列保存如下记录：Name(i)代表这一列的列名；Tab(i)代表这一列所在的表；Cat(i)代表这一列的类型，如维度、度量、计算列等；Score(i)代表根据这一列出现次数、用途等计算的评分。表信息：记为Tab(j)，包含上下文中用到的所有表。对于每个表保存如下记录：Name(j)代表这个表的表名；Cat(j)代表这个表的类型，如事实表、维度表等；Join(j)代表这个表和事实表的JOIN关联信息，包括JOIN类型、JOIN条件。

可选地，在另一实施例3中所述S4中对所述至少N组查询模式进行分类包括：

可以理解的是，在本实施例3中由于一个数据模型需要服务于多个查询，因此需要对查询模式进行分类，以期望每一类的查询模式能共同生成一个支持这些查询的数据模型。一般查询模式分类包括多种规则，其中静态规则：包含一系列互斥规则，即符合某些条件的两个模式不可分为一类。主要包括:

对两个查询模式中相同的表计算差异度Diff(i,j)，如果表的差异度大于设定阈值，则两个查询模式不可分为一类；

对两个查询模式中相同的列计算差异度Diff(i,j)，如果列的差异度大于设定阈值，则两个查询模式不可分为一类。

在进行差异判断后，采用统计规则和预设学习规则对所述至少N组查询模式进行聚类。

可选地，在另一实施例4中所述S42中采用统计规则和预设学习规则对所述至少N组查询模式进行聚类包括：

可以理解的是，在上述实施例3中经过静态规则的判断后，基于查询模式的所有列信息和表信息计算特征向量，比如：

X(i)＝(col1,col2,col3,…colN,tab1,tab2,…,tabM)，其中每一个colX代表Col(X)列的评分Score(X)，每一个tabY代表Tab(Y)表的评分Score(Y)。然后使用无监督机器学习中的聚类算法对这些特征向量进行聚类，最终把所有的查询模式分为了若干类。

可选地，在另一实施例5中所述预设学习规则是指在聚类后，判断聚类结果是否符合预设标准，若不符合，则采用有监督机器学习算法对聚类结果进行调整，并记录调整后的聚类结果。

可以理解的是，在本实施例5中学习规则：“静态规则”和“统计规则”生成的是建议结果，用户可以在得到分类结果后进行手动调整或修正；例如，某些查询模式经过“静态规则”和“统计规则”之后被判断可以分为一类，但用户从业务等角度出发手动修改为不可分为一类。“学习规则”会保存所有经过用户确认过之后的最终分类结果，并使用有监督机器学习训练合适的分类模型，对一组模式是否可以分为一类进行预测，并基于此预测对聚类结果进行调整。

可选地，在另一实施例6中所述S5中将每类中的查询模式进行合并，得到对应的模式关系树包括：

可以理解的是，在本实施例6中在把所有的查询模式分为若干类之后，需要对每一类的多个查询模式进行合并，合并的规则是：

对两个模式中相同的表计算差异度Diff(i,j)，如果差异度小于设定阈值，则表示这两个表对应同一张数据表，可以进行合并，并且合并后的Cat(m)由一个选择函数FuncSelect()确定，

即Cat(j)＝FuncSelect(Cat(i),Cat(j))；合并后的Score(m)＝Score(i)+Score(j)。

对两个模式中相同的列计算差异度Diff(i,j)，如果差异度小于设定阈值，则表示这两个列对应同一张数据表上的同一列，可以进行合并，并且合并后的Cat(m)由一个选择函数FuncSelect()确定，

即Cat(j)＝FuncSelect(Cat(i),Cat(j))；合并后的Score(m)＝Score(i)+Score(j)..

最终，每一类的查询模式经过合并后所形成的结构包含一组表及其JOIN关系树，还定义了每个表上被选择的列，这样的结构被称为一个模式关系树。

可选地，在另一实施例7中所述S6中将所述模式关系树中转换成对应的数据模型包括：

可选地，在另一实施例8中所述将所述模式关系树中的列信息转换成对应的所述数据模型的列信息还包括：

PartScore(i)＝PartFunc(Score(i),Stats(i))，其中PartFunc()是评分函数，Score(i)是每组查询模式上第(i)列评分，Stats(i)是第(i)列的特征统计值(就是数据特征的统计值)，当第(i)列分区评分PartScore(i)超过预定评分阈值，则将第(i)列设置为分区列。

可以理解的是，在本实施例8中是在上述的实施例7进行的另一实施例方案。

如图2所示，本发明实施例9还涉及一种分类器，该分类器包括：静态规则分类模块、统计规则和预设学习规则分类模块；

所述静态规则分类模块，用于采用静态规则对至少N组查询模式进行差异判断，其中，所述静态规则是指计算任意两组查询模式中相同的表的差异度，判断所述表的差异度是否大于第一预设阈值，若大于，则两组查询模式不可分为一类；

可以理解的是，在本实施例9中使用分类器将多种查询模式进行分类，查询模式分类包含三种规则：先静态规则：包含一系列互斥规则，即符合某些条件的两个模式不可分为一类。主要包括:对两个模式中相同的表计算差异度Diff(i,j)，如果差异度大于设定阈值，则两个模式不可分为一类；

对两个查询模式中相同的列计算差异度Diff(i,j)，如果差异度大于设定阈值，则两个查询模式不可分为一类；

统计规则：基于查询模式的所有列信息和表信息计算特征向量X(i)＝(col1,col2,col3,…colN,tab1,tab2,…,tabM)，其中每一个colX代表Col(X)列的评分Score(X)，每一个tabY代表Tab(Y)表的评分Score(Y)。然后使用无监督机器学习中的聚类算法对这些特征向量进行聚类，最终把所有的查询模式分为了若干类。

学习规则：“静态规则”和“统计规则”生成的是建议结果，用户可以在得到分类结果后进行手动调整或修正；例如，某些查询模式经过“静态规则”和“统计规则”之后被判断可以分为一类，但用户从业务等角度出发手动修改为不可分为一类。“学习规则”会保存所有经过用户确认过之后的最终分类结果，并使用有监督机器学习训练合适的分类模型，对一组模式是否可以分为一类进行预测，并基于此预测对聚类结果进行调整。

在把所有的查询模式分为若干类之后，分类器需要对每一类的多个查询模式进行合并，合并的规则是：

对两个模式中相同的表计算差异度Diff(i,j)，如果差异度小于设定阈值，则表示这两个表对应同一张数据表，可以进行合并，并且在合并后的Cat(m)由一个选择函数FuncSelect()确定，即Cat(j)＝FuncSelect(Cat(i),Cat(j))；合并后的Score(m)＝Score(i)+Score(j)。

对两个模式中相同的列计算差异度Diff(i,j)，如果差异度小于设定阈值，则表示这两个列对应同一张数据表上的同一列，可以进行合并，并且在合并后的Cat(m)由一个选择函数FuncSelect()确定，即Cat(j)＝FuncSelect(Cat(i),Cat(j))；合并后的Score(m)＝Score(i)+Score(j)..

最终，每一类的查询模式经过合并后所形成的结构包含一组表及其JOIN关系树，还定义了每个表上被选择的列，这样的结构被称为一个模式关系树

在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种OLAP数据模型自动建模的方法，其特征在于,该方法包括：

S1，获取SQL查询语句；

S2，对所述SQL查询语句进行解析，根据解析结果判断所述SQL查询语句是否存在语法或者词法错误；

S3，若不存在，则根据所述SQL查询语句使用到的与源数据相关的列信息和表信息，对所述SQL查询语句进行查询结构抽取，得到至少N组查询模式，其中N为大于等于1的自然数；

S4，对所述至少N组查询模式进行分类；

S5，将每类中的查询模式进行合并，得到对应的模式关系树；

S6，将所述模式关系树转换成对应的数据模型。
根据权利要求1所述的方法，其特征在于，所述列信息是指所述SQL查询语句中使用的所有列，其中每列中包括：该列的列名、该列所在的表、该列的类型和该列出现的次数。

所述表信息是指所述SQL查询语句中使用的所有表，其中每表中包括：该表的表名、该表的类型、该表和事实表的关联信息。
根据权利要求2所述的方法，其特征在于，所述S4中对所述至少N组查询模式进行分类包括：

S41，采用静态规则对所述至少N组查询模式中任意两组查询模式进行差异判断，其中，所述静态规则是指计算任意两组查询模式中相同的表的差异度，判断所述表的差异度是否大于第一预设阈值，若大于，则两组查询模式不可分为一类；且在计算完表的差异度后，计算任意两组查询模式中相同的列的差异度，判断所述列的差异度是否大于所述第一预设阈值，若大于则两组查询模式不可分为一类；

S42，在进行差异判断后，采用统计规则和预设学习规则对所述至少N 组查询模式进行聚类。
根据权利要求3所述的方法，其特征在于，所述S42中采用统计规则和预设学习规则对所述至少N组查询模式进行聚类包括：

S421，根据每组查询模式中使用的列信息和表信息，计算每组查询模式的特征向量；

S422，根据无监督机器学习中的聚类算法和所述预设学习规则对所有的所述特征向量进行聚类。
根据权利要求4所述的方法，其特征在于，所述预设学习规则是指在聚类后，判断聚类结果是否符合预设标准，若不符合，则采用有监督机器学习算法对聚类结果进行调整，并记录调整后的聚类结果。
根据权利要求3或4所述的方法，其特征在于，所述S5中将每类中的查询模式进行合并，得到对应的模式关系树包括：

计算每类中任意两组查询模式中相同的表的差异度，判断所述表的差异度是否小于第二预设阈值，若小于，则将两组查询模式合并，得到对应的模式关系树；

且在计算完每类中表的差异度后，计算每类中任意两组查询模式中相同的列的差异度，判断所述列的差异度是否小于所述第二预设阈值，若小于，则将两组查询模式合并，得到对应的模式关系树。
根据权利要求3或4所述的方法，其特征在于，所述S6中将所述模式关系树中转换成对应的数据模型包括：

将所述模式关系树中的表信息转换成对应的所述数据模型的表信息；

将所述模式关系树中的列信息转换成对应的所述数据模型的列信息。
根据权利要求7所述的方法，其特征在于，所述将所述模式关系树中的列信息转换成对应的所述数据模型的列信息还包括：

对所述模式关系树中的列进行分区评分，确定所述数据模型的分区列，其中对所述模式关系树中的列进行分区评分的计算公式为：

PartScore(i)＝PartFunc(Score(i),Stats(i))，其中PartFunc()是评分函数，Score(i)是每组查询模式上第(i)列评分，Stats(i)是第(i)列的特征统计值，当第(i)列分区评分PartScore(i)超过预定评分阈值，则将第(i)列设置为分区列。
一种分类器，其特征在于，该分类器包括：静态规则分类模块、统计规则和预设学习规则分类模块；

所述静态规则分类模块，用于采用静态规则对至少N组查询模式进行差异判断，其中，所述静态规则是指计算任意两组查询模式中相同的表的差异度，判断所述表的差异度是否大于第一预设阈值，若大于，则两组查询模式不可分为一类，其中N为大于等于1的自然数；

且在计算完表的差异度后，计算任意两组查询模式中相同的列的差异度，判断所述列的差异度是否大于所述第一预设阈值，若大于则两组查询模式不可分为一类；

所述统计规则和预设学习规则分类模块，用于在进行差异判断后，采用统计规则和预设学习规则对所述至少N组查询模式进行聚类。
根据权利要求9所述的分类器，其特征在于，所述预设学习规则是指在聚类后，判断聚类结果是否符合预设标准，若不符合，则采用有监督机器学习算法对聚类结果进行调整，并记录调整后的聚类结果。