WO2023097521A1

WO2023097521A1 - 数据模型生成的方法和装置

Info

Publication number: WO2023097521A1
Application number: PCT/CN2021/134650
Authority: WO
Inventors: 叶现一
Original assignee: 西门子股份公司; 西门子（中国）有限公司
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2023-06-08
Also published as: CN118556232A; EP4432117A1

Abstract

本申请实施例提供了一种数据模型生成的方法和装置，能够以较高的准确度和效率生成与目标业务紧密相关的数据模型，使得企业可以基于生成的数据模型进行自主研发。该数据模型生成的方法包括：获取用户端向数据库发送的数据访问语句，所述数据访问语句用于访问所述数据库中目标业务的数据；根据所述数据访问语句，获取所述目标业务调用的所述数据库中的至少一个目标表中每一个目标表的标识和所述目标表中目标列的标识；根据所述目标表的标识和所述数据库中表的组织和结构，确定所述目标列的数据类型；根据所述目标表的标识、所述目标列的标识和所述数据类型，确定所述数据库的数据模型。

Description

数据模型生成的方法和装置

技术领域

本申请涉及数据库技术领域，并且更为具体地，涉及一种数据模型生成的方法和装置。

背景技术

目前，大中型企业中可能会有大量的应用系统，且应用系统中数据库的表的分布和结构比较复杂。由于这些应用系统通常是由第三方公司实施或开发的，因此，企业并不知道这些应用系统上的业务模块使用的是底层数据库中的哪些表和哪些列，这给企业未来自主研发带来了很大的困难。

发明内容

本申请提供了一种数据模型生成的方法和装置，能够以较高的准确度和效率生成与目标业务紧密相关的数据模型，使得企业可以基于生成的数据模型进行自主研发。

第一方面，提供了一种数据模型生成的方法，包括：获取用户端向数据库发送的数据访问语句，所述数据访问语句用于访问所述数据库中目标业务的数据；根据所述数据访问语句，获取所述目标业务调用的所述数据库中的至少一个目标表中每一个目标表的标识和所述目标表中目标列的标识；根据所述目标表的标识和所述数据库中表的组织和结构，确定所述目标列的数据类型；根据所述目标表的标识、所述目标列的标识和所述数据类型，确定所述数据库的数据模型。

在用户操作应用系统(如访问目标业务的数据)时，和用户的操作有关的数据访问语句会从用户端发送到数据库。因此，上述技术方案获取到的数据访问语句与用户访问的目标业务紧密相关，基于该数据访问语句生成的数据模型同样与用户访问的目标业务紧密相关，能够有效避免生成大量的无效数据模型的问题。进一步地，上述技术方案不依赖于人工经验，有效提高了数据模型生成的效率和准确度。

在一些可能的实现方式中，所述获取用户端向数据库发送的数据访问语句，包括：对基于所述目标业务生成的多个信息进行过滤，以得到所述数据访问语句，其中，所述多个信息包括所述数据访问语句。

基于目标业务可以生成多个信息，该多个信息中除了包括数据访问语句之外还包括其他信息。上述技术方案对该多个信息进行过滤，以滤除多个信息中除数据访问语句之外的信息，这样，剩下的信息都是与目标业务紧密相关的数据访问语句，从而能够进一步避免生成大量的无效数据模型的问题。

在一些可能的实现方式中，所述根据所述数据访问语句，获取所述目标业务调用的所述数据库中的至少一个目标表中每一个目标表的标识和所述目标表中目标列的标识，包括：当所述数据访问语句为查询语句时，提取所述查询语句中的从关键字与条件关键字之间的第一字符串，所述第一字符串为所述目标表的标识；提取所述查询语句中的选择关键字与所述从关键字之间的第二字符串，所述第二字符串为所述目标列的标识。

在一些可能的实现方式中，当所述查询语句为连接查询语句且所述至少一个目标表包括多个目标表时，所述方法还包括：根据所述连接查询语句，获取所述多个目标表在所述目标业务上的关系；所述根据所述目标表的标识、所述目标列的标识和所述数据类型，确定所述数据库的数据模型，包括：根据所述目标表的标识、所述目标列的标识、所述多个目标表在所述目标业务上的关系以及所述数据类型，确定所述数据模型。

上述技术方案，利用数据访问语句中的结构信息，分析出表与表之间潜在的关系，并根据该关系生成数据模型。由于上述技术方案不依赖于数据库中schema中的参考外键，因此避免了数据库中schema无参考外键而造成生成的数据模型不准确甚至无法生成数据模型关系的弊端，使得进一步提高了生成的数据模型的准确度。

在一些可能的实现方式中，所述根据所述连接查询语句，获取所述多个目标表在所述目标业务上的关系，包括：从所述连接查询语句中的所述条件关键字之后的第三字符串中，获取所述多个目标表在所述目标业务上的关系。

在一些可能的实现方式中，所述根据所述数据访问语句，获取所述目标业务调用的所述数据库中的至少一个目标表中每一个目标表的标识和所述目标表中目标列的标识，包括：当所述数据访问语句为插入语句时，提取所述插入语句中的插入关键字与值关键字之间的第四字符串，所述第四字符串为所述目标表的标识；提取所述插入语句中所述值关键字之后的括号内的第五字符串，所述第五字符串为所述目标列的标识。

在一些可能的实现方式中，所述方法还包括：对所述目标表的标识和所述目标列的标识进行聚合；所述根据所述目标表的标识、所述目标列的标识和所述数据类型，确定所述数据库的数据模型，包括：基于聚合后的所述目标表的标识和所述目标列的标识，以及基于所述数据类型，确定所述数据模型。

上述技术方案，在生成数据模型之前，对目标表的标识和目标列的标识进行聚合，与目标表的标识和目标列的标识处于离散状态相比，方便后续操作，有利于提高数据模型生成的效率。

第二方面，提供了一种数据模型生成的装置，包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行上述第一方面或其各实现方式中的方法。

第三方面，提供了一种计算机可读存储介质，存储用于设备执行的程序代码，所述程序代码包括用于执行上述第一方面或其各实现方式中的方法中的步骤的指令。

第四方面，提供了一种数据模型生成的装置，包括：预处理器，用于获取用户端向数据库发送的数据访问语句，所述数据访问语句用于访问所述数据库中目标业务的数据；分析器，用于根据所述数据访问语句，获取所述目标业务调用的所述数据库中的至少一个目标表中每一个目标表的标识和所述目标表中目标列的标识；模型生成器，用于根据所述目标表的标识和所述数据库中表的组织和结构，确定所述目标列的数据类型；所述模型生成器还用于，根据所述目标表的标识、所述目标列的标识和所述数据类型，确定所述数据库的数据模型。

第五方面，提供了一种数据模型生成的装置，包括用于执行上述第一方面或其各实现方式中的方法的各单元。

附图说明

图1是本申请实施例的一种系统架构的示意图。

图2是本申请实施例的数据模型生成的方法的示意性图。

图3是本申请实施例的一种数据模型生成的方法的流程图。

图4是本申请实施例的另一种数据模型生成的方法的流程图。

图5是本申请实施例的一种数据模型生成的装置的示意性框图。

图6是本申请实施例的另一种数据模型生成的装置的示意性框图。

图7是本申请实施例的再一种数据模型生成的装置的示意性框图。

附图标记列表：

110，用户端；

120，数据库；

130，第三方设备；

200，本申请实施例的数据模型生成的方法；

210，获取用户端向数据库发送的数据访问语句；

220，根据数据访问语句，获取目标业务调用的数据库中的至少一个目标表中每一个目标表的标识和每一个目标表中目标列的标识；

230，根据目标表的标识和数据库中表的组织和结构，确定目标列的数据类型；

240，根据目标表的标识、目标列的标识和数据类型，确定数据模型；

Pr，预处理器；

An，分析器；

Bu，模型生成器；

Re，逐行解析多行信息；

Fi，过滤；

Di，将SQL语句发送给对应的分析器；

Tn，获取目标表的表名；

Cn，获取目标列的列名；

Dt，获取目标列的数据类型；

Ge，生成数据模型；

Er，获取关系；

As，聚合；

500，数据模型生成的装置；

510，预处理器；

520，分析器；

530，模型生成器；

600，据模型生成的装置；

610，获取单元；

620，确定单元；

700，数据模型生成的装置；

701，存储器；

702，处理器；

703，通信接口；

704，总线。

具体实施方式

下面结合附图，对本申请实施例中的技术方案进行描述。应理解，本说明书中的具体的例子只是为了帮助本领域技术人员更好地理解本申请实施例，而非限制本申请实施例的范围。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，本说明书中描述的各种实施方式，既可以单独实施，也可以组合实施，本申请实施例对此不作限定。

除非另有说明，本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本申请的范围。

通常，大中型企业中可能会有大量的应用系统，且应用系统中数据库的表的分布和结构比较复杂。由于这些应用系统通常是由第三方公司实施或开发的，即使第三方公司会向企业提供关于该应用系统的设计文档，但有时候会存在设计文档的内容不全面或设计文档中的说明书和实际落地的应用系统不一致的问题。因此，企业并不知道这些应用系统上的业务模块使用的是底层数据库中的哪些表和哪些列，这给企业未来自主研发带来了很大的困难。比如，企业要基于现有的应用系统的数据对应用系统进行信息化升级改造或者进行业务拓展。

目前业内普遍采用两种方法解决上述问题，第一种为基于人工解析的方法。具体而言，该方法主要通过人工来梳理各个应用系统在处理各种业务时的交互表单上的列(或称为字段)和数据，找到数据库中与该列和数据相匹配的表的列和数据。然后，再将这些信息进行汇总整理，最终分析出应用系统可能调用的数据库的表和对应的列。比如，该应用系统为财务系统，用户需要查询一年中每个季度的销售额，在用户查询后，该财务系统输出的数据为“A”、“B”、“C”和“D”，则用户可以在数据库中反向地查找“A”、“B”、“C”和“D”，或者，在“A”、“B”、“C”和“D”四个数据中确定几个具有特征的数据，如“C”和“D”，然后，在数据库中查找“C”和“D”，并最终分析出该财务系统可能调用的数据库的表和对应的列。

该方法主要依赖于人工经验，因此效率和准确度相对来说较低，特别是面对数据库包括大量表的情况下。此外，由于应用系统表单提交后的计算逻辑可能涉及众多表或者中间表结构的聚合查询和处理，这些查询和处理无法通过视觉从用户界面(user interface，UI)上直观的看到，因此，人工解析的方法可能会忽略掉很多潜在的数据模型，导致获取到的数据模型不太准确。

第二种方法为基于数据库中表的组织和结构(Schema)的分析法。具体而言，该方法通过调用应用系统对应数据库的相关接口，来获取目前应用系统中所有的数据库的表结构和关系，最后反向生成数据模型。

由于该方法无法动态感知针对某个业务数据库中的哪些表被访问过，因此，无法帮助用户有效梳理出目前应用系统用到的数据模型。例如，数据库中有1000张表，在用户访问某个业务的数据时，应用系统可能仅使用了其中的100张表，但是由于该方法无法获知1000张表中的哪100张表被使用，所以只能对所有的1000张表进行反向数据模型生成，使得花费的时间较长且效率低下。此外，由于数据库中可能存在非人机交互产生的数据或与用户当前访问的业务无关的数据，使得可能出现生成的数据模型脱离了业务，与用户当前访问的业务无关的问题。

进一步地，该方法生成的数据模型中的关系，高度依赖数据库的表的参考外键。如果表中没有此类信息，则无法生成数据模型的关系。通过大量的实际生产环境证明，越庞大的企业系统，越不包含此类强参考外键关系。所以该方法在实际生产环境下的可行性不高。

鉴于此，本申请实施例提出了一种数据模型生成的方法，能够以较高的准确度和效率生成与目标业务紧密相关的数据模型，使得企业可以基于生成的数据模型进行自主研发。

图1是本申请实施例的一种系统架构的示意图。

图1所示的系统架构包括用户端110、数据库120和第三方设备130。用户端110可以为用于提供数据查询服务管理的接口。其中，用户端110也可以称为客户端或其他名称。

数据库120例如可以为mysql、oracle、sqlserver、sqlite等。用户端110和数据库120之间可进行信息传输，例如，在用户需要查询数据时，比如查询一年中每个季度的销售额时，可在用户端110输入查询信息，用户端110接收到该查询信息后，将该查询信息转化为数据库语言，如结构化查询语言(structured query language，SQL)，并将数据库语言发送给数据库120。之后，数据库120基于接收到的数据库语言查询到一年中每个季度的销售额，并向用户端110发送查询到的结果。之后，用户端110可向用户输出查询到的结果，从而用户能够获取到一年中每个季度的销售额。

第三方设备130可以与用户端110和数据库120通信连接，以获取到用户端110和数据库120之间传输的信息，并基于该信息执行一些操作，如生成数据库120的数据模型。具体地，第三方130可以包括通信接口，以实现与其他设备(如用户端110)的通信连接。该通信连接可以是有线方式，也可以是无线方式。第三方设备130可以在信息传输的过程中获取到该信息；或者，若用户端110向数据库120发送信息，则第三方设备130可以在信息发送给数据库120之后，从数据库120中获取到该信息。

示例性地，第三方设备130可以为服务器。其中，服务器为提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

应理解，图1仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。

下面结合图2，对本申请实施例的数据模型生成的方法的主要过程进行介绍。

图2示出了本申请实施例的数据模型生成的方法200的示意性流程图。方法200可以由除用户端和数据库之外的第三方设备执行，如图1所示的第三方设备130。如图2所示，方法200可以包括以下内容中的至少部分内容。

步骤210：获取用户端向数据库发送的数据访问语句，该数据访问语句用于访问数据库中目标业务的数据。

步骤220：根据数据访问语句，获取目标业务调用的数据库中的至少一个目标表中每一个目标表的标识和每一个目标表中目标列的标识。

步骤230：根据目标表的标识和数据库的schema，确定目标列的数据类型。

步骤240：根据目标表的标识、目标列的标识和数据类型，确定数据库的数据模型。

在用户操作应用系统(如访问目标业务的数据)时，和用户的操作有关的数据访问语句会从用户端发送到数据库。因此，本申请实施例获取到的数据访问语句与用户访问的目标业务紧密相关，基于该数据访问语句生成的数据模型同样与用户访问的目标业务紧密相关，能够有效避免生成大量的无效数据模型的问题。进一步地，上述技术方案不依赖于人工经验，有效提高了数据模型生成的效率和准确度。

在本申请实施例中，第三方设备可以包括预处理器、分析器和模型生成器。示例性地，步骤210可以由预处理器执行，步骤220可以由分析器执行，步骤230和步骤240可以由模型生成器执行。当然，该第三方设备也可以包括其他器件，如数据类型处理器。此时，步骤210可以由预处理器执行，步骤220可以由分析器执行，步骤230可以由数据类型处理器执行，步骤240可以由模型生成器执行。为了方便描述，下文将以步骤210由预处理器执行，步骤220由分析器执行，步骤230和步骤240由模型生成器执行为例描述本申请实施例的方法。

作为一种示例，预处理器可以通过数据库提供的插件，如命令行工具，获取到数据访问语句。

作为另一种示例，预处理器可以启动某个选项，之后可以监听到用户端发送给数据库的数据访问语句，从而能够获取到该数据访问语句。

可选地，预处理器可以从数据库中获取到该数据访问语句，或者，也可以在数据访问语句从用户端向数据库传输的过程中获取到该数据访问语句。

可选地，数据访问语句可以包括但不限于SQL语句。本申请实施例以SQL语句为示例进行说明。SQL语句可以包括数据定义语言(data definition language，DDL)和数据操纵语言(data manipulation language，DML)，本申请实施例的SQL语句为DML语句。DML语句可以包括插入(insert)语句、删除(delete)语句、修改(update)语句和查询(select)语句。考虑到delete语句和update语句的颗粒度太小，比如通常为删除一个列或修改一个列，导致基于delete语句和update语句可能无法分析出数据模型。因此，本申请实施例的SQL语句为select语句或insert语句。

若SQL语句为预处理器从数据库中获取到的，考虑到在数据库接收到用户端发送的SQL语句后，数据库可以基于SQL语句生成上下文信息，如生成时间戳、会话ID或者进程ID等。也就是说，数据库可以基于目标业务生成多个信息，该多个信息除了多个SQL语句之外，还包括其他信息。并且，即使是SQL语句，也有可能包括delete语句和update语句。

或者，若SQL语句为从用户端向数据库传输的过程中获取到的，那么除了SQL语句之外，用户端还可能向数据库传输其他信息。

因此，步骤210具体可以包括：预处理器对基于目标业务生成的多个信息进行过滤，滤除该多个信息中除SQL语句之外的其他信息以及滤除SQL语句中的delete语句和update语句，以得到select语句或insert语句。

该技术方案对该多个信息进行过滤，以滤除多个信息中除数据访问语句之外的信息，这样，剩下的信息都是与目标业务紧密相关的数据访问语句，从而能够进一步避免生成大量的无效数据模型的问题。

预处理器可能同时接收多行信息，因此，可选地，如图3和图4所示，预处理器还可以对接收到的多行信息进行逐行解析，之后，再对每行信息进行过滤，以得到SQL语句。

可选地，在本申请实施例中，目标表的标识可以为目标表的表名或目标表的ID或目标表在数据库中所有表中的编号。与目标表的标识类似，目标列的标识可以为目标列的列名或目标列的ID或目标列在目标表中的编号。下文均以目标表的标识为表名，目标列的标识为列名为例进行说明。

针对select语句和insert语句，分析器获取目标表的表名和目标列的列名的方式不同。

对于select语句，具体而言，分析器可以提取select语句中的从(from)关键字与条件关键字之间的第一字符串，该第一字符串为目标表的表名。例如，select语句为select col1,col2,col3 from table_1where…，该select语句中from关键字与条件关键字之间的字符串为table_1，则提取出的表名为table_1。再例如，select语句为select col1,col2,col3 from table_1 left join table_2 on…，该select语句中from关键字与条件关键字之间的字符串为table_1和table_2，则提取出的表名为table_1和table_2。

若分析器提取出多个第一字符串，则该多个第一字符串可以通过逗号分隔，即可获得一组表名，例如上文中的[table_1,table_2]。

另外，分析器可以提取select语句中的选择(select)关键字和from关键字之间的第二字符串，该第二字符串为目标列的列名。若列名有多个，则多个列名同样可以通过逗号分隔。例如，select语句为select col1,col2,col3 from table_1 where…该select语句中select关键字和from关键字之间的字符串为col1,col2,col3，则目标列的列名为[col1,col2,col3]。

对于insert语句，具体而言，分析器可以提取insert语句中的插入(insert into)关键字和值(values)关键字之间的第四字符串，该第四字符串为目标表的表名。另外，分析器可以提取insert语句中的values关键字后面括号内的第五字符串，该第五字符串为目标列的列名。

进一步地，若select语句为连接(join)查询语句，如上文中的select col1,col2,col3 from table_1 left join table_2 on…语句，且目标表包括多个目标表，则如图4所示，方法 200还可以包括：分析器根据连接查询语句，获取多个目标表在目标业务上的关系。换言之，分析器可以根据连接查询语句，获取到多个目标表之间在目标业务上是通过哪些列关联在一起的。

具体而言，分析器可以从join查询语句中条件关键字之后的第三字符串中，获取多个目标表在目标业务上的关系。比如，join查询语句为select col1,col2,col3 from table_1 left join table_2 on table_1.col1＝table_2.col2，可以看出，table_1和table_2之间有关系，且table_1和table_2之间通过列名为col1和col2的列关联在一起，即table_1中列名为col1的列的值和table_2中列名为col2的列的值相互参考，且table_2中列名为col2的列的值来自table_1中列名为col1的列中的值。

在确定table_1和table_2的关系后，可以将table1,col1,table2,col2串接在一起形成一个四元组[table1,col1,table2,col2]。该四元组可以表示table_1和table_2之间通过table_1中列名为col1的列和table_2中列名为col2的列关联在一起。

如果join查询语句包括多个join连用的情况，则可以分别提取条件关键字之后的第三字符串，得到一个多维四元数组。例如：

[[table1,col1,table2,col2],

[table2,col2,table3,col3],

[…,…,…,…],

[tableN-1,colN-1,tableN,colN]]

在这种情况下，分析器除了可以根据目标表的表名、目标列的列名和数据类型确定数据模型之外，还可以根据多个表在目标业务上的关系确定数据模型。

应理解，在本申请实施例中，“第一”、“第二”、“第三”和“第四”仅仅为了区分不同的对象，但并不对本申请实施例的范围构成限制。

还应理解，本申请实施例中的具体的例子只是为了帮助本领域技术人员更好地理解本申请实施例，而非限制本申请实施例的范围。

通过上述描述可以看出，针对select语句和insert语句，分析器获取目标表的表名和目标列的列名的方式不同。因此，在一种实现方式中，分析器可以为两个，其中一个分析器(为了方便描述，称为第一分析器)可以获取select语句中目标表的表名、目标列的列名和多个目标表在目标业务上的关系，另一个分析器(称为第二分析器)可以获取insert语句中目标表的表名和目标列的列名。

例如，如图3和图4所示，图3中的分析器为第二分析器，第二分析器可以获取表名、列名；图4中的分析器为第一分析器，第一分析器可以获取表名、列名和表与表之间的关系。

在该实现方式中，在步骤220之前，预处理器可以确定SQL语句的类型，之后再将SQL语句发送给对应的分析器。即将select语句发送给图4中的第一分析器，将insert语句发送给图3中的第二分析器。

在另一种实现方式中，分析器可以为三个，其中一个分析器可以获取连接查询语句的表名和列名，另一个分析器可以获取select语句中除连接查询语句的其他语句的表名和列名，剩下的一个分析器可以获取insert语句的表名和列名。

在另一种实现方式中，分析器可以为一个，例如，为图4中的分析器。该分析器可以执行获取SQL语句中目标表的表名、获取目标列的列名以及获取多个目标表在目标业务上的关系共三个步骤。若SQL语句为连接查询语句，则该分析器可以依次执行该三个步骤；若SQL语句为其他语句(如insert语句)，则该分析器可以不执行获取多个目标表在目标业务上的关系这个步骤，仅执行前两个步骤。

为了方便后续模型生成器处理，可选地，如图4所示，方法200还可以包括：对目标表的表名和目标列的列名进行聚合，或者，对目标表的表名、目标列的列名以及多个目标表在目标业务上的关系进行聚合。

聚合后的表名和列名可以称为结构化的结果集，或者，聚合后的表名、列名和关系可以称为结构化的结果集。其中，结构化的结果集可以理解用非离散的方式来描述一个对象。比如，在描述超市有什么物品时，可以描述为水果有苹果、香蕉等，日用品有洗衣液、毛巾等，蔬菜有土豆、西红柿等，而不是描述为超市有香蕉、洗衣液、土豆等。

示例性地，假设目标表有两个，表名分别为table_X和table_Y，其中，table_X中目标列的列名分别为col1、col2和colN，table_Y中目标列的列名分别为col1、col2和colN，且table_X和table_Y通过table_X中列名为col1的列和table_Y中列名为col2的列关联在一起。在将目标表的表名、目标列的列名以及两个目标表的关系聚合后可以得到如下所示的JS对象简谱(javascript object notation，JSON)复合结构体：

在分析器确定目标列的列名后，模型生成器还需要确定目标列的数据类型。比如，目标列的数据类型是整数类型还是字符串类型等。具体而言，模型生成器可以根据目标表的表名，从数据库的schema中提取出该目标表中目标列的数据类型，从而可以得到三元组列表，例如，[[table_1,col1,datatype],[table_1,col2,datatype],[table_N,colN,datatype]]。其中，datatype表示数据类型。

在得到目标列的数据类型后，模型生成器可以基于目标表的表名、目标列的列名和数据类型，或者，基于目标表的表名、目标列的列名、多个目标表在目标业务上的关系和数据类型，确定数据库的数据模型。

可选地，目标表的表名可以作为数据模型的实体名，目标列的列名可以作为对应实体的属性名，目标列的数据类型可以作为对应实体属性的数据类型。

假设目标业务调用的目标表包括四个，表名分别为Table_X、Table_Y、Table_Z和Table_N，其中，Table_X中目标列的列名为Col_X，目标列的数据类型是Datatype_X；Table_Y中目标列的列名为Col_Y，目标列的数据类型是Datatype_Y；Table_Z中目标列的列名为Col_Z，目标列的数据类型是Datatype_Z；Table_N中目标列的列名为Col_N，目标列的数据类型是Datatype_N。则生成的数据模型可以如表1所示。

表1

进一步地，若多个目标表在目标业务上具有关系，则可以将相互关联的多个目标表的表名作为相互关联的多个实体的实体名，将相互关联的多个目标列的列名作为相互关联的多个实体的关联属性。

以表1为例进行说明。假设Table_X和Table_Y通过Table_X中列名为Col_X的列和Table_Y中列名为Col_Y的列相互关联，Table_Z和TableN通过Table_Z中列名为Col_Z 的列和Table_N中列名为Col_Z的列相互关联，则得到的多个实体之间的关系可以如表2所示。

表2

From_Entity	From_Attribute_Name	To_Entity	To_Attribute_Name
Table_X	Col_X	Table_Y	Col_Y
Table_N-1	Col_N-1	Table_N	Col_N

其中，from_tab和to_tab的value即为相互关联的两个实体的实体名。from_col和to_col即为相关关联的两个实体的关联属性。

根据insert语句以及select语句中非join查询语句最终生成的数据模型如表1所示，根据join查询语句最终生成的数据模型如表1和表2所示。

需要说明的是，如果有同名实体的存在，则分析器还可以对同名实体进行属性扩充。

可选地，方法200还可以包括：对数据模型进行持久化，以将数据模型存储到底层数据库中。

上文详细描述了本申请实施例的方法实施例，下面描述本申请实施例的装置实施例，装置实施例与方法实施例相互对应，因此未详细描述的部分可参见前面各方法实施例，装置可以实现上述方法中任意可能实现的方式。

图5示出了本申请一个实施例的数据模型生成的装置500的示意性框图。该数据模型生成的装置500可以执行上述本申请实施例的数据模型生成的方法200，该数据模型生成的装置500可以为前述方法中的第三方设备。

如图5所示，该数据模型生成的装置500可以包括：

预处理器510，用于获取用户端向数据库发送的数据访问语句，所述数据访问语句用于访问所述数据库中目标业务的数据。

分析器520，用于根据所述数据访问语句，获取所述目标业务调用的所述数据库中的至少一个目标表中每一个目标表的标识和所述目标表中目标列的标识。

模型生成器530，用于根据所述目标表的标识和所述数据库中表的组织和结构，确定所述目标列的数据类型。

所述模型生成器530还用于，根据所述目标表的标识、所述目标列的标识和所述数据类型，确定所述数据库的数据模型。

可选地，在本申请一个实施例中，所述预处理器510具体用于：对基于所述目标业务生成的多个信息进行过滤，以得到所述数据访问语句，其中，所述多个信息包括所述数据访问语句。

可选地，在本申请一个实施例中，所述分析器520具体用于：当所述数据访问语句为查询语句时，提取所述查询语句中的从关键字与条件关键字之间的第一字符串，所述第一字符串为所述目标表的标识；提取所述查询访问语句中的选择关键字与所述从关键字之间的第二字符串，所述第二字符串为所述目标列的标识。

可选地，在本申请一个实施例中，当所述查询语句为连接查询语句且所述至少一个目标表包括多个目标表时，所述分析器520具体用于：根据所述连接查询语句，获取所述多个目标表在所述目标业务上的关系；根据所述目标表的标识、所述目标列的标识、所述多个目标表在所述目标业务上的关系以及所述数据类型，确定所述数据模型。

可选地，在本申请一个实施例中，所述分析器520具体用于：从所述连接查询语句中的所述条件关键字之后的第三字符串中，获取所述多个目标表在所述目标业务上的关系。

可选地，在本申请一个实施例中，所述分析器520具体用于：当所述数据访问语句为插入语句时，提取所述插入语句中的插入关键字与值关键字之间的第四字符串，所述第四字符串为所述目标表的标识；提取所述插入语句中所述值关键字之后的括号内的第五字符串，所述第五字符串为所述目标列的标识。

可选地，在本申请一个实施例中，所述分析器520还用于：对所述目标表的标识和所述目标列的标识进行聚合；所述模型生成器530具体用于：基于聚合后的所述目标表的标识和所述目标列的标识，以及基于所述数据类型，确定所述数据模型。

应理解，预处理器510、分析器520以及模型生成器530分别可以实现法200中的预处理器、分析器和模型生成器的相应操作，为了简洁，在此不再赘述。

图6示出了本申请另一个实施例的数据模型生成的装置600的示意性框图。该数据模型生成的装置600可以执行上述本申请实施例的数据模型生成的方法200，该数据模型生成的装置600可以为前述方法中的第三方设备。

如图6所示，该数据模型生成的装置600可以包括：

获取单元610，用于获取用户端向数据库发送的数据访问语句，所述数据访问语句用于访问所述数据库中目标业务的数据。

所述获取单元610还用于，根据所述数据访问语句，获取所述目标业务调用的所述数据库中的至少一个目标表中每一个目标表的标识和所述目标表中目标列的标识。

确定单元620，用于根据所述目标表的标识和所述数据库中表的组织和结构，确定所述目标列的数据类型。

所述确定单元620还用于，根据所述目标表的标识、所述目标列的标识和所述数据类型，确定所述数据库的数据模型。

可选地，在本申请一个实施例中，所述获取单元610具体用于：对基于所述目标业务生成的多个信息进行过滤，以得到所述数据访问语句，其中，所述多个信息包括所述数据访问语句。

可选地，在本申请一个实施例中，所述获取单元610具体用于：当所述数据访问语句为查询语句时，提取所述查询语句中的从关键字与条件关键字之间的第一字符串，所述第一字符串为所述目标表的标识；提取所述查询语句中的选择关键字与所述从关键字之间的第二字符串，所述第二字符串为所述目标列的标识。

可选地，在本申请一个实施例中，当所述查询语句为连接查询语句且所述至少一个目标表包括多个目标表时，所述获取单元610具体用于：根据所述连接查询语句，获取所述多个目标表在所述目标业务上的关系；根据所述目标表的标识、所述目标列的标识、所述多个目标表在所述目标业务上的关系以及所述数据类型，确定所述数据模型。

可选地，在本申请一个实施例中，所述获取单元610具体用于：从所述连接查询语句中的所述条件关键字之后的第三字符串中，获取所述多个目标表在所述目标业务上的关系。

可选地，在本申请一个实施例中，所述获取单元610具体用于：当所述数据访问语句为插入语句时，提取所述插入语句中的插入关键字与值关键字之间的第四字符串，所述第四字符串为所述目标表的标识；提取所述插入语句中所述值关键字查询括号内的第五字符串，所述第五字符串为所述目标列的标识。

可选地，在本申请一个实施例中，所述数据模型生成的装置600还包括聚合单元，用于对所述目标表的标识和所述目标列的标识进行聚合；所述确定单元620具体用于：基于聚合后的所述目标表的标识和所述目标列的标识，以及基于所述数据类型，确定所述数据模型。

图7是本申请实施例的数据模型生成的装置700的硬件结构示意图。图7所示的数据模型生成的装置700可以为第三方设备，数据模型生成的装置700包括存储器701、处理器702、通信接口703以及总线704。其中，存储器701、处理器702、通信接口703通过总线704实现彼此之间的通信连接。

存储器701可以是只读存储器(read-only memory，ROM)，静态存储设备和随机存取存储器(random access memory，RAM)。存储器701可以存储程序，当存储器701中存储的程序被处理器702执行时，处理器702和通信接口703用于执行本申请实施例的数据模型生成的方法的各个步骤。

处理器702可以采用通用的CPU，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的装置中的单元所需执行的功能函数，或者执行本申请实施例的数据模型生成的方法。

处理器702还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请实施例的数据模型生成的方法的各个步骤可以通过处理器702中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器702还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、ASIC、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器701，处理器702读取存储器701中的信息，结合其硬件完成本申请实施例的装置中包括的单元所需执行的功能函数，或者执行本申请实施例的数据模型生成的方法。

通信接口703使用例如但不限于收发器一类的收发装置，来实现数据模型生成的装置700与其他设备或通信网络之间的通信。

总线704可包括在数据模型生成的装置700各个部件(例如，存储器701、处理器702、通信接口703)之间传送信息的通路。

应注意，尽管上述数据模型生成的装置700仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，数据模型生成的装置700还可以包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，数据模型生成的装置700还可包括实现其他附加功能函数的硬件器件。此外，本领域的技术人员应当理解，数据模型生成的装置700也可仅仅包括实现本申请实施例所必须的器件，而不必包括图7中所示的全部器件。

本申请实施例还提供了一种计算机可读存储介质，存储用于设备执行的程序代码，所述程序代码包括用于执行上述数据模型生成的方法中的步骤的指令。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述数据模型生成的方法。

上述的计算机可读存储介质可以是暂态计算机可读存储介质，也可以是非暂态计算机可读存储介质。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能函数划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”和“所述”旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。

所描述的实施例中的各方面、实施方式、实现或特征能够单独使用或以任意组合的方式使用。所描述的实施例中的各方面可由软件、硬件或软硬件的结合实现。所描述的实施例也可以由存储有计算机可读代码的计算机可读介质体现，该计算机可读代码包括可由至少一个计算装置执行的指令。所述计算机可读介质可与任何能够存储数据的数据存储装置相关联，该数据可由计算机系统读取。用于举例的计算机可读介质可以包括只读存储器、随机存取存储器、紧凑型光盘只读储存器(compact disc read-only memory，CD-ROM)、硬盘驱动器(hard disk drive，HDD)、数字视频光盘(digital video disc，DVD)、磁带以及光数据存储装置等。所述计算机可读介质还可以分布于通过网络联接的计算机系统中，这样计算机可读代码就可以分布式存储并执行。

上述技术描述可参照附图，这些附图形成了本申请的一部分，并且通过描述在附图中示出了依照所描述的实施例的实施方式。虽然这些实施例描述的足够详细以使本领域技术人员能够实现这些实施例，但这些实施例是非限制性的；这样就可以使用其它的实施例，并且在不脱离所描述的实施例的范围的情况下还可以做出变化。比如，流程图中所描述的操作顺序是非限制性的，因此在流程图中阐释并且根据流程图描述的两个或两个以上操作的顺序可以根据若干实施例进行改变。作为另一个例子，在若干实施例中，在流程图中阐释并且根据流程图描述的一个或一个以上操作是可选的，或是可删除的。另外，某些步骤或功能函数可以添加到所公开的实施例中，或两个以上的步骤顺序被置换。所有这些变化被认为包含在所公开的实施例以及权利要求中。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

一种数据模型生成的方法，其特征在于，所述方法包括：

获取(210)用户端向数据库发送的数据访问语句，所述数据访问语句用于访问所述数据库中目标业务的数据；

根据所述数据访问语句，获取(220)所述目标业务调用的所述数据库中的至少一个目标表中每一个目标表的标识和所述目标表中目标列的标识；

根据所述目标表的标识和所述数据库中表的组织和结构，确定(230)所述目标列的数据类型；

根据所述目标表的标识、所述目标列的标识和所述数据类型，确定(240)所述数据库的数据模型。
根据权利要求1所述的方法，其特征在于，所述获取(210)用户端向数据库发送的数据访问语句，包括：

对基于所述目标业务生成的多个信息进行过滤，以得到所述数据访问语句，其中，所述多个信息包括所述数据访问语句。
根据权利要求1或2所述的方法，其特征在于，所述根据所述数据访问语句，获取(220)所述目标业务调用的所述数据库中的至少一个目标表中每一个目标表的标识和所述目标表中目标列的标识，包括：

当所述数据访问语句为查询语句时，提取所述查询语句中的从关键字与条件关键字之间的第一字符串，所述第一字符串为所述目标表的标识；

提取所述查询语句中的选择关键字与所述从关键字之间的第二字符串，所述第二字符串为所述目标列的标识。
根据权利要求3所述的方法，其特征在于，当所述查询语句为连接查询语句且所述至少一个目标表包括多个目标表时，所述方法还包括：

根据所述连接查询语句，获取所述多个目标表在所述目标业务上的关系；

所述根据所述目标表的标识、所述目标列的标识和所述数据类型，确定(240)所述数据库的数据模型，包括：

根据所述目标表的标识、所述目标列的标识、所述多个目标表在所述目标业务上的关系以及所述数据类型，确定所述数据模型。
根据权利要求4所述的方法，其特征在于，所述根据所述连接查询语句，获取所述多个目标表在所述目标业务上的关系，包括：

从所述连接查询语句中的所述条件关键字之后的第三字符串中，获取所述多个目标表在所述目标业务上的关系。
根据权利要求1或2所述的方法，其特征在于，所述根据所述数据访问语句，获取(220)所述目标业务调用的所述数据库中的至少一个目标表中每一个目标表的标识和所述目标表中目标列的标识，包括：

当所述数据访问语句为插入语句时，提取所述插入语句中的插入关键字与值关键字之间的第四字符串，所述第四字符串为所述目标表的标识；

提取所述插入语句中所述值关键字之后的括号内的第五字符串，所述第五字符串为所述目标列的标识。
根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：

对所述目标表的标识和所述目标列的标识进行聚合；

所述根据所述目标表的标识、所述目标列的标识和所述数据类型，确定(240)所述数据库的数据模型，包括：

基于聚合后的所述目标表的标识和所述目标列的标识，以及基于所述数据类型，确定所述数据模型。
一种数据模型生成的装置(700)，其特征在于，包括：

存储器(701)，用于存储程序；

处理器(702)，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于获取用户端向数据库发送的数据访问语句，所述数据访问语句用于访问所述数据库中目标业务的数据；

所述处理器(702)还用于根据所述数据访问语句，获取所述目标业务调用的所述数据库中的至少一个目标表中每一个目标表的标识和所述目标表中目标列的标识；

所述处理器(702)还用于根据所述目标表的标识和所述数据库中表的组织和结构，确定所述目标列的数据类型；

所述处理器(702)还用于根据所述目标表的标识、所述目标列的标识和所述数据类型，确定所述数据库的数据模型。
一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于设备执行的程序代码，所述程序代码包括用于执行根据权利要求1至7中任一项所述的数据模型生成的方法中的步骤的指令。
一种数据模型生成的装置(500)，其特征在于，包括：

预处理器(510)，用于获取用户端向数据库发送的数据访问语句，所述数据访问语句用于访问所述数据库中目标业务的数据；

分析器(520)，用于根据所述数据访问语句，获取所述目标业务调用的所述数据库中的至少一个目标表中每一个目标表的标识和所述目标表中目标列的标识；

模型生成器(530)，用于根据所述目标表的标识和所述数据库中表的组织和结构，确定所述目标列的数据类型；

所述模型生成器(530)还用于，根据所述目标表的标识、所述目标列的标识和所述数据类型，确定所述数据库的数据模型。
一种数据模型生成的装置(600)，其特征在于，包括：

获取单元(610)，用于获取用户端向数据库发送的数据访问语句，所述数据访问语句用于访问所述数据库中目标业务的数据；

所述获取单元(610)还用于，根据所述数据访问语句，获取所述目标业务调用的所述数据库中的至少一个目标表中每一个目标表的标识和所述目标表中目标列的标识；

确定单元(620)，用于根据所述目标表的标识和所述数据库中表的组织和结构，确定所述目标列的数据类型；

所述确定单元(620)还用于，根据所述目标表的标识、所述目标列的标识和所述数据类型，确定所述数据库的数据模型。