WO2024087736A1

WO2024087736A1 - 数据处理方法、数据处理引擎、计算设备及存储介质

Info

Publication number: WO2024087736A1
Application number: PCT/CN2023/106888
Authority: WO
Inventors: 彭磊; 王抗战
Original assignee: 华为云计算技术有限公司
Priority date: 2022-10-25
Filing date: 2023-07-12
Publication date: 2024-05-02

Abstract

本申请提供了一种数据处理方法、数据处理引擎、计算设备及存储介质，属于计算机技术领域。该方法包括：确定数据处理作业待访问的外部数据库以及该外部数据库中的目标访问对象；将该目标访问对象的元数据，从该外部数据库缓存至该数据处理引擎的内存中；从该内存中访问该元数据，以执行该数据处理作业。通过上述方法，将外部数据库中的元数据缓存至数据处理引擎的内存中，从内存访问元数据，能够避免多次通过网络访问外部数据库的目录，进而减少网络开销，同时规避网络的不可用对数据处理作业的执行产生影响，提升数据处理引擎的性能，提高数据处理的效率。

Description

数据处理方法、数据处理引擎、计算设备及存储介质

本申请要求于2022年10月25日提交的申请号202211309305.1、发明名称为“数据处理方法、装置、计算设备集群及存储介质”的中国专利申请的优先权，以及，于2022年12月26日提交的申请号202211679701.3、发明名称为“数据处理方法、数据处理引擎、计算设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别涉及一种数据处理方法、数据处理引擎、计算设备及存储介质。

背景技术

数据处理引擎，例如Spark SQL引擎，在执行数据处理作业的时候，需要通过目录(Catalog)获取数据库、表、分区、视图等数据库对象的元数据以及其他外部系统中存储的函数和信息，以对数据进行处理。因此，Catalog也被称为大数据处理引擎的“大脑”。

相关技术中，大数据处理引擎可以通过网络访问外部数据库的Catalog，以获取元数据。然而，当大数据处理引擎需要频繁地访问外部数据库的Catalog，或者需要多次通过网络获取同一份元数据时，会造成网络时延和抖动，从而导致大数据处理引擎的处理性能下降，数据处理的效率降低。

发明内容

本申请实施例提供了一种数据处理方法、数据处理引擎、计算设备及存储介质，能够避免多次通过网络访问外部数据库的目录，进而减少网络开销，同时规避网络的不可用对数据处理作业的执行产生影响，提升数据处理引擎的性能，提高数据处理的效率。该技术方案如下。

第一方面，提供了一种数据处理方法，应用于云服务的数据处理引擎，该方法包括：

确定数据处理作业待访问的外部数据库以及该外部数据库中的目标访问对象；将该目标访问对象的元数据，从该外部数据库缓存至该数据处理引擎的内存中；从该内存中访问该元数据，以执行该数据处理作业。

上述方法中，将外部数据库中的元数据缓存至数据处理引擎的内存中，从内存访问元数据，能够避免多次通过网络访问外部数据库的目录，进而减少网络开销，同时规避网络的不可用对数据处理作业的执行产生影响，提升数据处理引擎的性能，提高数据处理的效率。

可选地，该方法还包括：建立该内存与该外部数据库的心跳通道，该心跳通道用于确定该外部数据库中的元数据是否发生更新，该心跳通道的数量等于该外部数据库的数量；若该外部数据库中的元数据已更新，则将更新后的元数据，从该外部数据库缓存至该内存中。

其中，若数据处理作业需要访问多个外部数据库，则在心跳通道可以为多个，以分别确定各个外部数据库中的数据是否已发生更新；进一步地，若目标访问对象的元数据未存储在内存中，则心跳通道在元数据缓存结束后建立，若目标访问对象的元数据已存储在内存中，则数据处理作业一启动就建立该心跳通道。

上述方法中，由于外部数据库中数据的更新会反映在元数据上，一旦元数据更新，则说明外部数据库中的数据有所更新，通过建立数据处理引擎的内存与外部数据库之间的心跳通道，可以定期确认外部数据库中的元数据是否发生更新，以保证内存中的元数据与外部数据库中的元数据的一致性，也即是目标访问对象的结构的一致性，从而保证数据处理作业的正确执行。

可选地，该方法还包括：响应于该数据处理作业执行结束，关闭该心跳通道。

上述方法中，数据处理作业执行结束后关闭心跳通道，能够节约计算资源，提高数据处理引擎的处理性能。

可选地，该外部数据库存储有预写日志，该预写日志用于记录对该外部数据库执行的操作，该若该外部数据库中的元数据已更新，则将更新后的元数据，从该外部数据库缓存至该内存中，包括：若该预写日志中包括对该元数据的更新操作，则将更新后的元数据，从该外部数据库缓存至该内存中。

上述方法中，在外部数据库存储有预写日志的情况下，基于预写日志中记录的操作信息，确认外部数据库中的元数据是否发生更新，能够较快地确定外部数据库中元数据的更新情况，节约计算资源，提高数据处理作业的效率。

可选地，该若该外部数据库中的元数据已更新，则将更新后的元数据，从该外部数据库缓存至该内存中，包括：若该内存中的元数据与该外部数据库中的元数据不一致，则将更新后的元数据，从该外部数据库缓存至该内存中。

上述方法中，通过校验外部数据库中的元数据和内存中已缓存的元数据是否一致，来确认外部数据库中的元数据是否发生更新，校验的准确性较高。

可选地，该将该目标访问对象的元数据，从该外部数据库缓存至该数据处理引擎的内存中，包括：将该元数据从该外部数据库缓存至该数据处理引擎内存中目录的目标子目录，该目录用于存储该数据处理引擎所关联的数据库的元数据，该目标子目录用于存储来自于该外部数据库的元数据。

上述方法中，来自外部数据库的元数据按照目录.子目录.数据库/数据表.数据库对象的结构存储至内存中，能够避免从内存访问来自外部数据库的元数据的路径与通过网络访问外部数据库中的元数据的路径发生冲突。

可选地，该确定数据处理作业待访问的外部数据库以及该外部数据库中的目标访问对象之后，该方法还包括：若该内存中已存储有该元数据，则执行该从该内存中访问该元数据，以执行该数据处理作业的步骤。

上述方法中，对于已经缓存在内存中的元数据，不用重复缓存，能够节约存储资源，提高数据处理的效率。

第二方面，提供了一种数据处理装置，应用于云服务的数据处理引擎，该装置包括：

确认模块，用于确定数据处理作业待访问的外部数据库以及该外部数据库中的目标访问对象。

缓存模块，用于将该目标访问对象的元数据，从该外部数据库缓存至该数据处理引擎的内存中。

执行模块，用于从该内存中访问该元数据，以执行该数据处理作业。

在一种可能实施方式中，该装置还包括：

通讯模块，用于建立该内存与该外部数据库的心跳通道，该心跳通道用于确定该外部数据库中的元数据是否发生更新，该心跳通道的数量等于该外部数据库的数量。

该缓存模块，还用于若该外部数据库中的元数据已更新，则将更新后的元数据，从该外部数据库缓存至该内存中。

在一种可能实施方式中，该通讯模块还用于：

响应于该数据处理作业执行结束，关闭该心跳通道。

在一种可能实施方式中，该外部数据库存储有预写日志，该预写日志用于记录对该外部数据库执行的操作，该缓存模块用于：

若该预写日志中包括对该元数据的更新操作，则将更新后的元数据，从该外部数据库缓存至该内存中。

在一种可能实施方式中，该缓存模块用于：

若该内存中的元数据与该外部数据库中的元数据不一致，则将更新后的元数据，从该外部数据库缓存至该内存中。

在一种可能实施方式中，该缓存模块用于：

将该元数据从该外部数据库缓存至该数据处理引擎内存中目录的目标子目录，该目录用于存储该数据处理引擎所关联的数据库的元数据，该目标子目录用于存储来自于该外部数据库的元数据。

在一种可能实施方式中，该执行模块还用于：

若该内存中已存储有该元数据，则执行该从该内存中访问该元数据，以执行该数据处理作业的步骤。

第三方面，提供了一种云服务的数据处理引擎，该数据处理引擎包括元数据缓存接口，该元数据缓存接口用于将目标访问对象的元数据从外部数据库缓存至该数据处理引擎的内存中，以实现上述第一方面或第一方面的任一种可选方式所提供的数据处理方法。

第四方面，提供了一种计算设备，该计算设备包括处理器和存储器，该计算设备的处理器用于执行该计算设备的存储器中存储的指令，以使得该计算设备执行如上述第一方面或第一方面的任一种可选方式所提供的数据处理方法。

第五方面，提供了一种计算设备集群，该计算设备集群包括至少一个计算设备，每个计算设备包括处理器和存储器；

该至少一个计算设备的处理器用于执行该至少一个计算设备的存储器中存储的指令，以使得该计算设备集群执行如上述第一方面或第一方面的任一种可选方式所提供的数据处理方法。

第六方面，提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算设备执行上述第一方面或第一方面的任一种可选方式所提供的数据处理方法。

第七方面，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令，该指令由处理器读取以使计算设备执行上述第一方面或第一方面的任一种可选方式所提供的数据处理方法。

附图说明

图1是本申请实施例提供的一种数据处理方法的应用场景示意图；

图2是本申请实施例提供的一种数据处理方法的流程图；

图3是本申请实施例提供的一种数据处理方法的流程图；

图4是本申请实施例提供的一种数据处理方法的示意图；

图5是本申请实施例提供的一种数据处理装置的结构框图；

图6是本申请实施例提供的一种计算设备的结构示意图；

图7是本申请实施例提供的一种计算设备集群的示意图；

图8是本申请实施例提供的一种计算设备集群的可能实现方式的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面介绍本申请实施例的应用场景。

本申请实施例提供的数据处理方法能够应用于云服务的数据处理引擎访问元数据以执行数据处理作业的场景中。图1是本申请实施例提供的一种数据处理方法的应用场景示意图，如图1所示，计算设备上运行有数据处理引擎，该数据处理引擎用于执行数据处理作业。该数据处理引擎可以是Spark SQL或Flink SQL等，本申请实施例不做限定。数据处理引擎执行数据处理作业的过程包括结构化查询语言(structured query language，SQL)语法分析(parse)、目录(catalog)、解析(analysis)、优化(optimize)、物理计划(physical plan)和程序执行等步骤，其中，程序执行包括弹性分布式数据集程序(resilient distributed dataset program)、数据流程序(datastream program)和映射归约程序(map-reduce)。

其中，数据处理引擎包括内存(in memory)、元数据管理系统(hive metastore，HMS)和目录(catalog)接口(application programming interface，API)。其中，该内存包括至少一个高速缓冲存储器(cache)，该内存用于存储该数据处理引擎关联的数据库的目录。该元数据管理系统用于管理该数据处理引擎关联的数据库的目录。该目录接口用于访问内存和元数据管理系统中的目录，获取数据库(database，DB)、表(table)、分区、视图等数据库对象(database object)的元数据，执行该数据处理作业。在一些实施例中，数据处理引擎关联有外部数据库，也即是外部服务(extend service)，数据处理引擎通过目录接口访问该外部数据库中的目录，以获取外部数据库中的元数据。数据处理引擎与外部数据库之间通过有线网络或者是无线网络方式进行通信连接。

在一些实施例中，上述无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也能够是任何网络，包括但不限于局域网(local area network，LAN)、城域网(metropolitan area network， MAN)、广域网(wide area network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，数据处理引擎与外部数据库之间基于Java数据库连接(java database connectivity，JDBC)通讯，或者通过远程调用协议(remote procedure call protocol，RPC)通讯，又或者通过超文本传输协议(hyper text transfer protocol，HTTP)通讯。在一些实施例中，数据处理引擎与外部数据库之间使用包括超级文本标记语言(hyper text markup language，HTML)、可扩展标记语言(extensible markup language，XML)等的技术和/或格式来代表通过网络交换的元数据。此外还能够使用诸如安全套接字层(secure socket layer，SSL)、传输层安全(transport layer security，TLS)、虚拟专用网络(virtual private network，VPN)、网际协议安全(internet protocol security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还能够使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

上面介绍了本申请实施例的应用场景，下面介绍本申请实施例提供的一种数据处理方法的流程图。图2是本申请实施例提供的一种数据处理方法的流程图，如图2所示，该方法应用于云服务的数据处理引擎，包括下述步骤201至步骤203。

201、数据处理引擎确定数据处理作业待访问的外部数据库以及该外部数据库中的目标访问对象。

其中，该数据处理作业(job)是指数据处理引擎按顺序执行的一系列程序指令，也即是查询语句，该查询语句包括对目标访问对象执行增、删、改、查等操作的语句，以及获取目标访问对象的语句。该目标访问对象是指外部数据库中的数据库对象，包括数据库、表、分区、视图、行和列等。

202、数据处理引擎将该目标访问对象的元数据，从外部数据库缓存至数据处理引擎的内存中。

其中，该元数据用于描述目标访问对象的数据属性，以指示目标访问对象。外部数据库存储有数据库对象的目录(catalog)，若外部数据库有新增的数据库对象，则将该数据库对象的元数据写入该目录中，若外部数据库中已存储的数据库对象有所更新，则对该目录中已存储的元数据进行更新。数据处理引擎将所需的元数据从外部数据库的目录中缓存至内存的目录中。

203、数据处理引擎从内存中访问该元数据，以执行该数据处理作业。

其中，数据处理引擎基于该元数据在内存中的数据格式，从内存访问该元数据。

通过本申请实施例中的技术方案，将元数据缓存至数据处理引擎的内存中，从内存访问元数据，能够避免多次通过网络访问外部数据库的目录，进而减少网络开销，同时规避网络的不可用对数据处理作业的执行产生影响，提升数据处理引擎的性能，提高数据处理的效率。

上述图2所示仅为本申请的基本流程，下面对本申请提供的方案进行进一步阐述。图3是本申请实施例提供的一种数据处理方法的流程图，如图3所示，应用于云服务的数据处理引擎，包括以下步骤301至步骤306。

301、数据处理引擎响应于数据处理作业启动，确定数据处理作业待访问的外部数据库以及该外部数据库中的目标访问对象。

其中，数据处理作业启动也即是数据处理作业拉起后，计算设备的驱动程序(driver)启动。数据处理引擎扫描数据处理作业中的查询语句，以确定外部数据库和目标访问对象。在一些实施例中，数据处理引擎扫描查询语句中的关键字，以确定外部数据库和目标访问对象，例如，查询语句“alter table mysql.table1 add column column1(col int)”，表示在table1中增加一列column1，数据处理引擎通过扫描关键字“table”后的内容“mysql.table1”确定待访问的外部数据库为mysql，目标访问对象为mysql中的table1。在另一些实施例中，数据处理引擎包括元数据缓存接口，通过扫描查询语句中调用的元数据缓存接口，指定外部数据库和目标访问对象，例如，查询语句“catch(mysqlcatalog.table1)”，表示调用元数据缓存接口“mysqlcatalog.table1”，以获取mysql数据库中table1的元数据，数据处理引擎扫描catch指令调用的元数据缓存接口“mysqlcatalog.table1”，指定外部数据库为mysql，目标访问对象为mysql中的table1。

需要说明的是，上述两种确定待访问的外部数据库和目标访问对象的方法仅是示例性的，可以根据实际需求进行定制，本申请实施例对此不做限定。

需要说明的是，上述步骤301是以待访问的数据库为外部数据库为例进行介绍的，在一些实施例中，数据处理引擎关联的数据库既包括外部数据库也包括内部数据库。在一个数据处理作业中，待访问的数据库可以既包括外部数据库也包括内部数据库。在一些实施例中，数据处理引擎存储有所关联的数据库的信息，包括内部数据库的信息和外部数据库的信息，数据处理引擎基于数据库的信息和查询语句的扫描结果，确定查询语句中待访问的数据库是内部数据库还是外部数据库。若待访问的数据库是内部数据库，则直接从内存中访问该内部数据库中目标访问对象的元数据，具体的访问过程在后续步骤中进行介绍，此处不再赘述。

上述方法中，数据处理引擎通过扫描数据处理作业中的查询语句，确定待访问的外部数据库和目标访问对象，操作简单，结果准确。

302、数据处理引擎通过与外部数据库之间的元数据缓存接口，将该元数据从外部数据库缓存至数据处理引擎内存中目录的目标子目录，该目录用于存储该数据处理引擎所关联的数据库的元数据，该目标子目录用于存储来自于该外部数据库的元数据。

其中，元数据缓存接口用于数据处理引擎和外部数据库之间进行数据交互，以将元数据从外部数据库缓存至数据处理引擎的内存中。外部数据库提供元数据缓存接口，使得数据处理引擎能够将外部数据库中的元数据本地化，从而加快数据处理引擎访问元数据的速度，避免因为网络原因导致的不可访问或者访问速度慢的问题。数据处理引擎也提供元数据缓存接口，用户通过编辑调用该元数据缓存接口的查询语句，以从外部数据库缓存数据处理作业所需的元数据。需要说明的是，上述通过元数据缓存接口对元数据进行缓存的方式仅是示例性的，还可以基于其他方式对元数据进行缓存，本申请实施例对此不做限定。

数据处理引擎通过该元数据缓存接口将该元数据缓存至内存中目录的目标子目录。数据处理引擎在内存中的目录下新建一个子目录，该子目录也即是目标子目录。新建子目录后，内存中目录的数据组织模型由原来的三层结构(目录.数据库/数据表.数据库对象)的形式，例如，(catalog.database/schema.table)，转变为四层结构(目录.子目录.数据库/数据表.数据库对象)的形式，例如，(catalog.sub-catalog.database/schema.table)。上述方法中，通过改变内存中目录的数据组织模型的结构，以避免从内存访问来自外部数据库的元数据的路径与通过网络访问外部数据库中的元数据的路径发生冲突。

在一些实施例中，内存中目录已包括该目标子目录，数据处理引擎将元数据直接存储至该目标子目录，而不用新建子目录，从而提高缓存元数据的效率，避免目录下包括多个指示同一个外部数据库的子目录，从而避免为后续访问元数据造成干扰。

需要说明的是，上述方法中，对于任一外部数据库，均可以创建一个子目录，以实现将来自不同的外部数据库的元数据分别存储，从而便于对元数据进行访问。另外，内存中目录下的子目录除了包括外部数据库的子目录，还包括内部数据库的子目录，从而可以从内存中访问内部数据库中的元数据。

上述方法中，数据处理引擎基于待访问的外部数据库和目标访问对象，通过元数据缓存接口，选择性地将外部数据库中的元数据缓存至内存中，而不是缓存外部数据库中的全部元数据，可以减少数据处理引擎在整个数据处理作业执行期间，缓存外部数据库中的元数据的个数，从而减少缓存的开销以及缓存维护的开销。

需要说明的是，上述步骤302是在数据处理引擎确定目标访问对象的元数据未存储至内存中的情况下所执行的步骤，在一些实施中，内存中已存储有该元数据，数据处理引擎不执行步骤302，执行从该内存中访问该元数据，以执行该数据处理作业的步骤，也即是直接从内存中访问该元数据。其中，数据处理引擎查询内存中目录下的待访问的数据库对应的子目录，若目录不包括该数据库对应的子目录，或者该数据库对应的子目录中不包括目标访问对象的元数据，则说明该元数据未存储至内存中。上述方法中，对于已经缓存在内存中的元数据，不用重复缓存，能够节约存储资源，提高数据处理的效率。

303、若该元数据已缓存完毕，数据处理引擎则建立内存与该外部数据库的心跳通道，该心跳通道用于确定该外部数据库中的元数据是否发生更新，该心跳通道的数量等于该外部数据库的数量。

其中，若数据处理作业需要访问多个外部数据库，也即是在多catalog场景下，内存与多个外部数据库建立心跳通道，每个外部数据库对应一个心跳通道。在一些实施例中，数据处理引擎通过该心跳通道定期发送数据同步请求给外部数据库，外部数据库收到该数据同步请求后回复响应信息给数据处理引擎，也即是通过心跳机制确定外部数据库中的元数据是否发生更新，在另一些实施例中，由外部数据库主动定期向该数据处理引擎发送响应信息，本申请实施例对此不做限定。数据处理引擎接收该响应信息后，基于该响应信息确定外部数据库中的元数据的更新情况。

上述实施例中，由于外部数据库中数据的更新会反映在元数据上，一旦元数据更新，则说明外部数据库中的数据有所更新，通过建立数据处理引擎的内存与外部数据库之间的心跳通道，可以定期确认外部数据库中的元数据是否发生更新，以保证内存中的元数据与外部数据库中的元数据的一致性，也即是目标访问对象的结构的一致性，从而保证数据处理作业的正确执行。

上述步骤303是以缓存完元数据之后建立心跳通道为例进行说明的，在一些实施例中，内存中已存储有待访问的元数据，数据处理引擎不执行缓存元数据的步骤，直接建立内存与外部数据库之间的心跳通道，能够节约存储资源。

需要说明的是，上述步骤303中，心跳通道建立的时机为元数据缓存结束之后，在一些实施例中，内存中已存储有该元数据，数据处理引擎在数据处理作业一启动就建立该心跳通道。

304、若该外部数据库中的元数据已更新，数据处理引擎则将更新后的元数据，从该外部数据库缓存至该内存中。

其中，数据处理引擎基于响应信息，确定外部数据库中的元数据是否已发生更新。根据响应信息的不同，数据处理引擎确定外部数据库中的元数据是否已发生更新包括下述两种方式。

第一种方式：外部数据库存储有预写日志，该预写日志用于记录对该外部数据库执行的操作，若该预写日志中包括对该元数据的更新操作，则将更新后的元数据，从该外部数据库缓存至该内存中。

其中，对于有预写日志的外部数据库，响应信息包括外部数据库中存储的预写日志(write-ahead logging，WAL)。对元数据的更新操作包括基于数据定义语言(data define language，DDL)，对元数据对应的数据库对象所作的增、删、改、查等操作。数据处理引擎基于已缓存的元数据对应的目标访问对象，对预写日志中记录的操作进行过滤，若过滤后得到对该目标访问对象的更新操作，则确定外部数据库中的元数据发生了更新。例如，外部数据库为mysql，mysql的预写日志为binlog，数据处理引擎通过在binlog中查找对目标访问对象的更新操作，以识别元数据的变化。上述方法中，在外部数据库存储有预写日志的情况下，基于预写日志中记录的操作信息，确认外部数据库中的元数据是否发生更新，能够较快确定外部数据库中元数据的更新情况，节约计算资源，提高数据处理作业的效率。

在一些实施例中，若外部数据库中的元数据已更新，则删除已缓存的元数据，将更新后的元数据缓存至内存中，能够节约存储资源，并避免内存中更新后的元数据与更新后的元数据之间的访问冲突。

第二种方式：若该内存中的元数据与该外部数据库中的元数据不一致，则将更新后的元数据，从该外部数据库缓存至该内存中。

其中，对于没有预写日志的外部数据库，响应信息包括外部数据库中存储的元数据，也即是外部数据库将元数据发送给数据处理引擎。在一些实施例中，外部数据库基于元数据缓存接口的调用记录，确定数据处理引擎所缓存的元数据对应的目标访问对象，进而定期将该目标访问对象的元数据发送给数据处理引擎进行校验。需要说明的是，上述方法仅是外部数据库确定待发送给数据处理引擎的元数据的一种示例，可以根据实际需求进行定制，本申请实施例对此不做限定。

数据处理引擎接收响应信息，得到外部数据库中的元数据。数据处理引擎将内存中的元数据与从响应信息中获取的元数据进行校验，若一致，则说明外部数据库中的元数据没有更新，若不一致，说明外部数据库中的元数据已更新，数据处理引擎将更新后的元数据缓存至内存中。其中，对元数据进行校验的方式包括哈希值(hash)校验，MD5校验和CRC32校验等，可以根据实际需求确定校验方式，本申请实施例对此不做限定。

上述方法中，通过校验外部数据库中的元数据和内存中已缓存的元数据是否一致，确认外部数据库中的元数据是否发生更新，校验的准确性较高，且响应信息包括元数据，若外部数据库中的元数据已更新，可以直接将该元数据存储至内存中，而无需通过元数据缓存接口缓存该元数据，能够提高数据处理的效率。

在一些实施例中，对该响应信息进行加密，以保证响应信息中的元数据的安全性。加密响应信息的方式可以根据实际需求进行定制，本申请实施例对此不做限定。

需要说明的是，上述步骤303至步骤304所示的通过建立心跳通道对发生更新的元数据进行更新的过程为可选过程，本申请实施例对此不做限定。

305、数据处理引擎从该内存中访问该元数据，以执行该数据处理作业。

其中，数据处理引擎基于该元数据在内存中的数据格式，也即是内存中目录的数据组织模型，从内存中访问该元数据，例如，catalog.mysqlcatalog.database.table1。数据处理引擎访问内存中的元数据，对查询语句进行解析、优化、生成物理执行计划，数据处理引擎执行该物理执行计划，也即是执行该数据处理作业。

需要说明的是，上述步骤302至305是数据处理引擎先缓存元数据至内存中，再从内存中访问元数据以执行数据处理作业为例进行说明的，在一些实施例中，若网络连接正常，数据处理引擎通过网络远程访问外部数据库，获取元数据，进而执行数据处理作业，并且在执行该数据处理作业的同时，对元数据进行缓存，若网络连接异常，则先通过元数据缓存接口缓存元数据至内存中，再从内存访问该元数据。本申请实施例对此不做限定。

需要说明的是，本申请实施例是以先更新元数据后执行数据处理作业为例进行说明的，在一些实施例中，更新元数据和执行数据处理作业的过程可以并行，当然，如果数据处理作业执行过程中元数据发生了更新，也可以基于更新后元数据的重新执行该数据处理作业。

306、数据处理引擎响应于该数据处理作业执行结束，关闭该心跳通道。

上述步骤306中，数据处理作业执行结束后关闭心跳通道，能够节约计算资源，提高数据处理引擎的处理性能。

下面以图4为例，对上述步骤301至步骤306所示的流程进行举例说明。图4是本申请实施例提供的一种数据处理方法的示意图。如图4所示，Flink SQL引擎响应于数据处理作业启动，通过扫描数据处理作业确定需要访问的外部数据库中的目标访问对象，或通过Flink SQL引擎提供的元数据缓存接口，将外部数据库中的部分元数据缓存到Flink SQL引擎内存的目录中，提升访问效率。同时外部数据库中的元数据在缓存到内存目录中的时候，目录结构需要增加一层“sub-catalog”来避免元数据的访问路径的冲突。Flink SQL引擎在数据处理作业执行过程中在内存与外部数据库之间建立心跳通道来识别外部数据库中的元数据是否发生更新，以避免元数据不一致问题的产生。Flink SQL引擎迭代数据处理作业中的所有查询语句，访问内存中的元数据，以对查询语句进行解析、优化、生成物理执行计划，在数据处理作业执行完成后，关闭心跳通道。

通过本申请实施例中的技术方案，将外部数据库中的元数据缓存至数据处理引擎的内存中，从内存访问元数据，能够避免多次通过网络访问外部数据库的目录，进而减少网络开销，同时规避网络的不可用对数据处理作业的执行产生影响，提升数据处理引擎的性能，提高数据处理的效率。进一步地，通过在目录结构中增加一层子目录，来避免访问内存中的元数据的路径与访问外部数据库中的元数据的路径发生冲突；通过建立内存与外部数据库的心跳通道，在数据处理作业执行期间定期更新元数据，以保证从内存中访问到的元数据与外部数据库中的元数据的一致性。

图5是本申请实施例提供的一种数据处理装置的结构框图。如图5所示，该装置应用于云服务的数据处理引擎，该装置包括确认模块501、缓存模块502和执行模块503。

确认模块501，用于确定数据处理作业待访问的外部数据库以及该外部数据库中的目标访问对象。

缓存模块502，用于将该目标访问对象的元数据，从该外部数据库缓存至该数据处理引擎的内存中。

执行模块503，用于从该内存中访问该元数据，以执行该数据处理作业。

在一种可能实施方式中，该装置还包括：

该缓存模块502，还用于若该外部数据库中的元数据已更新，则将更新后的元数据，从该外部数据库缓存至该内存中。

在一种可能实施方式中，该通讯模块还用于：

响应于该数据处理作业执行结束，关闭该心跳通道。

在一种可能实施方式中，该外部数据库存储有预写日志，该预写日志用于记录对该外部数据库执行的操作，该缓存模块502用于：

在一种可能实施方式中，该缓存模块502用于：

在一种可能实施方式中，该执行模块503还用于：

其中，确认模块501、缓存模块502、执行模块503均可以通过软件实现，或者可以通过硬件实现。示例性的，接下来以确认模块501为例，介绍确认模块501的实现方式。类似的，缓存模块502和执行模块503的实现方式可以参考确认模块501的实现方式。

模块作为软件功能单元的一种举例，确认模块501可以包括运行在计算实例上的代码。其中，计算实例可以包括物理主机(计算设备)、虚拟机、容器中的至少一种。进一步地，上述计算实例可以是一台或者多台。例如，确认模块501可以包括运行在多个主机/虚拟机/容器上的代码。需要说明的是，用于运行该代码的多个主机/虚拟机/容器可以分布在相同的区域(region)中，也可以分布在不同的region中。进一步地，用于运行该代码的多个主机/虚拟机/容器可以分布在相同的可用区(availability zone，AZ)中，也可以分布在不同的AZ中，每个AZ包括一个数据中心或多个地理位置相近的数据中心。其中，通常一个region可以包括多个AZ。

同样，用于运行该代码的多个主机/虚拟机/容器可以分布在同一个虚拟私有云(virtual private cloud，VPC)中，也可以分布在多个VPC中。其中，通常一个VPC设置在一个region内，同一region内两个VPC之间，以及不同region的VPC之间跨区通信需在每个VPC内设置通信网关，经通信网关实现VPC之间的互连。

模块作为硬件功能单元的一种举例，确认模块501可以包括至少一个计算设备，如服务器等。或者，确认模块501也可以是利用专用集成电路(application-specific integrated circuit，ASIC)实现或可编程逻辑器件(programmable logic device，PLD)实现的设备等。其中，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)、现场可编程门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合实现。

确认模块501包括的多个计算设备可以分布在相同的region中，也可以分布在不同的region中。确认模块501包括的多个计算设备可以分布在相同的AZ中，也可以分布在不同的AZ中。同样，确认模块501包括的多个计算设备可以分布在同一个VPC中，也可以分布在多个VPC中。其中，该多个计算设备可以是服务器、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。

需要说明的是，在其他实施例中，上述模块负责实现的步骤可根据需要指定，通过上述模块分别实现上述数据处理方法中不同的步骤来实现上述装置的全部功能。也即是，上述实施例提供的数据处理装置在实现数据处理时仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与相应方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请还提供一种计算设备600。图6是本申请实施例提供的一种计算设备的结构示意图，如图6所示，计算设备600包括：总线601、处理器602、存储器603和通信接口604。处理器602、存储器603和通信接口604之间通过总线601通信。计算设备600可以是服务器或终端设备。应理解，本申请不限定计算设备600中的处理器、存储器的个数。

总线601可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。总线601可包括在计算设备600各个部件(例如，存储器603、处理器602、通信接口604)之间传送信息的通路。

处理器602可以包括中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、微处理器(micro processor，MP)或者数字信号处理器(digital signal processor，DSP)等处理器中的任意一种或多种。

存储器603可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器603还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory， ROM)，快闪存储器，机械硬盘(hard disk drive，HDD)或固态硬盘(solid state drive，SSD)。

存储器603中存储有可执行的程序代码，处理器602执行该可执行的程序代码以分别实现前述确定模块501、缓存模块502和执行模块503的功能，从而实现数据处理方法。也即，存储器603上存有用于执行数据处理方法的指令。

通信接口604使用例如但不限于网络接口卡、收发器一类的收发模块，来实现计算设备600与其他设备或通信网络之间的通信。

本申请实施例还提供了一种计算设备集群。图7是本申请实施例提供的一种计算设备集群的示意图，如图7所示，该计算设备集群包括至少一台计算设备。该计算设备可以是服务器，例如是中心服务器、边缘服务器，或者是本地数据中心中的本地服务器。在一些实施例中，计算设备也可以是台式机、笔记本电脑或者智能手机等终端设备。

如图7所示，该计算设备集群包括至少一个计算设备600。计算设备集群中的一个或多个计算设备600中的存储器603中可以存有相同的用于执行数据处理方法的指令。

在一些可能的实现方式中，该计算设备集群中的一个或多个计算设备600的存储器603中也可以分别存有用于执行数据处理方法的部分指令。换言之，一个或多个计算设备600的组合可以共同执行用于执行数据处理方法的指令。

需要说明的是，计算设备集群中的不同的计算设备600中的存储器603可以存储不同的指令，分别用于执行数据处理装置的部分功能。也即，不同的计算设备600中的存储器603存储的指令可以实现确定模块501、缓存模块502和执行模块503中的一个或多个模块的功能。

在一些可能的实现方式中，计算设备集群中的一个或多个计算设备可以通过网络连接。其中，该网络可以是广域网或局域网等等。图8示出了一种可能的实现方式。图8是本申请实施例提供的一种计算设备集群的可能实现方式的示意图，如图8所示，两个计算设备600A和600B之间通过网络进行连接。具体地，通过各个计算设备中的通信接口与该网络进行连接。在这一类可能的实现方式中，计算设备600A中的存储器603中存有执行确定模块501的功能的指令。同时，计算设备600B中的存储器603中存有执行缓存模块502和执行模块503的功能的指令。

图8所示的计算设备集群之间的连接方式可以是考虑到本申请提供的数据处理方法需要大量地存储数据，因此考虑将缓存模块502和执行模块503实现的功能交由计算设备600B执行。

应理解，图8中示出的计算设备600A的功能也可以由多个计算设备600完成。同样，计算设备600B的功能也可以由多个计算设备600完成。

本申请实施例还提供了另一种计算设备集群。该计算设备集群中各计算设备之间的连接关系可以类似的参考图7和图8所示的计算设备集群的连接方式。不同的是，该计算设备集群中的一个或多个计算设备600中的存储器603中可以存有相同的用于执行数据处理方法的指令。

本申请实施例还提供了一种包含指令的计算机程序产品。该计算机程序产品可以是包含指令的，能够运行在计算设备上或被储存在任何可用介质中的软件或程序产品。当该计算机程序产品在计算设备上运行时，使得计算设备执行数据处理方法。

本申请实施例还提供了一种计算机可读存储介质。该计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。该可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令，该指令指示计算设备执行数据处理方法，或指示计算设备执行数据处理方法。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的元数据都是在充分授权的情况下获取的。

本领域普通技术人员可以意识到，结合本文中所公开的实施例中描述的各方法步骤和单元，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参见前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

该作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，或者计算设备等)执行本申请各个实施例中方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种示例的范围的情况下，第一图像可以被称为第二图像，并且类似地，第二图像可以被称为第一图像。第一图像和第二图像都可以是图像，并且在某些情况下，可以是单独且不同的图像。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上，例如，多个第二报文是指两个或两个以上的第二报文。本文中术语“系统”和“网络”经常可互换使用。

还应理解，术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

以上描述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机程序指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例中的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如，数字视频光盘(digital video disc，DVD)、或者半导体介质(例如固态硬盘))等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

一种数据处理方法，其特征在于，应用于云服务的数据处理引擎，所述方法包括：

确定数据处理作业待访问的外部数据库以及所述外部数据库中的目标访问对象；

将所述目标访问对象的元数据，从所述外部数据库缓存至所述数据处理引擎的内存中；

从所述内存中访问所述元数据，以执行所述数据处理作业。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

建立所述内存与所述外部数据库的心跳通道，所述心跳通道用于确定所述外部数据库中的元数据是否发生更新，所述心跳通道的数量等于所述外部数据库的数量；

若所述外部数据库中的元数据已更新，则将更新后的元数据，从所述外部数据库缓存至所述内存中。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

响应于所述数据处理作业执行结束，关闭所述心跳通道。
根据权利要求2所述的方法，其特征在于，所述外部数据库存储有预写日志，所述预写日志用于记录对所述外部数据库执行的操作，所述若所述外部数据库中的元数据已更新，则将更新后的元数据，从所述外部数据库缓存至所述内存中，包括：

若所述预写日志中包括对所述元数据的更新操作，则将更新后的元数据，从所述外部数据库缓存至所述内存中。
根据权利要求2所述的方法，其特征在于，所述若所述外部数据库中的元数据已更新，则将更新后的元数据，从所述外部数据库缓存至所述内存中，包括：

若所述内存中的元数据与所述外部数据库中的元数据不一致，则将更新后的元数据，从所述外部数据库缓存至所述内存中。
根据权利要求1至5任一项所述的方法，其特征在于，所述将所述目标访问对象的元数据，从所述外部数据库缓存至所述内存中，包括：

将所述元数据从所述外部数据库缓存至所述数据处理引擎内存中目录的目标子目录，所述目录用于存储所述数据处理引擎所关联的数据库的元数据，所述目标子目录用于存储来自于所述外部数据库的元数据。
根据权利要求1至6任一项所述的方法，其特征在于，所述确定数据处理作业待访问的外部数据库以及所述外部数据库中的目标访问对象之后，所述方法还包括：

若所述内存中已存储有所述元数据，则执行所述从所述内存中访问所述元数据，以执行所述数据处理作业的步骤。
一种云服务的数据处理引擎，其特征在于，所述数据处理引擎包括元数据缓存接口，所述元数据缓存接口用于将目标访问对象的元数据从外部数据库缓存至所述数据处理引擎的内存中，以实现如权利要求1至7任一项所述的数据处理方法。
一种数据处理装置，其特征在于，应用于云服务的数据处理引擎，所述装置包括：

确定模块，用于确定数据处理作业待访问的外部数据库以及所述外部数据库中的目标访问对象；

缓存模块，用于将所述目标访问对象的元数据，从所述外部数据库缓存至所述数据处理引擎的内存中；

执行模块，用于从所述内存中访问所述元数据，以执行所述数据处理作业。
一种计算设备，其特征在于，所述计算设备包括处理器和存储器，所述计算设备的处理器用于执行所述计算设备的存储器中存储的指令，以使得所述计算设备执行如权利要求1至7任一项所述的数据处理方法。
一种计算设备集群，其特征在于，包括至少一个计算设备，每个计算设备包括处理器和存储器；

所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令，以使得所述计算设备集群执行如权利要求1至7任一项所述的数据处理方法。
一种包含指令的计算机程序产品，其特征在于，当所述指令被计算设备集群运行时，使得所述计算设备集群执行如权利要求的1至7任一项所述的数据处理方法。
一种计算机可读存储介质，其特征在于，包括计算机程序指令，当所述计算机程序指令由计算设备集群执行时，所述计算设备集群执行如权利要求1至7任一项所述的数据处理方法。