WO2023035355A1

WO2023035355A1 - 批流融合的信息处理方法和装置、存储介质

Info

Publication number: WO2023035355A1
Application number: PCT/CN2021/123288
Authority: WO
Inventors: 曹鲁; 马洪宾; 张逸凡; 陈志雄; 李扬; 韩卿
Original assignee: 上海跬智信息技术有限公司
Priority date: 2021-09-08
Filing date: 2021-10-12
Publication date: 2023-03-16
Also published as: EP4170524A4; US20230153308A1; CN113918771A; EP4170524A1

Abstract

本申请公开了一种批流融合的信息处理方法和装置、存储介质。该方法包括基于输入的查询语句获取索引；基于索引提取预计算的索引数据段作为查询结果；提取新计算的索引数据段更新查询结果。本申请解决了实时数据与离线数据难以进行融合分析的技术问题。

Description

批流融合的信息处理方法和装置、存储介质

技术领域

本发明属于数据处理技术领域，尤其涉及一种批流融合的信息处理方法和装置、存储介质。

背景技术

随着工业4.0以及5G时代的到来，人们对于数据处理的时效性有了越来越高的需求。研究表明，数据的价值随着时间的流逝而降低。反过来说，越实时的数据，其价值越高。在此背景下，业界涌现出了像Storm，Spark，Kafka，Flink等一批优秀的开源流计算框架。然而，尽管不少流计算框架宣称自己具备批流一体的处理能力，事实上由于批处理与流计算在使用场景和侧重点的不同——流计算更关注数据的时效性，而批处理则更关注数据的完整性、准确性和计算成本，像Hive这样的批处理系统仍然无法被完全替代。这使得人们在需要将实时数据与离线数据进行融合分析的时候，变得非常困难。数据口径不一致，语义不统一，无法跨系统查询，查询性能无法满足要求等问题，常常会成为难以逾越的鸿沟，困扰着大数据架构师和工程师们。

综上所述，现有技术存在如下技术问题：

将实时数据与离线数据进行融合分析的时候，变得非常困难。

发明内容

为解决上述技术问题，本发明提供一种批流融合的信息处理方法，包括步骤：

基于输入的查询语句获取索引；

基于索引提取预计算的索引数据段作为查询结果；

提取新计算的索引数据段更新查询结果。

优选的，所述基于索引提取预计算的索引数据段作为查询结果，具体包括：

获取索引的统计信息；

在内存中检索拥有该统计信息的预创建索引；

基于预创建索引在存储介质中定位其预计算的索引数据段；

将定位到的预计算的索引数据段作为查询结果。

优选的，所述预计算的索引数据段，具体包括：

基于预先定义的统一模型定义预创建索引；

基于预创建索引进行预计算得到索引数据段；

将预创建索引的统计信息储存于内存，并将预计算的索引数据段储存于存储介质。

优选的，所述基于预先定义的统一模型定义预创建索引，具体包括：

获取预先创建的流数据源映射表、批数据源映射表，其中，流数据源映射表为事实表，批数据源映射表为与其绑定的影子表；

获取预先创建的事实表与影子表连接的维度和度量；

基于获取的维度和度量，确定事实表和影子表与维度表的连接关系；

基于连接关系定义预创建索引。

优选的，所述基于预创建索引计算得到索引数据段，具体包括：

获取预创建索引，其中，预创建索引分为批索引、流索引和融合索引；

基于预创建索引，通过计算引擎在数据源中进行预计算，其中，计算引擎包括批处理计算引擎、流处理计算引擎，数据源包括批数据源、流数据源；

基于预计算得到预计算的索引数据段，其中，预计算的索引数据段分为批索引数据段、流索引数据段。

优选的，所述将预创建索引的统计信息储存于内存，具体包括：

提取预创建索引的统计信息，其中，统计信息包括行数、大小和基数。

优选的，所述提取新计算的索引数据段更新查询结果，具体包括：

基于索引在数据源中进行新计算，其中，索引分为批索引、流索引和融合索引，数据源包括批数据源、流数据源；

通过计算引擎新计算得到新计算的索引数据段，其中，计算引擎包括批处理计算引擎、流处理计算引擎，新计算的索引数据段分为批索引数据段、流索引数据段；

将新计算的索引数据段储存在存储介质中；

提取存储介质中新计算的索引数据段更新查询结果。

一种批流融合的信息处理的装置，其特征在于，包括：

客户端，用于基于输入的查询语句获取索引；

查询引擎，用于基于索引提取预计算的索引数据段作为查询结果；

更新模块，用于提取新计算的索引数据段更新查询结果。

优选的，所述查询引擎：

获取索引的统计信息；

在内存中检索拥有该统计信息的预创建索引；

基于预创建索引在存储介质中定位其预计算的索引数据段；

将定位到的预计算的索引数据段作为查询结果。

优选的，所述查询引擎，包括：

预创建索引定义模块，用于基于预先定义的统一模型定义预创建索引；

预计算模块，用于基于预创建索引进行预计算得到索引数据段；

信息储存模块，将预创建索引的统计信息储存于内存，并将预计算的索引数据段储存于存储介质。

优选的，所述预创建索引定义模块：

获取预先创建的事实表与影子表连接的维度和度量；

基于连接关系定义预创建索引。

优选的，所述预计算模块：

优选的，所述信息储存模块：

优选的，所述更新模块：

将新计算的索引数据段储存在存储介质中；

提取存储介质中新计算的索引数据段更新查询结果。

一种电子设备，包括存储器和处理器，所述存储器存储计算机程序，其特征在于，所述计算机程序在所述处理器中执行可实现以上任一种方法。

一种存储介质，存储计算机程序，其特征在于，所述计算机程序在处理器中执行可实现以上任一种方法。

本发明通过定义统一模型，实现了通过一条SQL查询语句同时分析历史数据和实时数据的技术效果；通过预计算和实时合并技术，实现了有效降低查询响应时间的技术效果；通过将计算结果存储在存储介质中加以重复使用，实现了保障系统稳定性的技术效果；通过不断将新计算的结果储存到存储介质中，实现了更新查询结果的技术效果。

附图说明

图1为本申请的批流融合的信息处理方法的流程图；

图2为本申请的预先定义的统一模型图；

图3为本申请的定义预创建索引的流程图；

图4为本申请的基于预创建索引计算得到索引数据段的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，在本发明的描述中，除非另有明确的规定和限定，术语“存储介质”可以是ROM、RAM、磁碟或者光盘等各种可以存储计算机程序的介质。术语“处理器”可以是CPLD(Complex Programmable Logic Device：复杂可编程逻辑器件)、FPGA(Field－Programmable Gate Array：现场可编程门阵列)、MCU(Microcontroller Unit：微控制单元)、PLC(Programmable Logic Controller：可编程逻辑控制器)以及CPU(Central Processing Unit：中央处理器)等具备数据处理功能的芯片或电路。术语“电子设备”可以是具有数据处理功能和存储功能的任何设备，通常可以包括固定终端和移动终端。固定终端如台式机等。移动终端如手机、PAD以及移动机器人等。此外，后续所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

下面，本发明提出部分优选实施例以教导本领域技术人员实现。

实施例一

本实施例提供一种批流融合的信息处理方法，如图1所示，包括步骤：

S100、基于输入的查询语句获取索引；

S200、基于索引提取预计算的索引数据段作为查询结果；

S300、提取新计算的索引数据基于输入的查询语句获取索引段更新查询结果。

在进一步的实施例中，所述基于输入的查询语句获取索引，具体包括：

S110、获取输入的查询语句；

S120、在查询语句中检索关键词；

S130、根据检索得到的关键词关联维度、度量；

S140、根据关联得到的维度、度量创建索引。

在更进一步的实施例中，所述关键词关联索引，具体包括：

S131、基于维度、度量的种类设置关键词：

S132、建立关键词与其代表的维度、度量的种类的映射关系；

S133、当检索到关键词时，获得其代表的维度、度量的种类。

在进一步的实施例中，所述基于索引提取预计算的索引数据段作为查询结果，具体包括：

S210、获取索引的统计信息；

S220、在内存中检索拥有该统计信息的预创建索引；

S230、基于预创建索引在存储介质中定位其预计算的索引数据段；

S240、将定位到的预计算的索引数据段作为查询结果。

在更进一步的实施例中，所述获取索引的统计信息，具体包括：

S211、接收创建的索引；

S212、对索引进行统计；

S213、根据统计结果得到相关的统计信息，包括但不限于行数、大小和基数。

在进一步的实施例中，所述预计算的索引数据段，具体包括：

S250、基于预先定义的统一模型定义预创建索引；

S260、基于预创建索引进行预计算得到索引数据段；

S270、将预创建索引的统计信息储存于内存，并将预计算的索引数据段储存于存储介质。

在更进一步的实施例中，所述基于预先定义的统一模型定义预创建索引，如图2、图3所示，具体包括：

S251、获取预先创建的流数据源映射表、批数据源映射表，其中，流数据源映射表为事实表，批数据源映射表为与其绑定的影子表；

S252、获取预先创建的事实表与影子表连接的维度和度量；

S253、基于获取的维度和度量，确定事实表和影子表与维度表的连接关系；

S254、基于连接关系定义预创建索引。

在更进一步的实施例中，所述基于预创建索引计算得到索引数据段，如图4所示，具体包括：

S261、获取预创建索引，其中，预创建索引分为批索引、流索引和融合索引；

S262、基于预创建索引，通过计算引擎在数据源中进行预计算，其中，计算引擎包括批处理计算引擎、流处理计算引擎，数据源包括批数据源、流数据源；

S263、基于预计算得到预计算的索引数据段，其中，预计算的索引数据段分为批索引数据段、流索引数据段。

在更进一步的实施例中，所述将预创建索引的统计信息储存于内存，具体包括：

提取预创建索引的统计信息，其中，统计信息包括但不限于行数、大小和基数。

在进一步的实施例中，所述提取新计算的索引数据段更新查询结果，具体包括：

S310、基于索引在数据源中进行新计算，其中，索引分为批索引、流索引和融合索引，数据源包括批数据源、流数据源；

S320、通过计算引擎新计算得到新计算的索引数据段，其中，计算引擎包括批处理计算引擎、流处理计算引擎，新计算的索引数据段分为批索引数据段、流索引数据段；

S330、将新计算的索引数据段储存在存储介质中；

S340、提取存储介质中新计算的索引数据段更新查询结果。

从以上的描述中，可以看出，本发明实现了如下技术效果：

1、通过定义统一模型，实现了通过一条SQL查询语句同时分析历史数据和实时数据的技术效果；

2、通过预计算和实时合并技术，实现了有效降低查询响应时间的技术效果；

3、通过将计算结果存储在存储介质中加以重复使用，实现了保障系统稳定性的技术效果；

4、通过不断将新计算的结果储存到存储介质中，实现了更新查询结果的技术效果。

实施例二

本实施例提供一种批流融合的信息处理的装置，其特征在于，包括：

客户端，用于基于输入的查询语句获取索引；

更新模块，用于提取新计算的索引数据段更新查询结果。

在进一步的实施例中，所述查询引擎：

获取索引的统计信息；

在内存中检索拥有该统计信息的预创建索引；

基于预创建索引在存储介质中定位其预计算的索引数据段；

将定位到的预计算的索引数据段作为查询结果。

在进一步的实施例中，所述查询引擎，包括：

在更进一步的实施例中，所述预创建索引定义模块：

获取预先创建的事实表与影子表连接的维度和度量；

基于连接关系定义预创建索引。

在更进一步的实施例中，所述预计算模块：

在更进一步的实施例中，所述信息储存模块：

在进一步的实施例中，所述更新模块：

将新计算的索引数据段储存在存储介质中；

提取存储介质中新计算的索引数据段更新查询结果。

实施例三

在这个实施例中，一个预创建索引的维度是保险销售员(seller_id)和日期(date)，度量是保单金额总和sum(amount)，由于销售员的数量可能很多，因此这个索引的聚合度可能不是很高。此预创建索引对应的数据内容可能如下表1所示，是按照每位销售员在每天的销售记录的交易额进行汇总的结果：

Seller_Id	Date	Sum(amount)
10001	2020-05-01 00:00:00	100
10001	2020-05-01 00:10:00	200
10002	2020-05-01 00:20:00	150
10003	2020-05-01 00:30:00	80
10003	2020-05-01 00:40:00	30

表1

假设总共有10万个销售员，那么此处省略剩下的10w行预计算结果。

此表的数据内容即为批索引数据段，系统会对该预创建索引进行计算，将计算好的预计算结果保存下来，即将该表数据实时保存。

基于本实施例提供的一种批流融合的信息处理方法，通过步骤：

S100、基于输入的查询语句获取索引；

其中用户提供一条查询：

SQL 1分析编号为10003的销售员从2020年5月1日到目前为止的成交总额：select sum(amount)from transactions where date>timestamp(‘2020-05-01 00:00:00’)and seller_id＝‘10003’

在消费不断产生的流式实时数据时，系统会为这一条查询，建立与上述预创建索引接近的索引。

S110、获取输入的查询语句；

S120、在查询语句中检索关键词；

S130、根据检索得到的关键词关联维度、度量；

S140、根据关联得到的维度、度量创建索引。

在更进一步的实施例中，所述关键词关联索引，具体包括：

S131、基于维度、度量的种类设置关键词：

S132、建立关键词与其代表的维度、度量的种类的映射关系；

S133、当检索到关键词时，获得其代表的维度、度量的种类。

其中在查询语句SQL 1中检索到关键词：销售员(seller_id)、2020年5月1日(date)和成交总额sum(amount)，其中，销售员、2020年5月1日关联维度分别为保险销售员(seller_id)和日期(date)，成交总额sum(amount)关联度量为保单金额总和sum(amount)。

S200、基于索引提取预计算的索引数据段作为查询结果；

在查询SQL1中的语句时，直接利用之前预存在存储介质中的结果直接回答，即表1的数据，也是批式数据，保障了系统的性能和效率以及稳定性。

S210、获取索引的统计信息；

S220、在内存中检索拥有该统计信息的预创建索引；

S240、将定位到的预计算的索引数据段作为查询结果。

其中索引的有三列，每列基数为Seller_Id、Date和Sum(amount)，在内存中储存的预创建索引的统计信息中检测，得到上述预创建索引，在存储介质中定位其预计算的索引数据段，即表1，将表1作为查询结果回答。

S211、接收创建的索引；

S212、对索引进行统计；

其中统计得到的该索引的统计信息为三列，每列基数为Seller_Id、Date和Sum(amount)。

S250、基于预先定义的统一模型定义预创建索引；

S260、基于预创建索引进行预计算得到索引数据段；

S252、获取预先创建的事实表与影子表连接的维度和度量；

S254、基于连接关系定义预创建索引。

其中维度分别为保险销售员(seller_id)和日期(date)，度量为保单金额总和sum(amount)。

其中预计算得到的批索引数据段为表1.

同时随着不断将新计算的结果储存到存储介质中，查询中的结果也会发生相应的更新。

S330、将新计算的索引数据段储存在存储介质中；

S340、提取存储介质中新计算的索引数据段更新查询结果。

实施例四

本发明实施例，还包括一种电子设备，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序在所述处理器中执行时用于实现上述的批流融合的信息处理方法，该方法包括：

基于输入的查询语句获取索引；

基于索引提取预计算的索引数据段作为查询结果；

提取新计算的索引数据段更新查询结果。

实施例五

本实施例中，本发明还提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现上述的批流融合的信息处理方法，该方法包括：

基于输入的查询语句获取索引；

基于索引提取预计算的索引数据段作为查询结果；

提取新计算的索引数据段更新查询结果。

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific Integrated Circuits，ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述终端或者服务器的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，DSP)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种批流融合的信息处理方法，包括：

基于输入的查询语句获取索引；

基于索引提取预计算的索引数据段作为查询结果；

提取新计算的索引数据段更新查询结果。
如权利要求1所述的方法，其中，所述基于索引提取预计算的索引数据段作为查询结果，具体包括：

获取索引的统计信息；

在内存中检索拥有该统计信息的预创建索引；

基于预创建索引在存储介质中定位其预计算的索引数据段；

将定位到的预计算的索引数据段作为查询结果。
如权利要求1所述的方法，其中，所述预计算的索引数据段，具体包括：

基于预先定义的统一模型定义预创建索引；

基于预创建索引进行预计算得到索引数据段；

将预创建索引的统计信息储存于内存，并将预计算的索引数据段储存于存储介质。
如权利要求3所述的方法，其中，所述基于预先定义的统一模型定义预创建索引，具体包括：

获取预先创建的流数据源映射表、批数据源映射表，其中，流数据源映射表为事实表，批数据源映射表为与其绑定的影子表；

获取预先创建的事实表与影子表连接的维度和度量；

基于获取的维度和度量，确定事实表和影子表与维度表的连接关系；

基于连接关系定义预创建索引。
如权利要求3所述的方法，其中，所述基于预创建索引计算得到索引数据段，具体包括：

获取预创建索引，其中，预创建索引分为批索引、流索引和融合索引；

基于预创建索引，通过计算引擎在数据源中进行预计算，其中，计算引擎包括批处理计算引擎、流处理计算引擎，数据源包括批数据源、流数据源；

基于预计算得到预计算的索引数据段，其中，预计算的索引数据段分为批索引数据段、流索引数据段。
如权利要求3所述的方法，其中，所述将预创建索引的统计信息储存于内存，具体包括：

提取预创建索引的统计信息，其中，统计信息包括行数、大小和基数。
如权利要求1所述的方法，其中，所述提取新计算的索引数据段更新查询结果，具体包括：

基于索引在数据源中进行新计算，其中，索引分为批索引、流索引和融合索引，数据源包括批数据源、流数据源；

通过计算引擎新计算得到新计算的索引数据段，其中，计算引擎包括批处理计算引擎、流处理计算引擎，新计算的索引数据段分为批索引数据段、流索引数据段；

将新计算的索引数据段储存在存储介质中；

提取存储介质中新计算的索引数据段更新查询结果。
一种批流融合的信息处理的装置，其特征在于，包括：

客户端，用于基于输入的查询语句获取索引；

查询引擎，用于基于索引提取预计算的索引数据段作为查询结果；

更新模块，用于提取新计算的索引数据段更新查询结果。
如权利要求8所述的装置，其中，所述查询引擎：

获取索引的统计信息；

在内存中检索拥有该统计信息的预创建索引；

基于预创建索引在存储介质中定位其预计算的索引数据段；

将定位到的预计算的索引数据段作为查询结果。
如权利要求8所述的装置，其中，所述查询引擎，包括：

预创建索引定义模块，用于基于预先定义的统一模型定义预创建索引；

预计算模块，用于基于预创建索引进行预计算得到索引数据段；

信息储存模块，将预创建索引的统计信息储存于内存，并将预计算的索引数据段储存于存储介质。
如权利要求10所述的装置，其中，所述预创建索引定义模块：

获取预先创建的流数据源映射表、批数据源映射表，其中，流数据源映射表为事实表，批数据源映射表为与其绑定的影子表；

获取预先创建的事实表与影子表连接的维度和度量；

基于获取的维度和度量，确定事实表和影子表与维度表的连接关系；

基于连接关系定义预创建索引。
如权利要求8所述的装置，其中，所述预计算模块：

获取预创建索引，其中，预创建索引分为批索引、流索引和融合索引；

基于预创建索引，通过计算引擎在数据源中进行预计算，其中，计算引擎包括批处理计算引擎、流处理计算引擎，数据源包括批数据源、流数据源；

基于预计算得到预计算的索引数据段，其中，预计算的索引数据段分为批索引数据段、流索引数据段。
如权利要求8所述的装置，其中，所述更新模块：

基于索引在数据源中进行新计算，其中，索引分为批索引、流索引和融合索引，数据源包括批数据源、流数据源；

通过计算引擎新计算得到新计算的索引数据段，其中，计算引擎包括批处理计算引擎、流处理计算引擎，新计算的索引数据段分为批索引数据段、流索引数据段；

将新计算的索引数据段储存在存储介质中；

提取存储介质中新计算的索引数据段更新查询结果。
一种电子设备，包括存储器和处理器，所述存储器存储计算机程序，其特征在于，所述计算机程序在所述处理器中执行可实现权利要求1-7中任一种方法。
一种存储介质，存储计算机程序，其特征在于，所述计算机程序在处理器中执行可实现权利要求1-7中任一种方法。