WO2019114754A1

WO2019114754A1 - 一种列式存储下多时间序列的连接查询方法及系统

Info

Publication number: WO2019114754A1
Application number: PCT/CN2018/120603
Authority: WO
Inventors: 王建民; 黄向东; 曹高飞; 乔嘉林; 江天; 芮蕾; 王晨; 龙明盛
Original assignee: 清华大学
Priority date: 2017-12-12
Filing date: 2018-12-12
Publication date: 2019-06-20
Also published as: CN108062378A; EP3726397A1; CN108062378B; EP3726397A4

Abstract

一种列式存储下多时间序列的连接查询方法，包括：将列式存储的多个时间序列划分为多个待查询序列和多个过滤序列，所述时间序列包括时间戳序列和数据值序列（步骤S1）；从每一过滤序列的时间戳序列中筛选出每一过滤序列满足预设过滤条件的时间戳（步骤S2）；基于每一过滤序列满足所述预设过滤条件的时间戳，对所述查询序列进行遍历，获取连接查询结果，所述连接查询结果为查询序列的时间戳以及查询序列的时间戳对应的数据值（步骤S3）。通过对所有列的过滤条件计算出满足该所有条件的时间戳，再通过该时间戳来对查询列进行查询，能够根据时序数据的特点进行有效的过滤及查询。

Description

一种列式存储下多时间序列的连接查询方法及系统

交叉引用

本申请引用于2017年12月12日提交的专利名称为“一种列式存储下多时间序列的连接查询方法及系统”的第2017113226315号中国专利申请，其通过引用被全部并入本申请。

技术领域

本公开属于计算机数据管理技术领域，更具体地，涉及一种列式存储下多时间序列的连接查询方法及系统。

背景技术

伴随着云计算、互联网、物联网等现代技术的不断发展和成熟，人们对数据的关注度越来越高。数据来源于我们生活的方方面面，包括企业的生产交易数据、互联网中人与人的交互数据、物联网中传感器回传的监测数据等等，在这其中时间序列数据占据了很大的比重。时间序列数据简称时序数据，是指传感器在不同时间点上收集到的数据，数据中必须包含时间戳timestamp字段，除timestamp字段外还需包含传感器唯一ID及该时间戳下的数据值，比如一段时间内的环境温度、股票价格、机器的内存使用率等。这类数据反映了某一事物、现象等随时间的变化状态。

针对以上特点，时序数据存储多采用列式存储，即将时间戳序列、值列分别单独存储，因为同一列的数据类型都是一致的，所以对列式存储的数据可以采用高效的数据压缩编码方法，从而大大降低存储数据占用的空间。

但是在列式存储降低数据存储量的同时，对于数据的查询效率和查询准确率将会降低，因而现在亟须一种针对列式存储下的多时间序列的连接查询方法。

发明内容

本公开提供一种克服上述问题或者至少部分地解决上述问题的一种列式存储下多时间序列的连接查询方法，其特征在于，包括：

步骤S1、将列式存储的多个时间序列划分为多个待查询序列和多个过滤序列，所述时间序列包括时间戳序列和数据值序列；

步骤S2、从每一过滤序列的时间戳序列中筛选出每一过滤序列满足预设过滤条件的时间戳；

步骤S3、基于每一过滤序列满足所述预设过滤条件的时间戳，对所述查询序列进行遍历，获取连接查询结果，所述连接查询结果为查询序列的时间戳以及查询序列的时间戳对应的数据值。

其中，步骤S2包括：

S21、获取每一过滤序列对应的过滤条件，所述过滤条件包括时间戳限制和数据值限制；

S22、对于每一过滤序列，存储所述过滤序列的时间戳序列中的时间戳满足所述时间戳限制并且所述时间戳对应的数据值同时满足所述数据值限制的时间戳。

其中，步骤S22具体包括：

同时对每一过滤序列时间戳序列中的时间戳和过滤序列数据值序列的数据值进行批量读取，所述批量读取为每次读取预设数量的时间戳和数据值，直至所述时间戳序列中的时间戳和数据值序列的数据值全部被读取完；

基于读取结果，分别存储每一过滤序列满足过滤条件的时间戳。

其中，步骤S3包括：

S31、在每一过滤序列满足过滤条件的时间戳中，筛选出所有过滤序列共有的第一时间戳；

S32、在所述查询序列中遍历，获取所述查询序列的时间戳序列中与所述第一时间戳相同的第二时间戳；

S33、将所述第二时间戳以及所述第二时间戳对应的数据值作为连接查询结果。

其中，步骤S31包括：

从每一过滤序列满足过滤条件的时间戳中分别选取一个目标时间戳存储在预设的存储队列中；

基于每一过滤序列对应的目标时间戳，在其余过滤序列满足过滤条件的时间戳中遍历，若其余过滤序列过滤条件的时间戳中均包含所述目标时间戳，则将所述目标时间戳作为所述第一时间戳。

其中，步骤S31还包括:

基于每一过滤序列对应的目标时间戳，在其余过滤序列满足过滤条件的时间戳中遍历，若其余任一过滤序列满足过滤条件的时间戳中没有所述目标时间戳，则从所述存储队列中删除所述目标时间戳。

其中，所述存储队列为优先级队列。

根据本公开的第二方面，提供一种列式存储下多时间序列的连接查询系统，其特征在于，包括：

序列划分模块，用于将列式存储的多个时间序列划分为多个待查询序列和多个过滤序列，所述时间序列包括时间戳序列和数据值序列；

时间戳过滤模块，用于从每一过滤序列的时间戳序列中筛选出每一过滤序列满足预设过滤条件的时间戳；

连接查询模块，用于基于每一过滤序列满足所述预设过滤条件的时间戳，对所述查询序列进行遍历，获取连接查询结果，所述连接查询结果为查询序列的时间戳以及查询序列的时间戳对应的数据值。

根据本公开的第三方面，提供一种计算机程序产品，包括程序代码，所述程序代码用于执行上述所述的一种时间序列压缩存储方法。

根据本公开的第四方面，提供一种非暂态计算机可读存储介质，用于存储如前所述的计算机程序。

本公开提供的一种列式存储下多时间序列的连接查询方法及系统，通过对所有列的过滤条件计算出满足该所有条件的时间戳，再通过该时间戳来对查询列进行查询，能够根据时序数据的特点进行有效的过滤及查询。

附图说明

图1是本公开实施例提供的一种列式存储下多时间序列的连接查询方法流程图；

图2是本公开实施例提供的一种列式存储下多时间序列的连接查询实例示意图；

图3是本公开实施例提供的一种列式存储下多时间序列的连接查询系统结构图。

具体实施方式

下面结合附图和实施例，对本公开的具体实施方式作进一步详细描述。以下实施例用于说明本公开，但不用来限制本公开的范围。

现有技术中，对于时序数据的存储更多的已开始采用列式存储的方式，所述列式存储为将时间戳序列、值列分别单独存储，因为同一列的数据类型都是一致的，所以对列式存储的数据可以采用高效的数据压缩编码方法，从而大大降低存储数据占用的空间。

但是列式存储在大大降低数据存储量的同时也引入了新的问题，即如何高效地对多个时间序列进行依据时间戳的连接(join)查询。现有的技术手段中还没有一种连接查询方法能够高效、快速的完成连接查询功能。

针对上述现有技术中存在的问题，本公开实施例提供了一种列式存储下多时间序列的连接查询方法及系统，通过对所有列的过滤条件计算出满足该所有条件的时间戳，再通过该时间戳来对查询列进行查询，能够根据时序数据的特点进行有效的过滤及查询。

图1是本公开实施例提供的一种列式存储下多时间序列的连接查询方法流程图，如图1所示，所述方法包括：

具体的，步骤S1中所述列式存储的多个时间序列中每一个时间序列的时间戳序列与数据列分别单独存储，且时间列存储的是严格递增的时间戳，定义当前存储的所有时间序列共有N_0列，每一列均存储各自的时间戳序列与值列，定义其中待查询序列共有N_1列数据，该N_1列为Q ₁,Q ₂…Q _i…Q _{N_1-1},Q _N，其中Q _i表示对第i列的查询，定义其中划分的有N_2列过滤序列，本公开实施例对具体的时间序列数量、待查询序列的数量以及过滤序列的数量不做具体限定。

步骤S2中，所述预设的过滤条件对于每一过滤序列可能相同也可能不同，定义过滤条件为F ₁,F ₂…F _i…F _{N_2-1},F _{N_2}，其中F _i表示对第i列存储数据的过滤条件，那么依据过滤条件将可以从每一过滤序列时间戳序列中筛选出满足预设过滤条件的时间戳。

步骤S3中，通过满足预设过滤条件的时间戳来对查询列进行查询，能够根据时序数据的特点进行有效的过滤及查询。

在上述实施例的基础上，步骤S2包括：

S21中，过滤序列中对应含有过滤条件，所述过滤条件为对时间戳的过滤限制以及对数据值的过滤限制，例如：过滤条件为“time>5,value＝c”，那么时间戳限制为必须大于5，数据值限制为必须等于c。

S22中，本公开实施例的操作对象实质上是对于每一过滤序列进行的，对每一过滤序列的时间戳序列和数据值序列同时进行数据读取，当所述过滤序列时间戳序列中的时间戳满足所述时间戳限制并且所述过滤序列数据值序列的数据值满足所述数据值限制时，判定此时过滤成功，保留过滤成功的数据对应的时间戳。

在上述实施例的基础上，步骤S22具体包括：

可以理解的是，由于内存中可存储的数据量有限，故而本公开实施例采用了分批形式读取数据，定义每次对一列进行分批读的数据条数上限是T，那么同时对每一过滤序列开始进行读取，每次读取的数据量为T，直至一个过滤序列中所有数据量被读取完。

在读取过程中分别存储每一过滤序列满足所述时间戳限制的时间戳。

在上述实施例的基础上，步骤S3包括：

步骤S31中，可以理解的是，对应于每一过滤序列，均包括每一过滤序列满足过滤条件的时间戳集合，本公开实施例需要从所有过滤序列中筛选出共有的时间戳，即本公开实施例所述的第一时间戳。

步骤S32中，利用所述第一时间戳能够在查询序列中遍历，获取查询序列中相同的时间戳，从而在步骤S33中输出查询结果。

在上述实施例的基础上，步骤S31包括：

步骤S31还包括:

可以理解的是，在筛选共有的第一时间戳时本公开实施例采用的是存储队列依次查询的方法，即从每一过滤序列满足过滤条件的时间戳中选取一个时间戳存储在存储队列中，再将该时间戳在其余过滤序列满足过滤条件的时间戳中遍历，确定是否所有过滤序列均包含此时间戳，若包含此时间戳，则将目标时间戳作为所述第一时间戳，存储在预设的列表QLIST中，所述列表QLIST存储根据过滤条件计算得到的要查询的时间戳。

若不包含此时间戳，则在所述存储队列中删除所述目标时间戳，直至所有过滤序列满足过滤条件的时间戳均完成上述过程。

在上述实施例的基础上，所述存储队列为优先级队列。

可以理解的是，采用优先级队列的方式，能够对存储队列中的多个时间戳进行优先级分类，从而优先处理优先级较高的时间戳，提高遍历效率。

一般的，采用时间戳由小到大的方式来定义优先级。

图2是本公开实施例提供的一种列式存储下多时间序列的连接查询实例示意图，如图2所示，本公开实施例提供了查询列1和查询列2以及过滤列3和过滤列4，本公开实施例依据图2做出如下列式存储下多时间序列的连接查询流程。

如图2所示，列3的过滤条件为“time>5,value＝c”，列4的过滤条件为“time≤10,value！＝x”，即满足过滤条件的列3数据，其时间戳要大于5且值等于c；满足过滤条件的列4数据，其时间戳要小于或等于10，其值不能等于x。

具体的，步骤包括：

(1)记F_INDEX＝0；初始化列表Array ₁,Array ₂…Array _{N_2}与各列表的容量统计值Size ₁,Size ₂…Size _{N_2}，其中Array _i表示第i列数据中满足过滤条件F _i的时间戳序列表，Size _i表示Array _i存储的数据量；记L_Array ₁,L_Array ₂…L_Array _{N_2}分别表示列表Array ₁,Array ₂…Array _{N_2}的数据量大小。对应于图2，Array ₁与Array ₂可分别存储列3与列4满足过滤条件的时间戳，即{7,10}与{3,7,10}。

(2)若F_INDEX>N_2，则直接使用优先级队列存储时间戳变量，跳转至(4)；

若Size _{F_INDEX}≥T，T为每批读取的数据个数，或第F_INDEX列所有的数据已被读完，则F_INDEX＝F_INDEX+1。

否则，读取第F_INDEX列未被读取的下一条数据，若该条数据的时间戳及值满足过滤条件F _{F_INDEX}则将该条数据的时间戳放到Array _{F_INDEX}，Size _{F_INDEX}＝Size _{F_INDEX}+1。

(3)F_INDEX＝F_INDEX+1，跳转至(2)重复执行。

(4)本公开实施例使用优先级队列PQ存储时间戳变量。在该队列中，越小的时间戳其优先级越高；设Array_I ₁…Array_I _{N_2}分别表示Array ₁,Array ₂…Array _{N_2}中已读取的数据条数，初始化时Array_I ₁…Array_I _{N_2}的值都为0。

(5)依次遍历Array ₁,Array ₂…Array _{N_2}，当遍历到Array _i时,将Array _i的首条数据放入PQ，Array_I _i＝Array_I _i+1。对应于图2，Array ₁与Array ₂的首条时间戳分别为{7},{3}。

(6)初始化t_0＝-1。

(7)若PQ不为空，取出PQ的首条数据t_1，t_1为一个时间戳；否则，直接根据QLIST对查询列进行查询，QLIST是本公开实施例提供。若Array ₁,Array ₂…Array _{N_2}没有都包含t_1，则重复执行上述过程。若t_0＝-1，将t_1加入到列表QLIST，t_0＝t_1；否则，若t_1不等于t_0，将t_1加入到列表QLIST，t_0＝t_1。对应于图2，首先对于时间戳3，只有列4包含等于该时间戳的数据点，列3未包含等于该时间戳的点，所以时间戳3会被丢弃；对于时间戳7，列3与列4都包含等于该时间戳的点，所以该点是过滤列的共有时间戳。

(8)初始化j＝1。

(9)依次遍历Array _j的每条数据，若j>N_2，返回(7)，若Array_I _j＞L_Array _j，j＝j+1，执行(9)；若Array _j的第Array_I _j项等于t_1，则Array_I _j＝Array_I _j+1，执行(9)，若Array _j的第Array_I _j项等于t_1，则Array_I _j＝Array_I _j+1，执行(9)；若Array _j的第Array_I _j项不等于t_1，则将Array _j的第Array_I _j项加进PQ，Array_I _j＞L_Array _j，j＝j+1，执行(9)。

(10)根据QLIST里的时间戳对查询列Q ₁,Q ₂…Q _i…Q _{N_1-1},Q _N进行查询及输出，只有当待查询列里Q ₁,Q ₂…Q _i…Q _{N_1-1},Q _N数据的时间戳在QLIST里才将其输出。若过滤列还有未读取的数据时，跳转到(2)，否则结束查询过程。对应于图1，通过过滤列计算得到的公共时间戳为{7,10}，查询列为列1与列2，通过对列1与列2的查询，最终输出结果如表1所示：

表1连接查询结果

time	value1	value2
7	b	g
10	d	h

从查询的输出结果可以看出，本公开实施例通过对所有列的过滤条件计算出满足该所有条件的公共时间戳，再通过该时间戳来对查询列进行查询，能够根据时序数据的特点进行有效的过滤及查询。

并且在查询过程中采用多路分批归并的算法，通过分批读取使得每次的内存占用量较小，通过多次对分批读取算法的迭代，将每次读取结果的一部分汇聚成最终结果。

图3是本公开实施例提供的一种列式存储下多时间序列的连接查询系统结构图，如图3所示，一种列式存储下多时间序列的连接查询系统，包括：窗口划分模块1、特征值计算模块2、特征距离比较模块3以及压缩存储模块4，其中：

序列划分模块1用于将列式存储的多个时间序列划分为多个待查询序列和多个过滤序列，所述时间序列包括时间戳序列和数据值序列；

时间戳过滤模块2用于从每一过滤序列的时间戳序列中筛选出每一过滤序列满足预设过滤条件的时间戳；

连接查询模块3用于基于每一过滤序列满足所述预设过滤条件的时间戳，对所述查询序列进行遍历，获取连接查询结果，所述连接查询结果为查询序列的时间戳以及查询序列的时间戳对应的数据值。

具体的如何利用序列划分模块1、时间戳过滤模块2以及连接查询模块3对列式存储下多时间序列进行连接查询可参见上述实施例，本公开实施例对此不再赘述。

本公开实施例提供一种列式存储下多时间序列的连接查询系统，包括：至少一个处理器；以及与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令以执行上述各方法实施例所提供的方法，例如包括：步骤S1、将列式存储的多个时间序列划分为多个待查询序列和多个过滤序列，所述时间序列包括时间戳序列和数据值序列；步骤S2、从每一过滤序列的时间戳序列中筛选出每一过滤序列满足预设过滤条件的时间戳；步骤S3、基于每一过滤序列满足所述预设过滤条件的时间戳，对所述查询序列进行遍历，获取连接查询结果，所述连接查询结果为查询序列的时间戳以及查询序列的时间戳对应的数据值。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：步骤S1、将列式存储的多个时间序列划分为多个待查询序列和多个过滤序列，所述时间序列包括时间戳序列和数据值序列；步骤S2、从每一过滤序列的时间戳序列中筛选出每一过滤序列满足预设过滤条件的时间戳；步骤S3、基于每一过滤序列满足所述预设过滤条件的时间戳，对所述查询序列进行遍历，获取连接查询结果，所述连接查询结果为查询序列的时间戳以及查询序列的时间戳对应的数据值。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：步骤S1、将列式存储的多个时间序列划分为多个待查询序列和多个过滤序列，所述时间序列包括时间戳序列和数据值序列；步骤S2、从每一过滤序列的时间戳序列中筛选出每一过滤序列满足预设过滤条件的时间戳；步骤S3、基于每一过滤序列满足所述预设过滤条件的时间戳，对所述查询序列进行遍历，获取连接查询结果，所述连接查询结果为查询序列的时间戳以及查询序列的时间戳对应的数据值。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本公开的保护范围。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种列式存储下多时间序列的连接查询方法，其特征在于，包括:

步骤S1、将列式存储的多个时间序列划分为多个待查询序列和多个过滤序列，所述时间序列包括时间戳序列和数据值序列；

步骤S2、从每一过滤序列的时间戳序列中筛选出每一过滤序列满足预设过滤条件的时间戳；

步骤S3、基于每一过滤序列满足所述预设过滤条件的时间戳，对所述查询序列进行遍历，获取连接查询结果，所述连接查询结果为查询序列的时间戳以及查询序列的时间戳对应的数据值。
根据权利要求1所述的方法，其特征在于，步骤S2包括：

S21、获取每一过滤序列对应的过滤条件，所述过滤条件包括时间戳限制和数据值限制；

S22、对于每一过滤序列，存储所述过滤序列的时间戳序列中的时间戳满足所述时间戳限制并且所述时间戳对应的数据值同时满足所述数据值限制的时间戳。
根据权利要求2所述的方法，其特征在于，步骤S22具体包括：

同时对每一过滤序列时间戳序列中的时间戳和过滤序列数据值序列的数据值进行批量读取，所述批量读取为每次读取预设数量的时间戳和数据值，直至所述时间戳序列中的时间戳和数据值序列的数据值全部被读取完；

基于读取结果，分别存储每一过滤序列满足过滤条件的时间戳。
根据权利要求1所述的方法，其特征在于，步骤S3包括：

S31、在每一过滤序列满足过滤条件的时间戳中，筛选出所有过滤序列共有的第一时间戳；

S32、在所述查询序列中遍历，获取所述查询序列的时间戳序列中与所述第一时间戳相同的第二时间戳；

S33、将所述第二时间戳以及所述第二时间戳对应的数据值作为连接查询结果。
根据权利要求4所述的方法，其特征在于，步骤S31包括：

从每一过滤序列满足过滤条件的时间戳中分别选取一个目标时间戳存储在预设的存储队列中；

基于每一过滤序列对应的目标时间戳，在其余过滤序列满足过滤条件的时间戳中遍历，若其余过滤序列过滤条件的时间戳中均包含所述目标时间戳，则将所述目标时间戳作为所述第一时间戳。
根据权利要求5所述的方法，其特征在于，步骤S31还包括：

基于每一过滤序列对应的目标时间戳，在其余过滤序列满足过滤条件的时间戳中遍历，若其余任一过滤序列满足过滤条件的时间戳中没有所述目标时间戳，则从所述存储队列中删除所述目标时间戳。
根据权利要求5或6所述的方法，其特征在于，所述存储队列为优先级队列。
一种列式存储下多时间序列的连接查询系统，其特征在于，包括：

序列划分模块，用于将列式存储的多个时间序列划分为多个待查询序列和多个过滤序列，所述时间序列包括时间戳序列和数据值序列；

时间戳过滤模块，用于从每一过滤序列的时间戳序列中筛选出每一过滤序列满足预设过滤条件的时间戳；

连接查询模块，用于基于每一过滤序列满足所述预设过滤条件的时间戳，对所述查询序列进行遍历，获取连接查询结果，所述连接查询结果为查询序列的时间戳以及查询序列的时间戳对应的数据值。
一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如权利要求1至7任一所述的方法。
一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。