WO2022126551A1

WO2022126551A1 - 一种时序数据的存储方法

Info

Publication number: WO2022126551A1
Application number: PCT/CN2020/137378
Authority: WO
Inventors: 程洪泽; 廖浩均; 陶建辉
Original assignee: 北京涛思数据科技有限公司
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2022-06-23
Also published as: EP4266187A1; US20230385254A1

Abstract

本发明公开了一种时序数据的存储方法，包括：将来自网络的每条时间线的时序数据记录以行式存储方式缓存至内存；当所述内存中缓存的一条时间线的时序数据记录需要落盘时，确定所述时间线的待落盘的时序数据记录的条数和Last文件中的时序数据记录的条数之和；若所述时间线的时序数据记录条数之和小于预定数据记录条数N，则将所述时间线的待落盘的时序数据记录写入所述Last文件中；若所述时间线的时序数据记录条数之和大于或等于预定数据记录条数N，则将所述时间线的待落盘的时序数据记录和所述Last文件中的时序数据记录合并后以列式存储方式写入data文件中。

Description

一种时序数据的存储方法

技术领域

本发明涉及数据处理领域，特别涉及一种时序数据的存储方法。

背景技术

为提高压缩率和分析速度，时序数据一般采取列式存储。列式存储需要把时序数据按照时间段一段一段的存储。新建一段时，往往需要预留一片存储空间。当时间线特别多时，比如一千万条时间线，需要预留的空间就很大，导致系统存储资源特别是内存资源不足。

发明内容

本发明实施例提供一种时序数据的存储方法，解决在列式存储时序数据记录时为时序数据记录预留大量空间而导致存储资源不足的问题。

本发明实施例提供一种时序数据的存储方法，所述方法包括：

将来自网络的每条时间线的时序数据记录以行式存储方式缓存至内存；

当所述内存中缓存的一条时间线的时序数据记录需要落盘时，确定所述时间线的待落盘的时序数据记录的条数和Last文件中的时序数据记录的条数之和；

若所述时间线的时序数据记录条数之和小于预定数据记录条数N，则将所述时间线的待落盘的时序数据记录写入所述和Last文件中；

若所述时间线的时序数据记录条数之和大于或等于预定数据记录条数N，则将所述时间线的待落盘的时序数据记录和所述Last文件中的时序数据记录合并后以列式存储方式写入data文件中。

优选地，所述内存中缓存的一条时间线的时序数据记录需要落盘包括：

检测所述内存或所述内存中缓存的某一时间线的偏移量列表；

若所述内存不足或所述内存中缓存的某一时间线的偏移量列表被占满时，确定所述内存中缓存的一条时间线的时序数据记录需要落盘。

优选地，所述Last文件为所述每条时间线预留用来存储该条时间线的N条时序数据记录的存储空间。

优选地，所述将所述时间线的待落盘的时序数据记录写入所述Last文件中包括：

将所述时间线的待落盘的时序数据记录追加到所述时间线的存储空间中的所有时序数据记录之后。

优选地，所述Last文件中具有包含N个偏移量记录的偏移量列表，所述偏移量记录用于指示所述时间线的时序数据记录的偏移量。

优选地，在将所述时间线的待落盘的时序数据记录写入所述Last文件中后，将相应时序数据记录的偏移量依次追加到所述时间线的偏移量列表中。

优选地，所述Last文件中包含在前已写入的所述时间线的时序数据记录。

将所述时间线的待落盘的时序数据记录和从所述Last文件中读取的所述时间线的时序数据记录进行合并，得到所述时间线的已合并时序数据记录；

创建用于存储所述时间线的已合并时序数据记录的新Last文件；

将所述时间线的已合并时序数据记录写入所述新Last文件中，然后删除所述时间线的原有的Last文件。

优选地，所述将所述时间线的待落盘的时序数据记录和所述Last文件中的时序数据记录合并后以列式存储方式写入data文件中包括：

从所述Last文件中读取所述时间线的时序数据记录；

以列式存储方式将所述时间线的已合并时序数据记录写入所述data文件。

优选地，所述Last文件和所述data文件均是所述持久化存储介质中的用来存储时序数据记录的文件。

本发明实施例提供的技术方案具有如下有益效果：

本发明实施例在内存的时序数据记录落盘时，若内存中的时序数据记录和Last文件的时序数据记录的总条数大于预设数据记录条数N，则将记录合并后进行列式存储，因此无需为每条时间线预留大量的存储资源，解决了在列式存储时序数据记录时为时序数据记录预留大量空间而导致存储资源不足的问题。

附图说明

图1是本发明实施例提供的一种时序数据的存储方法的流程示意图；

图2是本发明实施例提供的内存中的存储结构示意图；

图3是本发明实施例提供的采用预留存储空间模式的Last文件示意图；

图4是本发明实施例提供的采用不预留存储空间模式的Last文件示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行详细说明，应当理解，以下所说明的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1是本发明实施例提供的一种时序数据的存储方法的流程示意图，如图1所示，所述方法可以包括：

步骤S101：将来自网络的每条时间线的时序数据记录以行式存储方式缓存至内存；

步骤S102：当所述内存中缓存的一条时间线的时序数据记录需要落盘时，确定所述时间线的待落盘的时序数据记录的条数和Last文件中的时序数据记录的条数之和；

步骤S103：若所述时间线的时序数据记录条数之和小于预定数据记录条数N，则将所述时间线的待落盘的时序数据记录写入所述Last文件，若所述时间线的时序数据记录条数之和大于或等于预定数据记录条数N，则将所述时间线的待落盘的时序数据记录和所述Last文件中的时序数据记录合并后以列式存储方式写入data文件中。

时序数据记录是一种按照时间顺序记录的时间序列数据，每条时间线的时序数据记录是一个数据采集点采集的数据，即各种参数的数据。

本发明实施例的持久化存储介质中包括两个用于保存落盘数据的文件，一个是采用列式存储方式存储时序数据记录的文件，为便于说明，本发明实施例中记作data文件，所述data文件中的每个数据块中的时序数据记录的条数大于等于N，需要说明的是，也可以采用除data文件以外的其它文件名称，采用何种文件名称不用于限制本发明；另一个是用于存储最新时序数据记录的文件，本发明实施例中记作Last文件，所述Last文件的记录条数小于N，需要说明的是，也可以采用除Last文件以外的其它文件名称，采用何种文件名称不用于限制本发明。换句话说，所述Last文件和所述data文件是所述持久化存储介质中的用来存储时序数据记录的文件。

其中，所述行式存储方式是按照时序依次记录每条时序数据记录(一条时序数据记录包括多个参数的数据)，即将时序数据记录一条接着一条存储。

其中，所述列式存储方式是按照时序依次记录每个参数的数据，即将记录中每个参数的数据一个接着一个存储。

在一个实施方式中，在内存数据记录落盘时，可计算内存中的时序数据记录的条数和Last文件的时序数据记录条数之和，进而确定相应的执行方案。具体如下：

上述步骤S102包括：对于任意一条时间线，检测所述内存的存储空间或所述内存中缓存的某一时间线的偏移量列表，若所述内存不足(例如小于预设值)或所述内存中缓存的某一时间线的偏移量列表被占满时，确定所述内存中缓存的一条时间线的时序数据记录需要落盘，即将内存数据写入持久化存储介质。此时，检查所述Last文件，确定已存储在所述Last文件的所述时间线的时序数据记录的条数，然后将已存储在所述Last文件的所述时间线的时序数据记录的条数与所述内存中的待落盘的所述时间线的时序数据记录的条数相加，得到所述时间线的时序数据记录的总条数。

其中，所述内存中缓存的时间线的偏移量列表包括多个偏移量记录，所述偏移量记录用于指示所述时间线的时序数据记录在内存中的偏移量。

上述步骤S103中，所述预定数据记录条数N是执行列式存储所需的最低条数，也就是说，每条时间线的时序数据记录至少N条时才允许将所述至少N条时序数据记录写入data文件。

上述步骤S103中，Last文件的存储格式可以有多种，本发明提出三种，对应地，将所述时间线的待落盘的时序数据记录写入所述Last文件也包括三种方式，分别如下：

方式1：Last文件采用预留空间方式

在本方式中，所述Last文件为所述每条时间线预留用来存储该条时间线的N条时序数据记录的存储空间。

这样，当所述时间线的时序数据记录的总条数小于预定数据记录条数N时，说明没有达到执行列式存储所需的最低条数，此时将所述时间线的待落盘的时序数据记录直接追加到所述时间线的存储空间中的所有时序数据记录之后。

对于单条时间线的时序数据记录，追加操作简单，磁盘IO次数少，读写速度快，但需要耗费少量存储空间(即N条时序数据记录)。

尽管需要为少量时序数据记录(即N条时序数据记录)预留存储空间，但与已有技术预留的存储空间相比，仍节省了大量存储空间。

方式2：Last文件采用不预留空间方式1

在本方式中，所述Last文件中具有包含N个偏移量记录的偏移量列表，所述偏移量记录用于指示所述时间线的时序数据记录的偏移量。

这样，当所述时间线的时序数据记录的总条数小于预定数据记录条数N时，说明没有达到执行列式存储所需的最低条数，此时将所述时间线的待落盘的时序数据记录写入所述Last文件，然后将本次写入所述Last文件的相应时序数据记录的偏移量依次追加到所述时间线的偏移量列表中即可。

对于单条时间线的时序数据记录，仅需要在所述Last文件设置偏移量列表的存储空间，不需要预留时序数据记录的存储空间，因此节省了大量存储空间。

方式3：Last文件采用不预留空间方式2

在本方式中，所述Last文件中包含在前已写入的所述时间线的时序数据记录。

这样，当所述时间线的时序数据记录的总条数小于预定数据记录条数N时，说明没有达到执行列式存储所需的最低条数，此时将所述时间线的待落盘的时序数据记录和从所述Last文件中读取的所述时间线的时序数据记录进行合并，得到所述时间线的已合并时序数据记录，并创建用于存储所述时间线的已合并时序数据记录的新Last文件，然后将所述时间线的已合并时序数据记录写入所述新Last文件，并删除所述时间线的原有的Last文件。

在本方式中，Last文件中的时序数据记录可以按照行式存储，以便提高写入速度，也可以按照列式存储，以便提高分析速度。

本实施方式不需要在所述Last文件中设置偏移量列表的存储空间，也不需要预留时序数据记录的存储空间，因此节省了大量存储空间。

上述步骤S103中，将所述时间线的待落盘的时序数据记录和所述Last文件中的时序数据记录合并后以列式存储方式写入data文件中包括：从所述Last文件中读取所述时间线的时序数据记录，并将所述时间线的待落盘的时序数据记录和从所述Last文件中读取的所述时间线的时序数据记录进行合并，得到所述时间线的已合并时序数据记录，然后以列式存储方式将所述时间线的已合并时序数据记录写入所述data文件。

按照本发明实施例，内存中缓存的一时间线的时序数据记录第一次落盘时，由于Last文件中该时间线的时序数据记录条数为0，因而若待落盘的时序数据记录的条数大于或等于预定数据记录条数N，则直接对待落盘数据以列式存储方式写入data文件即可，若待落盘的时序数据记录的条数小于预定数据记录条数N，则将待落盘的时序数据记录写入Last文件中的该时间线对应的存储空间中。内存中缓存的该时间线的时序数据记录再次落盘时，将该时间线的待落盘的时序数据记录的条数与同一时间线的Last文件中的时序数据记录的条数相加，若大于或等于预定数据记录条数N，则将记录合并后以列式存储方式写入data文件，否则将该时间线的待落盘的时序数据记录追加到Last文件中。

本发明将行式存储与列式存储结合起来，每条时间线上最新的数据用行式存储，只有当行式存储里一条时间线的记录条数达到一设定的值(N)，才将这一时间线的记录用列式存储进行存储。其中，所述正常的行式存储，是将记录一条接一条的存储，通过在索引表里记录每条记录在存储介质上的偏移量，就可以不预留空间，大幅减少对存储资源的需求。当内存数据写入持久化存储时，记录条数可能小于N，需要将记录保存于一个特殊文件Last。等下次内存数据持久化时，需要将内存里的记录与Last文件里的记录合并，然后判断合并后的记录是否需要写入列式存储，还是继续保留在Last文件。简而言之，落盘的数据分为两个数据文件保存，一个文件用data命名，其用列式存储方式存储数据，每个数据块里的记录条数大于等于预定值N，另外一个文件用last命名，其用于存储最新的时序数据，但记录条数小于预定值N。这种设计既保证了数据的压缩率和分析速度，又无需预留存储资源。下面分别从内存的处理、持久化存储、Last文件的处理三个方面对本发明实施例进行详细说明。

一、内存的处理

系统可以预分配一片存储空间，保存插入的记录，而且为所有时间线所共享。这部分内存按照先进先出的循环buffer来进行管理。后面提到的偏移量都是相对于这片存储空间而言的。

内存里存储结构如图2所示，每条时间线都有一固定结构，用时间线的ID来标识，例如TS0 ID，TS1 ID等。

numOfRecords:记录内存里记录条数。

Current Slot：最新一条记录在偏移量列表的位置。通过numOfRecords以及current Slot，就能推算出来该时间线在内存里第一条记录的位置。

offset0,offset1,…,offsetN：偏移量列表，每条时间线都有一个固定大小的偏移量列表，记录了每条记录在内存里的偏移量。该列表是一个循环的buffer，因为记录写入持久化存储介质后，还继续保留在内存，直到被新的记录覆盖。

当一条新的记录插入进来时，需要执行如下几个操作：

1.从数据内存缓存区里，分配空间,将记录写入，记下偏移量offset；

2.current slot＝(current slot+1)％number of Slots；

3.numOfRecords加一。

其中，当分配空间时，如需将老的记录覆盖，这个时候需要对被覆盖的记录做如下操作：

1.numOfRecords减一。

二、持久化存储

最新数据一般保留在内存里，内存里使用行式存储。对于时序数据，内存按照先进先出的原则进行管理，当内存不够时或者某一时间线的偏移量列表占满时，需要启动落盘过程，将老的数据写入持久化存储。

对于一时间线而言，保存在内存里的记录条数可能不多，达不到列式存储所需要的最少记录条数，因此在持久化存储介质里，除列式存储的文件外，还需要维护一个特殊的Last文件，保存这些记录。如果将这些记录直接写入列式存储文件，将导致很多数据块包含的数据条数过少，导致压缩、查询效率下降。

系统每次将内存里的记录写入持久化存储介质时，都需要检查这个Last文件。对于一个指定的时间线，查看Last文件里该时间线的记录条数，将内存里记录条数与Last文件里记录条数求和，做如下判断和操作：

1.如果记录条数的和超过了列式存储所需要的最低条数的值，将Last文件里的记录全部读出，与内存里记录合并，写入列式存储。

2.如果记录条数的和低于列式存储所需要的最低条数的值，将内存里记录写入Last文件。

三、Last文件的处理

Last文件存储格式可以多种，本发明提出三种方式，其中一种为预留空间方式，另外两种为不预留空间方式。

3.1、预留存储空间模式

每条时间线预留空间，空间大小为列式存储所需要的最低条数N*记录大小。

图3是本发明实施例提供的采用预留存储空间模式的Last文件示意图，如图3所示，每条时间线都有一固定结构，用时间线的ID来标识，例如TS0 ID， TS1 ID等。

numOfRecords：记录内存里记录条数；

start Time,end time：记录内存里该时间线的起止时间；

Record0,Record1,…,RecordN共N条记录所需要的空间，每条记录固定大小。这样便于迅速查找。

这个模式的优势在于记录合并过程简单。对于单条时间线的数据而言，是个简单的数据追加操作，磁盘IO次数少，读写速度快，但要多耗费存储空间。

3.2、不预留存储空间模式

将内存数据写入持久化存储时，不预留存储空间，有两种方式处理：

方式1、对于一条时间线，先从Last文件里读取已保存的记录，然后与内存的记录合并，如果记录条数大于N，写入列式存储文件。如果记录条数小于N，写入一个新的Last文件。等所有时间线处理完，将旧的Last文件删除，只保留新的Last文件。这个Last文件可以用列式或者行式存储。列式存储，分析速度会提高，而写入速度会下降。行式存储反之。

本方式在每次将内存数据持久化时，需要重写Last文件，效率较低。为提高效率，可以采用方式2。

方式2、对于每条时间线，维护一个如图4所示的数据结构，每条时间线都有一固定结构，用时间线的ID来标识，例如TS0 ID，TS1 ID等。

numOfRecords:记录内存里记录条数。

start Time,end time:记录内存里该时间线的起止时间。

offset0,offset1,…,offsetN：偏移量，即每条记录的在存储中的偏移量。

本方式无需重写Last文件，添加记录时，主要是追加操作，因此效率高，但是当某条时间线的记录条数超过N，写入到列式存储文件后，会在Last文件里留下空洞，在具体实施时，需要定期处理，以避免浪费存储空间。

尽管上文对本发明进行了详细说明，但是本发明不限于此，本技术领域技术人员可以根据本发明的原理进行各种修改。因此，凡按照本发明原理所作的修改，都应当理解为落入本发明的保护范围。

Claims

一种时序数据的存储方法，其特征在于，所述方法包括：

将来自网络的每条时间线的时序数据记录以行式存储方式缓存至内存；

当所述内存中缓存的一条时间线的时序数据记录需要落盘时，确定所述时间线的待落盘的时序数据记录的条数和Last文件中的时序数据记录的条数之和；

若所述时间线的时序数据记录条数之和小于预定数据记录条数N，则将所述时间线的待落盘的时序数据记录写入所述Last文件中；

若所述时间线的时序数据记录条数之和大于或等于预定数据记录条数N，则将所述时间线的待落盘的时序数据记录和所述Last文件中的时序数据记录合并后以列式存储方式写入data文件中。
根据权利要求1所述的方法，其特征在于，所述内存中缓存的一条时间线的时序数据记录需要落盘包括：

检测所述内存或所述内存中缓存的某一时间线的偏移量列表；

若所述内存不足或所述内存中缓存的某一时间线的偏移量列表被占满时，确定所述内存中缓存的一条时间线的时序数据记录需要落盘。
根据权利要求1所述的方法，其特征在于，所述Last文件为所述每条时间线预留用来存储该条时间线的N条时序数据记录的存储空间。
根据权利要求3所述的方法，其特征在于，所述将所述时间线的待落盘的时序数据记录写入所述Last文件中包括：

将所述时间线的待落盘的时序数据记录追加到所述时间线的存储空间中的所有时序数据记录之后。
根据权利要求1所述的方法，其特征在于，所述Last文件中具有包含N个偏移量记录的偏移量列表，所述偏移量记录用于指示所述时间线的时序数据记录的偏移量。
根据权利要求5所述的方法，其特征在于，在将所述时间线的待落盘的时序数据记录写入所述Last文件中后，将相应时序数据记录的偏移量依次追加到所述时间线的偏移量列表中。
根据权利要求1所述的方法，其特征在于，所述Last文件中包含在前已写入的所述时间线的时序数据记录。
根据权利要求7所述的方法，其特征在于，所述将所述时间线的待落盘的时序数据记录写入所述Last文件中包括：

将所述时间线的待落盘的时序数据记录和从所述Last文件中读取的所述时间线的时序数据记录进行合并，得到所述时间线的已合并时序数据记录；

创建用于存储所述时间线的已合并时序数据记录的新Last文件；

将所述时间线的已合并时序数据记录写入所述新Last文件中，然后删除所述时间线的原有的Last文件。
根据权利要求1所述的方法，其特征在于，所述将所述时间线的待落盘的时序数据记录和所述Last文件中的时序数据记录合并后以列式存储方式写入data文件中包括：

从所述Last文件中读取所述时间线的时序数据记录；

将所述时间线的待落盘的时序数据记录和从所述Last文件中读取的所述时间线的时序数据记录进行合并，得到所述时间线的已合并时序数据记录；

以列式存储方式将所述时间线的已合并时序数据记录写入所述data文件。
根据权利要求1-9任意一项所述的方法，其特征在于，所述Last文件和所述data文件均是所述持久化存储介质中的用来存储时序数据记录的文件。