WO2020024799A1 - 一种时序数据的聚合优化处理方法 - Google Patents

一种时序数据的聚合优化处理方法 Download PDF

Info

Publication number
WO2020024799A1
WO2020024799A1 PCT/CN2019/096452 CN2019096452W WO2020024799A1 WO 2020024799 A1 WO2020024799 A1 WO 2020024799A1 CN 2019096452 W CN2019096452 W CN 2019096452W WO 2020024799 A1 WO2020024799 A1 WO 2020024799A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
time
file
index
block
Prior art date
Application number
PCT/CN2019/096452
Other languages
English (en)
French (fr)
Inventor
廖浩均
关胜亮
程洪泽
陶建辉
Original Assignee
北京涛思数据科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京涛思数据科技有限公司 filed Critical 北京涛思数据科技有限公司
Priority to EP19843274.2A priority Critical patent/EP3832450A4/en
Priority to US17/265,284 priority patent/US11714554B2/en
Publication of WO2020024799A1 publication Critical patent/WO2020024799A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0866Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache
    • G06F12/0868Data transfer between cache memory and other subsystems, e.g. storage devices or host systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/16General purpose computing application
    • G06F2212/163Server or database system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/46Caching storage objects of specific type in disk cache
    • G06F2212/463File
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/50Control mechanisms for virtual memory, cache or TLB
    • G06F2212/502Control mechanisms for virtual memory, cache or TLB using adaptive policy

Definitions

  • the invention relates to the field of data processing, and in particular, to a method for aggregate optimization processing of time-series data.
  • Time series data refers to time series data, which is a data column recorded in chronological order. There is a special time series database to handle the storage and query of time series data.
  • time series database contains multiple time series data.
  • time series data In addition to reading a single time series data, usually multiple time series data need to be aggregated and calculated.
  • the usual approach is to process each time series separately, get the results, put them in the cache, and then aggregate the results.
  • database files need to be scanned once.
  • database files must be opened and scanned multiple times. This causes a large increase in the number of disk IOs and affects system performance.
  • the purpose of the present invention is to overcome the shortcomings of the prior art and provide a method for aggregate optimization processing of time series data.
  • This method whether it is for reading a single time series data or for aggregation operation of multiple time series, It only needs to scan the data file once, which greatly reduces the number of disk IOs and improves the overall performance.
  • the present invention provides an aggregation optimization processing method for time series data, which includes the following steps:
  • the data files are scanned in the order of the sorted index blocks, and after the specified reading and calculation are performed for each data block, the calculation results are summarized.
  • the offset with the smaller amount comes first.
  • the data file contains a plurality of time series data blocks.
  • the index file records information of data blocks of each time series.
  • each time series has an index summary information block, and one or more index blocks.
  • the index summary information block contains the ID of the time series and the number of data blocks.
  • each time series has one or more index blocks
  • each data block has a corresponding index block.
  • the index block contains the offset of the data block in the data file, the start time, the end time, and the record bar. Numbers and other information.
  • the step of extracting all data blocks that meet the conditions of the time period includes:
  • time series data record is written into the database, it is first written into the memory.
  • the time-series data of the memory cache is written to the disk.
  • step of writing the time series data to the disk includes:
  • the data block information including the start time, end time, and number of records is counted into a new index block and written into the index file;
  • index summary information block and index block information of each time series are continuously stored, and a new block index file is regenerated each time the memory data is placed in the disk.
  • the method for the aggregation and optimization processing of time series data of the present invention can realize:
  • the data file itself stores the collected time series data.
  • the file will be very large, and new data blocks are added in an additional way;
  • An index file is designed to store the offset of a time series data block in the data file, so that the query scan can be performed quickly and efficiently;
  • Figure 1 is a schematic diagram of the structure of the time series database after optimized design.
  • the present invention provides a method for aggregate optimization processing of time series data. The method is specifically described below.
  • a time series database file is divided into two files, one is a data block file, and the other is a block index file, which is further described below:
  • the data block file stores the collected time series data itself, which contains multiple time series data.
  • data is stored in blocks.
  • Each block of data belongs to only one time series, but contains multiple records, and is sorted by time.
  • the designated time period only needs to be scanned sequentially, reading the corresponding data block can be completed, and the performance can reach the optimal.
  • the size of the data block can be configured, and the number of time series contained in each data file can be configured.
  • the block index file records information of all data blocks of each time series, and its structure is shown in Figure 1:
  • each time series occupies a fixed number of bytes, which contains the offset (offset) that points to the time series data block information.
  • Each time series has an index summary information block in the index file, which has the following information:
  • index block contains the following information:
  • auxiliary information such as pre-aggregated data
  • T ij represents the start time of time series i and data block j, it should have the following relationship:
  • the system When an application writes a time series data record to the database, the system writes it to memory first. When the memory usage reaches a certain percentage or every certain period of time, the system writes the time-series data of the memory cache to the disk according to the following steps.
  • the memory data is written into the data block file in an additional manner to generate one or more data blocks.
  • each time series is processed separately, and the results of each series are finally aggregated. But in doing so, the data block file needs to be scanned once for each sequence, and the number of file IOs is proportional to the number of aggregated time series. The greater the number of time series, the more severe the performance degradation.
  • the offset of the corresponding data block in the data file is recorded in the index block.
  • the index blocks stored in the buffer area are sorted by offset, and the offset is ranked first. After sorting, if there are multiple data blocks in the same time series, the index blocks may not be continuous together, and the start time of the index blocks cannot be guaranteed to be sorted, only the offsets are guaranteed to be sorted.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种时序数据的聚合优化处理方法,包括将时序数据库文件划分为数据块文件和块索引文件;按照计算的起止时间段扫描块索引文件,将符合时间段条件和其他过滤条件的数据块抽出来后,根据每个数据块在数据块文件里的偏移量进行排序;按照排序后的数据块便宜量扫描数据文件,对每个数据块进行指定的计算后,将计算结果汇总,该方法无论是对于单一时间序列数据的读取,还是对于多个时间序列的聚合操作,都只需要打开一次数据文件进行扫描即可完成,大幅提升整体性能。

Description

一种时序数据的聚合优化处理方法 技术领域
本发明涉及数据处理领域,具体涉及一种时序数据的聚合优化处理方法。
背景技术
时序数据是指时间序列数据,是一种按照时间顺序记录的数据列,有专门的时序数据库来处理时序数据的存储和查询。
现有技术中,通常一个时序数据库里包含有多个时间序列数据,除单一时间序列数据的读取之外,通常需要将多个时间序列数据进行聚合计算操作。通常的做法是将每个时间序列单独处理,得到结果,放在缓存里,然后将结果汇总聚合。
然而,相对于每个时间序列都需要扫描一次数据库文件,多个时间序列,就要打开并扫描多次数据库文件,这样导致磁盘IO次数大增,影响系统性能。
发明内容
本发明的目的在于克服现有技术的不足,提供一种时序数据的聚合优化处理方法,通过这种方法,无论是对于单一时间序列数据的读取,还是对于多个时间序列的聚合操作,都只需要扫描一次数据文件即可完成,这样大幅减少磁盘IO次数,提升整体性能。
本发明提供了一种时序数据的聚合优化处理方法,其包括如下步骤:
将时序数据库文件划分为数据文件和索引文件;
按照计算的起止时间段扫描索引文件,将符合时间段条件的所有需要聚合的时间序列的索引块抽出来后,根据索引块里记录的数据文件偏移量进行排序;
按照排序后的索引块顺序扫描数据文件,对每个数据块进行指定的读取和计算后,将计算结果汇总。
进一步地,索引块排序时,偏移量小的排在前。
进一步地,数据文件包含多个时间序列的数据块。
进一步地,索引文件记录每个时间序列的数据块的信息。
进一步地,索引文件里,每个时间序列,都有一个索引汇总信息块,以及一到多个索引块。索引汇总信息块包含时间序列的ID,数据块的个数。
进一步地,每个时间序列有一到多个索引块,每一个数据块有一个对应的索引块,该索引块包含了数据块在数据文件里的偏移量offset,开始时间,结束时间、记录条数和其他信息。
进一步地,指定某一或多个时间序列和时间段后,将符合时间段条件的数据块全部抽出的步骤,包括:
查找索引文件,找到对应的数据块在数据块文件里的偏移量并按偏移量进行排序;
根据排序后的偏移量,从数据块文件里读取数据块;
获取数据块里指定时间段的数据。
进一步地,将时序数据记录写入数据库时,先将其写入内存。
进一步地,当内存的占用达到一定的比例或每隔一定的时间,将内存缓存的时序数据写入磁盘。
进一步地,将时序数据写入磁盘的步骤包括:
1)每个时间序列的数据在内存里按照时间排序;
2)按照数据块大小的设置,对每一个时间序列数据,将内存数据用追加方式写入数据文件,生成一个或多个数据块;
3)对每个新的数据块,将包括开始时间、结束时间、记录条数的数据块信息计入一个新的索引块,写入索引文件;
4)每一个时间序列的索引汇总信息块与索引块信息连续存放,内存数据每次落盘时重新生成新的块索引文件。
本发明的时序数据的聚合优化处理方法,可以实现:
1)如果一个数据文件仅包含一个时间序列数据,数据文件数目会过多,而且聚合操作时,需要对每个参与聚合的时间序列,至少有一次打开和扫描操作,如果参与聚合的时间序列多,打开和扫描文件次数就多,性能会大幅下降,采用一个数据文件包含多个时间序列数据的方式可有效提高性能;
2)数据文件本身存储采集的时序数据,文件会很大,采用追加的方式添加新的数据块;
3)设计有索引文件,索引文件里保存一个时间序列的数据块在数据文件里的偏移量,从而可快速高效的进行查询扫描;
4)将参与聚合的多个时间序列的数据块按照偏移量进行排序,排序后,只需要扫描一次数据文件,就能得到聚合计算的结果。
附图说明
图1为时序数据库优化设计后的结构示意图。
具体实施方式
下面详细说明本发明的具体实施,有必要在此指出的是,以下实施只是用于本发明的进一步说明,不能理解为对本发明保护范围的限制,该领域技术熟练人员根据上述本发明内容对本发明做出的一些非本质的改进和调整,仍然属于本发明的保护范围。
本发明提供了一种时序数据的聚合优化处理方法,下面对该方法进行具体的介绍。
将一时序数据库文件划分为两个文件,一个是数据块文件,一个是块索引文件,下面进行进一步介绍:
(1)数据块文件
数据块文件存储采集的时序数据本身,其包含有多个时间序列的数据。为减少随机访问,提高读取速度,数据是按块存储的,每一块数据仅仅属于一个时间序列,但包含多条记录,而且按照时间排序。在读取单一的时间序列数据时,指定时间段,只需要顺序扫描,读取相应的数据块即可完 成,性能可以达到最优。
为减少磁盘IO操作,内存缓存的数据落盘时,新数据采用追加的方式写入数据块文件,也就是说新的数据永远在文件最后添加,这样就是顺序写,而无需挪动磁头,减少随机读写次数。
根据应用场景,数据块的大小可以配置,每个数据文件包含的时间序列的个数可以配置。
(2)块索引文件
为了快速找到某一时间序列某一时间段的数据块,系统建立有块索引文件。该块索引文件记录了每个时间序列的所有数据块的信息,其结构如图1所示:
在索引文件里,文件头之后,每个时间序列占有固定的字节数,其中包含指向时间序列数据块信息的Offset(偏移量)。
1)每个时间序列在索引文件里有索引汇总信息块,有如下信息:
·时间序列的ID
·数据块的个数
·其他辅助信息,比如checksum
2)索引汇总信息块之后,有一到多个索引块,一个时间序列在数据文件里的一个数据块都有一个对应的索引块。这个索引块包含如下信息:
·数据块在数据块文件里的offset(偏移量)
·该数据块的开始时间
·该数据块的结束时间
·该数据块里包含的记录条数
·其他辅助信息,比如预聚合的数据
每个时间序列都保证了自己的记录是按照时间排序的,但是不同的时间序列的数据块在数据文件里无法保证是按照时间排序的。如果T ij表示时间序列i、数据块j的开始时间,则应该有如下关系:
T i0<T i1<T i2<…<T in
另外一个时间序列k虽然也存在如上的关系,但是无法保证两个序列混合在一起存储时,不同序列的块是按照时间排序的。
(3)写入操作
应用将一条时序数据记录写入数据库时,系统会先写入内存。当内存的占用达到一定的比例或每隔一定的时间,系统根据下面的步骤将内存缓存的时序数据写入磁盘。
1)确保每个时间序列的数据在内存里按照时间排序;
2)按照数据块大小的设置,对每一个时间序列数据,将内存数据用追加方式写入数据块文件,生成一个或多个数据块。
3)对每个新的数据块,将其开始时间、结束时间、记录条数等计入一个索引块,写入块索引文件。
4)为减少随机读写,一个时间序列的索引块在索引文件里需要连续存放,因此内存数据每次 落盘时,需要重新生成新的块索引文件。但因为块索引文件不大,因此资源消耗不多。
(4)单一时间序列数据的读取、计算
指定某一时间序列和时间段后,按下面步骤读取数据;
1)查找块索引文件,找到对应的数据块在数据块文件里的偏移量;
2)根据偏移量,从数据块文件里读取数据块;
3)如果要获取的数据仅是一个数据块的一部分,可以按照对半查找,时间间隔比例查找等方法获取指定时间段的数据;
4)如果有多个数据块,处理下一个;
对于单一时间序列,数据块虽然不是物理上连续的,但是已经按照时间排序,因此访问效率很高。
(5)聚合查询、计算
通常多个时间序列的聚合简单处理方式是:每个时间序列单独处理,然后将每个序列的结果最后聚合。但这样做,对于每个序列都需要扫描一次数据块文件,文件IO次数与聚合的时间序列的数目成正比,时间序列的数目越多,性能下降越厉害。
因此,本申请进行优化后按下面步骤进行聚合查询、计算:
1)扫描索引文件,按照聚合计算的起止时间段,将符合时间段条件和其他过滤条件的索引块全部抽出来,存放在缓存区,扫描结束后,这个缓存区里包含了所有需要进行聚合的时间序列里满足条件的索引块。
2)索引块里记录有对应的数据块在数据文件里的offset(偏移量),对存放在缓存区的索引块按照offset排序,offset小的排在前。排序结束后,同一个时间序列,如果有多个数据块,索引块可能不连续在一起了,而且索引块的开始时间无法保证是排序的,只保证是按照偏移量(offset)排序的。
3)按照排序后的数据库,扫描数据文件,对每个数据块进行指定的计算(如sum,avg,count等),然后将计算结果汇总。
实施例1:
采取优化之前和之后的性能对比:
测试中对100个时间序列数据做聚合操作(sum,avg,max,min四个),其中一组是每个序列一万条记录,另外一组是每个序列一百万条记录,优化前后四个聚合操作所花时间对比如下(时间单位为毫秒):
Figure PCTCN2019096452-appb-000001
Figure PCTCN2019096452-appb-000002
从上述两组数据可以看出,100个时间序列进行聚合时,性能提升2倍以上。如果时间序列数据越多,提升的性能会更明显。
尽管为了说明的目的,已描述了本发明的示例性实施方式,但是本领域的技术人员将理解,不脱离所附权利要求中公开的发明的范围和精神的情况下,可以在形式和细节上进行各种修改、添加和替换等的改变,而所有这些改变都应属于本发明所附权利要求的保护范围,并且本发明要求保护的产品各个部门和方法中的各个步骤,可以以任意组合的形式组合在一起。因此,对本发明中所公开的实施方式的描述并非为了限制本发明的范围,而是用于描述本发明。相应地,本发明的范围不受以上实施方式的限制,而是由权利要求或其等同物进行限定。

Claims (10)

  1. 一种时序数据的聚合优化处理方法,其特征在于,包括如下步骤:
    将时序数据库文件划分为数据文件和索引文件;
    按照计算的起止时间段扫描索引文件,将符合时间段条件的所有需要聚合的时间序列的索引块抽出来后,根据索引块里记录的数据文件偏移量进行排序;
    按照排序后的索引块顺序扫描数据文件,对每个数据块进行指定的读取和计算后,将计算结果汇总。
  2. 如权利要求1所述的方法,其特征在于:索引块排序时,偏移量小的排在前。
  3. 如权利要求1所述的方法,其特征在于:数据文件包含多个时间序列的数据块。
  4. 如权利要求1-3任一项所述的方法,其特征在于:索引文件记录每个时间序列的数据块的信息。
  5. 如权利要求4所述的方法,其特征在于:索引文件里,每个时间序列,都有一个索引汇总信息块,以及一到多个索引块;索引汇总信息块包含时间序列的ID,数据块的个数。
  6. 如权利要求3或5所述的方法,其特征在于:每个时间序列有一到多个索引块,每一个数据块有一个对应的索引块,该索引块包含了数据块在数据文件里的偏移量,开始时间、结束时间、记录条数。
  7. 如权利要求1所述的方法,其特征在于:指定某一或多个时间序列和时间段后,将符合时间段条件的数据块全部抽出的步骤,包括:
    查找索引文件,找到对应的数据块在数据块文件里的偏移量并按偏移量进行排序;
    根据排序后的偏移量,从数据块文件里读取数据块;
    获取数据块里指定时间段的数据。
  8. 如权利要求1所述的方法,其特征在于:将时序数据记录写入数据库时,先将其写入内存。
  9. 如权利要求8所述的方法,其特征在于:当内存的占用达到一定的比例或每隔一定的时间,将内存缓存的时序数据写入磁盘。
  10. 如权利要求9所述的方法,其特征在于:将时序数据写入磁盘的步骤包括:
    1)每个时间序列的数据在内存里按照时间排序;
    2)按照数据块大小的设置,对每一个时间序列数据,将内存数据用追加方式写入数据文件,生成一个或多个数据块;
    3)对每个新的数据块,将包括开始时间、结束时间、记录条数的数据块信息计入一个新的索引块,写入索引文件;
    4)每一个时间序列的索引汇总信息块与索引块信息连续存放,内存数据每次落盘时重新生成新的块索引文件。
PCT/CN2019/096452 2018-08-03 2019-07-18 一种时序数据的聚合优化处理方法 WO2020024799A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP19843274.2A EP3832450A4 (en) 2018-08-03 2019-07-18 TIME SERIES DATA AGGREGATION OPTIMIZATION METHOD
US17/265,284 US11714554B2 (en) 2018-08-03 2019-07-18 Method for aggregation optimization of time series data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810879115.0A CN109164980B (zh) 2018-08-03 2018-08-03 一种时序数据的聚合优化处理方法
CN201810879115.0 2018-08-03

Publications (1)

Publication Number Publication Date
WO2020024799A1 true WO2020024799A1 (zh) 2020-02-06

Family

ID=64898901

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/096452 WO2020024799A1 (zh) 2018-08-03 2019-07-18 一种时序数据的聚合优化处理方法

Country Status (4)

Country Link
US (1) US11714554B2 (zh)
EP (1) EP3832450A4 (zh)
CN (1) CN109164980B (zh)
WO (1) WO2020024799A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3961416A1 (en) * 2020-09-01 2022-03-02 Palantir Technologies Inc. Data insights

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109164980B (zh) 2018-08-03 2024-02-02 北京涛思数据科技有限公司 一种时序数据的聚合优化处理方法
CN112181973B (zh) * 2019-07-01 2023-05-30 北京涛思数据科技有限公司 一种时序数据的存储方法
CN110688385A (zh) * 2019-09-29 2020-01-14 联想(北京)有限公司 一种数据处理方法和电子设备
CN110968272B (zh) * 2019-12-16 2021-01-01 华中科技大学 基于时间序列预测的海量小文件存储性能优化方法及系统
WO2021134318A1 (zh) * 2019-12-30 2021-07-08 浙江邦盛科技有限公司 一种基于聚合边与时序聚合边的快速海量时序数据处理方法
CN111061684B (zh) * 2019-12-31 2023-04-07 科来网络技术股份有限公司 一种数据包文件时序恢复系统
CN111274256B (zh) * 2020-01-20 2023-09-12 远景智能国际私人投资有限公司 基于时序数据库的资源管控方法、装置、设备及存储介质
CN111444180B (zh) * 2020-03-20 2022-12-16 复旦大学 一种双层结构的索引及其查询方法
CN112286867B (zh) * 2020-10-27 2022-03-01 山东鼎滏软件科技有限公司 油气田时序数据存储方法、查询方法及其装置、存储介质
CN113468187B (zh) * 2021-09-02 2021-11-23 太平金融科技服务(上海)有限公司深圳分公司 多方数据整合方法、装置、计算机设备和存储介质
CN114077581A (zh) * 2021-11-24 2022-02-22 北京白板科技有限公司 一种基于数据汇聚存储方式的数据库
CN114546942B (zh) * 2022-01-28 2024-01-19 苏州浪潮智能科技有限公司 一种数据库数据读取方法、装置、终端及存储介质
CN117149081B (zh) * 2023-09-07 2024-02-06 武汉麓谷科技有限公司 一种基于zns固态硬盘的时序数据库存储引擎构建方法
CN117573703B (zh) * 2024-01-16 2024-04-09 科来网络技术股份有限公司 时序数据的通用检索方法、系统、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070282492A1 (en) * 2006-05-31 2007-12-06 Sensis Corporation Method and system of managing data transmissions from broadcast-equipped targets
CN104156385A (zh) * 2014-06-24 2014-11-19 北京京东尚科信息技术有限公司 一种处理时间序列数据的方法和装置
CN105513095A (zh) * 2015-12-30 2016-04-20 山东大学 一种行为视频无监督时序分割方法
CN106407395A (zh) * 2016-09-19 2017-02-15 北京百度网讯科技有限公司 数据查询的处理方法及装置
CN106844555A (zh) * 2016-12-30 2017-06-13 江苏瑞中数据股份有限公司 一种用于电网wams系统的时序数据存储方法
CN109164980A (zh) * 2018-08-03 2019-01-08 北京涛思数据科技有限公司 一种时序数据的聚合优化处理方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102859517B (zh) * 2010-05-14 2016-07-06 株式会社日立制作所 时序数据管理装置、系统以及方法
US8478771B2 (en) * 2011-09-30 2013-07-02 Bmc Software, Inc. Systems and methods related to a temporal log structure database
CN102890722B (zh) * 2012-10-25 2015-03-11 国家电网公司 应用于时序历史数据库的索引方法
US10769104B2 (en) * 2014-12-12 2020-09-08 Aveva Software, Llc Block data storage system in an event historian
US9792310B2 (en) * 2015-04-29 2017-10-17 Sap Se Run index compression
US20160328432A1 (en) * 2015-05-06 2016-11-10 Squigglee LLC System and method for management of time series data sets
CN104881481B (zh) * 2015-06-03 2018-05-01 广东省机电设备招标有限公司 一种存取海量时间序列数据的方法及装置
GB201600849D0 (en) * 2016-01-18 2016-03-02 Taranis Visual Ltd Method of storing and accessing data
WO2018006023A1 (en) * 2016-06-30 2018-01-04 Referentia Systems, Inc. Time series data query engine
CN106776967B (zh) * 2016-12-05 2020-03-27 哈尔滨工业大学(威海) 基于时序聚合算法的海量小文件实时存储方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070282492A1 (en) * 2006-05-31 2007-12-06 Sensis Corporation Method and system of managing data transmissions from broadcast-equipped targets
CN104156385A (zh) * 2014-06-24 2014-11-19 北京京东尚科信息技术有限公司 一种处理时间序列数据的方法和装置
CN105513095A (zh) * 2015-12-30 2016-04-20 山东大学 一种行为视频无监督时序分割方法
CN106407395A (zh) * 2016-09-19 2017-02-15 北京百度网讯科技有限公司 数据查询的处理方法及装置
CN106844555A (zh) * 2016-12-30 2017-06-13 江苏瑞中数据股份有限公司 一种用于电网wams系统的时序数据存储方法
CN109164980A (zh) * 2018-08-03 2019-01-08 北京涛思数据科技有限公司 一种时序数据的聚合优化处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3832450A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3961416A1 (en) * 2020-09-01 2022-03-02 Palantir Technologies Inc. Data insights

Also Published As

Publication number Publication date
CN109164980B (zh) 2024-02-02
EP3832450A1 (en) 2021-06-09
US20210333994A1 (en) 2021-10-28
US11714554B2 (en) 2023-08-01
EP3832450A4 (en) 2022-05-04
CN109164980A (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
WO2020024799A1 (zh) 一种时序数据的聚合优化处理方法
CN102521405B (zh) 支持高速加载的海量结构化数据存储、查询方法和系统
CN102521406B (zh) 海量结构化数据复杂查询任务的分布式查询方法和系统
CN105989129B (zh) 实时数据统计方法和装置
EP2724269B1 (en) System, method and data structure for fast loading, storing and access to huge data sets in real time
US20150193350A1 (en) Data storage space processing method and processing system, and data storage server
JP6642651B2 (ja) ユーザアクセスプリファレンスモデルを用いたストレージ方法
CN104503703B (zh) 缓存的处理方法和装置
US10963440B2 (en) Fast incremental column store data loading
CN105912687A (zh) 海量分布式数据库存储单元
CN111475507B (zh) 一种工作负载自适应单层lsmt的键值数据索引方法
JP2019204473A (ja) Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSに複数の2MB以下の小さなファイルを書き込む方法
CN109918448A (zh) 一种基于用户行为的云存储数据分级方法
CN102880615A (zh) 一种数据存储方法和装置
CN112262379A (zh) 存储数据项并且标识存储的数据项
CN109918429A (zh) 基于Redis的Spark数据处理方法及系统
CN110858210A (zh) 数据查询方法及装置
CN117149081B (zh) 一种基于zns固态硬盘的时序数据库存储引擎构建方法
CN114185885A (zh) 一种基于列存数据库的流式数据处理方法及系统
US11789639B1 (en) Method and apparatus for screening TB-scale incremental data
CN110162513A (zh) 用于智能电网大数据处理的数据表连接方法及计算机可读存储介质
CN108153805A (zh) 一种高效清理Hbase时序数据的方法、系统
CN102779097B (zh) 流程数据的内存存取方法
CN113051225A (zh) 基于块数据的orc优化数据存储格式及数据读写方法
CN115543195A (zh) 一种适用于时序存储的block落盘方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19843274

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019843274

Country of ref document: EP

Effective date: 20210303