WO2022266975A1

WO2022266975A1 - 一种毫秒级时序流数据精准切片方法

Info

Publication number: WO2022266975A1
Application number: PCT/CN2021/102222
Authority: WO
Inventors: 王新根; 王新宇; 黄滔; 鲁萍; 陈伟; 史昊宸
Original assignee: 浙江邦盛科技有限公司
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2022-12-29

Abstract

一种毫秒级时序流数据精准切片方法，该方法分为四个部分：精准切片的创建、精准切片的聚合、聚合数据的持久化存储和毫秒级切片的查询。首先对时序流数据的处理，包括毫秒级精准切片的创建以及毫秒级精准切片内聚合计算和存储，其次是对时序流数据的查询。该毫秒级时序流数据精准切片方法能够在毫秒级时间范围内精准地实时处理用户流式数据，利用不同时序下的切片聚合技术提升系统吞吐量和应对海量数据的高可用性，并根据时间局部性原则将切片聚合数据存入分布式数据库从而高效利用内存空间，最后优化设计了针对时序流数据的查询接口。

Description

一种毫秒级时序流数据精准切片方法

技术领域

本发明涉及对时序流数据处理领域，提供一种毫秒级时序流数据精准切片方法。

背景技术

时序数据流是按照原始数据生成时间源源不断流入处理系统的数据流，在金融风控、移动互联网、IoT等面向海量数据的实时计算领域中，我们通常会涉及到处理“一天内用户交易金额总量”、“一小时内某网站每分钟的实时流量”等问题。随着事件时间的推进，往往针对用户需要查询的一段时间的行为需要能够根据当前时间戳对数据进行实时更新计算，保证查询操作的准确性和有效性。这类场景特点主要为：

1)计算处理的实时性。要求系统能够在毫秒级实时处理数据源产生的源源不断的流数据。且能够随时提供实时处理的信息。

2)处理精度的灵活性。要求系统既能够提供毫秒级细粒度的实时处理信息，也能够高效提供一小时、一天等粗粒度时间范围的数据处理信息。

3)系统的高可用和高并发能力。要求系统能够对海量数据持续稳定地提供高效计算能力，有效利用系统存储、计算资源，能够应对高并发密集性访问的场景。

传统处理方式通常是将这些实时用户行为和事件存储在持久化数据库，如MYSQL，Oracle等。存储时通常以事件发生的时间戳为主键，基于用户对时间范围的查询窗口进行条件查询。这种查询处理方式比较简单，但缺点也显而易见。首先需要预先规定好用户查询的最小精度，因此查询的灵活性低，如果以细粒度的方式存储，则会造成庞大的数据量，一般数据库的查询时间会随数据项的数量指数型增长，因此在实时的大批量高并发密集型访问场景下这种方案显然不可行。同时随着时间的增长，通常较早时间的数据没有太大的利用价值，产生的冗余数据对内存或是磁盘空间无疑造成不必要的浪费。

针对传统模式，Flink、Spark Streaming、Storm等流式大数据实时处理系统被提出用来解决传统数据库存在的问题，通过数据驱动的时间片实现针对事件特征的有状态实时计算。在金融风控等领域中，对用户的资产状况、交易流水、信用指标等多个特征构建的高维度特征体系在这些基于时间驱动的时间切片体系下的流式计算框架性能不足，且时间片伸缩性差，难以做到对多精度任意时序的支持。其次这些框架通常仅仅提供一种计算框架，而不提供底层存储的管理实现，因此针对实时查询业务性能不高，且对数据存储的运维成本要求高。

发明内容

针对传统对实时流数据处理方法产生的问题，本发明的目的是利用毫秒级精准时间切片方法，通过细粒度的时间切片在多个指标下的聚合处理提高流数据处理的计算实时性和准确性，提高系统吞吐量和面向海量高并发数据的可用性，并在大数据处理中高效利用内存，适用于金融、移动互联网、物联网等多种复杂的应用场景。本发明通过定义每个时间切片上的属性进行聚合计算，并对中间态数据利用外存持久化存储，实现对海量流数据的实时高效效应。用于金融风控分析、流水数据处理、在线行为挖掘等场景。

本发明的目的是通过以下技术方案实现的：一种毫秒级时序流数据精准切片方法，该方法包含如下步骤：

(1)对时序流数据的处理，具体包括以下步骤：

(1.1)毫秒级精准切片的创建：设定每个毫秒级精准切片的生命周期LifeCycle。毫秒级精准切片根据数据产生的时间戳动态创建存储到服务端节点，且毫秒级精准切片分布在集群各个服务器中实现负载均衡效果。客户端节点接收毫秒级时序流数据并读取数据产生的时间戳，并对应发送到拥有对应毫秒级精准切片的服务端节点中进行处理，如果还没有对应的毫秒级精准切片，则会根据负载均衡策略选取一个服务端相对空闲节点创建对应的毫秒级精准切片并发送到该节点。

(1.2)毫秒级精准切片内聚合计算和存储：由服务端节点根据时间戳对应到相应的毫秒级精准切片内的数据，根据数据Key值对应到具体流水任务和用户指定的计算指标进行聚合计算，毫秒级精准切片如果还未到生命周期则会继续等待；在每个毫秒级精准切片中聚合计算后的数据会在生命周期结束后利用Key-Value键值对形式存入分布式数据库中，并清除相应的毫秒级精准切片和数据，以便创建更多的时间切片来接收聚合数据，Key值代表这个毫秒级精准切片对应的时间段，Value代表毫秒级精准切片内的属性。

(2)对时序流数据的查询，包括以下步骤：

在查询过程中，客户端接收到来自用户的查询请求，包含一个三元组：主键Key、算子Operator和时间段TimeStamp，因为一个毫秒级精准切片对应多个时序流水数据，主键Key代表用户需要查询哪一条流水的数据，算子Operator和时间段TimeStamp用来指定需要查询的计算指标和对应的时间范围。客户端接收到用户的查询信息后向对应的服务端节点发出查询命令，如果对应的时间范围内的毫秒级精准切片生命周期还未结束，则直接从服务端节点相应的毫秒级精准切片中读取切片聚合数据，如果生命周期已结束则从分布式数据库中读取。读取到时间段TimeStamp内对应的所有毫秒级精准切片聚合数据之后，对读取的毫秒级精准切片继续做一个临时聚合，合并为用户指定时间范围内各个计算指标对应的计算值，最后交给客户端返回给用户。

进一步地，毫秒级精准切片在生命周期内接收到一个新的时序流数据时，会立刻对各项指标进行聚合计算，而不会等到整个生命周期结束后才计算，保证计算的实时性要求。

进一步地，数据在分布式数据库中实现了一种可插拔式存储方式，用户可以指定将数据存入磁盘节省系统内存空间，也可以采用最近邻时间方式将最近一段时间最常访问的数据放入内存，亦或是所有的数据全部放入内存，以便提高实时聚合数据查询。

进一步地，查询操作和数据流处理操作是可以并行进行，即支持边计算边查询，实时的得到数据流状态结果。

本发明的有益效果：本发明提供的毫秒级时序流数据精准切片方法有以下几个技术特点：

1)利用毫秒级切片对时序数据精准实时计算。所有的时序流数据在毫秒级时间切片中对指定指标聚合计算，时间切片的毫秒级精度保证了计算的实时性，并根据系统所处网络环境情况动态调整时间片的生命周期保证在不同环境下的系统精准度。在金融、移动互联网等绝大多数领域，毫秒级的数据已是比较精确的数据，因此利用算子对毫秒级数据进行融合能够保证这些场景下用户的精度需求。

2)极大提高系统的吞吐量和空间利用率。时序流数据在进入系统之后按照图2所示结构之间被分配到对应的时间切片中进行各项指标的聚合计算，在每个时间切片生命周期结束后即被存储到分布式数据库中，期间不会因为前面数据延迟而阻塞，因此提高了系统的吞吐量，且在毫秒级对数据聚合计算，将细粒度的数据粗粒度化，去除了较多的冗余数据提高系统内存空间利用率。

3)支持高并发场景下的时序流数据计算。本发明中的时间切片通过不同的key区分不同业务的流水，因此支持对多个时序流数据的并行聚合计算，适用于高并发场景下的并行时序流数据计算。

4)聚合数据的可插拔式分布式数据库存储。各个时间切片的聚合数据的结果将最终存放在分布式数据库中，且在存放时利用时间最近邻原则实现可插拔式存储。可根据系统空间利用情况和具体业务场景设定是否将部分较久远的聚合数据存入到磁盘中，从而节省更多内存空间给最新最常被访问的聚合数据，也可以设定全部数据都存入内存。

5)灵活高效的实时数据查询接口。毫秒级的时间切片使得用户有更灵活的查询方式，可覆盖的查询时间范围可最小化粒度单位1毫秒，因此覆盖的业务场景更广，查询方式更加灵活，由于已经利用时间切片对毫秒级的数据进行了处理，因此减小了查询时临时聚合的次数，提高了查询接口的速度。

附图说明

图1为毫秒级精准时间切片示意图；

图2为毫秒级时序流数据精准切片聚合和存储示意图；

图3为毫秒级时序流数据精准切片数据处理流程图；

图4为实施例中第5秒时刻时间切片示意图；

图5为实施例中第5秒下一个数据计算后的时间切片示意图；

图6为查询过程中临时聚合示意图。

具体实施方式

这种切片方法主要利用毫秒级的时间切片对用户端产生的源源不断的流数据根据时间戳局部切分，并利用时间切片中定义的特定算子进行精准计算和聚合，并能够动态将时序流处理中间数据状态存储到持久化存储中，用户查询时系统也可以根据计算产生的元数据高效提取相关时间切片并返回查询结果；

本发明提供了一种毫秒级时序流数据精准切片方法，该方法包含如下步骤：

(1)对时序流数据的处理，具体包括以下步骤：

(1.1)毫秒级精准切片的创建：设定每个毫秒级精准切片的生命周期LifeCycle。毫秒级精准切片根据数据产生的时间戳动态创建存储到服务端节点，且毫秒级精准切片分布在集群各个服务器中实现负载均衡效果。如图3所示，客户端节点接收毫秒级时序流数据并读取数据产生的时间戳，并对应发送到拥有对应毫秒级精准切片的服务端节点中进行处理，如果还没有对应的毫秒级精准切片，则会根据负载均衡策略选取一个服务端相对空闲节点创建对应的毫秒级精准切片并发送到该节点。

(1.2)毫秒级精准切片内聚合计算和存储：由服务端节点根据时间戳对应到相应的毫秒级精准切片内的数据，利用过滤器根据数据Key值对应到具体流水任务和用户指定的计算指标进行聚合计算，毫秒级精准切片在生命周期内接收到一个新的时序流数据时，会立刻对各项指标进行聚合计算，而不会等到整个生命周期结束后才计算，保证计算的实时性要求。如图2所示，毫秒级精准切片如果还未到生命周期则会继续等待；在每个毫秒级精准切片中聚合计算后的数据会在生命周期结束后利用Key-Value键值对形式存入分布式数据库中，并清除相应的毫秒级精准切片和数据，以便创建更多的时间切片来接收聚合数据，Key值代表这个毫秒级精准切片对应的时间段，Value代表毫秒级精准切片内的属性。数据在分布式数据库中实现了一种可插拔式存储方式，用户可以指定将数据存入磁盘节省系统内存空间，也可以采用最近邻时间方式将最近一段时间最常访问的数据放入内存，亦或是所有的数据全部放入内存，以便提高实时聚合数据查询。

(2)对时序流数据的查询，包括以下步骤：

查询操作和数据流处理操作是可以并行进行，即支持边计算边查询，实时的得到数据流状态结果。

所述毫秒级精准切片，又称时间切片，其内部属性如图1所示，其中StartTime代表开始时间戳，StreamList存放多个时序流数据流水计算指标信息，一个切片可以对多数据流水进行指标计算。每个流水都会对应一个主键Key，Quota则存放具体计算指标的数据。往往由于网络状况的不稳定性或系统调度策略的差异，可能会导致数据到达顺序出现偏差，即靠后时间片的数据先到而靠前时间片中的数据延迟到达的情况，为了使得时间切片的精度更高，我们定义了时间切片的生命周期LifeCycle，即从时间片在收到数据多久之后认为该时段的数据已收集完毕可以将聚合数据存入数据库并对切片回收释放内存。在整个毫秒级时间切片初始化前可以根据当前网络环境和系统状况指定这个生命周期，从而提高时序流计算的精确性。一般地，在网络环境不稳定的情况下，时间切片生命周期越长，时间切片聚合准确性就越高，但同一时间切片数量也越多导致内存占用率高。若网络性能稳定则较低的时间切片周期也能保证准确的聚合计算结果。Active则对应表示这个切片的生命周期是否已经结束，为下一步的存储和数据回收做铺垫。

所述聚合计算分为局部聚合以及局部聚合数据进行的临时聚合。局部聚合的是指在处理时序数据流时在切片内部进行的聚合，目的是将细粒度的数据转换成毫秒级相对粗粒度的数据。此时时间切片接收到的是来自数据源的原始数据，这些数据由于存在冗余信息且无法实时提供有效的计算指标信息，因此需要利用毫秒级时间切片对这些数据进行局部合并，根据用户指定的计算指标得到一个毫秒级的聚合数据，这个过程也是动态的，当时间切片接收到一个符合范围的数据时就会进行一次局部聚合计算。这些聚合数据会在切片生命周期结束后存入分布式数据库中供后续查询使用，也是为了提高查询的实时性和高效性，整个过程是对用户透明的。临时聚合是指在进行查询时落在查询时间范围内的局部聚合的切片数据会根据用户需要的时间范围和计算指标进行临时聚合。这个聚合过程是为了提供面向用户实时查询的功能，因此聚合结果不会保存在数据库中。

所述计算指标，是由用户指定对达到的数据设定需要计算的类别，并具体对应到各种聚合算子，如图1所示毫秒级精准切片处理系统结构图，在每个时间切片进行聚合计算过程中会利用一个过滤器筛选出指定的计算指标，并调用相应的算子进行聚合计算。

所述聚合算子，是由系统提供面向用户的接口，实现数据实时处理计算流程，主要进行求最大最小值、求平均值、计数、求方差等多种常用的大数据计算。用户通过该接口可以自定义需要进行的计算算子，并由切片进行局部计算聚合。该算子也适用在之后查询阶段对时间切片聚合数据的临时聚合中。

所述聚合数据存储，是系统对利用毫秒级时间切片的得到的聚合数据利用分布式数据库按照Key-Value键值对形式在集群中存储，Key对应时间片主键值，Value包含聚合数据的各类属性信息。聚合数据存储一方面是为了保证数据能够在分布式集群中多机存储确保数据的可靠性，另一方面在进行实时流数据查询时切片聚合数据会在多机中按照用户指定的算子继续聚合，得到最终查询结果。存储时可指定对稍久远的数据存入数据库，将最近最常访问到的数据存入内存，提高查询时系统读入数据的速度。

所述实时流数据查询，是毫秒级时间切片在进行局部聚合存入数据库之后提供的高效查询接口。用户通过指定查询三元组确定查询的流水、查询的聚合算子和查询范围。系统会利用符合条件的分布式数据库中数据和当前生命周期未结束的时间切片进行临时聚合计算，最终得到用户查询结果。实施例

以一个样例的方式，对上述毫秒级时序流数据精准切片技术进行进一步的说明。

该实施例有如下假设：

1)样例中的计算指标为“某在线交易平台一分钟内的交易总金额和交易次数”，这在互联网和金融领域是一个常见的计算指标。

2)假设该在线交易平台每秒会发生2000次交易，即1毫秒发生2次交易，每次交易金额10元。

3)定义当前时间为2020年12月19日18时整，从当前开始统计交易流水数据。

4)根据网络场景设置每个时间切片的生命周期LiftCycle为50毫秒。

根据上述假设，我们取第5秒这个时刻分析，取部分时间切片如图4所示：

在这个场景中每个只有一条时序数据流水进入系统进行计算，因此streamList只有一条数据。在时间切片首部，即StartTime为1220180004949这个时间切片，因为生命周期已经在第5秒这个时刻已经超过了50毫秒，因此数据将被写入到分布式数据库中，其Active置为False代表等待写入和回收。后面的时间切片Active都为True继续等待接收数据，这些切片都对接收的数据进行了聚合计算并得到了对应的指标。在时间片尾部的虚线框表示下一时刻将要接收数据的时间切片。当下一个数据到来时，系统会动态创建切片，计算后得到Quota中的SUM值为100010，COUNT值为10001，并将StartTime为1220180004950这个时间切片Active置为False，结果如图5所示：

假设此时用户发起了一个查询操作，需要查找从0时刻开始到此时的交易总金额和交易次数，这时系统会进行以下操作：

1)客户端节点收到一个三元组

(KEY:1000000,OPERATOR:[SUM,COUNT],TIMESTAMP:1220180000000-1220180005000),解析之后向服务端节点发出查找指令。

2)在服务端发现时间戳从1220180000000到1220180004950这些聚合切片数据都已经存放在了数据库中，于是从分布式数据库中开始读取这些聚合切片。而时间戳从1220180004951到1220180005000这些切片都还存在于服务端节点中，因此会直接从这些节点收集需要的数据进行下一步临时聚合。

3)如图6所示，所有落在用户指定查询范围内的时间切片都将在服务端节点中分布式地进行聚合，最终得出一个临时聚合后的查询结果，发送给客户端节点最后返回用户，整个过程由客户端节点进行调度。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

一种毫秒级时序流数据精准切片方法，其特征在于，该方法包含如下步骤：

(1)对时序流数据的处理，具体包括以下步骤：

(1.1)毫秒级精准切片的创建：设定每个毫秒级精准切片的生命周期LifeCycle。毫秒级精准切片根据数据产生的时间戳动态创建存储到服务端节点，且毫秒级精准切片分布在集群各个服务器中实现负载均衡效果。客户端节点接收毫秒级时序流数据并读取数据产生的时间戳，并对应发送到拥有对应毫秒级精准切片的服务端节点中进行处理，如果还没有对应的毫秒级精准切片，则会根据负载均衡策略选取一个服务端相对空闲节点创建对应的毫秒级精准切片并发送到该节点。

(1.2)毫秒级精准切片内聚合计算和存储：由服务端节点根据时间戳对应到相应的毫秒级精准切片内的数据，根据数据Key值对应到具体流水任务和用户指定的计算指标进行聚合计算，毫秒级精准切片如果还未到生命周期则会继续等待；在每个毫秒级精准切片中聚合计算后的数据会在生命周期结束后利用Key-Value键值对形式存入分布式数据库中，并清除相应的毫秒级精准切片和数据，以便创建更多的时间切片来接收聚合数据，Key值代表这个毫秒级精准切片对应的时间段，Value代表毫秒级精准切片内的属性。

(2)对时序流数据的查询，包括以下步骤：

在查询过程中，客户端接收到来自用户的查询请求，包含一个三元组：主键Key、算子Operator和时间段TimeStamp，因为一个毫秒级精准切片对应多个时序流水数据，主键Key代表用户需要查询哪一条流水的数据，算子Operator和时间段TimeStamp用来指定需要查询的计算指标和对应的时间范围。客户端接收到用户的查询信息后向对应的服务端节点发出查询命令，如果对应的时间范围内的毫秒级精准切片生命周期还未结束，则直接从服务端节点相应的毫秒级精准切片中读取切片聚合数据，如果生命周期已结束则从分布式数据库中读取。读取到时间段TimeStamp内对应的所有毫秒级精准切片聚合数据之后，对读取的毫秒级精准切片继续做一个临时聚合，合并为用户指定时间范围内各个计算指标对应的计算值，最后交给客户端返回给用户。
根据权利要求1所述的一种毫秒级时序流数据精准切片方法，其特征在于，毫秒级精准切片在生命周期内接收到一个新的时序流数据时，会立刻对各项指标进行聚合计算，而不会等到整个生命周期结束后才计算，保证计算的实时性要求。
根据权利要求1所述的一种毫秒级时序流数据精准切片方法，其特征在于，数据在分布式数据库中实现了一种可插拔式存储方式，用户可以指定将数据存入磁盘节省系统内存空间，也可以采用最近邻时间方式将最近一段时间最常访问的数据放入内存，亦或是所有的数据全部放入内存，以便提高实时聚合数据查询。
根据权利要求1所述的一种毫秒级时序流数据精准切片方法，其特征在于，查询操作和数据流处理操作是可以并行进行，即支持边计算边查询，实时的得到数据流状态结果。