WO2023077451A1

WO2023077451A1 - 一种基于列存数据库的流式数据处理方法及系统

Info

Publication number: WO2023077451A1
Application number: PCT/CN2021/129076
Authority: WO
Inventors: 程学旗; 郭嘉丰; 李冰; 邱强; 张志斌
Original assignee: 中国科学院计算技术研究所
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2023-05-11

Abstract

一种基于列存数据的流式数据处理方法和系统，包括：获取待处理的列存流式数据及其对应的处理任务，基于时间维度将该流式数据切分为批式数据块，根据预设窗口模式为该批式数据块中每条数据分配窗口序号；将该批式数据块切分为多个中间数据块，每个中间数据块仅包含窗口序号相同的数据，对每个中间数据块的数据进行预聚合计算，产生预聚合中间状态；根据预设的流式数据时间处理模式，从内部存储提取窗口所对应的窗口序号的预聚合中间状态并执行与其对应的处理任务，输出任务执行结果，作为流式数据处理结果。上述方法通过使用列存存储及计算引擎，结合预聚合技术，在保持较低延迟的前提下，提升数据分析场景的吞吐量。

Description

一种基于列存数据库的流式数据处理方法及系统

技术领域

本发明属于分布式计算领域，具体应用在分布式流式数据计算方向，并特别涉及一种基于列存数据库的流式数据处理方法及系统。

背景技术

流式数据计算引擎正在逐渐兴起，并渗透至各个行业。目前，几乎所有的云服务商都提供流式数据计算引擎，可用于数据聚合、数据关联、数据监控、以及数据分析等场景。当前主流的流式数据计算引擎以Apache Flink、Apache Spark Streaming、及Storm等系统为代表，使用有向无环图表示用户作业，其编程模型较MapReduce更加灵活。当代流式数据计算引擎通过窗口技术实现时间维度的数据聚合，并通过事件消息实现乱序消息处理支持。

窗口技术简介：

流式数据计算引擎使用窗口技术对数据进行时间维度聚合操作，常见的窗口包括滚动和滑动窗口。滚动窗口也称为固定时间窗口，以固定的时间间隔聚合数据，比如每天对数据进行汇总处理；滑动窗口也叫跳跃窗口，其定义一个具有固定大小，并以固定时间间隔滑动的窗口，比如可用于每天生成最近一周的统计数据表。当时间窗口大小和滑动间隔相等时，滑动时间窗口退化为滚动时间窗口，当滑动间隔小于时间窗口大小时，滑动窗口出现重叠，此时一条记录可能属于多个不同窗口。

时间语义简介：

流式数据计算引擎以时间维度对数据进行处理，通常支持处理时间和事件时间两类时间语义。处理时间是消息进入计算引擎的时间，数据按照进入系统的顺序绑定递增的时间戳，由于处理时间语义下使用机器物理时间，因此窗口按照机器时间触发即可，该模式下数据处理较为简单。事件时间是指数据真实发生的时间，但数据产生后可能由于网络不稳定等原因导致乱序到达服务器，也可能由于网络故障导致无法到达服务器。因此，事件时间处理模式下，系统无法使用机器时间判断窗口的数据是否全部到齐。当前主流的一种做法是使用水位线机制判断数据是否到齐，水位线是系统使用特定算法估算出的一个标志位，用于标记该时刻某窗口数据已全部到齐，通常使用启发式算法得出。但由于数据是未知的，系统无法预测准确的水位线位置，因此水位线之后仍可能有迟到数据到达，这部分数据被单独处理。由于数据可能延迟几小时甚至几天才能到达，而在金融等一些领域又无法接受数据丢弃，因此迟到数据处理场景下如何缓存大量窗口数据是流式数据计算系统的一大挑战。

存储和计算模式简介：

流式计算引擎的存储和计算模式分为基于行存和基于列存两类，行存模式是指系统以数据表的行为单位存储数据及进行计算，如图1所示。基于行存的存储模式是一种非常直观的存储模式，其存储模式与人类所习惯的表格存储模式类似。其优点是可以高效的操作同一记录的各个数据属性，并且对事务操作友好。但由于行存存储模式在读取数据时需要按行读取每个记录的全部数据，如果一个查询只需要使用数据记录中的部分属性，则此模式会造成无关的读写开销，当数据记录属性特别多时此开销可能严重影响系统性能。此外，在需要对整个数据集按照某属性进行数据聚合的场景，由于行存模式需要读取数据记录全部的数据，对内存不友好，造成性能较差。主流的流式数据计算引擎如Apache Flink、Apache Spark Streaming等，使用行存存储模式，该模式在数据清洗、过滤、转换等场景下给系统带来较低的延迟。

列存模式是指系统按照数据表的列来维护数据记录并进行计算，数据表每一列代表数据记录的一个属性，并将所有数据记录按属性排序存储在内存中，如图2所示。其存储模式没有行存模式直观。基于列存的存储模式是为提升数据分析场景性能而诞生的。由于其每条数据记录各属性存储不连续，因此对单个数据记录的操作速度要慢于行存存储模式，且对事务操作不友好。但由于列存模式可以只检索指定的数据属性而无需读取全部数据，因此在需要数据过滤的场景可极大减少数据读写开销，同时在数据聚合场景对内存友好，故列存存储模式在数据分析场景下有其独到优势。基于列存的存储模式广泛应用于数据分析引擎中，如HBase，ClickHouse等。

综上现有技术存在以下问题和缺点：

(1)行存模式数据分析场景性能低。主流流式数据计算引擎针对日志数据处理进行设计及优化，采用行存存储及计算模式，实现消息实时处理。但行存计算模式在数据分析场景下性能较低，研究表明，主流流式数据计算引擎吞吐量相较如SQL Server、Shark等列存数据分析引擎可能低于500倍甚至更多。由于列存引擎在数据排序或聚合等场景可以更高效的利用硬件资源，其在大数据分析场合存在独有优势。但是，由于主流数据库等缺乏增量计算模型支持，因此无法支持流式数据计算。

(2)多系统使用困难，及数据拷贝等开销造成性能损失。许多分析型任务，如实时推荐、在线机器学习、或流式图计算处理等任务具有复杂的计算模式，通常需要从多个不同系统中进行聚合计算，如聚合流式数据计算引擎、数据库、以及内容缓存系统中的数据。例如，广告分析系统使用关系型数据库中的广告客户及用户数据，并在流式数据处理任务中使用这些数据。同样，在线机器学习或图计算任务中，也可能会访问数据库以获得训练数据等信息。多系统的使用增加了用户的学习成本，同时也使系统逻辑变得复杂，难以维护，此外，由于数据需要在多个不同系统之间流转，带来数据拷贝、及序列化和反序列化开销。主流流式数据计算系统不支持数据库存储，因此需要搭配数据库系统才能完成上述用户业务，同时往往还需引入消息队列以实现流式数据计算系统和数据库系统通信。

发明公开

本发明的目的是提高流式数据计算系统在数据分析场景下的计算效率，提出了一种使用列存存储及计算引擎的流式数据计算方法和系统。

针对现有技术的不足，本发明提出一种基于列存数据的流式数据处理方法，其中包括：

步骤1、获取待处理的列存流式数据及其对应的处理任务，基于时间维度将该流式数据切分为批式数据块，根据预设窗口模式为该批式数据块中每条数据分配窗口序号；

步骤2、将该批式数据块切分为多个中间数据块，每个中间数据块仅包含窗口序号相同的数据，对每个中间数据块的数据进行预聚合计算，产生预聚合中间状态；

步骤3、根据预设的流式数据时间处理模式，从内部存储提取窗口对应窗口序号的预聚合中间状态并执行与其对应的处理任务，输出任务执行结果，作为流式数据处理结果。

所述的基于列存数据的流式数据处理方法，其中步骤2包括：执行该预聚合处理时对窗口过期数据直接丢弃或窗口过期指定时间后丢弃。

所述的基于列存数据的流式数据处理方法，其中步骤3中该流式数据时间处理模式为处理时间或事件时间处理模式；

处理时间处理模式下，使用执行处理任务的计算机机器时间设置触发器，以在机器时间到达窗口结束时间时，调用窗口处理命令，选取窗口结束时间所对应窗口的预聚合中间状态并执行与之对应的处理任务；

事件时间处理模式下，使用水位线机制设置触发器，以将所有流式数据的最大时间作为水位线，在水位线满足触发条件时选取窗口结束时间所对应窗口的预聚合中间状态并执行与之对应的处理任务。

所述的基于列存数据的流式数据处理方法，其中该步骤1包括：

当该窗口模式为滚动窗口时，以该批式数据块中数据所在窗口开始时间和窗口大小之和作为窗口结束时间，根据该窗口结束时间为该窗口序号；

当该窗口模式为滑动窗口时，根据滑动间隔，计算该批式数据块中数据所在窗口的开始时间，并根据其与窗口滑动间隔之和作为窗口结束时间；

以窗口大小和窗口滑动间隔的最大公因数为临时子窗口大小，以该窗口结束时间为临时子窗口开始时间，设置临时窗口，并将该临时窗口向时间减少方向滑动，直到找到包含该批式数据块中数据的最小序号窗口，以其结束时间为窗口序号。

所述的基于列存数据的流式数据处理方法，其中该流式数据为传感器实时采集的生理数据、图像数据或日志文本数据；流式数据对应的处理任务为数据库统计任务。

本发明还提出了一种基于列存数据的流式数据处理系统，其中包括：

模块1，用于获取待处理的列存流式数据及其对应的处理任务，基于时间维度将该流式数据切分为批式数据块，根据预设窗口模式为该批式数据块中每条数据分配窗口序号；

模块2，用于将该批式数据块切分为多个中间数据块，每个中间数据块仅包含窗口序号相同的数据，对每个中间数据块的数据进行预聚合计算，产生预聚合中间状态；

模块3，用于根据预设的流式数据时间处理模式，从内部存储提取窗口对应窗口序号的预聚合中间状态并执行与其对应的处理任务，输出任务执行结果，作为流式数据处理结果。

所述的基于列存数据的流式数据处理系统，其中模块2用于执行该预聚合处理时对窗口过期数据直接丢弃或窗口过期指定时间后丢弃。

所述的基于列存数据的流式数据处理系统，其中模块3中该流式数据时间处理模式为处理时间或事件时间处理模式；

所述的基于列存数据的流式数据处理系统，其中该模块1用于

所述的基于列存数据的流式数据处理系统，其中该流式数据为传感器实时采集的生理数据、图像数据或日志文本数据；流式数据对应的处理任务为数据库统计任务。

由以上方案可知，本发明的优点在于：

该发明提出了一个使用列存引擎的流式数据计算系统。与现有技术相比，该系统通过使用列存存储及计算引擎，结合预聚合技术，在保持较低延迟的前提下，提升数据分析场景的吞吐量。该系统在雅虎流式数据计算基准测试中吞吐量达到业界知名系统Apache Flink的14.8倍，在使用纽约出租车数据集的一个典型数据分析场景下，吞吐量超过Flink和Apache Spark Streaming 2700多倍。

附图简要说明

图1为行存存储模式示意图；

图2为列存存储模式示意图；

图3为系统使用模式图；

图4为流式数据处理流程示意图；

图5为WindowView创建语法示意图；

图6为水位线使用示例图；

图7为迟到策略使用示例图；

图8为TUMBLE函数定义图；

图9为TUMBLE函数使用示例图；

图10为HOP函数定义图；

图11为HOP函数使用示例图。

实现本发明的最佳方式

许多用户存在数据分析场景流式数据计算任务吞吐量明显低于传统数据库计算任务吞吐量的问题。发明人在进行流式计算引擎研究时，发现现有技术中的该项缺陷是由流式计算引擎所使用的行存存储及处理引擎所导致，行存引擎以单个数据记录为单位进行计算，难以获取数据间的关联关系进行聚合计算加速。主流流式数据计算引擎不采用列存引擎的原因是行存模式以单个数据为单位进行处理，处理延迟较低，采用列存模式会增加处理延迟。发明人经过对现有技术的研究，提出了基于列存引擎的流式数据计算系统，通过窗口切分、窗口ID压缩、窗口计算状态预聚合等技术降低列存引擎的处理延迟，并通过存储引擎优化技术实现过期窗口持久化，以支持过期数据永不丢弃。

具体来说本申请涉及以下关键技术点：

关键点1，使用列存计算引擎的流式数据计算系统；技术效果：系统在时间维度上将流式数据切分为批式数据块，以数据块而不是单条数据作为数据计算单位，充分利用列存存储及计算技术加速聚合操作；

关键点2，窗口预聚合技术；技术效果：将计算任务预聚合为计算中间状态，减少窗口触发时的计算量，降低计算延迟；

关键点3，滑动窗口切分及计算状态复用技术；技术效果：将重叠的滑动窗口切分为不重叠的连续窗口，并对切分后的窗口进行预聚合计算，窗口触发时复用预聚合计算状态，减少滑动窗口重复计算开销，降低计算延迟。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本系统通过视图的方式实现结构化查询语义SQL下的流式数据处理，本发明系统通过定义WindowView视图表，将关系型源数据表转换为流式数据，在WindowView中以流式形式处理后，将处理结果输出至目标表，如图3所示。与传统数据库视图类似，WindowView会监控源数据表，数据插入时可自动读取新插入的数据，源数据表可以是系统内的任意表，如普通关系型数据表、以及一些特殊表如分布式表、Kafka表、文件表、以及Null表等。其中，可通过分布式表实现分布式计算，并可通过Null表将数据直接插入WindowView，实现流式数据非落盘处理。图4展示了WindowView流式数据处理流程。

过程一：使用SQL语句创建WindowView表，创建WindowView的语法和创建数据库视图表相似，如图5所示，关键字说明见表1。

表1 WindowView关键字说明：

系统支持如下水位线机制，其使用示例如图6所示：

STRICTLY_ASCENDING：按照系统观测到的最大时间提交水位线，数据时间小于最大观察时间则不算迟到。其中最大时间即为系统观测到的所有日志的“最新时间”。若系统观测到日志序列为：1，5，3，4.则“最大时间”为5。此处使用“最大时间”，而不是“最新时间”，是考虑到时间在系统中是以“时间戳”的形式表示，数字越大，时间越新。

ASCENDING：按照系统观测到的最大时间减1提交水位线，数据时间不大于最大观察时间则不算迟到。

BOUNDED：按照系统观测到的最大时间减去固定时间间隔提交水位线。

系统使用Window Function(窗口函数)为数据集分配窗口序号，窗口序号是用于标识窗口的唯一标识符，系统支持TUMBLE(滚动)和HOP(滑动)窗口函数。

TUMBLE窗口函数定义了一个在时间维度上以固定时间间隔滚动的窗口，其定义如图8所示。参数time_attr是数据所包含的时间戳，也可使用函数now()将数据时间指定为系统当前时间；参数interval用来指定窗口大小；参数timezone是可选参数，用于指定与系统不同的时间区域，默认为系统时间区域。图9是TUMBLE函数的一个使用示例，其定义了大小为一天的滚动时间窗口。

HOP窗口函数定义了一个具有固定大小，并在时间维度上滑动的窗口，其定义如图10所示。参数time_attr是数据所包含的时间戳，也可以使用函数now()将数据时间指定为系统当前时间；参数hop_interval是窗口滑动间隔；参数window_interval是窗口大小，当窗口大小大于滑动间隔时，滑动窗口存在重叠，当窗口大小等于滑动间隔时，窗口退化为滚动窗口，当窗口大小小于滑动间隔时，窗口变的不连续，由于系统不支持不连续窗口，因此窗口大小不能小于滑动间隔；参数timezone是可选参数，用于指定与系统不同的时间区域，默认为系统时间区域。图11是HOP函数的一个使用示例，其定义了窗口大小为三天，滑动间隔为一天的时间窗口，可用于每天统计最近三天的数据。

过程二：流式数据处理时，新到达的数据可由用户应用追加到系统源数据表。也可由系统自动监控kafka等数据源，新数据到达时自动插入源数据表。

过程三：WindowView自动监控源数据表更新，源数据表更新时新插入的数据自动推送至WindowView。

过程四：为了充分发挥列存引擎优势，数据插入WindowView后会进行短暂缓存，积攒够一定数量数据后，WindowView将积攒的数据打包为数据块，以数据块为单位进行处理。数据块打包策略可配置为根据数据条目数量、数据量大小、以及时间间隔触发打包操作。

过程五：如果用户计算任务包含窗口聚合操作，则对数据块中窗口过期数据进行过滤。系统支持过期数据直接丢弃，或窗口过期一段时间后丢弃，该时间长短可在WindowView创建语句中指定。

过程六：对数据块中每条数据计算并分配窗口序号，其步骤如下，其中时间戳为数据记录的处理时间或事件时间：

过程6.1:如果窗口为滚动窗口，获取窗口开始时间。可使用例如下表2的方法计算得到窗口开始时间。

过程6.2:使用过程6.1所得的开始时间+窗口大小作为窗口结束时间。

过程6.3:将过程6.2所得的窗口结束时间分配为窗口序号。

过程6.4:如果窗口为滑动窗口，可使用下表2的计算方法，以滑动间隔作为窗口大小，计算窗口开始时间。

过程6.5:将过程6.4所得的窗口开始时间+滑动间隔作为窗口结束时间

过程6.6:由于滑动窗口存在重叠，为了避免重叠窗口造成的重复计算，因此在划分滑动窗口时将窗口切分为连续不重叠的小窗口。

过程6.7:计算窗口大小和滑动间隔的最大公因数作为过程6.6所描述的不重叠小窗口大小

过程6.8:以过程6.5所得的窗口结束时间为窗口开始时间，过程6.6所得的最大公因数为窗口大小设置一个临时窗口，并将临时窗口向时间减少方向滑动，直到找到第一个窗口，其窗口结束时间小于数据时间戳。此步骤的目的是要找到第一个包含目标数据时间戳的窗口，但由于窗口无法直接通过数值计算获得，只能通过滑动窗口找到结束时间小于目标时间戳的第一个窗口后，再向时间增加方向滑动一个单位。

过程6.9:以过程6.8所得的窗口结束时间+过程6.6所得的最大公因数作为窗口序号。

表2窗口开始时间计算方法

过程七：以过程六分配的窗口序号为单位，将数据块切分为多个中间数据块，每个中间数据块仅包含窗口序号相同的数据。随后对每个中间数据块的数据进行预聚合计算，产生预聚合中间状态。

系统在对数据块进行预聚合时，通过列存存储技术，仅读取聚合操作所需的列数据，减少磁盘读取时间。例如需统计每个窗口中年龄大于30岁的用户总数，则先读取年龄列，过滤掉小于等于30岁的用户，再读取窗口序号列，根据窗口序号聚合求和，整个操作无需读取数据表其他列信息，减少磁盘开销。且此过程由于数据量更紧凑，对CPU cache更友好，可加速计算过程。

其中预聚合技术可例如是计算任务是数字求和，一个数据流先后到达4个数字，分别是1、2、3、4，使用预聚合技术，在每个数字到达时，系统预先进行一次计算，每一次预聚合中间状态分别是1，1；2，3；3，6；4，10。在系统触发最终计算时，直接读取最新，也就是第4次预聚合中间状态，10 即为最终计算结果。

过程八：将预聚合中间状态写入内部存储引擎。

过程九：由于流式数据处理中，数据是源源不断到达的，因此需要使用后台任务不定期进行多次合并操作。系统使用后台任务，在计算空闲时，自动对存储引擎中窗口序号相同的数据块进行预聚合计算，将多个数据块合并为单个数据块。

过程十：处理时间处理模式下，系统使用计算机机器时间设置触发器，在机器时间到达窗口结束时间时，调用窗口处理命令，计算该时刻所对应窗口的数据。事件时间处理模式下，系统使用水位线机制设置触发器，将目前观测到所有消息的最大时间作为水位线，在水位线满足触发条件时调用所对应窗口处理命令。窗口处理命令具体执行步骤如下：

过程10.1：从内部存储提取窗口所对应的窗口序号的预聚合中间状态，每个滚动窗口对应一个窗口序号，滑动窗口由于使用窗口切分，对应一个或多个窗口序号。

过程10.2：如过程10.1提取的预聚合中间状态为多个数据块，则进行预聚合计算，将其合并为单个数据块。

过程10.3：通过最终计算操作将单个数据块的预聚合中间状态计算为最终计算结果。

过程十一：如WindowView创建时指定了TO关键字，则将最终计算结果输出至目标表。

过程十二：如果客户端使用WATCH关键字监控WindowView，则将最终计算结果输出至客户端终端。

过程十三：新数据到达时重复过程三到过程十二。

过程十四：系统使用后台任务，根据迟到数据处理策略，定期清理过期窗口数据，释放存储空间。

综上，本系统将所有处理任务(计算操作)均分为两步骤：计算至预聚合中间状态，以及预聚合中间状态合并，以产生最终计算结果。计算操作可以是求和、求平均、统计、分类等数据库常用操作。以对100条数据进行求和操作为例，假设机器有10个计算线程。本系统对每个计算线程分配10条数据。步骤一：每个计算线程统计所分配的10条数据，此处10条数据的求和值即为预聚合中间状态；步骤二：将10个线程所产生的10个求和值合并，生成“最终计算状态”，即为100个数据的求和值。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

所述的基于列存数据的流式数据处理系统，其中该模块1用于

工业应用性

本发明提出一种基于列存数据的流式数据处理方法和系统，包括：获取待处理的列存流式数据及其对应的处理任务，基于时间维度将该流式数据切分为批式数据块，根据预设窗口模式为该批式数据块中每条数据分配窗口序号；将该批式数据块切分为多个中间数据块，每个中间数据块仅包含窗口序号相同的数据，对每个中间数据块的数据进行预聚合计算，产生预聚合中间状态；根据预设的流式数据时间处理模式，从内部存储提取窗口对应窗口序号的预聚合中间状态并执行与其对应的处理任务，输出任务执行结果，作为流式数据处理结果。本发明通过使用列存存储及计算引擎，结合预聚合技术，在保持较低延迟的前提下，提升数据分析场景的吞吐量

Claims

一种基于列存数据的流式数据处理方法，其特征在于，包括：

步骤1、获取待处理的列存流式数据及其对应的处理任务，基于时间维度将该流式数据切分为批式数据块，根据预设窗口模式为该批式数据块中每条数据分配窗口序号；

步骤2、将该批式数据块切分为多个中间数据块，每个中间数据块仅包含窗口序号相同的数据，对每个中间数据块的数据进行预聚合计算，产生预聚合中间状态；

步骤3、根据预设的流式数据时间处理模式，从内部存储提取窗口对应窗口序号的预聚合中间状态并执行与其对应的处理任务，输出任务执行结果，作为流式数据处理结果。
如权利要求1所述的基于列存数据的流式数据处理方法，其特征在于，步骤2包括：执行该预聚合处理时对窗口过期数据直接丢弃或窗口过期指定时间后丢弃。
如权利要求1所述的基于列存数据的流式数据处理方法，其特征在于，步骤3中该流式数据时间处理模式为处理时间或事件时间处理模式；

处理时间处理模式下，使用执行处理任务的计算机机器时间设置触发器，以在机器时间到达窗口结束时间时，调用窗口处理命令，选取窗口结束时间所对应窗口的预聚合中间状态并执行与之对应的处理任务；

事件时间处理模式下，使用水位线机制设置触发器，以将所有流式数据的最大时间作为水位线，在水位线满足触发条件时选取窗口结束时间所对应窗口的预聚合中间状态并执行与之对应的处理任务。
如权利要求1所述的基于列存数据的流式数据处理方法，其特征在于，该步骤1包括：

当该窗口模式为滚动窗口时，以该批式数据块中数据所在窗口开始时间和窗口大小之和作为窗口结束时间，根据该窗口结束时间为该窗口序号；

当该窗口模式为滑动窗口时，根据滑动间隔，计算该批式数据块中数据所在窗口的开始时间，并根据其与窗口滑动间隔之和作为窗口结束时间；

以窗口大小和窗口滑动间隔的最大公因数为临时子窗口大小，以该窗口结束时间为临时子窗口开始时间，设置临时窗口，并将该临时窗口向时间减少方向滑动，直到找到包含该批式数据块中数据的最小序号窗口，以其结束时间为窗口序号。
如权利要求1所述的基于列存数据的流式数据处理方法，其特征在于，该流式数据为传感器实时采集的生理数据、图像数据或日志文本数据；流式数据对应的处理任务为数据库统计任务。
一种基于列存数据的流式数据处理系统，其特征在于，包括：

模块1，用于获取待处理的列存流式数据及其对应的处理任务，基于时间维度将该流式数据切分为批式数据块，根据预设窗口模式为该批式数据块中每条数据分配窗口序号；

模块2，用于将该批式数据块切分为多个中间数据块，每个中间数据块仅包含窗口序号相同的数据，对每个中间数据块的数据进行预聚合计算，产生预聚合中间状态；

模块3，用于根据预设的流式数据时间处理模式，从内部存储提取窗口对应窗口序号的预聚合中间状态并执行与其对应的处理任务，输出任务执行结果，作为流式数据处理结果。
如权利要求6所述的基于列存数据的流式数据处理系统，其特征在于，模块2用于执行该预聚合处理时对窗口过期数据直接丢弃或窗口过期指定时间后丢弃。
如权利要求6所述的基于列存数据的流式数据处理系统，其特征在于，模块3中该流式数据时间处理模式为处理时间或事件时间处理模式；

处理时间处理模式下，使用执行处理任务的计算机机器时间设置触发器，以在机器时间到达窗口结束时间时，调用窗口处理命令，选取窗口结束时间所对应窗口的预聚合中间状态并执行与之对应的处理任务；

事件时间处理模式下，使用水位线机制设置触发器，以将所有流式数据的最大时间作为水位线，在水位线满足触发条件时选取窗口结束时间所对应窗口的预聚合中间状态并执行与之对应的处理任务。
如权利要求6所述的基于列存数据的流式数据处理系统，其特征在于，该模块1用于

当该窗口模式为滚动窗口时，以该批式数据块中数据所在窗口开始时间和窗口大小之和作为窗口结束时间，根据该窗口结束时间为该窗口序号；

当该窗口模式为滑动窗口时，根据滑动间隔，计算该批式数据块中数据所在窗口的开始时间，并根据其与窗口滑动间隔之和作为窗口结束时间；

以窗口大小和窗口滑动间隔的最大公因数为临时子窗口大小，以该窗口结束时间为临时子窗口开始时间，设置临时窗口，并将该临时窗口向时间减少方向滑动，直到找到包含该批式数据块中数据的最小序号窗口，以其结束时间为窗口序号。
如权利要求6所述的基于列存数据的流式数据处理系统，其特征在于，该流式数据为传感器实时采集的生理数据、图像数据或日志文本数据；流式数据对应的处理任务为数据库统计任务。