WO2016045367A1

WO2016045367A1 - 一种多数据源数据融合的方法及装置

Info

Publication number: WO2016045367A1
Application number: PCT/CN2015/076903
Authority: WO
Inventors: 王利学
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-09-24
Filing date: 2015-04-17
Publication date: 2016-03-31
Also published as: CN105512130B; CN105512130A

Abstract

一种分布式融合数据排序方法及系统，所述方法利用各机器生成的时间序列日志文件的时间戳和排序特征，通过中心控制节点统一控制融合时钟的时间线，由一个数据处理节点对来自多个不同数据接入节点的时间序列数据的进行统一融合排序。此外，通过分布式设置多个数据处理节点，每个数据处理节点分别处理相应的多个数据接入节点的时间序列数据的统一融合排序，实现并行化处理。可以节省计算量，降低内存占用，提高整体吞吐效率，有利于大数据的融合处理。

Description

一种多数据源数据融合的方法及装置

技术领域

本发明涉及数据分析技术领域，尤其涉及多数据源数据融合的方法和装置。

背景技术

大数据技术的发展为海量数据的分析提供了保证，使得大量机器生成的海量数据能够得到有效的挖掘。

时间序列数据是一类特殊的数据，每条记录都有一个相应的时间戳，各条记录按照时间戳的先后顺序排列。当今社会基础设施十分发达，互联网、物联网、移动通讯、移动定位等系统广泛存在，每时每刻产生海量的机器生成的数据(Machine-generated data)，从不同的角度反映了社会生活的方方面面，因此对机器生成数据的时间序列分析是大数据分析的一个重要分支。

数据分析往往需要从不同的数据源整合数据，而时间序列数据的整合尤其特殊。在对多数据源时间序列数据进行整合时，其整合的结果仍然要求是时间序列，即各条记录按照时间戳排序。

比如，时空轨迹这种时间序列数据，对该类数据的分析在城市管理、交通分析、商业策划、物流规划等领域都有广泛的需求。在移动通讯网络中，通过位置更新日志、小区切换日志、移动上网日志、MR报告都可以观测到用户的时空移动轨迹，但是因为这几种日志产生于不同的子系统，且本身都有其局限性，所以单独从任何一种日志中都很难观测到系统性的用户轨迹。而这几种日志恰恰又有互补关系，融合这几种日志能够获得更详实的用户移动性信息，因此也拥有更高的分析价值。

随着大数据批处理技术的普及，Hadoop正逐渐成为海量数据预处理的一种重要手段，利用Hadoop强大的排序能力，可以实现对多数据源时间序列文件的融合。但Hadoop的分而治之策略对原始时间序列文件进行了分割，无法有效的利用原始时间序列文件中已有的排序特性，却需要大量的文件合并和磁盘IO，导致使用Hadoop做时间序列数据融合时效率很低。

Matlab等常用数据分析软件提供了时间序列融合的功能，但这些功能对序列间时间重叠关系的要求比较严格，一般要求原始的序列间没有时间重叠，或者只能在原始序列的首尾时间点重叠。这些限制使得它并不适合做通用的多数据源时间序列融合，如融合来自不同系统的日志数据。

使用消息中间件对接各系统，实时采集各系统数据也是一种时间序列数据融合方法。但这种方式对原有系统影响很大，需要增加新的设备，甚至需要对原系统做改动，实施起来难度较高。

发明内容

本发明实施例提供一种多数据源数据融合的方法及系统，以解决多数据源数据的融合时，计算复杂，融合效率低的问题。

为解决上述技术问题，本发明实施例提供了一种多数据源数据融合的方法，包括：

多个数据接入节点接收控制节点发送的初始化通知，分别读取每个日志文件的概要信息，生成日志文件概要信息记录表，发送给所述控制节点；

接收所述控制节点发送的起始时钟和步进时长通知，分别将所述步进时长内的日志记录转换成设定的时间序列数据格式，并将所述时间序列数据发送给数据处理节点，向所述控制节点反馈发送完成通知；

所述数据处理节点接收所述控制节点发送的排序通知，按接收到的每个时间序列数据的时间戳顺序进行数据融合排序。

可选地，其中，所述数据处理节点为收到的每个时间序列数据设置一个数据通道，统一调度各个数据通道的时间序列数据进行数据融合排序。

可选地，其中，所述统一调度各个数据通道的时间序列数据进行数据融合排序包括：

所述数据处理节点每次随机选择两个待处理的数据通道，对所述两个数据通道中的时间序列数据进行融合排序，生成一个融合数据通道；通过多次迭代，将所有数据通道中的时间序列数据融合排序到一个最终的融合时间序列数据中。

可选地，上述方法还包括：

所述数据处理节点在每次数据融合排序结束时，统计本次排序处理的日志记录数量，向所述控制节点发送所述日志记录数量和排序完成通知；

所述控制节点接收到所述排序完成通知后，通知所述数据处理节点将最终的融合时间序列数据输出到目标文件，并在所述数据处理节点的输出完成后，根据收到的所述多个数据接入节点发送的概要信息记录表和最近几次处理周期的步进大小、处理的日志记录数量和实际处理时间，调整下一步的步进时长，并将所述下一步的步进时长发送给所述多个数据接入节点。

可选地，其中，所述控制节点根据收到的所述多个数据接入节点发送的概要信息记录表和最近几次处理周期的步进大小、处理的日志记录数量和实际处理时间，调整下一步的步进时长包括：

基于最近三次的步进时长和每秒平均处理记录数，使用最小二乘法拟合法计算每秒平均处理记录数f(Δ)的最佳线性逼近函数f(Δ)＝a×Δ+b，如果a>0.1，下一步的步进时长增加10％，如果a<-0.1，下一步的步进时长减少10％，否则，步进时长保持不变；

其中：Δ∈(Δ₁,Δ₂,Δ₃),Δ₁、Δ₂、Δ₃分别为最近三次的步进时长；

a，b为线性函数f(Δ)的最佳逼近系数。

可选地，上述方法还包括：

当待融合的数据通道为奇数时，先将所有待融合的数据通道进行每两种数据通道的时间序列数据进行融合排序，多次迭代后得到单个融合的数据通道后，将剩余一个数据通道的时间序列数据与所述单个融合的数据通道的时间序列数据进行融合排列，得到最后的融合排序结果；

或者先将所有待融合的数据通道进行每两种数据通道的时间序列数据融合排序得到多个一次融合的数据通道，将剩余一个数据通道的时间序列数据与所述多个一次融合的数据通道中的一个进行时间序列数据的融合排序以得到一个二次融合的数据通道，然后将所述一个二次融合的数据通道与所述多个一次融合数据通道中的其它融合数据通道，进行每两个融合数据通道的融合排序，多次迭代得到最后的融合排序结果。

可选地，其中，所述概要信息记录表，包括文件名、记录总条数、记录开始行、记录结束行、记录起始时间和记录结束时间。

可选地，在所述多个数据接入结点接收所述控制节点发送的起始时钟和步进时长通知前，还包括：

所述控制节点根据收到的所述多个数据接入节点发送的概要信息记录表，确定起始时钟和计算时钟步进时长；其中，所述起始时钟根据所述多个概要信息记录表中日志记录的最早时间戳确定；初始步进时长为C/Max(AVG_i)，其中，AVG_i表示所述控制节点收到的每个日志文件的平均每秒日志条数i＝1，2，3，…,n；代表n个日志文件，C为一个设定值，步进时长的单位为秒。

可选地，上述方法还包括所述控制节点在每次将下一步的步进时长发给所述多个数据接入节点后，判断该步进时长对应的时钟是否大于或等于所有概要信息记录表中的日志记录的最晚时间戳；如果大于或等于所述最晚时间戳，则设置排序结束标志；当收到所述数据处理节点的输出完成通知时，结束排序。

可选地，上述方法还包括多个数据处理节点，其中每个数据处理节点负责处理一组数据接入节点发送的时间序列数据的融合排序。

为解决上述技术问题，本发明实施例还提供一种多数据源数据融合系统，包括：

一个控制节点、至少一个数据处理节点和多个数据接入节点，其中

所述控制节点设置为：

为向所述多个数据接入节点发送系统初始化通知，接收所述多个数据接入节点发送的日志文件概要信息记录表，确定起始时钟和时钟步进时长，并将所述起始时钟和时钟步进时长发送给所述多个数据接入节点；

所述数据接入节点设置为：

接收到所述控制节点发送的初始化通知时，读取每个日志文件的概要信息，生成日志文件概要信息记录表，将所述概要信息记录表发送给所述控制节点；

接收所述控制节点发送的起始时钟和时钟步进时长，将时间戳处于该时钟步进时长范围内的日志记录转换成设定的时间序列数据格式，并将所述时间序列数据发送到所述数据处理节点，向所述控制节点反馈发送完成通知；

所述数据处理节点设置为接收所述多个数据接入节点发送的时间序列数据，接收所述控制节点发送的排序命令，按时间戳顺序进行对接收的时间序列数据进行融合排序。

可选地，其中，所述数据处理节点还设置成：

为接收到的每类时间序列数据设置一个数据通道，每次随机选择两个待处理的数据通道，对所述两个数据通道中的时间序列数据进行融合排序，生成一个融合数据通道；通过多次迭代，将所有数据通道中的时间序列数据融合排序到一个最终的融合时间序列数据中。

可选地，其中，所述数据处理节点还设置为：

在每次时间序列数据融合排序结束时，统计本次排序处理的日志记录数量，向所述控制节点发送所述日志记录数量和排序完成通知；

接收所述控制节点发送的输出排序结果通知，将最终的融合时间序列数据输出到目标文件。

可选地，其中，所述数据处理节点还设置为：

可选地，其中，所述控制节点还设置为：

接收到所述数据处理节点发送的排序完成通知后，通知所述数据处理节点将最终的融合时间序列数据输出到目标文件；

接收到所述数据处理节点发送的日志记录数量和输出完成通知后，根据收到的所述多个数据处理节点发送的日志概要信息记录表以及最近几次处理周期的步进大小、处理的日志记录数和实际处理时间，计算下一步的步进时长，并将所述下一步的步进时长发送给所述多个数据接入节点。

可选地，其中，所述控制节点根据收到的所述多个数据处理节点发送的概要信息记录表以及最近几次处理周期的步进大小、处理日志记录数和实际处理时间，调整下一步的步进时长包括：

a，b为线性函数f(Δ)的最佳逼近系数。

可选地，其中所述概要信息记录表，包括文件名、记录总条数、记录开始行、记录结束行、记录起始时间和记录结束时间。

可选地，其中，所述控制节点还设置为：

根据所述多个数据接入节点发送的概要信息记录表，确定起始时钟和计算初始时钟步进时长，并将所述起始时钟和初始时钟步进时长发送给所述多个数据接入节点；其中所述起始时钟是由所述多个概要信息记录表中的日志记录的最早时间戳确定；初始步进时长为C/Max(AVG_i)，其中，AVG_i表示所述控制节点收到的每个日志文件的平均每秒日志条数i＝1，2，3，…,n；代表n个日志文件，C为一个设定值，步进时长的单位为秒。

可选地，其中，所述控制节点还设置排序结束标志，所述控制节点在每次将下一步的步进时长发给所述多个数据接入节点后，判断该步进时长对应的时钟是否大于或等于所有概要信息记录表中的日志记录的最晚时间戳；如果大于或等于所述最晚时间戳，则设置排序结束标志；当收到所述数据处理节点的输出完成通知时，结束排序。

可选地，还包括多个数据处理节点，其中每个数据处理节点负责处理一组数据接入节点发送的时间序列数据的融合排序。

本发明实施例还提供一种计算机可读存储介质，所述存储介质存储有计算机程序，该计算机程序包括程序指令，当该程序指令被多数据源数据融合设备执行时，使得上述设备可执行上述多数据源数据融合的方法。

本发明实施例提供的分布式融合数据排序方法及系统，利用各机器生成的时间序列日志文件的时间戳和排序特征，通过中心控制节点统一控制融合时钟的时间线，可以在一个数据处理节点实现对多个不同数据源时间序列的统一融合排序，并且可以分布式设置多个数据处理节点，每个数据处理点分别处理相应的多个数据接入节点的时间序列数据的统一融合排序，实现并行化处理。与相关技术相比，本发明实施例可以节省计算量，降低内存占用，提高整体吞吐效率，有利于大数据的融合处理。

附图概述

图1是本发明实施例的一种多数据源数据融合的分布式组网架构示意图；

图2是本发明一实施例的多数据源数据融合的方法流程图；

图3是本发明一示例性实施例的多数据源数据融合的方法示意图；

图4是本发明实施例的数据处理节点的数据通道融合过程示意图；

图4a是本发明一实施例的数据通道为奇数的数据通道融合方式示意图；

图4b是本发明另一实施例的数据通道为奇数的数据通道融合方式示意图；

图5是本发明一实施例的多数据源数据融合的系统装置示意图。

本发明的较佳实施方式

下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明一实施例的多数据源数据融合的分布式组网架构示意图。

如图1所示，该分布式组网结构包括一个中心控制节点、至少一个数据处理节点和多个数据接入结点(为简单起见，图中仅示出了一个数据处理节点的情形)。其中，中心控制节点是实现多数据源时间序列数据融合排序的核心，负责统一调度各个数据接入节点的日志文件发送到数据处理节点，在数据处理节点中进行统一融合排序。其中，每个数据接入节点负责一类日志文件，每个日子文件都带有时间戳信息。因此，将不同类别的日志文件，转换成统一的数据格式后，在一定时间粒度内的各类日志文件可以按时间戳的先后顺序，在数据处理节点进行统一的数据融合排序。

基于上述分布式组网架构，本发明实施例提供一种多数据源数据融合的方法，参见图1。该方法包括：

步骤S10：多个数据接入节点收到中心控制节点的初始化通知，分别读取每个日志文件的概要信息，生成日志文件概要信息记录表，发送给中心控制节点；

其中，每个数据接入节点负责一类日志文件(如来自某个传感器或某个系统的一批日志文件)的批量抽取和格式转换，每个日志文件中的日志记录分别包括不同的时间戳。

步骤S20：接收中心控制节点发送的起始时钟和时钟步进时长，分别将所述每个日志文件中处于该步进时长范围内的日志记录转换成系统设定的时间序列数据格式，并发送到至少一个数据处理节点。

在进行日志记录数据的统一融合排序前，需要将不同类别的日志记录转换成统一格式的时间序列数据；其中，所述起始时钟是由所有数据接入节点上报给中心控制节点的日志文件概要信息中的日志记录最早时间戳确定，例如时间戳的最小时间粒度可能是毫秒，起始时钟可以截取到秒即可，也可以根据系统排序的实际要求，截取到其它时间粒度；所述步进时长由中心控制节点设定，在数据融合排序过程中，可以由中心控制节点自适应地调整设定值。

为确保多数据源时间序列数据能够进行合理的融合排序，需要对不同数据接入节点的日志记录进行统一的批量抽取，中心控制节点可以设置统一的时钟步进时长，要求各数据接入节点将该时钟步进时长内(或步进周期内)的所有时间序列数据(即时间戳落在该时钟步长范围内的所有日志记录)，批量发送到数据处理节点。

由于本发明实施例采用分布式控制，中心控制节点负责整个融合排序系统的统一起始时钟和步进步长，多个数据接入节点的日志文件可以送到一个数据处理节点进行融合排序，也可以根据地理位置和节点处理能力等要求，将多个数据接入节点先进行分组，每组的多个数据接入节点对应一个数据处理节点，从而实现中心控制节点统一管理下的多数据接入节点和多数据处理节点的分布式融合排序。

可选地，在步骤S20前，还包括所述中心控制节点根据来自所述多个数据接入节点的日志文件概要信息记录表，计算初始时钟步进时长，并将所述步进时长发送给所述多个数据接入节点，也可以根据经验，缺省配置一个时钟步进时长。

可选地，所述概要信息记录表，包括：文件名、记录总条数、记录开始行、记录结束行、记录起始时间和记录结束时间。

步骤S30：所述数据处理节点对来自不同数据接入节点的所有时间序列数据，按照时间戳顺序进行数据融合排序。

数据处理节点接收来自每个数据接入节点的时间序列数据，由于各类时间序列数据的格式相同，因此可以按时间戳的先后为依据对接收到的各类日志文件数据进行融合排序。

可选地，所述数据处理节点可以为每类日志文件数据设置一个数据通道，统一调度各个数据通道的时间序列数据进行融合排序。

可选地，所述统一调度各个数据通道的时间序列数据进行数据融合排序包括：

当待融合的数据通道为奇数时，先将所有待融合的数据通道进行每两种数据通道的时间序列数据进行融合排序，多次迭代后得到单个融合数据通道后，将剩余一个数据通道的时间序列数据与所述单个融合数据通道的时间序列数据进行融合排列，得到最后的融合排序结果；

或者先将所有待融合的数据通道进行每两种数据通道的时间序列数据融合排列得到多个一次融合的数据通道，将剩余一个数据通道的时间序列数据与所述多个一次融合的数据通道中的一个进行时间序列数据的融合排列以得到一个二次融合的数据通道，然后将所述一个二次融合的数据通道与所述多个一次融合的数据通道中的其它融合数据通道，进行每两个融合数据通道的融合排序迭代，得到最后的融合排序结果。

步骤S40：所述数据处理节点在每次数据融合排序结束后，统计本次处理的日志记录数量，向所述中心控制节点发送所述日志记录数量和排序完成通知；

所述中心控制节点接收到所述排序完成通知后，通知所述数据处理节点将所述最终的融合时间序列数据输出到目标文件，并在所述数据处理节点的输出完成后，根据所述多个数据处理节点发送的概要信息记录表和最近几次处理周期的步进大小、处理的日志记录数量和实际处理时间，调整下一步的时钟步进时长的大小，并将所述下一步的时钟步进时长发送给所述多个数据接入节点。

通过动态调整步进时长，可以使系统的总吞吐效率最优。时钟步进时长大小的选择原则为，保证一次时钟步进周期中输入到数据处理节点的总记录数在一个合理的范围。

可选地，所述中心控制节点可以根据所述多个数据处理节点发送的概要信息记录表和最近几次处理周期的步进大小、处理的日志记录数和实际处理时间，调整下一步的步进时长的大小。

其中，所述处理的日志记录数是指每次融合排序时实际处理的日志记录条数，需要由数据处理节点在每次融合排序完成后、输出排序结果前，上报给中心控制节点；实际处理时间，是指每次时钟步进时长和融合排序时间的和，由中心控制节点计算，因此数据处理节点在每次数据融合排序结束后，需要及时向所述中心控制节点发送排序完成通知。

可选地，所述中心控制节点根据所述多个数据处理节点发送的概要信息记录表和最近几次处理周期的步进大小、处理的日志记录数和实际处理时间，调整下一步的步进时长的大小包括：

基于最近三次的步进时长Δ₁、Δ₂、Δ₃和每秒平均处理记录数f(Δ₁)、f(Δ₂)、f(Δ₃)，使用最小二乘法拟合法计算每秒平均处理记录数f(Δ)的最佳线性逼近函数f(Δ)＝a×Δ+b，如果a>0.1，下一步的步进时长增加10％，如果a<-0.1，下一步的步进时长减少10％，否则，步进时长保持不变；

其中：Δ∈{Δ₁,Δ₂,Δ₃},a，b为线性函数f(Δ)的最佳逼近系数；

最佳线性逼近函数的计算方法，属于现有技术，本文不再敷述。

以下以一个示范性实施例，对本发明实施例的具体实施方式进行进一步的说明。假定系统中只有一个数据处理节点，如图3所示，包括以下步骤：

S100：系统初始化。

中心控制节点广播通知每个数据接入节点进行初始化。在初始化过程中，每个数据接入节点收集日志文件的概要信息，生成日志文件概要信息记录表；所述日志文件中的日志记录分别包含时间戳；

每个数据接入节点向中心控制节点发送日志文件的概要信息记录表；

中心控制节点根据收到的各个概要信息记录表，确定需要处理的日志记录的起始时钟，以及时钟步进时长，并发送给所述每个数据接入节点；初始时钟步进时长可以根据接收的所有概要信息记录表进行计算，也可以默认配置，如10秒；起始时钟由接收到的所有概要信息记录表中的日志记录的最早时间戳确定；例如如果最早时间戳是2014.01.01.07:00:01:009(毫秒)，则起始时钟可以确定为2014.05.01.07:00:01(秒)。

可选地，所述概要信息记录表，包括：文件名、记录总条数、记录开始行、记录结束行、记录起始时间、记录结束时间等；

所述处理进度表包括：文件名、处理序列号、处理状态、当前行指针、当前行时间戳等。

较佳地，中心控制节点可以综合各类日志的概要信息计算初始的步进时长。假设各类日志文件的平均每秒日志条数分别为AVG_i(i＝1，2，3，…,n；代表n类日志文件)，初始步进时长为C/Max(AVG_i)。其中，C为一个固定值，可根据系统吞吐量需要进行设定，初始步进时长的单位为秒。

S102：中心控制节点将起始时钟和时钟步进时长发送给每个数据接入节点。

S104：每个数据接入节点收到起始时钟和时钟步进时长通知后，将时间戳处于该步进时长范围内(或步进周期内)的所有日志记录，转换为系统设定的时间序列数据格式，并批量发送给相应的数据处理节点进行融合排序。

其中，每个数据接入节点可以根据通知中的起始时间和步进时长、概要信息记录表计算本次步进周期涉及的日志文件和记录行，设置处理进度表，将本次步进周期涉及的日志记录转换成系统设定的统一的时间序列数据格式后，批量发送给数据处理节点进行融合排序。

例如，系统通知的起始时钟是2014.05.01.07:00:01,时钟步进长度是10S,数据接入节点A的日志概要信息记录表的日志记录起始时间为2014.05.01.07:00:01:099；数据接入节点B的日志概要信息记录表记录日志的起始时间为2014.05.01.07:00:05:003；中心控制节点可以确定起始时钟为2014.05.01.07:00:01,假设初始时钟步长为10S，则节点A需将时间戳位于2014.05.01.07:00:01～07:00:11的所有日志记录，转换格式后批量发送给数据处理节点；节点B将时间戳位于2014.05.01.07:00:05～01:00:11之间的所有日志记录，转换格式后批量发送给数据处理节点。

每个数据节点的每次待处理日志记录，都以起始时间和步进时长为参考，确定需要批量抽取的日志记录，进行格式转换并发送给数据处理节点。

例如，起始时间为T0,步进时长分别为S1,S2,S3,…Sn，则第一次步进周期为T0～T0+S1，第二步进周期为T0+S1～T0+S1+S2，…,第n次批量抽取时的步进周期为

其中S1、S2、…Sn可以相同，也可能不同，由中心控制节点根据系统运行情况确定。

S106：每个数据接入节点在日志记录发送完毕后，更新处理进度表，向中心控制节点反馈步进完成通知；中心控制节点收到每个数据接入节点发送的步进完成通知后，通知数据处理节点执行数据融合排序。

S108：数据处理节点启动多个线程，采用迭代的方式对每两个数据通道中的时间序列数据进行融合排序，最终融合成一个唯一的融合时间序列数据。

其中，数据处理节点为每个数据接入结点分别设置一个数据通道(或数据缓存单元)，用于缓冲接收相应数据接入节点发送的批量日志文件(统一格式的时间序列数据)；

接到中心控制节点的排序命令后，每两个数据通道的时间序列数据按时间戳先后顺序进行融合排列，形成一个融合数据通道；

对每两个融合数据通道再次进行时间序列数据的融合排列，这样，通过多次迭代，最终形成一个融合数据通道。如图4所示，图4是本发明实施例的数据处理节点的数据通道融合过程示意图；

其中，如果数据通道数是奇数，可以任选下列方式之一，进行迭代融合排序：

如图4a所示，先将所有待融合的数据通道进行每两种数据通道的时间序列数据按时间戳的先后顺序进行融合排序，多次迭代后得到单个融合数据通道后，将剩余一个数据通道的时间序列数据与所述单个融合数据通道的时间序列数据进行融合排列，得到最后的融合排序结果。

如图4b所示，先将所有待融合的数据通道进行每两种数据通道的时间序列数据按时间戳的先后顺序融合排列得到多个一次融合排序的数据通道，将剩余一个数据通道的时间序列数据与所述多个一次融合排序的数据通道中的一个进行时间序列数据的融合排列以得到一个二次融合排序的数据通道，然后将所述一个二次融合排序的数据通道与所述多个一次融合排序的数据通道中的其它融合数据通道，按每两个融合数据通道进行融合排序的方式进行迭代处理，得到最后的融合排序结果。

其中，作为一种较佳实施方式，在对于每个步进步长周期内的时间序列数据，可以按照时间戳的最小时间粒度(如毫秒)进行时间序列数据的融合，对于时间戳重合的数据，可以任意择一选取参与排序，对大数据融合不会产生大的影响。当然，根据系统处理能力和数据源的实际情况，也可以以选择其它时间粒度，本发明不作特别限定。

S110：数据处理节点完成所有数据通道的融合排序时，统计本次融合排序处理的日志记录数量，向中心控制节点反馈所述日志记录数和排序完成通知；中心控制节点收到排序完成通知后，指示数据处理节点输出排序结果到目标文件。

S112：数据处理节点完成排序结果的输出时，向中心控制节点反馈结果输出完成通知；中心控制节点收到该结果输出完成通知后，自动进入自适应步进时长调整状态。

其中，中心控制节点先判断所有数据节点的日志记录是否完成排序，如果已完成，则本次融合排序结束；如果没有完成，接步骤S114；

由于中心控制节点根据收到的所有日志文件概要信息表中的日志记录的最早时间戳，确定系统排序的起始时钟，此后发送给每个数据接入节点的步进时长是相同的，而每个日志文件概要信息表的最晚时间戳可能不同，因此，在最后一次计算步进时长时，可以比较计算得到的步进时长对应的时间是否超过所有概要信息记录的日志记录的最晚时间戳，如果超过，则表明本次步进周期内，所有数据接入节点负责处理的日志文件中的所有日志记录，将全部步进发送到数据处理节点，并完成融合排序。

其中，中心控制节点可以设置结束标志Flag，根据每个数据接入节点发送的概要信息记录表，判断本次排序时的步进时长(如Sn)涉及的时间戳，是否超过所有概要记录信息表的日志记录的最晚时间戳，如果已超过，则表明本次步进周期(如

)内，所有数据接入节点的全部日志记将会发送到数据处理节点进行融合排序，可以设置结束标志Flag＝1；当中心控制节点发现结束标志Flag＝1时，表明系统的本次排序任务即将完成；在此后收到数据处理节点的排序完成通知时，不需要继续计算和发送步进时长通知；如果结束标志为0，表明需要继续计算和发送步进时长通知。

S114：根据最近几次处理周期的步进大小、处理的日志记录数和实际处理时间，对步进时长的大小进行调整，以优化整个系统的吞吐率。

中心控制节点将计算得到的下一步的步进时长后，转步骤S102，将计算出的下一步的步进时长发送给所述每个数据接入节点，系统进行下一轮的时间序列数据融合。

较佳地，可以采用自适应调整算法调整下一步的步进时长。例如，假设最近三次排序的步进时长分别为Δ₁、Δ₂、Δ₃，最近三次排序的处理时间(即处于时钟步进和融合排序两个状态的时间和)为t₁、t₂、t₃，最近三次排序的总记录数分别是l₁、l₂、l₃，则最近三次排序的平均每秒处理记录数为f(Δ_i)＝l_i/t_i(i＝1，2，3)。步进时长的自适应调整算法为：基于最近三次的步进时长和每秒平均处理记录数，使用最小二乘拟合法计算最佳线性逼近函数：

f(Δ)＝a×Δ+b，如果a>0.1，下一步的步进时长增加10％，如果a<-0.1，下一步的步进时长减少10％，否则，步进时长保持不变；

其中：Δ∈(Δ₁,Δ₂,Δ₃),Δ₁、Δ₂、Δ₃为最近三次的步进时长；

a，b为线性函数f(Δ)的最佳逼近系数，具体计算方法属于现有技术，此处不再敷述。

例如，假设初始时钟步进时长为10s，如果a>0.1，则下一步的步进时长增加10％，调整为11s，如果a<-0.1，下一步的步进时长减少10％，调整为9s，而对于a为其它情形，则下一步的步进时长不变，仍是10s；以此类推。

虽然上述实施例介绍了一个数据处理节点处理多个数据接入节点的日志记录的情形，本领域的技术人员容易理解，本发明实施例稍加修改，就可以应用于多个数据处理节点的情形。可以针对不同的数据处理节点进行分组，每组的多个数据接入节点对应一个数据处理节点，中心控制节点按照各组的时间管理线程单独计算起始时钟和步进时长，并发送给相应的数据接入节点即可，其它控制时序的配合，可以参照上述的单数据处理节点的情形进行相应的处理。

例如，假定有3个数据处理节点E1～E3，其中数据处理节点E1负责处理数据接入节点A1、B1、C1、D1的数据融合排序；数据处理节点E2负责处理数据接入节点A2、B2、C2的数据融合排序；数据处理节点E3负责处理数据接入节点A3、D3的数据融合排序，只要在中心控制节点设置不同的时间管理线程即可，在此不再敷述。

上述分布式融合数据排序方法，利用各机器生成的时间序列日志文件的已有时间分割(时间戳)和排序特征，通过中心控制节点统一控制融合时钟的时间线，实现了对多个不同数据源时间序列的分布式并行融合排序处理，可以同时分布式设置多个数据处理节点，分别处理相应的数据接入节点的时间序列数据，与现有技术相比，实现了并行化处理，节省了计算量，降低了内存占用，提高了整体吞吐效率，有利于大数据的融合处理。

相应地，本发明实施例提供了一种多数据源时间序列数据融合的系统装置，如图5所示，包括一个中心控制节点501、多个数据接入节点502和至少一个数据处理节点503，每个节点分别包括处理器、程序存储单元和数据存储单元；其中，

所述中心控制节点501，设置为向每个数据接入节点发送系统初始化通知，接收所述每个数据接入节点发送的日记文件概要信息记录表，确定起始时钟，计算时钟步进时长，并发送所述起始时钟和步进时长给所述每个数据接入节点，接收每个数据接入节点502反馈的日志记录发送完成通知；

向数据处理节点发送融合排序通知，并接收所述数据处理节点反馈的融合排序完成通知；

向所述至少一个数据处理节点发送融合排序结果输出通知；

所述数据接入节点502，设置为：

接收中心控制节点501发送的系统初始化通知，收集日志文件信息，生成日志文件的概要信息记录表，并发送给中心控制节点501；

接收中心控制节点501发送的起始时钟和步进时长通知；将时间戳处于该步进时长(步进周期)范围内的所有日志记录，转换成系统设定的时间序列数据格式，批量发送给数据处理节点503；

其中，每个数据接入节点负责一类日志文件(如来自某个传感器或某个系统的一批日志文件)的批量抽取和格式转换，每个日志文件的日志记录都包括时间戳，为便于进行数据的融合排序，需要将不同类别的日志记录转换成统一的时间序列数据。

所述至少一个数据处理节点503：设置为接收所述每个数据接入节点发送的批量时间序列数据，接收中心控制节点的命令，进行时间序列数据的融合排序；融合排序结束后，统计每次排序处理的日志记录数，向中心控制节点反馈所述处理的日志记录数和排序完成通知；接收中心控制节点发送的输出排序结果通知，将融合排序的结果输出到目标文件。

可选地，所述数据处理节点设置成为每类日志文件数据设置一个数据通道，统一调度各个数据通道的时间序列数据进行数据融合排序。

可选地，所述数据处理节点统一调度各个数据通道的时间序列数据进行数据融合排序包括：

所述数据处理节点每次随机选择两个待处理的数据通道，对所述两个通道中的时间序列数据进行融合排序，生成一个融合数据通道；通过多次迭代，将所有数据通道中的时间序列数据融合排序到一个最终的融合时间序列数据中。

当待融合的数据通道为奇数时，先将所有待融合的数据通道进行每两种数据通道的时间序列数据按时间戳的先后顺序进行融合排序，多次迭代后得到单个融合数据通道后，将剩余一个数据通道的时间序列数据与所述单个融合数据通道的时间序列数据进行融合排列，得到最后的融合排序结果；

或者先将所有待融合的数据通道进行每两种数据通道的时间序列数据按时间戳的先后顺序融合排列得到多个一次融合数据通道，将剩余一个数据通道的时间序列数据与所述多个一次融合数据通道中的一个进行时间序列数据的融合排列以得到一个融合数据通道，然后将所述一个融合数据通道与所述多个一次融合数据通道中的其它融合数据通道，进行每两个融合数据通道的融合排序迭代，得到最后的融合排序结果。

较佳地，所述中心控制节点还设置为收到所述数据处理节点反馈的排序结果输出完成通知后，根据所述多个数据处理节点发送的概要信息记录表和最近几次处理周期的步进大小、处理的日志记录数和实际处理时间，调整下一步的步进时长的大小，并将下一步的步进时长通知所述多个数据接入节点。

可选地，所述中心控制节点根据所述多个数据处理节点发送的统计信息和最近几次处理周期的步进大小、处理日志记录数和实际处理时间，调整下一步进时长的大小包括：

基于最近三次的步进时长和每秒平均处理记录数，使用最小二乘法拟合法计算最佳线性逼近函数f(Δ)＝a×Δ+b，如果a>0.1，下一次步进时长增加10％，如果a<-0.1，下一次步进时长减少10％，否则，步进时长不变；

其中：Δ∈{Δ₁,Δ₂,Δ₃},Δ₁、Δ₂、Δ₃为最近三次的步进时长；

a，b为线性函数f(Δ)的最佳逼近系数；

较佳地，所述中心控制节点还设置系统排序结束标志，当该标志设置为1时，中心控制节点收到数据处理节点发送的融合排序结束通知时，不再计算和发送步进时长。

其中，中心控制节点在每次计算得到下一步的步进时长时，判断该步进时长涉及的最大时间，是否大于或等于所有概要信息记录表的日志记录的最晚时间戳，如果是，则将该结束标志置1。

可选地，所述数据处理节点可以分布式设置，每个数据处理节点负责处理一组数据接入节点的时间序列数据的融合排序，由所述中心控制节点统一进行时间线程的协调管理。

上述分布式融合数据排序系统，利用各机器生成的时间序列日志文件的已有时间分割(时间戳)和排序特征，通过中心控制节点统一控制融合时钟的时间线，实现由一个数据处理节点对多个不同数据源时间序列的进行统一融合排序，还可以同时分布式设置多个数据处理节点，每个数据处理节点分别处理相应的多个数据接入节点的时间序列数据的统一融合排序，实现并行化处理。本发明实施例的方法及系统，可以节省计算量，降低内存占用，提高整体吞吐效率，有利于大数据的融合处理。

本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现，所述计算机程序可以存储于一计算机可读存储介质中，所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行，在执行时，包括方法实施例的步骤之一或其组合。

可选地，上述实施例的全部或部分步骤也可以使用集成电路来实现，这些步骤可以被分别制作成一个个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现，它们可以集中在单个的计算装置上，也可以分布在多个计算装置所组成的网络上。

上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器，磁盘或光盘等。

任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求所述的保护范围为准。

工业实用性

本发明实施例提供的分布式融合数据排序方案，利用各机器生成的时间序列日志文件的已有时间分割(时间戳)和排序特征，通过中心控制节点统一控制融合时钟的时间线，可以在一个数据处理节点实现对多个不同数据源时间序列的统一融合排序，并且可以分布式设置多个数据处理节点，每个数据处理点分别处理相应的多个数据接入节点的时间序列数据的统一融合排序，实现并行化处理，节省计算量，降低内存占用，提高整体吞吐效率，有利于大数据的融合处理。

Claims

一种多数据源数据融合的方法，包括：

多个数据接入节点接收控制节点发送的初始化通知，分别读取每个日志文件的概要信息，生成日志文件概要信息记录表，发送给所述控制节点；

接收所述控制节点发送的起始时钟和步进时长通知，分别将所述步进时长内的日志记录转换成设定的时间序列数据格式，并将所述时间序列数据发送给数据处理节点，向所述控制节点反馈发送完成通知；

所述数据处理节点接收所述控制节点发送的排序通知，按接收到的每个时间序列数据的时间戳顺序进行数据融合排序。
如权利要求1所述的方法，其中，所述数据处理节点为收到的每个时间序列数据设置一个数据通道，统一调度各个数据通道的时间序列数据进行数据融合排序。
如权利要求2所述的方法，其中，所述统一调度各个数据通道的时间序列数据进行数据融合排序包括：

所述数据处理节点每次随机选择两个待处理的数据通道，对所述两个数据通道中的时间序列数据进行融合排序，生成一个融合数据通道；通过多次迭代，将所有数据通道中的时间序列数据融合排序到一个最终的融合时间序列数据中。
如权利要求1或2或3所述的方法，还包括：

所述数据处理节点在每次数据融合排序结束时，统计本次排序处理的日志记录数量，向所述控制节点发送所述日志记录数量和排序完成通知；

所述控制节点接收到所述排序完成通知后，通知所述数据处理节点将最终的融合时间序列数据输出到目标文件，并在所述数据处理节点的输出完成后，根据收到的所述多个数据接入节点发送的概要信息记录表和最近几次处理周期的步进大小、处理的日志记录数量和实际处理时间，调整下一步的步进时长，并将所述下一步的步进时长发送给所述多个数据接入节点。
如权利要求4所述的方法，其中，所述控制节点根据收到的所述多个数据接入节点发送的概要信息记录表和最近几次处理周期的步进大小、处理的日志记录数量和实际处理时间，调整下一步的步进时长包括：

基于最近三次的步进时长和每秒平均处理记录数，使用最小二乘法拟合法计算每秒平均处理记录数f(Δ)的最佳线性逼近函数f(Δ)＝a×Δ+b，如果a>0.1，下一步的步进时长增加10％，如果a<-0.1，下一步的步进时长减少10％，否则，步进时长保持不变；

其中：Δ∈(Δ₁,Δ₂,Δ₃),Δ₁、Δ₂、Δ₃分别为最近三次的步进时长；

a，b为线性函数f(Δ)的最佳逼近系数。
如权利要求3所述的方法，还包括：

当待融合的数据通道为奇数时，先将所有待融合的数据通道进行每两种数据通道的时间序列数据进行融合排序，多次迭代后得到单个融合的数据通道后，将剩余一个数据通道的时间序列数据与所述单个融合的数据通道的时间序列数据进行融合排列，得到最后的融合排序结果；

或者先将所有待融合的数据通道进行每两种数据通道的时间序列数据融合排序得到多个一次融合的数据通道，将剩余一个数据通道的时间序列数据与所述多个一次融合的数据通道中的一个进行时间序列数据的融合排序以得到一个二次融合的数据通道，然后将所述一个二次融合的数据通道与所述多个一次融合数据通道中的其它融合数据通道，进行每两个融合数据通道的融合排序，多次迭代得到最后的融合排序结果。
如权利要求1所述的方法，其中，

所述概要信息记录表，包括文件名、记录总条数、记录开始行、记录结束行、记录起始时间和记录结束时间。
如权利要求1所述的方法，在所述多个数据接入结点接收所述控制节点发送的起始时钟和步进时长通知前，还包括：

所述控制节点根据收到的所述多个数据接入节点发送的概要信息记录表，确定起始时钟和计算时钟步进时长；其中，所述起始时钟根据所述多个概要信息记录表中日志记录的最早时间戳确定；初始步进时长为C/Max(AVG_i)，其中，AVG_i表示所述控制节点收到的每个日志文件的平均每秒日志条数i＝1，2，3，…,n；代表n个日志文件，C为一个设定值，步进时长的单位为秒。
如权利要求5所述的方法，还包括所述控制节点在每次将下一步的步进时长发给所述多个数据接入节点后，判断该步进时长对应的时钟是否大于或等于所有概要信息记录表中的日志记录的最晚时间戳；如果大于或等于所述最晚时间戳，则设置排序结束标志；当收到所述数据处理节点的输出完成通知时，结束排序。
如权利要求1所述的方法，还包括多个数据处理节点，其中每个数据处理节点负责处理一组数据接入节点发送的时间序列数据的融合排序。
一种多数据源数据融合系统，包括：

一个控制节点、至少一个数据处理节点和多个数据接入节点，其中

所述控制节点设置为：

为向所述多个数据接入节点发送系统初始化通知，接收所述多个数据接入节点发送的日志文件概要信息记录表，确定起始时钟和时钟步进时长，并将所述起始时钟和时钟步进时长发送给所述多个数据接入节点；

所述数据接入节点设置为：

接收到所述控制节点发送的初始化通知时，读取每个日志文件的概要信息，生成日志文件概要信息记录表，将所述概要信息记录表发送给所述控制节点；

接收所述控制节点发送的起始时钟和时钟步进时长，将时间戳处于该时钟步进时长范围内的日志记录转换成设定的时间序列数据格式，并将所述时间序列数据发送到所述数据处理节点，向所述控制节点反馈发送完成通知；

所述数据处理节点设置为接收所述多个数据接入节点发送的时间序列数据，接收所述控制节点发送的排序命令，按时间戳顺序进行对接收的时间序列数据进行融合排序。
如权利要求11所述的系统，其中，

所述数据处理节点还设置成：为接收到的每类时间序列数据设置一个数据通道，每次随机选择两个待处理的数据通道，对所述两个数据通道中的时间序列数据进行融合排序，生成一个融合数据通道；通过多次迭代，将所有数据通道中的时间序列数据融合排序到一个最终的融合时间序列数据中。
如权利要求11所述的系统，其中，所述数据处理节点还设置为：

在每次时间序列数据融合排序结束时，统计本次排序处理的日志记录数量，向所述控制节点发送所述日志记录数量和排序完成通知；

接收所述控制节点发送的输出排序结果通知，将最终的融合时间序列数据输出到目标文件。
如权利要求12所述的系统，其中，所述数据处理节点还设置为：

当待融合的数据通道为奇数时，先将所有待融合的数据通道进行每两种数据通道的时间序列数据进行融合排序，多次迭代后得到单个融合的数据通道后，将剩余一个数据通道的时间序列数据与所述单个融合的数据通道的时间序列数据进行融合排列，得到最后的融合排序结果；

或者先将所有待融合的数据通道进行每两种数据通道的时间序列数据融合排序得到多个一次融合的数据通道，将剩余一个数据通道的时间序列数据与所述多个一次融合的数据通道中的一个进行时间序列数据的融合排序以得到一个二次融合的数据通道，然后将所述一个二次融合的数据通道与所述多个一次融合数据通道中的其它融合数据通道，进行每两个融合数据通道的融合排序，多次迭代得到最后的融合排序结果。
如权利要求11所述的系统，其中，所述控制节点还设置为：

接收到所述数据处理节点发送的排序完成通知后，通知所述数据处理节点将最终的融合时间序列数据输出到目标文件；

接收到所述数据处理节点发送的日志记录数量和输出完成通知后，根据收到的所述多个数据处理节点发送的日志概要信息记录表以及最近几次处理周期的步进大小、处理的日志记录数和实际处理时间，计算下一步的步进时长，并将所述下一步的步进时长发送给所述多个数据接入节点。
如权利要求15所述的系统，其中，所述控制节点根据收到的所述多个数据处理节点发送的概要信息记录表以及最近几次处理周期的步进大小、处理日志记录数和实际处理时间，调整下一步的步进时长包括：

基于最近三次的步进时长和每秒平均处理记录数，使用最小二乘法拟合法计算每秒平均处理记录数f(Δ)的最佳线性逼近函数f(Δ)＝a×Δ+b，如果a>0.1，下一步的步进时长增加10％，如果a<-0.1，下一步的步进时长减少10％，否则，步进时长保持不变；

其中：Δ∈(Δ₁,Δ₂,Δ₃),Δ₁、Δ₂、Δ₃分别为最近三次的步进时长；

a，b为线性函数f(Δ)的最佳逼近系数。
如权利要求11所述的系统，其中所述概要信息记录表，包括文件名、记录总条数、记录开始行、记录结束行、记录起始时间和记录结束时间。
如权利要求11所述的系统，其中，所述控制节点还设置为：根据所述多个数据接入节点发送的概要信息记录表，确定起始时钟和计算初始时钟步进时长，并将所述起始时钟和初始时钟步进时长发送给所述多个数据接入节点；其中所述起始时钟是由所述多个概要信息记录表中的日志记录的最早时间戳确定；初始步进时长为C/Max(AVG_i)，其中，AVG_i表示所述控制节点收到的每个日志文件的平均每秒日志条数i＝1，2，3，…,n；代表n个日志文件，C为一个设定值，步进时长的单位为秒。
如权利要求15所述的系统，其中，所述控制节点还设置排序结束标志，所述控制节点在每次将下一步的步进时长发给所述多个数据接入节点后，判断该步进时长对应的时钟是否大于或等于所有概要信息记录表中的日志记录的最晚时间戳；如果大于或等于所述最晚时间戳，则设置排序结束标志；当收到所述数据处理节点的输出完成通知时，结束排序。
如权利要求11所述的系统，还包括多个数据处理节点，其中每个数据处理节点负责处理一组数据接入节点发送的时间序列数据的融合排序。
一种计算机可读存储介质，所述存储介质存储有计算机程序，该计算机程序包括程序指令，当该程序指令被多数据源数据融合设备执行时，使得上述设备可执行权利要求1-10任一项的方法。