WO2019047479A1

WO2019047479A1 - 一种普适多源异构大规模数据同步系统

Info

Publication number: WO2019047479A1
Application number: PCT/CN2018/076485
Authority: WO
Inventors: 杨海涛; 徐飞; 阮镇江
Original assignee: 广东省建设信息中心
Priority date: 2017-09-08
Filing date: 2018-02-12
Publication date: 2019-03-14
Also published as: CN107729366B; US11500903B2; CN107729366A; US20200409977A1

Abstract

一种普适多源异构大规模数据系统，包括同步网络规划管理单元（11）、安装配置单元（12）、分块流水线处理单元（13）、单向同步单元（14）、双向同步单元（15）和同步正确性保障单元（16）。该系统工作在节点数据库层之上和应用逻辑层之下的中间层面。在数据同步过程，客户端根据同步任务计划，将捕获的当地变更信息传输到服务端；服务端接收变更信息并交由异步并行消息处理机制存储在对应的消息队列中；服务端轮询当地消息队列读取待处理的变更信息，然后根据异构数据映射规则实施后继数据变更，以维护源数据副本与目标数据副本同步数据的一致。该系统以并行于同步节点当地应用的方式独立运行，并通过松耦合协同提供互联网分布式多源异构数据同步的松弛事务保障机制。

Description

一种普适多源异构大规模数据同步系统

技术领域

本发明涉及互联网数据处理技术领域，具体涉及一种面向通过互联网通讯协议而联结的广域网络松散计算环境的，适用于多种主流数据系统类型的，可覆盖大批自主管理异构数据源节点的大规模数据同步中间层系统。

背景技术

异构数据是指不同结构的数据，数据的异构性主要体现在：计算机体系结构的异构，数据的物理存储来源于不同体系结构的计算机；操作系统的异构，数据的存储来源于不同的操作系统；数据格式的异构，数据的存储管理机制不同，可以是关系型数据库系统，如Oracle、SQL Server、DB2等，也可以是文件型二维数据，如txt、CSV、XLS等；数据存储地点的异构，数据存储在分散的物理位置上；数据存储的逻辑模型异构，数据分别在不同的业务逻辑中存储和维护，使相同意义的数据存在表现的异构，如独立的销售系统和独立的采购系统中存在部门的编码不一致等。异构数据往往不是一个层面的异构，而是在多个层面上都存在异构。此外，移动终端(如手机、PDA、iPad和手提电脑等)的广泛应用产生了大量的移动终端数据个体，包括通讯录、日历、文件等，其存储结构的逻辑或物理实现可能是异构的，进而在移动终端的数据备份以及移动终端间的数据同步方面，存在异构数据同步需求。另外，云计算大规模应用所产生的海量数据也存在实时数据复制的需求，这方面应用也涉及大量异构数据。

现有异构数据同步是在源数据库和目标数据库之间通过数据传输来实现，由于数据结构不同、种类繁杂，或者语义相同、数据表达形式不同，使得海量异构数据的同步数据吞吐量有限，异构数据同步的效率较低，同步技术方案存在一定的技术局限性。例如，当在不可靠的互联网通讯环境和松散耦合自治的应用之间的同步时，对于吞吐量较大的数据同步可能出现不正常的同步结束的情况，导致数据同步不成功。满足当前多源异构大规模数据同步需求的实用级解决方案，最好是通用、可靠和高效的，既相对独立于应用层逻辑又不涉及操作系统底层的，且不依赖数据库产品和计算机操作系统的中间层松耦合软件组件系统。

发明内容

本发明要解决的技术问题在于克服现有海量异构数据的同步方法数据吞吐量有限的缺陷。

根据第一方面，本发明的一个实施例提供一种普适多源异构大规模数据同步系统，包括：同步网络规划管理单元，用于构建树状结构的同步拓扑结构，所述同步拓扑结构包括多个由一对相邻节点构成的同步对，所述同步对包括客户端和服务端；

安装配置单元，用于在服务端执行安装脚本以创建异构数据映射表、同步日志表、消息队列、消息队列监控线程和数据更新线程池，以及用于在客户端执行安装脚本以创建变更日志表、变更事件监控线程和同步线程池；

分块流水线处理单元，用于将客户端发送的参与同步的源数据端的变更数据划分为若干变更块，并根据网络状况和服务端的处理能力分批次依序向服务端传输，每发送完一批变更块即锁定发送过程直至服务端返回接收确认消息后再恢复后继批次的变更块的反送，循环反复直至完成全部变更志的发送；以及用于服务端将接收到的变更块存入对应的消息队列；

单向同步单元，用于当客户端的变更事件监控线程监控变更日志表不为空，则调度客户端的若干同步线程启动数据同步作业；以及用于当服务端的消息队列监控线程监控消息队列不为空，则调度服务端的若干数据更新线程进行数据更新作业；

双向同步单元，用于顺序执行的两个方向相反的单向同步以完成双向同步；

同步正确性保障单元，用于在客户端将源数据端的数据变更事件依发生的先后时序不重复记载在变更日志表中，以及用于在服务端依次接收源数据端的数据变更，分别按原顺序落实各个数据变更并记载在同步日志表中。

优选地，所述客户端包括用于实现全量/增量数据同步的中间层软件组件；所述服务端包括用于接收客户端发送源数据端数据变更，并负责将所接收到的数据变更更新到目标数据端的软件组件；所述源数据端包括在数据同步中作为数据变更来源的数据副本所在的数据库或文件目录；所述目标数据端包括在数据同步中响应来自源数据端的数据变更的数据副本所在的数据库或文件目录。

优选地，对于所述树状结构的同步拓扑结构的中间节点，同时配有分属于不同的同步对的客户端和服务端。

优选地，所述目标数据端的变更日志表用于保存数据变更信息。

优选地，所述安装配置单元还包括同步配置子单元，所述同步配置子单元用于控制客户端获取参与同步的源数据端的元数据信息并传输给服务端，控制服务端根据所述元数据信息构建并存储异构数据映射规则，控制客户端从服务端获取异构数据映射规则和在源数据端为每个参与同步的数据表创建插入、删除和更改三种变更捕获触发器，以及控制服务端提供可视化配置工具维护或调整异构数据映射规则。

优选地，所述安装配置单元在服务端预创建的数据更新线程池中包含预设个数的数据更新线程，所述目标数据端中每一个数据表的数据更新由一个数据更新线程负责；所述安装配置单元在客户端预创建的同步线程池中包含根据所述元数据信息创建的预设个数的数据同步线程，所述源数据端中每一个数据表的增量或全量同步由一个或一组同步线程负责。

优选地，所述单向同步单元还用于每当源数据端发生数据变更时，控制所述变更捕获触发器捕获该数据变更事件，并将对应的数据变更信息存储在客户端的变更日志表；所述数据变更信息包含经受数据变更的数据表的表名、数据记录的主键值和变更操作类型。

优选地，所述单向同步单元还用于控制客户端的同步线程根据每个经受数据变更的数据表的同步预设值将其对应的变更数据或同步操作记录划分为多个变更块，将每个所述变更块封装为SyncML消息包并依序发送到服务端。

优选地，所述单向同步单元还用于控制服务端在数据同步过程中，对每个SyncML消息包的会话请求，分配一个数据接收线程以接收客户端上传的SyncML消息包；所述数据接收线程用于接收SyncML消息包并解析还原出变更块，以及将所述解析出的变更块存储到指定的消息队列，并在存储成功后向客户端反馈同步成功信息。

优选地，所述单向同步单元还用于控制客户端的同步线程将变更日志表与经受数据变更的数据表关联，按所述变更日志表记录插入的时间正排序，读取所述变更日志表的所有变更的数据记录；以及在服务端的接收变更块并返回确认信息后，控制所述同步线程将变更块所对应的变更日志表中的变更日志记录删除。

优选地，所述单向同步单元还用于控制服务端的数据更新线程从所述消息队列读取变更块，根据所述异构数据映射规则实施当地数据变更，使得目标数据端的目标数据副本与源数据端的源数据副本的同步数据一致。

优选地，所述单向同步单元还用于控制客户端的同步线程对待发送的变更块做Hash计算，并将其Hash值和变更块一起封装成SyncML消息包；以及控制服务端的数据接收线程在接收到所述SyncML消息包后，要对解析出的变更块做Hash校验，当校验成功时将所述变更块存入消息队列，否则，返回同步失败消息。

优选地，所述单向同步单元还用于控制所述变更块的大小，以及控制客户端的同步线程在每发送一个变更块后进入锁定等待状态，直至服务端返回确认消息或者超时。

优选地，所述安装配置单元在服务端创建的异构数据映射表中的异构数据映射规则，包括同步的源数据端和目标数据端的数据表名、主键或虚拟主键、字段名、字段数据类型、字段数据长度和字段映射关系。

优选地，所述安装配置单元还用于构建所述异构数据映射规则中的虚拟主键；当源数据端的数据表未定义主键时，所述安装配置单元控制服务端根据所述元数据信息中的字段信息，为所述数据表构建一个可唯一标识其数据记录的虚拟主键，并把所述虚拟主键的构建规则存储在服务端。

优选地，所述安装配置单元还用于检查服务端有无对应客户端的消息队列；当服务端没有对应客户端的消息队列时，所述安装配置单元控制服务端为该客户端创建对应的消息队列，所述消息队列用于暂时存储服务端接收的对应客户端的变更块。

根据第二方面，本发明的一个实施例提供一种普适多源异构大规模数据同步方法，包括：获取需同步的异构数据；根据所述异构数据，获取至少一个数据表，所述数据表是根据映射规则创建的包括所述异构数据标识信息的表；根据每个所述数据表分别建立数据同步线程；所述数据同步线程分别根据预设值将至少一个数据表划分为多个数据块。

优选地，所述异构数据包括增量异构数据，所述获取需同步的异构数据，包括：创建数据变更日志表，所述数据变更日志表包括字段描述、字段名称及字段类型；通过触发器捕获数据的变更事件信息；将所述数据的变更事件信息记录在所述数据变更日志表中。

优选地，普适多源异构大规模数据同步方法还包括：将所述数据块上传至服务端。

优选地，所述数据块被封装为消息包。

根据第三方面，本发明的一个实施例提供一种普适多源异构大规模数据同步方法，包括：获取第二方面实施例所述的数据块；将所述数据块放入消息队列；从所述消息队列中取出数据块同步至目标数据库。

优选地，所述获取第二方面实施例所述的数据块包括：接收客户端上传的消息包，所述消息包包括多个数据块；将所述消息包解析为数据块。

优选地，在所述从所述消息队列中取出数据块同步至目标数据库的步骤之前，包括：判断所述数据块是否包括主键值；当所述数据块不包括主键值时，根据所述数据块多个属性列的值构建虚拟主键。

根据第四方面，本发明的一个实施例提供一种普适多源异构大规模数据同步装置，包括：异构数据获取单元，用于获取需同步的异构数据；数据表获取单元，用于根据所述异构数据，获取至少一个数据表，所述数据表是根据映射规则创建的包括所述异构数据标识信息的表；线程建立单元，用于根据每个所述数据表分别建立数据同步线程；数据块划分单元，用于所述数据同步线程分别根据预设值将至少一个数据表划分为多个数据块。

优选地，所述异构数据包括增量异构数据，所述异构数据获取单元包括：变更日志表创建子单元，用于创建数据变更日志表，所述数据变更日志表包括字段描述、字段名称及字段类型；数据变更捕获子单元，用于通过触发器捕获数据的变更事件信息；数据变更记录子单元，用于将所述数据的变更事件信息记录在所述数据变更日志表中。

优选地，普适多源异构大规模数据同步装置还包括：数据上传单元，用于将所述数据块上传至服务端。

优选地，所述数据上传单元还包括封装子单元，用于将所述数据块封装为消息包。

根据第五方面，本发明的一个实施例提供一种普适多源异构大规模数据同步装置，包括：获取单元，用于获取上述数据块；放入消息队列单元，用于将所述数据块放入消息队列；同步单元，用于从所述消息队列中取出数据块同步至目标数据库。

优选地，所述获取单元包括：接收子单元，用于接收客户端上传的消息包，所述消息包包括多个数据块；解析子单元，用于将所述消息包解析为数据块。

优选地，普适多源异构大规模数据同步装置还包括：判断单元，用于判断所述数据块是否包括主键值；虚拟主键构建单元，用于当所述数据块不包括主键值时，根据所述数据块多个属性列的值构建虚拟主键。

根据第六方面，本发明的一个实施例提供一种客户端，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如第二方面实施例所述的异构数据同步方法。

根据第七方面，本发明的一个实施例提供一种服务端，包括：无线网络接口、处理器及存储器，所述无线网络接口、处理器及存储器之间通过总线互相连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而实现如第三方面实施例所述的异构数据同步方法。

本发明技术方案，具有如下优点：

1.本发明提供一种普适多源异构大规模数据同步系统，分布在参与同步的各个数据节点，即计算机系统上，并工作在节点数据库层之上和应用逻辑层之下的中间层面。在数据同步过程，客户端根据同步任务计划，将捕获的当地变更信息通过SyncML协议传输到服务端；服务端接收上述变更信息并交由异步并行消息处理机制存储在对应的消息队列中。服务端轮询当地消息队列读取待处理的变更信息，然后根据异构数据映射规则实施后继数据变更，以维护源数据副本与目标数据副本同步数据的一致。本发明的系统以并行于同步节点当地应用的方式独立运行，并通过松耦合协同提供互联网分布式多源异构数据同步的松弛事务保障机制。

2.本发明提供一种普适多源异构大规模数据同步方法及装置和客户端、服务端，通过在客户端获取需同步的异构数据的元数据表；根据所述元数据表，通过构建源数据端和目标数据端的数据映射规则，根据每个数据表分别建立数据同步线程；所述数据同步线程分别根据预设值将至少一个数据表划分为多个数据块。同步作业调度实现了单节点多线程并行处理，可为每个同步数据集提供专用同步线程；同步线程可根据预设的同步安排，对同步数据对象做水平分割，形成更细粒度的多个数据块，在此数据分块的基础上，实现可靠的同步事务前进机制。在服务端端获取上述数据块；将所述数据块放入消息队列；从所述消息队列中取出数据块同步至目标数据库。在服务端端通过引入消息队列机制，实现数据更新并行处理优化。以统一的SyncML同步模式，在移动网和互联网上实现大型关系型数据库、计算机文档对象、手机文档对象的通用数据同步机制。本发明通过客户端并发多线程调度、大数据集水平分割、服务端异步并行处理的组合措施，在无特定通讯保障的广域网上提供了实用级的异构数据同步服务。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种普适多源异构大规模数据同步系统的结构示意图；

图2为一种普适多源异构大规模数据同步系统的数据同步处理流程图；

图3为一种异构数据同步方法的流程图；

图4为一种异构数据同步方法的流程图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本实施例提供一种普适多源异构大规模数据同步系统，如图1所示，包括：同步网络规划管理单元11、安装配置单元12、分块流水线处理单元13、单向同步单元14、双向同步单元15和同步正确性保障单元16。

同步网络规划管理单元11，用于构建树状结构的同步拓扑结构，所述同步拓扑结构包括多个由一对相邻节点构成的同步对，所述同步对包括客户端(相对的下级节点)和服务端(相对的上级节点)，同步树的中间节点(除叶和根节点之外的节点)可以同时配有客户端和服务端两种角色，但它们分属于不同的同步对。所述客户端包括用于实现全量/增量数据同步的中间层软件组件；所述服务端包括用于接收客户端发送源数据端数据变更，并负责将所接收到的数据变更更新到目标数据端的软件组件；客户端和服务端可安装部署在同一台计算机上，各自在其所处的同步对的同步作业中运行其功能；所述源数据端包括在数据同步中作为数据变更来源的数据副本所在的数据库或文件目录；所述目标数据端包括在数据同步中响应来自源数据端的数据变更的数据副本所在的数据库或文件目录。

系统为同步树的(客户端→服务端)单向数据同步提供扩散与非扩散两种配置策略。扩散策略会把数据变更信息记入目标数据端(当前同步对的服务端)的变更日志表，非扩散策略则不做此记录操作。

安装配置单元12，用于在服务端执行安装脚本以创建异构数据映射表、同步监控表、同步日志表、消息队列、消息队列监控线程和数据更新线程池，以及用于在客户端执行安装脚本以创建同步配置表、变更日志表、变更事件监控线程和同步线程池。

服务端构建的异构数据映射规则包括同步的源数据端和目标数据端的数据表名、主键或“虚拟主键”、字段名、字段数据类型、字段数据长度、字段映射关系等。在服务端构建异构数据映射规则时，若源数据端的数据表未定义主键，服务端则根据所述元数据信息中的字段信息，使用“虚拟主键”算法为数据表构建一个可唯一标识其数据记录的“虚拟主键”，并把“虚拟主键”构建规则存储在服务端。“虚拟主键”算法通过筛选所述数据表的主键字段构建“虚拟主键”。此外，服务端还会检查有无该客户端对应的消息队列，若无，则为该客户端创建对应的消息队列。消息队列用于暂时存储服务端接收的对应客户端的变更块。

客户端获取参与同步的源数据端的元数据信息(源数据端参与同步的所有数据表的结构数据)并传输给服务端；服务端根据所述元数据信息，自动构建并存储“源数据端”←→“目标数据端”的异构数据映射规则。客户端从服务端获取异构数据映射规则，根据该规则和变更捕获触发器(简称“触发器”)在源数据端为每个参与同步的数据表创建“插入”、“删除”和“更改”三种变更捕获触发器。为了方便查看和修改异构数据映射规则，本实施例在服务端提供可视化配置工具以维护或调整异构数据映射规则。

具体地，客户端预创建同步线程池的具体方法为根据所述元数据信息创建若干(预设个数)数据同步线程。一个数据表的增量或全量同步由一个(组)同步线程负责。服务端预创建更新线程池的具体方法为创建若干(预设个数)数据更新线程。一个数据表的数据更新由一个数据更新线程负责。

分块流水线处理单元13，用于将客户端发送的参与同步的源数据端的变更数据划分为若干变更块，并根据网络状况和服务端的处理能力分批次依序向服务端传输，每发送完一批变更块即锁定发送过程直至服务端返回接收确认消息后再恢复后继批次的变更块的反送，循环反复直至完成全部变更志的发送；以及用于服务端将接收到的变更块存入对应的消息队列。

单向同步单元14，用于当客户端的变更事件监控线程监控变更日志表不为空，则调度客户端的若干同步线程启动数据同步作业；以及用于当服务端的消息队列监控线程监控消息队列不为空，则调度服务端的若干数据更新线程进行数据更新作业。分块流水线处理单元13和单向同步单元14协同作业可完成一次数据同步，其数据处理过程如图2所示。

每当源数据端发生数据变更时，触发器将捕获该数据变更事件，并将数据变更信息存储在客户端的数据变更日志表。数据变更信息包含其对应的经受数据变更的数据表的表名、数据记录的主键值、变更操作类型等。客户端的变更事件监控线程通过监控变更日志表即可发现源数据端的数据变更，进一步客户端通过同步线程发起数据同步作业。同步线程根据每个数据表的同步预设值将其待同步的全部变更数据或同步操作记录划分为多个变更块，并将每个变更块封装为SyncML消息包，依序发送到服务端。服务端在数据同步过程中，对每个SyncML消息包的会话请求，分配一个数据接收线程负责接收客户端上传的SyncML消息包。数据接收线程接收SyncML消息包并解析还原出变更块，将其交由消息处理机制存储到指定的消息队列，并在存储成功后向客户端反馈同步成功信息(确认消息)。服务端的消息队列监控线程监控消息队列是否为空，若不为空，则通知服务端调度若干数据更新线程进行数据更新作业。服务端的数据更新线程以异步并行方式做后继处理，即从消息队列读取变更块，根据异构数据映射规则实施当地数据变更，使得目标数据副本(当地)与源数据副本的同步数据一致。

客户端的数据同步线程在读取数据表变更数据时，数据同步线程首先将数据变更日志表与数据表关联，按数据变更日志表记录插入的时间正排序，读取该数据表的所有变更的数据记录；其次，数据同步线程通过SyncML通用协议把SyncML消息包传送到服务端；最后，在服务端返回确认(收到)消息后，数据同步线程将SyncML消息包中的变更块所对应的数据变更日志记录删除。

本实施例的异构数据同步系统，适用于增量同步和全量同步。其中，增量同步指的是仅将上次成功同步以来新产生的当地数据变更同步到目标数据端。实施增量同步时，客户端轮询当地变更日志表，将待同步的数据变更传送到服务端，并在服务端返回同步确认消息后删除当地对应的变更日志记录。全量同步指的是将源数据端的同步数据表，即参与数据同步的数据表的全表数据同步到目标数据端。本实施例中的全量同步，包括两种类型，即合并同步和刷新同步。刷新同步在开始更新数据到目标数据表前，会完全擦除目标数据端的数据表，通常用于重置同步对的同步任务。合并同步在开始更新数据到目标数据表前，会检查数据记录是否已存在目标表中，若不存在，则执行Insert操作，否则执行Update操作。需要说明的是，在实施全量同步期间，源数据端上已激活的触发器可捕获并记载此期间所有发生的当地变更，以便后续的增量同步作业处理。

双向同步单元15，用于顺序执行的两个方向相反的单向同步以完成双向同步，即C←→S等价于C→S和S→C。其中，C和S分别代表客户端和服务端，箭头→或←代表同步方面(变更块传送的方向)，以下同。

同步正确性保障单元16，用于在客户端将源数据端的数据变更事件依发生的先后时序不重复记载在变更日志表中，以及用于在服务端依次接收源数据端的数据变更，分别按原顺序落实各个数据变更并记载在同步日志表中。在本实施例中，无论是C→S或S→C的数据同步，均由客户端发起，因此，在本实施例中由客户端完成查验和管理参与同步的数据表触发器，例如客户端负责触发器的创建、更改、激活等管理以及一致性查验。为了进一步保障数据同步的正确性，本实施例的增量同步禁止单点多进程同步，即禁止多个客户端同时对同一个源数据端进行数据同步，以避免同一数据表的同步变更出现错序。

此外，本实施例的系统还提供通用的“多属性主键←→单属性主键”映射规则，以记载单一以及非单一属性主键数据表的变更事件，此类变更事件可记载在客户端的变更日志表中。

由于在本实施例中，数据同步均由客户端发起，为实现对数据同步的统一监管，本实施例还提供针对各个客户端的同步调度以及同步状态实时监控单元。

为了提高数据同步的可靠性和安全性，本实施例提供“乐观”和“谨慎”两种同步性能选项。在“谨慎”选项下，需对待发送的变更块做Hash 计算，并将其Hash值和变更块一起封装成SyncML消息包；接收方在接收到SyncML消息包后，要对解释出的变更块做Hash校验，即重算变更块的Hash值,并与发送过来的Hash值比较，如两者相同，则通过校验；如校验成功，才将变更块存入消息队列，否则，返回同步失败消息。在“乐观”选项下，略去上述涉及Hash值的处理。“乐观”选项适用于对同步传输的可靠性有比较乐观预期且倾向于追求更高的同步性能的应用场景，例如同步通讯网络质量较好的情况；相反，“谨慎”选项适用于对同步传输的可靠性有不太乐观，甚至悲观预期，或者倾向于更加谨慎地校验同步传输结果的正确性的应用场景，例如同步通讯网络质量不太好的情况。

本实施例以变更块为同步消息单位发送，并采用块锁步发送机制，即每发送一批变更块就锁定等待，直至接收方返回确认消息或者超时。变更块越大，传输效率就越高，但若出现传输故障，需要重传整个变更块，其重传代价也越高。本实施例提供调配变更块大小(其包含多少条变更数据或变更操作记录)的功能，以便调适大规模数据同步的效率和可靠性。若所应用的网络环境，含端点系统环境，通讯可靠性高，则调大同步的变更块，若所应用的网络环境，含端点系统环境，通讯可靠性低，则调小同步的变更块。无锁步发送机制可视为锁步发送机制的一个特例，其相当于将变更块调到最大，即将全部发送内容作为一个变更块。

实施例2

本实施例提供一种异构数据同步方法，适用于如实施例1所述的普适多源异构大规模数据同步系统，下面以客户端为例介绍该异构数据同步方法，如图3所示，包括如下步骤：

S11：同步配置初始化阶段。客户端获取源数据端参与同步数据表的元数据信息并传输给服务端。然后，客户端创建若干(预设值)数据同步线程，以及根据从服务端获取的异构数据映射规则和变更捕获规则模板，在源数据端创建“删除”、“插入”和“更改”三种变更捕获触发器(统称“触发器”)。

S12：变更事件触发阶段。在变更事件触发时，触发器将变更事件信息存入当地数据变更日志表。变更事件信息包含所涉及的数据表的表名、数据记录的主键值、变更类型以及变更时间等信息。

S13：数据同步阶段。变更事件监控线程轮询变更日志表，确认变更日志表是否为空；若变更日志表不为空，则通知客户端调度若干数据同步线程进行所涉及数据表的数据同步作业。所述数据同步线程分别根据从服务端获取的异构数据映射规则及预设值将至少一个数据表的变更集划分为多个变更块。松散耦合自治应用之间的海量异构数据同步，在不可靠互联网通讯环境场景下，发生意外夭折是不能忽略的，因此需要提供断点续恢复同步机制，即：将同步过程划分成若干段，每段结束时产生一个保存点来保存当前同步进度情况，以备在同步夭折后恢复同步时确定重拾同步过程的位置。

每轮数据同步开始前，同步线程会统计所要同步的数据表的总记录数，并把数据表的表名以及拟同步的总记录数告知服务端，然后启动本轮同步过程。同步线程在发送本轮最后一个变更块时，告知服务端此为本轮同步会话发送的最后一个变更块；服务端接收该变更块后，结束本轮同步。

优选的，上述步骤S11包括以下子步骤：

S111：创建数据变更日志表。变更日志表包括变更所涉及的数据表名、数据记录的主键值、变更事件类型和变更时间等信息。具体地，变更日志表如表1所示(适用于客户端和服务端)：

表1

字段描述	字段名	字段类型
记录标识号	CHG_SEQ_NUM	INTEGER
变更记录时间	CHG_TIMESTAMP	TIMESTAMP
同步发起端URI	SOURCE_URI	VARCHAR(256)
同步发起端数据表	SOURCE_TABLE	VARCHAR(128)
变更记录的主键值	SOURCE_KEY_VALUE	VARCHAR(128)
变更类型	CHG_TYPE	CHAR(1)

S112：通过触发器捕获数据变更事件。捕获每一行数据记录的UPDATE(更改)、INSERT(插入)和DELETE(删除)等操作事件。

S113：将数据变更事件记录在变更日志表中。预设变更日志表和触发器，能在不干涉上层应用程序、不影响正常的数据库吞吐的情况下，实现增量数据的同步。

下面以服务端为例介绍实施例2中的异构数据同步方法，如图4所示，包括如下步骤：

S21：同步配置初始化阶段。服务端根据客户端上传元数据信息，自动构建并存储源数据端和目标数据端之间的异构数据映射规则；服务端创建若干(预设值)数据更新线程。

本实施例采用Java语言编写中间层系统，使用JDBC(Java DataBase Connectivity,Java数据库连接)规范实现统一的数据库访问接口。特别地，我们采用建立各种异构关系数据库数据类型至统一的Java数据类型(作为中间数据类型)的方法，为Oracle、MS SQL Server和Sybase ASE 15等异构主流数据库产品之间建立数据类型的映射关系，即预设的映射规则。采用Java数据类型作为中间数据库类型，也保证客户端与服务端之间的传输解析不易出错。

Java数据类型与常见的其它异构数据类型的部分映射如表2所示。

表2

在构建实际异构数据映射规则时，上述各种异构数据类型与Java数据类型之间的映射关系将作为媒介，用以确定同步双方的具体数据类型对应。

优选地，在上述步骤S21构建异构映射规则过程中，还包括：判断所涉及的数据表是否定义了主键。若所述数据表未定义主键时，则为其构建虚拟主键来唯一标识其数据记录，以实施保障同步过程。

具体地，构建虚拟主键的算法如下：虚拟主键＝str(F ₁)+ASII(11)+str(F ₂)+…+ASII(11)+str(F _k)，其中，F ₁、F ₂、…和F _k为可联合构成主键的字段，str(X)函数计算变量X的字符串值,“+”为字符串连接运行符，ASII(11)代表ASCII(American Standard Code for Information Interchange)十进制编码值为11的字符，此为一个不可显示的字符(称“垂直制表符”)，它不可能会出现在文字内容中。

S22：数据接收阶段。为客户端每个上传SyncML消息包的会话请求，服务端分配一个数据接收线程来负责消息包的接收、解析，并把解析还原出的变更块交由消息处理机制存入(该客户端)对应的消息队列。为提高同步过程的整体效率，本发明在服务端嵌入异步并行消息处理机制。服务端的数据接收线程接收到来自客户端的SyncML消息包后，只做简单的解析和处理，即调用消息处理机制将其解释出来的变更块存入队列，就向客户端返回确认消息以示意客户端可继续发送其它SyncML消息包，而不必等待目标数据端完成同步变更。而存在消息队列中的变更块，会交由服务端的同步处理模块异步地做并行处理，即多道线程同时进行处理。这种处理方式，加快了客户端消息发送进度，另外，由于服务端不必马上完成全程处理，使得服务端的整体处理压力得到缓解。在大规模数据同步应用中，服务端通常是性能瓶颈。

S23：数据更新阶段。消息队列监控线程监控消息队列是否为空，若队列不为空，则通知服务端调度若干数据更新线程进行队列对应同步数据表的数据更新作业。数据更新线程用于从消息队列读取变更块更新到目标数据端。数据更新线程从消息队列中读取变更块，然后根据异构数据映射规则，把变更块更新到目标数据端的对应的同步数据表。

优选地，上述步骤S22包括以下子步骤：

S221：接收客户端上传的消息包，所述消息包含有一个或多个变更块。

S222：将消息包解析为变更块。

为得到更广泛的的应用，本发明是基于IT业界通用的SyncML标准协议进行数据同步。SyncML最初作为一种开放的、平台无关的信息同步标准协议提出，现属于OMA(开放移动联盟)组织的Data Synchronization and Device Management协议族，可在兼容的设备、程序及网络进行数据同步，使任何设备或程序可以获得一致的数据。但是，SyncML只提供基本的通讯框架，远不足以应对大规模数据同步应用实用级的产品需求，例如，它未提供可靠性保障机制，这在实用级的应用中是至关重要的。为了填补上述不足，实施例1的普适多源异构大规模数据同步系统设置的同步正确性保障单元16，以保障异构数据同步的可靠性。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

一种普适多源异构大规模数据同步系统，其特征在于，包括：

同步网络规划管理单元，用于构建树状结构的同步拓扑结构，所述同步拓扑结构包括多个由一对相邻节点构成的同步对，所述同步对包括客户端和服务端；

安装配置单元，用于在服务端执行安装脚本以创建异构数据映射表、同步日志表、消息队列、消息队列监控线程和数据更新线程池，以及用于在客户端执行安装脚本以创建变更日志表、变更事件监控线程和同步线程池；

分块流水线处理单元，用于将客户端发送的参与同步的源数据端的变更数据划分为若干变更块，并根据网络状况和服务端的处理能力分批次依序向服务端传输，每发送完一批变更块即锁定发送过程直至接服务端返回接收确认消息后再恢复后继批次的变更块的反送，循环反复直至完成全部变更志的发送；以及用于服务端将接收到的变更块存入对应的消息队列；

单向同步单元，用于当客户端的变更事件监控线程监控到变更日志表不为空，则调度客户端的若干同步线程启动数据同步作业；以及用于当服务端的消息队列监控线程监控到消息队列不为空，则调度服务端的若干数据更新线程进行数据更新作业；

双向同步单元，用于顺序执行的两个方向相反的单向同步以完成双向同步；

同步正确性保障单元，用于在客户端将源数据端的数据变更事件依发生的先后时序不重复记载在变更日志表中，以及用于在服务端依次接收源数据端的数据变更，分别按原顺序落实各个数据变更并记载在同步日志表中。
如权利要求1所述的一种普适多源异构大规模数据同步系统，其特征在于，所述客户端包括用于实现全量/增量数据同步的中间层软件组件；所述服务端包括用于接收客户端发送的源数据端的数据变更，并负责将所接收到的数据变更更新到目标数据端的软件组件；所述源数据端包括在数据同步中作为数据变更来源的数据副本所在的数据库或文件目录；所述目标数据端包括在数据同步中响应来自源数据端的数据变更的数据副本所在的数据库或文件目录。
如权利要求1所述的一种普适多源异构大规模数据同步系统，其特征在于，对于所述树状结构的同步拓扑结构的中间节点，同时配有分属于不同的同步对的客户端和服务端。
如权利要求2所述的一种普适多源异构大规模数据同步系统，其特征在于，所述源数据端的变更日志表用于保存数据变更信息。
如权利要求1所述的一种普适多源异构大规模数据同步系统，其特征在于，所述安装配置单元还包括同步配置子单元，所述同步配置子单元用于控制客户端获取参与同步的源数据端的元数据信息并传输给服务端，控制服务端根据所述元数据信息构建并存储异构数据映射规则，控制客户端从服务端获取异构数据映射规则和在源数据端为每个参与同步的数据表创建插入、删除和更改三种变更捕获触发器，以及控制服务端提供可视化配置工具维护或调整异构数据映射规则。
如权利要求1所述的一种普适多源异构大规模数据同步系统，其特征在于，所述安装配置单元在服务端预创建的数据更新线程池中包含预设个数的数据更新线程，所述目标数据端中每一个数据表的数据更新由一个数据更新线程负责；所述安装配置单元在客户端预创建的同步线程池中包含根据所述元数据信息创建的预设个数的数据同步线程，所述源数据端中每一个数据表的增量或全量同步由一个或一组同步线程负责。
如权利要求5所述的一种普适多源异构大规模数据同步系统，其特征在于，所述单向同步单元还用于每当源数据端发生数据变更时，控制所述变更捕获触发器捕获该数据变更事件，并将对应的数据变更信息存储在客户端的变更日志表；所述数据变更信息包含经受数据变更的数据表的表名、数据记录的主键值和变更操作类型。
如权利要求7所述的一种普适多源异构大规模数据同步系统，其特征在于，所述单向同步单元还用于控制客户端的同步线程根据每个经受数据变更的数据表的同步预设值将其对应的变更数据或同步操作记录划分为多个变更块，将每个所述变更块封装为SyncML消息包并依序发送到服务端。
如权利要求8所述的一种普适多源异构大规模数据同步系统，其特征在于，所述单向同步单元还用于控制服务端在数据同步过程中，对每个SyncML消息包的会话请求，分配一个数据接收线程以接收客户端上传的SyncML消息包；所述数据接收线程用于接收SyncML消息包并解析还原出变更块，以及将所述解析出的变更块存储到指定的消息队列，并在存储成功后向客户端反馈同步成功信息。
如权利要求9所述的一种普适多源异构大规模数据同步系统，其特征在于，所述单向同步单元还用于控制客户端的同步线程将变更日志表与经受数据变更的数据表关联，按所述变更日志表记录插入的时间正排序，读取所述变更日志表的所有变更的数据记录；以及在服务端接收变更块并返回确认信息后，控制所述同步线程将变更块所对应的变更日志表中的变更日志记录删除。
如权利要求9所述的一种普适多源异构大规模数据同步系统，其特征在于，所述单向同步单元还用于控制服务端的数据更新线程从所述消息队列读取变更块，根据所述异构数据映射规则实施当地数据变更，使得目标数据端的目标数据副本与源数据端的源数据副本的同步数据一致。
如权利要求9所述的一种普适多源异构大规模数据同步系统，其特征在于，所述单向同步单元还用于控制客户端的同步线程对待发送的变更块做Hash计算，并将其Hash值和变更块一起封装成SyncML消息包；以及控制服务端的数据接收线程在接收到所述SyncML消息包后，要对解析出的变更块做Hash校验，当校验成功时将所述变更块存入消息队列，否则，返回同步失败消息。
如权利要求9所述的一种普适多源异构大规模数据同步系统，其特征在于，所述单向同步单元还用于控制所述变更块的大小，以及控制客户端的同步线程在每发送一个变更块后进入锁定等待状态，直至服务端返回确认消息或者超时。
如权利要求1所述的一种普适多源异构大规模数据同步系统，其特征在于，所述安装配置单元在服务端创建的异构数据映射表中的异构数据映射规则，包括同步的源数据端和目标数据端的数据表名、主键或虚拟主键、字段名、字段数据类型、字段数据长度和字段映射关系。
如权利要求14所述的一种普适多源异构大规模数据同步系统，其特征在于，所述安装配置单元还用于构建所述异构数据映射规则中的虚拟主键；当源数据端的数据表未定义主键时，所述安装配置单元控制服务端根据所述元数据信息中的字段信息，为所述数据表构建一个可唯一标识其数据记录的虚拟主键，并把所述虚拟主键的构建规则存储在服务端。
如权利要求1所述的一种普适多源异构大规模数据同步系统，其特征在于，所述安装配置单元还用于检查服务端有无对应客户端的消息队列；当服务端没有对应客户端的消息队列时，所述安装配置单元控制服务端为该客户端创建对应的消息队列，所述消息队列用于暂时存储服务端接收的对应客户端的变更块。