WO2014180398A1

WO2014180398A1 - 数据差异分析方法及装置

Info

Publication number: WO2014180398A1
Application number: PCT/CN2014/078564
Authority: WO
Inventors: 刘美霞; 魏霄鹏; 程敏
Original assignee: 中兴通讯股份有限公司
Priority date: 2013-12-03
Filing date: 2014-05-27
Publication date: 2014-11-13
Also published as: CN104679794A

Abstract

公开了一种数据差异分析方法及装置。其中，该方法包括：从第一数据源设备获取第一比对数据，从第二数据源设备获取第二比对数据，并获取第一比对数据与第二比对数据的共同数据；将第一差异数据存储到第一HASH表中，将第二差异数据存储到第二HASH表中，其中，第一差异数据是第一比对数据中除共同数据之外的数据，第二差异数据是第二比对数据中除共同数据之外的数据。通过本方法及装置，达到了提高数据一致性检査的效率，可以避免重复开发，实用性强的效果。

Description

数据差异分析方法及装置技术领域本发明涉及计算机软件技术领域，具体而言，涉及一种数据差异分析方法及装置。背景技术随着软件行业的快速发展，系统之间的交互变得越来越频繁，交互的数据量越来越大，参与交互各方的数据一致性检验及处理变得越来越重要。由于交互各方的系统差异性，决定了其数据存储的多样性及数据一致性检验功能的差异性。在大量工程案例开发实施中，现有的数据一致性检验方法存在如下问题： ( 1 )检验效率低下，运行时间长；（2)没有统一的可重用模块，各个应用的数据一致性检查都是全新开发，浪费人力资源。针对相关技术中数据一致性检验方法存在的检验效率低下、运行时间长以及开发成本较高的问题，目前尚未提出有效的解决方案。发明内容本发明提供了一种数据差异分析方法及装置，以至少解决上述数据一致性检验方法存在的检验效率低下、运行时间长以及开发成本较高的问题。根据本发明的一个方面，提供了一种数据差异分析方法，包括：从第一数据源设备获取第一比对数据，从第二数据源设备获取第二比对数据，并获取第一比对数据与第二比对数据的共同数据；将第一差异数据存储到第一 HASH表中，将第二差异数据存储到第二 HASH表中，其中，第一差异数据是第一比对数据中除共同数据之外的数据，第二差异数据是第二比对数据中除共同数据之外的数据。优选地，在从第一数据源设备获取第一比对数据，从第二数据源设备获取第二比对数据之前，包括：读取配置信息并进行初始化程序；其中，配置信息包括：数据差异分析的任务启动时间、数据差异分析的任务结束时间、第一数据源设备的设备信息、第二数据源设备的设备信息、数据获取方式、 HASH表的最大存储空间、差异数据保存方式、告警方式以及差异数据处理方式；初始化程序包括：根据第一 KEY构建第一 HASH表和第一 HASH函数，和根据第二 KEY构建第二 HASH表和第二 HASH函数，其中，第一 HASH表与第二 HASH表的结构是相同的，第一 KEY与第二 KEY具有相同的 KEY值。优选地，在读取配置信息并进行初始化程序之后，包括：从第一数据源设备获取第一数据，从第二数据源设备获取第二数据；判断第一数据和第二数据是否均是需要进行比对的完整数据，在判结果为是的情况下，将第一数据作为第一比对数据，将第二数据作为第二比对数据。优选地，获取第一比对数据与第二比对数据的共同数据包括：将第一比对数据按照第一 KEY插入第一 HASH表中；逐条读取第二比对数据，根据第二 KEY判断第一 HASH表中是否存在与当前读取数据相同的第一相同数据，在判断结果为是的情况下，将第一相同数据从第一 HASH表中删除，在判断结果为否的情况下，将当前读取数据存储到第二 HASH表中；判断第二比对数据是否已经读取完毕，如果已经读取完毕，确定所有的第一相同数据为共同数据，如果没有读取完毕，继续执行读取操作。优选地，在将第一差异数据存储到第一 HASH表中，将第二差异数据存储到第二 HASH表中之后，包括：判断第一差异数据是否超过第一差异数据阈值，判断第二差异数据是否超过第二差异数据阈值，在至少存在一个判断结果为是的情况下，使用告警方式进行告警。优选地，在将第一差异数据存储到第一 HASH表中，将第二差异数据存储到第二 HASH表中之后，包括：在差异数据处理方式为需要进行差异数据处理的情况下，进行差异数据处理，包括：以第一差异数据为基准，对第二差异数据进行同步处理，或者，以第二差异数据为基准，对第一差异数据进行同步处理。优选地，第一数据源设备的设备信息包括：第一文件传输协议 FTP地址、第一用户名、第一用户密码、第一数据库类型、第一数据库名称、第一数据库地址及第一数据库密码；第二数据源设备的设备信息包括：第二文件传输协议 FTP地址、第二用户名、第二用户密码、第二数据库类型、第二数据库名称、第二数据库地址及第二数据库密码。优选地，数据获取方式包括以下之一： FTP主动获取方式、 FTP被动获取方式。优选地，告警方式包括以下之一：短信告警、语音告警、网管平台告警。根据本发明的另一方面，提供了一种数据差异分析装置，包括：获取模块，设置为从第一数据源设备获取第一比对数据，从第二数据源设备获取第二比对数据，并获取第一比对数据与第二比对数据的共同数据；存储模块，设置为将第一差异数据存储到第一 HASH表中，将第二差异数据存储到第二 HASH表中，其中，第一差异数据是第一比对数据中除共同数据之外的数据，第二差异数据是第二比对数据中除共同数据之外的数据。通过本发明，将第一数据源设备的数据中与第二数据源设备的数据不相同的数据存储在为第一数据源设备构建的 HASH表中，将第二数据源设备的数据中与第一数据源设备的数据不相同的数据存储在为第二数据源设备构建的 HASH表中，解决了相关技术中数据一致性检验方法存在的检验效率低下、运行时间长以及开发成本较高的问题，提高数据一致性检查的效率，可以避免重复开发，实用性强。附图说明此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：图 1是根据本发明实施例的数据差异分析方法流程图；图 2是根据本发明实施例的数据差异分析装置的结构框图；图 3是根据本发明优选实施例的基于 HASH表的数据差异分析装置的结构框图；图 4是根据本发明优选实施例的基于 HASH表的数据差异分析方法的执行流程图。具体实施方式下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明实施例提供了一种数据差异分析方法。图 1是根据本发明实施例的数据差异分析方法流程图，如图 1所示，该方法主要包括以下步骤（步骤 S102-步骤 S104)。步骤 S102，从第一数据源设备获取第一比对数据，从第二数据源设备获取第二比对数据，并获取第一比对数据与第二比对数据的共同数据。步骤 S104，将第一差异数据存储到第一 HASH表中，将第二差异数据存储到第二 HASH表中，其中，第一差异数据是第一比对数据中除共同数据之外的数据，第二差异数据是第二比对数据中除共同数据之外的数据。通过上述各个步骤，可以将第一数据源设备的数据中与第二数据源设备的数据不相同的数据存储在为第一数据源设备构建的 HASH表中，将第二数据源设备的数据中与第一数据源设备的数据不相同的数据存储在为第二数据源设备构建的 HASH表中，利用 HASH表查找时间复杂度较小的特点，可以提高数据一致性检查的效率，而且可以避免重复开发，实用性强。在本实施例中，在执行步骤 S102之前，还可以读取配置信息并进行初始化程序；其中，配置信息可以包括以下至少之一：数据差异分析的任务启动时间、数据差异分析的任务结束时间、第一数据源设备的设备信息、第二数据源设备的设备信息、数据获取方式、 HASH表的最大存储空间、差异数据保存方式、告警方式以及差异数据处理方式；初始化程序可以包括：根据第一 KEY构建第一 HASH表和第一 HASH函数，和根据第二 KEY构建第二 HASH表和第二 HASH函数，其中，第一 HASH表与第二 HASH表的结构是相同的，第一 KEY与第二 KEY具有相同的 KEY值。在本实施例中，在执行步骤 S102之前，且在读取配置信息并进行初始化程序之后，可以进一步从第一数据源设备获取第一数据，从第二数据源设备获取第二数据，再判断第一数据和第二数据是否均是需要进行比对的完整数据，在判结果为是的情况下，可以将第一数据作为第一比对数据，将第二数据作为第二比对数据。在本实施例的步骤 S102中，获取第一比对数据与第二比对数据的共同数据的过程可以采用以下的方式来实现：先将第一比对数据按照第一 KEY插入第一 HASH表中，再逐条读取第二比对数据，根据第二 KEY判断第一 HASH表中是否存在与当前读取数据相同的第一相同数据，在判断结果为是的情况下，将第一相同数据从第一 HASH 表中删除，在判断结果为否的情况下，将当前读取数据存储到第二 HASH表中；判断第二比对数据是否已经读取完毕，如果已经读取完毕，确定所有的第一相同数据为共同数据，如果没有读取完毕，继续执行读取操作。在本实施例中，在执行步骤 S104之后，还可以判断第一差异数据是否超过第一差异数据阈值，判断第二差异数据是否超过第二差异数据阈值，在至少存在一个判断结果为是的情况下，使用告警方式进行告警。在本实施例中，在执行步骤 S104之后，还可以在差异数据处理方式为需要进行差异数据处理的情况下，进行差异数据处理，可以以这样的方式来实现：以第一差异数据为基准，对第二差异数据进行同步处理，或者，以第二差异数据为基准，对第一差异数据进行同步处理。在本实施例中，第一数据源设备的设备信息可以包括：第一文件传输协议 FTP地址、第一用户名、第一用户密码、第一数据库类型、第一数据库名称、第一数据库地址及第一数据库密码；第二数据源设备的设备信息可以包括：第二文件传输协议 FTP 地址、第二用户名、第二用户密码、第二数据库类型、第二数据库名称、第二数据库地址及第二数据库密码。优选地，数据获取方式可以包括以下之一： FTP主动获取方式、 FTP被动获取方式。优选地，告警方式可以包括以下之一：短信告警、语音告警、网管平台告警。本发明实施例提供了一种数据差异分析装置，该装置用以实现上述实施例提供的数据差异分析方法。图 2是根据本发明实施例的数据差异分析装置的结构框图，如图 2所示，该装置主要包括：获取模块 10和存储模块 20。其中，获取模块 10，设置为从第一数据源设备获取第一比对数据，从第二数据源设备获取第二比对数据，并获取第一比对数据与第二比对数据的共同数据；存储模块 20，设置为将第一差异数据存储到第一 HASH表中，将第二差异数据存储到第二 HASH表中，其中，第一差异数据是第一比对数据中除共同数据之外的数据，第二差异数据是第二比对数据中除共同数据之外的数据。采用上述实施例提供的数据差异分析方法及装置，解决了相关技术中数据一致性检验方法存在的检验效率低下、运行时间长以及开发成本较高的问题，提高了数据一致性检查的效率，并可以通过通用模块的封装节约了二次开发时间。下面结合图 3至图 4以及优选实施例对上述实施例提供的数据差异分析方法及装置进行更加详细的描述和说明。图 3是根据本发明优选实施例的基于 HASH表的数据差异分析装置的结构框图，如图 3所示，该装置包括：配置模块 10、数据获取模块 11、数据差异比对模块 12、 HASH存储模块 13、差异数据存储模块 14、告警模块 15及差异数据处理模块 16。下面对各个模块进行详细描述。配置模块 10，设置为配置各个模块的可调节数据，包括需要比对双方数据的存放设备、数据获取方式； HASH表的最大记录数据；比对后的差异数据存储方式；告警模块的告警方式（如短信告警、语音告警等）；差异数据的处理方式（如调用存储过程方式、发消息给设备业务逻辑处理方式等）。配置模块的配置数据可以是文件方式，也可以存放于数据库。数据获取模块 11，设置为到数据比对双方获取原始比对数据，包括 FTP方式、直接到数据库导出数据方式等。数据差异比对模块 12及 HASH存储模块 13，此两模块构为此装置的核心模块，相互结合使用，将比对双方的原始数据通过 HASH插入、快速查找及删除等操作，获得最终的差异数据记录。差异数据存储模块 14，根据配置，存放最终的差异数据，存储方式可以为差异文件，也可以存放于数据库等。告警模块 15，设置为对差异数据记录数超过阈值告警，告警方式可以为短信、语音及网管系统等。差异数据处理模块 16，根据配置，以一方数据为基准，对差异数据进行平账处理 (即上述同步处理）。图 4是根据本发明优选实施例的基于 HASH表的数据差异分析方法的执行流程图，如图 4所示，该流程包括以下步骤 S400-步骤 S415。步骤 S400，读取配置信息并初始化程序，读取的配置信息包括定时任务启动时间及结束时间。其中，启动时间及结束时间可以是每天某些时间或者每月某些时间，配置信息可以包括：比对双方数据存放设备信息（如 FTP地址、用户名、密码；数据库类型、数据库名称、地址、密码等）及获取方式（如 FTP的被动方式、主动方式等）； HASH表最大记录数；差异数据保存方式；告警方式（短信告警，语音告警等）；差异数据处理方式等。初始化主要包括根据双方数据唯一性的 KEY构建 HASH表及 HASH 函数。步骤 S401 , 判断当前时间是否在定时任务时间范围内，如果是，进入步骤 S402，否则启动一个定时器，在定时器到达时，重新进入步骤 S401。步骤 S402，根据配置，获取比对双方的数据到本地。步骤 S403 , 根据比对双方的约定逻辑，判断获取的数据是否是比对双方的完整数据，如果是，进入步骤 S404, 否则进入步骤 S401。步骤 S404，将比对双方中一方（简称 A) 的数据按照 KEY值插入 HASH表 A。步骤 S405，逐条读取比对另一方（简称 B) 数据，简称此条记录为记录 B。步骤 S406，根据 KEY判断记录 B是否在 HASH表 A，如果在，进入步骤 S407, 否则进入步骤 S408。步骤 S407，删除 HASH表 A内的与记录 B相同的数据。步骤 S408, 将记录 B插入 11 811表：6。步骤 S409, 判断 B的所有记录是否读取完毕，如果是，进入骤 S410, 没有处理完毕进入步骤 S405。步骤 S410，根据配置要求将差异记录存入最终的存储介质，其中 HASH表 A中为数据 A多于数据 B的记录， HASH表 B为数据 B多于数据 A的记录。步骤 411，根据阈值配置，判断差异记录是否超过阈值，超过进入步骤 S412, 否则进入步骤 S413。步骤 S412，根据配置，启动对应的告警方式告警，包括短信告警、语音告警、网管平台告警等。步骤 S413 , 根据配置，判断是否需要处理差异记录，需要进入步骤 S414, 否则进入步骤 S415。步骤 S414，根据系统要求，以一方数据为基准，到另一方系统进行平账处理。处理方式包括直接调用存储过程进行差异数据逻辑同步处理，或者是发送消息给需要同步的系统，由系统内部的业务逻辑处理。步骤 S415, 根据配置判断是否需要启动下一次数据一致性检查任务。需要进入步骤 S401 ,实现根据任务时间段定期处理数据一致性检查及处理任务。否则，流程结束。通过本优选实施例，可以使数据一致性检查通用性强，对相似功能的工程可以直接继承使用，避免重复开发，实用性强。需要说明的是，上述各个模块是可以通过硬件来实现的。例如：一种处理器，包括上述各个模块，或者，上述各个模块分别位于一个处理器中。在另外一个实施例中，还提供了一种软件，该软件用于执行上述实施例及优选实施方式中描述的技术方案。在另外一个实施例中，还提供了一种存储介质，该存储介质中存储有上述软件，该存储介质包括但不限于：光盘、软盘、硬盘、可擦写存储器等。从以上的描述中，可以看出，本发明实现了如下技术效果：通过使用 HASH表，利用 HASH表查找时间复杂度最小的特点，提高了数据一致性检查的效率，通过实验数据表明，在普通的 SUSE机器上（例如， SUSE9, 单 CPU2.3G, MEMRY2G), 比对交互双方各 100W条记录，所花时间大约为 10秒，而使用以前工程中常用的链表方式， 20分钟没有出结果。而且，可以将各个模块独立封装，耦合度低，容易维护及继承使用，尤其是数据获取模块、 HASH存储模块、数据差异对比模块及告警模块，封装完整，通用性强，对相似功能的工程可以直接继承使用，避免重复开发，实用性强。显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。工业实用性本发明实施例中，将第一数据源设备的数据中与第二数据源设备的数据不相同的数据存储在为第一数据源设备构建的 HASH表中，将第二数据源设备的数据中与第一数据源设备的数据不相同的数据存储在为第二数据源设备构建的 HASH表中，利用 HASH表查找时间复杂度较小的特点，可以提高数据一致性检查的效率，而且可以避免重复开发，实用性强。具有工业实用性。

Claims

权利要求书

1. 一种数据差异分析方法，包括：

从第一数据源设备获取第一比对数据，从第二数据源设备获取第二比对数据，并获取所述第一比对数据与所述第二比对数据的共同数据；

将第一差异数据存储到第一哈希 HASH表中，将第二差异数据存储到第二 HASH表中，其中，所述第一差异数据是所述第一比对数据中除所述共同数据之外的数据，所述第二差异数据是所述第二比对数据中除所述共同数据之外的数据。

2. 根据权利要求 1所述的方法，其中，在从第一数据源设备获取第一比对数据，从第二数据源设备获取第二比对数据之前，包括：

读取配置信息并进行初始化程序；

其中，所述配置信息包括以下至少之一：数据差异分析的任务启动时间、数据差异分析的任务结束时间、所述第一数据源设备的设备信息、所述第二数据源设备的设备信息、数据获取方式、 HASH表的最大存储空间、差异数据保存方式、告警方式以及差异数据处理方式；

所述初始化程序包括：根据第一 KEY构建第一 HASH表和第一 HASH函数，和根据第二 KEY构建第二 HASH表和第二 HASH函数，其中，所述第一 HASH表与所述第二 HASH表的结构是相同的，所述第一 KEY与第二 KEY具有相同的 KEY值。

3. 根据权利要求 2所述的方法，其中，在读取配置信息并进行初始化程序之后，包括：

从所述第一数据源设备获取第一数据，从所述第二数据源设备获取第二数据；

判断所述第一数据和所述第二数据是否均是需要进行比对的完整数据，在判结果为是的情况下，将所述第一数据作为所述第一比对数据，将所述第二数据作为所述第二比对数据。

4. 根据权利要求 2所述的方法，其中，获取所述第一比对数据与所述第二比对数据的共同数据包括：将所述第一比对数据按照所述第一 KEY插入所述第一 HASH表中；逐条读取所述第二比对数据，根据所述第二 KEY判断所述第一 HASH表中是否存在与当前读取数据相同的第一相同数据，在判断结果为是的情况下，将所述第一相同数据从第一 HASH表中删除，在判断结果为否的情况下，将所述当前读取数据存储到所述第二 HASH表中；判断所述第二比对数据是否已经读取完毕，如果已经读取完毕，确定所有的所述第一相同数据为所述共同数据，如果没有读取完毕，继续执行读取操作。根据权利要求 2所述的方法，其中，在将第一差异数据存储到第- HASH表中，将第二差异数据存储到第二 HASH表中之后，包括：判断所述第一差异数据是否超过第一差异数据阈值，判断所述第二差异数据是否超过第二差异数据阈值，在至少存在一个判断结果为是的情况下，使用所述告警方式进行告警。根据权利要求 2所述的方法，其中，在将第一差异数据存储到第一 HASH表中，将第二差异数据存储到第二 HASH表中之后，包括：在所述差异数据处理方式为需要进行差异数据处理的情况下，进行差异数据处理，包括：以所述第一差异数据为基准，对所述第二差异数据进行同步处理，或者，以所述第二差异数据为基准，对所述第一差异数据进行同步处理。根据权利要求 2至 6中任一项所述的方法，

所述第一数据源设备的设备信息包括: 第一文件传输协议 FTP地址、第一用户名、第一用户密码、第一数据库类型、第一数据库名称、第一数据库地址及第一数据库密码；

所述第二数据源设备的设备信息包括: 第二文件传输协议 FTP地址、第二用户名、第二用户密码、第二数据库类型、第二数据库名称、第二数据库地址及第二数据库密码。根据权利要求 2至 6中任一项所述的方法，其中，所述数据获取方式包括以下之一： FTP主动获取方式、 FTP被动获取方式。根据权利要求 2至 6中任一项所述的方法，其中，所述告警方式包括以下之一: 短信告警、语音告警、网管平台告警。

10. 一种数据差异分析装置，包括：获取模块，设置为从第一数据源设备获取第一比对数据，从第二数据源设备获取第二比对数据，并获取所述第一比对数据与所述第二比对数据的共同数据；

存储模块，设置为将第一差异数据存储到第一哈希 HASH表中，将第二差异数据存储到第二 HASH表中，其中，所述第一差异数据是所述第一比对数据中除所述共同数据之外的数据，所述第二差异数据是所述第二比对数据中除所述共同数据之外的数据。