WO2017050176A1

WO2017050176A1 - 一种数据同步方法和装置

Info

Publication number: WO2017050176A1
Application number: PCT/CN2016/099054
Authority: WO
Inventors: 史汉发
Original assignee: 阿里巴巴集团控股有限公司; 史汉发
Priority date: 2015-09-25
Filing date: 2016-09-14
Publication date: 2017-03-30
Also published as: CN106557497A; US20180210937A1

Abstract

一种数据同步方法和装置，涉及计算机技术领域。所述方法包括：从源数据库获取源数据（110）；将所述源数据转换为与目标数据库的数据元格式匹配的同步数据（120）；逐个将所述同步数据向目标数据库进行同步，并判断是否出现脏数据（130）；如果出现脏数据，则继续对脏数据之后的同步数据进行同步（140）。其可以预先设置一个容错机制，该容错机制在出现脏数据时，可以实现继续对脏数据之后的同步数据进行同步的过程，从而可以避免脏数据对同步过程的影响，不用在同步过程中碰到脏数据就退出程序，使同步可以继续执行，从而可以降低对机器的资源的浪费，不用频繁重启同步程序，降低同步时间。

Description

一种数据同步方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种数据同步方法和一种数据同步装置。

背景技术

大数据环境下越来越多的企业意识到，大数据是一个有待发掘的、重要的信息宝藏。然而，企业的各个设备、各种业务存储的数据元结构不尽相同，也可以理解为采用的数据库不同，如Mysql、Oracle、Sqlserver、Postgresql、DRDS、OceanBase、ODPS、Hbase等各种类型的数据库之间的数据元结构都不尽相同。

为汇集、处理、分析上述异构环境数据，就需要建立异构数据源环境下的数据同步，实现所有数据的互联，也即将源数据库的数据同步到一个目标数据库中。

现有技术中，大都使用同步工具实现源数据的同步，以关系型数据库为例，如Mysql、Oracle、Sqlserver、Postgresql等数据库，一般将源数据同步至关系型数据库的步骤为：

1.将源数据转换为标准的sql语句；

2.将标准的sql语句插入到目标数据库；

3.同步过程中遇到脏数据，程序报错退出。

脏数据是指源数据和目标数据库中的目标数据不具有一致性的数据，比如源数据与目标数据的主键冲突、源数据的数据类型与目标数据的数据类型不匹配等。

上述过程中，对于源数据，一旦遇到脏数据，同步过程则无法进行，而由于对大数据的同步，资源消耗的代价一般是比较大的，因此，上述过程无疑会对机器的资源造成极大浪费，不能容错,并且增加了同步的总时间。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据同步方法和相应的一种数据同步装置。

为了解决上述问题，本申请公开了一种数据同步方法，包括：

从源数据库获取源数据；

将所述源数据转换为与目标数据库的数据元格式匹配的同步数据；

逐个将所述同步数据向目标数据库进行同步，并判断是否出现脏数据；

如果出现脏数据，则继续对脏数据之后的同步数据进行同步。

本申请还公开了一种数据同步装置，包括：

源数据获取模块，用于从源数据库获取源数据；

转换模块，用于将所述源数据转换为与目标数据库的数据元格式匹配的同步数据；

同步判断模块，用于逐个将所述同步数据向目标数据库进行同步，并判断是否出现脏数据；

继续模块，用于如果出现脏数据，则继续对脏数据之后的同步数据进行同步。

本申请实施例包括以下优点：

本申请实施例，本申请实施例可以预先设置一个容错机制，该容错机制在出现脏数据时，可以实现继续对脏数据之后的同步数据进行同步的过程，从而可以避免脏数据对同步过程的影响，不用在同步过程中碰到脏数据就退出程序，使同步可以继续执行，从而可以降低对机器的资源的浪费，不用频繁重启同步程序，降低同步时间。

附图说明

图1是本申请的一种数据同步方法实施例的步骤流程图；

图2是本申请的一种数据同步方法实施例的步骤流程图；

图3是本申请的一种数据同步方法实施例的步骤流程图；

图3A是本申请实施例的DataX框架示例；

图4是本申请的一种数据同步装置实施例的结构框图；

图5是本申请的一种数据同步装置实施例的结构框图；

图6是本申请的一种数据同步装置实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例的核心构思之一在于，因此本申请实施例可以预先设置一个容错机制，该容错机制可以避免脏数据对同步过程的影响，不用在同步过程中碰到脏数据就退出程序，使同步可以继续执行，从而可以降低对机器的资源的浪费，不用频繁重启同步程序，降低同步时间。

参照图1，示出了本申请的一种数据同步方法实施例的步骤流程图，具体可以包括如下步骤：

步骤110，从源数据库获取源数据。

本申请实施例所提及的源数据库可以为任意一种关系型数据库，本申请实施例所提可以为的源数据库任意一种关系型数据库。当然，本申请实施例的源数据库和目标数据库也可以为其他类型的数据库，本申请不对其加以限制。该关系型数据库如Mysql、Oracle、Sqlserver、Postgresql等。

当然，本申请实施例可以应用于DataX框架，DataX封装了各种类型的数据库之间的转换规则，是一个在异构的数据库/文件系统之间高速交换数据的工具，实现了在任意的数据处理系统之间的数据交换。

在实际应用中，用户可以首先配置同步作业，比如在dataX框架中，用户可以输入/home/taobao/datax/bin/datax.py–e命令，在源数据库和目标数据库界面选定源数据库和目标数据库，比如源数据库选择Sqlserver，目标数据库选择Oracle，然后去配置相应的具体的json格式的同步作业的配置文件job.json。在该job.json包括了需要同步的源数据范围等。

可以理解，用户在配置作业之后，启动同步过程，然后即可加载该job.json，从而可以根据job.json中的配置去源数据库中获取源数据。

当然，本申请实施例还可以采用其他同步工具，本申请不对其加以限制。

在本申请另一个优选的实施例中，所述步骤110之前，还包括：

步骤101，将同步作业任务分解为至少两个子任务。

本申请实施例对于一个同步作业任务，可以将其分解为多个子任务，如此提高并行速度，从而可以提高同步效率。

可以理解，在将同步作业任务分解时，可以根据需要同步的表进行分解，每个子任务处理一张表；比如，同步作业任务可能是针对多张表的同步，那么可以一个子任务处理一张表。也可以根据同步的总行数进行分解，每个子任务处理一定比例的行；比如，需要同步源数据库的表1的50000行、表2的30000行、表3的10000行，那么可以每个子任务负责同步30000行，那么子任务1可同步表1的前30000行，子任务2可同步表2的30000行，子任务3可同步表1的剩余的20000行和表3的10000行。

需要说明的是，对于同步作业任务的分解，可以根据需要进行分解，本申请不对其分解策略加以限制。

在实际应用中，对于DataX框架，可以启动一个MasterContainer模块，MasterContainer是单个DataX作业的中枢管理节点，其可以加载前述配置文件，可以执行数据清理、将单一同步作业任务转化为多个子任务等功能。因此，本申请实施例可以由dataX的MasterContainer模块将同步作业任务分解为至少两个子任务。

在步骤101的基础上，在本申请另外一种优选实施例中，所述步骤110包括：

子步骤A111，每个子任务分别从数据库获取由自己处理的源数据。

可以理解的是，由于同步作业任务被分为了多个子任务，而每个子任务则有自己处理的目标，本申请实施例每个子任务分别从数据库获取由自己处理的源数据。

在DataX框架中，由于先启动的是MasterContainer模块，其在将同步作业任务分解为了多个子任务后，最终调用Scheduler模块，即启动调度任务，该调度任务控制每个子任务的运行。该调度任务启动多个SlaveContainer模块，每个SlaveContainer模块根据源数据库的类型去加载相类型的reader插件，该reader插件按照该类型数据库的数据元结构从数据库中读取同步子任务需求的源数据。

步骤120，将所述源数据转换为与目标数据库的数据元格式匹配的同步数据。

比如，对于为Oracle的源数据库中提取的源数据，同步的目标数据库为Mysql，那么可以将Oracle中的源数据转换为适配Mysql的sql语句。

在实际应用中，对于dataX框架，可以将源数据输入到其中的数据交换模块Storage中，由该数据交换模块根据源数据库类型和目标数据库类型，将源数据转换为适配目标数据库的数据元结构的同步数据。

当然，

在本申请另外一个优选实施例中，在步骤130之前，还包括：

步骤121，将所述同步数据进行预检测，过滤掉所述同步数据中的脏数据。

本申请实施例可以数据同步前对数据进行数据预检查处理，避免出现脏数据。当然，还可以将预检测的脏数据进行记录。比如在同步前对所有要同步数据与目标数据库进行数据匹配，如包括对应字段类型匹配，主键匹配等)，将要同步的数据完全适合目标数据库的要求。

执行该步骤之后，如果同步数据中没有脏数据，则可以直接进行同步而不用执行判断脏数据的流程，直接完成同步。如果没有过滤干净，则可以继续对同步过程中出现的脏数据进行判断。

步骤130，将所述同步数据向目标数据库进行同步，并判断是否出现脏数据。

在实际写入过程中，是将前述同步数据逐步写入目标数据库的，当写入的一条数据失败，则该条数据可以认为其为脏数据。

在实际写入过程中可以根据目标数据库的报错确定该条写入的数据是否为脏数据。比如该条数据写入时与目标数据库的表的主键冲突，假设目标数据库中表1的如下：

ID	City_ID
1	2
2	3
5	4
4	5

表1

假设该表1中ID列不可重复，那么如果有一条同步数据要将第三行的ID值修改为4，那么因为ID列已经有4，而ID不可重复，则会出现主键冲突。

又比如该条数据写入时与目标数据库的表的类型不匹配，比如表1中的列3的数据类型为整型，而写入的一条数据中，对应该列3为浮点型，两者的数据类型冲突，那么该条数据为脏数据。

在本申请实施例中，在DataX中，可以由前述SlaveContainer模块根据目标数据库的类型加载相类型的writer插件，该writer插件将由源数据转换后得到的同步数据，向目标数据库进行同步。

在本申请另外一种优选实施例中，所述步骤130包括：

子步骤A131，当以批量传输的形式将所述同步数据向目标数据库进行同步时，判断是否开始遇到脏数据。如果开始遇到脏数据，则进入子步骤A132。

需要说明的是，在步骤101的基础上，步骤A131-步骤A135可以是各个子任务执行。

子步骤A132，通知所述目标数据库将所述同步数据中的已同步的数据进行回滚。

比如同步的一批源数据是表1的前10000条，转换得到10000条同步数据，本申请实施例发现脏数据之后，向目标数据库发送回滚指令，该回滚指令包括回滚的对象，如前述表1的10000条同步数据。然后数据库则可以将该10000条数据中已经同步的数据进行回滚，直至未同步该10000条数据任意一条数据时的情况。

子步骤A133，在确定目标数据库回滚完成之后，以单条传输的形式将所述同步数据向目标数据库进行同步，并判断当次传输的是否为脏数据。如果当次传输的是脏数据，则进入子步骤A134；如果当次传输的不是脏数据，则进入，子步骤A135。

在本申请实施例中，本申请可以将由源数据转换得到的同步数据，存储在缓存中，然后在确定目标数据库回滚完成之后，从该系统缓存中逐条提取同步数据，以单条传输的形式向目标数据库进行同步。从而实现以单条传输的形式将所述同步数据向目标数据库进行同步的过程。

那么，每次向目标数据库进行单条传输的过程之后，如果该条数据是脏数据，则可以退出对该条数据的同步，进入子步骤134，直接记录该条脏数据。如果该条数据不是脏数据，则同步成功，继续提取下一条数据进行同步。

子步骤A134，进入对所述脏数据进行记录的步骤，进入步骤A140。

当然，本申请实施例中，对脏数据的记录，可以记录其源数据的形式，也可以记录其由源数据转换得到的同步数据的形式。

如此循环，直到该批次的同步数据执行完毕。

在实际应用中，由于可以获取的源数据可能有很多条，比如10000条，将该源数据转换为适配目标数据库的数据元结构的同步数据后，为了加快同步效率，则会先将这一批同步数据以批量传输的形式向目标数据库进行同步。因为该种方式只与目标数据库交互一次即可将该批量数据写入目标数据库，资源耗用小，耗时间短，而如果以单条传输的形式向目标数据库同步，则每次写入都需要与目标数据库进行交互，其资源占用多，耗时长。

那么，本申请实施例则可在批量传输的过程中，如果判断出现脏数据，如目标数据库返回前述错误，由于是批量传输，出现错误之后，批量传输则会终止，无法继续同步，那么本申请实施例则可以通过子步骤A132-A135的过程，定位具体的脏数据，然后即可对该脏数据进行记录等操作。

步骤140，如果出现脏数据，则继续对脏数据之后的同步数据进行同步。

本申请实施例，可以在脏数据出现后，不退出同步程序，而继续对该脏数据之后的同步数据进行同步。

当然，在本申请实施例的另外一种优选实施例中，还包括：

步骤150，将所有出现的脏数据生成脏数据列表以进行展示。

本申请实施例中，因此本申请实施例可以预先设置一个容错机制，该容错机制可以避免脏数据对同步过程的影响，不用在同步过程中碰到脏数据就退出程序，使同步可以继续执行，从而可以降低对机器的资源的浪费，降低同步时间。

另外，本申请实施例可以对所有出现的脏数据进行记录，提高了脏数据的识别能力。

再者，本申请实施例可以采用dataX框架实现同步过程，而dataX框架可以很容易的实现任意两个关系型数据库之间的同步，所以普适性高，同步效率高、维护成本低。

参照图2，其示出了本申请的一种数据同步方法实施例的步骤流程图，具体可以包括如下步骤：

步骤210，从源数据库获取源数据；

类似图1实施例，在本申请实施例的步骤210之前，还包括：

步骤201，将同步作业任务分解为至少两个子任务。

同理，在步骤101的基础上，在本申请另外一种优选实施例中，所述步骤210包括：

子步骤A211，每个子任务分别从数据库获取由自己处理的源数据。

步骤220，将所述源数据转换为与目标数据库的数据元格式匹配的同步数据；

步骤230，逐个将所述同步数据向目标数据库进行同步，并判断是否出现脏数据；如果出现脏数据，则进入步骤240

步骤240，统计脏数据的总数量；

对于同步时出现的脏数据，本申请实施例则可以统计同步过程中出现的所有脏数据的总数量。

比如，要同步了100万条源数据，对该100万条数据的同步是逐步进行的，那么在该过程中，出现了脏数据，则可以统计脏数据的总数量，比如对脏数据出现的数量进行累计。

在本申请另外一种优选的实施例中，在子步骤A211的基础上，步骤240包括：

子步骤A241，根据各个子任务发现的脏数据，计算脏数据的总数量。

由于各个子任务是独立对自己获取的源数据进行同步，因而，本申请实施例则可以设置一个调度任务，收集各个子任务发现的脏数据，从而计算脏数据的总数量。

在本申请另外一种优选的实施例中，所述子步骤241包括：

子步骤A2411，定期轮询以收集各个子任务记录的脏数据；

比如每隔5分钟轮询一次各个子任务，从这些子任务中获取新记录的脏数据。

子步骤A2412，对收集到的脏数据进行汇总，并计算脏数据的总数量。

然后即可对收集到的所有脏数据进行汇总，从而可以获得脏数据的总数量。

步骤250，判断脏数据的总数量是否达到阈值；如果脏数据的总数量未达到阈值，则进入步骤270，继续对脏数据之后的同步数据进行同步；如果脏数据的总数量达到阈值，则进入步骤260。

步骤260，按照预置的处理规则对同步过程进行控制。

步骤270，继续对脏数据之后的同步数据进行同步。

如果脏数据的总数量达到阈值，则可以根据预置的处理规则对同步过程进行控制。所述处理规则如：可以退出同步过程，或者如果当前的脏数据的总数量达到阈值，但是当前还有同步数据正在同步，那么则可等待这些同步数据同步完毕之后，不再允许进行同步。

在本申请另外一种优选的实施例中，在对收集到的脏数据进行汇总的步骤之后，还包括：

步骤280，针对汇总后的脏数据生成脏数据列表进行展示。

本申请实施例可以将汇总后的脏数据生成脏数据列表展示在客户端中，方便技术人员查看哪里出现了脏数据。

本申请实施例，本申请实施例可以设置另一个容错机制，其预先设置一个对后续处理影响较低的脏数据阈值，比如同步数据量为1000万，则该阈值可以设置为1000条，对于将对源数据库中的源数据同步到目标数据库中时，如果在同步过程中遇到脏数据，则可以统计脏数据的总数量，将搞脏数据与预先制定的阈值进行比较，如果脏数据的总数量未达到该阈值，则可以继续同步，而不用退出同步程序，使同步可以继续执行，从而可以降低对机器的资源的浪费，降低同步时间，并且可以及时对脏数据数量过多的情况进行限制，可以使技术人员重新配置转换规则。

为了更清楚方便的说明申请实施例，结合本发明的多任务处理架构，下面以图3优选地实施例对本申请实施例进行描述：

参照图3，示出了本申请的一种数据同步方法实施例的步骤流程图，具体可以包括如下步骤：

步骤310，将同步作业任务分解为至少两个子任务。

结合图3A，本申请实施例，用户可以首先针对DataX框架配置同步作业。然后在DataX框架中，将同步作业任务分解为N个子任务。这些任务由DataX Scheduler(DataX的调度任务)控制，直到同步完成。

步骤312，对于每个子任务，各个子任务分别从数据库获取自己负责的源数据；

步骤314，各个子任务将自己负责的源数据，转换为与目标数据库的数据元格式匹配的同步数据。

步骤316，对于每个子任务，当以批量传输的形式将所述同步数据向目标数据库进行同步时，判断是否开始遇到脏数据；如果开始遇到脏数据，则进入步骤318。

步骤318，通知所述目标数据库将所述同步数据中的已同步的数据进行回滚；进入步骤320。

步骤320，在确定目标数据库回滚完成之后，以单条传输的形式将所述同步数据向目标数据库进行同步，并判断当次传输的是否为脏数据；如果当次传输的是脏数据，则进入子步骤322。如果当次传输的不是是脏数据，则进入子步骤324。

如果当次传输的不是脏数据，则继续以单条传输的形式下一条同步数据至目标数据库。

步骤322，对所述脏数据进行记录，进入步骤324以及326。

步骤324，对下一条同步数据进行同步，进入步骤320。

该步骤322可以理解为继续对脏数据之后的同步数据进行同步。

在本申请实施例中，步骤314-324由各个子任务执行。

步骤326，调度任务定期轮询以收集各个子任务记录的脏数据；

如图3A，DataX Scheduler定期收集子任务1-子任务N记录的新的脏数据。

步骤328，对收集到的脏数据进行汇总，并计算脏数据的总数量。

然后DataX Scheduler即可对收集到的脏数据进行汇总，并计算汇总后的脏数据的总数量。

在本申请实施例中，可以对汇总后的得到的脏数据进行存储，比如存储在磁盘指定位置。

步骤330，判断脏数据的总数量是否达到阈值；如果脏数据的总数量未达到阈值，则进入步骤332；如果脏数据的总数量达到阈值，则进入步骤334。

步骤332，允许各子任务继续对脏数据之后的同步数据进行同步。进入步骤320以及步骤336。

步骤334，按照预置的处理规则对个子任务的同步过程进行控制；进入步骤336；

如果脏数据的总数量达到阈值，则可以根据预置的处理规则对各个同步过程进行控制。所述处理规则如：可以将各个子任务退出同步过程，或者如果当前的脏数据的总数量达到阈值，但是当前还有子任务的同步数据正在同步，那么则可等待各个子任务对当前的处理的同步数据同步完毕之后，不再允许各子任务进行同步。

步骤336，调度任务针对汇总后的脏数据生成脏数据列表进行展示。

当然，本申请实施例中，对脏数据列表的展示可以在图3A的同步完成之后进行，也可以在同步过程终止后进行。

当然，本申请实施例中，某些步骤之间可以根据实际需要进行调换，本申请信息不对其加以限制。

对于实现异构数据源之间的相互同步，主要需要考虑如下几个问题：

1.标准化数据传输协议

异构数据环境下，不同的数据存储的数据类型是不同的、有限的，如何制定一套标准化的数据传输协议实现异构存储结构的数据类型互转，如果没有统一的数据传输协议，当数据源于目的端的数据类型不一致时，就会造成同步作业失败。

2.保证数据的一致性

数据同步的目的在于数据的加工和汇总，必须保证源数据和同步同的目标数据具有一致性。这就需要在同步过程中能够有效识别出脏数据，并反馈给用户。

3.具有容错机制

对大数据的同步，资源消耗的代价一般是比较大的，必须建立对脏数据的容错机制。如果一旦遇到脏数据就导致同步失败，无疑会对用户的资源造成极大浪费。

基于上述几点考虑，本申请实施例首先设置了一个脏数据容错机制，即其预先设置一个对后续处理影响较低的脏数据阈值，比如同步数据量为1000万，则该阈值可以设置为1000条，对于将对源数据库中的源数据同步到目标数据库中时，如果在同步过程中遇到脏数据，则可以统计脏数据的总数量，将搞脏数据与预先制定的阈值进行比较，如果脏数据的总数量未达到该阈值，则可以继续同步，而不用退出同步程序，使同步可以继续执行，从而可以降低对机器的资源的浪费，降低同步时间。

再者，基于该容错机制，本申请实施例可以对同步过程中出现的各种脏数据进行记录，提高了脏数据的识别能力。而不像在先技术只能识别出本次批量提交过程中的一条脏数据

最后，本申请实施例可以采用DataX框架，而dataX框架具备一套标准化的传输协议，可以很容易的实现任意两个关系型数据库之间的同步，所以普适性高，同步效率高、维护成本低。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图4，示出了本申请的一种数据同步装置实施例的结构框图，具体可以包括如下模块：

源数据获取模块410，用于从源数据库获取源数据；

转换模块420，用于将所述源数据转换为与目标数据库的数据元格式匹配的同步数据；

同步判断模块430，用于逐个将所述同步数据向目标数据库进行同步，并判断是否出现脏数据；

继续模块440，用于如果出现脏数据，则继续对脏数据之后的同步数据进行同步。

在本申请另外一种优选的实施例中，在继续模块440之前还包括：

脏数据统计模块，用于如果出现脏数据，则统计脏数据的总数量；

脏数据量判断模块，用于判断脏数据的总数量是否达到阈值；如果脏数据的总数量未达到阈值，则进入继续模块440；

同步控制模块，用于如果脏数据的总数量达到阈值，则按照预置的处理规则对同步过程进行控制。

在本申请另外一种优选的实施例中，所述同步判断模块430包括：

批量数据同步子模块，用于当以批量传输的形式将所述同步数据向目标数据库进行同步时，判断是否开始遇到脏数据；如果开始遇到脏数据，则进入回滚通知子模块；

回滚通知子模块，用于通知所述目标数据库将所述同步数据中的已同步的数据进行回滚；

单条数据同步子模块，用于在确定目标数据库回滚完成之后，以单条传输的形式将所述同步数据向目标数据库进行同步，并判断当次传输的是否为脏数据。

如果当初传输为脏数据，则进入脏数据记录模块。

进一步的，在本申请另外一种优选的实施例中，在继续模块440之前，还包括：

脏数据记录模块，用于如果出现脏数据，对所述脏数据进行记录。

在本申请另外一种优选的实施例中，所述源数据获取模块410之前，还包括：

任务分解模块，用于将同步作业任务分解为至少两个子任务。

进一步的，在本申请另外一种优选的实施例中，所述源数据获取模块410包括：

源数据获取子模块，用于每个子任务分别从数据库获取由自己处理的源数据。

进一步的，在本申请另外一种优选的实施例中，所述脏数据统计模块包括：

脏数据统计子模块，用于根据各个子任务发现的脏数据，计算脏数据的总数量。

进一步的，在本申请另外一种优选的实施例中，所述脏数据统计子模块包括：

轮询收集子模块，用于定期轮询以收集各个子任务记录的脏数据；

汇总子模块，用于对收集到的脏数据进行汇总，并计算脏数据的总数量。

在本申请另外一种优选的实施例中，在汇总子模块之后，还包括：

展示模块，用于针对汇总后的脏数据生成脏数据列表进行展示。

在本申请另外一种优选的实施例中，在继续模块之前，还包括：

预检测模块，用于将所述同步数据进行预检测，过滤掉所述同步数据中的脏数据。

在本申请另外一种优选的实施例中，所述源数据库为任意一种关系型数据库，所述目标数据库为任意一种关系型数据库。

参照图5，示出了本申请的一种数据同步装置实施例的结构框图，具体可以包括如下模块：

源数据获取模块510，用于从源数据库获取源数据；

转换模块520，用于将所述源数据转换为与目标数据库的数据元格式匹配的同步数据；

同步判断模块530，用于逐个将所述同步数据向目标数据库进行同步，并判断是否出现脏数据；

脏数据统计模块540，用于如果出现脏数据，则统计脏数据的总数量；

脏数据量判断模块550，用于判断脏数据的总数量是否达到阈值；如果脏数据的总数量未达到阈值，则进入继续模块570；如果脏数据的总数量达到阈值，则进入同步控制模块560。

同步控制模块560，用于按照预置的处理规则对同步过程进行控制。

继续模块570，用于继续对脏数据之后的同步数据进行同步。

参照图6，示出了本申请的一种数据同步装置实施例的结构框图，具体可以包括如下模块：

任务分解模块610，用于将同步作业任务分解为至少两个子任务。

源数据获取模块612，具体包括：

源数据获取子模块6121，用于每个子任务分别从数据库获取由自己处理的源数据。

转换模块614，用于将所述源数据转换为与目标数据库的数据元格式匹配的同步数据；

同步判断模块616，具体包括：

批量数据同步子模块6161，用于当以批量传输的形式将所述同步数据向目标数据库进行同步时，判断是否开始遇到脏数据；如果开始遇到脏数据，则进入回滚通知子模块；

回滚通知子模块6162，用于通知所述目标数据库将所述同步数据中的已同步的数据进行回滚；

单条数据同步子模块6163，用于在确定目标数据库回滚完成之后，以单条传输的形式将所述同步数据向目标数据库进行同步，并判断当次传输的是否为脏数据。如果出现脏数据，进入脏数据记录模块618。如果未出现脏数据，则对下一条同步数据进行同步。

脏数据记录模块618，用于对所述脏数据进行记录；进入单条数据同步子模块6163以及轮询收集子模块6201。如果未出现脏数据，则单条数据同步子模块6163继续对下一条同步数据进行同步。

脏数据统计模块620，具体包括：

轮询收集子模块6201，用于定期轮询以收集各个子任务记录的脏数据；

汇总子模块6202，用于对收集到的脏数据进行汇总，并计算脏数据的总数量。

脏数据量判断模块622，用于判断脏数据的总数量是否达到阈值；如果脏数据的总数量未达到阈值，则允许各子任务继续对脏数据之后的同步数据进行同步，进入单条数据同步子模块6163；如果脏数据的总数量达到阈值，则进入同步控制模块624；

同步控制模块624，用于按照预置的处理规则对同步过程进行控制。

展示模块626，用于针对汇总后的脏数据生成脏数据列表进行展示。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例首先设置了一个脏数据容错机制，即其预先设置一个对后续处理影响较低的脏数据阈值，比如同步数据量为1000万，则该阈值可以设置为1000条，对于将对源数据库中的源数据同步到目标数据库中时，如果在同步过程中遇到脏数据，则可以统计脏数据的总数量，将搞脏数据与预先制定的阈值进行比较，如果脏数据的总数量未达到该阈值，则可以继续同步，而不用退出同步程序，使同步可以继续执行，从而可以降低对机器的资源的浪费，降低同步时间。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种数据同步方法和一种数据同步装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种数据同步方法，其特征在于，包括：

从源数据库获取源数据；

将所述源数据转换为与目标数据库的数据元格式匹配的同步数据；

逐个将所述同步数据向目标数据库进行同步，并判断是否出现脏数据；

如果出现脏数据，则继续对脏数据之后的同步数据进行同步。
根据权利要求1所述的方法，其特征在于，在继续对脏数据之后的同步数据进行同步之前，还包括：

统计脏数据的总数量；

判断脏数据的总数量是否达到阈值；

如果脏数据的总数量未达到阈值，则继续对脏数据之后的同步数据进行同步；

如果脏数据的总数量达到阈值，则按照预置的处理规则对同步过程进行控制。
根据权利要求1所述的方法，其特征在于，所述将所述同步数据向目标数据库进行同步，并判断是否出现脏数据包括：

当以批量传输的形式将所述同步数据向目标数据库进行同步时，判断是否开始遇到脏数据；

如果开始遇到脏数据，则通知所述目标数据库将所述同步数据中的已同步的数据进行回滚；

在确定目标数据库回滚完成之后，以单条传输的形式将所述同步数据向目标数据库进行同步，并判断当次传输的是否为脏数据。
根据权利要求3的所述的方法，其特征在于，在继续对脏数据之后的同步数据进行同步之前，还包括：

对所述脏数据进行记录。
根据权利要求2所述的方法，其特征在于，所述从源数据库获取源数据的步骤之前，还包括：

将同步作业任务分解为至少两个子任务。
根据权利要求5所述的方法，其特征在于，所述从源数据库获取源数据的步骤包括：

每个子任务分别从数据库获取由自己处理的源数据。
根据权利要求5所述的方法，其特征在于，所述统计脏数据的总数量的步骤包括：

根据各个子任务发现的脏数据，计算脏数据的总数量。
根据权利要求7所述的方法，其特征在于，所述根据各个子任务发现的脏数据，计算脏数据的总数量的步骤包括：

定期轮询以收集各个子任务记录的脏数据；

对收集到的脏数据进行汇总，并计算脏数据的总数量。
根据权利要求8所述的方法，其特征在于，在对收集到的脏数据进行汇总的步骤之后，还包括：

针对汇总后的脏数据生成脏数据列表进行展示。
根据权利要求1所述的方法，其特征在于，在逐个将所述同步数据向目标数据库进行同步，并判断是否出现脏数据的步骤之前，还包括：

将所述同步数据进行预检测，过滤掉所述同步数据中的脏数据。
根据权利要求1所述的方法，其特征在于，所述源数据库为任意一种关系型数据库，所述目标数据库为任意一种关系型数据库。
一种数据同步装置，其特征在于，包括：

源数据获取模块，用于从源数据库获取源数据；

转换模块，用于将所述源数据转换为与目标数据库的数据元格式匹配的同步数据；

同步判断模块，用于逐个将所述同步数据向目标数据库进行同步，并判断是否出现脏数据；

继续模块，用于如果出现脏数据，则继续对脏数据之后的同步数据进行同步。
根据权利要求12所述的装置，其特征在于，在继续模块之前，还包括：

脏数据统计模块，用于如果出现脏数据，则统计脏数据的总数量；

脏数据量判断模块，用于判断脏数据的总数量是否达到阈值；如果脏数据的总数量未达到阈值，则进入继续模块；

同步控制模块，用于如果脏数据的总数量达到阈值，则按照预置的处理规则对同步过程进行控制。
根据权利要求12所述的装置，其特征在于，所述同步判断模块包括：

批量数据同步子模块，用于当以批量传输的形式将所述同步数据向目标数据库进行同步时，判断是否开始遇到脏数据；如果开始遇到脏数据，则进入回滚通知子模块；

回滚通知子模块，用于通知所述目标数据库将所述同步数据中的已同步的数据进行回滚；

单条数据同步子模块，用于在确定目标数据库回滚完成之后，以单条传输的形式将所述同步数据向目标数据库进行同步，并判断当次传输的是否为脏数据。
根据权利要求12-14其中之一所述的装置，其特征在于，在继续模块之前，还包括：

脏数据记录模块，用于如果出现脏数据，对所述脏数据进行记录。
根据权利要求13所述的装置，其特征在于，所述源数据获取模块之前，还包括：

任务分解模块，用于将同步作业任务分解为至少两个子任务。
根据权利要求16所述的装置，其特征在于，所述源数据获取模块包括：

源数据获取子模块，用于每个子任务分别从数据库获取由自己处理的源数据。
根据权利要求16所述的装置，其特征在于，所述脏数据统计模块包括：

脏数据统计子模块，用于根据各个子任务发现的脏数据，计算脏数据的总数量。
根据权利要求17所述的装置，其特征在于，所述脏数据统计子模块包括：

轮询收集子模块，用于定期轮询以收集各个子任务记录的脏数据；

汇总子模块，用于对收集到的脏数据进行汇总，并计算脏数据的总数量。
根据权利要求19所述的装置，其特征在于，在汇总子模块之后，还包括：

展示模块，用于针对汇总后的脏数据生成脏数据列表进行展示。
根据权利要求12所述的装置，其特征在于，在继续模块之前，还包括：

预检测模块，用于将所述同步数据进行预检测，过滤掉所述同步数据中的脏数据。
根据权利要求12所述的装置，其特征在于，所述源数据库为任意一种关系型数据库，所述目标数据库为任意一种关系型数据库。