WO2010069135A1

WO2010069135A1 - 分布式系统版本控制方法、节点及系统

Info

Publication number: WO2010069135A1
Application number: PCT/CN2009/001459
Authority: WO
Inventors: 薛海强; 王光霁; 欧阳聪星; 魏冰
Original assignee: 中国移动通信集团公司
Priority date: 2008-12-15
Filing date: 2009-12-15
Publication date: 2010-06-24
Also published as: US20110289056A1; EP2378718A1; EP2378718A4; CN101753609B; CN101753609A; EP2378718B1; US8538923B2

Description

分布式系统版本控制方法、节点及系统技术领域

本发明涉及通信领域中核心网，具体地，涉及一种分布式系统版本控制方法、节点及系统。背景技术

分布式存储系统通常具有数据冗余存储机制，即对同一份数据，在不同的节点上存储多个复本，由此带来了数据存储的高可靠性，数据读取的高吞吐量等优点。但是也存在数据多复本之间需要同步的问题，称为版本控制问题。

在集中式存储系统中，版本的控制比较简单，可以使用复本的最后修改时间作为评判标准，由于时钟源唯一，因此，最后被^^改的复本是最新的版本。但是，在分布式系统中，保证各个节点时钟的高精度同步比较困难，因此，要为复本制定一个版本控制方法很困难。但这却是非常重要的一个问题，例如：某人帐户的复本 1显示余额 10元，复本 2显示余额为 20元，这时该分布式系统将很难确定此人的实际余额，因此，版本控制是分布式系统中一个亟待解决的问题。

现有分布式系统' Oracle"的 "Advanced Replication" 技术中的版本同步依靠二阶段提交协议。图 1为现有技术中的二阶段提交协议的流程图，如图 1 所示，在该协议中，资源管理器的活动均由一个事务协调器的单独软件组件来控制，包括：事务协调器通知资源管理器准备提交事务（prepare )、资源管理器回应事务协调器（Vote Commit ),事务协调器收集资源管理器的所有响应 ( Global Commit )、事务协调器将事务的结果通知给资源管理器并接收资源管理器的响应（Ack )。如图 1所示， Oracle的版本控制方法简单，将协调者的时间作为数据的版本号，但是一旦协调者之间的时间没有同步，则系统进行数据恢复时，很可能用一个较早的数据覆盖掉最新的数据，因此，二阶段提交方法解决版本同步问题需要保持时间同步，这使得系统的可用性下降明显，并且 2阶段提交（ Two Phase Commitment, 简称 2PL )代价极高。现有的分布式冗余存储系统中进行版本控制更新时，时间同步的方法主要有：主从式时间同步化，拜占庭协议式时间同步化和收敛函数式时间同步化。与本发明相关的时间同步技术是主从式时间同步，其中，应用最为广泛的是网络时间协议（（Network Time Protocol ，简称 NTP)协议。主从式时间同步方式中一定有一个固定的服务器（Server ), 该服务器通过卫星同步自身时间，或者通过互联网连接同步更新自身时间，客户端（Client )与服务器进行交互，同步自身时间。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

1. 扩展性差：现有分布式系统的版本控制方法，当系统规模扩大到万级、十万级时，对时钟同步的要求比较高，实现很困难；

2. 系统可用性低：现有分布式系统中需要所有的复本都保持最新的状态，只要一个复本所在的节点出现了问题，数据修改等流程就无法进行，而在大规模组网时，节点故障非常常见，如果要确保数据的每一个镜像都保持最新的版本，系统的性能下降十分明显，大大降低了系统的可用性；

3. 实用性差：现有分布式系统中，进行版本控制更新时，或者通过卫星同步自身时间，或者通过互联网连接同步更新自身时间，解决方案都比较复杂，实用性不高；

4. 成本高、工作量大：分布式系统大规模组网时，时间同步对硬件的要求较高，现有的时钟同步需要手工设置主、备时钟，过多依赖于手动配置，在大规模组网时工作量非常大。发明内容

本发明的第一目的是针对现有技术中分布式系统的扩展性差、实用性差等缺陷，提出一种分布式系统的版本控制方法，以实现分布式系统的大致时间同步，提高扩展性及实用性。

本发明的第二目的是针对现有技术中分布式系统的扩展性差、实用性差等缺陷，提出一种分布式版本控制系统，以实现分布式系统的时间同步，提高分布式系统的扩展性和实用性。

本发明的第三目的是针对现有技术中分布式系统的实用性差、时间不同步等缺陷，提出一种分布式系统中的管理节点，以实现分布式系统的时间同步，提高分布式系统的扩展性和实用性。

本发明的第四目的是针对现有技术中分布式系统的实用性差、时间同步不高等缺陷，提出一种存储节点，以实现分布式系统的时间同步，提高分布式系统的扩展性和实用性。

为实现上述第一目的，根据本发明的一个方面，提供了一种分布式系统的版本控制方法。

根据本发明实施例的分布式系统的版本控制方法，包括：在分布式系统的每个域中选取一个管理节点；在所有管理节点中选取一个作为分布式系统的同步源，所有管理节点根据同步源的时间进行时间同步；所有管理节点根据同步后的时间控制对应域内节点的时间同步，分布式系统的节,、根据同步后的时间对存储数据的复本进行版本控制。

优选地，上述版本控制方法中，还可以包括：在该分布式系统中存储的数据中加入时间标识信息、和 /或操作版本标识信息，并根据时间标识信息、和 /或操作版本标识信息对数据的多份复本进行版本控制。

其中，上述时间标识信息可以包括：发送时间、接收时间。

具体地，对数据的多份复本进行版本控制包括：对所述数据的 N份复本进行修改、读取或恢复，且满足 W+R>N， N>=3 , 其中， W为收到复本的节点修改成功的最少响应数量； R为读取到相同内容复本的最少数量。

优选地，在分布式系统的每个域中选取一个管理节点的操作可以包括：在每个域中选取 ID号最小、最大的或在线时间最长的节点作为该域的管理节为实现上述第二目的，根据本发明的另一个方面，提供了一种分布式版本控制系统。

根据本发明实施例的分布式版本控制系统，包括：管理节点，从每个域内的存储节点中选取产生，用于与从多个管理节点中选取的同步源进行时间同步，并根据同步后的时间负责对应域内各存储节点的时间同步；存储节点，用于根据同步后的时间对存储数据的复本进行版本控制。

为实现上述第三目的，根据本发明的另一个方面，提供了一种管理节点。根据本发明实施例的管理节点，从分布式系统的每个域中选取产生，该管理节点包括：接口模块，用于与从所有管理节点中选取的同步源进行交互，发送携带请求时间 T1同步请求消息，从对应的回复请求消息中，获得同步源收到所述请求消息的时间 T2, 及回复所述请求消息的时间 T3; 计算模块，用于根据接收回复请求消息的接收时间 T4、 Tl、 Τ2及 Τ3, 计算与同步源时间系统的相对差值 θ，并根据相对差值调整自身的时间系统与所述同步源保持同步；处理模块，用于根据同步后的时间对管理节点所在域内各存储节点进行时间同步。

为实现上述第四目的，根据本发明的另一个方面，提供了一种存储节点。根据本发明实施例的存储节点，包括：时间同步模块，用于与从分布式系统的每个域中选取产生的管理节点进行时间同步；存储模块，用于保存分布式系统的数据及同步后的时间；版本控制模块，用于根据同步后的时间对存储数据的复本进行版本控制。

本发明各实施例的分布式系统的版本控制方法、节点及系统，通过选取若干个管理节点进行时间同步，然后由管理节点控制其域内各节点的时间同步，分级进行同步，同步后可以使系统中所有节点的时钟将达到一个大致同步的状态，实现一定范围内的时间同步。在此基础上，分布式系统中的各节点可以根据同步后的时间进行版本控制等。本发明各实施例无需时钟高度同步，也不需一个集中的控制节点来进行版本的严格时间同步，即使节点规模扩大到万级、十万级，使得系统仍然能自动进行有效的时间同步、不需手工配置，对外呈现出良好的扩展性，自动化程度高，适用于大规模的网络。本发明各实施例在时间同步的基础上进行版本控制，允许系统中存在多个复本不一致的情况，可以使系统自动分析最新的数据并向外提供，大大提高了分布式系统的可用性，可有效解决现有技术中需要所有复本保持最新状态，一个节点出现故障则不可操作，实用性低等缺陷。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：图 1为现有技术中的二阶段提交协议的流程图；

图 2为根据本发明实施例一的分布式系统版本控制方法流程图；图 3为图 2中选取管理节点的示意图；

图 4 ( a ) 为居本发明实施例二的分布式系统版本控制方法的管理节点时间同步示意图；

图 4 ( b ) 为根据本发明实施例二的分布式系统版本控制方法的存储节点时间同步示意图；

图 5为根据本发明实施例三的分布式系统版本控制方法流程示意图；图 6为根据本发明的分布式系统版本控制方法应用于数据修改的实施例流程示意图；

图 7为根据本发明的分布式系统版本控制方法应用于数据读取的实施例流程示意图；

图 8 为根据本发明的分布式系统版本控制方法应用于数据恢复的实施例流程示意图；

图 9为根据本发明实施例七的分布式版本控制系统示意图；

图 10为图 9中管理节点的实施例结构示意图；

图 11为图 9中存储节点的实施例结构示意图。具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

根据本发明实施例，提供了一种分布式系统版本控制方法及系统，下面分别通过图 2-图 11对本发明的版本控制方法、节点及系统进行详细说明。

实施例一

图 2 为根据本发明实施例一的分布式系统版本控制方法流程图，如图 2 所示，本实施例包括：

步骤 S102: 在分布式系统的每个域中选取一个管理节点；

步骤 S104: 在所有管理节点中选取一个作为分布式系统的同步源，所有管理节点根据同步源的时间进行时间同步；

步骤 S106: 所有管理节点居同步后的时间控制对应域内节点的时间同步；

步骤 S108: 分布式系统的节点根据同步后的时间对存储数据的复本进行版本控制。

本实施例中，通过在分布式系统的每个域中选取一个管理节点，由所有管理节点选取一个同步源后进行时间同步，然后由管理节点控制其域内各节点的时间同步，本实施例采用分级进行同步，同步后可以使系统中所有节点的时钟达到一个大致同步的状态，实现一定范围内的时间同步。本实施例通过选取管理节点来保持分布式系统大致时间同步的方式，即使节点规模扩大到万级、十万级，系统仍然能自动进行有效的时间同步、不需手工配置，可以对外呈现出良好的扩展性，自动化程度高，适用于大规模的网络。图 3为图 2中选取管理节点的示意图，如图 3所示，系统包括节点 A、 B、 C...U、 V，整个系统可以分为 4个域，从每个域中选取一个管理节点，图 3 中管理节点为节点 C、 H、 M、 T。管理节点硬件上和域内的其它存储节点没有区别，只是在时间同步时负责同步管理域内的存储节点的时间，存储节点是实际负责存储数据的节点。

每个域中选取一个管理节点可以采用多种方式，如：每个域的所有节点中选取 ID号最小、或在线时间最长的节点作为该域的管理节点。还可以采用：域中的其中一个节点向其余节点通告其作为管理节点的请求消息，在其余节点均接受时，将该节点作为该域的管理节点。选取管理节点的方式有很多，本发明不限于上述两种选取方式。

在选取完管理节点后，步骤 S104可以在所有的管理节点中选取一个管理节点作为同步源，同样地，选取同步源也可以采用与选取管理节点相类似的方式。下面以在所有管理节点中选取在线时间最长的管理节点作为同步源为例进行说明：

1 ) 管理节点可以按照预先定义好的顺序发起查询请求，例如在以省为一个域且每个域中含有一个管理节点的全国性系统中，按照统一的拼音字头顺序将所有管理节点依次排列，选举由排名第一，即拼音最靠前的节点发起在线时间查询请求，本实施例以安徽省对应域的管理节点发起查询请求，且在该查询请求中加入自己的在线时间及 ID信息为例；

2 ) 每个收到该消息的管理节点比较消息中的在线时间与自己在线时间，如果消息中的在线时间大于自己的在线时间，则将该消息中的 ID以及在线时间信息向后一管理节点传递，否则传递自身的 ID以及在线时间；

3 ) 当发起查询请求的管理节点，如：安徽省的管理节点收到返回的消息时，获知消息中的 ID及在线时间信息，将消息中的 ID对应的管理节点作为系统的标准时间同步源，并且向所有的管理节点通知选举结果，即将 ID号发送给其余的管理节点。在选取同步源之后，即可根据同步源的时间系统对所有管理节点进行时间同步。实施例二

图 4 (a) 为根据本发明实施例二的分布式系统版本控制方法的管理节点时间同步示意图，图 4 (b)为根据本发明实施例二的分布式系统版本控制方法的存储节点时间同步示意图。由于管理节点与同步源进行时间同步和管理节点与域内的存储节点可以采用相同的时间同步方式。

如图 4 (a)所示，本实施例中管理节点与选取的同步源进行时间同步包括：

1) 需要同步时间的管理节点向同步源发起同步请求消息，其中带有发送请求时间 Tl， T1为管理节点以自身时间系统为参照发送同步请求的时间；

2) 同步源收到此请求时回复一条消息，其中带有收到此消息的时间 Τ2 及回复此消息的时间 Τ3， Τ2为同步源以自身时间系统为参照收到同步请求的时间， Τ3为同步源以自身时间系统为参照回复该消息的时间；

3) 管理节点收到消息后，记录收到该消息的时间（以自身时间系统为参照） Τ4;

4) 管理节点根据接收 Τ4、 Tl、 Τ2及 Τ3, 计算与同步源时间系统的相对差值 θ。

假设下列参数的含义如下：

Θ: 同步源与管理节点时间系统的相对差值

51: 请求消息在网上传播所消耗的时间

52: 回复消息在网上传播所消耗的时间，假设 δ1=δ2

贝' J有方程^口下： 1 ) ΤΑ = Τ -θ + σ2 ₂ ) Τ2 = ΤΙ + θ + σ\ 3 ) δ1=δ2

可 (Τ2-Τ1)-(Τ4-Τ3) _{δ1 52}_ (Τ2-Τ\) + (Τ4-Τ3)

— 2 — — 2

在获得相对差值 Θ之后，管理节点将自身的时间加上该差值 θ，即可获得与同步源保持时间同步的时间系统。在通过上述方法进行时间同步时，还可以同时获得网络传播的消耗时间 δ1=δ2，以作他用，如管理人员根据此时延能够判断网络是否拥堵；或者节点根据此时延设定自身传输超时计时器等。

图 4 ( b ) 为根据本发明实施例二的分布式系统版本控制方法的存储节点时间同步示意图。在管理节点与同步源进行时间同步后，管理节点即可作为对应域内的时间同步源，对域内的各存储节点进行时间同步。如图 4 ( b )所示，本实施例中管理节点与选取的同步源进行时间同步包括：

1 )域内的各存储节点向管理节点发起同步请求消息，其中带有发送请求时间 ΤΓ;

2 ) 管理节点回复此消息，其中带有收到此消息的时间 T2，及回复此消息的时间 Τ3';

3 ) 域内节点收到消息后，记录收到该消息的时间 Τ4，；

4 ) 节点根据接收 Τ4，、 ΤΓ、 Τ2，及 Τ3，，计算与管理节点时间系统的相对差值 θ'。

与上述计算过程类似，可得 _θ, ₌ (Τ2'-Τν) - (Τ4'-Τ3' ) ,

2

δ_{γ = δ2}, (Τ2'-Τν) + (Τ4'-Τ3') , 在获得相对差值^之后，存储节点将自身的时间加上该差值 θ，，即可获得与管理节点保持时间同步的时间系统。

管理节点硬件上和域内的其它存储节点没有区别，只是在时间同步时负责同步管理域内的存储节点的时间，管理节点进行时间同步后，即可作为分布式系统的普通节点，参与后续的版本控制过程。

上述方法实施例通过选举管理节点，进行时间同步，通过对全网节点进行一定范围内的时钟同步，可以在类似归属用户服务器 (Home Subscriber

Server，简称 HSS)这种应用场景的大规模数据存储系统中保证数据的一致性，即便节点规模扩大到万级，十万级依然能够进行有效的同步控制，同时本发明各实施例的时间同步简单易实现，且自动化程度高。

实施例三图 5 为居本发明实施例三的分布式系统版本控制方法流程示意图。如图 5所示，本实施例包括：

步骤 S202: 在分布式系统的每个域中选取一个管理节点；

步骤 S204: 在所有管理节点中选取一个作为分布式系统的同步源，所有管理节点根据同步源的时间进行时间同步；

步骤 S206：管理节点居同步后的时间控制对应域内节点的时间同步；步骤 S208: 在系统中存储的数据中加入时间标识信息、和 /或操作版本标识信息，根据上述信息对数据的多份复本进行版本控制，如读取、修改及恢复等。

在分布式系统中的各节点时间同步后，根据同步后各节点的时间，在存储的数据中加入时间标识信息，或加入操作版本标识信息，或者两种信息均加入，以实现对数据多份复本的版本控制，如：在读取、恢复或修改时可以对时间标识最新的数据进行操作。

本实施例中数据的时间标识信息可以包括发送时间、接收时间等，其中，发送时间为发送者以自身时间为参照将该数据发送到多份复本所在节点时的时间；接收时间为复本所在节点接收该数据时以自身时间系统为参照的时间。根据上述接收时间和发送时间的差值，还可以计算获得数据在复本所在节点的相对保存时间。

上述实施例加入了时间标识信息和 /或版本操作标识信息之后，可以采用多种方式对数据的多份复本进行版本控制：

1. 将发送时间最迟的数据为最新的数据。

如：同一数据，第 1份复本中数据的发送时间为 5分钟前，其他 2份复本中数据的发送时间为 2分钟前，则该 2份复本的数据可以认为是最新的数据，可以对其进行读取、修改、恢复等操作。

这种方式适用于全网所有节点的时钟同步的情况下，因为需要节点以自身的时间系统为参照加入数据的发送时间，需要保证时间同步。

2. 将相对保存保存时间最短的数据作为最新的数据如：同一数据，第 1份复本中数据的相对保存时间为 5分钟，其他 2份复本中数据的相对保存时间为 2分钟，则该 2份复本的数据可以认为是最新的数据，可以对其进行读取、修改、恢复等操作。

如果发送数据者加入的数据发送时间即使是一致的，但考虑到网络中的延迟，到达多份复本所在节点时各节点的接收时间可能是不一致的，因此，计算出的相对保存时间可能也不一样，因此，这种方式适用于延时不重要的情况。

3. 将操作版本标识信息最高的数据作为最新的数据

操作版本标识信息可以为数据的版本号 , 版本号最高的即为最新的数据，在具体实现时，可以在对数据进行修改时，将该数据的修改次数进行更新，如果哪份数据的修改次数最多，则也可以将其作为最新的数据。

4.将时间标识信息和操作版本标识信息综合考虑作为最新的数据在数据的多份复本的发送时间、相对保存时间、或者操作版本标识信息相同的情况下，可以结合上述 3种情况，综合考虑，获得最新的数据进行版本控制。

本实施例通过选举管理节点，进行时间同步，并在此基础上对数据加入时间标识信息、操作版本标识信息，后续可以结合数据内容来进行版本控制，进而实现存储系统的数据存储、修改、读取和恢复等，从而可以有效地进行版本控制，实用性高。本发明在分布式系统的所有节点时间同步后，可以结合时间标识信息、操作版本信息进行版本控制。下面对本发明的版本控制方法进行举例说明：本发明在时间同步后进行版本控制，适用于分布式系统中每份数据存储 N份复本的情况（N>=3 )，设系统中每份数据存在 N份复本， W为收到 W份以上复本所在节点的修改成功的响应，即 W为收到复本的节点修改成功的最少响应数量， R为读取到相同内容复本的最少数量，即读取的 R份以上复本内容相同，当满足 W+R>N时，称满足这种条件的配置为合法配置。在分布式系统中，由于每份数据存储的复本数 N是预先定义的，因此，可以在系统中预先配 U R与 N的关系，在读取、修改时根据改合法配置进行版本控制。

举例说明如下： N=3， W=2, R=2, 表示系统中每份数据存在 3份复本， W=2表示至少修改 2份复本才算写入修改成功， R=2表示至少读取 2份才算读取成功，此配置一个合法配置，因为 W+R>N。同理，当 N=4时， W=3， R=2或者 W=l， R=4都是一个合法配置。实施例四

图 6为根据本发明的分布式系统版本控制方法应用于数据修改的实施例流程示意图。如图 6所示，本实施例包括：

步骤 S302: 分布式系统中某前端节点接收到某数据的修改请求，其中前端节点为系统内第一个接收到系统外数据修改请求的普通存储节点，每个存储节点均可以作为一个前端节点，分布式系统如图 3 所示，可以对外呈环链状，当外部系统向系统发送修改请求时，第一个接收的节点作为前端节点，前端节点接收到该修改请求后，查询获得该数据的 N份复本所在节点；

步骤 S304: 在修改请求中加入发送时间并向数据的 N份复本所在节点转发该修改请求，其中，发送时间为前端节点根据自身时钟发送修改请求时对应的时间；

步骤 S306: 前端节点判断是否收到 W份成功响应，是则执行步骤 S308, 否则执行步骤 S310;

步骤 S308: 对数据的发送时间及操作版本标识信息进行更新，结束；步骤 S310: 前端节点返回数据修改失败，通知复本所在节点恢复修改请求失败之前的数据。

下面以 N=3 , W=2, R=2为例，对图 6版本控制方法应用于数据修改的流程进行说明：

A、前端节点在数据修改请求中写入发送时的时间，以自己的时钟为准，并把此消息发送给 3个复本所在节点； B、前端节点如果收到两个或两个以上节点的响应且返回修改成功，则前端节点对外返回修改成功；

C、如果两个或两个以上复本所在节点都离线或返回修改失败，则前端节点由于收到少于 2份成功接受的修改请求，对外返回修改失败，通知节点回滚已写入的数据；

D、成功接受修改请求的节点，将数据的发送时间，到达时间，和数据内容一起写入数据库，并将该数据的版本操作标识信息进行修改，本实施例以修改次数为例，每成功修改一次数据，对该数据的修改次数加一，并保存最新的修改次数。

本实施例在通过选举管理节点，进行时间同步后，结合了时间标识来进行版本控制，进而实现存储系统的数据存储和修改，可以有效地进行版本控制，实用性高。本实施例应用于数据修改时的版本控制方法，以时间标识信息和操作版本标识信息结合来生成数据，进行版本控制，可以以较低的代价在大规模网络中进行有效的版本控制。

实施例五

图 7为根据本发明的分布式系统版本控制方法应用于数据读取的实施例流程示意图。如图 7所示，本实施例包括：

步骤 S402: 前端节点接收数据读取请求，向该数据的 N份复本所在节点转发该读取请求；

步骤 S404: 复本所在节点取出数据的时间标识信息，获得相对修改时间，返回前端节点；

步骤 S406:前端节点判断是否有 R份以上复本所在节点返回的数据相同，是则返回该数据的查询结果，结束；

步骤 S408: 前端节点返回查找失败结果。

下面仍以 N=3， W=2, R=2为例，对图 7版本控制方法应用于数据读取的流程进行说明：

A、前端节点接收数据读取请求，并把此消息发送给 3个复本所在节点； B、复本所在节点取出数据的发送时间、到达时间，当前时间减去到达时间得出的相对保存时间，及数据修改次数，返回前端节点；

C、如果两个或两个以上节点无响应或返回读取失败，前端节点返回查找失败；

D、如果两个或两个以上节点有响应，系统比较三份数据的内容，如果三份数据内容有两份或三份的内容相同，则返回此内容，如果三份数据内容各不相同，则说明系统中出现了数据不一致的情况，因此将返回查找失败。

判断数据是否相同可参见实施例三中采用多种方式对数据的多份复本进行版本控制的 4种方式：根据发送时间、根据数据修改次数、根据相对保存时间、或其结合判断返回的数据是否相同。

本实施例在通过选举管理节点，进行时间同步后，结合了时间标识和操作版本标识信息来进行版本控制，进而实现存储系统的数据读取，可以有效地进行版本控制，实用性高。本实施例加入了版本操作标识信息，在版本控制时可以根据时间、数据修改次数和数据内容是否一致，来判断数据是否相同即数据是否同步。本实施例解决了精确时间同步困难的问题，做到了一定范围内的时间同步，本实施例允许系统中多个复本存在不一致的情况，然后系统从中选择一份最新的数据提供给用户，使得系统可以容错，大大提高了系统的可用性和扩展性。实施例六

图 8 为根据本发明的分布式系统版本控制方法应用于数据恢复的实施例流程示意图。如图 8所示，本实施例包括：

步骤 S502: 故障恢复节点向所述数据的其它 N-1份复本所在节点发送同步请求；

步骤 S503: 复本所在节点取出数据的时间标识信息，操作版本标识信息等，返回前端节点；

步骤 S504: 判断是否读取 R份数据成功，是则执行步骤 S505 , 否则执行步骤 S506;

步骤 S505'. 返回读取失败，数据恢复失败，结束；

步骤 S506:判断版本是否一致，是则执行步骤 S510,否则执行步骤 S508; 步骤 S508: 返回修改次数最多的数据，故障恢复节点采用此数据进行数据恢复，数据恢复结束；

步骤 S510: 判断返回的数据是否发送时间一致，是执行步骤 S514, 否则执行步骤 S516;

步骤 S512: 返回发送时间较晚的数据最为最新的数据，故障恢复节点采用此数据进行数据恢复，数据恢复结束；

步骤 S514: 判断相对保存时间是否一致，是则执行步骤 S518, 否则执行步骤 S516;

步骤 S516: 返回相对保存时间较晚的数据，故障恢复节点采用此数据进行数据恢复，数据恢复结束；

步骤 S518: 返回任意一份数据，故障恢复节点采用此数据进行数据恢复，数据恢复结束。下面仍以 N=3， W=2, R=2为例，对图 8版本控制方法应用于数据恢复的流程进行说明-.

A、当节点 E从故障中恢复后，将同步其上存储的所有数据，对于节点 E上存储的某条数据来说，在其他两个节点 El、 E2上都有复本；

B、节点 E向节点 El、 E2发出同步请求，只有 El、 E2都回应才进行数据恢复同步；

C、节点 E 收到回应时，将比两份复本的修改次数，当修改次数一样时将比较数据发送时间，当数据发送时间一样时，将比较相对数据保存时间，从中取得一份较新的数据源进行数据同步；

D、节点 E直到完成了数据恢复才能向外提供服务。

同实施例四类似，本实施例进行时间同步后，结合了时间标识和操作版本标识信息来进行数据恢复控制，可以有效地进行版本恢复控制，实用性高。本实施例解决了精确时间同步困难的问题，做到了一定范围内的时间同步，且允许系统中多个复本存在不一致的情况，然后系统从中选择一份最新的数据提供给用户，使得系统可以容错，大大提高了系统的可用性和扩展性。

上述一个或多个方法实施例具有以下有益效果：

1.现有分布式系统的版本控制方法往往依赖于全网时钟精确同步，然而，在大规模网络中，这是非常困难的。本发明上述各实施例提出的版本控制方法，以时间标识和操作版本标识信息来生成数据，同时还结合了比较数据内容来协助进行版本控制，可以以较低的代价在大规模网络中进行有效的版本控制。

2.现有的时钟同步方案依赖于手动配置，在大规模组网时将会是非常大的工作量，上述各实施例提出的时间同步方法自动化的选举同步源，自动化的进行时钟同步操作，自动化程度高。

3.现有方案实现大规模的系统是非常困难的，然而上述各实施例可以用于 10万级别的大规模分布式冗余存储系统，使得系统具有良好的扩展性。

4. 现有方案需要使得所有的复本都保持最新的状态，一旦由一个节点出现故障，则操作无法成功完成，降低了系统可用性，上述各实施例可以允许系统中多个复本存在不一致的情况，然后系统将从中选择一份最新的复本提供给用户使得系统可以容错，提高了系统可用性。

实施例七

图 9为根据本发明实施例七的分布式版本控制系统示意图。如图 9所示，本实施例包括节点 A、 B、 C...U、 V，其中节点（、 H、 M、 T为管理节点，其余节点为存储节点。其中：

管理节点，从每个域内的存储节点中选取产生，用于与从多个管理节点中选取的同步源进行时间同步，并根据同步后的时间负责对应域内各存储节点的时间同步，具体可参见方法实施例一、二和实施例三中的时间同步的相关说明，实现与选取的同步源的时间同步，并负责本域内存储节点的时间同步；

存储节点，用于与对应域内的管理节点进行时间同步，并根据同步后的时间对存储数据的复本进行版本控制。存储节点与管理节点的时间同步可参照图 4 ( b ) 的相关说明，在管理节点进行系统时间同步结束后，即可加入域内成为普通的存储节点，进行版本控制。版本控制的相关说明可参照图 5-图 8 的相关说明，在此不对相同或类似内容进行重复说明。

本实施例通过选取管理节点来保持分布式系统大致时间同步的方式，即使节点规模扩大到万级、十万级，系统仍然能自动进行有效的时间同步、不需手工配置，可以对外呈现出良好的扩展性，自动化程度高，适用于大规模的网络，并且，本实施例的版本控制方法可以允许系统中数据存在不一致的情况，提高了系统的可用性。实施例八

图 10为图 9中管理节点的实施例结构示意图，如图 10所示，本实施例中管理节点包括：

接口模块 2，用于与从所有管理节点中选取的同步源进行交互，发送携带请求时间 T1同步请求消息，从对应的回复请求消息中，获得同步源收到请求消息的时间 T2，及回复请求消息的时间 Τ3;

计算模块 4，用于根据接收回复请求消息的接收时间 Τ4、所述 Tl、 Τ2 及 Τ3，计算与同步源时间系统的相对差值 θ，并居相对差值调整自身的时间系统与同步源保持同步；

处理模块 6, 用于根据同步后的时间对域内各存储节点进行时间同步。管理节点具体的时间同步过程可参见图 4 ( a ) 的相关同步说明。实施例九

图 11为图 9中存储节点的实施例结构示意图。如图 11所示，本实施例中存储节节点包括：时间同步模块 1，用于与从分布式系统的对应域中选取产生的对应的管理节点进行时间同步，即该存储节点所归属的域内的管理节点进行时间同步；存储模块 3，用于保存分布式系统的数据及同步后的时间，数据中可以包含时间标识信息、和 /或操作版本标识信息，时间标识信息可以包含数据的发送时间和 /或接收时间。

版本控制模块 5，用于根据同步后的时间对存储数据的复本进行版本控制，具体地，在存储节点为接收数据修改、读取或恢复请求的前端节点时，对所请求的数据的多份复本进行版本控制。

本实施例中存储模块 3还可以存储数据的版本操作标识信息，即一份数据可以对应保存其发送时间、接收时间、数据版本信息（如修改次数等）。

在分布式系统中，某一个节点并不只作为管理节点、或存储节点、或前端节点，有时可能结合在一起，如某节点在时间同步过程中被选取出来作为域内的管理节点；在时间同步后，即可加入域内成为普通的存储节点；如果是第一个接收外部系统请求消息的节点，还可能作为前端节点进行版本控制。因此，在本发明各实施例中例举的分布式系统中，管理节点和存储节点可能集成到一个节点上，在不同的过程中担当不同的功能。其中上述方法发明的各个实施例可以在具备图 10 -图 11结构图所示结构的管理节点及存储节点中实现，如果某节点在不同的过程中担当管理节点和存储节点，则相应的，该节点同时具备图 10中管理节点和图 11中存储节点的内部功能模块。

综上所述，本发明上述一个或多个实施例具有如下优点：

1.扩展性好

本发明各实施例提出的复本版本控制方法及分布式版本控制系统，无需时钟高度同步，亦无须一个集中的控制点来进行复本版本的严格同步，使得系统对外呈现出良好的扩展性，可以用于 10万级别的大规模分布式冗余存储系统，使得系统具有良好的扩展性。

2.系统可用性高

本发明各实施例允许系统中存在多个复本版本不一致的情况，并应用新的版本控制方法，使得系统能够自动区分出哪个数据复本代表了数据的最新的版本并将最新的数据提供给请求者，即使某些复本出现问题，但仍然可以正常读取和修改数据，系统将从中选择一份最新的复本提供给用户使得系统可以容错，提高了系统可用性。

3.高度自动化的时钟同步方法

本发明各实施例需要全网所有节点进行时钟同步，然而，现有方案直接应用于 D-HSS如此的大规模网絡从工作量上来说需要大量手动配置，本发明因此提出了一种新的时钟同步方法，即便节点规模扩大到万级，十万级依然能够进行有效的时钟同步，同时不需要进行手动配置，自动化程度高，同时这种版本控制方法对硬件的要求不高。

4.可靠性高

本发明的版本控制方法及系统，采用管理节点进行时钟同步的方式，使得分布式冗余存储系统能够在扩展到 10万节点规模时仍然保持一个很高的效率，同时可靠性也能达到 99.999%。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括： ROM、 RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求

1. 一种分布式系统版本控制方法，其特征在于，包括：

在分布式系统的每个域中选取一个管理节点；

在所有管理节点中选取一个作为所述分布式系统的同步源，所有管理节点根据所述同步源的时间进行时间同步；

所有管理节点居同步后的时间控制对应域内节点的时间同步；所述分布式系统的节点根据同步后的时间对存储数据的复本进行版本控制。

2. 根据权利要求 1所述的方法，其特征在于，还包括：

在所述分布式系统中存储的数据中加入时间标识信息、和 /或操作版本标识信息，根据所述时间标识信息、和 /或操作版本标识信息对数据的多份复本进行版本控制。

3. 根据权利要求 2所述的方法，其特征在于，所述时间标识信息包括：发送时间、接收时间。

4. 根据权利要求 1-3 中任一项所述的方法，其特征在于，对所述存储数据的复本进行版本控制具体包括：

对所述数据的 N份复本进行修改、读取或恢复，且满足 W+R>N, N>=3，其中， W为收到复本的节点修改成功的最少响应数量； R为读取到相同内容复本的最少数量。

5. 根据权利要求 4所述的方法，其特征在于，对所述数据的 N份复本进行修改的操作具体包括：

接收所述数据对应修改请求的前端节点，在所述修改请求中加入发送时间并向所述数据的 N份复本所在节点转发所述修改请求，所述发送时间为所述前端节点根据自身时钟发送所述修改请求时对应的时间；

当 W份以上复本所在节点成功接受所述修改请求时，更新所述数据及对应的所述发送时间。

6. 根据权利要求 5所述的方法，其特征在于，当 W份以上复本所在节点接受所述修改请求时还包括：

更新所述修改请求的到达时间；

和 /或更新所述数据的操作版本标识信息。

7. 根据权利要求 5所述的方法，其特征在于，还包括：

当 W份以上复本所在节点接受所述修改请求失败时，所述前端节点通知所述 N份复本所在节点恢复修改请求失败之前的数据。

8. 根据权利要求 4所述的方法，其特征在于，对所述数据的 N份复本进行读取的操作具体包括：

接收所述数据对应读取查询请求的前端节点，向所述数据的 N份复本所在节点转发所述查询请求；

当 R份以上复本所在节点返回的数据相同时，所述前端节点返回所述数据的查询结果。

9. 根据权利要求 8所述的方法，其特征在于，对所述数据的 N份复本进行读取的操作还包括：

所述数据的 N份复本所在节点读取所述数据及对应的时间标识信息，并返回至所述前端节点；

所述前端节点根据所述时间标识信息判断返回的数据是否相同。

10. 根据权利要求 8或 9所述的方法，其特征在于，对所述数据的 N份复本进行读取的操作还包括：

所述数据的 N份复本所在节点读取所述数据对应的操作版本标识信息，并返回至所述前端节点；

所述前端节点根据所述操作版本标识信息判断返回的数据是否相同。

11. 根据权利要求 4所述的方法，其特征在于，对所述数据的 N份复本进行恢复的操作具体包括：

故障恢复节点向所述数据的其它 N-1份复本所在节点发送同步请求；当接收到 R个所述数据的返回响应时，根据最新的所述数据进行同步。

12. 根据权利要求 11所述的方法，其特征在于，所述最新的数据为操作版本最高、所述数据的发送时间最新、和 /或所述数据的相对保存时间最短对应的数据，所述相对保存时间为所述数据的到达时间与所述发送时间的时间差。

13.根据权利要求 1-3中任一项所述的方法，其特征在于，所述在分布式系统的每个域中选取一个管理节点的操作包括：

在每个域中选取 ID号最小、最大的或在线时间最长的节点作为该域的管理节点。

14.根据权利要求 1-3中任一项所述的方法，其特征在于，所述在分布式系统的每个域中选取一个管理节点的操作包括：

域中的其中一个节点向其余节点通告其作为管理节点的请求消息；在其余节点均返回对应的请求接受响应时，将所述发送请求消息的节点作为所述域的管理节点。

15.根据权利要求 1-3中任一项所述的方法，其特征在于，所述在所有管理节点中选取一个管理节点作为所述分布式系统的同步源的操作包括：

在所有管理节点中选取在线时间最长的管理节点作为所述同步源。

16.根据权利要求 1-3中任一项所述的方法，其特征在于，所述所有管理节点根据所述同步源的时间进行时间同步的操作包括：

管理节点根据自身的时间系统向所述同步源发送携带请求时间 T1 的同步请求消息；

所述同步源以自身的时间系统在对应的回复请求消息中，携带收到所述请求消息的时间 T2，及回复所述请求消息的时间 Τ3;

所述管理节点根据接收所述回复请求消息的接收时间 Τ4、所述 Tl、 Τ2 及 Τ3，计算与所述同步源时间系统的相对差值 Θ: _{g =} (^T2-^T1)-( 4-T3) 。

2

17. 一种分布式版本控制系统，其特征在于，包括：

管理节点，从每个域内的存储节点中选取产生，用于与从所述多个管理节点中选取的同步源进行时间同步，并根据同步后的时间负责对应域内各存储节点的时间同步；

存储节点，用于根据同步后的时间对存储数据的复本进行版本控制。

18.根据权利要求 17所述的系统，其特征在于，所述管理节点包括：接口模块，用于与所述同步源进行交互，发送携带请求时间 T1同步请求消息，从对应的回复请求消息中，获得所述同步源收到所述请求消息的时间

T2, 及回复所述请求消息的时间 T3;

计算模块，用于根据接收所述回复请求消息的接收时间 T4、所述 Tl、 Τ2 及 Τ3，计算与所述同步源时间系统的相对差值 θ，并根据所述相对差值调整自身的时间系统与所述同步源保持同步；

处理模块，用于根据同步后的时间对域内各存储节点进行时间同步。

19.根据权利要求 17或 18所述的系统，其特征在于，所述存储节点包括：时间同步模块，用于与对应的管理节点进行时间同步；

存储模块，用于保存分布式系统的数据及同步后的时间，所述数据中包含时间标识信息，所述时间标识信息包含所述数据的发送时间和 /或接收时间。

20.根据权利要求 19所述的系统，其特征在于，所述存储节点还包括：版本控制模块，用于在所述存储节点为接收数据修改、读取或恢复请求的前端节点时，对所请求的数据的多份复本进行版本控制。

21. 一种管理节点，其特征在于，从分布式系统的每个域中选取产生，所述管理节点包括：

接口模块，用于与从所有管理节点中选取的同步源进行交互，发送携带请求时间 T1同步请求消息，从对应的回复请求消息中，获得所述同步源收到所述请求消息的时间 Τ2, 及回复所述请求消息的时间 Τ3;

计算模块，用于根据接收所述回复请求消息的接收时间 Τ4、所述 Tl、 Τ2 及 Τ3，计算与所述同步源时间系统的相对差值 θ，并居所述相对差值调整自身的时间系统与所述同步源保持同步；

处理模块 , 用于根据同步后的时间对管理节点所在域内各存储节点进行时间同步。

22. 一种存储节点，其特征在于，包括：

时间同步模块，用于与从分布式系统的每个域中选取产生的管理节点进行时间同步；

存储模块，用于保存分布式系统的数据及同步后的时间；

版本控制模块，用于根据同步后的时间对存储数据的复本进行版本控制。

23.根据权利要求 22所述的存储节点，其特征在于，所述存储模块中的存储的所述数据中包含时间标识信息、和 /或操作版本标识信息；所述时间标识信息包含所述数据的发送时间和 /或接收时间。