WO2015192661A1

WO2015192661A1 - 一种分布式存储系统中的数据同步方法、装置及系统

Info

Publication number: WO2015192661A1
Application number: PCT/CN2015/071859
Authority: WO
Inventors: 郭斌; 韩银俊; 高洪; 陈典强
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-06-19
Filing date: 2015-01-29
Publication date: 2015-12-23
Also published as: CN105187464A; CN105187464B

Abstract

一种分布式存储系统中的数据同步方法、装置及系统，该方法包括：第一存储服务集群接收第一客户端发送的第一数据变更请求；所述第一存储服务集群根据所述第一数据变更请求，变更所述第一存储服务集群中的对应数据；所述第一存储服务集群将变更后的数据作为第一同步数据同步至第二存储服务集群；所述第一存储服务集群接收所述第二存储服务集群发送的第二同步数据；所述第一存储服务集群根据所述第二同步数据进行数据同步。

Description

一种分布式存储系统中的数据同步方法、装置及系统

技术领域

本发明涉及云计算技术领域，尤其涉及一种分布式存储系统中的数据同步方法、装置及系统。

背景技术

云计算(Cloud Computing)是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机技术和网络技术发展融合的产物。它旨在通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力的系统。分布式存储是云计算范畴中的一个领域，其作用是提供海量数据的分布式存储服务以及高速读写访问的能力。分布式存储系统是由若干服务器节点和客户端互相连接构成的；服务器节点负责数据的存储，客户端可以对服务器做数据的写入、读取、更新、删除等操作。

在分布式存储系统中，异地容灾是比较难以解决的关键问题，尤其是需要双向数据同步的异地容灾。异地容灾是指，将服务器节点分布式的部署于相隔较远的两地，至少有其中一地的分布式存储集群对外提供数据的读写服务。当某一地出现大范围故障或灾害时，可尽快将业务切换至另一地继续提供服务。所谓双向数据同步，是指当两地同时提供数据读写服务时，需要将发生变更的数据从本地集群同步到对方的集群。

相关技术中，异地容灾只有单向数据同步的机制。即两地的分布式存储服务集群，其中一地提供数据的读写服务，另外一地仅提供数据的读服务。这种技术的缺点在于：首先，无法充分利用所有的计算资源，不能在有限的计算资源基础上实现异地容灾；其次，如果只提供读服务的一地的业务应用需要对数据进行写操作，需要实时的访问异地的分布式存储服务集群，延迟会很高。

发明内容

本发明实施例提供了一种分布式存储系统中的数据同步方法、装置及系统，以至少解决上述问题。

根据本发明的一个实施例，提供了一种分布式存储系统中的数据同步方法，包括：第一存储服务集群接收来自第一客户端的第一数据变更请求；

所述第一存储服务集群根据所述第一数据变更请求，变更第一存储服务集群中的对应数据；所述第一存储服务集群将变更后的数据作为第一同步数据同步至第二存储服务集群；所述第一存储服务集群接收所述第二存储服务集群发送的第二同步数据；所述第一存储服务集群根据所述第二同步数据进行数据同步。

可选地，该方法还包括：所述第一存储服务集群根据变更第一存储服务集群中的对应数据的同时生成与所述变更数据对应的第一同步日志；

所述第一存储服务集群将变更数据对应的第一同步数据同步至第二存储服务集群，包括：所述第一存储服务集群将所述第一同步日志对应的第一同步数据同步至第二存储服务集群。

可选地，所述第一存储服务集群将第一同步日志对应的第一同步数据同步至第二存储服务集群，包括：读取所述第一同步日志，根据所述第一同步日志读取对应的所述第一存储服务集群存储的数据，并将所述读取数据同步至所述第二存储服务集群。

可选地，所述读取第一同步日志，还包括：定时检查是否有新的第一同步日志生成。

可选地，所述第一同步日志包含所述变更数据的元数据。

可选地，上述方法还包括：第一存储服务集群变更第一存储服务集群中的对应数据之后，将变更结果通知所述第一客户端。

根据本发明的另一个实施例，还提供了一种分布式存储系统中的数据同步装置，位于第一存储服务集群中，包括：第一接收模块，设置为接收来自第一客户端的第一数据变更请求；第一数据管理模块，设置为根据所述第一数据变更请求，变更第一存储服务集群中对应的数据；同步模块，设置为将变更后的数据作为第一同步数据同步至第二存储服务集群；第二接收模块，设置为接收所述第二存储服务集群发送的第二同步数据；第二数据管理模块，设置为根据所述第二同步数据进行数据同步。

可选地，所述第一数据管理模块，还设置为：变更数据同时生成与所述变更数据对应的第一同步日志；所述同步模块，还设置为：将所述第一同步日志对应的第一同步数据同步至第二存储服务集群。

可选地，所述同步模块包括：读取单元，设置为读取所述第一同步日志，根据所述第一同步日志读取对应的所述第一存储服务集群存储的数据；同步单元，设置为将所述读取的对应所述第一存储服务集群的数据同步至所述第二存储服务集群。

可选地，所述读取单元还包括：定时元件，设置为定时检查是否有新的第一同步日志生成。

可选地，所述第一同步日志包含所述变更数据的元数据。

可选地，所述第一数据管理模块包括：反馈单元，设置为将变更结果通知所述第一客户端。

根据本发明的再一个实施例，提供了一种分布式存储系统中的数据同步系统，包括：至少两个存储服务集群和对应的客户端；所述客户端，设置为向对应的存储服务集群发送数据变更请求；所述存储服务集群，设置为接收所述客户端发送的数据变更请求，变更对应的数据，并同步所述对应数据至另一存储服务集群；所述存储服务集群，还设置为接收所述另一存储服务集群发送的同步数据，并进行对应的数据同步。

可选地，如果所述存储服务集群和所述另一存储服务集群变更的数据分别针对同一数据的不同部分，双向同步后：所述存储服务集群和所述另一存储服务集群分别对应的客户端，还设置为读取所述同一数据的不同部分，按照预先设定的逻辑整合。

本发明实施例还提供一种计算机可读存储介质，存储有程序指令，当该程序指令被执行时可实现上面所述的方法。

本发明实施例使得异地分布式存储服务集群之间实现数据双向同步，充分利用所有的计算资源，在有限的计算资源基础上实现异地容灾；其次，避免了业务应用进行数据的写操作需要实时访问异地分布式存储服务集群的问题，克服了异地访问网络延迟较高、带宽有限等问题。

附图概述

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的数据同步方法的流程图；

图2是根据本发明实施例的数据同步方法的流程图二；

图3是根据本发明实施例的数据同步装置的结构框图；

图4是根据本发明实施例的数据同步装置同步模块的结构框图；

图5是根据本发明实施例的数据同步系统的结构框图。

本发明的较佳实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明实施例提供了一种分布式存储系统中的数据同步方法，图1是根据本发明实施例的数据同步方法的流程图，如图1所示，该方法包括以下步骤(S101至S106)：

S101，第一客户端向第一存储服务集群发送第一数据变更请求；

S102，第一存储服务集群接收第一数据变更请求并变更所述请求对应的数据；

S103，第一存储服务集群将变更数据对应的第一同步数据同步至第二存储服务集群；

S104，第二存储服务集群根据上述第一同步数据进行数据同步；

S105，第二存储服务集群按照S101—S103相同的步骤产生第二同步数据，同步至所述第一存储服务集群；

S106，第一存储服务集群根据上述第二同步数据进行数据同步。

通过本发明实施例，第一存储服务集群接收来自第一客户端的第一数据变更请求；所述第一存储服务集群根据所述第一数据变更请求，变更第一存储服务集群中的对应数据；所述第一存储服务集群将变更后的数据作为第一同步数据同步至第二存储服务集群；所述第一存储服务集群接收所述第二存储服务集群发送的第二同步数据；所述第一存储服务集群根据所述第二同步数据进行数据同步。使得异地分布式存储服务集群之间可以实现数据双向同步，充分利用所有的计算资源，在有限的计算资源基础上实现异地容灾；其次，避免了业务应用进行数据的写操作需要实时访问异地分布式存储服务集群的问题，克服了异地访问网络延迟较高、带宽有限等问题。

在本发明的一个实施例中，所述第一存储服务集群根据所述第一数据变更请求，变更第一存储服务集群中的对应数据的同时生成与所述变更数据对应的第一同步日志。所述第一存储服务集群将变更数据对应的第一同步数据同步至第二存储服务集群，包括：读取所述第一同步日志，根据所述第一同步日志读取对应的所述第一存储服务集群存储的数据，并将所述读取数据同步至所述第二存储服务集群。

图2是根据本发明实施例的数据同步方法的流程图，如图2所示，该方法包括以下步骤(S201—S210)：

S201，第一客户端向第一存储服务集群发送第一数据变更请求；

S202，第一存储服务集群接收第一数据变更请求并变更所述请求对应10的数据；

S203，第一存储服务集群生成与上述变更数据对应的第一同步日志；

S204，第一存储服务集群将数据的变更结果返回上述第一客户端；

S205，第一存储服务集群读取上述第一同步日志；

S206，第一存储服务集群根据上述第一同步日志读取对应的第一存储服务集群存储的数据；

S207，第一存储服务集群将上述读取的数据作为第一同步数据发送至第二存储服务集群；

S208第二存储服务集群根据上述第一同步数据进行数据同步；

S209，第二存储服务集群按照S201—S206相同的步骤产生第二同步数据，发送至所述第一存储服务集群；

S210，第一存储服务集群根据上述第二同步数据进行数据同步。

在本发明的一个实施例中，所述读取第一同步日志，还包括：定时检查是否有新的第一同步日志生成。其中，第一存储服务集群定时检查是否有新的第一同步日志生成，并根据第一同步日志将对应的数据同步至第二存储服务集群包括以下步骤：

S301，设置一个定时检查元件，预先设定一个间隔时间段，比如1秒、5秒、10秒、15秒等；

S302，预先设定的间隔时间段经过后，启动检查是否有新的第一同步日志生成，若无，则不执行读取第一同步日志操作，若有则执行读取第一同步日志操作；

S303，读取第一同步日志中记录的数据信息；

S304，根据第一同步日志中记录的数据信息，读取对应的第一存储服务集群存储的数据。

S305，将所述读取对应第一存储服务集群存储的数据同步至第二存储服务集群。

在本发明的一个实施方式中，所述第一同步日志中包含所述变更数据的元数据，不需要包含完整的变更数据。本实施例的有益效果在于：(1)元数据的尺寸相对较小，只包含变更数据的摘要信息和属性等，节省存储空间；(2)分布式服务集群是由多台存储服务器组成，长时间运行中存储服务器可能会发生宕机、断网等情况，这有可能会造成对同一个数据的多次修改操作，先后由多个存储服务器节点分别向异地同步，而且同步的顺序不一定与最初写入的顺序一致。因此在第一同步日志只保存了元数据而不是完整数据，第一存储服务集群在同步之前根据元数据去取当时最新的完整数据进行数据同步，避免了向异地同步过时的数据。

在本发明的一个实施方式中，第一存储服务集群根据所述第一数据变更请求，变更第一存储服务集群中的对应数据，还包括：将所述变更结果通知所述第一客户端。也即，第一存储服务集群数据变更成功后，会向第一客户端返回“数据变更成功”的信息；第一存储服务集群数据变更失败后，也会向第一客户端返回“数据变更失败”及提醒“重新操作”的信息。

本发明实施例还提供了一种分布式存储系统中的数据同步装置，图2是根据本发明实施例的数据同步装置的结构框图，如图2所示，该装置包括：第一接收模块301、第一数据管理模块302、同步模块303、第二接收模块304、第二数据管理模块305。其中，第一接收模块301，设置为接收来自第一客户端的第一数据变更请求；第一数据管理模块302，设置为根据所述第一数据变更请求，变更第一存储服务集群中对应的数据；同步模块303，设置为将变更数据作为第一同步数据同步至第二存储服务集群；第二接收模块304，设置为接收所述第二存储服务集群发送的第二同步数据；第二数据管理模块305，设置为根据所述第二同步数据进行数据同步。

通过本发明实施例，第一接收模块301接收第一客户端发送的第一数据变更请求，第一数据管理模块302随即根据上述第一数据变更请求，将第一存储服务集群中对应的数据进行变更，同步模块303负责将变更数据作为第一同步数据同步至第二存储服务集群；此外，第二接收模块304能够接收第二存储服务集群发送的第二同步数据，随即，第二数据管理模块会根据上述第二同步数据将第一存储集群中的数据进行同步。使得异地分布式存储服务集群之间可以实现数据双向同步，充分利用所有的计算资源，在有限的计算资源基础上实现异地容灾；其次，避免了业务应用进行数据的写操作需要实时访问异地分布式存储服务集群的问题，克服了异地访问网络延迟较高、带宽有限等问题。

在本发明的一个实施方式中，所述第一数据管理模块，还设置为同时生成与所述变更数据对应的第一同步日志；所述同步模块，还设置为将所述第一同步日志对应的第一同步数据同步至第二存储服务集群。如图3所示，所述同步模块包括：读取单元3031、同步单元3032。其中，读取单元3031，读取第一同步日志记录的数据信息，根据第一同步日志记录的数据信息读取对应第一存储服务集群中存储的数据；同步单元3032，将上述读取单元所读取的第一存储服务集群中存储的数据同步至第二存储服务集群。读取单元3031还包括：定时检查元件30311，定时检查是否有新的第一同步日志生成。定时检查元件30311可以预先设定一个间隔时间段，比如1秒、5秒、10秒、15秒等；预先设定的间隔时间段经过后，启动检查是否有新的第一同步日志生成，若无，则读取单元3031不执行读取第一同步日志操作，若有则读取单元3031执行读取第一同步日志操作。

在本发明的一个实施方式中，所述第一数据管理模块302还包括：反馈单元，将所述第一数据管理模块302的数据变更结果通知所述第一客户端。也即，第一数据管理模302变更数据成功后，会向第一客户端返回“数20据变更成功”的信息；第一数据管理模块302变更数据失败后，也会向第一客户端返回“数据变更失败”及提醒“重新操作”的信息。

本发明实施例还提供了一种分布式存储系统中的数据同步系统，如图4所示，包括：至少两个存储服务集群和对应的客户端；所述客户端，设置为向对应的存储服务集群发送数据变更请求；所述存储服务集群，设置为接收所述客户端发送的数据变更请求，变更对应的数据，并同步所述对应数据至另一存储服务集群；所述存储服务集群，还设置为接收所述另一存储服务集群发送的同步数据，并进行对应的数据同步。

通过本发明实施例，使得异地分布式存储服务集群之间可以实现数据双向同步，充分利用所有的计算资源，在有限的计算资源基础上实现异地容灾；其次，避免了业务应用进行数据的写操作需要实时访问异地分布式存储服务集群的问题，克服了异地访问网络延迟较高、带宽有限的问题。

在本发明的一个实施方式中，如果所述存储服务集群和所述另一存储服务集群变更的数据分别针对同一数据的不同部分，双向同步后：所述存储服务集群和所述另一存储服务集群分别对应的客户端，还读取所述同一数据的不同部分，按照预先设定的逻辑整合。这样，本发明实施例的数据同步系统在存储服务集群和所述另一存储服务集群变更的数据分别针对同一数据不同部分的情况下能保证正常运行。

本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现，所述计算机程序可以存储于一计算机可读存储介质中，所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行，在执行时，包括方法实施例的步骤之一或其组合。

可选地，上述实施例的全部或部分步骤也可以使用集成电路来实现，这些步骤可以被分别制作成一个个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现，它们可以集中在单个的计算装置上，也可以分布在多个计算装置所组成的网络上。

上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器，磁盘或光盘等。

工业实用性

Claims

一种分布式存储系统中的数据同步方法，包括：

第一存储服务集群接收第一客户端发送的第一数据变更请求；

所述第一存储服务集群根据所述第一数据变更请求，变更所述第一存储服务集群中的对应数据；

所述第一存储服务集群将变更后的数据作为第一同步数据同步至第二存储服务集群；

所述第一存储服务集群接收所述第二存储服务集群发送的第二同步数据；

所述第一存储服务集群根据所述第二同步数据进行数据同步。
根据权利要求1所述的数据同步方法，还包括：

所述第一存储服务集群变更第一存储服务集群中的对应数据的同时生成与所述变更后的数据对应的第一同步日志；

所述第一存储服务集群将变更后的数据作为第一同步数据同步至第二存储服务集群，包括：所述第一存储服务集群将所述第一同步日志对应的第一同步数据同步至第二存储服务集群。
根据权利要求2所述的数据同步方法，其中，所述第一存储服务集群将所述第一同步日志对应的第一同步数据同步至第二存储服务集群，包括：

读取所述第一同步日志，根据所述第一同步日志读取对应的所述第一存储服务集群存储的数据，并将所述读取数据同步至所述第二存储服务集群。
根据权利要求3所述的数据同步方法，其中，所述读取第一同步日志，还包括：定时检查是否有新的第一同步日志生成。
根据权利要求2至4任一项所述的数据同步方法，其中，所述第一同步日志包含所述变更数据的元数据。
根据权利要求1所述的数据同步方法，还包括：所述第一存储服务集群变更所述第一存储服务集群中的对应数据之后，将变更结果通知所述第一客户端。
一种分布式存储系统中的数据同步装置，位于第一存储服务集群中，包括：

第一接收模块，设置为接收来自第一客户端的第一数据变更请求；

第一数据管理模块，设置为根据所述第一数据变更请求，变更第一存储服务集群中对应的数据；

同步模块，设置为将变更后的数据作为第一同步数据同步至第二存储服务集群；

第二接收模块，设置为接收所述第二存储服务集群发送的第二同步数据；以及

第二数据管理模块，设置为根据所述第二同步数据进行数据同步。
根据权利要求7所述的数据同步装置，其中，

所述第一数据管理模块，还设置为变更数据的同时生成与所述变更后的数据对应的第一同步日志；

所述同步模块，是设置为将所述第一同步日志对应的第一同步数据同步至第二存储服务集群。
根据权利要求8所述的数据同步装置，其中，所述同步模块包括：

读取单元，设置为读取所述第一同步日志，根据所述第一同步日志读取对应的所述第一存储服务集群存储的数据；以及

同步单元，设置为将所述读取的对应所述第一存储服务集群的数据同步至所述第二存储服务集群。
根据权利要求9所述的数据同步装置，其中，所述读取单元，还包括：

定时检查元件，设置为定时检查是否有新的第一同步日志生成。
根据权利要求8至10任一项所述的数据同步装置，其中，所述第一同步日志包含所述变更数据的元数据。
根据权利要求7所述的数据同步装置，其中，所述第一数据管理模块，包括：

反馈单元，设置为将变更结果通知所述第一客户端。
一种分布式存储系统中的数据同步系统，包括：

至少两个存储服务集群和对应的客户端；

所述客户端，设置为向对应的存储服务集群发送数据变更请求；

所述存储服务集群，设置为接收所述客户端发送的数据变更请求，变更对应的数据，并同步所述变更后的数据至另一存储服务集群；

所述存储服务集群，还设置为接收所述另一存储服务集群发送的同步数据，并进行对应的数据同步。
根据权利要求13所述的数据同步系统，其中，

如果所述存储服务集群和所述另一存储服务集群变更的数据分别针对同一数据的不同部分，双向同步后：

所述存储服务集群和所述另一存储服务集群分别对应的客户端，还设置为读取所述同一数据的不同部分，按照预先设定的逻辑整合。
一种计算机可读存储介质，存储有程序指令，当该程序指令被执行时可实现权利要求1-6任一项所述的方法。