WO2013023516A1

WO2013023516A1 - 数据冗余处理方法、装置和分布式存储系统

Info

Publication number: WO2013023516A1
Application number: PCT/CN2012/079087
Authority: WO
Inventors: 曹宇
Original assignee: 华为数字技术（成都）有限公司
Priority date: 2011-08-18
Filing date: 2012-07-24
Publication date: 2013-02-21
Also published as: CN102279777B; CN102279777A

Abstract

提供一种数据冗余处理方法、装置和分布式存储系统。该方法包括：采用冗余算法生成待写入数据的M个切片数据和N个冗余片数据（403），所述M个切片数据和N个冗余片数据中任意损坏至多N个数据时，能够利用未损坏的数据恢复损坏的数据，其中M为大于1的自然数，N为不小于1的自然数；将所述M个切片数据和N个冗余片数据分别存储到位于至少两个存储节点上的对象中（404），其中，每个存储节点包含至少一个对象集，每个对象集包含至少一个对象。该方法可以提高存储空间的利用率且降低了存储负载，另外可以支持不同的冗余算法，从而满足客户不同的可靠性需求，灵活性较高。

Description

数据冗余处理方法、装置和分布式存储系统本申请要求于 2011年 8月 18日提交中国专利局、申请号为

201110237373.7、发明名称为 "数据冗余处理方法、装置和分布式存储系统" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域本发明实施例涉及存储技术，尤其涉及一种数据冗余处理方法、装置和分布式存储系统。

背景技术

分布式存储系统包括通过网络互联的多个存储节点，数据可以被分散地存储到不同的存储节点上，以实现大容量、高可靠性且易扩展的存储应用。

现有的分布式存储系统可以采用基于对象的存储方式。对于这种存储方式来说，现有技术采用存储节点间的多份机制以保证数据存储的可靠性。具体来说，该多份机制即为将该分布式存储系统中的某一个或者某几个存储节点作为主存储节点的备份节点。在写数据时，需要将数据在这些存储节点上写入多份相同的数据，从而实现数据的冗余备份，在一个一个存储节点发生故障时，其它存储节点上的数据是可用的。

但是，上述现有的多份机制只是筒单地向多个存储节点中写入相同的数据，如果要保证损坏 N个存储节点后数据仍可用，则数据至少需要重复写 N+1 份，则存储节点的空间利用率最多为 1/ ( N+1 ) , 因此，存储空间的利用率较低，存储节点的负载增高；而且，这种多份机制不能支持多种类型的冗余备份方式，灵活性较低。发明内容

本发明实施例提供一种数据冗余处理方法、装置和分布式存储系统。本发明实施例提供一种数据冗余处理方法，包括：

采用冗余算法生成待写入数据的 M个切片数据和 N个冗余片数据，所述 M个切片数据和 N个冗余片数据中任意损坏至多 N个数据时，能够利用未损坏的数据恢复损坏的数据，其中 M为大于 1的自然数， N为不小于 1 的自然数；

将所述 M个切片数据和 N个冗余片数据分别存储到位于至少两个存储节点上的对象中，其中，每个存储节点包含至少一个对象集，每个对象集包含至少一个对象。

本发明实施例提供一种数据冗余处理装置，包括：

生成模块，用于采用冗余算法生成待写入数据的 M个切片数据和 N个冗余片数据，所述 M个切片数据和 N个冗余片数据中任意损坏至多 N个数据时，能够利用未损坏的数据恢复损坏的数据，其中 M为大于 1的自然数， N为不小于 1的自然数；

存储模块，用于将所述 M个切片数据和 N个冗余片数据分别存储到位于至少两个存储节点上的对象中，其中，每个存储节点包含至少一个对象集，每个对象集包含至少一个对象。

本发明实施例提供一种分布式存储系统包括至少两个存储节点，其中至少有一个存储节点包括上述的数据冗余处理装置。

本发明实施例，并非在各个存储节点上进行多份存储，而是通过将切片数据和冗余片数据存储在位于至少两个存储节点上的对象中，从而可以实现存储节点之间的冗余处理，在切片数据的个数大于 1时可以提高存储空间地利用率且降低了存储节点的负载，另外，本发明实施例可以支持不同的冗余算法，从而满足客户不同的可靠性需求，灵活性较高。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一筒单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明实施例中 RAIS和 ObjectSet之间的关系结构示意图；图 2为本发明实施例中 ObjectSet和 Object之间的关系结构示意图；图 3为本发明实施例中存储节点、 RAIS和 ObjectSet之间的关系结构示意图；

图 4为本发明数据冗余处理方法实施例一的流程图；

图 5为本发明数据冗余处理方法实施例二的流程图；

图 6为图 5所示方法实施例二的处理过程示意图；

图 7为本发明数据冗余处理方法实施例三的流程图；

图 8为图 7所示方法实施例三的处理过程示意图；

图 9为本发明数据冗余处理方法实施例四的处理过程示意图；图 10为本发明数据冗余处理装置实施例一的结构示意图；

图 11为本发明数据冗余处理装置实施例二的结构示意图；

图 12为本发明数据冗余处理装置实施例三的结构示意图；

图 13为本发明数据冗余处理装置实施例四的结构示意图。具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在具体描述本实施例的技术方案之前，首先对本发明实施例中所提到的独立冗余对象集阵歹' J ( Redundant Array of Independent objectSet , 以下筒称： RAIS ) 、对象集（对象的组合，以下筒称： ObjectSet ) 以及对象（可以是物理上的磁盘，也可以是逻辑上的存储空间，以下筒称： Object )之间的关系进行详细说明。

图 1为本发明实施例中 RAIS和 ObjectSet之间的关系结构示意图，如图 1所示，在本发明实施例中，一个 RAIS包括多个 ObjectSet。图 2为本发明实施例中 ObjectSet和 Object之间的关系结构示意图，如图 2所示，在本发明实施例中，一个 ObjectSet包括多个 Object。具体来说，若干 Object 的集合就是一个 ObjectSet, 或者说容纳 Object的容器就是一个 ObjectSet。 ObjectSet是逻辑上的概念。 RAIS不是一个实体，也是一个逻辑概念。

RAIS和 ObjectSet之间的关系：一个 ObjectSet只能属于一个 RAIS。 ObjectSet和 Object之间的关系：一个 Object只能属于一个 ObjectSet。每个 ObjectSet属于同一个物理设备，因此同一个 ObjectSet内的所有 Object也属于同一个物理设备。

图 3为本发明实施例中存储节点、 RAIS和 ObjectSet之间的关系结构示意图，如图 3所示，三个存储节点（以下筒称： Storage Node )中每个 Storage Node上均包含两个 ObjectSet, 其中，第一行虚线框中圈入的 ObjectSet属于同一个 RAIS , 该 RAIS对应的 RAIS标识（以下筒称： RAISID ) 例如可以为 1 , 第二行虚线框中圈入的 ObjectSet属于同一个 RAIS , 该 RAIS对应的 RAISID例如可以为 2。需要说明的是，图 3所示结构可以进一步扩展更多个 Storage Node, 也可以进一步扩展更多个 RAIS, 而且，图 3所示的结构中，一个 Storage Node上也可以有两个或者两个以上的 ObjectSet同属于一个 RAIS , 其彼此之间的逻辑关系类似，此处不再赘述。

基于上述对分布式存储系统的逻辑划分，本发明实施例提出了下述技术方案，以提高存储空间的利用率，降低存储节点的负载，且支持多种类型的冗余备份方式，灵活性较高。具体来说，本发明的一个实施例的技术方案可以为：

将所述 M个切片数据和 N个冗余片数据分别存储到位于至少两个存储节点上的对象中，其中，每个存储节点包含至少一个对象集，每个对象集包含至少一个对象。上述实施例，可以应用于两种网络架构中，一种网络架构是集中式架构，另一种网络架构是分布式架构。

具体地，对于集中式架构来说， RAIS的相关描述信息均可以存储于独立元数据服务器上，客户端要向分布式存储系统中写入数据时，需要到元数据服务器上查询获取 RAIS的相关描述信息。在这种网络架构下，上述实施例的执行主体可以是客户端，该客户端可以采用冗余算法生成待写入数据的切片数据和冗余片数据，然后根据获取的 RAIS的相关描述信息即可将切片数据和冗余片数据发送给该 RAIS中的各对象集中的对象。

对于分布式架构来说， RAIS的相关描述信息均存储在分布式存储系统的各个存储节点上，因此，上述实施例的执行主体可以是分布式存储系统中的任一存储节点。该存储节点可以生成客户端待写入数据的切片数据和冗余片数据，然后存储节点可以根据其本地存储的 RAIS的相关描述信息将切片数据和冗余片数据发送给该 RAIS中的各对象集中的对象。

需要说明的是，本发明上述实施例中的切片数据为对原始的待写入数据进行划分后获取的各片数据，而冗余片数据可以是采用冗余算法对切片数据进行冗余运算获取的几个冗余的数据，这几个冗余的数据可是保证在切片数据和冗余片数据中任意几个数据出错时，采用剩余的数据均能够恢复出原始数据，而具体可以允许几个数据出错，则由冗余算法确定。

本发明实施例，并非在各个 Storage Node上进行多份存储，而是通过将切片数据和冗余片数据分别存储在位于至少两个存储节点上的对象中，从而可以实现 Storage Node之间的冗余处理，在切片数据的个数大于 1时可以提高存储空间地利用率且降低了 Storage Node的负载，另外，本发明实施例可以支持不同的冗余算法，从而满足客户不同的可靠性需求，灵活性较高。

下面采用两个具体的实施例，对上述实施例进行详细说明。

图 4为本发明数据冗余处理方法实施例一的流程图，如图 4所示，本实施例的方法可以适用于集中式网络架构，本实施例的方法可以包括：步骤 401、向独立元数据服务器发送存储请求消息。

在客户端向分布式存储系统中的各个 Storage Node中写入数据时，该客户端可以向独立元数据服务器发送存储请求消息。

步骤 402、接收独立元数据服务器根据所述存储请求消息反馈的存储描述信息，该存储描述信息包含存储标识信息；

本实施例中的写数据请求中可以包含待写入数据和所需写入的 RAIS 的 RAISID。举例来说，该 RAISID可以是图 3所示结构中第一行的 RAIS 的 RAISID, 也即，该待写入数据需要写入第一行的 RAISID。

具体来说，在本实施例中，该独立元数据服务器上存储的 RAIS的描述信息可以包含 RAISID、 RAIS中各对象集的标识信息和各对象集所在存储节点的标识信息。

相应地，客户端可以查询独立元数据服务器，获取 RAIS的描述信息。该 RAIS描述信息中包含 RAISID、 RAIS中各对象集的标识信息和各对象集所在 Storage Node的标识信息。

举例来说，该独立元数据服务器上存储的一个 RAIS的描述信息的格式如下所示：

{RAISID, {ObjSetllD, ObjSetllP} , · · · , {ObjSetnID, ObjSetnIP} } 该存储描述信息描述了与 RAISID对应的 RAIS的各成员，其中， ObjSetllD, ObjSetnlD即为该 RAIS中的成员， ObjSetllP, · · · , ObjSetnlP 即为各成员所在的 Storage Node的地址。可以理解的是，在分布式存储系统中有多少个 RAIS , 就可以对应地在独立元数据服务器上存储多少个与上述 RAIS的描述信息类似格式的信息。

本实施例并不限定独立元数据服务器将那个 RAIS的描述信息反馈给客户端，本领域技术人员可以自行设计策略使独立元数据服务器根据预设策略向客户端反馈 RAIS的描述信息，举例来说，该策略可以是各 Storage Node上的负载，独立元数据月良务器可以优先反馈负载较小的 Storage Node 对应的 RAIS。

步骤 403、采用冗余算法生成待写入数据的 M个切片数据和 N个冗余片数据。

客户端可以自行采用冗余算法生成待写入数据的 M个切片数据和 N个冗余片数据。

需要说明的是，步骤 403也可以在步骤 402之前执行，或者与步骤 402 并行执行。

客户端生成的 M个切片数据和 N个冗余片数据分别与 RAIS中的一个 ObjectSet中的对象对应。以图 3所示结构举例来说，生成的切片数据有两个，冗余片数据有一个，两个切片数据可以与图 3中第一行的 RAIS的两个 ObjectSet对应，一个冗余片数据可以与剩下的一个 ObjectSet对应。需要说明的是，本实施例并不限定具体采用哪种冗余算法，本领域技术人员可以理解的是，只要能够将待写入数据生成切片数据，并利用切片数据生成冗余片数据的冗余算法均可。优选地，本实施例中的冗余算法可以采用现有技术中独立磁盘冗余阵列（Redundant Array of Independent Disc, 以下筒称： RAID ) 的算法实现，该 RAID的算法包括 RAID 1 , RAID5、 RAID6等，或者本实施例中的冗余算法也可以采用纠删码的冗余算法。上述冗余算法均为现有技术，本实施例不再赘述。可以理解的是，基于不同的冗余算法，所生成的切片数据的个数与冗余片数据的个数是不同的，例如采用 RAID5这种冗余算法即可生成多个切片数据和一个冗余片数据，相应地，采用 RAID5这种冗余算法的分布式存储系统的结构可以在图 3所示结构的基础上再扩展几个 Storage Node,每个 Storage Node上均有一个 ObjectSet, 多个切片数据和一个冗余片数据可以与 Storage Node上的 ObjectSet中的对象对应。

由上述描述可知，基于所采用的冗余算法将待写入数据生成 M份切片数据和 N份冗余片数据，存储空间的利用率为 Μ/ ( Μ+Ν ) , 因此，只要 M > 1 , 则存储空间的利用率必然大于现有技术中多份机制的空间利用率 1/ ( N+1 ) 。

步骤 404、根据对象集的标识信息和对象集所在存储节点的标识信息，将所述 M个切片数据和 N个冗余片数据存储到与所述存储标识信息对应的位于至少两个存储节点上的对象集中的对象中。

具体来说，每个 Storage Node上还存储了对象集描述信息，该对象集描述信息中包含所述对象集的标识信息、对象的标识信息以及对象的磁盘分布信息。

举例来说，本实施例中的对象集描述信息可以采用如下格式：

{ObjSetID, {ObjllD, ObjlDev} , · · · , {ObjnID, ObjnDev} }

其中， ObjllD, ObjnID即为 ObjSetID标识的 ObjectSet中的对象， Obj 1 Dev , ObjnDev即为各对象对应的磁盘分布信息。

因此，每个 Storage Node上的存储控制器可以根据该对象集描述信息将数据存储在对应的对象中。

上述实施例描述了集中式网络架构下数据的冗余处理方法，针对这种冗余处理方法，客户端读取数据的过程可以为：查询独立元数据服务器，获取与待读出数据对应的存储描述信息；根据该存储描述信息，从位于至少两个存储节点上的各对象集的对象中获取 M个切片数据，对 M个切片数据进行整合处理，获取待读出数据。

本发明上述实施例，客户端可以采用各种冗余算法获得 M个切片数据和 N个冗余片数据，并存储在 RAIS的各 ObjectSet的对象中，从而实现在 RAIS中的各 ObjectSet之间进行数据冗余处理，也即实现 Storage Node之间的数据冗余处理。而且，本实施例的技术方案并非在各个 Storage Node 上进行多份存储，而是在其中几个 Storage Node的 ObjectSet上存储切片数据，在另外一个或者几个 Storage Node的 ObjectSet上存储冗余片数据，在切片数据的个数大于 1时可以提高存储空间地利用率且降低了 Storage Node 的负载，另外，本实施例可以支持不同的冗余算法，从而满足客户不同的可靠性需求，灵活性较高。

图 5为本发明数据冗余处理方法实施例二的流程图，图 6为图 5所示方法实施例二的处理过程示意图，如图 5和 6所示，本实施例中的方法可以适用于分布式架构，本实施例的方法可以包括：

步骤 501、作为写发起者（ Write Initiator,以下筒称： WI )的 Storage Node 接收客户端发送的写数据请求，该写数据请求中包含待写入数据。

步骤 502、作为 WI的 Storage Node获取本地存储的所述切片数据和冗余片数据所需写入的存储描述信息，该存储描述信息包含存储标识信息。

在本实施例中。该存储描述信息存储在作为 WI的 Storage Node本地，该存储描述信息可以包含 RAISID、该存储节点上的对象集的标识信息以及所述 RAIS中其它对象集的标识信息和所在存储节点的标识信息。

优选地，在每个 Storage Node上，均可以存储存储描述信息，从而可使 Storage Node互为备份。

具体来说，图 6中的第一个 Storage Node即为 WI, 该 Storage Node接收客户端发送的写数据请求后，可以查询本地存储的存储描述信息。

举例来说，该作为 WI的 Storage Node本地存储的存储描述信息的格式可以为： {RAISID, ObjSetID, {ObjSetllD, ObjSetllP} , · · · ,

{ObjSetnID,ObjSetnIP} }

该存储描述信息也描述了与 RAISID对应的 RAIS的各成员，与图 4所示实施例中的存储描述信息的不同之处在于，其中的 ObjSetID即为作为 WI的 Storage Node上的成员， {ObjSetllD, ObjSetllP} , · · · ,

{ ObjSetnID,ObjSetnIP}即为该 RAIS中其它成员和所在的 Storage Node的地址。可以理解的是，在分布式存储系统中有多少个 RAIS, 就可以对应地在作为 WI的 Storage Node上存储多少个与上述存储描述信息类似格式的信步骤 503、作为 WI的 Storage Node采用冗余算法生成待写入数据的切片数据和冗余片数据。

在本实施例中，客户端可以不用生成切片数据和冗余片数据，而又该作为 WI的 Storage Node生成，筒化了图 4所示方法中客户端的操作。

步骤 504、作为 WI的 Storage Node根据对象集的标识信息和对象集所在存储节点的标识信息，将所述 M个切片数据和 N个冗余片数据存储到与所述存储标识信息对应的位于至少两个存储节点上的对象集中的对象中。

具体来说，在作为 WI的 Storage Node上的存储控制器在获知 RAIS中各 ObjectSet的分布信息后，即可将切片数据和冗余片数据对应地发送给各 Storage Node上的 ObjectSet。举例来说，本实施例中第一个 Storage Node 可以将两个切片数据发送给第一 Storage Node和第二个 Storage Node ,将冗余片数据发送给第三个 Storage Node。

步骤 505、各 Storage Node在对象集的各对象中存储数据。

举例来说，本实施例中的对象集描述信息可以采用如下格式： {ObjSetID, {Obj llD, Obj lDev} , · · · , {ObjnID, ObjnDev} } 其中， Obj llD , ObjnID即为 ObjSetID标识的 ObjectSet中的对象， ObjlDev, ObjnDev即为各对象对应的磁盘分布信息。

步骤 506、各 Storage Node将存储响应发送给作为 WI的 Storage Node。步骤 507、作为 WI的 Storage Node将响应发送给客户端。

需要说明的是，图 6仅示出了分布式存储系统中的三个 Storage Node, 本领域技术人员可以理解的是，该分布式存储系统还可以包括更多没有示出的 Storage Node。

本发明上述实施例，作为 WI的 Storage Node可以采用各种冗余算法在 RAIS中的各 ObjectSet之间进行数据冗余处理，从而可以实现 Storage Node 之间的数据冗余处理。而且，本实施例的技术方案并非在各个 Storage Node 上进行多份存储，而是在其中几个 Storage Node的 ObjectSet上存储切片数据，在另外一个或者几个 Storage Node的 ObjectSet上存储冗余片数据，在切片数据的个数大于 1时可以提高存储空间地利用率且降低了 Storage Node 的负载，另外，本实施例可以支持不同的冗余算法，从而满足客户不同的可靠性需求，灵活性较高。

图 7为本发明数据冗余处理方法实施例三的流程图，图 8为图 7所示方法实施例三的处理过程示意图，如图 7和 8所示，本实施例中的方法是在采用图 5所示方法实施例写入数据后的读数据过程，本实施例的方法可以包括：

步骤 701、作为读发起者 ( Read Initiator, 以下筒称： RI )的 Storage Node 接收客户端发送的读数据请求。

需要说明的是，本实施例中作为 RI的 Storage Node既可以是与上述作为 WI的 Storage Node是同一个 Storage Node, 也可以是不同的 Storage Node。本实施例也以第一个 Storage Node为作为 RI的 Storage Node为例进行说明。

步骤 702、作为 RI的 Storage Node获取本地存储的与待读取数据对应的存储描述信息。

步骤 703、根据所述存储描述信息，从位于至少两个存储节点上的各对象集的对象中获取 M个切片数据。

具体来说，本实施例中作为 RI的 Storage Node可以根据存储描述信息，从各对象集中获取切片数据。参见图 8可知，第一个 Storage Node可以根据获取的存储描述信息获知该第一个 Storage Node与第二个 Storage Node 和第三个 Storage Node属于同一个 RAIS。因此，该作为 RI的 Storage Node, 即第一个 Storage Node即可从本地、第二个 Storage Node和第三个 Storage Node的 ObjectSet上分别获取数据，该数据包括了切片数据。在具体实现时，各 Storage Node仍然可以参考上述对象集描述信息的内容获知在其各自的 ObjectSet中对象的分布信息等。

步骤 704、作为 RI的 Storage Node对 M个切片数据进行整合处理，获取待读出数据。

当作为 RI的 Storage Node获取到全部切片数据后，即可将这些切片数据进行整合处理，从而获取待读出数据。该过程可以采用现有技术实现，举例来说，若写入数据时采用的冗余算法是 RAID5 , 则读出时也仍然按照 RAID5对切片数据进行整合。

步骤 705、作为 RI的 Storage Node将待读出数据反馈给客户端。

需要说明的是，图 8仅示出了分布式存储系统中的三个 Storage Node, 本领域技术人员可以理解的是，该分布式存储系统还可以包括更多没有示出的 Storage Node。

本实施例，基于上述数据写入过程，在数据读出过程中，可以分别从部署在不同 Storage Node上属于同一个 RAIS的 ObjectSet中获取切片数据，并对这些切片数据进行整合后即可反馈给客户端。

图 9为本发明数据冗余处理方法实施例四的处理过程示意图，如图 9 所示，本实施例在图 4、图 5或者图 7的基础上，在采用新的 Storage Node 进行扩容后，提出一种对象集分解和迁移的解决方案。参考图 9举例来说，当一个 ObjectSet满足下面两个条件之一时，即可对 ObjectSet进行分解：

1、一个 ObjectSet容量超过阈值

2、一个新的 Storage Node力口入。

本实施例的图 9中仅示出了有新的 Storage Node加入的情况，本领域技术人员可以理解的是，对于 ObjectSet容量超过阈值的情况来说，其处理过程类似，不再赘述。

本实施例中针对 ObjectSet进行分解和迁移的原则为：将位于至少两个存储节点上的各对象集分解为至少两个子集，根据各存储节点上的负载状态，将分解后的至少两个子集中的部分子集分配给所述新的存储节点。

参见图 9具体来说，在原来的四个 Storage Node上， RAIS1包括 3个 ObjectSetl ,分别分布在前三个 Storage Node上， RAIS2包括 3个 0bjectSet2, 分别分布在后三个 Storage Node上。图 9在原来的四个 Storage Node的基础上，新增加了一个 Storage Node , 即 New Node。因此，本实施例可以将 RAIS1上的部分数据迁移到 New Node上。需要说明的是，本实施例也可以对 RAIS2上的数据进行迁移，或者将 RAIS1和 RAIS2上的部分数据都迁移。

本实施例对 RAIS1所进行的分解和迁移过程如下：

将前三个 Storage Node上的每个 ObjectSetl分解为两个子 set, 即 0bjectSet3和 0bjectSet4。因为 ObjectSet是抽象概念，所以该分裂过程并不涉及数据迁移。

由图 9可以看出，分解后负载最重的 Storage Node为第二个 Storage Node和第三个 Storage Node, 因此，本实施例可以将从第二个 Storage Node 和第三个 Storage Node上的 0bjectSet3或者 0bjectSet4对应的数据迁移到 New Node上。由图 9可以看出，在数据迁移后，各 Storage Node上的负载较为均衡。

上述过程给出了扩容后，依据负载状态对各 Storage Node上的数据进行迁移的过程，本领域技术人员可以理解的是，如果要删除某一个或几个 Storage Node, 则可以先将待删除的 Storage Node上的数据迁移到保留的 Storage Node上，然后再删除该 Storage Node。

本实施例，在前述方法实施例的基础上，可以针对 Storage Node的扩容和删除进行相应的数据迁移，既保证了数据存储的可靠性，由充分考虑到负载均衡，而且，分布式存储系统内部的 Storage Node的管理也十分方便。

图 10为本发明数据冗余处理装置实施例一的结构示意图，如图 10所示，本实施例中的数据冗余处理装置包括：生成模块 11和存储模块 12, 其中，生成模块 11 , 用于采用冗余算法生成待写入数据的 M个切片数据和 N 个冗余片数据，所述 M个切片数据和 N个冗余片数据中任意损坏至多 N个数据时，能够利用未损坏的数据恢复损坏的数据，其中 M为大于 1的自然数， N为不小于 1的自然数；存储模块 12, 用于将所述 M个切片数据和 N 个冗余片数据分别存储到位于至少两个存储节点上的对象中，其中，每个存储节点包含至少一个对象集，每个对象集包含至少一个对象。

本实施例的数据冗余处理装置可以是分布式数据冗余处理装置中的一个 Storage Node中的存储控制器，本实施例的数据冗余处理装置并非在各个 Storage Node上进行多份存储，而是在分布式存储系统中的一个或几个 Storage Node的 ObjectSet上存储切片数据，在另外一个或者几个 Storage Node的 ObjectSet上存储冗余片数据，从而实现了 Storage Node之间的冗余处理，在切片数据的个数大于 1时可以提高存储空间地利用率且降低了 Storage Node的负载，另外，本发明实施例可以支持不同的冗余算法，从而满足客户不同的可靠性需求，灵活性较高。图 11为本发明数据冗余处理装置实施例二的结构示意图，如图 11所示，本实施例中的数据冗余处理装置在图 10所示数据冗余处理装置的基础上，进一步包括：写请求接收模块 13和描述信息获取模块 14, 其中写请求接收模块 13 , 用于接收客户端发送的写数据请求，所述写数据请求中包含所述待写入数据；描述信息获取模块 14, 用于获取本地存储的写入所述 M 个切片数据和 N个冗余片数据所需的存储描述信息，所述存储描述信息包含存储标识信息。存储模块 12可以具体用于将所述 M个切片数据和 N个冗余片数据存储到与所述存储标识信息对应的位于至少两个存储节点上的对象集中的对象中。

本实施例的数据冗余处理装置可以用于执行图 5所示方法实施例的方法，其实现原理和技术效果类似，此处不再赘述。

图 12为本发明数据冗余处理装置实施例三的结构示意图，如图 12所示，本实施例中的数据冗余处理装置在图 10所示数据冗余处理装置的基础上，进一步地，包括：读请求接收模块 15和数据读取模块 16, 其中，读请求接收模块 15 , 用于接收客户端发送的读数据请求；数据读取模块 16, 用于获取本地存储的与待读取数据对应的存储描述信息；根据所述存储描述信息，从位于至少两个存储节点上的各对象集的对象中获取所述 M个切片数据；对所述 M个切片数据进行整合处理，获取待读出数据，并将所述待读出数据发送给所述客户端。

本实施例的数据冗余处理装置可以用于执行图 7所示方法实施例的方法，其实现原理和技术效果类似，此处不再赘述。

图 13为本发明数据冗余处理装置实施例四的结构示意图，如图 13所示，本实施例中的数据冗余处理装置在图 10所示数据冗余处理装置的基础上，进一步地，还包括：分解迁移模块 17, 用于将位于至少两个存储节点上的各对象集分解为至少两个子集，根据各存储节点上的负载状态，将分解后的至少两个子集中的部分子集分配给所述新的存储节点。本实施例的数据冗余处理装置可以用于执行图 9所示处理过程，其实现原理和技术效果类似，此处不再赘述。

鉴于上述方法和数据冗余处理装置的实施例，本发明还可以提供一种分布式存储系统，该存储系统包括至少两个存储节点，其中至少有一个存储节点可以包括图 10~13所示的数据冗余处理装置，包括该数据冗余处理装置的存储节点即可为作为 WI的 Storage Node或者作为 RI的 Storage Node。本实施例的系统，其实现原理和技术效果在前述方法实施例和对应的数据冗余处理装置实施例中已经详细描述，此处不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括： ROM、 RAM, 磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

权利要求

1、一种数据冗余处理方法，其特征在于，包括：

采用冗余算法生成待写入数据的 M个切片数据和 N个冗余片数据，所述 M个切片数据和 N个冗余片数据中任意损坏至多 N个数据时，能够利用未损坏的数据恢复损坏的数据，其中 M为大于 1的自然数， N为不小于 1的自然数；

2、根据权利要求 1所述的方法，其特征在于，所述采用冗余算法生成待写入数据的 M个切片数据和 N个冗余片数据之前，还包括：

向独立元数据服务器发送存储请求消息；

接收所述独立元数据服务器根据所述存储请求消息反馈的存储描述信息，所述存储描述信息包含存储标识信息；

所述将所述 M个切片数据和 N个冗余片数据分别存储到位于至少两个存储节点上的对象中，包括：

将所述 M个切片数据和 N个冗余片数据存储到与所述存储标识信息对应的位于至少两个存储节点上的对象集中的对象中。

3、根据权利要求 2所述的方法，其特征在于，所述存储描述信息还包含各对象集的标识信息和各对象集所在存储节点的标识信息；

所述将所述 M个切片数据和 N个冗余片数据存储到与所述存储标识信息对应的位于至少两个存储节点上的对象集中的对象，包括：

根据所述对象集的标识信息和对象集所在存储节点的标识信息，将所述 M个切片数据和 N个冗余片数据对应地存储到各存储节点上的对象集中的对象中。

4、根据权利要求 2所述的方法，其特征在于，将所述 M个切片数据和 N个冗余片数据分别存储到位于至少两个存储节点上的对象中之后，还包括：

查询所述独立元数据服务器，获取与待读出数据对应的存储描述信根据所述存储描述信息，从位于至少两个存储节点上的各对象集的对象中获取所述 M个切片数据；

对所述 M个切片数据进行整合处理，获取待读出数据。

5、根据权利要求 1所述的方法，其特征在于，所述采用冗余算法生成待写入数据的 M个切片数据和 N个冗余片数据之前，还包括：

接收客户端发送的写数据请求，所述写数据请求中包含所述待写入数据；

所述将所述 M个切片数据和 N个冗余片数据分别存储到位于至少两个存储节点上的对象中之前，还包括：

获取本地存储的写入所述 M个切片数据和 N个冗余片数据所需的存储描述信息，所述存储描述信息包含存储标识信息；

6、根据权利要求 5所述的方法，其特征在于，所述存储描述信息还包含所述至少两个存储节点中的本地存储节点上的对象集的标识信息以及其它存储节点上的对象集的标识信息和所述其它存储节点的标识信所述将所述 M个切片数据和 N个冗余片数据存储到与所述存储标识信息对应的位于至少两个存储节点上的对象集中的对象中，包括：根据所述本地存储节点上的对象集的标识信息以及所述其它存储节点上的对象集的标识信息和所述其它存储节点的标识信息，将所述 M个切片数据和 N个冗余片数据对应地存储到各存储节点上的对象集中的对象中。

7、根据权利要求 5所述的方法，其特征在于，所述将所述 M个切片数据和 N个冗余片数据分别存储到位于至少两个存储节点上的对象中之后，还包括：

接收客户端发送的读数据请求；

获取本地存储的与待读取数据对应的存储描述信息；

根据所述存储描述信息，从位于至少两个存储节点上的各对象集的对象中获取所述 M个切片数据；

对所述 M个切片数据进行整合处理，获取待读出数据，并将所述待读出数据发送给所述客户端。

8、根据权利要求 3、 4、 6或 7所述的方法，其特征在于，所述将所述 M个切片数据和 N个冗余片数据分别存储到位于至少两个存储节点上的对象中，包括：

获取与所述对象集的标识信息对应的对象集描述信息，所述对象集描述信息中包含所述对象集的标识信息、对象的标识信息以及对象的磁盘分布信息；

根据所述对象的标识信息以及对象的磁盘分布信息，在各对象中存储数据。

9、根据权利要求 1~7中任一项所述的方法，其特征在于，在采用新的存储节点进行扩容时，所述方法还包括：

将位于至少两个存储节点上的各对象集分解为至少两个子集，根据各存储节点上的负载状态，将分解后的至少两个子集中的部分子集分配给所述新的存储节点。

10、一种数据冗余处理装置，其特征在于，包括：

生成模块，用于采用冗余算法生成待写入数据的 M个切片数据和 N 个冗余片数据，所述 M个切片数据和 N个冗余片数据中任意损坏至多 N 个数据时，能够利用未损坏的数据恢复损坏的数据，其中 M为大于 1的自然数， N为不小于 1的自然数；

11、根据权利要求 10所述的设备，其特征在于，还包括：

写请求接收模块，用于接收客户端发送的写数据请求，所述写数据请求中包含所述待写入数据；

描述信息获取模块，用于获取本地存储的写入所述 M个切片数据和 N个冗余片数据所需的存储描述信息，所述存储描述信息包含存储标识信息；

所述存储模块具体用于将所述 M个切片数据和 N个冗余片数据存储到与所述存储标识信息对应的位于至少两个存储节点上的对象集中的对象中。

12、根据权利要求 11所述的设备，其特征在于，还包括：

读请求接收模块，用于接收客户端发送的读数据请求；

数据读取模块，用于获取本地存储的与待读取数据对应的存储描述信息；根据所述存储描述信息，从位于至少两个存储节点上的各对象集的对象中获取所述 M个切片数据；对所述 M个切片数据进行整合处理，获取待读出数据，并将所述待读出数据发送给所述客户端。

13、根据权利要求 10~12中任一项所述的设备，其特征在于，还包括：

分解迁移模块，用于将位于至少两个存储节点上的各对象集分解为至少两个子集，根据各存储节点上的负载状态，将分解后的至少两个子集中的部分子集分配给所述新的存储节点。

14、一种分布式存储系统，其特征在于，包括至少两个存储节点，其中至少有一个存储节点包括权利要求 10~13 中任一项所述的数据冗余处理装置。