WO2022174537A1

WO2022174537A1 - 一种条带数据存储结构及其构建、修复和更新方法

Info

Publication number: WO2022174537A1
Application number: PCT/CN2021/100281
Authority: WO
Inventors: 胡燏翀; 程良锋; 姚乔日; 柯兆康; 徐佳
Original assignee: 华中科技大学
Priority date: 2021-02-20
Filing date: 2021-06-16
Publication date: 2022-08-25
Also published as: CN112835738B; US20220358008A1; US12001278B2; CN112835738A

Abstract

一种条带数据存储结构及其构建、修复和更新方法，属于计算机的可靠数据存储领域，条带数据存储结构为：条带为(n，k，r，z)，包括局部组和全局组；全局组包括一个机架，用于存储全局校验块；每个局部组中包含(r+1)/c个机架，每个机架中设置有不同的存储节点；不同存储节点处存储数据块或局部校验块，且每个机架中的数据块和局部校验块总数为c；其中，每个局部组存储有一个局部校验块和r个数据块；每个机架中的存储节点大于等于c；基于机架容错属性，c小于等于大条带的节点容错能力f；全局校验块的个数为f-1；z为总机架数目。支持n和k量级为百级的同时确保修复开销和存储开销较低的状态。

Description

一种条带数据存储结构及其构建、修复和更新方法

[技术领域]

本发明属于计算机的可靠数据存储领域，更具体地，涉及一种条带数据存储结构及其构建、修复和更新方法。

[背景技术]

随着计算机和互联网的快速发展，人类产生的数据总量呈现几何量级地爆炸增长。如何低成本且可靠地存储数据，成为业界亟待解决的问题。相较于传统的副本技术，纠删码作为一种具有高存储效率和高可靠性的存储冗余机制，被广泛应用于分布式存储系统中。

但是，相较于副本技术，纠删码会使得数据恢复时存在额外的计算和网络传输开销，即增大了数据的修复开销，且当编码条带越长时，修复开销越大。在这种情况下，之前的研究表明：通过挖掘存储系统中的局部性可以提高数据修复性能；校验块局部性，通过对条带中的数据块进行分组，为每一个组额外生成一个局部校验块，从而使得在单个数据块修复时可以利用局部校验块进行快速修复，但是校验块局部性的存储开销较大；拓扑局部性，通过将同一条带的不同数据块位于相同的机架内，使得数据块修复操作可以通过机架内部带宽快速进行而不需要进行跨机架的数据块传输。但是拓扑局部性与校验块局部性相比，修复开销还是较高。

传统的纠删码存储系统，一般配置编码条带的(n,k)不会很大，其中，k为数据块个数，n为数据块和校验块总数。例如在HDFS中(n,k)＝(9,6)，f4中为(14,10)，Azure中为(16,12)，Pelican中为(18,15)等。在这种情况下，n/k仍然较大，即分布式存储系统的存储开销仍然较大。通过设计更大的(n，k)参数，例如(132,128)，使得n/k趋近于1，则可以极大地降低存储成本开销。但是，更大的(n,k)编码参数会增加了数据块的修复开销，因此设计新的局部性修复策略从而减小数据块的修复开销是具有十分重要的意义。

[发明内容]

针对现有技术的缺陷，本发明的目的在于提供一种大条带数据存储结构及其构建、修复和更新方法，旨在解决现有的纠删码存储系统存储开销和修复开销比较大的问题。

为实现上述目的，本发明提供了一种条带数据存储结构，条带为(n，k，r，z)，包括局部组和全局组；全局组包括一个机架，用于存储全局校验块；每个局部组中包含

个机架，每个机架中设置有不同的存储节点；不同存储节点处存储数据块或局部校验块，且每个机架中的数据块和局部校验块总数为c；

其中，每个局部组存储有一个局部校验块和r个数据块；每个机架中的存储节点大于等于c；基于机架容错属性，c小于等于大条带的节点容错能力f；n为一个条带内所有的数据块和校验块数目总和；k为大条带中的数据块；全局校验块的个数为f-1；z为总机架数目。

本发明提供的条带数据存储结构，支持多个条带同步采用多节点编码技术。

基于本发明提供的条带数据存储结构，本发明提供了条带数据存储结构的构建方法，包括以下步骤：

基于条带的参数，权衡条带的存储开销

和跨机架修复开销

设定每个局部组中的数据块；其中，参数包括一个条带内所有的数据块和校验块数目总和n，大条带中的数据块k和节点容错能力f；

考虑机架容错属性以及数据块修复开销，设定每个机架存放的数据块个数；

基于每个局部组中的数据块个数以及每个机架拥有的数据块个数，计算每个局部组中的机架个数；

采用Azure-LRC方法，每个局部组的所有数据块通过线性编码生成一个局部校验块；且通过柯西矩阵的RS编码计算全局组中的全局校验块；

其中，全局校验块放于同一个机架内的不同存储节点上。

优选地，构建局部校验块和全局校验块的方法为：

随机挑选一机架内的多个节点，将条带中的数据块划分为有序局部组；

以局部组为单元依次将所有局部组的数据块分发至同一个机架的节点上；

采用Azure-LRC方法，首个局部组的所有数据块通过线性编码生成局部组中的局部校验块和f-1个中间结果；其中，f-1个中间结果传递至下一个局部组；

采用Azure-LRC方法，下一局部组所在节点编码自身局部组中的数据块，生成对应的局部校验块，同时利用上一个局部组产生的f-1个中间结果生成新的f-1个中间结果；其中，下一局部组生成的f-1个中间结果传递至下下一局部组；

以此类推，直至所有局部组完成对应局部校验块，并将最后一个局部组产生的f-1个中间结果作为全局校验块；

将数据块、局部校验块和全局校验块分发至对应机架。

优选地，全局校验块的更新方法，包括以下步骤：

a.在更新的数据块所在的存储节点生成差值数据块；

b.通过跨机架传输将差值发送至全局组机架的任一存储节点；

c.利用差值更新步骤b中存储节点的全局校验块；

d.通过机架内部带宽将差值从步骤b中的存储节点传输至剩余全局校验块的存储节点；

e.利用差值更新剩余全局校验块。

优选地，局部校验块更换机架的方法为：

以局部组为单元，每个机架内部的数据块更新时，将对应机架的更新次数加1；

每隔预设时间段，比较局部组中每个机架的更新次数，将局部组中的局部校验块与更新最频繁的机架中任一数据块更换位置。

优选地，局部组内部的数据块修复方法为：

在局部组中失效数据块所在机架选择一个未失效的存储节点为requestor，其他每个机架中选择一个储存节点作为local repairer；

local repairer采集所在机架内所有相同条带的数据块和局部校验块，计算异或值，并将异或值传递至requestor；

requestor收集所在机架内除失效数据块外剩余的数据块和局部校验块，结合所有local repairer传递的异或值，解码获取失效数据块；

存储节点的修复方法为：

通过LRU双链表记录所有最近充当过requestor和local repairer的节点ID；

利用哈希表映射双链表中充当requestor和local repairer节点的真实地址；

当下次数据块修复时选择最近未充当requestor和local repairer的节点作为requestor和local repairer。

基于本发明提供的条带数据存储结构，本发明提供了相应的全局校验块的更新方法，包括以下步骤：

a.在更新的数据块所在的存储节点生成差值数据块；

c.利用差值更新步骤b中存储节点的全局校验块；

e.利用差值更新剩余全局校验块。

基于本发明提供的条带数据存储结构，本发明提供了相应的局部校验块的更新方法，包括以下步骤：

基于本发明提供的条带数据存储结构，本发明提供了相应的局部组内部的数据块修复方法，包括以下步骤：

requestor收集所在机架内除失效数据块外剩余的数据块和局部校验块，结合所有local repairer传递的异或值，解码获取失效数据块。

基于本发明提供的条带数据存储结构，本发明提供了相应的局部组内部的存储节点的修复方法，包括以下步骤：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明所提供的基于大条带的低开销数据可靠存储方法及结构，通过结合校验块局部性和拓扑局部性(一个局部组中包含多个机架，多个机架内包含多个存储节点)，从而能够有效降低数据块的修复开销，使得修复开销和存储开销均相比于现有技术有所降低。

本发明提供的通过分析配置数据块修复参数r(权衡修复开销和存储开销获取的局部组数据块)，实现存储开销和跨机架存储开销的权衡，为存储服务商提供不同场景下的最优参数配置。

本发明提供的条带数据存储结构，支持多个条带同步采用多节点编码技术(本发明中局部校验块和全局校验块的构建过程，支持多个条带同时进行，且可以采用同一机架上多个节点分别编码不同局部组的数据块)，而现有技术采用所有数据块在同一节点编码，提高了大条带下的数据块编码效率。

本发明对局部校验块和全局校验块采用机架内部校验块更新的方式，提高了大条带下的数据块更新效率。具体为：全局校验块的更新将差值数据块进行一次跨机架传输至全局组机架的任一存储点，后续采用全局组机架内部带宽将差值传输至剩余全局校验块的存储节点，相比于现有技术实现全局校验块的更新均适用跨机架传输，提高了全局校验块的更新效率。而局部组校验块更新过程是每个预设时间段，将局部组中的局部校验块与更新最频繁的机架中任一数据块更换位置，同样减少了跨机架传输的次数，提升了局部校验块的更新效率。

现有技术中条带的(n，k)中n和k都不会很大，因为更大的n，k值无法同时兼容修复开销较低和存储开销较低，但是，本发明提供的条带数据存储结构和方法，不仅可以支持n，k的值为百量级，同时可以确保修复开销和存储开销均较低。

[附图说明]

图1是本发明提供的传统校验块局部性和拓扑局部性的技术方法部署图；

图2是本发明提供的大条带结构图；

图3是本发明实施例提供的局部组1修复数据块D ₁的流程图；

图4是本发明实施例提供的多节点编码示意图；

图5是本发明实施例提供的机架内部校验块更新示意图。

[具体实施方式]

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在介绍本发明之前，首先对应用校验块局部性和拓扑局部性的大条带部署方法进行简要介绍。如图1所示，校验块局部性方法，n＝32，k＝20，r＝2，将条带中所有的数据块和校验块全部放置于不同的机架上；当机架1上D ₁数据块失效后，可以通过局部组1中的数据块D ₂和局部校验块P _1[1-2]完成修复数据块D ₁，因此，总共跨机架传输2个数据块；拓扑局部性方法，n＝33，k＝20，z＝8，将条带中所有的数据块和校验块全部均匀放置在8个机架上，且校验块全部放置在同一个机架，当机架1上D ₁数据块失效后，可以通过机架1中的内部带宽获取数据块D ₂和D ₃，同时剩余的每一个机架(除放置校验块的机架外)都需要计算本机架上该条带的所有数据块的异或值，然后传输给机架1，结合校验块机架传输给机架1的校验块Q _1[1-20]可以完成修复数据块D ₁，因此总共跨机架传输7个数据块。

下面介绍本发明的技术方案：

本发明提供了一种条带数据存储结构，条带为(n，k，r，z)，包括局部组和全局组；全局组包括一个机架，用于存储全局校验块；每个局部组中包含

基于条带的参数，权衡条带的存储开销

和跨机架修复开销

设定每个局部组中的数据块；其中，参数包括一个条带内所有的数据块和校验块数目总和n，大条带中的数据块k和节点容错能力f；考虑机架容错属性以及数据块修复开销，设定每个机架存放的数据块个数；

其中，全局校验块放于同一个机架内的不同存储节点上。

优选地，构建局部校验块和全局校验块的方法为：

将数据块、局部校验块和全局校验块分发至对应机架。

优选地，全局校验块的更新方法，包括以下步骤：

a.在更新的数据块所在的存储节点生成差值数据块；

c.利用差值更新步骤b中存储节点的全局校验块；

e.利用差值更新剩余全局校验块。

优选地，局部校验块更换机架的方法为：

优选地，局部组内部的数据块修复方法为：

存储节点的修复方法为：

a.在更新的数据块所在的存储节点生成差值数据块；

c.利用差值更新步骤b中存储节点的全局校验块；

e.利用差值更新剩余全局校验块。

实施例

本发明结合校验块局部性和拓扑局部性方法，下面结合具体的实施方式，进一步描述本发明的技术方案：

(1)构建大条带(26,20,5,9)的步骤，具体如下：

如图2所示，本实施例构建拥有20个数据块，需要具备的节点容错能力为3的大条带；

权衡大条带的存储开销和跨机架修复开销，设定每个局部组中拥有5个数据块；

为了使数据块修复开销最小，设置每个机架拥有存放于不同的存储节点的3个数据块；

基于每个局部组中的数据块个数以及每个机架拥有的数据块个数，计算出每个局部组中有2个机架；

选择Azure-LRC方法，每个局部组的5个数据块通过线性编码生成一个局部校验块；且通过柯西矩阵的RS编码计算全局组中的2个全局校验块，其中，2个全局校验块放在同一个机架内的不同存储节点上，构成全局组。

(2)修复数据块的步骤

如图3所示，以局部组1内部的单个数据块D ₁修复说明修复数据块的步骤：首先在该局部组中失效数据块在所在机架1选择一存储节点 N ₁ 作为requestor，用于收集本机架内剩余的2个数据块块D ₂和D ₃，结合机架2上的local repairer获取的异或值，解码得到的失效单个数据块D ₁；其中，异或值的获取方法为：在机架2中选择一个节点N ₄作为local repairer，采集该机架内所有相同条带的数据块D ₅和局部校验块P _1[1-5]，并计算异或值P _1[1-5]-D ₄-D ₅。

针对节点修复，采用对单个数据块修复中使用的一个requestor和多个 local repairer进行合理的调度和配置；具体如下：通过LRU双链表记录所有最近充当requestor和local repairer的节点ID；利用哈希表映射双链表中的节点ID和节点真实地址，使得配置节点时的节点查找开销为O(1)时间复杂度。

(3)编码数据块的步骤

编码数据块主要针对局部校验块和全局校验块的生成。传统的编码数据块是在一个节点上对一个条带的k个数据块进行集中编码；当k过大时，会造成编码性能的快速下降。因此，本实施例中，如图四所示，可以利用同一个机架内的4个节点N ₁、N ₂、N ₃和N ₄进行并行编码；将大条带中的64个数据块划分为4个有序局部组，以局部组为单元依次将所有局部组的数据块分发到同一个机架的4个节点上，将本地所存储的首个局部组的数据块编码生成局部校验块和2个中间结果，其中，2个中间结果转发至下一个局部组所在的节点；下一个局部组所在的节点不仅编码本局部组的数据块生成局部校验块，同时结合接收到的2个中间结果生成新的2个中间结果，并继续转发给下一个局部组所在的节点，直至遍历所有的局部组，得到2个全局校验块Q _1[1-64]和Q _2[1-64]；分发4个节点中各个局部组的数据块、局部校验块和全局校验块到对应的机架内。

(4)更新校验块的步骤

如图五所示，针对全局校验块更新，首先在更新的数据块D ₁所在的存储节点生成差值数据块D ₁’-D ₁；然后通过跨机架发送到全局组的机架的一个存储节点，更新该存储节点的全局校验块Q _1[1-64]，同时通过机架内带宽发送差值数据块至剩余全局校验块的存储节点；剩余全局校验块节点接收差值数据块，更新全局校验块完成更新；

针对局部校验块更新，构建局部组的机架频率元数据，每当数据块更新时，将该数据块对应的存储节点的机架的更新次数加1，一段时间后，通过将局部校验块与更新最频繁的机架中的随机数据块进行位置调换，实现在机架内部进行局部校验块的更新。

本发明与现有技术相比，存在以下优势：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种条带数据存储结构，其特征在于，条带为(n，k，r，z)，包括局部组和全局组；全局组包括一个机架，用于存储全局校验块；每个局部组中包含
个机架，每个机架中设置有不同的存储节点；不同存储节点处存储数据块或局部校验块，且每个机架中的数据块和局部校验块总数为c；

其中，每个局部组存储有一个局部校验块和r个数据块；每个机架中的存储节点大于等于c；基于机架容错属性，c小于等于大条带的节点容错能力f；n为一个条带内所有的数据块和校验块数目总和；k为大条带中的数据块；全局校验块的个数为f-1；z为总机架数目。
根据权利要求1所述的条带数据存储结构，其特征在于，其支持多个条带同步采用多节点编码技术。
基于权利要求1所述的条带数据存储结构的构建方法，其特征在于，包括以下步骤：

基于条带的参数，权衡条带的存储开销
和跨机架修复开销
设定每个局部组中的数据块；其中，参数包括一个条带内所有的数据块和校验块数目总和n，大条带中的数据块k和节点容错能力f；

考虑机架容错属性以及数据块修复开销，设定每个机架存放的数据块个数；

基于每个局部组中的数据块个数以及每个机架拥有的数据块个数，计算每个局部组中的机架个数；

采用Azure-LRC方法，每个局部组的所有数据块通过线性编码生成一个局部校验块；且通过柯西矩阵的RS编码计算全局组中的全局校验块；

其中，全局校验块放于同一个机架内的不同存储节点上。
根据权利要求3所述的构建方法，其特征在于，构建局部校验块和全局校验块的方法为：

随机挑选一机架内的多个节点，将条带中的数据块划分为有序局部组；

以局部组为单元依次将所有局部组的数据块分发至同一个机架的节点上；

采用Azure-LRC方法，首个局部组的所有数据块通过线性编码生成局部组中的局部校验块和f-1个中间结果；其中，f-1个中间结果传递至下一个局部组；

采用Azure-LRC方法，下一局部组所在节点编码自身局部组中的数据块，生成对应的局部校验块，同时利用上一个局部组产生的f-1个中间结果生成新的f-1个中间结果；其中，下一局部组生成的f-1个中间结果传递至下下一局部组；

以此类推，直至所有局部组完成对应局部校验块，并将最后一个局部组产生的f-1个中间结果作为全局校验块；

将数据块、局部校验块和全局校验块分发至对应机架。
根据权利要求3或4所述的构建方法，其特征在于，所述全局校验块的更新方法，包括以下步骤：

a.在更新的数据块所在的存储节点生成差值数据块；

b.通过跨机架传输将差值发送至全局组机架的任一存储节点；

c.利用差值更新步骤b中存储节点的全局校验块；

d.通过机架内部带宽将差值从步骤b中的存储节点传输至剩余全局校验块的存储节点；

e.利用差值更新剩余全局校验块；

所述局部校验块更换机架的方法为：

以局部组为单元，每个机架内部的数据块更新时，将对应机架的更新次数加1；

每隔预设时间段，比较局部组中每个机架的更新次数，将局部组中的局部校验块与更新最频繁的机架中任一数据块更换位置。
根据权利要求3所述的构建方法，其特征在于，局部组内部的数据块修复方法为：

在局部组中失效数据块所在机架选择一个未失效的存储节点为requestor，其他每个机架中选择一个储存节点作为local repairer；

local repairer采集所在机架内所有相同条带的数据块和局部校验块，计算异或值，并将异或值传递至requestor；

requestor收集所在机架内除失效数据块外剩余的数据块和局部校验块，结合所有local repairer传递的异或值，解码获取失效数据块；

存储节点的修复方法为：

通过LRU双链表记录所有最近充当过requestor和local repairer的节点ID；

利用哈希表映射双链表中充当requestor和local repairer节点的真实地址；

当下次数据块修复时选择最近未充当requestor和local repairer的节点作为requestor和local repairer。
一种基于权利要求1所述的条带数据存储结构的全局校验块的更新方法，其特征在于，包括以下步骤：

a.在更新的数据块所在的存储节点生成差值数据块；

b.通过跨机架传输将差值发送至全局组机架的任一存储节点；

c.利用差值更新步骤b中存储节点的全局校验块；

d.通过机架内部带宽将差值从步骤b中的存储节点传输至剩余全局校验块的存储节点；

e.利用差值更新剩余全局校验块。
一种基于权利要求1所述的条带数据存储结构的局部校验块的更新方法，其特征在于，包括以下步骤：

以局部组为单元，每个机架内部的数据块更新时，将对应机架的更新次数加1；

每隔预设时间段，比较局部组中每个机架的更新次数，将局部组中的局部校验块与更新最频繁的机架中任一数据块更换位置。
一种基于权利要求1所述的条带数据存储结构的局部组内部的数据块修复方法，其特征在于，包括以下步骤：

在局部组中失效数据块所在机架选择一个未失效的存储节点为requestor，其他每个机架中选择一个储存节点作为local repairer；

local repairer采集所在机架内所有相同条带的数据块和局部校验块，计算异或值，并将异或值传递至requestor；

requestor收集所在机架内除失效数据块外剩余的数据块和局部校验块，结合所有local repairer传递的异或值，解码获取失效数据块。
一种基于权利要求1所述的条带数据存储结构的局部组内部的存储节点的修复方法，其特征在于，包括以下步骤：

通过LRU双链表记录所有最近充当过requestor和local repairer的节点ID；

利用哈希表映射双链表中充当requestor和local repairer节点的真实地址；

当下次数据块修复时选择最近未充当requestor和local repairer的节点作为requestor和local repairer。