WO2019000950A1

WO2019000950A1 - 分片管理方法和分片管理装置

Info

Publication number: WO2019000950A1
Application number: PCT/CN2018/075188
Authority: WO
Inventors: 王晨; 姚唐仁; 王�锋
Original assignee: 华为技术有限公司
Priority date: 2017-06-29
Filing date: 2018-02-03
Publication date: 2019-01-03
Also published as: CN112328168A; US20200125286A1; US20220137849A1; EP3617867B1; US11243706B2; EP3617867A4; CN107436733B; EP3617867A1; EP4137924A1; CN107436733A

Abstract

一种分片管理技术，应用于在分布式存储系统中，计算节点读取所述第一校验分片的元数据，从中获得所述第一校验分片所在的第一存储位置；所述计算节点选择第二存储位置，所述第二存储位置位于第二级存储介质，所述第二级存储介质的读取速度低于所述第一级存储介质，所述第二存储位置拥有空闲空间；所述计算节点向所述第一校验分片所在的存储节点发送迁移指示，指示所述第一校验分片所在的存储节点把所述第一校验分片发送给第二存储位置所在的存储节点；第二存储位置所在的存储节点把所述第一校验分片存储到第二存储位置；所述计算节点指示把所述第二存储位置的信息更新到所述第一校验分片的元数据。应用该技术可以减少高速存储介质的占用量，降低存储系统成本。

Description

[根据细则37.2由ISA制定的发明名称]　分片管理方法和分片管理装置

背景技术

本发明涉及计算机技术，尤其涉及存储领域。

发明内容

第一方面，本发明提供一种分片管理方法的实施方式，该方法可以应用于在分布式存储系统中，所述分布式存储系统包括计算节点和至少一个存储节点，所述存储节点包括至少一个存储介质，分布式存储系统包括多个存储介质，不同分片存储于不同的存储介质，数据分片和第一校验分片均位于第一级存储介质中，该方法包括：计算节点读取所述第一校验分片的元数据，从中获得所述第一校验分片所在的第一存储位置；所述计算节点选择第二存储位置，所述第二存储位置位于第二级存储介质，所述第二级存储介质的读取速度低于所述第一级存储介质，所述第二存储位置拥有空闲空间；所述计算节点向所述第一校验分片所在的存储节点发送迁移指示，指示所述第一校验分片所在的存储节点把所述第一校验分片发送给第二存储位置所在的存储节点；第二存储位置所在的存储节点把所述第一校验分片存储到第二存储位置；所述计算节点指示把所述第二存储位置的信息更新到所述第一校验分片的元数据。

使用该方法，可以把EC的校验分片或者LRC的全局校验分片，从成本较高的高速存储介质迁移到成本较低的低速存储介质中，节约了高速存储介质的占用。

第一方面的第一种可选方案：计算节点读取所述第二校验分片的元数据，从中获得所述第二校验分片所在的第三存储位置；所述计算节点选择第四存储位置，所述第四存储位置位于第三级存储介质，所述第三级存储介质的读取/写入速度高于所述第二级存储介质、且低于第一级存储介质，所述第四存储位置拥有空闲空间；所述计算节点向所述第二校验分片所在的存储节点发送迁移指示，指示所述第二校验分片所在的存储节点把所述第二校验分片发送给所述第四存储位置所在的存储节点；所述第四存储位置所在的存储节点把所述第二校验分片存储到第二存储位置；所述计算节点指示把所述第四存储位置的信息更新到所述第一校验分片的元数据。

使用该方法，可以把LRC的本地校验分片，从成本较高的高速存储介质迁移到成本较低的低速存储介质中，节约了高速存储介质的占用。并且，考虑到LRC的本地校验分片的使用率高于LRC的全局校验分片，因此其迁入存储介质的读/写速度要高于LRC的全局校验分片所迁入的存储介质的读/写速度。

可选的，在第一方面的第一种可选方案中：所述数据分片、所述第一校验分片和所述第二校验分片符合本地重构码LRC算法，其中，所述第一校验分片是LRC算法中的的全局校验分片，所述第二校验分片是LRC算法中的本地校验分片。

第一方面的第二种可选方案，在所述方法之前包括：计算节点接收写数据请求，把写数据请求中携带的目标数据分成数据分片，根据所述数据分片按照LRC算法生成所述全局校验分片和所述本地校验分片；所述全局校验分片用于对多个数据分片进行校验；所述本地校验分片用于对所述多个数据分片中的一部分数据分片进行校验。

该方案介绍了基于LRC算法，数据分片、本地校验分片和全局校验分片的生成过程以及这些分片之间的校验关系。

第一方面的第三种可选方案：所述数据分片和所述第一校验分片符合纠删码EC算法，该方法进一步包括：计算节点接收写数据请求，把写数据请求中携带的目标数据分成数据分片，根据所述数据分片按照EC算法生成所述第一校验分片。

该方案介绍了基于EC算法，数据分片和校验分片(本申请中又称其为“全局校验分片”)的生成过程以及这些分片之间的校验关系。

第二方面，本发明提供一种计算节点的实施例，所述计算节点包括处理器单元和存储器，所述存储器用于存储计算机程序，其特征在于，通过运行所述计算机程序，所述处理器单元用于：读取所述第一校验分片的元数据，从中获得所述第一校验分片所在的第一存储位置；选择第二存储位置，所述第二存储位置位于第二级存储介质，所述第二级存储介质的读取速度低于所述第一级存储介质，所述第二存储位置拥有空闲空间；向所述第一校验分片所在的存储节点发送迁移指示，指示所述第一校验分片所在的存储节点把所述第一校验分片迁移到所述第二存储位置；迁移完成后，把所述第二存储位置的信息更新到所述第一校验分片的元数据。

第二方面的第一种可能的实施方式中，所述处理器还用于执行：读取所述第二校验分片的元数据，从中获得所述第二校验分片所在的第三存储位置；选择第四存储位置，所述第四存储位置位于第三级存储介质，所述第三级存储介质的读取速度高于所述第二级存储介质、且低于第一级存储介质，所述第四存储位置拥有空闲空间；所向所述第二校验分片所在的存储节点发送迁移指示，指示所述第二校验分片所在的存储节点把所述第二校验分片迁移到所述第四存储位置；迁移完成后，把所述第四存储位置的信息更新到所述第一校验分片的元数据。

可选的，在第二方面的第一种可能的实施方式中，所述数据分片、所述第一校验分片和所述第二校验分片符合本地重构码LRC算法，其中，所述第一校验分片是LRC算法中的的全局校验分片，所述第二校验分片是LRC算法中的本地校验分片。

第二方面的第二种可能的实施方式中，所述处理器还用于执行：接收写数据请求，把写数据请求中携带的目标数据分成数据分片，根据所述数据分片按照LRC算法生成所述全局校验分片和所述本地校验分片；所述全局校验分片用于对多个数据分片进行校验；所述本地校验分片用于对所述多个数据分片中的一部分数据分片进行校验。

第二方面的第三种可能的实施方式中，所述数据分片和所述第一校验分片符合纠删码EC算法，所述处理器还用于执行：接收写数据请求，把写数据请求中携带的目标数据分成数据分片，根据所述数据分片按照EC算法生成所述第一校验分片。

在第二方面及其各种可能的实施方式中，其解决的计算问题和有益效果和第一方面对应的实施例相似，因此不做赘述。

第三方面，本发明提供一种分片管理方法的实施例，该方法包括：计算节点通过接口接收数据单元，根据所述数据单元生成数据分片；根据所述数据分片生成第一校验分片；选择位于第一级存储介质的存储空间作为数据分片存储位置；选择位于第二级存储介质的存储空间作为第一校验分片存储位置，其中，所述第二级存储介质的读/写速度低于所述第一级存储介质的读/写速度；以选择的存储位置发送所述数据分片和所述第一校验分片，以对数据分片和第一校验分片进行存储，其中所述，数据分片的写请求中携带所述数据分片以及所述数据分片存储位置，第一校验分片的写请求中携带所述第一校验分片以及所述第一校验分片存储位置。

该实施方式和第一/第二方面的方案相比，在分片生成后就直接发送到不同等级的存储介质进行存储，因此不再需要执行“迁移”操作，直接相当于第一/第二方面的方案中，经过迁移操作后的效果，因此进一步提高了分片匆匆的效率。

第三方面的第一种可能的实现方式中：根据所述数据分片生成第二校验分片，其中，所述数据分片、所述第一校验分片和所述第二校验分片符合本地重构码LRC算法，所述第一校验分片是LRC算法中的的全局校验分片，所述第二校验分片是LRC算法中的本地校验分片；选择位于第三级存储介质的存储空间作为第二校验分片存储位置，其中，所述第三级存储介质的读/写速度低于所述第一级存储介质的读/写速度，且高于或者等于所述第二级存储介质的读/写速度；以选择的存储位置发送写数据请求以第二校验分片进行存储，其中，第二校验分片的写请求中携带所述第二校验分片以及所述第二校验分片存储位置。

该方案介绍了基于LRC算法时，数据分片、全局校验分片和本地校验分片之间的关系。

第四方面，本发明提供一种计算节点，包括处理器单元和存储器，所述存储器中存储有计算机程序，通过运行所述计算机程序，所述处理器单元用于：通过接口接收数据单元，根据所述数据单元生成数据分片；根据所述数据分片生成第一校验分片；选择位于第一级存储介质的存储空间作为数据分片存储位置，以及选择位于第二级存储介质的存储空间作为第一校验分片存储位置，其中，所述第二级存储介质的读/写速度低于所述第一级存储介质的读/写速度；以选择的存储位置发送所述数据分片和所述第一校验分片，以对所述数据分片和所述第一校验分片进行存储，其中，所述数据分片的存储位置是所述位于第一级存储介质的存储空间，所述第一校验分片的存储位置是所述位于第二级存储介质的存储空间。

可选的，在第四方面的方案中，根据所述数据分片生成第二校验分片，其中，所述数据分片、所述第一校验分片和所述第二校验分片符合本地重构码LRC算法，所述第一校验分片是LRC算法中的的全局校验分片，所述第二校验分片是LRC算法中的本地校验分片；选择位于第三级存储介质的存储空间作为第二校验分片存储位置，其中，所述第三级存储介质的读/写速度低于所述第一级存储介质的读/写速度，且高于或者等于所述第二级存储介质的读/写速度；以选择的存储位置发送所述数据分片和所述第二校验分片，以对所述第二校验分片进行存储，其中，所述第二校验分片的存储位置是所述位于第三级存储介质的存储空间。

第四方面及其可选方案中，有益效果和解决的技术问题和第三方面及其可选方案相同。不做赘述。

第五方面，本发明还提供存储介质的实施例，可以存储程序代码，通过运行存储代码，计算机/服务器/分布式存储系统可以执行上述第一方面及其可能的各种可选方式，或者执行上述第三方面及其可能的各种可选方式。

第六方面，本发明还提供分片管理装置的实施例，分片管理装置可以是软件或者硬件，分片管理装置由模块组成，各个模块具有对应于前述方法实施例的的功能。

例如：一种实施例提供一种分片管理装置，包括：读取模块、位置选择模块、迁移模块和元数据管理模块。所述读取模块，用于读取所述第一校验分片的元数据，从中获得所述第一校验分片所在的第一存储位置。位置选择模块，用于选择第二存储位置，所述第二存储位置位于第二级存储介质，所述第二级存储介质的读取速度低于所述第一级存储介质，所述第二存储位置拥有空闲空间。迁移模块，用于向所述第一校验分片所在的存储节点发送迁移指示，指示所述第一校验分片所在的存储节点把所述第一校验分片迁移到所述第二存储位置。

再例如，另外一种实施例也提供了分片管理装置，分片管理装置包括：分片模块、位置选择模块、存储模块。所述分片模块，用于接收数据单元，根据所述数据单元生成数据分片；根据所述数据分片生成第一校验分片。所述位置选择模块，用于选择位于第一级存储介质的存储空间作为数据分片存储位置，以及选择位于第二级存储介质的存储空间作为第一校验分片存储位置，其中，所述第二级存储介质的读速度低于所述第一级存储介质的读速度。所述存储模块，用于以选择的存储位置发送所述数据分片和所述第一校验分片，以对数据分片和第一校验分片进行存储，其中所述，数据分片的写请求中携带所述数据分片以及所述数据分片存储位置，第一校验分片的写请求中携带所述第一校验分片以及所述第一校验分片存储位置。元数据管理模块，用于把分片的存储位置记录在分片的元数据中。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其它的附图。

图1是依照分片管理方法实施例迁移前的分片分布图；

图2是依照分片管理方法实施例迁移后的分片分布图；

图3是分片管理方法实施例的流程图；

图4是计算节点实施例的硬件结构图；

图5是另一分片管理方法实施例的流程图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包括了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或者可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。术语 “第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。

本发明实施例可以应用于分布式存储系统场景。本发明实施例所指的分布式存储系统，意指包括多个存储介质(存储介质例如固态硬盘SSD，磁盘，U盘，可擦写光盘、磁带等)的存储系统，这些存储介质可以位于同一个节点或者多个节点。每个存储介质可以存储一个数据分片或者一个校验分片。其中，校验分片由一个或者多个数据分片通过校验计算获得。云存储系统也是一种分布式存储系统，在云存储系统中，存储节点被划分为多个数据中心，每个数据中心包括至少一个存储节点。

一方面存储位置可以不同。分布式存储系统包括多个存储节点，存储节点例如是计算机、服务器、或者存储控制器+存储介质。数据单元(例如文件或者文件分片)拆分为多个数据分片，对来自同一个数据单元或者来自不同数据单元的数据分片进行纠删码(erasure code，EC)计算，生成校验(冗余)分片。数据分片和校验分片统称为分片，这些分片(数据分片+校验分片)被分散的存储到不同的存储节点中，或者被分散的存储到不同的存储介质中。如果其中有部分分片的数据丢失或者损坏，借助于EC算法，可以用余下的分片把出现故障的分片恢复出来。校验分片的数量越多，借助于EC算法可以恢复的故障分片数量也越多。

本地重建码(local reconstruction code，LRC)技术可以看成是EC的一种扩展形态，LRC可以提高分片恢复的效率。在LRC技术中，提供另外一种校验分片，这种校验分片通过一部分数据分片计算获得，并仅对一部分数据分片进行校验保护。如果把数据分片分成几个数据分片组，那么，一组数据分片对应生成自己的校验分片共同形成一个校验组。这个校验组可以存储于同一个数据中心、或者同一个存储节点。对于校验组内出现的故障分片，如果故障分片的数量不大于本地校验分片的数量，可以通过校验组内余下的分片对其进行恢复。由于同一校验组的分片的物理存储位置接近，因此恢复速度很快，这类校验分片称为本地校验片(local parity)。

LRC技术中，还可以包括全局校验片(global parity)，全局校验片用于对全部数据分片进行校验。在数据分片和全局校验分片的组合中，如果故障分片的数量不大于全局校验分配的数量，那么使用校验算法可以对故障分片进行恢复，校验算法可以和EC校验算法相同。例如当同一个校验组内出现大量的分片故障，用组内余下的分片难以恢复出故障分片时。往往可以使用全局校验分片进行恢复。

为了对以上两种类型的校验分片进行区分。把EC技术的校验分片和LRC技术的全局校验分片都称为“全局校验分片”；把LRC技术新增的校验分片(仅对部分数据分片进行校验)称为“本地校验分片”。

为了更加易于理解，下面参见附图1对一种LRC的应用场景举例。在一个分布式存储系统中，包括数据中心1、数据中心2和数据中心3。每个数据中心包括多个存储节点。该分布式存储系统用于存储的数据分片包括：数据分片1、数据分片2、本地校验分片3；数据分片4、数据分片5、本地校验分片6；全局校验分片7、全局校验分片8，本地校验分片9。

本地校验组1：包括3个分片，这3个分片分别是：本地校验分片3、数据分片1 和数据分片2。其中，本地校验分片3是数据分片1和数据分片2的校验分片，这三个分片存储于数据中心1的不同存储节点。

本地校验组2：包括3个分片，这3个分片分别是：本地校验分片6、数据分片4和数据分片5。其中，本地校验分片6是数据分片4和数据分片5的校验分片，这三个分片存储于数据中心2的不同存储节点。

本地校验组3：包括3个分片，这3个分片分别是：本地校验分片9、全局校验分片7和全局校验分片8。其中，本地校验分片9是全局校验分片7和全局校验分片8的校验分片，这三个分片存储于数据中心3的不同存储节点。

全局校验组：包括6个分片，这6个分片分别是：全局校验分片7、全局分片8、数据分片1、数据分片2、数据分片4和数据分片5。

其中全局校验分片7和全局分片8是数据分片1、数据分片2、数据分片4、数据分片5的校验分片。全局校验分片7和全局分片8可以位于数据中心3。

由此可见，所述全局校验分片用于对多个数据分片进行校验；所述本地校验分片用于对所述多个数据分片中的一部分数据分片(通常少于所述多个数据分片)进行校验。例如：把全局校验分片所校验的数据分片分成多个组，每个数据分片组拥有至少一个本地校验分片。不同的本地校验分片所负责校验的数据分片可以位于不同的物理位置，例如位于不同的数据中心、不同的机房、不同的机框、不同的存储节点。

需要特别说明的是，所述全局校验分片本身也拥有对应的本地校验分片，拥有对所述全局校验分片进行校验，全局校验分片的本地校验分片虽然名称里有“本地”二字，但是考虑到其读取频度低于数据分片的本地校验分片。因此，在没有特别说明的情况下，本申请各个实施例中，对迁移方式不与数据分片的本地校验分片相同，而是和全局校验分片相同。

如果任意一个数据中心中，有1个分片出现故障，使用余下的2个分片可以对故障分片进行恢复。如果在整个存储系统中，有任意2个分片出现故障，可以该存储系统中余下的分片进行恢复。如果忽略3个本地校验分片，那么可以认为这是一个EC校验组。

由此可见，LRC技术相对于EC技术，数据可靠性和分片恢复速度有了进一步提高。

本发明各个实施例中，EC算法/LRC算法，是指根据EC/LRC的原理，计算数据分片的校验分片的算法；或者，在有分片损坏时，根据EC/LRC的原理，根据未损坏的分片恢复被损坏的分片的算法。

另一方面，然而，不论是LRC技术还是EC技术，伴随着数据可靠性的提高，也增加了存储空间的占用。同一个数据中心的不同存储节点，可以使用不同类型的存储介质。例如同一个数据中心中包含了拥有标准存储介质的存储节点、拥有温存储介质的存储节点和拥有冷存储介质的存储节点。这三种存储介质提供的读写速度不同，标准存储介质最高(例如固态硬盘SSD)、温存储介质(例如高速磁盘)其次，冷存储介质(例如低速磁盘)最低。相应的，三种存储介质的成本也不同，标准存储的成本最高、温存储介质的成本其次，冷存储介质的成本最低。参见图1，在各个数据中心中，位于第一行的是标准存储介质的存储节点，位于第二行的是温存储介质节点，位于第三行的是冷存储介质节点。图1示意性的指列出了三个层次，在实际应用中，可以有更多的分层次或者仅有2层。

此外需要说明的是，即使在同一个节点中，也可以使用不同类型的存储介质。例如同一个存储节点包括了：标准存储介质、温存储介质和冷存储介质，不同的分片分布于不同的存储介质，但是可以位于同一个存储节点。把图1中一个数据中心内的不同节点，理解成至少一个节点内的多个存储器，就是对这种场景的一种描述。由于二者没有本质的区别，因此不做详述，下面仅以图1描述的场景进行描述。

对于存储在标准存储介质中的数据分片，其校验分片也存在同类型的存储介质中。这无疑占用了大量昂贵的标准存储介质。考虑到校验分片的利用机会并不高，本发明实施例提出一种创新的思路：对分片的存储位置进行更细粒度的管理，把校验分片迁移到成本更低的存储介质中去。例如参见图2，保留数据分片在标准存储节点；考虑到本地校验分片的读写频度低于数据分片，因此可以把把本地校验分片迁移到读写速度较低的温存储介质节点；而全局校验分片的读写频度更低，因此可以迁移到读写速度更低的冷存储介质节点，全局校验分片的本地校验分片也可以迁移到冷存储介质节点。需要说明的是，本实施例的侧重点在于在不同速率的介质之间进行校验分片的迁移。图2中每个节点的介质是统一的，因此把分片迁移到冷存储介质节点，就意味着数据被迁移到冷存储介质中。而对于同一个节点拥有不同等级介质的情况，则可以不跨节点进行分配迁移，例如把校验分片从标准存储介质迁移到同一个节点的温存储介质。

当然，具体还可以有更多的变形。例如把两种类型的校验分片都迁移到温存储介质节点；或者都迁移到冷存储介质节点。

下面介绍本发明一种分片管理方法的实施例，具体描述了通过对校验分片进行迁移，减少对高成本存储介质的占用。该实施例可以应用于分布式存储系统中，分布式存储系统包括计算节点和存储节点。计算节点拥有计算功能，存储节点主要用于存储数据。二者可以是不同的物理节点，也可以把它们的功能集成在同一个物理节点中。

计算节点例如是计算机、服务器或者存储控制器，还可以是虚拟机。计算机节点包括至少一个处理器和存储器，存储器中存储有程序代码，处理器通过运行所述程序代码执行下面的步骤。存储节点例如是计算机、服务器或者存储控制器，还可以是虚拟机。存储节点包括至少一个处理器、存储器和存储介质，存储器中存储有程序代码，处理器通过运行所述程序代码执行存储节点的功能(例如接收计算节点发送的分片，然后存储于所述存储接中)，存储介质用于存储分片和/或元数据。

11，计算节点接收数据单元，把数据单元拆分成数据分片。

需要说明的是，如果数据单元本身比较小，小于等于分片的大小。那么可以直接获得数据分片即可，不需要拆分。

12，计算节点根据数据分片生成校验分片。存储所述数据分片和校验分片，以及把各个分片的存储位置保存在元数据中。

对于EC算法，利用数据分片生成的一个或者多个校验分片，称之为第一校验分片。

对于LRC算法，利用数据分片生成的校验分片包括本地校验分片和全局校验分片。为了对这两种校验分片进行区分，全局校验分片称为第一校验分片，本地校验分片称为第二校验分片。

计算节点把数据分片和校验分片发送给各个存储介质进行存储。这些存储介质属于同一种等级(主要是读/写速度)。如前所述，因此具体而言，包括两种情形：情形一：每个分片存储于位于不同存储节点的存储介质；情形二：部分或者全部分片存储于位于同一个存储节点的存储介质。相较而言，前一种情形的可靠性更高。甚至还可以是：不同的分片存储于不同数据中心的存储节点中，这种做法可靠性更高。

把各个分片的存储位置保存在各个分片的元数据中。元数据可以保存在存储节点中，例如：云存储系统包括多个数据中心，每个数据中心包括至少一个存储节点，同一个数据中心的分片的元数据，保存在本数据中心的同一个存储节点中。

13，计算节点读取第一校验分片的元数据，从中获得第一校验分片所在的存储位置，也就是第一校验分片的迁出存储位置。

存储位置例如描述为：[存储节点ID，逻辑地址]，由存储位置可以读取第一校验分片。或者存储位置描述为：[存储节点ID，分片ID]，存储第一校验分片的存储节点记录分片ID和逻辑地址/物理地址的对应关系，因此它在收到获得这个存储位置后，可以根据分片ID获得分片的逻辑地址/物理地址。

本步骤发送在校验分片迁移前，校验分片和数据分片往往位于同一类存储介质，例如第一类存储介质。

14，计算节点选择第二存储位置，作为第一校验分片的迁入存储位置。第二存储位置位于第二级存储介质，其读/写速度低于第一级存储介质。

第二存储位置所在的存储介质和第一存储位置可以位于同一个存储节点，也可以位于不同的存储节点。

第二存储位置位于第二类存储介质或者第三类存储介质。第一类存储介质、第二类存储介质、第三类存储介质的读/写速度依次降低。之所以把读/写速度较低的存储介质作为校验分片的迁入目的地，是为了减少昂贵的高速存储介质的占用，以便节约成本。

除了步骤13中提及的存储位置描述方式以外。第二存储位置作为迁入存储位置，如果是由同一等级存储介质组成，那么存储位置可以仅描述为[存储节点ID]，由第二存储位置所在的存储节点自行选择存储介质作为迁入分片的目的地。

15，计算节点向所述第一校验分片所在的存储节点(迁出节点)发送迁移指示，指示把所述第一校验分片从所述第一存储位置迁移到第二存储位置。

如果这两个位置位于同一个存储节点。则计算节点把指示发送给迁出节点。迁出节点把第一校验分片从所述第一存储位置迁移到第二存储位置。

如果这两个位置位于不同存储节点。则计算节点把指示发送给迁出节点。迁出节点把第一校验分片发送给迁入节点(第二存储位置所在的存储节点)。所述迁入节点接收到第一校验分片后，存入所述第二存储位置。

在另外一种实施方式中，计算节点把指示发送给迁出节点，指示把第一校验分片从第一存储位置迁移到迁入节点，但是不指示第二存储位置。迁出节点把第一校验分片发送给迁入节点后，由迁入节点自行分配分配满足性能要求(例如读/写速率)的存储介质。例如，如果迁入节点的任意存储介质均满足性能要求，则可由迁入节点任意分片；如果迁入节点存在部分存储介质不满足性能要求，则可以在计算节点把性能要求直接或者间接的通知迁入节点，以便迁入节点选择满足性能要求的存储介质。

16，迁移完成后，所述计算节点指示把所述第二存储位置的信息更新到所述第一校验分片的元数据。

在上面的步骤12中，介绍了元数据的存储。本步骤中，对元数据进行了更新，把第一校验分片的新位置(第二存储位置)更新到第一校验分片的元数据中。以便后续对第一校验分片进行读取或者修改。

如果校验算法是LRC，则全局校验分片的本地校验分片也沿用步骤13-16的迁移方案。此外，本实施例还包括下面的步骤17～20。步骤17～20和步骤13-16类似，因此不做详述。不同之处在于：被迁移的对象变为数据分片的本地校验分片(不包括全局校验分片的本地校验分片)。迁出位置由第一存储位置变为第三存储位置；迁入位置由第二存储位置变为第四存储位置；第三存储位置所在的存储介质(第三类存储介质)的读/写速度低于数据分片所在的存储介质(第一类存储介质)，高于、或者等于全局校验分片所在的存储介质(第二类存储介质)。

需要说明的是，本发明实施例中，“读/写”包括“读”、“写”以及“读和写”这三种情况中的任意一个。

参见附图4，是计算节点的一种实施例，可以执行前面的分片管理方法，由于对应于分片管理方法，因此仅做简单描述。

所述计算节点2，应用于在分布式存储系统中，所述分布式存储系统包括所述计算节点和至少一个存储节点，所述存储节点包括至少一个存储介质，分布式存储系统包括多个存储介质，不同分片存储于不同的存储介质，数据分片和第一校验分片均位于第一级存储介质中，所述计算节点包括处理器单元21和存储器22，还可以包括对外接口(未图示)、存储介质(未图示)。其中存储器单元21例如单核CPU、多核CPU、多个CPU的组合、FPGA，存储器22例如易失性存储介质(例如RAM)、非易失性存储介质(例如硬盘或者SSD)，还可以是所述存储介质的一部分。所述存储器22用于存储计算机程序。

通过运行所述计算机程序，所述处理器单元21用于：读取所述第一校验分片的元数据，从中获得所述第一校验分片所在的第一存储位置；选择第二存储位置，所述第二存储位置位于第二级存储介质，所述第二级存储介质的读取速度低于所述第一级存储介质，所述第二存储位置拥有空闲空间；向所述第一校验分片所在的存储节点发送迁移指示，指示所述第一校验分片所在的存储节点把所述第一校验分片迁移到所述第二存储位置；迁移完成后，把所述第二存储位置的信息更新到所述第一校验分片的元数据。

所述处理器22还用于执行：读取所述第二校验分片的元数据，从中获得所述第二校验分片所在的第三存储位置；选择第四存储位置，所述第四存储位置位于第三级存储介质，所述第三级存储介质的读取速度高于所述第二级存储介质、且低于第一级存储介质，所述第四存储位置拥有空闲空间；所向所述第二校验分片所在的存储节点发送迁移指示，指示所述第二校验分片所在的存储节点把所述第二校验分片迁移到所述第四存储位置；迁移完成后，把所述第四存储位置的信息更新到所述第一校验分片的元数据。

所述数据分片、所述第一校验分片和所述第二校验分片符合本地重构码LRC算法，其中，所述第一校验分片是LRC算法中的的全局校验分片，所述第二校验分片是LRC算法中的本地校验分片。

所述处理器22还用于执行：接收写数据请求，把写数据请求中携带的目标数据分成数据分片，根据所述数据分片按照LRC算法生成所述全局校验分片和所述本地校验分片；

所述全局校验分片用于对多个数据分片进行校验；所述本地校验分片用于对所述多个数据分片中的一部分数据分片进行校验。

当所述数据分片和所述第一校验分片符合纠删码EC算法，所述处理器还用于执行：

接收写数据请求，把写数据请求中携带的目标数据分成数据分片，根据所述数据分片按照EC算法生成所述第一校验分片。

此外，本发明还提供一种是分片管理装置的实施例，分片管理装置可以是硬件(例如计算节点)还可以是软件(例如计算节点中运行的计算机程序)，所述分片管理装置可以执行前面的分片管理方法，由于对应于分片管理方法，因此仅做简单描述。

分片管理装置包括：读取模块、位置选择模块、迁移模块和元数据管理模块。

所述读取模块，用于读取所述第一校验分片的元数据，从中获得所述第一校验分片所在的第一存储位置。

位置选择模块，用于选择第二存储位置，所述第二存储位置位于第二级存储介质，所述第二级存储介质的读取速度低于所述第一级存储介质，所述第二存储位置拥有空闲空间。

迁移模块，用于向所述第一校验分片所在的存储节点发送迁移指示，指示所述第一校验分片所在的存储节点把所述第一校验分片迁移到所述第二存储位置。

元数据管理节点，把所述第二存储位置的信息更新到所述第一校验分片的元数据。

可选的，上述模块还用于执行这些功能：所述读取模块，还用于读取所述第二校验分片的元数据，从中获得所述第二校验分片所在的第三存储位置；所述位置选择模块，还用于选择第四存储位置，所述第四存储位置位于第三级存储介质，所述第三级存储介质的读取速度高于所述第二级存储介质、且低于第一级存储介质，所述第四存储位置拥有空闲空间；所述迁移模块，还用于所向所述第二校验分片所在的存储节点发送迁移指示，指示所述第二校验分片所在的存储节点把所述第二校验分片迁移到所述第四存储位置；所述元数据管理模块，还用于在迁移完成后，把所述第四存储位置的信息更新到所述第一校验分片的元数据。

在图3所示的方法实施例中，校验分片生成后先写入第一级存储介质，然后对已经写入到第一级存储介质的校验分片进行迁移，迁移目的地是成本较低的第二级存储介质/第三级存储介质。参见图5是本发明另外一个分片管理方法的实施例，和前一种方式的区别在于：在生成校验分片后，直接把校验分片写入到成本较低的第二级存储介质/第三级存储介质。

和前一种方式相比，图5所介绍的实施方式省略了迁移的步骤，因此效率更高。而前一种方式也有自己的优势，那就是第一级存储介质的写入速度更快，写入成功后就可以通知主机(数据单元的发出者)该写入操作依据完成，因此可以更快速的响应主机，尤其是如果第二级存储介质/第三级存储介质是位于冷存储节点的情况下，这种优势更加明显。因为冷存储节点通常是下电状态，在有数据写入是才上电启动，因此响应速度非常慢。

31，计算节点通过对外接口从主机或者服务器接收数据单元，把数据单元拆分成数据分片。

需要说明的是，如果数据单元本身比较小，小于等于分片的大小，那么不需要拆分，而是可以直接获得数据分片(如果小于一个分片的大小，可以通过补0达到分片的大小)。

32，计算节点根据数据分片生成校验分片。校验分片包括第一校验分片和第二校验分片。

关于第一校验分片和第二校验分片的含义参见前面的实施例。对于EC算法，利用数据分片生成一个或者多个校验分片。校验分片也称为第一校验分片。对于LRC算法，利用数据分片生成的校验分片包括本地校验分片和全局校验分片。本实施例中，第一校验分片全局校验分片，第二校验分片是本地校验分片。全局校验分片是对所有数据分片进行校验；本地校验分片是对部分数据分片进行校验。

33，计算节点选择第一级存储介质，把数据分片发送给第一级存储介质所在的存储节点进行存储。第一级存储介质是读写速度最快的介质。

34，计算节点选择第二级存储介质，把第一校验分片发送给第二级存储介质所在的存储节点进行存储。第一级存储介质的读/写速率低于第一级存储介质。

如前所述，在EC场景下或者LRC场景下，第一校验分片可以对数据分片进行校验。在EC场景下，第一校验分片简称为分配。在LRC场景下，第一校验分片相当于全局校验分片。

35，计算节点选择第三级存储介质，把第三校验分片发送给第三级存储介质所在的存储节点进行存储。第三级存储介质的读/写速率低于第一级存储介质、高于第二存储介质。如前所述，步骤35是可选步骤。在LRC的情况下执行步骤35，在EC的情况下，不执行步骤35。

步骤33、34和35这三个步骤可以按照任意时间顺序执行。

36，收到分条的存储节点对分条进行存储。

由于和步骤11-16所描述的方法相比，本实施例的主要区别在于少了迁移的步骤，改为直接对数据分条和校验分条进行分级存储。其余内容(例如算法和节点的解释，校验分片和数据分片的关系，存储位置/节点的选择方案，以及名词的定义等)均可参照前面的实施例。例如，参见步骤15，在步骤33、34和35中，计算节点可以仅指定用于存储分片的存储节点，而不指定存储分片具体的存储介质，由收到分片的存储节点来决定存储分片的存储介质。为了简洁，本实施例对相似的内容不做赘述，直接参照前面的实施例即可。

本发明还提供一种计算节点，可以执行步骤31-36所介绍的方法，同样可以参见图4。

计算节点2，包括处理器单元21和存储器22，所述存储器22中存储有计算机程序。所述计算节点包括处理器单元21和存储器22，还可以包括对外接口(未图示)、存储介质(未图示)。其中存储器单元21例如单核CPU、多核CPU、多个CPU的组合、FPGA，存储器22例如易失性存储介质(例如RAM)、非易失性存储介质(例如硬盘或者SSD)，还可以是所述存储介质的一部分。所述存储器22用于存储计算机程序。

通过运行所述计算机程序，所述处理器单元21用于：通过接口接收数据单元，根据所述数据单元生成数据分片；根据所述数据分片生成第一校验分片；选择位于第一级存储介质的存储空间作为数据分片存储位置，以及选择位于第二级存储介质的存储空间作为第一校验分片存储位置，其中，所述第二级存储介质的读速度低于所述第一级存储介质的读速度；以选择的存储位置发送所述数据分片和所述第一校验分片，以对所述数据分片和所述第一校验分片进行存储，其中，所述数据分片的存储位置是所述位于第一级存储介质的存储空间，所述第一校验分片的存储位置是所述位于第二级存储介质的存储空间。

可选的，通过运行所述计算机程序，所述处理器单元21还用于：根据所述数据分片生成第二校验分片，其中，所述数据分片、所述第一校验分片和所述第二校验分片符合本地重构码LRC算法，所述第一校验分片是LRC算法中的的全局校验分片，所述第二校验分片是LRC算法中的本地校验分片；选择位于第三级存储介质的存储空间作为第二校验分片存储位置，其中，所述第三级存储介质的读速度低于所述第一级存储介质的读速度，且高于或者等于所述第二级存储介质的读速度；以选择的存储位置发送所述数据分片和所述第二校验分片，以对所述第二校验分片进行存储，其中，所述第二校验分片的存储位置是所述位于第三级存储介质的存储空间。

分片管理装置包括：分片模块、位置选择模块、存储模块。

所述分片模块，用于接收数据单元，根据所述数据单元生成数据分片；根据所述数据分片生成第一校验分片。

所述位置选择模块，用于选择位于第一级存储介质的存储空间作为数据分片存储位置，以及选择位于第二级存储介质的存储空间作为第一校验分片存储位置，其中，所述第二级存储介质的读速度低于所述第一级存储介质的读速度。

所述存储模块，用于以选择的存储位置发送所述数据分片和所述第一校验分片，以对数据分片和第一校验分片进行存储，其中所述，数据分片的写请求中携带所述数据分片以及所述数据分片存储位置，第一校验分片的写请求中携带所述第一校验分片以及所述第一校验分片存储位置。

元数据管理模块，用于把分片的存储位置记录在分片的元数据中。

可选的：所述分片模块还用于根据所述数据分片生成第二校验分片，其中，所述数据分片、所述第一校验分片和所述第二校验分片符合本地重构码LRC算法，所述第一校验分片是LRC算法中的的全局校验分片，所述第二校验分片是LRC算法中的本地校验分片；

述所述位置选择模块还用于选择位于第三级存储介质的存储空间作为第二校验分片存储位置，其中，所述第三级存储介质的读速度低于所述第一级存储介质的读速度，且高于或者等于所述第二级存储介质的读速度；所述所述存储模块还用于以选择的存储位置发送写数据请求以第二校验分片进行存储，其中，第二校验分片的写请求中携带所述第二校验分片以及所述第二校验分片存储位置。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的全部或部分步骤。其中，而前述的存储介质可包括：U盘、移动硬盘、磁碟、光盘、只读存储器(ROM，Read-Only Memory)或者随机存取存储器(RAM，Random Access Memory)等各种可以存储程序代码的介质。换言之，本发明提供一种存储介质实施例，该存储介质用于记录计算机程序/软件，通过运行该存储计算机程序/软件，计算机/服务器/计算节点/分布式存储系统，可以执行前述的各个分片管理方法实施例。

以上所述，以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，然而本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种分片管理方法，应用于在分布式存储系统中，所述分布式存储系统包括计算节点和至少一个存储节点，所述存储节点包括至少一个存储介质，分布式存储系统包括多个存储介质，不同分片存储于不同的存储介质，数据分片和第一校验分片均位于第一级存储介质中，其特征在于，该方法包括：

计算节点读取所述第一校验分片的元数据，从中获得所述第一校验分片所在的第一存储位置；

所述计算节点选择第二存储位置，所述第二存储位置位于第二级存储介质，所述第二级存储介质的读取速度低于所述第一级存储介质，所述第二存储位置拥有空闲空间；

所述计算节点向所述第一校验分片所在的存储节点发送迁移指示，指示所述第一校验分片所在的存储节点把所述第一校验分片发送给第二存储位置所在的存储节点；

第二存储位置所在的存储节点把所述第一校验分片存储到第二存储位置；

所述计算节点指示把所述第二存储位置的信息更新到所述第一校验分片的元数据。
根据权利要求1所述的方法，其特征在于，该方法进一步包括：

计算节点读取所述第二校验分片的元数据，从中获得所述第二校验分片所在的第三存储位置；

所述计算节点选择第四存储位置，所述第四存储位置位于第三级存储介质，所述第三级存储介质的读取速度高于所述第二级存储介质、且低于第一级存储介质，所述第四存储位置拥有空闲空间；

所述计算节点向所述第二校验分片所在的存储节点发送迁移指示，指示所述第二校验分片所在的存储节点把所述第二校验分片发送给所述第四存储位置所在的存储节点；

所述第四存储位置所在的存储节点把所述第二校验分片存储到第二存储位置；

所述计算节点指示把所述第四存储位置的信息更新到所述第一校验分片的元数据。
根据权利要求2所述的方法，其特征在于：

所述数据分片、所述第一校验分片和所述第二校验分片符合本地重构码LRC算法，其中，所述第一校验分片是LRC算法中的的全局校验分片，所述第二校验分片是LRC算法中的本地校验分片。
根据权利要求1所述的方法，其特征在于，所述方法之前包括：

计算节点接收写数据请求，把写数据请求中携带的目标数据分成数据分片，根据所述数据分片按照LRC算法生成所述全局校验分片和所述本地校验分片；

所述全局校验分片用于对多个数据分片进行校验；所述本地校验分片用于对所述多个数据分片中的一部分数据分片进行校验。
根据权利要求1所述的方法，其特征在于所述数据分片和所述第一校验分片符合纠删码EC算法，该方法进一步包括：

计算节点接收写数据请求，把写数据请求中携带的目标数据分成数据分片，根据所述数据分片按照EC算法生成所述第一校验分片。
一种计算节点，所述计算节点包括处理器单元和存储器，所述存储器用于存储计算机程序，其特征在于，通过运行所述计算机程序，所述处理器单元用于：

读取所述第一校验分片的元数据，从中获得所述第一校验分片所在的第一存储位置；

选择第二存储位置，所述第二存储位置位于第二级存储介质，所述第二级存储介质的读取速度低于所述第一级存储介质，所述第二存储位置拥有空闲空间；

向所述第一校验分片所在的存储节点发送迁移指示，指示所述第一校验分片所在的存储节点把所述第一校验分片迁移到所述第二存储位置；

迁移完成后，把所述第二存储位置的信息更新到所述第一校验分片的元数据。
根据权利要求1所述的计算节点，其特征在于，所述处理器还用于执行：

读取所述第二校验分片的元数据，从中获得所述第二校验分片所在的第三存储位置；

选择第四存储位置，所述第四存储位置位于第三级存储介质，所述第三级存储介质的读取速度高于所述第二级存储介质、且低于第一级存储介质，所述第四存储位置拥有空闲空间；

所向所述第二校验分片所在的存储节点发送迁移指示，指示所述第二校验分片所在的存储节点把所述第二校验分片迁移到所述第四存储位置；

迁移完成后，把所述第四存储位置的信息更新到所述第一校验分片的元数据。
根据权利要求7所述的计算节点，其特征在于：

所述数据分片、所述第一校验分片和所述第二校验分片符合本地重构码LRC算法，其中，所述第一校验分片是LRC算法中的的全局校验分片，所述第二校验分片是LRC算法中的本地校验分片。
根据权利要求6所述的计算节点，其特征在于，所述处理器还用于执行：

接收写数据请求，把写数据请求中携带的目标数据分成数据分片，根据所述数据分片按照LRC算法生成所述全局校验分片和所述本地校验分片；

所述全局校验分片用于对多个数据分片进行校验；所述本地校验分片用于对所述多个数据分片中的一部分数据分片进行校验。
根据权利要求6所述的计算节点，其特征在于，所述数据分片和所述第一校验分片符合纠删码EC算法，所述处理器还用于执行：

接收写数据请求，把写数据请求中携带的目标数据分成数据分片，根据所述数据分片按照EC算法生成所述第一校验分片。
一种分片管理方法，其特征在于，该方法包括：

计算节点通过接口接收数据单元，根据所述数据单元生成数据分片；

根据所述数据分片生成第一校验分片；

选择位于第一级存储介质的存储空间作为数据分片存储位置；

选择位于第二级存储介质的存储空间作为第一校验分片存储位置，其中，所述第二级存储介质的读速度低于所述第一级存储介质的读速度；

以选择的存储位置发送所述数据分片和所述第一校验分片，以对数据分片和第一校验分片进行存储，其中所述，数据分片的写请求中携带所述数据分片以及所述数据分片存储位置，第一校验分片的写请求中携带所述第一校验分片以及所述第一校验分片存储位置。
根据权利要求11所述的分片管理方法，其特征在于，该方法还包括：

根据所述数据分片生成第二校验分片，其中，所述数据分片、所述第一校验分片和所述第二校验分片符合本地重构码LRC算法，所述第一校验分片是LRC算法中的的全局校验分片，所述第二校验分片是LRC算法中的本地校验分片；

选择位于第三级存储介质的存储空间作为第二校验分片存储位置，其中，所述第三级存储介质的读速度低于所述第一级存储介质的读速度，且高于或者等于所述第二级存储介质的读速度；

以选择的存储位置发送写数据请求以第二校验分片进行存储，其中，第二校验分片的写请求中携带所述第二校验分片以及所述第二校验分片存储位置。
一种计算节点，包括处理器单元和存储器，所述存储器中存储有计算机程序，通过运行所述计算机程序，所述处理器单元用于：

通过接口接收数据单元，根据所述数据单元生成数据分片；

根据所述数据分片生成第一校验分片；

选择位于第一级存储介质的存储空间作为数据分片存储位置，以及选择位于第二级存储介质的存储空间作为第一校验分片存储位置，其中，所述第二级存储介质的读速度低于所述第一级存储介质的读速度；

以选择的存储位置发送所述数据分片和所述第一校验分片，以对所述数据分片和所述第一校验分片进行存储，其中，所述数据分片的存储位置是所述位于第一级存储介质的存储空间，所述第一校验分片的存储位置是所述位于第二级存储介质的存储空间。
根据权利要求13所述的计算节点，其特征在于，通过运行所述计算机程序，所述处理器单元还用于：

根据所述数据分片生成第二校验分片，其中，所述数据分片、所述第一校验分片和所述第二校验分片符合本地重构码LRC算法，所述第一校验分片是LRC算法中的的全局校验分片，所述第二校验分片是LRC算法中的本地校验分片；

选择位于第三级存储介质的存储空间作为第二校验分片存储位置，其中，所述第三级存储介质的读速度低于所述第一级存储介质的读速度，且高于或者等于所述第二级存储介质的读速度；

以选择的存储位置发送所述数据分片和所述第二校验分片，以对所述第二校验分片进行存储，其中，所述第二校验分片的存储位置是所述位于第三级存储介质的存储空间。