WO2019056948A1

WO2019056948A1 - 存储介质的管理方法、装置及可读存储介质

Info

Publication number: WO2019056948A1
Application number: PCT/CN2018/104288
Authority: WO
Inventors: 周建华; 周猛
Original assignee: 华为技术有限公司
Priority date: 2017-09-22
Filing date: 2018-09-06
Publication date: 2019-03-28
Also published as: EP4036735B1; EP3667504A4; CN111966540A; US20220100623A1; US11714733B2; EP3667504A1; EP4036735A1; US20200218621A1; EP3667504B1; CN111966540B; CN107766180A; US11237929B2; CN107766180B

Abstract

本申请公开了一种存储介质的管理方法、装置及可读存储介质，属于数据存储技术领域。该方法包括：检测到存储介质中存在部件出现故障时，基于指定RAID策略对该出现故障的部件中存储的数据进行恢复；将恢复后的数据存储至该存储介质的冗余空间中，并将该出现故障的部件的地址映射至该冗余空间；其中，该冗余空间是预先固定配置的或基于免维护率、免维周期、存储介质的AFR和存储介质包括的部件总数量确定后配置的，免维护率和免维周期是通过对该存储介质的配置指令携带或者从自定义的寄存器中查询得到，该AFR是通过查询得到或由配置指令携带。本申请不需要用户手工更换部件，利用该冗余空间可以实现对存储介质的免维护管理，提高了管理效率。

Description

存储介质的管理方法、装置及可读存储介质

技术领域

本申请涉及数据存储技术领域，特别涉及一种存储介质的管理方法、装置及可读存储介质。

背景技术

随着数据存储技术的快速发展，存储系统得到了广泛的应用。存储系统中通常包括机箱、电源、存储介质等。其中，存储介质作为存储数据的载体，是存储系统中不可或缺的一部分，目前，该存储介质可以包括硬盘、光盘等。进一步地，该硬盘可以为固态硬盘(Solid State Disk，SSD)、硬盘驱动器(Hard Disk Drive，HDD)等。

在实际应用场景中，一些存储介质通常存在一定的生命周期，如果在该生命周期内出现故障，则需要对存储介质进行管理和维护。在相关技术中，通常需要人工对存储介质进行管理和维护，譬如，以硬盘为例，由于硬盘作为现场可更换单元(Field Replace Unit，FRU)能够支持现场拔插更换，因此，当硬盘需要故障时，存储系统一般会发出报警提示，此时，可以由专业人员对存储系统中已损坏的硬盘进行拔插更换，从而实现对存储介质的管理。

在实现本申请的过程中，发现相关技术至少存在以下问题：在上述提供的存储介质的管理方法中，由于当硬盘出现故障时，需要人工进行操作，因此，导致管理效率较低。

发明内容

本申请提供了一种存储介质的管理方法、装置及可读存储介质，用于解决现有技术的管理效率较低问题。所述技术方案如下：

第一方面，提供了一种存储介质的管理方法，应用于存储系统中，所述方法包括：

当检测到存储介质中存在部件出现故障时，基于指定磁盘阵列RAID策略对所述出现故障的部件中存储的数据进行恢复；

将恢复后的数据存储至所述存储介质的冗余空间中，并将所述出现故障的部件的地址映射至所述冗余空间，以实现对所述存储介质的管理；

其中，所述冗余空间是预先配置的或基于免维护率、免维周期、所述存储介质的年失效率AFR和所述存储介质包括的部件总数量确定后配置的，所述免维护率和所述免维周期是通过对所述存储介质的配置指令携带或者从自定义的寄存器中查询得到，所述AFR是通过查询得到或由所述配置指令携带。

在本申请实施例中，由于预先基于免维护率、免维周期、存储介质的AFR和存储介质包括的部件总数量，配置了用于存储故障恢复后的数据的冗余空间，因此，即使当存储介质中存在部件出现故障，也可以将出现故障的部件中的数据转移至该冗余空间中存储，如此，不需要用户手工更换部件，利用该冗余空间可以实现对该存储介质在指定周期内的免维护管理，提高了管理效率。

可选地，所述将恢复后的数据存储至所述存储介质的冗余空间中，并将所述出现故障的部件的地址映射至所述冗余空间之前，还包括：

接收对所述存储介质的配置指令，所述配置指令携带所述免维护率和所述免维周期；

基于所述免维护率、所述免维周期、所述存储介质的AFR和所述存储介质包括的部件总数量，确定在所述免维周期内达到免维护状态所需的冗余空间的容量大小；

基于所述存储介质，配置所述容量大小的冗余空间。

上述在将恢复后的数据存储至所述存储介质的冗余空间中，并将所述出现故障的部件的地址映射至所述冗余空间之前，基于配置指令进行冗余空间的配置，可以使得后续部件出现故障时，能够基于该冗余空间进行免维护管理。

可选地，所述基于所述存储介质，配置所述容量大小的冗余空间，包括：

确定所述冗余空间的容量大小占所述存储介质的总容量的比例；

从所述存储介质包括的每个部件中划分出所述比例的物理存储单元；

将划分出的所有物理存储单元确定为所述容量大小的冗余空间。

上述可以在基于存储介质配置冗余空间时，可以按照一定的比例，将冗余空间分配在各个部件中，如此，提高了配置了灵活性。

可选地，所述配置指令中还携带查询指示，所述查询指示用于指示查询最大免维能力、免维状态、免维配置参数、免维判断结果、可用容量、免维时间以及所述存储介质的平均故障间隔时间MTBF中的至少一个。

在实际实现中，对于之前已经配置过的免维护存储系统，可以通过该Status来查询已配置过的免维参数等。进一步地，可以根据查询到的免维参数，进一步来判断本次是否可以配置成功，保证了实现的可靠性。

可选地，所述基于所述存储介质，配置所述容量大小的冗余空间之后，还包括：

基于经过冗余空间配置后剩余的存储介质，重新进行RAID策略配置；

将重新配置后的RAID策略确定为所述指定RAID策略。

上述在冗余空间配置成功后，重新进行RAID策略配置，以便于后续当存储介质出现部件故障时，可以基于该重新配置后的RAID策略恢复回失效盘中的数据，从而保证了对存储介质管理的可靠性。

可选地，所述基于指定磁盘阵列RAID策略对所述出现故障的部件中存储的数据进行恢复之前，还包括：

查询所述冗余空间当前剩余的容量大小是否大于或等于所述出现故障的部件中存储的数据的大小；

若所述冗余空间当前剩余的容量大小大于或等于所述出现故障的部件中存储的数据的大小，则执行所述基于所述指定RAID策略对所述出现故障的部件中存储的数据进行恢复的操作；

若所述冗余空间当前剩余的容量大小小于所述出现故障的部件中存储的数据的大小，则确定所述冗余空间当前剩余的容量与所述出现故障的部件中存储的数据的大小之间的差值，并从所述存储系统的预留OP空间借用所述差值大小的物理存储单元作为所述冗余空间。

上述在基于指定RAID策略对所述出现故障的部件中存储的数据进行恢复之前，查询配置的冗余空间当前剩余的容量大小是否足够存储出现故障的部件中存储的数据，以便于存储系统能够根据实际情况，确定是否需要从存储系统的预留OP空间借用部分空间来作为热备冗余，如此，保证了即使在冗余空间当前剩余的容量不足以存储出现故障的部件中存储的数据时，仍能够继续保证存储介质能够免维护。如此，提高了数据存储的可靠性。

第二方面，提供了一种存储介质的管理装置，配置于存储系统中，所述装置包括：

恢复模块，用于当检测到存储介质中存在部件出现故障时，基于指定磁盘阵列RAID策略对所述出现故障的部件中存储的数据进行恢复；

存储模块，用于将恢复后的数据存储至所述存储介质的冗余空间中，并将所述出现故障的部件的地址映射至所述冗余空间，以实现对所述存储介质的管理；

其中，所述冗余空间是预先固定配置的或基于免维护率、免维周期、所述存储介质的年失效率AFR和所述存储介质包括的部件总数量确定后配置的，所述免维护率和所述免维周期是通过对所述存储介质的配置指令携带或者从自定义的寄存器中查询得到，所述AFR是通过查询得到或由所述配置指令携带。

可选地，所述装置还包括：

接收模块，用于接收对所述存储介质的配置指令，所述配置指令携带所述免维护率和所述免维周期；

第一确定模块，用于基于所述免维护率、所述免维周期、所述存储介质的AFR和所述存储介质包括的部件总数量，确定在所述免维周期内达到免维护状态所需的冗余空间的容量大小；

第一配置模块，用于基于所述存储介质，配置所述容量大小的冗余空间。

可选地，所述第一配置模块用于：

可选地，所述装置还包括：

第二配置模块，用于基于经过冗余空间配置后剩余的存储介质，重新进行RAID策略配置；

第二确定模块，用于将重新配置后的RAID策略确定为所述指定RAID策略。

可选地，所述装置还包括：

查询模块，用于查询所述冗余空间当前剩余的容量大小是否大于或等于所述出现故障的部件中存储的数据的大小；

触发模块，用于当所述冗余空间当前剩余的容量大小大于或等于所述出现故障的部件中存储的数据的大小时，触发所述恢复模块执行所述基于所述指定RAID策略对所述出现故障的部件中存储的数据进行恢复的操作；

第三配置模块，用于当所述冗余空间当前剩余的容量大小小于所述出现故障的部件中存储的数据的大小时，确定所述冗余空间当前剩余的容量与所述出现故障的部件中存储的数据的大小之间的差值，并从所述存储系统的预留OP空间配置所述差值大小的物理存储单元作为所述冗余空间。

第三方面，提供了一种存储介质的管理装置，所述存储介质的管理装置的结构中包括处理器和存储器，所述存储器用于存储支持存储介质的管理装置执行上述第一方面所提供的存储介质的管理方法的程序，以及存储用于实现上述第一方面所提供的存储介质的管理方法所涉及的数据。所述处理器被配置为用于执行所述存储器中存储的程序。所述存储设备的操作装置还可以包括通信总线，该通信总线用于该处理器与存储器之间建立连接。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的存储介质的管理方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的存储介质的管理方法。

上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

本申请提供的技术方案带来的有益效果是：由于预先固定配置或基于免维护率、免维周期、存储介质的AFR和存储介质包括的部件总数量，配置了用于存储故障恢复后的数据的冗余空间，因此，即使当存储介质中存在部件出现故障，也可以将出现故障的部件中的数据转移至该冗余空间中存储，如此，不需要用户手工更换部件，利用该冗余空间可以实现对该存储介质的免维护管理，提高了管理效率。

附图说明

图1是本申请实施例提供的一种计算机设备的结构示意图；

图2是根据一示例性实施例示出的一种存储介质的管理方法；

图3A是根据一示例性实施例示出的一种存储介质的管理装置；

图3B是根据另一示例性实施例示出的一种存储介质的管理装置；

图3C是根据另一示例性实施例示出的一种存储介质的管理装置；

图3D是根据另一示例性实施例示出的一种存储介质的管理装置。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行详细介绍之前，先对本申请实施例涉及的名词、应用场景和系统架构进行简单介绍。

首先，对本申请实施例涉及的名词进行简单介绍。

冗余空间：主要用于存储故障恢复后的数据，在实际应用中，还可以称为热备冗余。也即是，当存储介质中的某部件出现故障时，可以将该部件中存储的数据进行恢复后转移至该冗余空间中，以通过该冗余空间实现数据存储。

免维护率：冗余空间不全部损坏的概率，例如，若某存储介质中包括n个部件，部件冗余数为k，则免维护率是指该n个部件中出现不大于k个故障的概率。通常在本领域中，免维护率存在3个9或5个9等几种要求。其中，3个9意味着存储介质需要维护的概率小于千分之一，即5年内需要维护的设备套数小于1套；5个9意味着存储介质需要维护的概率小于十万分之一。例如，若免维护率为99.999128％，则说明需要满足5个9的免维护率要求。

免维周期：存储介质不需要维护的周期，例如，若该免维周期为3，则意味着3年内不需要对该存储介质进行维护。

平均故障间隔时间：(Mean Time Between Failure，MTBF)，是用于衡量一个设备的可靠性指标，是指相邻两次故障之间的平均工作时间，也称为平均故障间隔或平均无故障时间。例如，磁盘阵列的MTBF一般不低于50000小时，典型的SSD的MTBF是150万小时或200万小时。

年失效率：(Annualized Failure Rate，AFR)，是指设备一年内失效的概率。该AFR与上述MTBF相对应，例如，若该SSD的MTBF是150万小时或200万小时，则对应的AFR分别为0.584％或0.438％。

独立冗余磁盘阵列：(Redundant Arrays of Independent Disks，RAID)策略，目前，使用较多的包括RAID5策略和RAID6策略等。接下来，以配置22+1的RAID5策略为例进行说明，假设某SSD包括23个盘，此时，相当于有一个盘用于存储校验数据，该校验数据用于对该SSD中出现故障的盘中的数据进行恢复。并且，该22+1的RAID5策略只支持一个盘出现故障时进行数据恢复，若出现两个或两个以上的盘出现故障，则无法进行数据恢复。

预留空间：(Over-provisioning，OP)又称超供空间，是指存储系统预留的供存储系统使用而用户不可用的空间，即该OP空间通常不用于存储用户数据，例如，该OP空间可以用于系统垃圾回收等作用。

接下来，对本申请实施例涉及的应用场景进行简单介绍。

在使用存储介质进行数据存储的过程中，即使在存储介质的生命周期内，也可能由于一些不可避免的因素导致存储介质中出现部件损坏的情况。目前，当部件损坏时，一般需要人工对损坏的部件进行拔插更换，如此，不仅导致提高了网络部署和运维成本的问题，还使得存储介质的管理效率较低。为此，本申请提供了一种存储介质的管理方法，该方法针对存储系统中的存储介质划分出合理的冗余空间，并利用该冗余空间，使得在免维周期内，当存储介质中出现部件损坏时，可以避免需要人工进行手动更换，即在免维周期内能够达到免维护的效果，如此，不仅减低了网络部署和运维成本，增强了用户体验，还提高了存储介质的管理效率。其具体实现请参见如下图2所示的实施例。

最后，对本本申请实施例涉及的系统架构进行简单介绍。

本申请提供的存储介质的管理方法可以由存储系统来执行，进一步地，该存储系统配置于主机中。需要说明的是，该存储系统除了包括有存储介质外，还通常包括有机箱、电源、风扇、备用电源组(Battery Backup Unit，BBU)、接口卡、控制模块等。

在实际实现中，该存储介质可以为硬盘单元、软盘等，进一步地，该硬盘单元可以包括一个或者多个硬盘。其中，由于硬盘SSD具备高性能和高可靠性，所以SSD在存储系统中的应用较为广泛，因此，如下图2所示的实施例将以该存储介质是SSD为例进行详细说明。

接下来，对SSD进行简单的介绍：固态硬盘SSD多使用与非门闪存(NAND Flash)来实现，该NAND Flash是一种非易失性随机访问存储介质，其特点是断电后数据不消失，它不同于传统的易失性随机访问存储介质和挥发性存储器，因此，可以作为外部存储器使用。目前SSD的物理形态也包括多种，有和HDD相同大小的2.5寸、也有独立印刷线路板(Printed Circuit Board，PCB)的M.2，有定制特性长度的PCB形态，还有独立单芯片封装的球珊阵列结构(Ball Grid Array，BGA)形态等等。

图1是本申请实施例提供的一种计算机设备的结构示意图。上述存储系统可以通过图1所示的计算机设备来实现。参见图1，该计算机设备包括至少一个处理器101，通信总线102，存储器103以及至少一个通信接口104。

处理器101可以是一个通用中央处理器(Central Processing Unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信总线102可包括一通路，在上述组件之间传送信息。

存储器103可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，随机存取存储器(random access memory，RAM))或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器103可以是独立存在，通过通信总线102与处理器101相连接。存储器103也可以和处理器101集成在一起。

通信接口104，使用任何收发器一类的装置，用于与其它设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area Networks，WLAN)等。

在具体实现中，作为一种实施例，处理器201可以包括一个或多个CPU，例如图1中所示的CPU0和CPU1。

在具体实现中，作为一种实施例，计算机设备可以包括多个处理器，例如图1中所示的处理器101和处理器105。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备还可以包括输出设备106和输入设备107。输出设备106和处理器101通信，可以以多种方式来显示信息。例如，输出设备106可以是液晶显示器(liquid crystal display，LCD),发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备107和处理器101通信，可以以多种方式接收用户的输入。例如，输入设备107可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的计算机设备可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中，计算机设备可以是台式机、便携式电脑、网络服务器、掌上电脑(Personal Digital Assistant，PDA)、移动手机、平板电脑、无线终端设备、通信设备或者嵌入式设备。本申请实施例不限定计算机设备的类型。

其中，存储器103用于存储执行本申请方案的程序代码，并由处理器101来控制执行。处理器101用于执行存储器103中存储的程序代码108。程序代码108中可以包括一个或多个软件模块。上述存储系统可以通过处理器101以及存储器103中的程序代码108中的一个或多个软件模块，来确定用于开发应用的数据。

接下来，结合附图2对本申请实施例进行详细地介绍。请参考图2，该图2是根据一示例性实施例示出的一种存储介质的管理方法，该存储介质的管理方法应用于上述存储系统中，该方法可以包括如下几个实现步骤：

步骤201：接收对该存储介质的配置指令，该配置指令携带免维护率和免维周期。

免维护的核心是利用冗余空间使得部件在生命周期内不会全部损坏。因此，在实际实现中，为了能够使得存储介质达到免维护的效果，用户可以根据实际需求，在存储介质中配置合理容量大小的冗余空间，以利用该冗余空间实现免维的效果。其中，配置合理容量大小的冗余空间的具体实现如步骤201至步骤203所述。

其中，该配置指令可以由主机发送给该存储系统，进一步地，该配置指令可以由用户通过主机发送给该存储系统。

也即是，用户可以根据实际需求，自定义设置免维护率和免维周期，并通过配置指令向存储系统进行下发，以配置或更改存储系统的免维参数。其中，若该存储系统之前未配置有冗余空间，则用户下发该配置指令意味着指示存储系统配置免维参数，若该存储系统之前配置有冗余空间，则用户下发该配置指令意味着指示存储系统更改免维参数。

例如，若用户希望在3年内存储介质达到99.999128％的免维护率要求，则在该配置指令中携带的免维护率可以配置为99.999128％，免维周期配置为3。

需要说明的是，在实际实现过程中，该配置指令的格式可以采用标准小型计算机系统接口(Small Computer System Interface，SCSI)/非易失性存储器传输标准(Non Volatile Memory express，NVMe)等命令形式，也可以采用自定义形式。

譬如，若该配置指令的格式采用SCSI或NVMe的命令形式，则该配置指令具体可以为：Dis_Maintain(Control)。其中，Control中还可以包含免维开关、免维护率、免维周期等参数。

其中，免维开关用于指示打开免维功能或者关闭免维功能，在免维功能打开的状态下可以进行参数设置，譬如，设置免维护率、免维周期等免维参数。

进一步地，上述免维开关可以通过DisMaintain_EN来定义，例如，当DisMaintain_EN＝10b时，表示关闭免维功能，当DisMaintain_EN＝01b时，表示打开免维功能。

若需要更换免维参数时，还可以定义免维调整参数DisMaintain_Adjust，当需要调整免维参数时，定义DisMaintain_Adjust＝1，这意味着更改为新的免维护率和免维周期。

进一步地，上述免维护率可以通过DisMaintain_Rate来进行定义，免维周期可以通过DisMaintain_Cycle来进行定义。例如，若免维护率DisMaintain_Rate＝05h，免维周期DisMaintain_Cycle＝03h，则说明需要达到5个9的要求，且需要达到3年免维的目的。

需要说明的是，上述仅是以该免维护率和免维周期是通过对存储介质的配置指令携带为例进行说明。在另一种实现方式中，该免维护率和免维周期还可以是该存储系统从自定义的寄存器中查询得到，也即是，该免维护率和免维周期可以预先默认存储在该寄存器中。在该种情况下，当存储系统接收到配置指令时，从该寄存器中查询该免维护率和免维周期。

进一步地，该配置指令中还携带查询指示，该查询指示用于指示查询最大免维能力、免维状态、免维配置参数、免维判断结果、可用容量、免维时间以及该存储介质的MTBF中的至少一个。

此时，该配置指令中可以配置多个参数，例如，该配置指令可以为Dis_Maintain(Control，Status)，其中，Status表示该查询指示。进一步，对于之前已经配置过的免维护存储系统，可以通过该Status来查询已配置过的免维参数等。

其中，该最大免维能力是指系统能够支持的最大的免维周期和免维护率。此时，在一种可能的实现方式中，若经过查询确定该最大免维能力DisMaintain_Max为10年免维周期，以及支持8个9的免维护率，则存储系统在执行如下步骤之前，还可以判断配置指令中携带的免维周期和免维护率是否超过该最大免维能力，如果配置指令中携带的免维周期和免维护率超过该最大免维能力，则可以提示无法进行配置，否则，可以继续执行后续步骤202。

当然，需要说明的是，在实际实现中，还可以不判断配置指令中携带的免维周期和免维护率是否超过该最大免维能力，即直接执行后续步骤。

上述免维状态包括打开状态和关闭状态，进一步地，在实际应用中，免维状态可以定义为DisMaintain_Status。

上述免维配置参数是指之前设置过的免维护率和免维周期，进一步地，该免维配置参数可以定义为DisMaintain_Para。

上述该免维判断结果包括成功和失败，例如，如果可以配置成功，则显示succeed，如果配置不成功(例如，当配置的免维参数超出系统最大免维能力时)，则显示failed。进一步地，该免维判断结果可以定义为DisMaintain_judge。

上述可用容量是指开启免维功能后用户可用的容量。进一步地，该可用容量可以定义为DisMaintain_Capa。

上述免维时间包括开启免维功能的时间以及剩余免维时间。进一步地，该免维时间可以定义为DisMaintain_Time。

上述通过查询该存储介质的MTBF，可以确定对应的AFR。进一步地，该存储介质的MTBF可以定义为DisMaintain_MTBF，如若查询到DisMaintain_MTBF＝200万小时，则可以确定对应的AFR为0.438％。

需要说明的是，上述仅是以该查询指示用于指示查询最大免维能力、免维状态、免维配置参数、免维判断结果、可用容量、免维时间以及该存储介质的MTBF中的至少一个为例进行说明，在实际实现中，该查询指示还可能用于指示查询其它信息，例如，还可以用于指示查询AFR等。

另外，还需要说明的是，上述仅是以该配置指令中携带该查询指示为例进行说明，在实际实现中，还可以单独通过一个命令携带该查询指示，本申请实施例对此不做限定。

步骤202：基于该免维护率、该免维周期、该存储介质的AFR和该存储介质包括的部件总数量，确定在该免维周期内达到免维护状态所需的冗余空间的容量大小。

进一步地，该存储系统可以基于该免维护率、该免维周期、该存储介质的AFR和该存储介质包括的部件总数量，通过如下公式(1)，确定在该免维周期内达到免维护状态所需的冗余空间的容量大小：

ΣP{X＝k}＝ΣC(n,k)*p^k*(1-p)^(n-k) (1)；

其中，ΣP{X＝k}代表免维护率，即表示n出现不大于k个故障的概率。该n代表存储介质包括的总部件数量。该k代表冗余空间的容量大小。该p代表总失效率，由AFR和免维周期决定，即p＝AFR*year，该year代表上述免维周期。

其中，该AFR可以通过查询得到，其查询方法如前文所述，这里不再重复赘述。或者，该AFR还可以由上述配置指令携带，也即是，该AFR还可以由用户基于实际使用的存储介质进行查询后通过该配置指令输入。

由此可见，通过上述公式(1)，可以确定在该免维周期内达到免维护状态所需的冗余空间的容量大小。

例如，若该存储介质为25个1TB的SSD，该SSD的物理裸容量为25TB，其中，假设系统预留的系统OP空间为7TB，则用户可用物理容量为18TB。进入SSD的免维状态后(即接收到上述配置指令后)，假设接收到的配置指令中携带的免维护率为5个9，免维周期为3年，通过查询确定AFR为0.438％，则通过如上公式(1)可以确定需要配置的冗余空间为5TB，即需要配置5个SSD的空间，此时，用户可用物理容量降低为13TB。

需要说明的是，在本申请中，该存储介质包括的部件为系统中用于独立故障单元的存储部件，即各个部件之间彼此独立，若一个部件损坏，不会影响到周围的其它部件。

需要说明的是，这里仅是以基于免维护率、免维周期、该存储介质的年失效率AFR和该存储介质包括的部件总数量确定冗余空间的大小为例进行说明。在实际实现中，该冗余空间还可以是固定配置的，即该冗余空间的容量大小已经预先固定设置，此时，不需要执行上述计算过程，只需要基于预先固定设置的容量大小，执行后续的配置操作即可。

还需要说明的是，依赖冗余实现免维是存在代价的，部件力度增加可以在一定程度上降低冗余比，如果存储介质中的部件较多，则实现免维的代价相对就会比较小。例如，以AFR为0.438％为例，若一个硬盘框24个盘，如果需要达到3年免维护的效果，则通过如上公式(1)可以计算出需要冗余5个盘；如果部件总数增加到240个，则到达3年的免维护效果，冗余盘数量相对减少到13个；若部件总数进一步增加，则冗余比也会进一步降低。其中，该冗余比是指冗余数与部件总数量之间的比值。因此，用户在进行系统设计(如，配置免维参数)时，需要综合衡量冗余比投入、维护投入、备件投入等投入产生比。

步骤203：基于该存储介质，配置该容量大小的冗余空间。

在一种可能的实现方式中，基于该存储介质，配置该容量大小的冗余空间的具体实现可以包括：确定该冗余空间的容量大小占该存储介质的总容量的比例，从该存储介质包括的每个部件中划分出该比例的物理存储单元，将划分出的所有物理存储单元确定为该容量大小的冗余空间。

以上述举例为例，若确定需要配置5TB大小的冗余空间，则存储系统可以确定该冗余空间的容量大小占该存储介质的总容量的比例为5/25，因此，对于该SSD包括的25个盘中的每个盘，该存储系统可以从该每个盘中划分出5/25大小的物理单元，之后，将划分出的所有物理存储单元确定为该容量大小的冗余空间，如此，实现了从该存储介质中配置5TB大小的冗余空间。

当然，需要说明的是，上述基于该存储介质配置该容量大小的冗余空间的具体实现仅是示例性的，在另一实施例中，还可以通过其它方式实现基于该存储介质配置该容量大小的冗余空间的步骤。例如，在另一种可能的实现方式中，还可以从用户可用的18TB中选择5TB作为冗余空间，也即是，从该18个盘中选择5个盘，并将该5个盘作为上述冗余空间。或者，在另一种可能的实现方式中，还可以将该冗余空间平均分配在该18个盘中，本申请实施例对此不做限定。

进一步地，基于该存储介质，配置该容量大小的冗余空间之后，还需要基于经过冗余空间配置后剩余的存储介质，重新进行RAID策略配置，将重新配置后的RAID策略确定为该指定RAID策略。

由于在该存储介质中进行冗余空间配置后，相当于对存储介质的物理单元重新进行了划分，因此，此时，需要重新进行RAID策略配置，如配置21+2的纠删码(Erasure Code，EC)或RAID6、22+1的RAID5等，以便于后续当存储介质出现部件故障时，可以基于该重新配置后的RAID策略恢复回失效盘中的数据。

需要说明的是，在一种可能的实现方式中，重新配置后的RAID策略也可以和原RAID策略保持一致，本申请对此不做限定。

存储系统配置完冗余空间后，当检测到存储介质中存在部件出现故障时，即可利用该冗余空间实现免维护管理，其具体实现请参见如下步骤204至步骤205。

步骤204：当检测到存储介质中存在部件出现故障时，基于该指定RAID策略对出现故障的部件中存储的数据进行恢复。

如果检测到存储介质中存在部件出现故障，为了防止数据丢失，存储系统启动重新配置后的指定RAID策略进行数据恢复，此时，已损坏的部件不再使用。

进一步地，基于指定RAID策略对该出现故障的部件中存储的数据进行恢复之前，还可以查询已配置的冗余空间是否足够存储已损坏的部件中的数据。如果已配置的冗余空间当前剩余的容量大小足够存储已损坏的部件中的数据，则执行如下步骤205，但如果已配置的冗余空间当前剩余的容量大小不足以存储已损坏的部件中的数据(如，某些异常导致存储介质的故障率增加)，为了能够继续保证存储介质能够免维护，可以从存储介质或系统的OP空间中借一部分空间来做热备冗余。

具体地，查询该冗余空间当前剩余的容量大小是否大于或等于该出现故障的部件中存储的数据的大小，若该冗余空间当前剩余的容量大小大于或等于该出现故障的部件中存储的数据的大小，则执行如下步骤205，若该冗余空间当前剩余的容量大小小于该出现故障的部件中存储的数据的大小，则确定该冗余空间当前剩余的容量与出现故障的部件中存储的数据的大小之间的差值，并从该存储系统的预留OP空间配置该差值大小的物理存储单元作为该冗余空间。其中，该存储系统的预留OP空间指的是为了提升存储系统性能和可靠性而从存储介质空间中预留的用于系统访问的而用户不能访问的OP空间。

也即是，如果该冗余空间当前剩余的容量大小大于或等于该出现故障的部件中存储的数据的大小，则说明已配置的冗余空间当前剩余的容量大小足够存储已损坏的部件中的数据，此时，可以执行如下步骤205。如果该冗余空间当前剩余的容量大小小于该出现故障的部件中存储的数据的大小，则说明已配置的冗余空间当前剩余的容量大小不足以存储已损坏的部件中的数据，此时，由于不能减少用户的可用容量空间，因此，需要从存储系统的OP空间中借一部分空间来存储恢复后的数据，并将该出现故障的部件的地址映射至借用的该部分空间中。

需要说明的是，这里仅是以从存储系统的OP空间中借一部分空间来存储恢复后的数据为例进行说明，在实际实现中，若该存储系统的OP空间不足，则还可以从存储介质的OP空间中借一部分空间来存储恢复后的数据。

步骤205：将恢复后的数据存储至该存储介质的冗余空间中，并将该出现故障的部件的地址映射至该冗余空间，以实现对该存储介质的管理。

由于出现故障的部件已经损坏，无法再使用，因此，需要将恢复后的数据存储至该存储介质的冗余空间中，以利用该冗余空间存储出现故障的部件中的数据。

另外，在实际应用场景中，为了提高用户体验，通常希望部件的损坏对用户来说是不感知的，为此，需要将出现故障的部件的地址映射至该冗余空间，如此，对于用户来说还是按照原来出现故障的部件的地址写数据，而实际上该数据已转移至冗余空间中进行存储。

例如，假设出现故障的部件的地址为Disk1的0GB～200GB空间，则存储系统将恢复后的数据存储至该存储介质的冗余空间后，将该出现故障的部件的地址Disk1的0GB～200GB空间映射至该冗余空间。如此，对于用户来说，原计划存到Disk1的0GB～200GB空间的数据，但实际上该数据已不再存储到出现故障的部件中，而是存储至该冗余空间中。

需要说明的是，如前文所述，该冗余空间是预先固定配置的或基于免维护率、免维周期、该存储介质的年失效率AFR和该存储介质包括的部件总数量确定后配置的，该免维护率和该免维周期是通过对该存储介质的配置指令携带或从自定义的寄存器中查询得到，该AFR是通过查询得到或由该配置指令携带。

需要说明的是，上述仅是以该存储介质的管理方法应用于存储系统中为例进行说明，在另一实施例中，该存储介质的管理方法还可以应用于全闪存(例如，固态硬盘阵列(Solid-State Array，SSA)或全闪存阵列(All Flash Array，AFA))系统中，其具体实现原理类似，这里不再重复赘述。

在本申请实施例中，由于预先固定配置或基于免维护率、免维周期、存储介质的AFR和存储介质包括的部件总数量，配置了用于存储故障恢复后的数据的冗余空间，因此，即使当存储介质中存在部件出现故障，也可以将出现故障的部件中的数据转移至该冗余空间中存储，如此，不需要用户手工更换部件，利用该冗余空间可以实现对该存储介质的免维护管理，提高了管理效率。

参见图3A，该图3A是根据一示例性实施例示出的一种存储介质的管理装置，该存储介质的管理装置可以由软件、硬件或者两者的结合实现，该装置包括：

恢复模块310，用于执行上述图2所示实施例中的步骤204；

存储模块320，用于执行行数图2所示实施例中的步骤205。

可选地，请参考图3B，该装置还包括：

接收模块330，用于执行上述图2所示实施例中的步骤201；

第一确定模块340，用于执行上述图2所示实施例中的步骤202；

第一配置模块350，用于执行上述图2所示实施例中的步骤203。

可选地，该第一配置模块350用于：

确定该冗余空间的容量大小占该存储介质的总容量的比例；

从该存储介质包括的每个部件中划分出该比例的物理存储单元；

将划分出的所有物理存储单元确定为该容量大小的冗余空间。

可选地，请参考图3C，该装置还包括：

第二配置模块360，用于基于经过冗余空间配置后剩余的存储介质，重新进行RAID策略配置；

第二确定模块370，用于将重新配置后的RAID策略确定为所述指定RAID策略。

可选地，请参考图3D，该装置还包括：

查询模块380，用于查询该冗余空间当前剩余的容量大小是否大于或等于该出现故障的部件中存储的数据的大小；

触发模块390，用于当该冗余空间当前剩余的容量大小大于或等于该出现故障的部件中存储的数据的大小时，触发该恢复模块310执行上述图2所示实施例中的步骤204；

第三配置模块312，用于当该冗余空间当前剩余的容量大小小于该出现故障的部件中存储的数据的大小时，确定该冗余空间当前剩余的容量与出现故障的部件中存储的数据的大小之间的差值，并从该存储系统的预留OP空间配置该差值大小的物理存储单元作为该冗余空间。

需要说明的是：上述实施例提供的存储介质的管理装置在实现存储介质的管理方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的存储介质的管理装置与存储介质的管理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如：同轴电缆、光纤、数据用户线(Digital Subscriber Line，DSL))或无线(例如：红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如：软盘、硬盘、磁带)、光介质(例如：数字通用光盘(Digital Versatile Disc，DVD))、或者半导体介质(例如：固态硬盘(Solid State Disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种存储介质的管理方法，应用于存储系统中，其特征在于，所述方法包括：

当检测到存储介质中存在部件出现故障时，基于指定磁盘阵列RAID策略对所述出现故障的部件中存储的数据进行恢复；

将恢复后的数据存储至所述存储介质的冗余空间中，并将所述出现故障的部件的地址映射至所述冗余空间，以实现对所述存储介质的管理；

其中，所述冗余空间是固定配置的或基于免维护率、免维周期、所述存储介质的年失效率AFR和所述存储介质包括的部件总数量确定后配置的，所述免维护率和所述免维周期是通过对所述存储介质的配置指令携带或者从自定义的寄存器中查询得到，所述AFR是通过查询得到或由所述配置指令携带。
如权利要求1所述的方法，其特征在于，所述将恢复后的数据存储至所述存储介质的冗余空间中，并将所述出现故障的部件的地址映射至所述冗余空间之前，还包括：

接收对所述存储介质的配置指令，所述配置指令携带所述免维护率和所述免维周期；

基于所述免维护率、所述免维周期、所述存储介质的AFR和所述存储介质包括的部件总数量，确定在所述免维周期内达到免维护状态所需的冗余空间的容量大小；

基于所述存储介质，配置所述容量大小的冗余空间。
如权利要求2所述的方法，其特征在于，所述基于所述存储介质，配置所述容量大小的冗余空间，包括：

确定所述冗余空间的容量大小占所述存储介质的总容量的比例；

从所述存储介质包括的每个部件中划分出所述比例的物理存储单元；

将划分出的所有物理存储单元确定为所述容量大小的冗余空间。
如权利要求1或2所述的方法，其特征在于，所述配置指令中还携带查询指示，所述查询指示用于指示查询最大免维能力、免维状态、免维配置参数、免维判断结果、可用容量、免维时间以及所述存储介质的平均故障间隔时间MTBF中的至少一个。
如权利要求2所述的方法，其特征在于，所述基于所述存储介质，配置所述容量大小的冗余空间之后，还包括：

基于经过冗余空间配置后剩余的存储介质，重新进行RAID策略配置；

将重新配置后的RAID策略确定为所述指定RAID策略。
如权利要求1所述的方法，其特征在于，所述基于指定磁盘阵列RAID策略对所述出现故障的部件中存储的数据进行恢复之前，还包括：

查询所述冗余空间当前剩余的容量大小是否大于或等于所述出现故障的部件中存储的数据的大小；

若所述冗余空间当前剩余的容量大小大于或等于所述出现故障的部件中存储的数据的大小，则执行所述指定RAID策略对所述出现故障的部件中存储的数据进行恢复的操作；

若所述冗余空间当前剩余的容量大小小于所述出现故障的部件中存储的数据的大小，则确定所述冗余空间当前剩余的容量与所述出现故障的部件中存储的数据的大小之间的差值，并从所述存储系统的预留OP空间配置所述差值大小的物理存储单元作为所述冗余空间。
一种存储介质的管理装置，配置于存储系统中，其特征在于，所述装置包括：

恢复模块，用于当检测到存储介质中存在部件出现故障时，基于指定磁盘阵列RAID策略对所述出现故障的部件中存储的数据进行恢复；

存储模块，用于将恢复后的数据存储至所述存储介质的冗余空间中，并将所述出现故障的部件的地址映射至所述冗余空间，以实现对所述存储介质的管理；

其中，所述冗余空间是固定配置的或基于免维护率、免维周期、所述存储介质的年失效率AFR和所述存储介质包括的部件总数量确定后配置的，所述免维护率和所述免维周期是通过对所述存储介质的配置指令携带或者从自定义的寄存器中查询得到，所述AFR是通过查询得到或由所述配置指令携带。
如权利要求7所述的装置，其特征在于，所述装置还包括：

接收模块，用于接收对所述存储介质的配置指令，所述配置指令携带所述免维护率和所述免维周期；

第一确定模块，用于基于所述免维护率、所述免维周期、所述存储介质的AFR和所述存储介质包括的部件总数量，确定在所述免维周期内达到免维护状态所需的冗余空间的容量大小；

第一配置模块，用于基于所述存储介质，配置所述容量大小的冗余空间。
如权利要求8所述的装置，其特征在于，所述第一配置模块用于：

确定所述冗余空间的容量大小占所述存储介质的总容量的比例；

从所述存储介质包括的每个部件中划分出所述比例的物理存储单元；

将划分出的所有物理存储单元确定为所述容量大小的冗余空间。
如权利要求7或8所述的装置，其特征在于，所述配置指令中还携带查询指示，所述查询指示用于指示查询最大免维能力、免维状态、免维配置参数、免维判断结果、可用容量、免维时间以及所述存储介质的平均故障间隔时间MTBF中的至少一个。
如权利要求8所述的装置，其特征在于，所述装置还包括：

第二配置模块，用于基于经过冗余空间配置后剩余的存储介质，重新进行RAID策略配置；

第二确定模块，用于将重新配置后的RAID策略确定为所述指定RAID策略。
如权利要求7所述的装置，其特征在于，所述装置还包括：

查询模块，用于查询所述冗余空间当前剩余的容量大小是否大于或等于所述出现故障的部件中存储的数据的大小；

触发模块，用于当所述冗余空间当前剩余的容量大小大于或等于所述出现故障的部件中存储的数据的大小时，触发所述恢复模块执行所述基于所述指定RAID策略对所述出现故障的部件中存储的数据进行恢复的操作；

第三配置模块，用于当所述冗余空间当前剩余的容量大小小于所述出现故障的部件中存储的数据的大小时，确定所述冗余空间当前剩余的容量与所述出现故障的部件中存储的数据的大小之间的差值，并从所述存储系统的预留OP空间配置所述差值大小的物理存储单元作为所述冗余空间。
一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求1-6所述的任一项方法的步骤。