WO2016101786A1

WO2016101786A1 - 一种预测非易失性存储介质发生故障的方法及装置

Info

Publication number: WO2016101786A1
Application number: PCT/CN2015/096690
Authority: WO
Inventors: 孔伟康; 李定; 李强
Original assignee: 华为技术有限公司
Priority date: 2014-12-25
Filing date: 2015-12-08
Publication date: 2016-06-30
Also published as: CN105787242A; CN109933448B; CN109933448A; CN105787242B

Abstract

一种预测非易失性存储介质发生故障的方法及装置：针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质，分别执行（100）：计算任意一非易失性存储介质的状况值，状况值用于表征任意一非易失性存储介质的运行状况（110）；确定状况值小于与任意一非易失性存储介质对应的初始预设故障门限值时，预测任意一非易失性存储介质将发生故障；状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同（120），在该方案中，状况值不同的非易失性存储介质分别对应不同的初始预设故障门限值，即状况值不同的非易失性存储介质分别对应不同的报警门槛，因此，提高了预测出的发生故障的非易失性存储介质的准确度。

Description

一种预测非易失性存储介质发生故障的方法及装置

本申请要求于2014年12月25日提交中国专利局、申请号为201410822384.5、发明名称为“一种预测非易失性存储介质发生故障的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机技术领域，特别涉及一种预测非易失性存储介质发生故障的方法及装置。

背景技术

数据存储越来越重要，保证数据可靠性也有非常重要的意义。硬盘仍然是储存数据最常用的存储介质，广泛应用于各类数据中心中，因此，硬盘故障的预测成为现今保证数据可靠性的重要手段，其已经慢慢成为数据中心管理软件中的重要组成部分。数据中心通过检测各个硬盘的运行状况，当硬盘失效或即将失效时启用硬盘报警并隔离，然后开始数据重构。

目前的DFP(Disk Failure Prediction，硬盘故障预测)技术是判断硬盘的某些指标是否达到预设门限值，若不达标，则发出报警，认为硬盘将要故障。而硬盘厂商为了减少返修率，一般设置的报警门槛非常低，导致硬盘整体的故障预测率极低，但是，若参考硬盘厂商的报警门槛的话，预测出的硬盘发生故障的准确度较低。为了提高预测硬盘故障的准确度，使用硬盘的数据中心会重新设定报警门槛，从而提高预测硬盘发生故障的准确度。

上述方法中数据中心的所有硬盘的报警门槛都相同，但是，数据中心的硬盘的状况是不同的，有些硬盘使用时间较长，有些硬盘使用时间较短，因此，上述方法仍然存在准确度较低的缺陷。

发明内容

本发明实施例提供一种预测非易失性存储介质发生故障的方法及装置，用以解决现有技术中存在的预测硬盘发生故障的准确度较低的缺陷。

本发明实施例提供的具体技术方案如下：

第一方面，提供一种预测非易失性存储介质发生故障的方法，包括：

针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质，分别执行：

计算所述任意一非易失性存储介质的状况值，所述状况值用于表征所述任意一非易失性存储介质的运行状况；

确定所述状况值小于与所述任意一非易失性存储介质对应的初始预设故障门限值时，预测所述任意一非易失性存储介质将发生故障；

状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同。

结合第一方面，在第一种可能的实现方式中，预测所述任意一非易失性存储介质将发生故障之后，还包括：

确定预测出的将发生故障的所有非易失性存储介质的总数目；

判定确定的所述所有非易失性存储介质的总数目小于或者等于所述数据中心的热备非易失性存储介质的数目时，使用所述热备非易失性存储介质中的热备非易失性存储介质接替所述预测出的将发生故障的所有非易失性存储介质的工作；

接替所述预测出的将发生故障的所有非易失性存储介质工作的热备非易失性存储介质的数目与所述所有非易失性存储介质的总数目相同。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，确定预测出的将发生故障的所有非易失性存储介质的总数目之后，还包括：

判定确定的所述所有非易失性存储介质的总数目大于所述数据中心的热备非易失性存储介质的数目时，针对所述任意一非易失性存储介质，分别执行：

降低所述任意一非易失性存储介质对应的初始预设故障门限值，得到第一预设故障门限值，并

确定所述任意一非易失性存储介质的状况值小于所述任意一非易失性存储介质对应的第一预设故障门限值时，进一步预测所述任意一非易失性存储介质将发生故障；

当判断出分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目等于或者小于所述数据中心的热备非易失性存储介质的数目时，使用所述热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，针对所述数据中心的所有非易失性存储介质中的任意两个非易失性存储介质，对所述任意两个非易失性存储介质分别对应的初始预设故障门限值降低的幅度值相同。

结合第一方面的第二种或者第三种可能的实现方式，在第四种可能的实现方式中，使用所述热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质之后，还包括：

补充预设数量的热备非易失性存储介质；

提高所述数据中心的每一个降低了初始预设故障门限值后的非易失性存储介质分别对应的第一预设故障门限值，得到第二预设故障门限值；

针对提高了第一预设故障门限值的任意一非易失性存储介质，在任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第二预设故障门限值时，预测所述任意一非易失性存储介质将发生故障；

当判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目，小于或者等于补充的所述预设数量的热备非易失性存储介质的数目时，使用补充的所述预设数量的所述热备非易失性存储介质接替分别根据对应第二预设故障门限值预测出的将发生故障的所有非易失性存储介质；

其中，针对每一个对应第二预设故障门限值的非易失性存储介质，第二预设故障门限值小于或者等于对应非易失性存储介质的初始预设故障门限值。

第二方面，提供一种预测非易失性存储介质发生故障的装置，包括：

计算单元，用于针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质，分别执行：计算所述任意一非易失性存储介质的状况值，所述状况值用于表征所述任意一非易失性存储介质的运行状况；

预测单元，用于确定所述状况值小于与所述任意一非易失性存储介质对应的初始预设故障门限值时，预测所述任意一非易失性存储介质将发生故障；

结合第二方面，在第一种可能的实现方式中，还包括确定单元、判断单元和接替单元：

所述确定单元用于确定预测出的将发生故障的所有非易失性存储介质的总数目；

所述判断单元用于判定确定的所述所有非易失性存储介质的总数目小于或者等于所述数据中心的热备非易失性存储介质的数目；

所述接替单元用于在所述判断单元判定确定的所述所有非易失性存储介质的总数目小于或者等于所述数据中心的热备非易失性存储介质的数目时，使用所述热备非易失性存储介质中的热备非易失性存储介质接替所述预测出的将发生故障的所有非易失性存储介质的工作；

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述确定单元还用于：判定确定的所述所有非易失性存储介质的总数目大于所述数据中心的热备非易失性存储介质的数目时，针对所述任意一非易失性存储介质，分别执行：

降低所述任意一非易失性存储介质对应的初始预设故障门限值，得到第一预设故障门限值；

所述预测单元用于确定所述任意一非易失性存储介质的状况值小于所述任意一非易失性存储介质对应的第一预设故障门限值时，进一步预测所述任意一非易失性存储介质将发生故障；

所述接替单元当判断出分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目等于或者小于所述数据中心的热备非易失性存储介质的数目时，使用所述热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质。

结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，针对所述数据中心的所有非易失性存储介质中的任意两个非易失性存储介质，对所述任意两个非易失性存储介质分别对应的初始预设故障门限值降低的幅度值相同。

结合第二方面的第二种或者第三种可能的实现方式，在第四种可能的实现方式中，还包括补充单元，用于补充预设数量的热备非易失性存储介质；提高所述数据中心的每一个降低了初始预设故障门限值后的非易失性存储介质分别对应的第一预设故障门限值，得到第二预设故障门限值；

所述预测单元还用于针对提高了第一预设故障门限值的任意一非易失性存储介质，在任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第二预设故障门限值时，预测所述任意一非易失性存储介质将发生故障；

所述判断单元还用于判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目，小于或者等于补充的所述预设数量的热备非易失性存储介质的数目；

所述接替单元还用于在所述判断单元判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目，小于或者等于补充的所述预设数量的热备非易失性存储介质的数目时，使用补充的所述预设数量的所述热备非易失性存储介质接替分别根据对应第二预设故障门限值预测出的将发生故障的所有非易失性存储介质；

本发明有益效果如下：

现有技术中，数据中心的所有非易失性存储介质对应的报警门槛都是相同的，但是，不同的非易失性存储介质的运行状况可能是不同的，若所有非易失性存储介质均对应的同一个报警门槛的话，预测出的发生故障的非易失性存储介质的准确性较低，本发明实施例中，状况值不同的非易失性存储介质分别对应不同的初始预设故障门限值，也就是说，状况值不同的非易失性存储介质分别对应不同的报警门槛，因此，提高了预测出的发生故障的非易失性存储介质的准确度。

附图说明

图1为本发明实施例中预测非易失性存储介质发生故障的流程图；

图2为本发明实施例中预测硬盘发生故障的实施例；

图3A为本发明实施例中预测非易失性存储介质发生故障的装置的一种结构示意图；

图3B为本发明实施例中预测非易失性存储介质发生故障的装置的另一种结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字母“/”，一般表示前后关联对象是一种“或”的关系。

下面结合说明书附图对本发明优选的实施方式进行详细说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面结合附图对本发明优选的实施方式进行详细说明。

参阅图1所示，本发明实施例中，预测非易失性存储介质发生故障的一种流程如下：

步骤100：针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质，分别执行；

步骤110：计算任意一非易失性存储介质的状况值，状况值用于表征任意一非易失性存储介质的运行状况；

步骤120：确定状况值小于与任意一非易失性存储介质对应的初始预设故障门限值时，预测任意一非易失性存储介质将发生故障；状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同。

数据中心预存有一定数目的热备非易失性存储介质，因此，本发明实施例中，预测任意一非易失性存储介质将发生故障之后，还包括如下操作：

判定确定的所有非易失性存储介质的总数目小于或者等于数据中心的热备非易失性存储介质的数目时，使用热备非易失性存储介质中的热备非易失性存储介质接替预测出的将发生故障的所有非易失性存储介质的工作；

接替预测出的将发生故障的所有非易失性存储介质工作的热备非易失性存储介质的数目与所有非易失性存储介质的总数目相同。

例如：数据中心有10个硬盘，预测出共有2个硬盘：硬盘1和硬盘2将发生故障，若数据中心的热备硬盘有3个，则使用3个热备硬盘中的任意两个硬盘接替硬盘1和硬盘2的工作。

当然，在实际应用中，确定的所有非易失性存储介质的总数目可能大于数据中心的热备非易失性存储介质的数目，此时所执行的操作与确定的所有非易失性存储介质的总数目小于或者等于数据中心的热备非易失性存储介质的数目时所执行的操作是不同的，具体实现过程如下：

确定预测出的将发生故障的所有非易失性存储介质的总数目之后，还包括操作：

判定确定的所有非易失性存储介质的总数目大于数据中心的热备非易失性存储介质的数目时，针对任意一非易失性存储介质，分别执行：

降低任意一非易失性存储介质对应的初始预设故障门限值，得到第一预设故障门限值，并

确定任意一非易失性存储介质的状况值小于降低后的任意一非易失性存储介质对应的第一预设故障门限值时，进一步预测任意一非易失性存储介质将发生故障；

当判断出分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目小于或者等于数据中心的热备非易失性存储介质的数目时，使用热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质。

例如：数据中心有10个硬盘，预测出共有5个硬盘：硬盘1、硬盘2、硬盘3、硬盘4和硬盘5将发生故障，若数据中心的热备硬盘有3个，则降低10个硬盘中每一个硬盘分别所对应的初始预设故障门限值，若降低之前，10个硬盘分别对应的初始预设故障门限值为：X1、X2、X3、X4、X5、X6、X7、X8、X9、X10，第一次降低后的第一预设故障门限值为：Y1、Y2、Y3、Y4、Y5、Y6、Y7、Y8、Y9、Y10，且Y1小于X1，Y2小于X2，Y3小于X3，Y4小于X4，Y5小于X5，Y6小于X6，Y7小于X7，Y8小于X8，Y9小于X9，Y10小于X10，根据第一预设故障门限值后预测出发生故障的硬盘的总数目仍大于热备硬盘数目，则降低第一预设故障门限值，若此时预测出的发生故障的硬盘的总数目仍大于热备硬盘数目时，再降低第一预设故障门限值，直至预测出的发生故障的硬盘的总数目小于或者等于热备硬盘数目时，此时直接使用热备硬盘接替分别根据最终预测出的将发生故障的所有硬盘。

本发明实施例中，可选的，为了降低实现的复杂度，针对数据中心的所有非易失性存储介质中的任意两个非易失性存储介质，对任意两个非易失性存储介质分别对应的初始预设故障门限值降低的幅度值相同。

例如：数据中心有5个硬盘：硬盘1、硬盘2、硬盘3、硬盘4、硬盘5，对应的初始预设故障门限值分别为X1、X2、X3、X4、X5，降低初始预设故障门限值得到的第一预设故障门限值分别为70％X1、70％X2、70％X3、70％X4、70％X5。

本发明实施例中，当确定的所有非易失性存储介质的总数目大于数据中心的热备非易失性存储介质的数目时，要降低非易失性存储介质对应的初始预设故障门限值，得到第一预设故障门限值，这样，可以将部分将发生故障的非易失性存储介质给筛选出来，用现有的热备非易失性存储介质替换先查找出来的将发生故障的非易失性存储介质，然后，补充热备非易失性存储介质，再提高已经降低后的初始预设故障门限值，也就是提高第一预设故障门限值，这样，再将第一次未筛选出来的将发生故障的非易失性存储介质给筛选出来，如此循环，直至将根据初始预设故障门限值判断出来的预测发生故障的非易失性存储介质给筛选出来。具体在实现时，可以采用如下方式：

例如，使用热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质之后，还包括如下操作：

补充预设数量的热备非易失性存储介质；

提高数据中心的每一个降低了初始预设故障门限值后的非易失性存储介质分别对应的第一预设故障门限值，得到第二预设故障门限值；

针对提高了第一预设故障门限值的任意一非易失性存储介质，在任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第二预设故障门限值时，预测任意一非易失性存储介质将发生故障；

当判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目，小于或者等于补充的预设数量的热备非易失性存储介质的数目时，使用补充的预设数量的热备非易失性存储介质接替分别根据对应第二预设故障门限值预测出的将发生故障的所有非易失性存储介质；

其中，针对每一个对应第二预设故障门限值的非易失性存储介质，第二预设故障门限值小于或者等于对应非易失性存储介质的初始预设故障门限值。例如：数据中心有10个硬盘：硬盘1、硬盘2、硬盘3、硬盘4、硬盘5、硬盘6、硬盘7、硬盘8、硬盘9、硬盘10，对应的初始预设故障门限值分别为X1、X2、X3、X4、X5、X6、X7、X8、X9、X10，热备盘有3个，根据初始预设故障门限值筛选出来的将发生故障的硬盘有8个：硬盘1-硬盘8，将降低初始预设故障门限值，降低初始预设故障门限值得到的第一预设故障门限值分别为50％X1、50％X2、50％X3、50％X4、50％X5、50％X6、50％X7、50％X8、50％X9、50％X10，根据第一预设故障门限值预测出来的发生故障的硬盘有3个：硬盘1、硬盘2和硬盘3，则将热备硬盘替换硬盘1、硬盘2和硬盘3，替换后，补充3个热备硬盘。提高第一预设故障门限值，得到第二预设故障门限值：60％X1、60％X2、60％X3、60％X4、60％X5、60％X6、60％X7、60％X8、60％X9、60％X10，根据第二预设故障门限值预测出来的发生故障的硬盘有3：硬盘4、硬盘5和硬盘6，则将补充的热备硬盘替换硬盘4、硬盘5和硬盘6，然后，再补充3热备硬盘，并提高第二预设故障门限值，得到第三预设故障门限值，80％X1、80％X2、80％X3、80％X4、80％X5、80％X6、80％X7、80％X8、80％X9、80％X10，根据第三预设故障门限值预测出来的发生故障的硬盘有2：硬盘7、硬盘8，则将补充的热备硬盘替换硬盘7、硬盘8，则将补充的热备硬盘替换硬盘7、硬盘8。

本发明实施例中，非易失性存储介质对应的初始预设故障门限值与该非易失性存储介质的上电时间相关，随着上电时间的增加，判断条件是放宽松的，若初始预设故障门限值增加，判断条件是放宽松的话，则随着上电时间的增加，初始预设故障门限值增加，若初始预设故障门限值减小，判断条件是放宽松的话，则随着上电时间的增加，初始预设故障门限值降低。

综上所述，本发明实施例中，针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质，分别执行：计算任意一非易失性存储介质的状况值，状况值用于表征任意一非易失性存储介质的运行状况；确定状况值小于与任意一非易失性存储介质对应的初始预设故障门限值时，预测任意一非易失性存储介质将发生故障；状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同，在该方案中，状况值不同的非易失性存储介质分别对应不同的初始预设故障门限值，也就是说，状况值不同的非易失性存储介质分别对应不同的报警门槛，因此，提高了预测出的发生故障的非易失性存储介质的准确度。

为了更好地理解本发明实施例，以下给出具体应用场景，针对预测非易失性存储介质发生故障的过程，作出进一步详细描述，架构图如图2所示：

步骤200：数据中心有10个硬盘：硬盘1、硬盘2、……、硬盘10，计算10个硬盘中的每一个硬盘的状况值；

步骤210：针对10个硬盘中的任意一硬盘，将状况值小于对应的初始预设故障门限值的硬盘作为预测出的将发生故障的硬盘，状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同；

步骤220：确定预测出的将发生故障的所有硬盘的总数目，并判断确定出的所有硬盘的总数目是否小于或者等于数据中心的热备硬盘数目；若是，执行步骤230，否则，执行步骤240；

步骤230：使用热备硬盘接替所述预测出的将发生故障的所有硬盘的工作；

在该步骤中，接替所述预测出的将发生故障的所有硬盘工作的热备硬盘的数目与所述所有硬盘的总数目相同。

步骤240：降低10个硬盘分别对应的初始预设故障门限值，得到第一预设故障门限值；

在该步骤中，针对所述数据中心的所有硬盘中的任意两个硬盘，对所述任意两个硬盘分别对应的初始预设故障门限值降低的幅度值相同。

步骤250：判断根据第一预设故障门限值预测出的所有发生故障的硬盘的数目是否小于或者等于数据中心的热备硬盘，若是，执行步骤260，否则，返回步骤240；

步骤260：将热备硬盘接替根据第一预设故障门限值预测出的发生故障的硬盘的工作，并补充预设数量的热备硬盘；

步骤270：提高第一预设故障门限值，得到第二预设故障门限值，将状况值小于对应的第二预设故障门限值的硬盘作为预测出的将发生故障的硬盘；

步骤280：判断预测出的发生故障的硬盘的数目是否为0和/或第二预设故障门限值为初始预设故障门限值，若是，结束流程，否则，返回步骤220。

基于上述相应方法的技术方案，参阅图3A所示，本发明实施例提供一种预测非易失性存储介质发生故障的装置，该装置包括计算单元30、预测单元31，其中：

计算单元30，用于针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质，分别执行：计算任意一非易失性存储介质的状况值，状况值用于表征任意一非易失性存储介质的运行状况；

预测单元31，用于确定状况值小于与任意一非易失性存储介质对应的初始预设故障门限值时，预测任意一非易失性存储介质将发生故障；

本发明实施例中，进一步的，还包括确定单元、判断单元和接替单元：

确定单元用于确定预测出的将发生故障的所有非易失性存储介质的总数目；

判断单元用于判定确定的所有非易失性存储介质的总数目小于或者等于数据中心的热备非易失性存储介质的数目；

接替单元用于在判断单元判定确定的所有非易失性存储介质的总数目小于或者等于数据中心的热备非易失性存储介质的数目时，使用热备非易失性存储介质中的热备非易失性存储介质接替预测出的将发生故障的所有非易失性存储介质的工作；

本发明实施例中，进一步的，确定单元还用于：判定确定的所有非易失性存储介质的总数目大于数据中心的热备非易失性存储介质的数目时，针对任意一非易失性存储介质，分别执行：

降低任意一非易失性存储介质对应的初始预设故障门限值，得到第一预设故障门限值；

预测单元31用于确定任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第一预设故障门限值时，进一步预测任意一非易失性存储介质将发生故障；

接替单元当判断出分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目等于或者小于数据中心的热备非易失性存储介质的数目时，使用热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质。

本发明实施例中，可选的，针对数据中心的所有非易失性存储介质中的任意两个非易失性存储介质，对任意两个非易失性存储介质分别对应的初始预设故障门限值降低的幅度值相同。

本发明实施例中，进一步的，还包括补充单元，用于补充预设数量的热备非易失性存储介质；提高数据中心的每一个降低了初始预设故障门限值后的非易失性存储介质分别对应的第一预设故障门限值，得到第二预设故障门限值；

预测单元31还用于针对提高了第一预设故障门限值的任意一非易失性存储介质，在任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第二预设故障门限值时，预测任意一非易失性存储介质将发生故障；

判断单元还用于判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目，小于或者等于补充的预设数量的热备非易失性存储介质的数目；

接替单元还用于在判断单元判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目，小于或者等于补充的预设数量的热备非易失性存储介质的数目时，使用补充的预设数量的热备非易失性存储介质接替分别根据对应第二预设故障门限值预测出的将发生故障的所有非易失性存储介质；

如图3B所示，为本发明实施例提供的预测非易失性存储介质发生故障的装置的另一种结构示意图，包括至少一个处理器301，通信总线302，存储器303以及至少一个通信接口304。

其中，通信总线302用于实现上述组件之间的连接并通信，通信接口304用于与外部设备连接并通信。

其中，存储器303用于存储有可执行的程序代码，处理器301通过执行这些程序代码，以用于：

计算任意一非易失性存储介质的状况值，状况值用于表征任意一非易失性存储介质的运行状况；

确定状况值小于与任意一非易失性存储介质对应的初始预设故障门限值时，预测任意一非易失性存储介质将发生故障；

进一步的，本发明实施例中，处理器301还用于，预测任意一非易失性存储介质将发生故障之后，还包括：

进一步的，本发明实施例中，处理器301还用于，确定预测出的将发生故障的所有非易失性存储介质的总数目之后，还包括：

确定任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第一预设故障门限值时，进一步预测任意一非易失性存储介质将发生故障；

当判断出分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目等于或者小于数据中心的热备非易失性存储介质的数目时，使用热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质。

可选的，本发明实施例中，处理器301还用于，针对数据中心的所有非易失性存储介质中的任意两个非易失性存储介质，对任意两个非易失性存储介质分别对应的初始预设故障门限值降低的幅度值相同。

进一步的，本发明实施例中，处理器301还用于，使用热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质之后，还包括：

补充预设数量的热备非易失性存储介质；

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种预测非易失性存储介质发生故障的方法，其特征在于，包括：

针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质，分别执行：

计算所述任意一非易失性存储介质的状况值，所述状况值用于表征所述任意一非易失性存储介质的运行状况；

确定所述状况值小于与所述任意一非易失性存储介质对应的初始预设故障门限值时，预测所述任意一非易失性存储介质将发生故障；

状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同。
如权利要求1所述的方法，其特征在于，预测所述任意一非易失性存储介质将发生故障之后，还包括：

确定预测出的将发生故障的所有非易失性存储介质的总数目；

判定确定的所述所有非易失性存储介质的总数目小于或者等于所述数据中心的热备非易失性存储介质的数目时，使用所述热备非易失性存储介质中的热备非易失性存储介质接替所述预测出的将发生故障的所有非易失性存储介质的工作；

接替所述预测出的将发生故障的所有非易失性存储介质工作的热备非易失性存储介质的数目与所述所有非易失性存储介质的总数目相同。
如权利要求2所述的方法，其特征在于，确定预测出的将发生故障的所有非易失性存储介质的总数目之后，还包括：

判定确定的所述所有非易失性存储介质的总数目大于所述数据中心的热备非易失性存储介质的数目时，针对所述任意一非易失性存储介质，分别执行：

降低所述任意一非易失性存储介质对应的初始预设故障门限值，得到第一预设故障门限值，并

确定所述任意一非易失性存储介质的状况值小于所述任意一非易失性存储介质对应的第一预设故障门限值时，进一步预测所述任意一非易失性存储介质将发生故障；

当判断出分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目等于或者小于所述数据中心的热备非易失性存储介质的数目时，使用所述热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质。
如权利要求3所述的方法，其特征在于，针对所述数据中心的所有非易失性存储介质中的任意两个非易失性存储介质，对所述任意两个非易失性存储介质分别对应的初始预设故障门限值降低的幅度值相同。
如权利要求3或4所述的方法，其特征在于，使用所述热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质之后，还包括：

补充预设数量的热备非易失性存储介质；

提高所述数据中心的每一个降低了初始预设故障门限值后的非易失性存储介质分别对应的第一预设故障门限值，得到第二预设故障门限值；

针对提高了第一预设故障门限值的任意一非易失性存储介质，在任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第二预设故障门限值时，预测所述任意一非易失性存储介质将发生故障；

当判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目，小于或者等于补充的所述预设数量的热备非易失性存储介质的数目时，使用补充的所述预设数量的所述热备非易失性存储介质接替分别根据对应第二预设故障门限值预测出的将发生故障的所有非易失性存储介质；

其中，针对每一个对应第二预设故障门限值的非易失性存储介质，第二预设故障门限值小于或者等于对应非易失性存储介质的初始预设故障门限值。
一种预测非易失性存储介质发生故障的装置，其特征在于，包括：

计算单元，用于针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质，分别执行：计算所述任意一非易失性存储介质的状况值，所述状况值用于表征所述任意一非易失性存储介质的运行状况；

预测单元，用于确定所述状况值小于与所述任意一非易失性存储介质对应的初始预设故障门限值时，预测所述任意一非易失性存储介质将发生故障；

状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同。
如权利要求6所述的装置，其特征在于，还包括确定单元、判断单元和接替单元：

所述确定单元用于确定预测出的将发生故障的所有非易失性存储介质的总数目；

所述判断单元用于判定确定的所述所有非易失性存储介质的总数目小于或者等于所述数据中心的热备非易失性存储介质的数目；

所述接替单元用于在所述判断单元判定确定的所述所有非易失性存储介质的总数目小于或者等于所述数据中心的热备非易失性存储介质的数目时，使用所述热备非易失性存储介质中的热备非易失性存储介质接替所述预测出的将发生故障的所有非易失性存储介质的工作；

接替所述预测出的将发生故障的所有非易失性存储介质工作的热备非易失性存储介质的数目与所述所有非易失性存储介质的总数目相同。
如权利要求7所述的装置，其特征在于，所述确定单元还用于：判定确定的所述所有非易失性存储介质的总数目大于所述数据中心的热备非易失性存储介质的数目时，针对所述任意一非易失性存储介质，分别执行：

降低所述任意一非易失性存储介质对应的初始预设故障门限值，得到第一预设故障门限值；

所述预测单元用于确定所述任意一非易失性存储介质的状况值小于所述任意一非易失性存储介质对应的第一预设故障门限值时，进一步预测所述任意一非易失性存储介质将发生故障；

所述接替单元当判断出分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目等于或者小于所述数据中心的热备非易失性存储介质的数目时，使用所述热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质。
如权利要求8所述的装置，其特征在于，针对所述数据中心的所有非易失性存储介质中的任意两个非易失性存储介质，对所述任意两个非易失性存储介质分别对应的初始预设故障门限值降低的幅度值相同。
如权利要求8或9所述的装置，其特征在于，还包括补充单元，用于补充预设数量的热备非易失性存储介质；提高所述数据中心的每一个降低了初始预设故障门限值后的非易失性存储介质分别对应的第一预设故障门限值，得到第二预设故障门限值；

所述预测单元还用于针对提高了第一预设故障门限值的任意一非易失性存储介质，在任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第二预设故障门限值时，预测所述任意一非易失性存储介质将发生故障；

所述判断单元还用于判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目，小于或者等于补充的所述预设数量的热备非易失性存储介质的数目；

所述接替单元还用于在所述判断单元判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目，小于或者等于补充的所述预设数量的热备非易失性存储介质的数目时，使用补充的所述预设数量的所述热备非易失性存储介质接替分别根据对应第二预设故障门限值预测出的将发生故障的所有非易失性存储介质；

其中，针对每一个对应第二预设故障门限值的非易失性存储介质，第二预设故障门限值小于或者等于对应非易失性存储介质的初始预设故障门限值。