WO2022166481A1

WO2022166481A1 - 一种针对硬盘的故障预测方法、装置及设备

Info

Publication number: WO2022166481A1
Application number: PCT/CN2021/142559
Authority: WO
Inventors: 刘冬实; 康炳南; 纪晓峰; 胡崝
Original assignee: 华为技术有限公司
Priority date: 2021-02-08
Filing date: 2021-12-29
Publication date: 2022-08-11
Also published as: CN114943321A

Abstract

一种针对硬盘的故障预测方法、装置及设备，故障定位装置先获取硬盘的第一属性值，将第一属性值输入至故障预测模型中，获得第一异常分值，第一异常分值指示第一属性值下硬盘的运行状态。该故障预测模型是基于硬盘正常运行时的第二属性值训练的，该第二属性值用于指示硬盘正常运行时多个组件的运行状态；之后，将第一异常分值与阈值进行比较，当第一异常分值大于阈值时，该硬盘虽然可以运行，但存在故障风险，在将来的某个时间可能发生故障。利用硬盘正常运行时的属性值对故障预测模型进行训练，提高故障预测模型的准确率。这样故障预测模型输出的输出值能够更加准确的反映出硬盘的运行状态，由此可以准确的确定硬盘是否存在故障风险。

Description

一种针对硬盘的故障预测方法、装置及设备

技术领域

本申请涉及存储技术领域，尤其涉及一种针对硬盘的故障预测方法、装置及设备。

背景技术

目前，存储系统中通常采用固态硬盘(solid state drive，SSD)作为主要的数据存储设备。数据存储设备故障率的高低影响着存储系统的可靠性。

为此需要及时排查数据存储设备中可能存在的故障、定位数据存储设备的故障原因，以及时对数据存储设备中的故障进行纠正以及处理。

故而主动的故障预测就显得尤为重要，但目前针对SSD的故障预测，准确程度较低，无法准确确定SSD是否存在潜在故障。

发明内容

本申请提供一种针对硬盘的故障预测方法、装置及设备，用以实现硬盘故障的准确预测。

第一方面，本申请实施例提供了一种针对硬盘的故障预测方法，该方法由故障定位装置执行，该方法中，故障定位装置可以先获取硬盘的第一属性值，该硬盘的第一属性值可以是硬盘未发生故障(也即该硬盘还能运行)之前的属性值，第一属性值用于指示硬盘中多个组件的运行状态。在获取了硬盘的第一属性值之后，故障定位装置可以将第一属性值输入至故障预测模型中，获得该第一属性值对应的输出值，本申请实施例中将该第一属性值对应的输出值称为第一异常分值，第一异常分值可以指示第一属性值下硬盘的运行状态。故障预测模型是预先训练的，该故障预测模型是基于硬盘正常运行时的第二属性值训练的；也即该故障预测模型并非基于硬盘故障时，或存在故障风险时的属性值训练的。该第二属性值用于指示硬盘正常运行时多个组件的运行状态；故障定位装置在获取第一异常分值之后，可以将第一异常分值与阈值进行比较，当第一异常分值大于阈值时，认为该硬盘虽然可以运行，但存在故障风险，在将来的某个时间可能发生故障。

通过上述方法，故障定位装置能够利用硬盘正常运行时的属性值对故障预测模型进行训练，提高故障预测模型的准确率。之后故障定位装置可以根据故障预测模型的输出值与阈值的比较确定该硬盘是否存在故障风险，准确率较高的故障预测模型输出的输出值能够更加准确的反映出硬盘的运行状态，由此可以准确的确定硬盘是否存在故障风险。

在一种可能的设计中，在利用第二属性值对故障预测模型进行训练时，可以利用第二属性值构建训练集，之后，基于该训练集，采用无监督学习方式对故障预测模型进行训练。

通过上述方法，利用无监督学习的方式，不需要考虑训练集样本的平衡性，能够保证故障预测模型的准确率，以便后续可以精确预测硬盘的故障风险。

在一种可能的设计中，第二属性值输入到故障预测模型后，可以获得第二属性值对应的输出值，该第二属性值对应的输出值可以称为第二异常分值。阈值可以是根据多个第二异常分值确定的，如该阈值可以不小于多个第二异常分值中的最大值，又如阈值可以等于该多个第二异常分值的分位数。

通过上述方法，根据第二异常分值确定的阈值能够较为清晰的区分出硬盘正常运行时与硬盘存在故障风险时异常分值的界限，这样通过第一异常分值与该阈值比较确定的结果更加准确。

在一种可能的设计中，故障预测模型的结构有多种，例如，故障预测模型可以包括VAE和LSTM

通过上述方法，VAE和LSTM组合，能够使得故障预测模型一次性输入较多的第二属性值，故障预测模型可以在训练过程中学习到第二属性值之间的时序依赖关系。

在一种可能的设计中，第一属性值包括多个状态值，一个状态值用于指示硬盘中一个组件的运行状态，不同状态值可以指示硬盘中不同组件的运行状态。

通过上述方法，通过不同的状态值指示不同组件的运行状态，指示方式更加清晰，简单。

在一种可能的设计中，第一异常分值等于第一属性值中各个状态值与对应权重乘积的和值，故障定位装置除了能够确定硬盘存在故障风险，还能够根据第一异常分值确定硬盘中存在故障风险的组件，实现故障风险原因的定位。例如，故障定位装置可以根据第一异常分值，从多个状态值中确定对应的权重最大的目标状态值；之后，根据目标状态值确定故障风险原因，故障风险原因为目标状态值所指示的组件存在故障风险。

通过上述方法，除了保证故障预测的准确性，故障定位装置还能够确定存在故障风险的组件，有效的定位到了硬盘中存在故障风险的组件，给予维修人员指导意见，可以保证硬盘的故障风险能够提前解除。

在一种可能的设计中，故障定位装置在将第一属性值输入至故障预测模型中，输出第一异常分值时，可以先对第一属性值进行预处理，之后再将预处理后的第一属性值输入故障预测模型，输出第一异常分值，预处理包括下列的部分或全部：筛选处理、归一化处理。

通过上述方法，通过对第一属性值进行预处理，便于后续故障预测模型能够较为便捷的对第一属性值进行处理，较快获取第一异常分值，加快故障预测的效率。

在一种可能的设计中，在第一异常分值不大于阈值的情况下，故障定位装置还可以指示硬盘正常运行，以及时告知用户硬盘正常，提升用户体验。

第二方面，本申请提供了一种故障定位装置，该装置具有实现第一方面及第一方面任意一种可能的设计中所实现的功能。该装置功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的单元。在一个可能的设计中，装置的结构中包括获取单元、分值确定单元以及风险确定单元，这些单元可以执行上述第一方面方法示例中的相应功能，具体参见方法示例中的详细描述，此处不做赘述。

第三方面，本申请还提供了一种计算设备，有益效果可以参见第一方面及第一方面任意一种可能的设计的描述此处不再赘述。计算设备的结构中包括处理器和存储器，处理器被配置为执行上述第一方面及第一方面任意一种可能的设计的方法中相应的功能。存储器与处理器耦合，其保存故障定位装置必要的程序指令和数据。计算设备的结构中还包括通信接口，用于与其他设备进行通信，如接收第一属性值，或发送硬盘的故障原因等。

第四方面，本申请还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

第五方面，本申请还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面的方法。

第六方面，本申请还提供一种计算机芯片，芯片与存储器相连，芯片用于读取并执行存储器中存储的软件程序，执行上述各方面的方法。

附图说明

图1为本申请提供的一种系统的架构示意图；

图2为本申请提供的一种模型训练方法示意图；

图3为本申请提供的一种针对硬盘的故障预测方法示意图；

图4为本申请提供的一种针对SSD的故障预测方法示意图；

图5为本申请提供的一种故障定位装置的结构示意图；

图6为本申请提供的一种计算设备的结构示意图。

具体实施方式

本申请实施例提供了一种故障预测方法，该方法可以用于预测能够运行的数据存储设备中是否存在故障风险，在本申请实施例中以数据存储设备是硬盘(如SSD或其他类型的硬盘)为例进行说明。应需理解的是，对于除硬盘外的、能够用于数据存储的数据存储设备也同样适用，具体实施方式与本申请实施例提供故障预测方式类似，具体可以参见本申请实施例的相关说明，此处不再赘述。

下面对本申请实施例适用的系统架构进行说明，如图1所示，为本申请实施例提供的一种系统架构示意图，该系统中包括数据采集装置100、模型训练装置200、以及故障定位装置300。

数据采集装置100可以与存储系统400连接，获取存储系统400中硬盘410的属性值(如第一属性值、第二属性值)。在本申请实施例中硬盘410的属性值，可以指示硬盘410中组件的运行状态。这里并不限定硬盘410中组件的类型与数量，组件包括下列的部分或全部：磁头、盘片、马达、电路、控制器、闪存芯片、固件。

硬盘410的属性值在指示硬盘410中组件的运行状态时，可以采用直接指示的方式，如通过组件的运行的繁忙系数指示该硬盘410中组件的运行状态，该组件的繁忙系数高说明该组件正积极运行、且效率较高；如通过盘片中的坏块数量指示硬盘410中存储区域的运行状态，盘片中的坏块数量较少时，说明盘片中存储区域正常运行、存储效率高。也可以采用间接指示的方式，如通过硬盘410中数据的错误量指示硬盘410中的组件的运行状态，如通过硬盘410中发生的不可纠正错误的数量描述硬盘410中盘片中存储区域的存储状态，如通过块编程数量指示描述硬盘410中盘片各个块的存储状态。

当属性值指示硬盘410中多个组件的运行状态时，属性值可以包括多个状态值，一个状态值用于指示一个组件的运行状态。

本申请并不限定数据采集装置100获取属性值的方式，例如，数据采集装置100可以与存储系统400中的管理设备连接，向管理设备请求该存储系统400中硬盘的属性值。

又例如，数据采集装置100可以直接连接存储系统400中的硬盘，获取硬盘的属性值。硬盘410中的属性值可以是硬盘410自身生成的，例如，硬盘410的各个组件上可以安装传感器，该传感器用于检测所在组件的运行状态，硬盘410中的处理单元可以通过安装在各个组件上的传感器获取该多个状态值，并将该多个状态值作为属性值发送给数据采集装置100。

举例来说，该属性值可以是自我监测、分析及报告技术(self-monitoring analysis and reporting technology，SMART)属性值。其中，SMART是一种自动的硬盘状态检测与预警系统和规范，SMART中，可以通过调用硬盘410内的检测指令对硬盘410的中各个组件运行状态进行监控，并生成属性值。该属性值可以由硬盘410提供给数据采集装置100。本申请实施例并不限定数据采集装置100所连接的存储系统400的数量以及存储系统400中硬盘410的数量。图1中仅示例性的绘制出了两个存储系统400以及部分硬盘410。

数据采集装置100在获取硬盘410的属性值之后，可以将获取的硬盘410的属性值发送给模型训练装置200，模型训练装置200可以基于该硬盘410的属性值对故障预测模型进行训练，模型训练装置200在对故障预测模型训练完成后，可以将该故障预测模型配置给故障定位装置300。数据采集装置100在获取硬盘410的属性值之后，也可以将获取的硬盘410的属性值发送给故障定位装置300，故障定位装置300可以根据该硬盘410的属性值和故障预测模型实现故障定位，判断硬盘中是否存在故障风险，在确定硬盘中存在故障风险时，可以进一步确定硬盘410的故障原因，以确定硬盘410中存在故障风险的组件。

为了区分数据采集装置100发送给模型训练装置200的属性值以及发送给故障定位装置300的属性值，在本申请实施例中，将数据采集装置100发送给模型训练装置200的属性值称为第二属性值，将数据采集装置100发送给故障定位装置300的属性值称为第一属性值。

本申请实施例中并不限定数据采集装置100、模型训练装置200、以及故障定位装置300所部署的位置。对于数据采集装置100、模型训练装置200、以及故障定位装置300中的任一装置可以运行在云计算设备系统(包括至少一个云计算设备，例如：服务器等)，也可以运行在边缘计算设备系统(包括至少一个边缘计算设备，例如：服务器、台式电脑等)，也可以运行在各种终端计算设备上，例如：笔记本电脑、个人台式电脑等。例如，模型训练装置200、以及故障定位装置300可以部署在云计算设备系统或边缘计算设备系统，数据采集装置100可以部署在靠近存储系统400或硬盘410的终端计算设备上。又例如，数据采集装置100、模型训练装置200、以及故障定位装置300可以分别运行在云计算设备系统、边缘计算设备系统或终端计算设备这三个环境中。

数据采集装置100、模型训练装置200、以及故障定位装置300这三个装置可以为独立的硬件装置，之间通信通路连接。数据采集装置100、模型训练装置200、以及故障定位装置300这三个装置中的部分或全部也可以合设在一个硬件装置中，例如，模型训练装置200以及故障定位装置300可以合设为一个硬件装置，既能够实现故障预测模型的训练，又能够实现硬盘410的故障定位。例如，数据采集装置100、模型训练装置200以及故障定位装置300可以合设为一个硬件装置，兼具属性值采集、故障预测模型训练，以及硬盘410的故障定位的功能。

上述提及的硬件装置，本申请实施例并不限定具体形态，可以为服务器、服务集群，也可以为终端计算设备。

在本申请实施例提供的针对硬盘410的故障预测方法中需要借助故障预测模型，下面先对故障预测模型的训练方法进行说明，参见图2。

步骤201：数据采集装置100获取硬盘410的多个第二属性值，该第二属性值是在硬盘410正常运行时采集的，也就是说，第二属性值指示的是硬盘410正常运行情况下，硬盘410中组件的运行状态。

也就是说，数据采集装置100所采集的第二属性值均是硬盘410正常运行时的属性值，并非硬盘410故障时的属性值。需要说明的是，硬盘410正常运行是指硬盘中的各个组件不存在故障风险，也即硬盘不存在故障风险的情况下硬盘410运行。在一些可能的场景中，在允许范围内，硬盘中组件即便存在老化或轻微损坏，硬盘410仍可以运行，且不存在故障风险，也即在硬盘410不易故障，这种场景，也可以认为硬盘410正常运行。

数据采集装置100可以获取硬盘410的多个第二属性值。例如，在不同时间段，获取该硬盘410的属性值，每个时间段获取的属性值为一个第二属性值。为了保证故障预测模型的准确性，数据采集装置100可以尽可能获取多的第二属性值。

需要说明的是，这里并不限定硬盘410的数量，可以为一个也可以为多个。也不限定硬盘410的类型，以硬盘为SSD为例，数据采集装置100可以获取不同型号的SSD的多个第二属性值。

步骤202：数据采集装置100将获取的硬盘410的多个第二属性值发送给模型训练装置200。

数据采集装置100在执行步骤202时，可以直接将获取的多个第二属性值发送模型训练装置200，也可以先对该多个第二属性值进行预处理，将进行了预处理后的多个第二属性值发送给模型训练装置200。

预处理的方式有许多种，下面列举其中两种，应需理解的是，对该多个第二属性值的其他预处理操作也同样适用于本申请实施例。

方式一、对多个第二属性值进行筛选。

例如，数据采集装置100可以去除该多个第二属性值中相同的属性值，又例如，数据采集装置100可以对每个第二属性值中包括的状态值进行筛选，如选择第二属性值中有效的状态值，如数据采集装置100可以保留第二属性值中记录不可纠正错误数量的状态值、记录块编程错误数量的状态值、以及记录新增坏块数的状态值。

方式二、对第二属性值进行归一化处理。

例如，当该第二属性值为单个数值，可以将第二属性值归一化为0～1区间的一个数值。又例如，当该第二属性值包括多个状态值时，可以将该多个状态值分别归一化为0～1区间的一个数值。

通过预处理，可以便于故障预测模型利用预处理后的第二属性值进行训练，简化训练流程。

步骤203：模型训练装置200在接收到该多个第二属性值后，可以利用该多个第二属性值构建训练集，利用该训练集对故障预测模型进行训练。模型训练装置200接收的多个第二属性值可以为经过预处理的多个第二属性值，利用该多个第二属性值构建训练集。模型训练装置200接收的多个第二属性值也可以为未经过预处理的多个第二属性值，模型训练装置200可以直接利用该多个第二属性值构建训练集。模型训练装置200可以在接收到该多个第二属性值后，对该多个第二属性模型进行预处理，关于预处理的说明，可以参见前述内容，此处不再赘述，模型训练装置200可以利用经过预处理的多个第二属性值构建训练集。

在执行步骤203时，模型训练装置200可以采用无监督学习的方式，对故障预测模型进行训练。其中，无监督学习是指训练集中的数据(如第二属性值)不设置标签，对训练集中数据本身的结构特性进行学习，实现分类。

模型训练装置200可以将每个第二属性值输入值故障预测模型，获得每个第二属性值对应的输出值。在无监督学习领域，每个第二属性值对应的输出值可以理解为对该多个第二属性值的分类结果。该多个第二属性值对应的输出值表征了在硬盘410正常运行下，硬盘410整体的运行状态。例如，当某一个属性值输入至该故障预测模型中该属性值对应的输出值，与该一个第二属性值对应的输出值相同、或处于该多个第二属性值对应的输出值中最大值和最小值构成的范围内，说明该属性值表示硬盘410正常运行。为了方便说明，将故障预测模型对应的输出值称为异常分值，将第二属性值对应的输出值称为第二异常分值，可以指示在第二属性值下，硬盘410的运行状态。

本申请实施例并不限定故障预测模型的结构，凡是能够通过无监督学习的方式生成的能够用于实现故障预测的模型仅适用于本申请实施例。

举例来说，故障预测模型可以包括变分自动编码器(variational auto encoder，VAE)和长短时记忆网络(long short-term memory，LSTM)。VAE是一种深度生成模型，VAE包括编码网络和解码网络两部分。VAE可以将输入(如第二属性值)编码成隐空间中的随机变量(编码过程)，然后再用解码网络将隐空间中的随机变量恢复成接近输入或与输入相同的数据(解码过程)。VAE以最大化重构数据为目标，使用由第二属性值构建的训练集进行时，在编码-解码的过程中学习硬盘410正常运行下的属性值(如第二属性值)的数据特征。这种数据特性体现在当VAE面对硬盘410正常运行下的属性值时重构误差较小，当面对硬盘410故障时的属性值时重构误差较大；重构误差可以体现为VAE输出的异常分值，重构误差越大，表示硬盘410故障程度越高，重构误差越小，硬盘410故障程度越低；基于训练集生成的各个第二异常分值集合确定阈值，当检测新的属性值时，如果该属性值的异常分值大于阈值，则判定为存在故障风险，否则硬盘410正常运行。为了捕捉的硬盘410属性值的时序依赖关系(也即硬盘410属性值在时间上的先后顺序)，在构建故障预测模型时，可以在VAE中的编码网络和解码网络输入之前均加入LSTM，增强模型的表征能力。由于LSTM的输入窗口可以调整，通过调整输入窗口可以变更一次性处理的第二属性值的数量，当一次性输入多个第二属性值时，VAE中的编码网络和解码网络可以学习该多个第二属性值的时序依赖关系，最终确定该多个第二属性值的第二异常分值在一定程度下呈现渐变的趋势。

这是因为硬盘410的故障是从正常运行，逐渐过渡到故障的，通常并非突然发生故障，所以异常分值也存在一定渐变的趋势。

需要说明的是，故障预测模型输出的异常分值可以为输入的属性值(如第二属性值以及第一属性值)中各个状态值的加权和。也即每个状态值对应一个权重，各个状态值与对应权重的乘积的和等于该属性值的异常分值。故障预测模型输出异常分值的过程，可以看做为确定各个状态值的权重值、并求和的过程。

步骤204：模型训练装置200在对故障预测模型训练完成(如故障预测模型的损失函数收敛)后，可以向故障定位装置300发送该故障预测模型。

当故障定位装置300与模型训练装置200合设为一个硬件装置，该硬件装置在对该故障预测模型训练完成后，可以利用训练完成的该故障预测模型进行故障定位。

通过对故障预测模型的训练过程可知，在故障预测模型的训练集是由硬盘410正常运行时的属性值构成的，训练集的构建比较简单，不需要考虑硬盘410存在故障或存在故障风险时的属性值。也使得故障预测模型的训练过程变得更加简单、高效，训练完成的故障预测模型的准确率也更高。

通过上述方式故障预测模型配置在故障定位装置300中，故障定位装置300可以利用该故障预测模型实现故障定位，确定硬盘是否存在故障风险。下面结合附图3对本申请实施例提供的针对硬盘410的故障预测方法进行说明，参见图3，该方法包括：

步骤301：数据采集装置100获取硬盘410的第一属性值，该第一属性值可以是数据采集装置100采集的硬盘410当前运行的属性值。该硬盘410的第一属性值可以为硬盘410正常运行下的属性值，也可以是硬盘410存在故障风险时的属性值。第一属性值可以表征硬盘410当前的运行状态，这种情况下，利用故障定位装置300可以实现故障的在线定位(也即实时定位)。第一属性值也可以表征硬盘410过去某个时间的运行状态，这种情况下，利用故障定位装置300可以实现故障的离线定位。

步骤302：数据采集装置100向故障定位装置300发送该第一属性值。数据采集装置100在发送该第一属性值之前，可以先对该第一属性值进行预处理，关于预处理的方式可以参见前述说明，此处不再赘述。

步骤303：故障定位装置300在接收到该第一属性值之后，将该第一属性值输入至故障预测模型，获得第一属性值对应的输出值，为方便说明，将第一属性值的输出值称为第一属性值的第一异常分值。第一异常分值表征了在第一属性值下硬盘410的运行状态。

故障定位装置300接收的该第一属性值可以是经过预处理的第一属性值，故障定位装置可以直接将该第一属性值输入至故障预测模型。故障定位装置300接收的该第一属性值也可以是未经过预处理的第一属性值，故障定位装置可以直接将该第一属性值输入至故障预测模型(对应在训练故障预测模型时，训练集中的第二属性值是未经过预处理的第二属性值的场景)；故障定位装置300也可以在接收到该第一属性值后，对该第一属性进行预处理，将经过预处理的第一属性值输入至故障预测模型(对应在训练故障预测模型时，训练集中的第二属性值是经过预处理的第二属性值的场景)，关于预处理的说明，可以参见前述内容，此处不再赘述，故障定位装置300可以将经过预处理的第一属性值输入至故障预测模型。

步骤304：故障定位装置300对第一异常分值与阈值进行比较，该阈值是根据第二异常分值确定的，该阈值可以不小于图2所示的实施例中获取的第二异常分值中的最大值，也可以是该多个第二异常分值的分位数。

步骤305：故障定位装置300在确定第一异常分值大于阈值的情况下，确定硬盘410存在故障风险。进一步的，故障定位装置300还可以根据第一异常分值确定硬盘410的故障原因。

在第一异常分值不大于阈值时，说明硬盘410运行正常。在第一异常分值大于阈值时，说明硬盘410存在故障风险，还可以继续确定故障原因。

由图2中对第二异常分值的说明可知，第一异常分值是多个状态值加权和，其中权重越大，将更容易导致第一异常分值大于阈值，故障定位装置300可以根据权重的大小从中确定权重较大的部分或全部状态值，该部分或全部状态值所指示的组件可能存在故障风险，导致硬盘410存在故障风险，也即硬盘410的故障原因为该部分或全部状态值所指示的组件存在故障风险。

以第一属性值中包括的状态值的数量等于K为例，故障定位装置300可以从中确定权重最大的状态值，或确定权重由大到小排序后，位于前N位的状态值(其中，K>N，K、N为正整数)，将确定的状态值称为目标状态值。N可以是经验值。进而故障定位装置300可以确定该目标状态值所描述的组件存在故障风险，是硬盘410的故障原因。

从图3所示的实施例可以看出，故障定位装置300在根据第一属性值判断硬盘410是否存在故障时，借助了预先训练的故障预测模型；由于故障预测模型是利用硬盘410正常运行时的属性值训练的，当在故障预测时，故障定位装置300就根据故障预测模型的输出值与阈值的比较可以准确的确定出硬盘410是否存在故障风险。

在本申请实施例中，允许对故障预测模型进行更新，例如，模型训练装置200可以通过数据采集装置100获取新的第二属性值，继续对故障预测模型进行训练，在训练完成后再将故障预测模型更新到故障定位装置300中。故障预测模型的更新可以采用在线更新的方式，也就是说，模型训练装置200可以在故障定位装置300运行的过程中，获取新的第二属性值，继续对故障预测模型进行训练，在训练完成后，将故障预测模型更新到故障定位装置300中。这样可以保证故障预测模型的准确性，使得故障定位装置300后续利用更新后的故障预测模型能够准确判断硬盘410是否存在故障风险，实现准确的故障定位。

参见图4为本申请实施例针对硬盘410的故障预测方法的示意图，图4中，数据采集装置100采集SSD的SMART属性值，经过预处理后，发送至模型训练装置200。模型训练装置200对VAE-LSTM模型进行训练，并确定阈值。在训练完成后，模型训练装置200将VAE-LSTM模型和阈值配置到故障定位装置300中，故障定位装置300从数据采集装置100获取经过预处理的SSD的SMART属性值，利用VAE-LSTM模型输出异常分值，根据异常分值与阈值的比较，确定SSD正常运行或存在故障风险，在存在故障风险的情况下，故障定位装置300根据异常分值确定硬盘410的故障原因，实现故障定位。模型训练装置200也可以对故障预测模型进行更新，将更新后的故障预测模型配置到故障定位装置300中。

需要说明的是，在本申请实施例中，步骤305(也即根据第一异常分值确定硬盘410的故障原因)也可以通过模型实现，为方便说明，该模型可以称为故障分析模型。该故障分析模型可以在第一异常分值大于阈值的情况下，获取第一异常分值中各个状态值的权重，确定目标状态值，进而确定存在故障的组件，故障分析模型可以与故障预测模型合并，这里将合并后的模型称为故障定位模型，模型训练装置200在对故障预测模型训练完成后，可以将故障分析模型合并到故障预测模型，形成故障定位模型，配置到故障定位装置300。这样故障定位装置300可以利用故障定位模型确定硬盘410的故障原因。

基于与方法实施例同一发明构思，本申请实施例还提供了一种故障定位装置，用于执行上述方法实施例中故障定位装置方法执行的方法，相关特征可参见上述方法实施例，此处不再赘述，如图5所示，该故障定位装置500包括获取单元501、分值确定单元502、风险确定单元503。

获取单元501，用于获取硬盘的第一属性值，第一属性值用于指示硬盘中多个组件的运行状态。

分值确定单元502，用于将第一属性值输入至故障预测模型中，输出第一异常分值，第一异常分值用于指示第一属性值下硬盘的运行状态，故障预测模型是基于硬盘的第二属性值训练生成的，第二属性值用于指示硬盘正常运行时多个组件的运行状态。在本申请实施例中硬盘正常运行是指，硬盘中的各个组件不存在故障风险，或在允许范围内，认为硬盘中的各个组件能够正常运转，不会导致硬盘存在故障风险。

风险确定单元503，用于在第一异常分值大于阈值的情况下，确定硬盘存在故障风险。

作为一种可能的实施方式，在训练故障预测模型时，可以利用第二属性值构成训练集，基于该训练集，采用无监督学习方式对故障预测模型进行训练。

作为一种可能的实施方式，第二属性值输入到故障预测模型获取的输出值，可以称为第二异常分值，与第一异常分值进行比较所采用的阈值可以是根据该多个第二异常分值确定的，例如，可以设置该阈值不小于多个第二异常分值中的最大值，又例如可以设置阈值等于该多个第二异常分值的分位数。

作为一种可能的实施方式，本申请并不限定故障预测模型的结构，例如该故障预测模型可以包括VAE和LSTM。

作为一种可能的实施方式，第一属性值包括多个状态值，一个状态值用于指示硬盘中一个组件的运行状态。

作为一种可能的实施方式，第一异常分值等于第一属性值中各个状态值与对应权重乘积的和值，风险确定单元503可以先根据第一异常分值，从多个状态值中确定对应的权重最大的状态值，为方便说明该状态值可以称为目标状态值；之后，再根据目标状态值确定故障原因，故障原因指示目标状态值所指示的组件存在故障。

作为一种可能的实施方式，分值确定单元502在将第一属性值输入至故障预测模型中，输出第一异常分值时，可以先对第一属性值进行预处理，之后，再将预处理后的第一属性值输入故障预测模型，输出第一异常分值，预处理包括下列的部分或全部：筛选处理、归一化处理。

作为一种可能的实施方式，风险确定单元503在第一异常分值不大于阈值的情况下，指示硬盘正常运行。

本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能单元可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上单元集成为一个模块中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

该集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是个人计算机，手机，或者网络设备等)或处理器(processor)执行本申请各个实施例该方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在一个简单的实施例中，本领域的技术人员可以想到如图2或3所示的实施例中故障定位装置400可采用图6所示的形式。

如图6所示的计算设备600，包括至少一个处理器601、存储器602，可选的，还可以包括通信接口603。

存储器602可以是易失性存储器，例如随机存取存储器；存储器也可以是非易失性存储器，例如只读存储器，快闪存储器，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、物理磁盘或者存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器602可以是上述存储器的组合。

本申请实施例中不限定上述处理器601以及存储器602之间的具体连接介质。

处理器601可以为中央处理器(central processing unit，CPU)，该处理器601还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circui。ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件、人工智能芯片、片上芯片等。通用处理器可以是微处理器或者是任何常规的处理器等。处理器601在与其他设备进行通信时，可以通过通信接口603进行数据传输，如从接收第一检测指令或第二检测指令。

当所述故障定位装置采用图6所示的形式时，图6中的处理器601可以通过调用存储器602中存储的计算机执行指令，使得所述计算设备可以执行上述任一方法实施例中的所述故障定位装置300执行的方法。

具体的，图5的获取单元、分值确定单元、以及风险确定单元的功能/实现过程均可以通过图6中的处理器601调用存储器602中存储的计算机执行指令来实现。或者，图5中的分值确定单元、以及风险确定单元的功能/实现过程可以通过图6中的处理器601调用存储器602中存储的计算机执行指令来实现，图5的获取单元的功能/实现过程可以通过图6中的通信接口603来实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种针对硬盘的故障预测方法，其特征在于，所述方法包括：

获取硬盘的第一属性值，所述第一属性值用于指示所述硬盘中多个组件的运行状态；

将所述第一属性值输入至故障预测模型中，输出第一异常分值，所述第一异常分值用于指示所述第一属性值下所述硬盘的运行状态，所述故障预测模型是基于所述硬盘的第二属性值训练生成的，所述第二属性值用于指示所述硬盘正常运行时多个组件的运行状态；

在所述第一异常分值大于阈值的情况下，确定所述硬盘存在故障风险。
如权利要求1所述的方法，其特征在于，所述故障预测模型是基于包括所述第二属性值的训练集，采用无监督学习方式训练生成的。
如权利要求2所述的方法，其特征在于，所述阈值是根据多个第二异常分值确定的，所述第二异常分值是所述第二属性值输入至所述故障预测模型中获得的输出值。
如权利要求1～3任一所述的方法，其特征在于，所述故障预测模型包括变分自动编码器VAE和长短时记忆网络LSTM。
如权利要求1～4任一所述的方法，其特征在于，所述第一属性值包括多个状态值，一个所述状态值用于指示所述硬盘中一个组件的运行状态。
如权利要求5所述的方法，其特征在于，所述第一异常分值等于所述第一属性值中各个所述状态值与对应权重乘积的和值，所述方法还包括，包括：

根据所述第一异常分值，从所述多个状态值中确定对应的权重最大的目标状态值；

根据所述目标状态值确定所述故障原因，所述故障原因指示所述目标状态值所指示的组件存在故障风险。
如权利要求1～6任一所述的方法，其特征在于，所述将所述第一属性值输入至故障预测模型中，输出第一异常分值，包括：

对所述第一属性值进行预处理，将预处理后的所述第一属性值输入所述故障预测模型，输出所述第一异常分值，所述预处理包括下列的部分或全部：筛选处理、归一化处理。
如权利要求1～7任一所述的方法，其特征在于，所述方法还包括：

在所述第一异常分值不大于所述阈值的情况下，指示所述硬盘正常运行。
一种故障定位装置，其特征在于，所述装置包括获取单元、分值确定单元、风险确定单元；

所述获取单元，用于获取硬盘的第一属性值，所述第一属性值用于指示所述硬盘中多个组件的运行状态；

所述分值确定单元，用于将所述第一属性值输入至故障预测模型中，输出第一异常分值，所述第一异常分值用于指示所述第一属性值下所述硬盘的运行状态，所述故障预测模型是基于所述硬盘的第二属性值训练生成的，所述第二属性值用于指示所述硬盘正常运行时多个组件的运行状态；

所述风险确定单元，用于在所述第一异常分值大于阈值的情况下，确定所述硬盘存在故障风险。
如权利要求9所述的装置，其特征在于，所述故障预测模型是基于包括所述第二属性值的训练集，采用无监督学习方式训练生成的。
如权利要求10所述的装置，其特征在于，所述阈值是根据多个第二异常分值确定的，所述第二异常分值是所述第二属性值输入至所述故障预测模型中获得的输出值；所述阈值不小于所述多个第二异常分值中的最大值。
如权利要求9～11任一所述的装置，其特征在于，所述故障预测模型包括变分自动编码器VAE和长短时记忆网络LSTM。
如权利要求9～12任一所述的装置，其特征在于，所述第一属性值包括多个状态值，一个所述状态值用于指示所述硬盘中一个组件的运行状态。
如权利要求13所述的装置，其特征在于，所述第一异常分值等于所述第一属性值中各个所述状态值与对应权重乘积的和值，所述风险确定单元，还用于：

根据所述第一异常分值，从所述多个状态值中确定对应的权重最大的目标状态值；

根据所述目标状态值确定所述故障原因，所述故障原因指示所述目标状态值所指示的组件存在故障风险。
如权利要求9～14任一所述的装置，其特征在于，所述分值确定单元在将所述第一属性值输入至故障预测模型中，输出第一异常分值时，具体用于：

对所述第一属性值进行预处理，将预处理后的所述第一属性值输入所述故障预测模型，输出所述第一异常分值，所述预处理包括下列的部分或全部：筛选处理、归一化处理。
如权利要求9～15任一所述的装置，其特征在于，所述风险确定单元，还用于：

在所述第一异常分值不大于所述阈值的情况下，指示所述硬盘正常运行。
一种计算设备，其特征在于，所述计算设备包括处理器和存储器；

所述存储器，用于存储计算机程序指令；

所述处理器执行调用所述存储器中的计算机程序指令执行如权利要求1至8中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1至8任一项所述的方法。