WO2024104153A1

WO2024104153A1 - 一种数据增强方法、系统、设备及计算机可读存储介质

Info

Publication number: WO2024104153A1
Application number: PCT/CN2023/128611
Authority: WO
Inventors: 贾上坤; 郭坤
Original assignee: 苏州元脑智能科技有限公司
Priority date: 2022-11-14
Filing date: 2023-10-31
Publication date: 2024-05-23
Also published as: CN115964361B; CN115964361A

Abstract

提供了一种数据增强方法、系统、设备及计算机可读存储介质，获取待增强的目标历史数据，目标历史数据包括目标数量个历史时刻下的数据值；确定对目标历史数据进行增强的目标时刻；按照时间顺序对目标历史数据进行排序，得到特征时间序列；基于时间序列分析法确定特征时间序列的自回归模型；基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据。

Description

一种数据增强方法、系统、设备及计算机可读存储介质

相关申请的交叉引用

本申请要求于2022年11月14日提交中国专利局，申请号为202211417465.8，申请名称为“一种数据增强方法、系统、设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中

技术领域

本申请涉及数据处理技术领域，更具体地说，涉及一种数据增强方法、系统、设备及计算机可读存储介质。

背景技术

随着科技的飞速发展，人们已经进入了信息化、网络化的时代，数据量呈指数爆炸式增长，全世界的数据水平已经从TB跃升至PB、EB乃至ZB级别。此外，大数据、云存储技术的日新月异也对存储系统提出了更高的要求。

磁盘作为数据的存储仓库，其安全性和可靠性一直以来都是数据运维人员最为关注的问题之一。为了对磁盘进行运维，可以采集磁盘的运行数据，通过对运行数据进行分析来确定磁盘的故障并进行相应的维护等。然而，在此过程中，由于设备和人为因素的影响，采集的数据不可避免地出现异常值、缺失值等情况，从而引发数据乱码、缺漏的问题，影响对磁盘的准确运维。

综上所述，如何对数据进行增强，提高数据质量是目前本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种数据增强方法，其能在一定程度上解决如何对数据进行增强，提高数据质量的技术问题。本申请还提供了一种数据增强系统、设备及计算机可读存储介质。

为了实现上述目的，本申请提供如下技术方案：

一种数据增强方法，包括：

获取待增强的目标历史数据，目标历史数据包括目标数量个历史时刻下的数据值；

确定对目标历史数据进行增强的目标时刻；

按照时间顺序对目标历史数据进行排序，得到特征时间序列；

基于时间序列分析法确定特征时间序列的自回归模型；

基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据，以基于目标数据对目标历史数据进行增强。

在本申请一些实施例中，基于时间序列分析法确定特征时间序列的自回归模型，包括：

对特征时间序列进行单位根平稳性检验；

若特征时间序列并非平稳性序列，则对特征时间序列进行差分运算，返回执行对特征时间序列进行单位根平稳性检验及之后的步骤；

若特征时间序列为平稳性序列，则过滤掉特征时间序列中的白噪声，将特征时间序列中的剩余数据作为目标时间序列；

基于赤池信息量准则确定目标时间序列的自回归模型。

在本申请一些实施例中，基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据，包括：

基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式；

基于卡尔曼滤波法中，对离散状态表达式和观测表达式进行预测、更新，得到目标时刻下的目标数据。

在本申请一些实施例中，基于赤池信息量准则确定目标时间序列的自回归模型，包括：

基于赤池信息量准则确定目标时间序列的自回归模型，自回归模型包括：
x(t)＝φ₁x(t-1)+φ₂(t-2)+…+φ_px(t-p)+a_t；

其中，x(t)示在t时刻的数据值；φ表示数据值在自回归模型中的对应参数；p表示自回归模型的阶数；a_t表示在t时刻的随机干扰信号。

在本申请一些实施例中，基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式，包括：

离散状态表达式包括：X(t+1)＝A·X(t)+Γ·w(t+1)；

其中，X(t+1)表示(t+1)时刻下的状态向量；a表示状态转移矩阵；Γ表示激励转移矩阵；x_p(t)表示目标历史数据中第p组数据值在t时刻下的数据值；w(t+1)表示(t+1)时刻下的过程噪声向量；

观测表达式包括：Z(t+1)＝H·X(t+1)+v(t+1)；
H＝[1 0 … 0 0]；

其中，Z(t+1)表示(t+1)时刻下的观测向量；H表示观测状态矩阵；v(t+1)表示(t+1)时刻下的测量噪声向量。

在本申请一些实施例中，基于卡尔曼滤波法中，对离散状态表达式和观测表达式进行预测、更新，包括：

通过预测公式及更新公式，基于卡尔曼滤波法中，对离散状态表达式和观测表达式进行预测、更新，得到目标时刻下的目标数据；

预测公式包括：

其中，表示系统状态在t时刻下的先验估计；表示系统状态在(t-1)时刻下的后验估计；表示预测的误差协方差矩阵在t时刻下的先验估计；P_t-1表示(t-1)时刻下的更新后的误差协方差矩阵；T表示矩阵的转置；Q表示过程噪声向量的协方差矩阵；

更新公式包括：

其中，K_t表示t时刻下的卡尔曼增益；R表示测量噪声向量的协方差矩阵；I表示预设值。

在本申请一些实施例中，获取待增强的目标历史数据，包括：

获取待增强的原始历史数据；

对原始历史数据进行筛选，得到满足预设处理条件的目标历史数据。

在本申请一些实施例中，基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据之后，还包括：

基于目标数据对目标历史数据进行增强。

在本申请一些实施例中，基于目标数据对目标历史数据进行增强，包括：

基于目标数据对目标历史数据进行查漏补缺。

基于目标数据对目标历史数据进行异常值修复。

在本申请一些实施例中，基于目标数据对目标历史数据进行异常值修复，包括：

若检测到目标历史数据中目标时刻下的数据值与目标数据间的差值过大，则可以将目标历史数据中该目标时刻下的数据值替换为目标数据。

在本申请一些实施例中，目标时刻为基于目标历史数据的未来的时刻，和/或基于目标历史数据之前的历史时刻。

基于目标数据对目标历史数据进行扩充。

在本申请一些实施例中，基于目标数据对目标历史数据进行增强之后，还包括：

对增强后的目标历史数据进行处理，得到处理结果。

获取原始磁盘SMART中的原始磁盘SMART数据；

将原始磁盘SMART数据中与磁盘故障相关性最高的属性作为待增强的目标历史数据。

在本申请一些实施例中，在原始磁盘SMART中的原始磁盘SMART数据之后，还包括：

将原始磁盘SMART数据转变为统一格式进行标准化存储。

在本申请一些实施例中，目标历史数据为以下任意数据：

磁盘运行的性能数据、服务器运行的性能数据、采集的服务器的日志数据。

一种数据增强系统，包括：

第一获取模块，用于获取待增强的目标历史数据，目标历史数据包括目标数量个历史时刻下的数据值；

第一确定模块，用于确定对目标历史数据进行增强的目标时刻；

第一排序模块，用于按照时间顺序对目标历史数据进行排序，得到特征时间序列；

第二确定模块，用于基于时间序列分析法确定特征时间序列的自回归模型；

第一增强模块，用于基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据，以基于目标数据对目标历史数据进行增强。

一种数据增强设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上任一数据增强方法的步骤。

一种非易失性计算机可读存储介质，非易失性计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如上任一数据增强方法的步骤。

本申请提供的一种数据增强方法，获取待增强的目标历史数据，目标历史数据包括目标数量个历史时刻下的数据值；确定对目标历史数据进行增强的目标时刻；按照时间顺序对目标历史数据进行排序，得到特征时间序列；基于时间序列分析法确定特征时间序列的自回归模型；基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据，以基于目标数据对目标历史数据进行增强。本申请中，可以按照时间序列对目标数量个历史时刻下的数据值进行排序得到特征时间序列，且可以基于时间序列分析法确定特征时间序列的自回归模型，基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据，相当于实现了基于时间序列分析法及卡尔曼滤波法对目标历史数据进行数据增强，提高了数据质量。本申请提供的一种数据增强系统、设备及计算机可读存储介质也解决了相应技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种数据增强方法的第一流程图；

图2为本申请实施例提供的一种数据增强方法的第二流程图；

图3为本申请实施例提供的一种数据增强方法的整体示意图；

图4为基于时间序列分析法确定自回归模型的示意图；

图5为本申请实施例提供的一种数据增强系统的结构示意图；

图6为本申请实施例提供的一种数据增强设备的结构示意图；

图7为本申请实施例提供的一种数据增强设备的另一结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着科技的飞速发展，人们已经进入了信息化、网络化的时代，数据量呈指数爆炸式增长，全世界的数据水平已经从TB跃升至PB、EB乃至ZB级别。此外，大数据、云存储技术的日新月异也对存储系统提出了更高的要求。磁盘作为数据的存储仓库，其安全性和可靠性一直以来都是数据运维人员最为关注的问题之一。为了对磁盘进行运维，可以采集磁盘的运行数据，通过对运行数据进行分析来确定磁盘的故障并进行相应的维护等。然而，在此过程中，由于设备和人为因素的影响，采集的数据不可避免地出现异常值、缺失值等情况，从而引发数据乱码、缺漏的问题，影响对磁盘的准确运维。而本申请提供的数据增强方案可以对数据进行增强，提高数据质量。

请参阅图1，图1为本申请实施例提供的一种数据增强方法的第一流程图。

本申请实施例提供的一种数据增强方法，可以包括以下步骤：

步骤S101：获取待增强的目标历史数据，目标历史数据包括目标数量个历史时刻下的数据值。

实际应用中，可以先获取待增强的目标历史数据，且所获取的目标历史数据包括目标数量个历史时刻下的数据值，需要说明的是，目标历史数据的类型及数量等可以根据实际需要确定，比如目标历史数据可以为磁盘运行的性能数据、服务器运行的性能数据、采集的服务器的日志数据等，目标数量可以为100、200、300等，本申请在此不做具体限定。

具体应用场景中，在获取待增强的目标历史数据的过程中，考虑到采集的数据一般会携带对数据处理无关的数据，此时对这类数据进行数据增强的话，会影响最终的数据处理效果，所以为了保证数据处理效果，可以过滤掉对数据处理无关的数据，也即可以获取待增强的原始历史数据；对原始历史数据进行筛选，得到满足预设处理条件的目标历史数据，其中预设处理条件可以根据实际需要确定，比如预设处理条件可以为故障分析，则可以筛选得到与故障分析相关的目标历史数据等。

步骤S102：确定对目标历史数据进行增强的目标时刻。

实际应用中，在获取待增强的目标历史数据之后，便可以确定对目标历史数据进行增强的目标时刻，该目标时刻可以为未来的某一时刻，也可以为之前的某一历史时刻等，本申请在此不做具体限定。

步骤S103：按照时间顺序对目标历史数据进行排序，得到特征时间序列。

实际应用中，在确定对目标历史数据进行增强的目标时刻之后，便可以按照时间顺序对目标历史数据进行排序，得到特征时间序列，以便后续基于特征时间序列对目标历史数据进行增强。

步骤S104：基于时间序列分析法确定特征时间序列的自回归模型。

实际应用中，在按照时间顺序对目标历史数据进行排序，得到特征时间序列之后，便可以基于时间序列分析法确定特征时间序列的自回归模型，以便后续基于自回归模型对目标历史数据进行增强。

需要说明的是，本申请中所涉及的时间序列分析法是概率统计学科中应用广泛的一个分支，其利用数理统计方法对按时间顺序排列的一组数据加以处理，结合数据本身的性质，通过曲线拟合和参数估计来建立数学模型，从而预测事物的发展，时间序列分析最大的优点在于不需要深入挖掘信号序列产生的背景，其本身所具有的时序性和自相关性，为建模提供了足够的信息，只需要有限的样本序列，就可以建立预测模型，所以本申请可以借助时间序列分析法快速确定特征时间序列的自回归模型。

步骤S105：基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据，以基于目标数据对目标历史数据进行增强。

实际应用中，基于时间序列分析法确定特征时间序列的自回归模型之后，便可以基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据，以基于目标数据对目标历史数据进行增强。

需要说明的是，本申请中所涉及的卡尔曼滤波是一种应用广泛的模型数据和观测数据融合的线性二次估计方法，利用系统状态空间方程，通过系统的输入数据和观测数据，对系统的状态量进行最优估计。卡尔曼滤波的优点是通过动态修改权值和利用递推方程来获得较高的精度，但是缺点是系统状态空间方程的建立较为困难。而本申请利用时间序列分析建立一个能够反映时间序列规律的低阶模型，据此推导出系统的状态空间方程，通过卡尔曼滤波的预测更新公式对信号进行最优化估计，不仅避免了建立高阶时间序列模型，而且降低了构建卡尔曼滤波状态空间方程的难度，可以更好的对数据进行增强处理。

需要说明的是，在得到目标时刻下的目标数据之后，基于目标数据对目标历史数据进行增强的过程可以如下：当目标时刻为之前的某一历史时刻时，若该目标历史数据中不存在该目标时刻下的数据值，则可以基于目标数据对目标历史数据进行查漏补缺，将目标数据填充至目标历史数据中等；当目标时刻为之前的某一历史时刻时，若该目标历史数据中存在该目标时刻下的数据值，则可以基于目标数据对目标历史数据进行异常值检测、修复，比如若检测到目标历史数据中该目标时刻下的数据值与目标数据间的差值过大，则可以将目标历史数据中该目标时刻下的数据值替换为目标数据等；当目标时刻为未来的某一时刻，则可以基于目标数据对目标历史数据进行扩充等；本申请在此不做具体限定。此外，还需说明的是，在基于目标数据对目标历史数据进行增强之后，还可以对增强后的目标历史数据进行处理等，本申请在此不做具体限定。

本申请提供的一种数据增强方法，获取待增强的目标历史数据，目标历史数据包括目标数量个历史时刻下的数据值；确定对目标历史数据进行增强的目标时刻；按照时间顺序对目标历史数据进行排序，得到特征时间序列；基于时间序列分析法确定特征时间序列的自回归模型；基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据。本申请中，可以按照时间序列对目标数量个历史时刻下的数据值进行排序得到特征时间序列，且可以基于时间序列分析法确定特征时间序列的自回归模型，基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据，相当于实现了基于时间序列分析法及卡尔曼滤波法对目标历史数据进行数据增强，提高了数据质量。

请参阅图2和图3，图2为本申请实施例提供的一种数据增强方法的第二流程图，图3为本申请实施例提供的一种数据增强方法的整体示意图。

步骤S201：获取待增强的目标历史数据，目标历史数据包括目标数量个历史时刻下的数据值。

步骤S202：确定对目标历史数据进行增强的目标时刻。

步骤S203：按照时间顺序对目标历史数据进行排序，得到特征时间序列。

步骤S204：对特征时间序列进行单位根平稳性检验。

步骤S205：若特征时间序列并非平稳性序列，则对特征时间序列进行差分运算，返回执行对特征时间序列进行单位根平稳性检验及之后的步骤。

步骤S206：若特征时间序列为平稳性序列，则过滤掉特征时间序列中的白噪声，将特征时间序列中的剩余数据作为目标时间序列。

步骤S207：基于赤池信息量准则确定目标时间序列的自回归模型。

实际应用中，请参阅图4，在基于时间序列分析法确定特征时间序列的自回归模型的过程中，可以对特征时间序列进行单位根平稳性检验；若特征时间序列并非平稳性序列，则对特征时间序列进行差分运算，返回执行对特征时间序列进行单位根平稳性检验及之后的步骤；若特征时间序列为平稳性序列，则过滤掉特征时间序列中的白噪声，将特征时间序列中的剩余数据作为目标时间序列；基于赤池信息量准则(Akaike information criterion,AIC)确定目标时间序列的自回归模型。

具体应用场景中，在基于赤池信息量准则确定目标时间序列的自回归模型的过程中，可以基于赤池信息量准则确定目标时间序列的自回归模型，自回归模型包括：

其中，x表示数据值；x(t)表示在t时刻的数据值；φ表示数据值在自回归模型中的对应参数；p表示自回归模型的阶数；a_t表示在t时刻的随机干扰信号。

步骤S208：基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式。

步骤S209：基于卡尔曼滤波法中，对离散状态表达式和观测表达式进行预测、更新，得到目标时刻下的目标数据，以基于目标数据对目标历史数据进行增强。

实际应用中，在基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据的过程中，可以基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式；基于卡尔曼滤波法中，对离散状态表达式和观测表达式进行预测、更新，得到目标时刻下的目标数据。

具体应用场景中，假设卡尔曼滤波的离散状态表达式和观测表达式如下：
X(t)＝A·X(t-1)+Γ·w(t)；Z(t)＝H·X(t)+v(t)；

将自回归模型变形为:
x(t+1)=φ₁x(t)+φ₂x(t-1)+…+φ_px(t-p+1)+a_t+1；

令x(t)＝x₁(t)，x(t-1)＝x₂(t)，…，x(t-p+1)＝x_p(t)，则有：
x₁(t+1)＝φ₁x(t)+φ₂x₂(t)+…+φ_px_p(t)+a_t+1；

又因为x₂(t+1)＝x₁(t)，x₃(t+1)＝x₂(t)，…，x_p(t+1)＝x_p-1(t)，所以可得离散状态表达式为：

并且根据上述离散状态表达式，可以建立如下观测表达式：

换言之，在基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式的过程中，可以基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式；

离散状态表达式包括：X(t+1)＝A·X(t)+Γ·w(t+1)；

观测表达式包括：Z(t+1)＝H·X(t+1)+v(t+1)；

H＝[1 0 … 0 0]；

具体应用场景中，在基于卡尔曼滤波法中，对离散状态表达式和观测表达式进行预测、更新的过程中，可以通过预测公式及更新公式，基于卡尔曼滤波法中，对离散状态表达式和观测表达式进行预测、更新，得到目标时刻下的目标数据；

预测公式包括：

其中，表示系统状态在t时刻下的先验估计；表示系统状态在(t-1)时刻下的后验估计；表示预测的误差协方差矩阵在t时刻下的先验估计；P_t-1表示 (t-1)时刻下的更新后的误差协方差矩阵；T表示矩阵的转置；Q表示过程噪声向量的协方差矩阵；

更新公式包括：

为了便于理解本申请提供的数据增强方法，现结合对磁盘数据的故障分析过程来对其进行描述，其可以包括以下步骤：

通过数据采集工具每天采集一次原始磁盘SMART(Self-Monitoring Analysis and Reporting Technology，自我监控、分析和报告技术)数据，且可以按照日期以文本格式存储原始历史数据；其中，SMART是一种自动的磁盘状态检测与预警系统和规范，该技术通过检测指令监控、记录磁盘的硬件性能，如原始数据读取率、重新分配扇区数、磁盘校准重试次数、多区域错误率等属性，并通过比较阈值来检测磁盘的健康状态等；

将原始磁盘SMART数据转变为统一格式进行标准化存储，统一格式可以为Backblaze数据集等；

将原始磁盘SMART中与磁盘故障相关性最高的属性作为目标磁盘SMART数据，比如将SMART 5，9，187，188，193，194，197，198，241，242这10个特征作为目标磁盘SMART数据等，其中，这10个特征的含义如表1所示；

确定对目标磁盘SMART数据进行增强的目标时刻；

按照时间顺序对目标磁盘SMART数据进行排序，得到特征时间序列；

对特征时间序列进行单位根平稳性检验；

基于赤池信息量准则确定目标时间序列的自回归模型；

基于卡尔曼滤波法中，对离散状态表达式和观测表达式进行预测、更新，得到目标时刻下的目标数据；

基于目标数据对目标磁盘SMART数据进行增强；

基于机器学习方法，对增强后的目标磁盘SMART数据进行分析，确定磁盘的故障原因等。

表1 SMART候选特征说明

请参阅图5，图5为本申请实施例提供的一种数据增强系统的结构示意图。

本申请实施例提供的一种数据增强系统，可以包括：

第一获取模块101，用于获取待增强的目标历史数据，目标历史数据包括目标数量个历史时刻下的数据值；

第一确定模块102，用于确定对目标历史数据进行增强的目标时刻；

第一排序模块103，用于按照时间顺序对目标历史数据进行排序，得到特征时间序列；

第二确定模块104，用于基于时间序列分析法确定特征时间序列的自回归模型；

第一增强模块105，用于基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据，以基于目标数据对目标历史数据进行增强。

本申请实施例提供的一种数据增强系统，第二确定模块可以包括：

第一检验单元，用于对特征时间序列进行单位根平稳性检验；若特征时间序列并非平稳性序列，则对特征时间序列进行差分运算，返回执行对特征时间序列进行单位根平稳性检验及之后的步骤；若特征时间序列为平稳性序列，则过滤掉特征时间序列中的白噪声，将特征时间序列中的剩余数据作为目标时间序列；

第一确定单元，用于基于赤池信息量准则确定目标时间序列的自回归模型。

本申请实施例提供的一种数据增强系统，第一增强模块可以包括：

第二确定单元，用于基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式；

第一增强单元，用于基于卡尔曼滤波法中，对离散状态表达式和观测表达式进行预测、更新，得到目标时刻下的目标数据。

本申请实施例提供的一种数据增强系统，第一确定单元可以具体用于：

基于赤池信息量准则确定目标时间序列的自回归模型，自回归模型包括：
x(t)＝φ₁x(t-1)+φ₂x(t-2)+…+φ_px(t-p)+a_t；

其中，x(t)表示在t时刻的数据值；φ表示数据值在自回归模型中的对应参数；p表示自回归模型的阶数；a_t表示在t时刻的随机干扰信号。

本申请实施例提供的一种数据增强系统，第二确定单元可以具体用于：

离散状态表达式包括：X(t+1)＝A·X(t)+Γ·w(t+1)；

观测表达式包括：Z(t+1)＝H·X(t+1)+v(t+1)；

H＝[1 0 … 0 0]；

本申请实施例提供的一种数据增强系统，第一增强单元可以具体用于：

预测公式包括：

更新公式包括：

本申请实施例提供的一种数据增强系统，第一获取模块可以包括：

第一获取单元，用于获取待增强的原始历史数据；

第一筛选单元，用于对原始历史数据进行筛选，得到满足预设处理条件的目标历史数据。

本申请实施例提供的一种数据增强系统，还可以包括：

第一处理模块，用于第一增强模块基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据之后，基于目标数据对目标历史数据进行增强。

本申请实施例提供的一种数据增强系统，第一处理模块可以包括：

第一处理单元，用于基于目标数据对目标历史数据进行查漏补缺。

第二处理单元，用于基于目标数据对目标历史数据进行异常值修复。

第三处理单元，用于基于目标数据对目标历史数据进行扩充。

本申请实施例提供的一种数据增强系统，还可以包括：

第二处理模块，用于第一增强模块基于目标数据对目标历史数据进行增强之后，对增强后的目标历史数据进行处理，得到处理结果。

本申请还提供了一种数据增强设备及计算机可读存储介质，其均具有本申请实施例提供的一种数据增强方法具有的对应效果。请参阅图6，图6为本申请实施例提供的一种数据增强设备的结构示意图。

本申请实施例提供的一种数据增强设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：

确定对目标历史数据进行增强的目标时刻；

基于时间序列分析法确定特征时间序列的自回归模型；

本申请实施例提供的一种数据增强设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：对特征时间序列进行单位根平稳性检验；若特征时间序列并非平稳性序列，则对特征时间序列进行差分运算，返回执行对特征时间序列进行单位根平稳性检验及之后的步骤；若特征时间序列为平稳性序列，则过滤掉特征时间序列中的白噪声，将特征时间序列中的剩余数据作为目标时间序列；基于赤池信息量准则确定目标时间序列的自回归模型。

本申请实施例提供的一种数据增强设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式；基于卡尔曼滤波法中，对离散状态表达式和观测表达式进行预测、更新，得到目标时刻下的目标数据。

本申请实施例提供的一种数据增强设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：基于赤池信息量准则确定目标时间序列的自回归模型，自回归模型包括：
x(t)＝φ₁x(t-1)+φ₂x(t-2)+…+φ_px(t-p)+a_t；

本申请实施例提供的一种数据增强设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式；

离散状态表达式包括：X(t+1)＝A·X(t)+Γ·w(t+1)；

观测表达式包括：Z(t+1)＝H·X(t+1)+v(t+1)；
H＝[1 0 … 0 0]；

本申请实施例提供的一种数据增强设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：通过预测公式及更新公式，基于卡尔曼滤波法中，对离散状态表达式和观测表达式进行预测、更新，得到目标时刻下的目标数据；

预测公式包括：

更新公式包括：

本申请实施例提供的一种数据增强设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：获取待增强的原始历史数据；对原始历史数据进行筛选，得到满足预设处理条件的目标历史数据。

本申请实施例提供的一种数据增强设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测，得到目标时刻下的目标数据之后，基于目标数据对目标历史数据进行增强。

本申请实施例提供的一种数据增强设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：基于目标数据对目标历史数据进行查漏补缺。

本申请实施例提供的一种数据增强设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：基于目标数据对目标历史数据进行异常值修复。

本申请实施例提供的一种数据增强设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：基于目标数据对目标历史数据进行扩充。

本申请实施例提供的一种数据增强设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：基于目标数据对目标历史数据进行增强之后，对增强后的目标历史数据进行处理，得到处理结果。

请参阅图7，本申请实施例提供的另一种数据增强设备中还可以包括：与处理器202连接的输入端口203，用于传输外界输入的命令至处理器202；与处理器202连接的显示单元204，用于显示处理器202的处理结果至外界；与处理器202连接的通信模块205，用于实现数据增强设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等；通信模块205所采用的通信方式包括但不局限于移动高清链接技术(HML)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线连接：无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。

本申请实施例提供的一种非易失性计算机可读存储介质，非易失性计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如上任一实施例所描述数据增强方法的步骤。

本申请所涉及的非易失性计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本申请实施例提供的数据增强系统、设备及计算机可读存储介质中相关部分的说明请参见本申请实施例提供的数据增强方法中对应部分的详细说明，在此不再赘述。另外，本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种数据增强方法，其特征在于，包括：

获取待增强的目标历史数据，所述目标历史数据包括目标数量个历史时刻下的数据值；

确定对所述目标历史数据进行增强的目标时刻；

按照时间顺序对所述目标历史数据进行排序，得到特征时间序列；

基于时间序列分析法确定所述特征时间序列的自回归模型；

基于卡尔曼滤波法对所述自回归模型在所述目标时刻下的数据值进行预测，得到所述目标时刻下的目标数据，以基于所述目标数据对所述目标历史数据进行增强。
根据权利要求1所述的方法，其特征在于，所述基于时间序列分析法确定所述特征时间序列的自回归模型，包括：

对所述特征时间序列进行单位根平稳性检验；

若所述特征时间序列并非平稳性序列，则对所述特征时间序列进行差分运算，返回执行所述对所述特征时间序列进行单位根平稳性检验及之后的步骤；

若所述特征时间序列为平稳性序列，则过滤掉所述特征时间序列中的白噪声，将所述特征时间序列中的剩余数据作为目标时间序列；

基于赤池信息量准则确定所述目标时间序列的所述自回归模型。
根据权利要求2所述的方法，其特征在于，所述基于卡尔曼滤波法对所述自回归模型在所述目标时刻下的数据值进行预测，得到所述目标时刻下的目标数据，包括：

基于所述卡尔曼滤波法确定所述自回归模型的离散状态表达式和观测表达式；

基于所述卡尔曼滤波法中，对所述离散状态表达式和所述观测表达式进行预测、更新，得到所述目标时刻下的所述目标数据。
根据权利要求3所述的方法，其特征在于，所述基于赤池信息量准则确定所述目标时间序列的所述自回归模型，包括：

基于所述赤池信息量准则确定所述目标时间序列的所述自回归模型，所述自回归模型包括：
x(t)＝φ₁x(t-1)+φ₂x(t-2)+…+φ_px(t-p)+a_t；

其中，x(t)表示在t时刻的数据值；φ表示所述数据值在所述自回归模型中的对应参数；p表示所述自回归模型的阶数；a_t表示在t时刻的随机干扰信号。
根据权利要求4所述的方法，其特征在于，所述基于所述卡尔曼滤波法确定所述自回归模型的离散状态表达式和观测表达式，包括：

基于所述卡尔曼滤波法确定所述自回归模型的所述离散状态表达式和所述观测表达式；

所述离散状态表达式包括：X(t+1)＝A·X(t)+Γ·w(t+1)；

其中，X(t+1)表示(t+1)时刻下的状态向量；A表示状态转移矩阵；Γ表示激励转移矩阵；x_p(t)表示所述目标历史数据中第p组数据值在t时刻下的数据值；w(t+1)表示(t+1)时刻下的过程噪声向量；

所述观测表达式包括：Z(t+1)＝H·X(t+1)+v(t+1)；
H＝[1 0 … 0 0]；

其中，Z(t+1)表示(t+1)时刻下的观测向量；H表示观测状态矩阵；v(t+1)表示(t+1)时刻下的测量噪声向量。
根据权利要求5所述的方法，其特征在于，所述基于所述卡尔曼滤波法中，对所述离散状态表达式和所述观测表达式进行预测、更新，包括：

通过预测公式及更新公式，基于所述卡尔曼滤波法中，对所述离散状态表达式和所述观测表达式进行预测、更新，得到所述目标时刻下的所述目标数据；

所述预测公式包括：

其中，表示系统状态在t时刻下的先验估计；表示系统状态在(t-1)时刻下的后验估计；表示预测的误差协方差矩阵在t时刻下的先验估计；P_t-1表示(t-1)时刻下的更新后的所述误差协方差矩阵；T表示矩阵的转置；Q表示所述过程噪声向量的协方差矩阵；

所述更新公式包括：

其中，K_t表示t时刻下的卡尔曼增益；R表示所述测量噪声向量的协方差矩阵；I表示预设值。
根据权利要求1至6任一项所述的方法，其特征在于，所述获取待增强的目标历史数据，包括：

获取待增强的原始历史数据；

对所述原始历史数据进行筛选，得到满足预设处理条件的所述目标历史数据。
根据权利要求7所述的方法，其特征在于，所述基于卡尔曼滤波法对所述自回归模型在所述目标时刻下的数据值进行预测，得到所述目标时刻下的目标数据之后，还包括：

基于所述目标数据对所述目标历史数据进行增强。
根据权利要求8所述的方法，其特征在于，所述基于所述目标数据对所述目标历史数据进行增强，包括：

基于所述目标数据对所述目标历史数据进行查漏补缺。
根据权利要求8所述的方法，其特征在于，所述基于所述目标数据对所述目标历史数据进行增强，包括：

基于所述目标数据对所述目标历史数据进行异常值修复。
根据权利要求10所述的方法，其特征在于，所述基于所述目标数据对所述目标历史数据进行异常值修复，包括：

若检测到所述目标历史数据中目标时刻下的数据值与所述目标数据间的差值过大，则可以将所述目标历史数据中该目标时刻下的数据值替换为所述目标数据。
根据权利要求1所述的方法，其特征在于，所述目标时刻为基于所述目标历史数据的未来的时刻，和/或基于所述目标历史数据之前的历史时刻。
根据权利要求8所述的方法，其特征在于，所述基于所述目标数据对所述目标历史数据进行增强，包括：

基于所述目标数据对所述目标历史数据进行扩充。
根据权利要求8所述的方法，其特征在于，所述基于所述目标数据对所述目标历史数据进行增强之后，还包括：

对增强后的所述目标历史数据进行处理，得到处理结果。
根据权利要求1所述的方法，其特征在于，所述获取待增强的目标历史数据，包括：

获取原始磁盘SMART中的原始磁盘SMART数据；

将所述原始磁盘SMART数据中与磁盘故障相关性最高的属性作为待增强的目标历史数据。
根据权利要求15所述的方法，其特征在于，在所述原始磁盘SMART中的原始磁盘SMART数据之后，还包括：

将原始磁盘SMART数据转变为统一格式进行标准化存储。
根据权利要求1或15所述的方法，其特征在于，所述目标历史数据为以下任意数据：

磁盘运行的性能数据、服务器运行的性能数据、采集的服务器的日志数据。
一种数据增强系统，其特征在于，包括：

第一获取模块，用于获取待增强的目标历史数据，所述目标历史数据包括目标数量个历史时刻下的数据值；

第一确定模块，用于确定对所述目标历史数据进行增强的目标时刻；

第一排序模块，用于按照时间顺序对所述目标历史数据进行排序，得到特征时间序列；

第二确定模块，用于基于时间序列分析法确定所述特征时间序列的自回归模型；

第一增强模块，用于基于卡尔曼滤波法对所述自回归模型在所述目标时刻下的数据值进行预测，得到所述目标时刻下的目标数据，以基于所述目标数据对所述目标历史数据进行增强。
一种数据增强设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至17任一项所述数据增强方法的步骤。
一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至17任一项所述数据增强方法的步骤。