WO2024093207A1

WO2024093207A1 - 一种时序数据处理方法、装置、设备及非易失性可读存储介质

Info

Publication number: WO2024093207A1
Application number: PCT/CN2023/095897
Authority: WO
Inventors: 张潇澜; 李峰; 殷涛
Original assignee: 苏州元脑智能科技有限公司
Priority date: 2022-11-02
Filing date: 2023-05-23
Publication date: 2024-05-10
Also published as: CN115422264B; CN115422264A

Abstract

本公开属于计算机应用领域，具体公开了一种时序数据处理方法、装置、设备及非易失性可读存储介质，该方法包括：按照多个不同的窗口大小，分别对时序数据进行分割，得到多个训练集；将训练集分别输入至多个自编码器中进行训练；其中，一个自编码器对应一个窗口大小；训练完成后，对各个自编码器输出的模型进行择优选择，得到目标模型；获取目标时序数据，并利用目标模型提取目标时序数据的目标特征。本公开在自动选择最优窗口的情况下，实现了对多个指标且每个指标有多个维度的时序数据的自动化特征提取。

Description

一种时序数据处理方法、装置、设备及非易失性可读存储介质

相关申请的交叉引用

本公开要求于2022年11月02日提交中国专利局，申请号为202211361310.7，申请名称为“一种时序数据处理方法、装置、设备及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及计算机应用技术领域，特别是涉及一种时序数据处理方法、装置、设备及非易失性可读存储介质。

背景技术

时序数据分析是人工智能领域的重要研究方向，被广泛应用于智能运维、自然语言处理、视频分析以及语音识别等多个领域。具体如对硬件设备的性能监控、异常检测、容量预测以及故障诊断，自然语言分析及理解，视频及语音模式分析及识别等。

在实际应用中，通常使用多个指标(每个指标中使用多个维度)来描述时序数据。通过对指标数据的分析，来预测数据未来的发展趋势。然而，指标数据中的维度往往是冗余的，其重要性程度也是不同的，大量冗余信息为算法的准确度带来了很大的干扰，增加了算法的时间复杂度，降低算法的预测效果及处理效率。

因此，如何能够在不同指标的众多维度中自动提取到数据的关键特征，是目前本领域技术人员急需解决的技术问题。

发明内容

本公开的目的是提供一种时序数据处理方法、装置、设备及非易失性可读存储介质，可以自动选择最优窗口和模型，从而使得最终得到的目标模型能够在不同指标的众多维度中自动提取到时序数据的关键特征。

为解决上述技术问题，本公开提供如下技术方案：

一种特征提取方法，包括：

按照多个不同的窗口大小，分别对时序数据进行分割，得到多个训练集；

将所述训练集分别输入至多个自编码器中进行训练；其中，一个所述自编码器对应一个所述窗口大小；

训练完成后，对各个所述自编码器输出的模型进行择优选择，得到目标模型；

获取目标时序数据，并利用所述目标模型提取所述目标时序数据的目标特征。

在一些实施例中，对各个所述自编码器输出的模型进行择优选择，得到目标模型，包括：

按照多个不同的所述窗口大小，分别对测试时序数据进行分割，得到多个测试集；

将所述测试集分别输入至对应的所述模型中进行测试，得各个所述模型对应的重构误差；

利用所述重构误差，对多个所述模型进行择优选择，得到所述目标模型。

在一些实施例中，利用所述重构误差，对多个所述模型进行择优选择，得到所述目标模型，包括：

分别计算每一个所述模型的全部所述重构误差的平方和；

将所述平方和最小的模型确定为所述目标模型。

在一些实施例中，所述按照多个不同的窗口大小，分别对时序数据进行分割，得到多个训练集，包括：

获取窗口范围参数；

利用所述窗口范围参数，生成多个不同的所述窗口大小；

分别按照不同的所述窗口大小，对所述时序数据进行分割，得到多个所述训练集。

在一些实施例中，利用所述窗口范围参数，生成多个不同的所述窗口大小，包括：

将所述窗口范围参数输入至网格搜索算法进行计算，得到多个不同的所述窗口大小。

在一些实施例中，将所述训练集分别输入至多个自编码器中进行训练，包括：

将所述训练集输入至所述自编码器；

利用所述自编码器中已训练好的特征提取网络对输入数据进行编码；

利用所述自编码器中的LSTM网络对编码后数据进行解码；

计算解码所得数据对应的损失值，并利用所述损失值调整模型。

在一些实施例中，利用所述自编码器中已训练好的特征提取网络对输入数据进行编码，包括：

利用所述自编码器中训练好的残差网络，对所述输入数据进行编码。

在所述时序数据为视频时序数据的情况下，利用所述自编码器中已训练好的所述 CNN网络对所述输入数据进行特征提取，得到特征图，并对所述特征图进行降维，得到一维数据。

在一些实施例中，对所述特征图进行降维，得到一维数据，包括：

利用全连接层对所述特征图进行转换，得到所述一维数据。

在一些实施例中，所述计算解码所得数据对应的损失值，并利用所述损失值调整模型，包括：

利用所述输入数据和所述解码所得数据，计算各个指标的重构误差；

将所述重构误差的平方和均值确定为所述损失值。

在一些实施例中，将所述重构误差的平方和均值确定为所述损失值，包括：

在同时处理多个连续窗口的所述输入数据的情况下，分别计算每一个窗口数据的损失；

将所有所述窗口数据的损失的均值确定为所述损失值。

在一些实施例中，利用所述目标模型提取所述目标时序数据的目标特征，包括：

按照所述目标模型对应的窗口大小，分割所述目标时序数据；

将分割后得到的时序数据依次输入至所述目标模型中进行特征提取，得到所述目标特征。

一种时序数据处理装置，包括：

数据预处理模块，被配置为按照多个不同的窗口大小，分别对时序数据进行分割，得到多个训练集；

模型训练模块，被配置为将所述训练集分别输入至多个自编码器中进行训练；其中，一个所述自编码器对应一个所述窗口大小；

模型选择模块，被配置为训练完成后，对各个所述自编码器输出的模型进行择优选择，得到目标模型；

特征提取模块，被配置为获取目标时序数据，并利用所述目标模型提取所述目标时序数据的目标特征。

一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述时序数据处理方法的步骤。

一种非易失性可读存储介质，所述非易失性可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述时序数据处理方法的步骤。

应用本公开实施例所提供的方法，按照多个不同的窗口大小，分别对时序数据进行分割，得到多个训练集；将训练集分别输入至多个自编码器中进行训练；其中，一个自编码器对应一个窗口大小；训练完成后，对各个自编码器输出的模型进行择优选择，得到目标模型；获取目标时序数据，并利用目标模型提取目标时序数据的目标特征。

在本公开中，为了有效提取目标时序数据的目标特征，首先基于多个不同的窗口大小，分别对时序数据进行分割，得到多个不同窗口大小分别对应的训练集；然后再将这些训练集分别输入到自编码器中进行训练。由于一个自编码器对应一个窗口大小，因而各个自编码器训练结束后，可以得到多个不同的窗口大小所对应的模型。通过对这些模型进行择优选择，可以得到窗口大小最优的最优模型，即目标模型。如此，在获取到目标时序数据之后，便可直接基于该目标模型提取该目标时序数据的目标特征。即，本公开在自动选择最优窗口的情况下，实现了对多个指标且每个指标有多个维度的时序数据的自动化特征提取。

相应地，本公开实施例还提供了与上述时序数据处理方法相对应的时序数据处理装置、设备和非易失性可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本公开实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例中一种时序数据处理方法的实施流程图；

图2为本公开实施例中一种视频数据示意图；

图3为本公开实施例中训练集示意图；

图4为本公开实施例中一种自编码器中模型训练示意图；

图5为本公开实施例中一种模型示意图；

图6为本公开实施例中一种时序数据处理方法的具体实施示意图；

图7为本公开实施例中一种时序数据处理装置的结构示意图；

图8为本公开实施例中一种电子设备的结构示意图；

图9为本公开实施例中一种电子设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开方案，下面结合附图和具体实施方式对本公开作进一步的详细说明。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

为便于理解本公开实施例所提供的时序数据处理方法，下面对相关技术术语以及技术进行说明：

CNN网络：卷积神经网络，Convolutional Neural Network。

LSTM网络：长短期记忆网络，Long Short-Term Memory，一种时间递归神经网络。

VGG网络：卷积神经网络的一种，Visual Geometry Group。

ResNet网络：残差网络，卷积神经网络的一种。

在时序数据预测或者异常检测领域，通常会首先分析历史数据的模式，然后使用这个模式来预测未来时间的数据。基本过程为：设定所要选择历史数据的窗口大小，基于机器学习或者深度学习的方法(包括：基于参数估计/非参估计、或者基于网络等)，来构建时序数据的模式；使用这个模式来预测未来可能出现的数据，或者通过比较预测数据和当前数据的大小关系，来决定当前数据是否异常。在此类方案中，需要事先设计所要采集的历史数据的窗口大小，并对其效果进行测试。如果效果不好，则进行手动修改，进行其他的尝试。这样导致了尝试的盲目性，获取最优窗口的不确定性，降低了最优窗口的选择及评估效率，同时增加了很高的人力成本，无法实现窗口数据的自动测试并且调优。

在对时序数据进行特征提取的时候，通常有机器学习和深度学习。其中，机器学习通过领域专家对数据的维度进行特征分析，去掉冗余维度，留下关键特征，并且构造新的维度特征，然后再进行模型训练。深度学习，构建神经网络，将历史数据的所有维度作为输入，经过神经网络处理、压缩后，得到关键特征。此类方案中，使用机器学习方法来提取时序数据的关键特征时，需要专家要有足够的领域知识，面对高维数据，这往往会比较耗时耗力，分析无法保证足够全面。使用深度学习方法来提取特征时，更多侧重于研究一个指标的多个维度信息。

针对上述方案的不足，本公开公开了一种时序数据处理方法，一方面可以实现对多个指标且每个指标有多个维度的时序数据的自动化特征提取，另一方面，可以自动选择最优窗口的数据。该时序数据处理方法可以应用在诸多领域的特征提取方面，诸如异常检测、自然语言处理、语音或者视频数据分析等。具体的实现过程请参考图1，图1为本公开实施例中一种时序数据处理方法的流程图，该方法包括以下步骤：

S101、按照多个不同的窗口大小，分别对时序数据进行分割，得到多个训练集。

时序数据是指时间序列数据，例如视频数据。如图2所示，视频数据中维度有多个，指标也有多个，并基于时间进行排序。

在本公开中，可设置多个不同的窗口大小，然后在分别按照不同的窗口大小对时序数据进行分割，从而得到多个训练集。

在同一个训练集中，每个样本的大小都与同一个窗口大小对应。即，有几个不同的窗口大小，分个时序数据，最终也得到几个的训练集。

举例说明：若有3，4，和5这3个不同的窗口大小，则以窗口大小为3，对时序数据A进行分割，得到窗口大小为3的训练集A1；以窗口大小为4，对时序数据A进行分割，得到窗口大小为4的训练集A2；以窗口大小为5，对时序数据A进行分割，得到窗口大小为5的训练集A3。

在本公开实施例中，至少存在2个不同的窗口大小，具体有几个不同的窗口大小，可根据实际需求而进行设置，并产生。

在本公开中的一种具体实施方式中，步骤S101按照多个不同的窗口大小，分别对时序数据进行分割，得到多个训练集，包括：

步骤一、获取窗口范围参数；

步骤二、利用窗口范围参数，生成多个不同的窗口大小；

具体的，可将窗口范围参数输入至网格搜索算法进行计算，得到多个不同的窗口大小。

步骤三、分别按照不同的窗口大小，对时序数据进行分割，得到多个训练集。

为便于描述，下面将上述三个步骤结合起来进行说明。

首先，获取窗口范围参数，可通过接收用户输入的方式获取。然后，再根据窗口范围参数，使用网格搜索算法(Grid Search)来自动生成有限个不同大小的窗口集合window＝{w1，w2，…，wk}。

其中，窗口范围参数包括[min，max，Δ]，其中min是可选窗口的最小值，max是可选窗口的最大值，Δ是步长，三者均为正整数。在这个范围内以步长Δ生成k个窗口参数window＝{w1，w2，…，wk}。其中，窗口大小表示，对于连续的时序数据，供选择的数据个数。例如，对于连续的视频时序数据，供选择的图片个数，比如wk个。

在分割时序数据时，可设定窗口重叠参数(overlap)，从而通过分割视频时序数据为每个窗口大小生成自己的训练数据集。其中，overlap参数刻画相邻的两个特定窗口数据的可重叠程度，overlap∈N。举例说明：对于一段视频时序数据Data，使用窗口wi来分割，其采样后生成的训练数据集记为train^wi＝{d^wi ₁，d^wi ₂，…，d^wi _n}，其中|d^wi _k|＝wi，|d^wi _j∩d^wi _(j+1)|＝overlap，(d^wi ₁∪·d^wi ₂∪…∪d^wi _n)＝Data。如图3所示给出了四种不同采样窗口的训练数据集形式。在每个训练集中，每个样本为包含了wi条时序数据的数据包。

S102、将训练集分别输入至多个自编码器中进行训练。

其中，一个自编码器对应一个窗口大小。

其中，自编码器(autoencoder，AE)是一类在半监督学习和非监督学习中使用的人工神经网络(Artificial Neural Networks，ANNs)，其功能是通过将输入信息作为学习目标，对输入信息进行表征学习(representation learning)。

在本实施例中，一个自编码器对应一个窗口大小，因而在步骤S101中采用了多少个不同的窗口大小，则对应有多少个自编码器。

在本公开实施例中，训练集是对应不同的窗口大小的，因而，在进行训练时，则将训练集输入至同一窗口大小的自编码器中的进行训练。例如，若存在5个训练集，则对应存在5个自编码器；利用训练集1训练同窗口大小的自编码器1，利用训练集2训练同窗口大小的自编码器2，利用训练集3训练同窗口大小的自编码器3，利用训练集4训练同窗口大小的自编码器4，利用训练集5训练同窗口大小的自编码器5。

由于不同窗口大小对应不同的自编码器，因而此训练过程可以并行进行，而不必反复调整窗口大小来寻找最优窗口大小。对于具体如何利用训练集在自编码器中进行训练，而得到相应窗口大小的模型，则可参照自编码器的相关定义和实现方案，本实施例对此并不做限定。

在本公开中的一种具体实施方式中，请参考图4，步骤S102将训练集分别输入至多个自编码器中进行训练，包括：

步骤一、将训练集输入至自编码器；

步骤二、利用自编码器中已训练好的特征提取网络对输入数据进行编码；

步骤三、利用自编码器中的LSTM网络对编码后数据进行解码；

步骤四、计算解码所得数据对应的损失值，并利用损失值调整模型。

为便于描述，下面将上述四个步骤结合起来进行说明。

自编码器包括编码部分和解码部分，即训练集输入到自编码器后，可以利用自编码器中已训练好的特征提取网络对输入数据进行编码，利用自编码器中的LSTM网络对编码后数据进行解码。然后计算解码所得数据对应的损失值，并基于损失值来对模型进行调整，训练结束，即可得到所训练的模型。例如，可得到如图5所示的模型，该模型的输入即为时序数据，输出即为时序数据的关键特征。

其中，编码部分可以具体为残差网络或VGG。即上述步骤二利用自编码器中已训练好的特征提取网络对输入数据进行编码，可以具体为利用自编码器中训练好的残差网络，对输入数据进行编码。

在本公开中的一种具体实施方式中，上述步骤二利用自编码器中已训练好的特征提取网络对输入数据进行编码，包括：若时序数据为视频时序数据，则利用自编码器中已训练好的CNN网络对输入数据进行特征提取，得到特征图，并对特征图进行降维，得到一维数据。

其中，对特征图进行降维，得到一维数据，包括：利用全连接层对特征图进行转换，得到一维数据。

以训练集对应视频时序数据为例，视频时序数据其实是连续的图片数据集合，因此在编码阶段，CNN网络主要针对每个图片的三个指标(即RGB三通道)的多维数据进行编码，得到特征图，然后通过全连接层(如Affine层)进行转换，扁平化为1维数据，输入到解码器中。解码器可由多个LSTM网络构成，将输入的1维数据进行还原。

在本公开中的一种具体实施方式中，步骤四计算解码所得数据对应的损失值，并利用损失值调整模型，可具体包括：

步骤1、利用输入数据和解码所得数据，计算各个指标的重构误差；

步骤2、将重构误差的平方和均值确定为损失值。

对于一个窗口的数据，损失函数定义为输入和输出所有指标的重构误差的平方和均值，即对于输入数据diwi，损失函数计算公式为：

其中是输入数据在第i个指标对应的所有维度值，经过自编码器模型后输出为具体的，Loss，损失值，用来衡量真实值和预测值之间的误差；Wi是第i个窗口的大小，即一个训练样本的数据个数；index代表指标，如通道数；Indexi代表第i个指标；表示第j输入个样本，对应生成这个样本的窗口大小为wi；表示模型对第j个样本的处理后重构数据。

输入真实样本和对齐重构结果的差值的平方是为误差。计算所有维度(通道)的误差之和，然后求wi个数据的平均值，即为最终的损失值Loss。

进一步的，将重构误差的平方和均值确定为损失值，包括：

若同时处理多个连续窗口的输入数据，则分别计算每一个窗口数据的损失；将所有窗口数据的损失的均值确定为损失值。也就是说，当使用批处理时(mini-batch)，即同时处理多个连续窗口的数据时，损失函数为所有窗口数据损失值的均值。

在实际应用中，编码器CNN可以使用VGG，Resnet等成熟网络，并且使用其在公开数据集上学习最优的权重，从而获得好的编码效果，提取出更好的特征。

S103、训练完成后，对各个自编码器输出的模型进行择优选择，得到目标模型。

在训练完成之后，便可得到多个不同窗口大小对应的模型。此时，可对这些模型进行择优选择，并将出的模型称之为目标模型。

具体的，在本公开中的一种具体实施方式中，步骤S103对各个自编码器输出的模型进行择优选择，得到目标模型，包括：

步骤一、按照多个不同的窗口大小，分别对测试时序数据进行分割，得到多个测试集；

步骤二、将测试集分别输入至对应的模型中进行测试，得各个模型对应的重构误差；

步骤三、利用重构误差，对多个模型进行择优选择，得到目标模型。

为便于描述，下面将上述三个步骤结合起来进行说明。

也就是说，当训练出模型之后，可以基于测试时序数据产生多个测试集。该测试集的获取方式与训练集获取方式近似，获取测试集的方式可具体参照训练集的获取方式。

针对不同的模型，将其对应的测试集输入至模型中进行处理，可以得到各个模型对应的重构误差。对于模型的重构误差具体如何计算，可具体参照重构误差的相关计算方式，本实施例对重构误差的具体计算方式并不做限定。

得到模型的各个重构误差之后，便可基于重构误差选出重构误差最小的模型作为目标模型。

具体的，对于上述步骤三利用重构误差，对多个模型进行择优选择，得到目标模型，包括：分别计算每一个模型的全部重构误差的平方和；将平方和最小的模型确定为目标模型。也就是说，每一个指标对应的重构误差都可参与最终目标模型的抉择。

也就是说，训练结束后，首先会输出k个模型，对应k个不同窗口大小的训练数据集。将验证集(valid集合，即测试时序数据)分别按照窗口大小进行分割后，输入到对应的k个模型中进行测试，计算所有的重构误差。重构误差平方和最小的模型作为最优模型best_model，将其输出，对应最优窗口大小best_window。best_model的编码器部分输出的结果即为输入视频时序数据的关键特征。

S104、获取目标时序数据，并利用目标模型提取目标时序数据的目标特征。

得到目标模型之后，当需要对目标时序数据进行关键特征提取，则可直接利用目标模型提取目标时序数据的目标特征。

具体的，利用目标模型提取目标时序数据的目标特征，包括：

步骤一、按照目标模型对应的窗口大小，分割目标时序数据；

步骤二、将分割后得到的时序数据依次输入至目标模型中进行特征提取，得到目标特征。

也就是说，使用目标模型进行关键特征提取时，需将目标时序数据按照目标模型对应的窗口大小进行分割，并将分割得到的时序数据依次输入至目标模型中进行提取，如此便可得到对应的关键特征(也即目标特征)。

该关键特征可以进一步用于替换目标时序数据进行相关分析处理。根据目标时序数据的内容不同，可实现对硬件设备的性能监控、异常检测、容量预测以及故障诊断，自然语言分析及理解，视频及语音模式分析及识别等。例如，若目标时序数据对应硬件设备的性能相关数据，则可基于该关键特征对硬件设备进行性能监控、异常检测、容量预测以及故障诊断。

由于目标特征相对于目标时序数据而言，目标特征不存在大量冗余信息，因而不会给相关处理算法的准确度带来干扰，也可降低算法的时间复杂度，提升算法的预测效果及处理效率。

为便于本领域技术人员更好地理解本公开实施例所提供的时序数据处理方法，下面结合具体应用场景为例，对时序数据处理方法进行详细说明。

请参考图6，图6为本公开实施例中一种时序数据处理方法的具体实施示意图；以加粗箭头分割，图6中的第一部分对应时序数据，第二部分为网格搜索算法，第三部分为不同时窗数据，第四部分为自编码器。

其中，如图2所示，视频数据是一种典型的时序数据。对于给定的一段视频数据，进行特定时间间隔的采样，会得到一个离散的时序数据序列，每个数据为采集到的一帧图片信息。每个数据包括I个指标(Index)，每个指标有多个维度来刻画(Dim)，如图2所示。对于第i个指标，其数据形式如下表所示。

其中，每个指标包含多个维度值，Indexi＝{dim1，dim2，……}。对于视频时序数据，每个数据即为一张图片，而图片的指标是3个通道，即红、蓝和绿(RGB)，每个指标的维度是对应通道的像素值。由于每个通道的像素值很多，导致其维度很高。

采用本公开实施例所提供的时序数据处理方法，来提取视频数据中的关键特征，具体实施如下：

首先，给定采集后的视频时序数据集合。训练原始数据集{t1，t2，t3，……，tn}，验证原始数据集{v1，v2，v3，……vm}，其中si或vi均为一张图片，每个图片考察三个指标(即三通道RGB)，每个指标的数据对应像素点的值。在两个集合中，所有图片按照时间先后排列，并且每张图片的尺寸完全一样。

设置窗口初始参数[min，max，Δ]＝[2，10，2]，利用网格搜索算法得到窗口大小集合window＝{2，4，6，8，10}，共5种窗口情形。

设置重叠参数overlap＝0，针对每种窗口大小wi对原始数据进行预处理，得到对应的训练集(train)和验证集(valid)和验证生成对应的训练数据，以窗口wi＝2和生成对应的训练集为例来说明，其他窗口及对应验证集的生成流程一致。

使用窗口wi＝2对训练原始数据集进行分割，得到集合{(t1，t2)，(t3，t4)，……，(t(n-1)，tn)}，即为训练数据集，(t1，t2)为第一条数据，将其记为d1wi，后面以此排序。

也就是说，在数据预处理阶段，输入为采集到的一段视频时序数据，输出为集合{(wi，datai)|wi∈N+}，其中，datai是数据集合，集合中每个元素的长度为窗口大小wi。具体的，可使用网格搜索算法(Grid Search)来自动生成有限个不同的窗口大小集合window＝{w1，w2，…，wk}。然后，设定窗口重叠参数overlap，为每个窗口大小生成自己的训练数据集(wi，datai)。Overlap参数用于在按照窗口大小对视频数据进行分割的时候，相邻数据的可重叠程度，这个参数可以动态变化。即对于历史多指标多维度的视频时序数据Data，重叠参数overlap，窗口大小wi，其训练数据集合为trainwi＝{dwi1，dwi2，…，dwin}，其中|dwij∩dwi(j+1)|＝overlap，(dwi1∪dwi2∪…∪dwin)＝Data。

在模型训练阶段。可构建k个并行执行的试验，每个试验使用一个窗口大小的训练数据trainwi，训练模型，可使用重构误差作为损失函数对模型参数进行更新。具体的，可在自编码器中，可使用训练好的残差网络(Resnet)，解码器使用LSTM链接的网络。设置batch_size＝1，即每次处理一条数据。训练次数epoches＝50，每处理一条数据之后，计算其损失值，这里的index取值为R，G和B三个通道，wi＝2。使用训练数据集对自编码器进行训练，当损失值趋于平稳，并且不再出现大的波动的情况下，将训练过程停止。

不同窗口大小的模型训练可以并行执行也可以依次执行，本公开对模型训练的先后顺序并不做限定。

模型训练完成后，可将验证集(valid集合)分别输入k个模型，并计算重构误差的大小。将最小重构误差的模型作为最优模型，其自编码器输出的结果即为视频时序数据的关键特征，对应其最优的窗口大小为wi。

举例说明：可开启5个并行的试验，并行执行上述过程，训练后得到5个模型。其中，一个试验定义为一个映射：其中x为预处理后某个窗口大小对应的数据集，在本公开中有两种情况：训练阶段的数据集以及验证阶段的数据集。配置参数config是包括窗口大小wi、训练次数epoches、学习率lr、批处理大小batch_size等等参数。对于k个窗口大小的训练集启动k个并行试验，每个试验的目标是最小化重构误差 min(x-f(x))。将生成的5个验证集分别输入对应的5个模型中，得到5个损失值，选择最小损失值对应的模型为最优模型(best_model)，对应最优的窗口(best_window)。最优模型中编码器的输出即为视频时序数据的特征。可见，在本公开中，当最优模型确定好之后，最优窗口也一并确认，而无需反复调试同一个模型的窗口大小，在具体实现上更为便捷。

相应于上面的方法实施例，本公开实施例还提供了一种时序数据处理装置，下文描述的时序数据处理装置与上文描述的时序数据处理方法可相互对应参照。

参见图7所示，该装置包括以下模块：

数据预处理模块101，被配置为按照多个不同的窗口大小，分别对时序数据进行分割，得到多个训练集；

模型训练模块102，被配置为将训练集分别输入至多个自编码器中进行训练；其中，一个自编码器对应一个窗口大小；

模型选择模块103，被配置为训练完成后，对各个自编码器输出的模型进行择优选择，得到目标模型；

特征提取模块104，被配置为获取目标时序数据，并利用目标模型提取目标时序数据的目标特征。

应用本公开实施例所提供的装置，按照多个不同的窗口大小，分别对时序数据进行分割，得到多个训练集；将训练集分别输入至多个自编码器中进行训练；其中，一个自编码器对应一个窗口大小；训练完成后，对各个自编码器输出的模型进行择优选择，得到目标模型；获取目标时序数据，并利用目标模型提取目标时序数据的目标特征。

在本公开的一种具体实施方式中，模型选择模块103，具体被配置为按照多个不同的窗口大小，分别对测试时序数据进行分割，得到多个测试集；

将测试集分别输入至对应的模型中进行测试，得各个模型对应的重构误差；

利用重构误差，对多个模型进行择优选择，得到目标模型。

在本公开的一种具体实施方式中，模型选择模块103，具体被配置为分别计算每一个模型的全部重构误差的平方和；

将平方和最小的模型确定为目标模型。

在本公开的一种具体实施方式中，数据预处理模块101，具体被配置为获取窗口范围参数；

利用窗口范围参数，生成多个不同的窗口大小；

分别按照不同的窗口大小，对时序数据进行分割，得到多个训练集。

在本公开的一种具体实施方式中，数据预处理模块101，具体被配置为将窗口范围参数输入至网格搜索算法进行计算，得到多个不同的窗口大小。

在本公开的一种具体实施方式中，模型训练模块102，具体被配置为将训练集输入至自编码器；

利用自编码器中已训练好的特征提取网络对输入数据进行编码；

利用自编码器中的LSTM网络对编码后数据进行解码；

计算解码所得数据对应的损失值，并利用损失值调整模型。

在本公开的一种具体实施方式中，模型训练模块102，具体被配置为利用自编码器中训练好的残差网络，对输入数据进行编码。

在本公开的一种具体实施方式中，模型训练模块102，具体被配置为若时序数据为视频时序数据，则利用自编码器中已训练好的CNN网络对输入数据进行特征提取，得到特征图，并对特征图进行降维，得到一维数据。

在本公开的一种具体实施方式中，模型训练模块102，具体被配置为利用全连接层对特征图进行转换，得到一维数据。

在本公开的一种具体实施方式中，模型训练模块102，具体被配置为利用输入数据和解码所得数据，计算各个指标的重构误差；

将重构误差的平方和均值确定为损失值。

在本公开的一种具体实施方式中，模型训练模块102，具体被配置为若同时处理多个连续窗口的输入数据，则分别计算每一个窗口数据的损失；

将所有窗口数据的损失的均值确定为损失值。

在本公开的一种具体实施方式中，特征提取模块104，被配置为按照目标模型对应的窗口大小，分割目标时序数据；

将分割后得到的时序数据依次输入至目标模型中进行特征提取，得到目标特征。

相应于上面的方法实施例，本公开实施例还提供了一种电子设备，下文描述的一种电子设备与上文描述的一种时序数据处理方法可相互对应参照。

参见图8所示，该电子设备包括：

存储器332，用于存储计算机程序；

处理器322，用于执行计算机程序时实现上述方法实施例的时序数据处理方法的步骤。

具体的，请参考图9，图9为本实施例提供的一种电子设备的具体结构示意图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中，存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储器332通信，在电子设备301上执行存储器332中的一系列指令操作。

电子设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。

上文所描述的时序数据处理方法中的步骤可以由电子设备的结构实现。

相应于上面的方法实施例，本公开实施例还提供了一种非易失性可读存储介质，下文描述的一种非易失性可读存储介质与上文描述的一种时序数据处理方法可相互对应参照。

一种非易失性可读存储介质，非易失性可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的时序数据处理方法的步骤。

该非易失性可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的非易失性可读存储介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本公开的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域的一般技术人员，依据本公开的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本公开的限制。

Claims

一种时序数据处理方法，其中，包括：

按照多个不同的窗口大小，分别对时序数据进行分割，得到多个训练集；

将所述训练集分别输入至多个自编码器中进行训练；其中，一个所述自编码器对应一个所述窗口大小；

训练完成后，对各个所述自编码器输出的模型进行择优选择，得到目标模型；

获取目标时序数据，并利用所述目标模型提取所述目标时序数据的目标特征。
根据权利要求1所述的时序数据处理方法，其中，对各个所述自编码器输出的模型进行择优选择，得到目标模型，包括：

按照多个不同的所述窗口大小，分别对测试时序数据进行分割，得到多个测试集；

将所述测试集分别输入至对应的所述模型中进行测试，得各个所述模型对应的重构误差；

利用所述重构误差，对多个所述模型进行择优选择，得到所述目标模型。
根据权利要求2所述的时序数据处理方法，其中，利用所述重构误差，对多个所述模型进行择优选择，得到所述目标模型，包括：

分别计算每一个所述模型的全部所述重构误差的平方和；

将所述平方和最小的模型确定为所述目标模型。
根据权利要求1所述的时序数据处理方法，其中，所述按照多个不同的窗口大小，分别对时序数据进行分割，得到多个训练集，包括：

获取窗口范围参数；

利用所述窗口范围参数，生成多个不同的所述窗口大小；

分别按照不同的所述窗口大小，对所述时序数据进行分割，得到多个所述训练集。
根据权利要求4所述的时序数据处理方法，其中，利用所述窗口范围参数，生成多个不同的所述窗口大小，包括：

将所述窗口范围参数输入至网格搜索算法进行计算，得到多个不同的所述窗口大小。
根据权利要求1所述的时序数据处理方法，其中，将所述训练集分别输入至多个自编码器中进行训练，包括：

将所述训练集输入至所述自编码器；

利用所述自编码器中已训练好的特征提取网络对输入数据进行编码；

利用所述自编码器中的LSTM网络对编码后数据进行解码；

计算解码所得数据对应的损失值，并利用所述损失值调整模型。
根据权利要求6所述的时序数据处理方法，其中，利用所述自编码器中已训练好的特征提取网络对输入数据进行编码，包括：

利用所述自编码器中训练好的残差网络，对所述输入数据进行编码。
根据权利要求6所述的时序数据处理方法，其中，利用所述自编码器中已训练好的特征提取网络对输入数据进行编码，包括：

在所述时序数据为视频时序数据的情况下，利用所述自编码器中已训练好的CNN网络对所述输入数据进行特征提取，得到特征图，并对所述特征图进行降维，得到一维数据。
根据权利要求8所述的时序数据处理方法，其中，对所述特征图进行降维，得到一维数据，包括：

利用全连接层对所述特征图进行转换，得到所述一维数据。
根据权利要求6所述的时序数据处理方法，其中，所述计算解码所得数据对应的损失值，并利用所述损失值调整模型，包括：

利用所述输入数据和所述解码所得数据，计算各个指标的重构误差；

将所述重构误差的平方和均值确定为所述损失值。
根据权利要求10所述的时序数据处理方法，其中，将所述重构误差的平方和均值确定为所述损失值，包括：

在同时处理多个连续窗口的所述输入数据的情况下，分别计算每一个窗口数据的损失；

将所有所述窗口数据的损失的均值确定为所述损失值。
根据权利要求1至11任一项所述的时序数据处理方法，其中，利用所述目标模型提取所述目标时序数据的目标特征，包括：

按照所述目标模型对应的窗口大小，分割所述目标时序数据；

将分割后得到的时序数据依次输入至所述目标模型中进行特征提取，得到所述目标特征。
一种时序数据处理装置，其中，包括：

数据预处理模块，用于按照多个不同的窗口大小，分别对时序数据进行分割，得到多个训练集；

模型训练模块，用于将所述训练集分别输入至多个自编码器中进行训练；其中，一个所述自编码器对应一个所述窗口大小；

模型选择模块，用于训练完成后，对各个所述自编码器输出的模型进行择优选择，得到目标模型；

特征提取模块，用于获取目标时序数据，并利用所述目标模型提取所述目标时序数据的目标特征。
一种电子设备，其中，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至12任一项所述时序数据处理方法的步骤。
一种非易失性可读存储介质，其中，所述非易失性可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至12任一项所述时序数据处理方法的步骤。
根据权利要求4所述的时序数据处理方法，其中，获取窗口范围参数，包括：通过接收用户输入的方式获取所述窗口范围参数。
根据权利要求4所述的时序数据处理方法，其中，分别按照不同的所述窗口大小，对所述时序数据进行分割，得到多个所述训练集，包括：

设定窗口重叠参数，通过分割所述时序数据为每个所述窗口大小生成自己的训练数据集，其中，所述窗口重叠参数用于表征在按照所述窗口大小对所述时序数据进行分割的时候，相邻数据的可重叠程度。
根据权利要求6所述的时序数据处理方法，其中，利用所述自编码器中已训练好的特征提取网络对输入数据进行编码，包括：

利用所述自编码器中训练好的VGG，对所述输入数据进行编码。
根据权利要求6所述的时序数据处理方法，其中，计算解码所得数据对应的损失值，包括：

根据损失函数计算公式：

计算解码所得数据对应的所述损失值，其中，是输入数据在第i个指标对应的所有维度值，经过自编码器模型后输出为wi是第i个窗口的大小，index代表指标，Indexi代表第i个指标，表示第j输入个样本，对应生成这个样本的窗口大小为wi；表示模型对第j个样本的处理后重构数据。
根据权利要求1至11任一项所述的时序数据处理方法，其中，在获取目标时序数据，并利用所述目标模型提取所述目标时序数据的目标特征之后，所述方法还包括：

根据所述目标时序数据，对硬件设备进行以下至少之一：性能监控，异常检测，容量预测以及故障诊断，自然语言分析及理解，视频及语音模式分析及识别。