WO2023169274A1

WO2023169274A1 - 数据处理方法、装置、存储介质以及处理器

Info

Publication number: WO2023169274A1
Application number: PCT/CN2023/078962
Authority: WO
Inventors: 王巍巍; 陈曦
Original assignee: 阿里巴巴（中国）有限公司
Priority date: 2022-03-08
Filing date: 2023-03-01
Publication date: 2023-09-14
Also published as: CN114722091A

Abstract

本发明公开了一种数据处理方法、装置、存储介质以及处理器。其中，该方法包括：获取在执行目标任务的过程中产生的多个时间序列数据；将多个时间序列数据输入目标模型进行聚类处理，得到聚类结果，其中，目标模型至少包括编码模块和聚类模块，编码模块用于提取多个时间序列数据的特征，聚类模块用于对特征进行聚类，得到聚类结果；根据聚类结果分析目标任务的执行情况。本发明解决了相关技术中采用的聚类方法对时间序列数据进行聚类的准确性低的技术问题。

Description

数据处理方法、装置、存储介质以及处理器

本申请要求于2022年03月08日提交中国专利局、申请号为202210228756.6、申请名称为“数据处理方法、装置、存储介质以及处理器”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及数据处理领域，具体而言，涉及一种数据处理方法、装置、存储介质以及处理器。

背景技术

时间序列数据是指将某种现象或者某一个统计指标在不同时间上的各个数值，按时间先后顺序排列而形成的序列，可以广泛应用于各个领域，例如，在物联网领域中，对时间序列数据进行聚类后得到的结果，可以应用于设备运行状态监测、指标关联分析以及故障诊断等方面。

但是，在相关技术中的聚类方法中，用于聚类的时间序列数据对应的特征没有太多的数据含义，仅仅是对时间序列数据的一种降维表示。并且，相关技术中的聚类方法需要人为确定初始聚类中心，但是选取不同的初始聚类中心会得到不同的聚类结果，从而降低了聚类结果的准确性。

针对相关技术中采用的聚类方法对时间序列数据进行聚类的准确性低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据处理方法、装置、存储介质以及处理器，以至少解决相关技术中采用的聚类方法对时间序列数据进行聚类的准确性低的技术问题。

根据本发明实施例的一个方面，提供了一种数据处理方法，包括：获取在执行目标任务的过程中产生的多个时间序列数据；将多个时间序列数据输入目标模型进行聚类处理，得到聚类结果，其中，目标模型至少包括编码模块和聚类模块，编码模块用于提取多个时间序列数据的特征，聚类模块用于对特征进行聚类，得到聚类结果；根据聚类结果分析目标任务的执行情况。

根据本发明实施例的一个方面，提供了另一种数据处理方法，包括：云服务器获取多个时间序列数据；云服务器采用目标模型对多个时间序列数据进行处理，得到聚类结果，其中，目标模型至少包括编码模块和聚类模块，编码模块用于提取多个时间序列数据的特征，聚类模块用于对特征进行聚类，得到聚类结果；云服务器返回聚类结果至客户端。

根据本发明实施例的另一方面，还提供了一种数据处理装置，包括：第一获取单元，用于获取在执行目标任务的过程中产生的多个时间序列数据；第一处理单元，用于将多个时间序列数据输入目标模型进行聚类处理，得到聚类结果，其中，目标模型至少包括编码模块和聚类模块，编码模块用于提取多个时间序列数据的特征，聚类模块用于对特征进行聚类，得到聚类结果；第一分析单元，用于根据聚类结果分析目标任务的执行情况。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任意一种数据处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，其特征在于，处理器用于运行程序，其中，程序运行时执行上述任意一种数据处理方法。

在本发明实施例中，通过获取在执行目标任务的过程中产生的多个时间序列数据；将多个时间序列数据输入目标模型进行聚类处理，得到聚类结果，其中，目标模型至少包括编码模块和聚类模块，编码模块用于提取多个时间序列数据的特征，聚类模块用于对特征进行聚类，得到聚类结果；根据聚类结果分析目标任务的执行情况。通过将编码模块和聚类模块组合成为目标模型，并根据编码模块对时间序列数据进行编码操作，得到多个时间序列数据的特征，并使用聚类模块对特征进行聚类，得到聚类结果，从而实现了提高的时间序列数据聚类的准确性的技术效果，进而解决了相关技术中采用的聚类方法对时间序列数据进行聚类的准确性低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的计算机终端的硬件结构框图；

图2是根据本发明实施例的可选的计算机终端的交互示意图；

图3是根据本发明实施例提供的数据处理方法的流程图；

图4是根据本发明实施例提供的一种可选的数据处理方法的流程图；

图5是根据本发明实施例提供的另一种数据处理方法的流程图；

图6是根据本发明实施例的提供一种数据处理装置的示意图；

图7是根据本发明实施例的提供另一种数据处理装置的示意图；

图8是根据本发明实施例提供的可选的计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

时间序列数据：指将某种现象或者某一个统计指标在不同时间上的各个数值，按时间先后顺序排列而形成的序列数据。

实施例1

根据本发明实施例，还提供了一种数据处理的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1是根据本发明实施例的计算机终端的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的数据处理方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

图1示出的硬件结构框图，不仅可以作为上述计算机终端10(或移动设备)的示例性框图，还可以作为上述服务器的示例性框图，一种可选实施例中，图2以框图示出了使用上述图1所示的计算机终端10(或移动设备)作为接收端的一种实施例。如图2所示，计算机终端10(或移动设备)可以经由数据网络连接或电子连接到一个或多个服务器108。一种可选实施例中，上述计算机终端10(或移动设备)可以是手机、PC机。数据网络连接可以是局域网连接、广域网连接、因特网连接，或其他类型的数据网络连接。计算机终端10(或移动设备)可以执行以连接到由一个服务器(例如安全服务器)或一组服务器执行的网络服务110。网络服务110是基于网络的用户服务，诸如社交网络、云资源、电子邮件、在线支付或其他在线应用。

在上述运行环境下，本申请提供了如图3所示的数据处理方法。图3是根据本发明实施例一提供的数据处理方法的流程图。

S31，获取在执行目标任务的过程中产生的多个时间序列数据。

具体的，目标任务可以为物联网领域的传感器监测任务。在某一个目标任务正在执行的时候，可以产生多种数据，每种数据可以根据任务的进展进行数据的累积，从而得到每种数据对应的时间序列数据。例如，在进行某项实验的过程中，可以通过多种传感器检测到包括震动强度、温度、湿度等监测数据，并且随着的实验进行，可以产生震动强度、温度、湿度等多种实验数据对应的每种实验数据的时间序列数据。

S32，将多个时间序列数据输入目标模型进行聚类处理，得到聚类结果，其中，目标模型至少包括编码模块和聚类模块，编码模块用于提取多个时间序列数据的特征，聚类模块用于对特征进行聚类，得到聚类结果。

具体的，目标模型可以为已经完成训练的机器学习模型，其中，该机器学习模型在数据处理的过程中可以分为两部分，第一部分，先通过对时间序列数据进行编码得到该时间序列数据的特征信息，其中，特征信息可以包括正序列特征和逆序列特征，以及通过正序列特征和逆序列特征得到潜在空间中的两个特征信息：均值和方差，从而得到多个特征信息。第二部分，在得到多个时间序列数据对应的特征信息后，通过聚类模块对多个时间序列数据的特征信息进行聚类处理，从而得到聚类结果。

S33，根据聚类结果分析目标任务的执行情况。

具体的，在得到多个时间序列数据对应的聚类结果之后，并根据聚类结果分析目标任务的执行情况。

可选地，在本发明实施例的数据处理方法中，根据聚类结果分析目标任务的执行情况包括：在目标任务出现执行故障的情况，确定故障监测量序列数据；获取与故障监测量序列数据属于同一类的数据，并将获取到的数据确定为故障关联数据。

例如，在执行某项实验的过程中，可以通过多种传感器检测到包括震动强度、温度、湿度等监测数据，并且随着的实验进行，可以产生震动强度、温度、湿度等多种实验数据对应的每种实验数据的时间序列数据，并且在通过聚类处理后，将温度和湿度分为一类，即可以认为温度和湿度两个特性之间存在关联关系，在温度出现异常的时候，可以根据关联关系对湿度进行检测，从而判断是否由于湿度异常造成的温度异常。

在本发明实施例中，通过获取在执行目标任务的过程中产生的多个时间序列数据；将多个时间序列数据输入目标模型进行聚类处理，得到聚类结果，其中，目标模型至少包括编码模块和聚类模块，编码模块用于提取多个时间序列数据的特征，聚类模块用于对特征进行聚类，得到聚类结果；根据聚类结果分析目标任务的执行情况，通过将编码模块和聚类模块组合成为目标模型，并根据编码模块对时间序列数据进行编码操作，得到多个时间序列数据的特征，并使用聚类模块对特征进行聚类，得到聚类结果，从而实现了提高的时间序列数据聚类的准确性的技术效果，进而解决了相关技术中采用的聚类方法对时间序列数据进行聚类的准确性低的技术问题。

为了使得目标模型的聚类结果更加准确，可选地，在本发明实施例的数据处理方法中，在将多个时间序列数据输入目标模型进行聚类处理，得到聚类结果之前，该方法还包括：获取多个样本时间序列数据；通过多个样本时间序列数据训练预设编码模块，并确定训练预设编码模块的过程中对应的第一损失值，其中，在训练预设编码模块时，预设编码模块处理多个样本时间序列数据得到多个样本特征；获取训练预设编码模块的过程中产生的多个样本特征，通过多个样本特征训练预设聚类模块，并确定训练预设聚类模块的过程中对应的第二损失值；根据第一损失值和第二损失值确定目标损失值，并获取目标损失值小于损失阈值的情况下对应的编码模块和聚类模块；将获取的编码模块和聚类模块组合为目标模型。

具体的，在使用目标模型进行聚类处理之前，需要先对目标模型进行训练，保证目标损失值小于损失阈值，从而使聚类结果更加准确。多个样本时间序列数据可以为已知类别的时间序列数据，并将每个样本时间序列数据及其对应的类别输入至目标模型中，通过多个样本时间序列数据训练目标模型中的预设编码模块，得到编码后的样本特征信息。

一方面，可以通过对完成编码的样本时间序列数据进行解码操作，并在获取解码后的数据后将解码后的数据与对应的样本时间序列数据进行对比，从而确定训练预设编码模块的过程中对应的第一损失值。另一方面，通过样本特征信息进行聚类模块的训练，并通过聚类模块得到每个样本时间序列数据对应的类别预测结果，将类别预测结果与样本时间序列数据对应的类别进行对比，根据对比结果确定第二损失值。

进一步的，可以根据第一损失值和第二损失值确定目标损失值，例如，可以通过Loss3＝Loss1+w*Loss2公式进行目标损失值的确定，其中，Loss3为目标损失值，Loss1为第一损失值，*Loss2为第二损失值，w为预设权重。在目标损失值大于损失阈值的情况下，需要调整目标模型的训练参数，直至目标损失值小于损失阈值，从而达到提高聚类结果准确率的效果。

可选地，在本发明实施例的数据处理方法中，编码模块的类型为以下至少之一：稀疏自编码器、变分自编码器。

具体的，目标编码模块可以为稀疏自编码器，其中，稀疏自编码器与自编码器结构基本一致，区别在于隐藏层向量稀疏，即尽可能多的零元素，可以减少模型过拟合的风险。但是，通过稀疏自编码器提取的特征序列没有太多的数据含义，仅仅是对时间序列数据的一种降维表示。

进一步的，为了更好地进行编码，目标编码模型还可以使用变分自编码器。变分自编码器是自编码器的改进，通过隐空间返回多个概率模型，并以此来描述时间序列数据，从而作为数据特征。需要说明的是，变分自编码器返回的是隐空间中的分布而不是单个点，并可以在损失函数中添加一个对返回的分布的正则项来解决隐空间不规则性的问题，以确保更好地组织隐空间。本实施例中编码模块的类型不限于上述两种编码器类型，还可以采用其他类型的编码器。

为了增强对目标模型训练的效果，使得通过完成训练的目标模型得到的聚类结果更加准确，可选地，在本发明实施例的数据处理方法中，通过多个样本时间序列数据训练预设编码模块，并确定训练预设编码模块的过程中对应的第一损失值包括：将多个样本时间序列数据输入预设编码模块，处理得到多个样本时间序列数据的多个样本特征；通过预设解码模块对多个样本特征进行还原，得到还原后的多个时间序列数据；根据多个样本时间序列数据和还原后的多个时间序列数据之间的差异确定第一损失值。

具体的，在通过预设编码模块得到多个样本时间序列数据对应的样本特征后，可以通过预设解码模块中的采样层，对正态分布进行采样，其中，正态分布通过样本特征中的均值和方差进行表征，并通过三个一维卷积层和一个过采样层，将数据映射成原始数据的维度，得到还原后的时间序列数据，进一步的，将还原后的时间序列数据与该样本时间序列数据进行对比，并根据对比结果确定第一损失值。

为了得到更准确的时间序列数据的特征信息，可选地，在本发明实施例的数据处理方法中，在编码模块的类型为变分自编码器的情况下，编码模块包括：卷积层，用于提取时间序列数据的第一特征；池化层，与卷积层连接，用于降低第一特征的维度；第一长短期记忆模型，与池化层连接，用于提取第一特征中的正序列特征；第二长短期记忆模型，与池化层连接，用于提取第一特征中的逆序列特征；第一全连接层：与第一长短期记忆模型和第二长短期记忆模型连接，用于根据正序列特征和正序列特征确定第一分布参数；第二全连接层：与第一长短期记忆模型和第二长短期记忆模型连接，用于根据正序列特征和逆序列特征确定第二分布参数；将正序列特征、逆序列特征、第一分布参数以及第二分布参数确定为编码器的输出。

具体的，卷积层可以为卷积神经网络中的一维卷积加激活函数得到的激活函数层，用于抽取输入的时间序列数据的第一特征，并将第一特征发送至池化层。池化层通常会分别作用于每个输入的特征并减小其大小，从而降低时间序列数据的第一特征的维度。

在得到降维后的第一特征之后，可以通过第一长短期记忆模型和第二长短期记忆模型可以构成双向LSTM层(Long Short-Term Memory，长短期记忆网络)，通过双向LSTM层抽取降低纬度的第一特征的正序列特征和逆序列特征，并在第一全连接层根据正序列特征和逆序列特征确定该时间序列数据的第一分布参数，其中，第一分布参数可以为均值，并在第二全连接层根据正序列特征和逆序列特征确定该时间序列数据的第二分布参数，其中，第二分布参数可以为方差，并将方差、均值、正序列特征和逆序列特征作为时间序列数据的特征信息。

可选地，在本发明实施例的数据处理方法中，聚类模块采用的聚类算法为以下至少之一：K均值聚类算法、层次聚类算法。

具体的，聚类模块可以使用K均值聚类算法，其中，K均值聚类算法通过选取K个点作为初始聚集的簇心，分别计算每个样本点到K个簇核心的距离，找到离该点最近的簇核心，将它归属到对应的簇，并在所有点都归属到簇之后重新计算每个簇的重心(平均距离中心)，将其定为新的“簇核心”，在反复迭代上述步骤，直到达到预设条件时完成聚类，并得到聚类结果。但是，K均值聚类算法需要人为确定初始聚类中心，但是选取不同的初始聚类中心会得到不同的聚类结果，从而降低了聚类结果的准确性。

进一步的，为了更好地进行聚类，聚类模块还可以使用层次聚类算法。

为了提高聚合结果的准确性，可选地，在本发明实施例的数据处理方法中，在聚类模块采用的聚类算法为层次聚类算法的情况下，采用层次聚类算法对特征进行聚类，包括：将每个特征确定为一类，得到多个第一层级的类；计算每两个第一层级的类之间的最小距离，并将最小距离最短的两个第一层级的类进行合并，得到多个第二层级的类；计算每两个第二层级的类之间的最小距离，并将最小距离最短的两个第一层级的类进行合并，直至多个第一层级的类合并成一类。

具体的，在聚类算法为层次聚类算法的情况下，可以将聚类模块中每一个时间序列数据对应的特征作为一类，得到多个第一层级的类，并计算每两个特征之间的距离，并获取到每个特征对应的最小距离特征，并将每个特征与对应的最小距离特征进行合并，并归为一类，得到多个第二层级的类。

进一步的，在得到多个第二层级的类之后，根据每类的坐标再次计算每两个类之间的距离，并获取到每个类对应的最小距离类，并将每个类与对应的最小距离类进行合并，并归为一类，得到多个第三层级的类。重复上述流程直至全部类归于一类，从而得到每个特征之间的类的关系。从而可以根据预设层级对不同时间序列数据进行分类。

与K均值聚类算法相比，层次聚类算法拥有不需要预先制定聚类数、可以明显显示类之间的层次关系、可以聚类成任意形状、不受单个离群点的影响的特点，从而达到提高聚类准确性的效果。本实施例中聚类模块可以使用的聚类方法不限于上述两种聚类算法，还可以采用其他类型的聚类算法。

为了提高时间序列数据聚类的准确性，需要设置聚类算法中不同坐标之间的距离计算方法，可选地，在本发明实施例的数据处理方法中，聚类算法通过每两个时间序列数据之间的距离进行聚类，其中，通过下式确定每两个时间序列数据之间的距离：
CID(x,y)＝ED(x,y)·CF(x,y)；

其中，x和y是两个时间序列数据的特征，ED(x,y)是x和y之间的欧式距离，CF(x,y)为时序复杂度因子；

其中，N是时间序列数据的个数，t是时间序列数据的序列号；

其中，CF(x,y)＝max(CE(x),CE(y))/min(CE(x),CE(y))，CE(x)是x对应的时序复杂度因子，CE(y)是y对应的时序复杂度因子；

其中，

此外，为了减少计算量，还可以直接通过计算欧氏距离的方式确定每两个时间序列数据之间的距离。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的数据处理方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种可选的数据处理方法，图4是根据本发明实施例一提供的一种可选的数据处理方法的流程图，如图4所示：

目标模型接收到时间序列数据之后，首先在编码模块中的一维卷积加激活函数得到的激活函数层，抽取输入的时间序列数据的第一特征，并将第一特征发送至池化层。池化层通常会分别作用于每个输入的特征并减小其大小，从而降低时间序列数据的第一特征的维度。

进一步的，两个全连接层在获取到方差、均值之后，可以通过预设解码模块中的采样层对正态分布进行采样，其中，正态分布通过样本特征中的均值和方差进行表征，并通过三个一维卷积层和一个过采样层，将数据映射成原始数据的维度，得到还原后的时间序列数据，进一步的，将还原后的时间序列数据与该样本时间序列数据进行对比，并根据对比结果确定第一损失值。

需要说明的是，在编码模块得到该时间序列数据的特征信息之后，将特征信息发送至聚类模块中，并通过聚类模块对多个特征信息进行聚类处理，从而得到该时间序列数据对应的聚类结果，并在得到多个时间序列数据对应的聚类结果之后，并根据聚类结果分析目标任务的执行情况。

实施例3

根据本申请实施例，还提供了一种数据处理方法。图5是根据本发明实施例一提供的数据处理方法的流程图，如图5所示，该方法包括：

S51，云服务器获取多个时间序列数据。

具体的，在某一个目标任务正在执行的时候，可以产生多种数据，每种数据可以根据任务的进展进行数据的累积，使得云服务器可以得到每种数据对应的时间序列数据。目标任务可以为物联网领域的传感器监测任务。例如，在进行某项实验的过程中，可以通过多种传感器检测到包括震动强度、温度、湿度等监测数据，并且随着的实验进行，可以产生震动强度、温度、湿度等多种实验数据对应的每种实验数据的时间序列数据。

S52，云服务器采用目标模型对多个时间序列数据进行处理，得到聚类结果，其中，目标模型至少包括编码模块和聚类模块，编码模块用于提取多个时间序列数据的特征，聚类模块用于对特征进行聚类，得到聚类结果。

具体的，云服务器采用的目标模型可以为已经完成训练的机器学习模型，其中，该机器学习模型在数据处理的过程中可以分为两部分，第一部分先通过对时间序列数据进行编码得到该时间序列数据的特征信息，其中，特征信息可以包括正序列特征和逆序列特征，以及通过正序列特征和逆序列特征得到潜在空间中的两个特征信息：均值和方差，从而得到多个特征信息。第二部分，在得到多个时间序列数据对应的特征信息后，通过聚类模块对多个时间序列数据的特征信息进行聚类处理，从而得到聚类结果。

S53，云服务器返回聚类结果至客户端。

具体的，在得到某个时间序列数据对应的聚类结果之后，云服务端可以将聚类结果返回至客户端，客户端即可根据确定的类别对应的规则进行目标任务执行情况的分析。

实施例4

根据本发明实施例，还提供了一种用于实施上述数据处理方法的数据处理装置，如图6所示，该装置包括：

第一获取单元61，用于获取在执行目标任务的过程中产生的多个时间序列数据。

第一处理单元62，用于将多个时间序列数据输入目标模型进行聚类处理，得到聚类结果，其中，目标模型至少包括编码模块和聚类模块，编码模块用于提取多个时间序列数据的特征，聚类模块用于对特征进行聚类，得到聚类结果。

第一分析单元63，用于根据聚类结果分析目标任务的执行情况。

此处需要说明的是，上述确定第一获取单元61、第一处理单元62和第一分析单元63对应于实施例1中的步骤S31、步骤S32和步骤S33，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

可选地，在本发明实施例的数据处理装置中，该装置还包括：第二获取单元，用于获取多个样本时间序列数据；第一确定单元，用于通过多个样本时间序列数据训练预设编码模块，并确定训练预设编码模块的过程中对应的第一损失值，其中，在训练预设编码模块时，预设编码模块处理多个样本时间序列数据得到多个样本特征；第三获取单元，用于获取训练预设编码模块的过程中产生的多个样本特征，通过多个样本特征训练预设聚类模块，并确定训练预设聚类模块的过程中对应的第二损失值；第二确定单元，用于根据第一损失值和第二损失值确定目标损失值，并获取目标损失值小于损失阈值的情况下对应的编码模块和聚类模块；组合单元，用于将获取的编码模块和聚类模块组合为目标模型。

可选地，在本发明实施例的数据处理装置中，第一确定单元包括：输入模块，用于将多个样本时间序列数据输入预设编码模块，处理得到多个样本时间序列数据的多个样本特征；还原模块，用于通过预设解码模块对多个样本特征进行还原，得到还原后的多个时间序列数据；第一确定模块，用于根据多个样本时间序列数据和还原后的多个时间序列数据之间的差异确定第一损失值。

可选地，在本发明实施例的数据处理装置中，编码模块的类型为以下至少之一：稀疏自编码器、变分自编码器。

可选地，在本发明实施例的数据处理装置中，在编码模块的类型为变分自编码器的情况下，编码模块包括：卷积层，用于提取时间序列数据的第一特征；池化层，与卷积层连接，用于降低第一特征的维度；第一长短期记忆模型，与池化层连接，用于提取第一特征中的正序列特征；第二长短期记忆模型，与池化层连接，用于提取第一特征中的逆序列特征；第一全连接层：与第一长短期记忆模型和第二长短期记忆模型连接，用于根据正序列特征和正序列特征确定第一分布参数；第二全连接层：与第一长短期记忆模型和第二长短期记忆模型连接，用于根据正序列特征和逆序列特征确定第二分布参数；将正序列特征、逆序列特征、第一分布参数以及第二分布参数确定为编码器的输出。

可选地，在本发明实施例的数据处理装置中，聚类模块采用的聚类算法为以下至少之一：K均值聚类算法、层次聚类算法。

可选地，在本发明实施例的数据处理装置中，聚类算法通过每两个时间序列数据之间的距离进行聚类，其中，通过下式确定每两个时间序列数据之间的距离：
CID(x,y)＝ED(x,y)·CF(x,y)；

其中，

可选地，在本发明实施例的数据处理装置中，在聚类模块采用的聚类算法为层次聚类算法的情况下，采用层次聚类算法对特征进行聚类，包括：第二确定模块，用于将每个特征确定为一类，得到多个第一层级的类；第一计算模块，用于计算每两个第一层级的类之间的最小距离，并将最小距离最短的两个第一层级的类进行合并，得到多个第二层级的类；第二计算模块，用于计算每两个第二层级的类之间的最小距离，并将最小距离最短的两个第一层级的类进行合并，直至多个第一层级的类合并成一类。

可选地，在本发明实施例的数据处理装置中，第一分析单元63包括：第三确定模块，用于在目标任务出现执行故障的情况，确定故障监测量序列数据；第四确定模块，用于获取与故障监测量序列数据属于同一类的数据，并将获取到的数据确定为故障关联数据。

实施例5

根据本发明实施例，还提供了一种用于实施上述数据处理方法的数据处理装置，如图7所示，该装置包括：

第四获取单元71，通过云服务器获取多个时间序列数据。

第二处理单元72，通过云服务器采用目标模型对多个时间序列数据进行处理，得到聚类结果，其中，目标模型至少包括编码模块和聚类模块，编码模块用于提取多个时间序列数据的特征，聚类模块用于对特征进行聚类，得到聚类结果。

第二分析单元73，通过云服务器返回聚类结果至客户端。

此处需要说明的是，上述确定第四获取单元71、第二处理单元72和第二分析单元73对应于实施例3中的步骤S51、步骤S52和步骤S53，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例3所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例6

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行数据处理方法中以下步骤的程序代码：获取在执行目标任务的过程中产生的多个时间序列数据；将多个时间序列数据输入目标模型进行聚类处理，得到聚类结果，其中，目标模型至少包括编码模块和聚类模块，编码模块用于提取多个时间序列数据的特征，聚类模块用于对特征进行聚类，得到聚类结果；根据聚类结果分析目标任务的执行情况。

可选地，图8是根据本发明实施例提供的可选的计算机终端的结构框图。如图8所示，该计算机终端10可以包括：一个或多个(图中仅示出一个)处理器、存储器、以及传输装置。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的数据处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取在执行目标任务的过程中产生的多个时间序列数据；将多个时间序列数据输入目标模型进行聚类处理，得到聚类结果，其中，目标模型至少包括编码模块和聚类模块，编码模块用于提取多个时间序列数据的特征，聚类模块用于对特征进行聚类，得到聚类结果；根据聚类结果分析目标任务的执行情况。

采用本发明实施例，提供了一种数据处理的方案。通过获取在执行目标任务的过程中产生的多个时间序列数据；将多个时间序列数据输入目标模型进行聚类处理，得到聚类结果，其中，目标模型至少包括编码模块和聚类模块，编码模块用于提取多个时间序列数据的特征，聚类模块用于对特征进行聚类，得到聚类结果；根据聚类结果分析目标任务的执行情况，通过将编码模块和聚类模块组合成为目标模型，并根据编码模块对时间序列数据进行编码操作，得到多个时间序列数据的特征，并使用聚类模块对特征进行聚类，得到聚类结果，从而实现了提高的时间序列数据聚类的准确性的技术效果，进而解决了相关技术中采用的聚类方法对时间序列数据进行聚类的准确性低的技术问题。

本领域普通技术人员可以理解，图8所示的结构仅为示意，计算机终端10也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图8所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的数据处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取在执行目标任务的过程中产生的多个时间序列数据；将多个时间序列数据输入目标模型进行聚类处理，得到聚类结果，其中，目标模型至少包括编码模块和聚类模块，编码模块用于提取多个时间序列数据的特征，聚类模块用于对特征进行聚类，得到聚类结果；根据聚类结果分析目标任务的执行情况。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

一种数据处理方法，其特征在于，包括：

获取在执行目标任务的过程中产生的多个时间序列数据；

将所述多个时间序列数据输入目标模型进行聚类处理，得到聚类结果，其中，所述目标模型至少包括编码模块和聚类模块，所述编码模块用于提取所述多个时间序列数据的特征，所述聚类模块用于对所述特征进行聚类，得到所述聚类结果；

根据所述聚类结果分析所述目标任务的执行情况。
根据权利要求1所述的数据处理方法，其特征在于，在将所述多个时间序列数据输入目标模型进行聚类处理，得到聚类结果之前，所述方法还包括：

获取多个样本时间序列数据；

通过所述多个样本时间序列数据训练预设编码模块，并确定训练所述预设编码模块的过程中对应的第一损失值，其中，在训练所述预设编码模块时，所述预设编码模块处理所述多个样本时间序列数据得到多个样本特征；

获取训练所述预设编码模块的过程中产生的所述多个样本特征，通过所述多个样本特征训练预设聚类模块，并确定训练所述预设聚类模块的过程中对应的第二损失值；

根据所述第一损失值和所述第二损失值确定目标损失值，并获取所述目标损失值小于损失阈值的情况下对应的编码模块和聚类模块；

将获取的所述编码模块和所述聚类模块组合为所述目标模型。
根据权利要求2所述的数据处理方法，其特征在于，通过所述多个样本时间序列数据训练预设编码模块，并确定训练所述预设编码模块的过程中对应的第一损失值包括：

将所述多个样本时间序列数据输入所述预设编码模块，处理得到所述多个样本时间序列数据的所述多个样本特征；

通过预设解码模块对所述多个样本特征进行还原，得到还原后的多个时间序列数据；

根据所述多个样本时间序列数据和所述还原后的多个时间序列数据之间的差异确定所述第一损失值。
根据权利要求1所述的数据处理方法，其特征在于，所述编码模块的类型为以下至少之一：稀疏自编码器、变分自编码器。
根据权利要求4所述的数据处理方法，其特征在于，在所述编码模块的类型为变分自编码器的情况下，所述编码模块包括：

卷积层，用于提取所述时间序列数据的第一特征；

池化层，与所述卷积层连接，用于降低所述第一特征的维度；

第一长短期记忆模型，与所述池化层连接，用于提取所述第一特征中的正序列特征；

第二长短期记忆模型，与所述池化层连接，用于提取所述第一特征中的逆序列特征；

第一全连接层：与所述第一长短期记忆模型和所述第二长短期记忆模型连接，用于根据所述正序列特征和所述正序列特征确定第一分布参数；

第二全连接层：与所述第一长短期记忆模型和所述第二长短期记忆模型连接，用于根据所述正序列特征和所述逆序列特征确定第二分布参数；

将所述正序列特征、所述逆序列特征、所述第一分布参数以及所述第二分布参数确定为所述编码器的输出。
根据权利要求1所述的数据处理方法，其特征在于，所述聚类模块采用的聚类算法为以下至少之一：K均值聚类算法、层次聚类算法。
根据权利要求6所述的数据处理方法，其特征在于，所述聚类算法通过每两个时间序列数据之间的距离进行聚类，其中，通过下式确定每两个时间序列数据之间的距离：
CID(x,y)＝ED(x,y)·CF(x,y)；

其中，x和y是两个时间序列数据的特征，ED(x,y)是x和y之间的欧式距离，CF(x,y)为时序复杂度因子；

其中，N是时间序列数据的个数，t是时间序列数据的序列号；

其中，CF(x,y)＝max(CE(x),CE(y))/min(CE(x),CE(y))，CE(x)是x对应的时序复杂度因子，CE(y)是y对应的时序复杂度因子；

其中，
根据权利要求6所述的数据处理方法，其特征在于，在所述聚类模块采用的聚类算法为所述层次聚类算法的情况下，采用所述层次聚类算法对所述特征进行聚类，包括：

将每个所述特征确定为一类，得到多个第一层级的类；

计算每两个所述第一层级的类之间的最小距离，并将所述最小距离最短的两个所述第一层级的类进行合并，得到多个第二层级的类；

计算每两个所述第二层级的类之间的最小距离，并将所述最小距离最短的两个所述第一层级的类进行合并，直至所述多个第一层级的类合并成一类。
根据权利要求1所述的数据处理方法，其特征在于，根据所述聚类结果分析所述目标任务的执行情况包括：

在所述目标任务出现执行故障的情况，确定故障监测量序列数据；

获取与所述故障监测量序列数据属于同一类的数据，并将获取到的数据确定为故障关联数据。
一种数据处理方法，其特征在于，包括：

云服务器获取多个时间序列数据；

所述云服务器采用目标模型对所述多个时间序列数据进行处理，得到聚类结果，其中，所述目标模型至少包括编码模块和聚类模块，所述编码模块用于提取所述多个时间序列数据的特征，所述聚类模块用于对所述特征进行聚类，得到所述聚类结果；

所述云服务器返回所述聚类结果至客户端。
一种数据处理装置，其特征在于，包括：

第一获取单元，用于获取在执行目标任务的过程中产生的多个时间序列数据；

第一处理单元，用于将所述多个时间序列数据输入目标模型进行聚类处理，得到聚类结果，其中，所述目标模型至少包括编码模块和聚类模块，所述编码模块用于提取所述多个时间序列数据的特征，所述聚类模块用于对所述特征进行聚类，得到所述聚类结果；

第一分析单元，用于根据所述聚类结果分析所述目标任务的执行情况。
一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任意一项所述的数据处理方法，或权利要求10中所述的数据处理方法。
一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至9中任意一项所述的数据处理方法，或权利要求10中所述的数据处理方法。