WO2022151829A1

WO2022151829A1 - 一种基于动态网格划分的时序数据趋势特征提取方法

Info

Publication number: WO2022151829A1
Application number: PCT/CN2021/130798
Authority: WO
Inventors: 杨皓杰; 杨雨; 孙丰诚
Original assignee: 杭州安脉盛智能技术有限公司
Priority date: 2021-01-15
Filing date: 2021-11-16
Publication date: 2022-07-21
Also published as: EP4280088A1; CN112765562A; CN112765562B

Abstract

一种基于动态网格划分的时序数据趋势特征提取方法，包括以下步骤：设定目标数N，根据时序数据的密度分布动态划分网格，将时序数据的时间和值分别划分为m段和n段；遍历每个网格内的局部数据，采用线性分割计算距离的方式，获取关键特征点的优先级队列；汇总各网格中提取的关键特征点的优先级队列，得到原数据的一维特征子序列S1；根据目标数N，在时间序列中等间隔的抽取数据点，得到原数据的一维趋势子序列S2；整合特征子序列S1和趋势子序列S2得到用于数据挖掘的新序列S。上述方法可用少量数据点保留时序数据中的关键特征点和趋势信息，提高后续数据建模分析的效率和准确性。

Description

一种基于动态网格划分的时序数据趋势特征提取方法

技术领域

本发明涉及时序数据技术领域，尤其是一种基于动态网格划分的时序数据趋势特征提取方法。

背景技术

时序数据作为一种随时间变化的数据有序集合，在工业、农业、金融业、科学工程、社会学科等领域内得到广泛应用，且多表现为高维多变量的数据。因此，近年来时序数据量呈现爆炸性的增长，导致一定的数据存储和数据价值挖掘挑战。尤其是在诸多行业中，时序数据多数时候呈平稳分布，因此数据中包含了大量的冗余信息。为了提高数据挖掘模型的计算效率和分析准确性，往往需要提取时序数据的特征以压缩数据量，通常做法为等间隔的抽取数据。但该方法往往只能保留时序数据的主体趋势，而遗漏很多关键的特征。

中国专利公开号为CN108804731A的基于重要点双重评价因子时间序列趋势特征提取方法提出了基于重要点双重评价因子时间序列趋势特征提取方法，该方法在时间序列分段线性表示的基础上，计算重要点距离因子和趋势因子，综合评价重要点对整体趋势的重要程度以确定分段点，压缩数据的同时保证了提取精度。若分段数据内波动较大，此方法容易忽略次重要的特征点，同时方法中的权重和阈值需要根据具体的数据集进行参数辨识，适用性和灵活性不足。

现有技术在等间隔抽取数据时，只能保证主体的趋势而容易遗漏时序数据的关键特征。基于重要点双重评价因子的趋势特征提取方法，以分段线性为基础，辅以距离因子和趋势因子，可以提取时序数据的主体趋势和关键特征，但容易忽略次要关键特征，且该方法中的阈值和权重需要根据具体的数据集进行参数辨识，存在一定局限性。

因此，需要提出一种时序数据趋势特征的提取方法，保留时序数据的整体趋势和局部特征信息，保证后续数据挖掘模型的效率和准确性。

发明内容

本发明解决了时序数据的海量性和复杂性导致对原始数据进行挖掘建模时效率低、误差大的问题，提出一种基于动态网格划分的时序数据趋势特征提取方法，可用少量数据点保留时序数据中的关键特征点和趋势信息，提高后续数据建模分析的效率和准确性。

为实现上述目的，提出以下技术方案：

一种基于动态网格划分的时序数据趋势特征提取方法，包括以下步骤：

步骤A：设定目标数N，根据时序数据的密度分布动态划分网格，将时序数据的时间和值分别划分为m段和n段；

步骤B：遍历每个网格内的局部数据，采用线性分割计算距离的方式，获取关键特征点的优先级队列；

步骤C：汇总各网格中提取的关键特征点的优先级队列，得到原数据的一维特征子序列S1；

步骤D：根据目标数N，在时间序列中等间隔的抽取数据点，得到原数据的一维趋势子序列S2；

步骤E：整合特征子序列S1和趋势子序列S2得到用于数据挖掘的新序列S。

本发明通过分别构建特征子序列和趋势子序列，提取原数据的特征信息和趋势信息。为了保证数据挖掘模型中样本数据的长度一致，设置子序列的目标数为N。根据数据的密度分布动态的划分网格，采用局部数据线性分割计算距离的方式得到包括局部极值点和拐点在内的关键特征点，并获取关键特征点的优先级队列。汇总各网格内局部数据，得到的特征子序列为等间隔的一维数组，该数组能够放大特征密集的局部数据，弱化平稳冗余的局部数据。根据目标数N等间隔的抽取数据，得到一维数组的趋势子序列。最终基于特征子序列和趋势子序列构建新序列作为数据挖掘的基础。

本发明根据数据的密度分布动态的划分网格，对于分布密集的区域用尽可能少的段分割，对于分布相对稀疏、数值变化大的区域用较多的段分割。对于网格内的局部数据，采用线性分割计算距离的方式，得到关键特征点的优先级队列，获取关键特征点的同时还能保留次要特征点。汇总提取的数据特征点并转化为等间隔的一维数组，得到原数据的特征子序列，该序列不仅保留了原数据的关键特征，同时放大特征密集数据的局部特征，弱化平稳冗余数据的局部特征。同时，本发明通过等间隔抽取目标数的方式得到原始数据的一维趋势子序列，保留了原数据的整体趋势信息。通过串联特征子序列和趋势子序列构建的新序列，在降低原数据长度、去除冗余信息的同时，保留了原数据的关键特征点和趋势信息，提高数据挖掘建模的效率和准确性，且参数设置简单，方法具有一定的适用性。

作为优选，所述步骤A具体包括以下步骤：

步骤A1：以时序数据的时间为x轴，数值为y轴，在时序数据的范围内将数值等间隔的划分为n段，n的取值范围为[3N/4，N/4]；

步骤A2：判断能否满足条件：统计任意n/2段内包含的数据点超过原数据长度的80％，若不能满足所述条件则调整n，重复步骤A1，直到满足条件或n＝N/4；

步骤A3：在时序数据的范围内将时间等间隔的划分为m段，m＝N-n，最终将原数据划分为m*n个网格。

作为优选，所述步骤B具体包括以下步骤：

步骤B1：设置比例系数γ，依次遍历网格内的局部数据；

步骤B2：区域内数据的端点为a和b，依次计算各数据点到a、b连线的垂直距离d _i，获取垂直距离最大值为d _max，计算垂直距离均值为d _mean，若d _max大于或等于γ*d _mean，则所对应的数据点记为重要点P _i；

步骤B3：以重要点P _i为分割点，将区域内的数据分割为两部分，分别进行步骤B2；

步骤B4：先循环步骤B2和步骤B3，直到无重要点出现,将步骤B2和步骤B3中得到的重要点Pi按垂直距离整合为该网格内数据的优先级队列。

作为优选，所述步骤B4还包括：若所述优先级队列为空，则以该网格内数据中位数对应的点为重要点，并纳入优先级队列。

作为优选，所述步骤C具体包括以下步骤：

步骤C1：汇总各网格内的重要点，若重要点的数量小于N，则减小比例系数γ，重复步骤B1至步骤B4；若重要点的数量大于N，则剔除多余的数据点；

步骤C2：将提取的重要点按时间序列的顺序排列，并删除时间信息，得到等间隔的一维数组，此数组为原数据的特征子序列S1。

作为优选，所述步骤C1根据以下原则剔除多余的数据点：

(1)保证每个网格内至少保留一个重要点；

(2)将重要点按垂直距离由小到大的顺序删除。

作为优选，所述步骤E具体包括以下步骤：

步骤E1：对趋势子序列S2做逆序处理，得到新的子序列S2′；

步骤E2：串联连接子序列S1和S2′得到数据长度为2N的一维等间隔数组S。

本发明的有益效果是：采用局部数据线性分割计算距离的方式，获取关键特征点的优先级队列，并最终汇总得到原始时序数据的一维特征子序列。通过等间隔抽取目标数的方式得到原始数据的一维趋势子序列。最终基于特征子序列和趋势子序列构建原始数据缩减后的新序列。本发明能够根据目标数缩减数据长度的同时，保留原始数据的关键特征点和趋势信息，提高数据挖掘、建模分析的效率和准确性。

附图说明

图1算法流程示意图；

图2实施例原始时序数据图；

图3原始时序数据等间隔均匀降采样示意图；

图4实施例等间隔均匀降采样图；

图5基于动态网格划分的不均匀降采样示意图；

图6实施例基于动态网格划分的不均匀降采样图；

图7实施例基于特征子序列与趋势子序列构建新序列图。

具体实施方式

实施例：

以某设备的一段温度信号为例，温度的采样间隔为1s，数据长度为30000。参考图2，图2为该时序数据及其等间隔均匀降采样示意图，由图可见，即使采样点为2000，依然无法提取数据起始阶段的特征。

本实施例提出一种基于动态网格划分的时序数据趋势特征提取方法，参考图1，包括以下步骤：

步骤A：设定目标数120，根据时序数据的密度分布动态划分网格，将时序数据的时间和值分别划分为62段和58段；

步骤A具体包括以下步骤：

步骤A1：以时序数据的时间为x轴，数值为y轴，在时序数据的范围内将数值等间隔的划分为n段，n的取值范围为[75，25]；

步骤A2：判断能否满足条件：统计任意n/2段内包含的数据点超过原数据长度的80％，若不能满足条件则调整n，重复步骤A1，直到满足条件或n＝25；

步骤A3：经过步骤A1和步骤A2，n为58时能满足条件，在时序数据的范围内将时间等间隔的划分为62段，最终将原数据划分为62*58个网格。

步骤B具体包括以下步骤：

步骤B1：设置比例系数γ的初始值为1.5，依次遍历网格内的局部数据；

步骤B2：参考图5，图5为基于动态网格划分的不均匀降采样示意图，以图中框出的数据为例介绍重要点的提取过程,，区域内数据的端点为a和b，转换坐标以a、b连线为x轴，依次计算各数据点到a、b连线的垂直距离d _i，获取垂直距离最大值为d _max，计算垂直距离均值为d _mean，若d _max大于或等于γ*d _mean，则所对应的数据点记为重要点P1；

步骤B3：以重要点P1为分割点，将区域内的数据分割为两部分，分别进行步骤B2，得到第二个满足条件的重要点P2；

步骤B4：先循环步骤B2和步骤B3，直到无重要点出现,将步骤B2和步骤B3中得到的重要点P1和重要点P2按垂直距离整合为该网格内数据的优先级队列[P1，P2]。若优先级队列为空，则以该网格内数据中位数对应的点为重要点，并纳入优先级队列。

步骤C具体包括以下步骤：

步骤C1：汇总各网格内的重要点，若重要点的数量小于120，则减小比例系数γ，重复步骤B1至步骤B4；若重要点的数量大于120，则剔除多余的数据点；根据以下原则剔除多余的数据点：

(1)保证每个网格内至少保留一个重要点；

(2)将重要点按垂直距离由小到大的顺序删除。

步骤C2：将提取的重要点按时间序列的顺序排列，并删除时间信息，得到等间隔的一维数组，此数组为原数据的特征子序列S1。参考图6，图6为实施例基于动态网格划分的不均匀降采样为120个点的示意图，子序列S1不仅保留了原数据的特征信息，且放大特征密集数据的局部特征，弱化平稳冗余数据的局部特征；

步骤D：根据目标数120，在时间序列中等间隔的抽取数据点，得到原数据的一维趋势子序列S2。参考图3，图3为原始时序数据等间隔均匀降采样示意图，参考图4，图4为实施例等间隔均匀降采样为120个点的示意图；

步骤E具体包括以下步骤：

步骤E1：对趋势子序列S2做逆序处理，得到新的子序列S2′；

步骤E2：串联连接子序列S1和S2′得到数据长度为2*120的一维等间隔数组S。参考图7，本实施例基于特征子序列与趋势子序列构建的新序列S。

本发明通过分别构建特征子序列和趋势子序列，提取原数据的特征信息和趋势信息。为了保证数据挖掘模型中样本数据的长度一致，设置子序列的目标数为N。根据数据的密度分布动态的划分网格，采用局部数据线性分割计算距离的方式得到包括局部极值点和拐点在内的关键特征点，并获取关键特征点的优先级队列。汇总各网格内局部数据，得到的特征子序列为等间隔的一维数组，该数组能够放大特征密集的局部数据，弱化平稳冗余的局部数据。根据目标数N等间隔的抽取数据，得到一维数组的趋势子序列。最终基于特征子序列和趋势子序列构建新序列作为数据挖掘的基础。采用局部数据线性分割计算距离的方式，获取关键特征点的优先级队列，并最终汇总得到原始时序数据的一维特征子序列。通过等间隔抽取目标数的方式得到原始数据的一维趋势子序列。最终基于特征子序列和趋势子序列构建原始数据缩减后的新序列。本发明能够根据目标数缩减数据长度的同时，保留原始数据的关键特征点和趋势信息，提高数据挖掘、建模分析的效率和准确性。

Claims

一种基于动态网格划分的时序数据趋势特征提取方法，其特征是，包括以下步骤：

步骤A：设定目标数N，根据时序数据的密度分布动态划分网格，将时序数据的时间和值分别划分为m段和n段；

步骤B：遍历每个网格内的局部数据，采用线性分割计算距离的方式，获取关键特征点的优先级队列；

步骤C：汇总各网格中提取的关键特征点的优先级队列，得到原数据的一维特征子序列S1；

步骤D：根据目标数N，在时间序列中等间隔的抽取数据点，得到原数据的一维趋势子序列S2；

步骤E：整合特征子序列S1和趋势子序列S2得到用于数据挖掘的新序列S。
根据权利要求1所述的一种基于动态网格划分的时序数据趋势特征提取方法，其特征是，所述步骤A具体包括以下步骤：

步骤A1：以时序数据的时间为x轴，数值为y轴，在时序数据的范围内将数值等间隔的划分为n段，n的取值范围为[3N/4，N/4]；

步骤A2：判断能否满足条件：统计任意n/2段内包含的数据点超过原数据长度的80％，若不能满足所述条件则调整n，重复步骤A1，直到满足条件或n＝N/4；

步骤A3：在时序数据的范围内将时间等间隔的划分为m段，m＝N-n，最终将原数据划分为m*n个网格。
根据权利要求1所述的一种基于动态网格划分的时序数据趋势特征提取方法，其特征是，所述步骤B具体包括以下步骤：

步骤B1：设置比例系数γ，依次遍历网格内的局部数据；

步骤B2：区域内数据的端点为a和b，依次计算各数据点到a、b连线的垂直距离d _i，获取垂直距离最大值为d _max，计算垂直距离均值为d _mean，若d _max大于或等于γ*d _mean，则所对应的数据点记为重要点P _i；

步骤B3：以重要点P _i为分割点，将区域内的数据分割为两部分，分别进行步骤B2；

步骤B4：先循环步骤B2和步骤B3，直到无重要点出现,将步骤B2和步骤B3中得到的重要点P _i按垂直距离整合为该网格内数据的优先级队列。
根据权利要求3所述的一种基于动态网格划分的时序数据趋势特征提取方法，其特征是，所述步骤B4还包括：若所述优先级队列为空，则以该网格内数据中位数对应的点为重要点，并纳入优先级队列。
根据权利要求3所述的一种基于动态网格划分的时序数据趋势特征提取方法，其特征是，所述步骤C具体包括以下步骤：

步骤C1：汇总各网格内的重要点，若重要点的数量小于N，则减小比例系数γ，重复步骤B1至步骤B4；若重要点的数量大于N，则剔除多余的数据点；

步骤C2：将提取的重要点按时间序列的顺序排列，并删除时间信息，得到等间隔的一维数组，此数组为原数据的特征子序列S1。
根据权利要求5所述的一种基于动态网格划分的时序数据趋势特征提取方法，其特征是，所述步骤C1根据以下原则剔除多余的数据点：

(1)保证每个网格内至少保留一个重要点；

(2)将重要点按垂直距离由小到大的顺序删除。
根据权利要求1所述的一种基于动态网格划分的时序数据趋势特征提取方法，其特征是，所述步骤E具体包括以下步骤：

步骤E1：对趋势子序列S2做逆序处理，得到新的子序列S2′；

步骤E2：串联连接子序列S1和S2′得到数据长度为2N的一维等间隔数组S。