WO2021043140A1

WO2021043140A1 - 标签确定方法、装置和系统

Info

Publication number: WO2021043140A1
Application number: PCT/CN2020/112878
Authority: WO
Inventors: 张彦芳; 薛莉; 孙旭东; 常庆龙; 罗磊
Original assignee: 华为技术有限公司
Priority date: 2019-09-02
Filing date: 2020-09-01
Publication date: 2021-03-11
Also published as: EP4020315A4; US20220179884A1; CN112446399A; EP4020315A1

Abstract

本申请公开了一种标签确定方法、装置及系统，属于AI领域。所述方法包括：获取第一时间序列的目标特征向量，时间序列为按照时序排列的一组数据的集合；获取所述目标特征向量与参考特征向量集合中参考特征向量的相似度，所述参考特征向量为已确定标签的第二时间序列的特征向量；当所述目标特征向量与第一参考特征向量的相似度大于相似度阈值时，将所述第一参考特征向量所对应的标签确定为所述第一时间序列的标签，所述第一参考特征向量为所述参考特征向量集合中的一个参考特征向量。本申请提高了标签确定的准确性，本申请用于机器学习模型的标签的确定。

Description

标签确定方法、装置和系统

技术领域

本申请涉及人工智能(Artificial Intelligence，AI)领域，特别涉及一种标签确定方法、装置和系统。

背景技术

机器学习，是指让机器基于训练样本训练出机器学习模型，使机器学习模型对训练样本之外的数据具有预测能力(如类别预测能力)。机器学习作为AI领域的一个重要分支，在众多领域得到了广泛的应用。从学习方法的角度，机器学习算法可以分为监督式学习、非监督式学习、半监督式学习、强化学习等几大类算法。其中，监督式学习是机器学习算法中的一类基础算法。

在采用监督学习算法对机器学习模型进行训练的过程中，需要先人工对大量的样本数据进行标注(如样本为人脸图片，标注过程可以为将某一人脸图片标注为：“戴眼镜”)，然后利用这些已经进行标注的样本数据来对机器学习模型进行训练，以调整机器学习模型所采用的参数。训练完成后的机器学习模型即可用来执行相应的功能，例如图像识别或语言翻译等。其中，样本数据的标注过程称为确定标签的过程，标注的内容即为标签，标签用于标识数据，如标识数据的类别。

但是采用监督式学习算法或半监督式学习算法等进行模型训练时，需要大量人力进行样本数据的标注，标签的确定成本较高。

发明内容

本申请实施例提供了一种标签确定方法、装置及系统。可以解决目前的标签确定成本较高的问题。所述技术方案如下：

第一方面，提供了一种标签确定方法，所述方法包括：

获取第一时间序列的目标特征向量，时间序列为按照时序排列的一组数据的集合；

获取所述目标特征向量与参考特征向量集合中参考特征向量的相似度，所述参考特征向量为已确定标签的第二时间序列的特征向量；

当所述目标特征向量与第一参考特征向量的相似度大于相似度阈值时，将所述第一参考特征向量所对应的标签确定为所述第一时间序列的标签，所述第一参考特征向量为所述参考特征向量集合中的一个参考特征向量。

本申请实施例提供的标签确定方法，基于时间序列的特征向量的相似度进行标签的迁移，能够实现样本数据的自动标注，降低标签的确定成本。并且由于相似度计算与时间序列的特征向量相关，避免了时间序列自身所具有的干扰信息的影响，例如能够降低采样时段、幅度变化、象限漂移和噪声等干扰信息的影响。提高了标签确定的准确性。尤其在高维时间序列中仍然能够准确地进行标签迁移。

并且，将本申请实施例提供的标签确定方法应用于监督式学习算法或半监督式学习算法等需要大量标注的样本数据的场景中，能够有效降低标注成本，提高机器学习模型的建模效率。

可选地，所述第一时间序列为网络KPI的时间序列。

可选地，所述参考特征向量包括一个或多个特征的数据，所述目标特征向量包括一个或多个特征的数据，所述目标特征向量与所述第一参考特征向量的相似度为第一特征向量和第二子特征向量的相似度，所述第一子特征向量和所述第二子特征向量分别由所述目标特征向量和所述第一参考特征向量中对应相同特征的数据组成。

在本申请实施例中，参考特征向量集合中包括的参考特征向量与目标特征向量可能采用相同的提取算法也可能采用不同的提取算法获取。相应的，每个参考特征向量和目标特征向量所涉及的特征的类别以及特征的个数可能不同。因此，需要针对不同的情况进行相应的处理。

第一种情况，参考特征向量和目标特征向量所涉及的特征的类别和特征的个数不同。则相似度确定过程包括：在目标特征向量对应的特征与第一参考特征向量对应的特征中，筛选相同的第一特征；获取目标特征向量中第一特征对应的数据，得到由获取的数据所组成的第一子特征向量；获取第一参考特征向量中第一特征对应的数据，得到由获取的数据组成的第二子特征向量；确定第一子特征向量和第二子特征向量的相似度。该第一子特征向量和第二子特征向量的相似度即为参考特征向量和目标特征向量的相似度。

在第一种情况中，通过筛选第一子特征向量和第二子特征向量，并计算两者的相似度来作为参考特征向量和目标特征向量的相似度，可以简化相似度计算流程，保证最终计算得到的相似度的准确性。

第二种情况，参考特征向量和目标特征向量所涉及的特征的类别和特征的个数相同。可以直接将参考特征向量和目标特征向量分别获取为第一子特征向量和第二子特征向量；确定第一子特征向量和第二子特征向量的相似度，该第一子特征向量和第二子特征向量的相似度即为参考特征向量和目标特征向量的相似度。

在第二种情况中，通过设置参考特征向量和目标特征向量所涉及的特征的类别和特征的个数相同，可以减少特征筛选过程，进一步简化相似度计算流程。

在前述两种情况中，第一子特征向量和第二子特征向量均以序列形式表征，所述第一子特征向量和所述第二子特征向量中相同位置的数据对应同一类别的特征，所述第一子特征向量和所述第二子特征向量的相似度，与所述第一子特征向量和所述第二子特征向量的距离负相关。

相应的，可以先获取第一子特征向量和第二子特征向量的距离；然后，基于获取的距离，确定第一子特征向量和第二子特征向量的相似度。示例的，该距离可以采用欧式距离公式、切比雪夫距离公式、余弦距离公式、马氏距离公式或者其他距离公式等计算得到。

由于第一子特征向量和第二子特征向量的距离能够有效反应两者的相似度，通过计算距离可以实现相似度快速确定，提高相似度确定的效率。

在本申请实施例中，当存在与所述参考特征向量集合中每个参考特征向量的相似度均不大于所述相似度阈值的特征向量时，还需要通过人工标注的方式确定标签，以保证需要确定标签的特征向量最终能够标注相应的标签。本申请实施例中，基于分析设备向管理设备发送的时间序列的形式不同，可以将人工标注的过程划分为个体标注的过程(在这种场景下，分析设备向管理设备通常一次发一个待标注的时间序列)和集群标注的过程(在这种场景下，分析设备向管理设备通常一次发一个集合的待标注的时间序列)，本申请实施例以以下两种可选方式对人工标注的过程进行说明：

在第一种可选方式中，人工标注的过程包括以下个体标注过程：

当所述目标特征向量与所述参考特征向量集合中每个参考特征向量的相似度均不大于所述相似度阈值时，向管理设备发送所述第一时间序列，以供所述管理设备呈现所述第一时间序列；接收所述管理设备发送的所述第一时间序列的标签。

通过专业人员对第一时间序列的标签进行标注，可以在保证第一时间序列无法进行标签迁移时，仍能确定其标签。

在第二种可选方式中，人工标注的过程包括以下集群标注过程：

获取第一特征向量集合，所述第一特征向量集合中的任一特征向量与所述参考特征向量集合中每个参考特征向量的相似度均不大于所述相似度阈值，且所述任一特征向量对应的时间序列的标签未确定；向管理设备发送所述第一特征向量集合对应的时间序列，以供所述管理设备呈现所述第一特征向量集合对应的时间序列；接收所述管理设备发送的所述第一特征向量集合对应的时间序列的标签。

通过专业人员对第一特征向量集合对应的时间序列的标签进行标注，可以在保证第一特征向量集合对应的时间序列无法进行标签迁移时，仍能确定其标签。并且与管理设备的一次交互，可以实现多个时间序列的标签标注，节省网络开销。

分析设备向管理设备发送第一特征向量集合对应的时间序列可以有多种实现方式，本申请实施例以以下两种实现方式为例进行说明：

第一种实现方式，分析设备向管理设备发送第一特征向量集合对应的时间序列，管理设备接收该时间序列后，呈现第一特征向量集合对应的时间序列，由专业人员对该第一特征向量集合对应的时间序列的标签进行标注。

在第二实现方式，在向管理设备发送第一特征向量集合对应的时间序列之前，分析设备还可以先对第一特征向量集合中的特征向量进行聚类处理，得到第一特征向量集合中特征向量的类别关系；然后在向管理设备发送所述第一特征向量集合对应的时间序列时，同时向管理设备发送类别关系，以供管理设备按照类别关系，呈现第一特征向量集合对应的时间序列。

例如，管理设备可以将属于同一类别的多个时间序列在同一用户页面显示，将属于不同类别的多个时间序列在不同用户页面显示；又例如，管理设备可以将属于不同类别的多个时间序列在同一用户页面的不同位置显示；再例如，管理设备可以将每个时间序列与其所属类别对应显示。管理设备按照类别关系，呈现第一特征向量集合对应的时间序列，可以供专业人员在标注时参考该类别关系，起到辅助专业人员进行标签标注的作用。基于此，专业人员可以对属于同一类别的时间序列标注同一标签，提高标注效率，增加标签标注的准确性。

可选地，所述对所述第一特征向量集合中的特征向量进行聚类处理，包括：

基于所述第一特征向量集合中每两个特征向量的距离，统计每个所述特征向量的近邻向量，所述第一特征向量集合中任一特征向量的近邻向量为所述第一特征向量集合中与所述任一特征向量的距离小于距离阈值的其他特征向量，所述距离阈值为在基于所述第一特征向量集合确定的多个距离中指定的距离；

基于统计结果，将相同的近邻向量的数量大于数量阈值的每两个特征向量划分为同一类特征向量。示例的，所述数量阈值为在所述第一特征向量集合中各个特征向量的近邻向量的数量中指定的数量。

由于距离阈值和数量阈值是相对变化的值，基于这两个阈值最终划分得到的类别关系更准确，更能体现各个特征向量之间的关联性，提升聚类算法的适应性。

在本申请实施例中，当一个特征向量对应的时间序列的标签确定，可以将该特征向量添加到参考特征向量集合中，以作为标签迁移的参考基础。但是一些特征向量对应的标签可能由于人工误差或者机器算法失误而出现错误，如果将这些特征向量添加到参考特征向量集合中，容易引起标签迁移过程的标签冲突，例如与某一时间序列的目标特征向量的相似度大于相似度阈值的参考特征向量有多个，且标签不同，导致无法对该某一时间序列进行标签迁移。因此，需要对添加至参考特征向量集合的特征向量进行冲突检测处理，以避免出现错误标签的特征向量添加到参考特征向量集合中。示例的，该冲突检测过程可以包括以下步骤：

获取已确定标签的第三时间序列的第一特征向量；

获取所述第一特征向量与所述参考特征向量集合中参考特征向量的相似度；

当所述第一特征向量与所述参考特征向量集合中每个参考特征向量的相似度均不大于入库相似度阈值，将所述第一特征向量作为参考特征向量添加至所述参考特征集合中。

可选地，所述方法还包括：

当所述第一特征向量与所述参考特征向量集合中的第二特征向量的相似度大于所述入库相似度阈值，且所述第一特征向量对应的标签与所述第二特征向量对应的标签相同时，将所述第一特征向量作为参考特征向量添加至所述参考特征集合中。

可选地，所述方法还包括：

当所述第一特征向量与所述参考特征向量集合中的第二特征向量的相似度大于所述入库相似度阈值，且所述第一特征向量对应的标签与所述第二特征向量对应的标签不同时，向管理设备发送所述第一特征向量对应的时间序列以及所述第二特征向量对应的时间序列，以供所述管理设备呈现所述第一特征向量对应的时间序列以及所述第二特征向量对应的时间序列；

接收所述管理设备发送的所述第一特征向量对应的时间序列以及所述第二特征向量对应的时间序列的相同的标签；

基于接收的标签，更新预先存储的所述第一特征向量对应的时间序列的标签以及所述第二特征向量对应的时间序列的标签；

将所述第一特征向量作为参考特征向量添加至所述参考特征集合中。

可选地，所述目标特征向量和所述参考特征向量均包括统计特征、拟合特征或频域特征中的一种或多种特征的数据。

可选地，本申请实施例提供的标签确定方法，应用在异常检测场景中，能够进行自动的标签确定。在该应用场景中，前述标签确定方法由网络分析器执行，所述参考特征向量对应的标签为异常检测标签。在异常检测场景中，时间序列数据包括网络关键绩效指标(key performance indicator，KPI)，网络KPI包括网络流量KP、网络业务KPI等。其中，网络设备KPI可以是中央处理器(CPU，central processing unit)利用率、光功率等，网络业务KPI可以是网络流量、丢包率、时延、用户接入数等。其中，网络流量KPI为具有周期性的时间序列数据。由于大量的KPI异常的特征相似，本申请实施例提供的标签确定方法应用于异常检测场景中，可在一定范围内进行标签自动迁移，提升标签的利用率，降低标注成本，并且相对于传统的标签迁移方法，确定的标签的准确性较高。

第二方面，提供了一种标签确定装置，所述装置包括：多个功能模块：所述多个功能模块相互作用，实现上述第一方面及其各实施方式中的方法。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现，且所述多个功能模块可以基于具体实现进行任意组合或分割。

第三方面，提供了一种标签确定装置，包括：处理器和存储器；

所述存储器，用于存储计算机程序，所述计算机程序包括程序指令；

所述处理器，用于调用所述计算机程序，实现如第一方面任一所述的标签确定方法。

第四方面，提供了一种计算机存储介质，所述计算机存储介质上存储有指令，当所述指令被处理器执行时，实现如第一方面任一所述的标签确定方法。

第五方面，提供了一种芯片，芯片包括可编程逻辑电路和/或程序指令，当芯片运行时，实现如第一方面任一所述的标签确定方法。

第六方面，提供了一种计算机程序产品，所述计算机程序产品中存储有指令，当所述指令在计算机上运行时，使得所述计算机执行如第一方面任一所述的标签确定方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的标签确定方法，基于时间序列的特征向量的相似度进行标签的迁移，能够实现样本数据的自动标注，降低标签的确定成本。并且由于相似度计算与时间序列的特征向量相关，避免了时间序列自身所具有的干扰信息的影响，例如能够降低采样时段、幅度变化、象限漂移和噪声等干扰信息的影响。提高了标签确定的准确性。尤其在高维时间序列中仍然能够准确地进行标签迁移。将本申请实施例提供的标签确定方法应用于监督式学习算法或半监督式学习算法等需要大量标注的样本数据的场景中，能够有效降低标注成本，提高机器学习模型的建模效率。

并且本申请实施例提供的标签确定方法，由于采用特征向量的相似度进行标签迁移，不局限于波形相似的时间序列的标签迁移，只要保证在某些特征维度上相似即可进行标签迁移，由此可知，本申请实施例可以适用于波形不同的时间序列的标签迁移。因此可以扩大标签泛化的场景，提升标签迁移的灵活性和利用率，降低机器学习模型的建模成本。尤其在异常检测场景中，可以实现某些相似特征的KPI间的标签迁移。

进一步的，分析设备通过对第一特征向量集合进行聚类确定类别关系，并由管理设备按照类别关系，呈现第一特征向量集合对应的时间序列，可以供专业人员在标注时参考该类别关系，起到辅助专业人员进行标签标注的作用。基于此，专业人员可以对属于同一类别的时间序列标注同一标签，提高标注效率，增加标签标注的准确性。

附图说明

图1是本申请实施例提供的一种标签确定方法所涉及的一种应用场景示意图；

图2是本申请实施例提供的一种标签确定方法所涉及的另一种应用场景示意图；

图3是本申请实施例提供的一种标签确定方法的流程示意图；

图4是本申请实施例提供的一种获取目标特征向量与参考特征向量集合中参考特征向量的相似度的流程示意图；

图5是本申请实施例提供的一种冲突检测方法的流程图；

图6是本申请实施例提供的另一种标签确定方法的流程示意图；

图7是本申请实施例提供的一种对第一特征向量集合中的特征向量进行聚类处理的流程示意图；

图8是本申请一示意性实施例提供的一种标签确定装置的框图；

图9是本申请一示意性实施例提供的另一种标签确定装置的框图；

图10是本申请一示意性实施例提供的又一种标签确定装置的框图；

图11是本申请一示意性实施例提供的再一种标签确定装置的框图；

图12是本申请另一示意性实施例提供的一种标签确定装置的框图；

图13是本申请另一示意性实施例提供的另一种标签确定装置的框图；

图14是本申请另一示意性实施例提供的又一种标签确定装置的框图；

图15是本申请又一示意性实施例提供的一种标签确定装置的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了便于读者理解，本申请实施例对提供的标签确定方法所涉及的机器学习算法进行简单介绍。

机器学习算法作为AI领域的一个重要分支，在众多领域得到了广泛的应用。从学习方法的角度，机器学习算法可以分为监督式学习算法、非监督式学习算法、半监督式学习算法、强化学习算法几大类。监督式学习算法，是指可以基于训练数据学习一个算法或建立一个模式，并以此算法或模式推测新的实例。训练数据，也称样本数据，是由输入数据和预期输出组成。机器学习算法模型的预期输出，称为标签，其可以是一个连续的值(称为回归或者回归标签)，或是一个预测的分类结果(称作分类标签)。非监督式学习算法与监督式学习算法的区别在于，非监督式学习算法的样本数据没有给定标签，机器学习算法模型通过分析数据的特征，从而得到一定的成果。半监督学习算法，其样本数据一部分带有标签，另一部分没有标签，而无标签的数据远远多于有标签的数据。强化学习算法通过不断在环境中尝试，以取得最大化的预期利益，通过环境给予的奖励或惩罚，产生能获得最大利益的选择。其中，监督式学习算法是机器学习算法中较为基础的一类算法，在足够数据量的情况下能够取得很好的效果，例如图像识别、语言翻译等。但是监督式学习算法中的标签获取成本高，需要大量人力进行样本标注，很多应用场景并不具备大量的标注数据(即标注了标签的样本数据)。

如前所述，采用监督式学习算法或者半监督式学习算法等进行模型训练时，需要大量人力进行样本数据的标注，标签的确定成本较高。

目前提出一种标签确定方法，该方法采用标签迁移(也称标签泛化)的方式进行标签的确定，也即是将已确定标签的一个时间序列的标签迁移至与该时间序列类似的另一时间序列上，作为该另一时间序列的标签。其中，时间序列为按照时序排列的一组数据的集合，该时序通常为数据产生的先后顺序，时间序列是样本数据的一种数据形式，时间序列中的数据也称为数据点。例如，时间序列X为X＝(x ₁,x ₂,…,x _n)，则该时间序列有n个数据点，分别为x ₁至x _n，该时间序列的长度为n。

假设第一时间序列为待确定标签的时间序列，该标签确定过程包括：获取第一时间序列与多个参考时间序列的波形相似度，当第一时间序列与该多个参考时间序列中的一个参考时间序列的波形相似度大于波形相似度阈值时，将该参考时间序列所对应的标签确定为第一时间序列的标签。但是，这种通过对比时间序列的波形相似度进行标签迁移的方式，容易受到时间序列自身所具有的各种干扰信息(如采样时段、幅度变化、象限漂移和噪声等)的影响，标签确定的准确性较低。

进一步的，目前还提出一种基于动态时间规整(Dynamic Time Warping，DTW)的标签确定方法，当第一时间序列和参考时间序列的长度(即序列中数据点的个数)不同，通过规整时间轴，来建立两个时间序列的对应关系，之后再计算两者的波形相似度，从而在一定程度上减少采样时段、幅度变化和象限漂移的影响。但是该标签的确定方法中规整时间轴的算法复杂，且仍然无法避免时间序列的噪声影响。尤其在高维时间序列中的实用性较低。

本申请实施例提供一种标签确定方法，基于时间序列的特征向量的相似度进行标签的迁移，相似度计算与时间序列的特征向量相关，避免了时间序列自身所具有的干扰信息的影响，提高了标签确定的准确性。尤其在高维时间序列中仍然能够准确地进行标签迁移。

请参考图1，图1是本申请实施例提供的标签确定方法所涉及的一种应用场景示意图。如图1所示，该应用场景中包括分析设备101、管理设备102和网络设备103a至103c(统称为网络设备103)。图1中分析设备、管理设备和网络设备的数量仅用作示意，不作为对本申请实施例提供的标签确定方法所涉及的应用场景的限制。该应用场景所涉及的网络可以是第二代(2-Generation，2G)通信网络、第三代(3rd Generation，3G)通信网络、长期演进(Long Term Evolution，LTE)通信网络或第五代(5rd Generation，5G)通信网络等。

其中，分析设备101、管理设备102和网络设备103可以部署在同一台设备上，也可以分别部署于不同设备上。例如，分析设备101、管理设备102和网络设备103部署在不同设备上时，分析设备101可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。管理设备102可以是一台计算机，或者一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心，并且管理设备102可以是运维支撑系统(operations support system，OSS)或其它与分析设备连接的网络设备。网络设备103可以是路由器、交换机、基站等，其可以为核心网的网络设备，也可以为边缘网络的网络设备。分析设备101分别与网络设备103以及管理设备102之间通过有线网络或无线网络连接。

网络设备103用于向分析设备101上传采集到的数据，例如各类时间序列的数据，分析设备101用于从网络设备103提取和使用数据，例如确定获取的时间序列的标签，管理设备103用于对分析设备101进行管理。可选地，网络设备103向分析设备101上传的数据还可以包括各类日志数据和设备状态数据等。分析设备101还用于训练有一个或多个机器学习模型，不同的机器学习模型利用网络设备103上传的数据，可以分别实现异常检测、预测、网络安全防护和应用识别等功能。分析设备还可以实现各个机器学习模型的特征选择和自动更新，并将选择的特征以及模型的更新结果反馈给管理设备102，由管理设备102来决策是否进行模型的重新训练。对应不同的机器学习模型，该分析设备101采用本申请提供的标签确定方法可以确定不同的标签。

可选地，上述应用场景还可以不包括网络设备103，分析设备101还可以接收管理设备 103输入的时间序列的数据，本申请实施例只是对时间序列的数据的来源进行示意性说明，并不对此进行限定。

进一步的，本申请实施例提供的标签确定方法可以用于异常检测场景中。异常检测是指对不符合预测的模式、数据或时间进行检测。传统的异常检测是由专业人员(也称专家)对历史数据进行学习，然后找出异常，即为异常数据标注“异常”标签。异常检测的数据来源包括应用、进程、操作系统、设备或者网络，随着计算系统复杂度的提升，人工已经不能胜任现在的异常检测难度。

本申请实施例提供的标签确定方法，应用在异常检测场景中，能够进行自动的标签确定。请参考图2，图2是本申请实施例提供的标签确定方法所涉及的一种异常检测的应用场景示意图。在该应用场景中，分析设备101可以为网络分析器，管理设备102可以为控制器，分析设备101维护的机器学习模型为异常检测模型，确定的标签为异常检测标签，该异常检测标签包括两种分类标签，分别为：“正常”和“异常”。在图1所示的场景的基础上，该应用场景还可以包括存储设备104，其用于存储网络设备103提供的数据，该存储设备104可以为分布式存储设备，分析设备101可以对该存储设备104所存储的数据进行读写。这样在网络设备103的数据较多的情况下，由存储设备104进行数据存储，可以减轻分析设备101的负载，提高分析设备101的数据分析效率。需要说明的是，当网络设备103提供的数据量较少时，也可以不设置该存储设备104，此时异常检测的应用场景可以参考图1所示的应用场景。

在异常检测场景中，时间序列的异常检测通常是找出远离相对既定模式或分布的数据点。时间序列的异常包括：突升、突降、均值变化等。时间序列的异常检测算法包括基于统计与数据分布的算法(例如N-Sigma算法)、基于距离/密度的算法(例如局部异常因子算法)、孤立森林算法或基于预测的算法(例如差分整合移动平均自回归模型(Autoregressive Integrated Moving Average model，ARIMA)算法)等。相应的机器学习模型可以为基于统计与数据分布的模型(例如N-Sigma模型)、基于距离/密度的模型(例如局部异常因子模型)、孤立森林模型或基于预测的模型(例如ARIMA)。

如图1和图2所述，网络设备103上传的数据包括各类时间序列数据，具有数据规模庞大、模式和规律复杂的特点。因此，在利用这些数据进行异常检测、预测、分类、网络安全防护、应用识别或用户体验评估(例如基于这些数据评估用户的体验)等应用时，使用了大量的机器学习模型。专业人员需要对这些数据进行标注，工作量非常大，标注成本极高。

本申请实施例提供一种标签确定方法，能够进行标签迁移，从而降低标注成本，且由于基于时间序列的特征向量的相似度进行标签的迁移，相似度计算与时间序列的特征向量相关，避免了时间序列自身所具有的干扰信息的影响，提高了标签确定的准确性。

在异常检测场景中，时间序列数据包括网络关键绩效指标(key performance indicator，KPI)，网络KPI包括网络设备KPI、网络业务KPI等。其中，网络设备KPI可以是中央处理器(CPU，central processing unit)利用率、光功率等，网络业务KPI可以是网络流量、丢包率、时延、用户接入数等。其中，网络流量KPI为具有周期性的时间序列数据。示例地，图2中所示的异常检测场景中，机器学习模型以用于对网络流量KPI进行异常检测。由于大量的KPI异常的特征相似，本申请实施例提供的标签确定方法应用于异常检测场景中，可在一定范围内进行标签自动迁移，提升标签的利用率，降低标注成本，并且相对于传统的标签迁移方法，确定的标签的准确性较高。

本申请实施例提供一种标签确定方法，该方法可以由前述分析设备执行，假设第一时间序列为需要进行标签确定的序列，如图3所示，方法包括：

步骤301、获取第一时间序列的目标特征向量。

时间序列为按照时序排列的一组数据的集合，该时序通常为数据产生的先后顺序，时间序列中的数据也称为数据点。通常一个时间序列中各个数据点的时间间隔为一恒定值，因此时间序列可以作为离散时间数据进行分析处理。示例的，该第一时间序列可以为网络KPI的时间序列。

在一种可选示例中，分析设备可以接收网络设备或者管理设备发送的时间序列；在另一种可选示例中，分析设备具有输入输出(I/O)接口，通过该I/O接口接收时间序列；在又一种可选示例中，分析设备可以从存储设备中读取时间序列。

目标特征向量是表征第一时间序列的特征的向量，其包括一个或多个特征的数据，也即是，目标特征向量对应一维或多维特征，目标特征向量对应的特征的维度与目标特征向量中的数据的个数相同(即特征与数据一一对应)。其中，特征指的是第一时间序列所具有的特征，其可以包括数据特征和/或提取特征。

其中，数据特征是时间序列中的数据的自身特征。例如，数据特征包括数据排列周期、数据变化趋势或数据波动等，相应的，数据特征的数据包括：数据排列周期的数据、数据变化趋势数据或数据波动数据等。数据排列周期是指若时间序列中数据周期性排列，该时间序列中数据排列所涉及的周期，例如，数据排列周期的数据包括周期时长(也即两个周期发起的时间间隔)和/或周期个数；数据变化趋势数据用于反映时间序列中数据排列的变化趋势(即数据变化趋势)，例如，该数据包括：持续增长、持续下降、先升后降，先降后升，或者满足正态分布等等；数据波动数据用于反映时间序列中数据的波动状态(即数据波动)，例如该数据包括表征该时间序列的波动曲线的函数，或者，该时间序列的指定值，如最大值、最小值或平均值。

提取特征是提取该时间序列中的数据的过程中的特征。例如，提取特征包括统计特征、拟合特征或频域特征等，相应的，提取特征的数据包括统计特征数据、拟合特征数据或频域特征数据等。统计特征是指时间序列所具有的统计学特征，统计特征有数量特征和属性特征之分，其中数量特征又有计量特征和计数特征之分，数量特征可以直接用数值来表示，例如，CPU、内存、IO资源等多种资源的消耗值为计量特征；而出现异常的次数、正常工作的设备个数是计数特征；属性特征不能直接用数值来表示，如设备是否出现异常、设备是否产生宕机等，统计特征中的特征就是统计时需要考察的指标。例如，该统计特征数据包括移动平均值(Moving_average)、加权平均值(Weighted_mv)等；拟合特征是时间序列拟合时的特征，则拟合特征数据用于反映时间序列用于拟合的特征，例如拟合特征数据包括进行拟合时所采用的算法，如ARIMA；频域特征是时间序列在频域上的特征，则频域特征用于反映时间序列在频域上的特征。例如，频域特征数据包括：时间序列在频域上分布所遵循的规律的数据，如该时间序列中高频分量的占比。可选地，频域特征数据可以通过对时间序列进行小波分解得到。

该获取第一时间序列的目标特征向量的过程可以包括：先确定需要提取的目标特征，然后在第一时间序列中提取确定的目标特征的数据，得到目标特征向量。示例的，该需要提取的目标特征是基于标签确定方法所涉及的应用场景确定的。在一种可选示例中，该目标特征为预先配置的特征，例如是由用户配置的特征。

在另一种可选示例中，该目标特征为指定特征中的一个或多个，例如该指定特征为前述统计特征。

值得说明的是，用户可以预先设置指定特征，但是对于第一时间序列，其可能无法具有全部指定特征，分析设备可以在第一时间序列中筛选属于该指定特征的特征作为目标特征。例如，该目标特征包括统计特征：时间序列分解_周期分量(time series decompose_seasonal，Tsd_seasonal)、移动平均值、加权平均值、时间序列分类、最大值、最小值、分位数、方差、标准差、周期同比(year on year，yoy，指的是与历史同时期比较)、每天波动率、分桶熵、样本熵、滑动平均、指数滑动平均、高斯分布特征或T分布特征等中的一个或多个，相应的，目标特征数据包括该一个或多个统计特征的数据；

和/或，该目标特征包括拟合特征：自回归拟合误差、高斯过程回归拟合误差或神经网络拟合误差中的一个或多个，相应的，目标特征数据包括该一个或多个拟合特征的数据；

和/或，该目标特征包括频域特征：时间序列中高频分量的占比；相应的，目标特征数据包括时间序列中高频分量的占比的数据，该数据可以对时间序列进行小波分解得到。

步骤302、获取目标特征向量与参考特征向量集合中参考特征向量的相似度。执行步骤303或304。

分析设备中预先建立有参考特征向量集合，该参考特征向量集合包括一个或多个参考特征向量，该参考特征向量为已确定标签的第二时间序列的特征向量。该标签可以是人工标注的，也可以是通过本申请实施例提供的标签确定方法确定的，还可以是通过其他算法确定的，本申请实施例对此不做限定。

该参考特征向量集合中每个参考特征向量对应的标签以及第二时间序列可以存储在参考特征向量集合中，也可以存储在其他存储空间。只要通过该参考特征向量可以查询得到对应的标签以及第二时间序列即可。

参考特征向量是表征第二时间序列的特征的向量，其包括一个或多个特征的数据。也即是，参考特征向量对应一维或多维特征。参考特征向量所涉及的特征可以包括数据特征和/或提取特征。数据的维度与特征的个数以及相应的特征向量的解释可以参考前述目标特征向量的解释。获取每个第二时间序列的参考特征向量的过程可以参考前述获取第一时间序列的目标特征向量的过程。本申请实施例对此不做赘述。

表1为参考特征向量集合中存储的数据的示意性说明，表1中，该参考特征向量集合中每个参考特征向量对应的时间序列以及标签可以存储在参考特征向量集合中。表1中样本数据身份标识(identification，ID)为KPI_1的参考特征向量，其包括4个特征的数据，该4个特征的数据分别为：移动平均值(Moving_average)、加权平均值(Weighted_mv)、时间序列分解_周期分量(time series decompose_seasonal，Tsd_seasonal)和周期yoy。该参考特征向量对应的时间序列为(x1,x2,……,xn)，对应的标签为“异常”。表1假设参考特征向量集合按照固定格式存储数据，其存储的参考特征向量的特征也可以为预先设定的特征，则参考特征向量集合的数据均可以按照表1的格式存储。本申请实施例在实际实现时，参考特征向量集合还可以有其他形式，本申请实施例对此不做限定。

表1

假设第一参考特征向量为参考特征向量集合中的一个参考特征向量，第一特征为目标特征向量对应的特征与第一参考特征向量对应的特征中相同的特征，也即是第一特征为目标特征向量对应的特征与第一参考特征向量对应的特征的交集，第一子特征向量为目标特征向量中第一特征对应的数据组成的向量，第二子特征向量为第一参考特征向量中第一特征对应的数据组成的向量，则目标特征向量与第一参考特征向量的相似度为第一子特征向量和第二子特征向量的相似度。本申请实施例以以下两种情况为例进行说明。

第一种情况，参考特征向量和目标特征向量所涉及的特征的类别和特征的个数不同。则，如图4所示，获取目标特征向量与参考特征向量集合中参考特征向量的相似度的过程可以包括以下步骤：

步骤3021、在目标特征向量对应的特征与第一参考特征向量对应的特征中，筛选相同的第一特征。

第一特征包括一个或多个特征。前述步骤3021获取第一特征的过程，可以通过获取目标特征向量对应的特征与第一参考特征向量对应的特征的交集实现。例如，假设目标特征向量Q1包括对应特征y ₁至y ₄共4个特征的数据，该4个数据分别为q ₁至q ₄，即Q1＝(q ₁,q ₂,q ₃,q ₄)，对应的特征的集合Y1满足：Y1＝(y ₁,y ₂,y ₃,y ₄)；第一参考特征向量Q2包括对应特征y ₁、y ₄和y ₅共3个特征的数据，3个数据分别为p ₁、p ₄和p ₅，即Q2＝(p ₁,p ₄,p ₅)，对应的特征的集合Y2满足：Y2＝(y ₁,y ₄,y ₅)。则第一特征Y满足：Y＝Y1∩Y2，则Y＝(y ₁,y ₄)。

值得说明的是，第一特征还可以采用其他方式得到，例如依次比较目标特征向量对应的特征与第一参考特征向量对应的特征，本申请实施例对此不做限定。

步骤3022、获取目标特征向量中第一特征对应的数据，得到由获取的数据组成的第一子特征向量。

仍然以步骤3021的例子为例，则第一子特征向量为目标特征向量Q1＝(q ₁,q ₂,q ₃,q ₄)中的Q11＝(q ₁,q ₄)。

步骤3023、获取第一参考特征向量中第一特征对应的数据，得到由获取的数据组成的第二子特征向量。

仍然以步骤3021的例子为例，则第二子特征向量为第一参考特征向量Q2＝(p ₁,p ₄,p ₅)中的Q21＝(p ₁,p ₄)。值得说明的是，第一子特征向量和第二子特征向量中的数据的个数以及排列方式一致，以保证后续相似度计算的准确性。

步骤3024、确定第一子特征向量和第二子特征向量的相似度。

在本申请实施例中，第一子特征向量和第二子特征向量均以序列形式表征，第一子特征向量和第二子特征向量中相同位置的数据对应同一类别的特征，第一子特征向量和第二子特征向量的相似度可以采用两者的距离来衡量，该相似度与第一子特征向量和第二子特征向量的距离负相关。也即是两个子特征向量的相似度越大，距离越小；相似度越小，距离越大。

则，可以先获取第一子特征向量和第二子特征向量的距离；然后，基于获取的距离，确定第一子特征向量和第二子特征向量的相似度。

可选地，第一子特征向量和第二子特征向量的距离用于表征目标特征向量与第一参考特征向量的距离，第一子特征向量和第二子特征向量的距离可以有多种获取方式，例如，采用欧式距离公式、切比雪夫距离公式、余弦距离公式、马氏距离公式或者其他距离公式等计算得到。

示例的，假设第一子特征向量为x＝(f _x1,f _x2,…,f _xn)，第二子特征向量为y＝(f _y1,f _y2,…,f _yn)，采用马式距离公式计算第一子特征向量和第二子特征向量的距离D _M(x,y)D _M(x,y)，则马氏距离公式如下：

其中，Σ ^-1为协方差矩阵，Σ ^-1＝E[(X-E[X])(X-E(X)) ^T]。协方差矩阵Σ ^-1为预先确定的矩阵，其可以由第一子特征向量与参考特征向量集合中与第一子特征向量相同维度的特征的数据计算得到。

在本申请实施例中，第一子特征向量和第二子特征向量的相似度与两者的距离负相关，则可以基于获取的距离D以及相似度计算公式，确定第一子特征向量和第二子特征向量的相似度S。在一种可选方式中，相似度计算公式为：S＝a/D。其中，a为预先设置的数值。例如a＝1。在另一种可选方式中，相似度计算公式为：S＝1-f(D)，其中，f(D)表示对距离D进行归一化处理。

第二种情况，参考特征向量和目标特征向量所涉及的特征的类别和特征的个数相同。则，第一子特征向量与目标特征向量相同，第二子特征向量与第一参考特征向量相同，无需执行前述步骤3021的筛选动作，获取目标特征向量与参考特征向量集合中参考特征向量的相似度的过程可以为：直接确定目标特征向量与第一参考特征向量的相似度，也即是先获取目标特征向量与第一参考特征向量的距离；然后，基于获取的距离，确定目标特征向量与第一参考特征向量的相似度。该确定目标特征向量与第一参考特征向量的相似度的过程可以参考前述步骤3024。本申请实施例对此不再赘述。

值得说明的是，前述参考特征向量和目标特征向量涉及多个特征的数据，且相同特征的数据的个数越多，最终计算得到的相似度越能从多个角度反映参考特征向量和目标特征向量的相关性，基于此确定的标签准确性更高。

步骤303、当目标特征向量与第一参考特征向量的相似度大于相似度阈值时，将第一参考特征向量所对应的标签确定为第一时间序列的标签。

该相似度阈值可以由用户预先设置，也可以是分析设备基于当前的应用场景确定的。当目标特征向量与第一参考特征向量的相似度大于相似度阈值时，说明第一时间序列与第一参考特征向量所对应的第二时间序列在特征上的相似度较高，第一时间序列满足标签迁移条件，可以将第一参考特征向量所对应的标签确定为第一时间序列的标签。

例如，第一参考特征向量所对应的标签为“异常”，则第一时间序列的标签也为“异常”。

步骤304、当目标特征向量与参考特征向量集合中每个参考特征向量的相似度均不大于相似度阈值时，向管理设备发送第一时间序列，以供管理设备呈现第一时间序列。

当目标特征向量与参考特征向量集合中每个参考特征向量的相似度均不大于相似度阈值时，说明第一时间序列与参考特征向量集合中每个参考特征向量所对应的第二时间序列在特征上均相似度较低，第一时间序列不满足标签迁移条件，则该目标特征向量对应的第一时间序列的标签可以由人工标注。因此，分析设备可以向管理设备发送第一时间序列，该管理设备可以为前述应用环境中的管理设备102。管理设备在接收了第一时间序列后，呈现该第一时间序列，由专业人员对该第一时间序列的标签进行标注。

步骤305、接收管理设备发送的第一时间序列的标签。

参考步骤304，专业人员对该第一时间序列的标签进行标注后，管理设备接收标注的标签，并将该标签发送至分析设备，分析设备接收该标签，并将该标签与第一时间序列对应保存。

值得说明的是，当目标特征向量与参考特征向量集合中每个参考特征向量的相似度均不大于相似度阈值时，若该第一时间序列的重要性低于预设阈值，例如该第一时间序列为随机获取的时间序列，由于无法进行自动的标签确定，分析设备也可以不进行该第一时间序列的标签的标注，即不执行步骤304和305，删除该第一时间序列，获取新的时间序列作为第一时间序列，再次执行上述步骤301至303，以实现符合标签迁移条件的时间序列的标签确定。这样就无需人工参与，可以为符合标签迁移条件的时间序列均确定标签。

步骤306、对需要添加至参考特征向量集合的特征向量进行冲突检测处理。

在本申请实施例中，当一个特征向量对应的时间序列的标签确定，可以将该特征向量添加到参考特征向量集合中，以作为标签迁移的参考基础。但是一些特征向量对应的标签可能由于人工误差或者机器算法失误而出现错误，如果将这些特征向量添加到参考特征向量集合中，容易引起标签迁移过程的标签冲突，例如与某一时间序列的目标特征向量的相似度大于相似度阈值的参考特征向量有多个，且标签不同，导致无法对该某一时间序列进行标签迁移。因此，需要对添加至参考特征向量集合的特征向量进行冲突检测处理，以避免出现错误标签的特征向量添加到参考特征向量集合中。示例的，如图5所示，该冲突检测过程可以包括以下步骤：

步骤3061、获取已确定标签的第三时间序列的第一特征向量。

该第三时间序列的标签可以是人工标注的，也可以是通过本申请实施例提供的标签确定方法确定的，还可以是通过其他算法确定的。示例的，该第三时间序列的标签可以为前述步骤303或步骤305所确定的标签，相应的，该第三时间序列即为通过前述第一时间序列。

该第三时间序列的第一特征向量的获取过程可以参考前述步骤301中第一时间序列的目标特征向量的获取过程，本申请实施例不再赘述。值得说明的是，当第三时间序列为前述第一时间序列时，则可以直接将前述目标特征向量作为第一特征向量，以减少再次提取特征向量的过程，降低运算代价。

步骤3062、获取第一特征向量与参考特征向量集合中参考特征向量的相似度。

步骤3062可以参考前述步骤302，本申请实施例对此不再赘述。

在参考特征集合中，一个或多个参考特征向量可以对应同一标签。但容易出现以下错误场景：实质相关的多个参考特征向量由于人工误差或者机器算法失误而对应不同标签，也即是，本应该对应同一标签的参考特征向量对应了不同的标签。为了减少这种错误场景的出现，在步骤3062之后，可以执行步骤3063、步骤3064或步骤3065。

步骤3063、当第一特征向量与参考特征向量集合中每个参考特征向量的相似度均不大于入库相似度阈值，将第一特征向量作为参考特征向量添加至参考特征集合中。

当第一特征向量与参考特征向量集合中每个参考特征向量的相似度均不大于入库相似度阈值，说明第一特征向量与参考特征向量集合中每个参考特征向量均不相似，相应的，第三时间序列与参考特征向量集合中每个参考特征向量对应的第二时间序列的相似度较低，其为一个全新的时间序列，可以将第一特征向量作为参考特征向量添加至参考特征集合中。

值得说明的是，该入库相似度阈值可以由用户预先设置，也可以由分析设备基于当前的应用场景确定，其与前述步骤303中的相似度阈值可以相同也可以不同。

步骤3064、当第一特征向量与参考特征向量集合中的第二特征向量的相似度大于入库相似度阈值，且第一特征向量对应的标签与第二特征向量对应的标签相同时，将第一特征向量作为参考特征向量添加至参考特征集合中。

当第一特征向量与参考特征向量集合中的第二特征向量的相似度大于入库相似度阈值，说明第一特征向量与第二特征向量类似，两者相关；当第一特征向量对应的标签与第二特征向量对应的标签相同时，则说明相关的两个特征向量对应同一标签，则第一特征向量符合加入参考特征向量集合的条件，将该第一特征向量作为参考特征向量添加至参考特征集合中。

步骤3065、当第一特征向量与参考特征向量集合中的第二特征向量的相似度大于入库相似度阈值，且第一特征向量对应的标签与第二特征向量对应的标签不同时，向管理设备发送第一特征向量对应的时间序列以及第二特征向量对应的时间序列，以供管理设备呈现第一特征向量对应的时间序列以及第二特征向量对应的时间序列。执行步骤3066。

当第一特征向量与参考特征向量集合中的第二特征向量的相似度大于入库相似度阈值，说明第一特征向量与第二特征向量类似，两者相关；当第一特征向量对应的标签与第二特征向量对应的标签不同时，说明相关的两个特征向量对应不同标签，则第一特征向量或第二特征向量的标签有误。该第一特征向量或第二特征向量的标签可以再次由人工标注，以保证标签的准确性。因此，分析设备可以向管理设备发送第一特征向量对应的时间序列以及第二特征向量对应的时间序列，该管理设备可以为前述应用环境中的管理设备102。管理设备在接收了第一特征向量对应的时间序列以及第二特征向量对应的时间序列后，呈现接收的时间序列，由专业人员对呈现的时间序列的标签进行标注，由于两个时间序列对应的特征向量相关，人工标注的两个时间序列的标签为同一标签。

需要说明的是，分析设备还可以向管理设备发送第一特征向量对应的标签与第二特征向量对应的标签，管理设备可以在呈现接收的时间序列时，同步呈现接收到的标签，以供专业人员进行参考，在一定程度上能够提高最终标签标注的准确率。

步骤3066、接收管理设备发送的第一特征向量对应的时间序列以及第二特征向量对应的时间序列的相同的标签。执行步骤3067。

专业人员对该呈现的时间序列的标签进行标注后，管理设备接收标注的标签，并将该标签发送至分析设备，分析设备接收该标签。

步骤3067、基于接收的标签，更新预先存储的第一特征向量对应的时间序列的标签以及第二特征向量对应的时间序列的标签。执行步骤3068。

参考步骤3065，由于预先存储的第一特征向量对应的时间序列的标签以及第二特征向量对应的时间序列的标签不同，分析设备可以基于接收的标签，更新预先存储的第一特征向量对应的时间序列的标签以及第二特征向量对应的时间序列的标签，保证更新后的第一特征向量对应的时间序列的标签以及第二特征向量对应的时间序列的标签相同。从而避免出现标签冲突。

步骤3068、将第一特征向量作为参考特征向量添加至参考特征集合中。

值得说明的是，前述步骤3061至3068只是进行冲突检测的一种示意性实现方式说明，本申请实施例在实际实现时，还可以采用其他方式进行冲突检测。例如，当第一特征向量与参考特征向量集合中的第二特征向量的相似度大于入库相似度阈值，且第一特征向量对应的标签与第二特征向量对应的标签不同时，还可以由专业人员人工进行冲突检测，则步骤3065至3068还可以替换为：通过分析设备自身或管理设备呈现第一特征向量，以及对应的时间序列和标签；并呈现第二特征向量，以及对应的时间序列的标签；接收删除指令，该删除指令指示删除第一特征向量，以及对应的时间序列和标签，或者，该删除指令指示删除第二特征向量，以及对应的时间序列的标签；删除该删除指令所指示的特征向量，以及对应的时间序列和标签。若分析设备接收到删除指令，说明该删除指令指示删除的特征向量无法在标签迁移过程中起到有效的参考作用，通过将该特征向量删除，可以避免标签迁移过程中的标签冲突。

前述步骤306是以将第一特征向量添加至参考特征向量集合时，进行冲突检测处理为例进行说明的，本申请实施例在实际实现时，也可以周期性进行冲突检测处理，或者在接收到检测触发指令后进行冲突检测处理，该冲突检测处理过程包括：步骤A1至A6。

步骤A1、获取参考特征向量集合的任一特征向量作为第三特征向量。

步骤A2、获取该第三特征向量与参考特征向量集合中其他参考特征向量的相似度。

步骤A2可以参考前述步骤302，本申请实施例对此不再赘述。

步骤A3、当该第三特征向量与参考特征向量集合中每个其他参考特征向量的相似度均不大于入库相似度阈值，将参考特征向量集合中除第三特征向量之外的其他任一特征向量作为第三特征向量，重复执行步骤A1至A7，直至遍历参考特征向量集合中所有特征向量，停止动作。

步骤A4、当第三特征向量与参考特征向量集合中的第四特征向量的相似度大于入库相似度阈值，且第三特征向量对应的标签与第四特征向量对应的标签相同时，将参考特征向量集合中除第三特征向量之外的其他任一特征向量作为第三特征向量，重复执行步骤A1至A7，直至遍历参考特征向量集合中所有特征向量，停止动作。

步骤A5、当第三特征向量与参考特征向量集合中的第四特征向量的相似度大于入库相似度阈值，且第三特征向量对应的标签与第四特征向量对应的标签不同时，向管理设备发送第三特征向量对应的时间序列以及第四特征向量对应的时间序列，以供管理设备呈现第三特征向量对应的时间序列以及第四特征向量对应的时间序列。执行步骤A6。

步骤A5参考前述步骤3065，本申请实施例对此不做赘述。

步骤A6、接收管理设备发送的第三特征向量对应的时间序列以及第四特征向量对应的时间序列的相同的标签。执行步骤A7。

步骤A6参考前述步骤3066，本申请实施例对此不做赘述。

步骤A7、基于接收的标签，更新预先存储的第三特征向量对应的时间序列的标签以及第四特征向量对应的时间序列的标签。将参考特征向量集合中除第三特征向量之外的其他任一特征向量作为第三特征向量，重复执行步骤A1至A7，直至遍历参考特征向量集合中所有特征向量，停止动作。

通过在参考特征向量集合内部进行冲突检测，可以避免标签冲突，保证参考特征向量集合中的参考特征向量起到有效的参考作用，通过将没有参考价值的特征向量删除，提高标签确定准确性。

前述步骤304中，当目标特征向量与参考特征向量集合中每个参考特征向量的相似度均不大于相似度阈值时，向管理设备发送第一时间序列，也即是分析设备每次获取一个与参考特征向量集合中每个参考特征向量的相似度均不大于相似度阈值的时间序列，便将该时间序列发送至管理设备，以进行人工标注，这样的标注方式为个体标注方式，即与管理设备的一次交互过程中标注一个标签。本申请实施例在实际实现时，人工标注过程还可以有其他实现方式，例如集群标注方式，即与管理设备的一次交互过程标注多个标签，则如图6所示，采用集群标注方式时，前述步骤304和步骤305可以替换为步骤307至309：

步骤307、获取第一特征向量集合，该第一特征向量集合中的任一特征向量与参考特征向量集合中每个参考特征向量的相似度均不大于相似度阈值，且任一特征向量对应的时间序列的标签未确定。

在一种可选示例中，第一特征向量集合中的特征向量的个数为指定个数。例如，分析设备在重复执行多次前述步骤301至303后，获取指定个数个第五特征向量，并将该指定个数的第五特征向量确定为第一特征向量集合，该第五特征向量与参考特征向量集合中每个参考特征向量的相似度均不大于相似度阈值，且第五特征向量对应的时间序列的标签未确定。该第五特征向量可以包括前述目标特征向量。

在另一种可选示例中，第一特征向量集合为周期性获取的集合。例如，分析设备在重复执行多次前述步骤301至303的过程中，每隔指定时长获取第五特征向量，得到第一特征向量集合，该第五特征向量为最近的指定时长内，与参考特征向量集合中每个参考特征向量的相似度均不大于相似度阈值的特征向量，且第五特征向量对应的时间序列的标签未确定。该第五特征向量可以包括前述目标特征向量。

在又一种可选示例中，第一特征向量集合为分析设备在接收到收集指令后获取的集合。例如，分析设备在重复执行多次前述步骤301至303的过程中，若接收到指示收集第五特征向量的收集指令，则基于该收集指令，获取第五特征向量得到第一特征向量集合，该第五特征向量为历史时长(该历史时长可以为指定时长，也可以是上次收集指令与本次收集指令之间的时长，还可以其他方式规定的时长)内，与参考特征向量集合中每个参考特征向量的相似度均不大于相似度阈值的特征向量，且第五特征向量对应的时间序列的标签未确定。该第五特征向量可以包括前述目标特征向量。

步骤308、向管理设备发送第一特征向量集合对应的时间序列，以供管理设备呈现第一特征向量集合对应的时间序列。

在第一种可选方式中，分析设备向管理设备发送第一特征向量集合对应的时间序列，管理设备接收该时间序列后，呈现第一特征向量集合对应的时间序列，由专业人员对该第一特征向量集合对应的时间序列的标签进行标注。

示例的，管理设备可以在同一用户界面同时显示第一特征向量集合中多个特征向量对应的时间序列，也可以采用滚动方式分别显示第一特征向量集合中多个特征向量对应的时间序列，本申请实施例对此不做限定。

进一步的，分析设备还可以向管理设备发送第一特征向量集合，管理设备在呈现每个时间序列时，可以呈现对应的特征向量，以供专业人员进行参考，起到辅助专业人员进行标签标注的作用，提高标签标注的准确性。

在第二种可选方式中，在步骤308向管理设备发送第一特征向量集合对应的时间序列之前，还可以先对第一特征向量集合中的特征向量进行聚类处理，得到第一特征向量集合中特征向量的类别关系；然后在步骤308中，向管理设备发送类别关系以及第一特征向量集合对应的时间序列，以供管理设备按照类别关系，呈现第一特征向量集合对应的时间序列。

其中，聚类处理的方式可以有多种。在一种可选的实现方式中，如图7所示，对第一特征向量集合中的特征向量进行聚类处理的过程，包括：

步骤3081、基于第一特征向量集合中每两个特征向量的距离，统计每个特征向量的近邻向量，第一特征向量集合中任一特征向量的近邻向量为第一特征向量集合中与任一特征向量的距离小于距离阈值的其他特征向量，该距离阈值为在基于第一特征向量集合确定的多个距离中指定的距离。

示例的，该步骤3081可以包括以下步骤：

步骤B1、分析设备获取第一特征向量集合中每两个特征向量的距离。

假设第二参考特征向量和第三参考特征向量为参考特征向量集合中的任意两个参考特征向量，第二特征为第二参考特征向量对应的特征和第三参考特征向量对应的特征中相同的特征，也即是第二特征为第二参考特征向量对应的特征和第三参考特征向量对应的特征的交集，第三子特征向量为第二参考特征向量中第二特征对应的数据所组成的向量，第四子特征向量为第三参考特征向量中第二特征对应的数据所组成的向量，则第二参考特征向量和第三参考特征向量的相似度为第三子特征向量和第四子特征向量的距离。其中，第二参考特征向量和第三参考特征向量所涉及的特征的类别和特征的个数不同时，参考前述步骤302的第一种情况，第三子特征向量和第四子特征向量的距离的获取方法可以参考前述步骤3021至3024；第二参考特征向量和第三参考特征向量所涉及的特征的类别和特征的个数相同时，参考前述步骤302的第二种情况，直接获取第二参考特征向量和第三参考特征向量的距离。

步骤B2、分析设备在基于第一特征向量集合确定的多个距离中，确定距离阈值。

可选地，分析设备对获取的各个距离进行排序，例如升序排序或降序排序。该距离阈值可以为排序后的距离中位于指定分位数或者指定顺序的距离。该指定分位数或指定顺序为经验值，例如指定分位数为前50％或前90％，则该距离阈值为排序后的距离中位于前50％或前90％处的距离，其中，“前”指的是按照排列顺序由前到后的顺序；例如指定顺序为第5个，则该距离阈值为排序后的距离中位于第5个的距离。例如，假设第一特征向量集合Z＝(z ₁,z ₂,z ₃,z ₄)，特征向量z ₁和z ₂、z ₃、z ₄的距离分别为10、9、8，特征向量z ₂和z ₃、z ₄的距离分别为11、6，z ₃和z ₄的距离为5，分位数为前50％。分析设备对获取的各个距离进行降序排列后得到的距离序列为：11、10、9、8、6、5，则距离阈值为9。

步骤B3、基于第一特征向量集合中每两个特征向量的距离，统计每个特征向量的近邻向量，第一特征向量集合中任一特征向量的近邻向量为第一特征向量集合中与该任一特征向量的距离小于距离阈值的其他特征向量。

仍然以前述步骤B2中的例子为例，特征向量z ₁的近邻向量为z ₄，特征向量z ₁的近邻向量的个数为1；特征向量z ₂的近邻向量为z ₄，则近邻向量的个数为1；特征向量z ₃的近邻向量为z ₄，特征向量z ₃的近邻向量的个数为1；特征向量z ₄的近邻向量为z ₁、z ₂和z ₃，特征向量z ₄的近邻向量的个数为3。

步骤3082、基于统计结果，将相同的近邻向量的数量大于数量阈值的每两个特征向量划分为同一类特征向量，该数量阈值为在第一特征向量集合中各个特征向量的近邻向量的数量中指定的数量。

示例的，该步骤3082可以包括以下步骤：

步骤C1、分析设备获取第一特征向量集合中各个特征向量的近邻向量的数量。

仍然以前述步骤B2中的例子为例，特征向量z ₁和z ₂、z ₃、z ₄的近邻向量的数量分别为1、1、1、3。

步骤C2、分析设备在第一特征向量集合中各个特征向量的近邻向量的数量中，确定数量阈值。

可选地，分析设备对获取的各个数量进行排序，例如升序排序或降序排序。该数量阈值可以为排序后的数量中位于指定分位数或者指定顺序的数量。该指定分位数或指定顺序为经验值，例如指定分位数为前50％或前60％。

例如，假设指定分位数为前50％，分析设备对获取的各个数量进行降序排列后得到的数量序列为：3、1、1、1。则数量阈值为1。

步骤C3、基于统计结果，将相同的近邻向量的数量大于数量阈值的每两个特征向量划分为同一类特征向量。

假设数量阈值为1，特征向量z ₁和z ₂、z ₃、z ₄中两两之间相同的近邻向量的数量均为0，因此，特征向量z ₁和z ₂、z ₃、z ₄分别归为一个类别。

假设数量阈值为1，特征向量z ₁和z ₄相同的近邻向量为z ₂、z ₃，特征向量z ₂和z ₃相同的近邻向量为z ₁和z ₄，特征向量z ₁和z ₂、z ₃相同的近邻向量均为空，特征向量z ₄和z ₂、z ₃相同的近邻向量为空，则特征向量z ₁和z ₄划分为同一类特征向量，特征向量z ₂和z ₃划分为同一类特征向量。

本申请实施例中，由于前述距离阈值和数量阈值是动态确定的，其中，距离阈值为在基于第一特征向量集合确定的多个距离中指定的距离，其反应了第一特征向量集合对应的多个距离的分布关系，是一个随第一特征向量集合的变化而变化的值；数量阈值为在第一特征向量集合中各个特征向量的近邻向量的数量中指定的数量，其反应了第一特征向量集合中各个特征向量的近邻向量的数量的分布关系，是一个随第一特征向量集合的变化而变化的值。因此，距离阈值和数量阈值是相对变化的值，基于这两个阈值中至少一个阈值最终划分得到的类别关系更准确，更能体现各个特征向量之间的关联性，提升聚类算法的适应性。

值得说明的是，在该第二种可选方式中，分析设备还可以向管理设备发送类别关系，管理设备可以按照类别关系，呈现第一特征向量集合对应的时间序列。例如，管理设备可以将属于同一类别的多个时间序列在同一用户页面显示，将属于不同类别的多个时间序列在不同用户页面显示；又例如，管理设备可以将属于不同类别的多个时间序列在同一用户页面的不同位置显示；再例如，管理设备将每个时间序列与其所属类别对应显示。管理设备可以按照类别关系，呈现第一特征向量集合对应的时间序列，可以供专业人员在标注时参考该类别关系，起到辅助专业人员进行标签标注的作用。基于此，专业人员可以对属于同一类别的时间序列标注同一标签，提高标注效率，增加标签标注的准确性。

在另一种可选的实现方式中，可以采用共享最近邻(Shared Nearest Neighbor，SNN)算法进行聚类处理。相对于前述可选的实现方式所提供的聚类处理过程，采用SNN算法进行聚类处理的聚类阈值和数量阈值是预先设定的。

在再一种可选的实现方式，还可以采用其他聚类算法进行聚类处理。例如采用基于神经网络模型的聚类算法进行聚类处理。本申请实施例对聚类处理所采用的算法不进行限定。

示例的，表2假设对样本数据ID为KPI_2的特征向量进行聚类处理，该特征向量对应的时间序列为(z1,z2,……,zn)，该特征向量包括4个特征的数据，该4个特征的数据分别为：Moving_average、Weighted_mv、Tsd_seasonal和周期yoy。该参考特征向量对应的时间序列为(z1,z2,……,zn)，对应的类别标识为“1”。

表2

步骤309、接收管理设备发送的第一特征向量集合对应的时间序列的标签。

专业人员对该时间序列的标签进行标注后，管理设备接收标注的标签，并将该标签发送至分析设备，分析设备接收该标签，并将该标签与相应的时间序列对应保存。

综上所述，本申请实施例提供的标签确定方法，基于时间序列的特征向量的相似度进行标签的迁移，能够实现样本数据的自动标注，降低标签的确定成本。并且由于相似度计算与时间序列的特征向量相关，避免了时间序列自身所具有的干扰信息的影响，例如能够降低采样时段、幅度变化、象限漂移和噪声等干扰信息的影响。提高了标签确定的准确性。尤其在高维时间序列中仍然能够准确地进行标签迁移。将本申请实施例提供的标签确定方法应用于监督式学习算法或半监督式学习算法等需要大量标注的样本数据的场景中，能够有效降低标注成本，提高机器学习模型的建模效率。

传统的标签确定方法，虽然基于时间序列的波形相似度进行标签迁移，对于一些时间序列本身波形不相似的情况，无法进行标签迁移。

而本申请实施例提供的标签确定方法，由于采用特征向量的相似度进行标签迁移，不局限于波形相似的时间序列的标签迁移，只要保证在某些特征维度上相似即可进行标签迁移，由此可知，本申请实施例可以适用于波形不同的时间序列的标签迁移。因此可以扩大标签泛化的场景，提升标签迁移的灵活性和利用率，降低机器学习模型的建模成本。尤其在异常检测场景中，可以实现某些相似特征的KPI间的标签迁移。

本申请实施例提供的用于实现模型训练的方法的步骤先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，例如，前述步骤306可以与其他步骤并行执行。又例如，分析设备具有输入输出接口(如用户界面)，其通过输入输出接口呈现第一时间序列，并接收第一时间序列的标签，无需执行步骤304和305中与管理设备的交互过程；或者，分析设备通过输入输出接口呈现第一特征向量对应的时间序列以及第二特征向量对应的时间序列，并接收第一特征向量对应的时间序列以及第二特征向量对应的时间序列的相同的标签，无需执行步骤3065和3066中与管理设备的交互过程；或者，分析设备通过输入输出接口呈现第三特征向量对应的时间序列以及第四特征向量对应的时间序列，并接收第三特征向量对应的时间序列以及第四特征向量对应的时间序列的相同的标签，无需执行步骤A5和A6中与管理设备的交互过程；或者，分析设备通过输入输出接口呈现第一特征向量集合对应的时间序列，并接收第一特征向量集合对应的时间序列的标签，无需执行上述步骤308和309中与管理设备的交互过程。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

本申请实施例提供一种标签确定装置80，如图8所示，所述装置包括：

第一获取模块801，用于获取第一时间序列的目标特征向量，时间序列为按照时序排列的一组数据的集合；

第二获取模块802，用于获取所述目标特征向量与参考特征向量集合中参考特征向量的相似度，所述参考特征向量为已确定标签的第二时间序列的特征向量；

确定模块803，用于当所述目标特征向量与第一参考特征向量的相似度大于相似度阈值时，将所述第一参考特征向量所对应的标签确定为所述第一时间序列的标签，所述第一参考特征向量为所述参考特征向量集合中的一个参考特征向量。

综上所述，本申请实施例提供的标签确定装置，第二获取模块基于时间序列的特征向量的相似度进行标签的迁移，能够实现样本数据的自动标注，降低标签的确定成本。并且由于相似度计算与时间序列的特征向量相关，避免了时间序列自身所具有的干扰信息的影响，例如能够降低采样时段、幅度变化、象限漂移和噪声等干扰信息的影响。提高了标签确定的准确性。尤其在高维时间序列中仍然能够准确地进行标签迁移。将本申请实施例提供的标签确定装置应用于监督式学习算法或半监督式学习算法等需要大量标注的样本数据的场景中，能够有效降低标注成本，提高机器学习模型的建模效率。

可选地，所述第一时间序列为网络关键绩效指标KPI的时间序列。

可选地，所述参考特征向量包括一个或多个特征的数据，所述目标特征向量包括一个或多个特征的数据，

所述目标特征向量与所述第一参考特征向量的相似度为第一子特征向量和第二子特征向量的相似度，所述第一子特征向量和所述第二子特征向量分别由所述目标特征向量和所述第一参考特征向量中对应相同特征的数据组成。

可选地，所述第一子特征向量和所述第二子特征向量均以序列形式表征，所述第一子特征向量和所述第二子特征向量中相同位置的数据对应同一类别的特征，所述第一子特征向量和所述第二子特征向量的相似度，与所述第一子特征向量和所述第二子特征向量的距离负相关。

在一种可选方式中，如图9所示，所述装置80还包括：

第一发送模块804，用于当所述目标特征向量与所述参考特征向量集合中每个参考特征向量的相似度均不大于所述相似度阈值时，向管理设备发送所述第一时间序列，以供所述管理设备呈现所述第一时间序列；

第一接收模块805，用于接收所述管理设备发送的所述第一时间序列的标签。

在另一种可选方式中，如图10所示，所述装置80还包括：

第三获取模块806，用于获取第一特征向量集合，所述第一特征向量集合中的任一特征向量与所述参考特征向量集合中每个参考特征向量的相似度均不大于所述相似度阈值，且所述任一特征向量对应的时间序列的标签未确定；

第二发送模块807，用于向管理设备发送所述第一特征向量集合对应的时间序列，以供所述管理设备呈现所述第一特征向量集合对应的时间序列；

第二接收模块808，用于接收所述管理设备发送的所述第一特征向量集合对应的时间序列的标签。

可选地，如图11所示，在图10所示的基础上，所述装置80还包括：

聚类模块809，同于在所述向管理设备发送所述第一特征向量集合对应的时间序列之前，对所述第一特征向量集合中的特征向量进行聚类处理，得到所述第一特征向量集合中特征向量的类别关系；

所述第二发送模块807，用于：

向所述管理设备发送所述类别关系以及所述第一特征向量集合对应的时间序列，以供所述管理设备按照所述类别关系，呈现所述第一特征向量集合对应的时间序列。

可选地，所述聚类模块809，用于：

基于统计结果，将相同的近邻向量的数量大于数量阈值的每两个特征向量划分为同一类特征向量，所述数量阈值为在所述第一特征向量集合中各个特征向量的近邻向量的数量中指定的数量。

可选地，如图12所示，所述装置80还包括：

第四获取模块810，用于获取已确定标签的第三时间序列的第一特征向量；

第五获取模块811，用于获取所述第一特征向量与所述参考特征向量集合中参考特征向量的相似度；

第一添加模块812，用于当所述第一特征向量与所述参考特征向量集合中每个参考特征向量的相似度均不大于入库相似度阈值，将所述第一特征向量作为参考特征向量添加至所述参考特征集合中。

在一种可选实现方式中，如图13所示，在图12所示的基础上，所述装置80还包括：

第二添加模块813，用于当所述第一特征向量与所述参考特征向量集合中的第二特征向量的相似度大于所述入库相似度阈值，且所述第一特征向量对应的标签与所述第二特征向量对应的标签相同时，将所述第一特征向量作为参考特征向量添加至所述参考特征集合中。

在另一种可选实现方式中，如图14所示，在图12所示的基础上，所述装置80还包括：

第三发送模块814，用于当所述第一特征向量与所述参考特征向量集合中的第二特征向量的相似度大于所述入库相似度阈值，且所述第一特征向量对应的标签与所述第二特征向量对应的标签不同时，向管理设备发送所述第一特征向量对应的时间序列以及所述第二特征向量对应的时间序列，以供所述管理设备呈现所述第一特征向量对应的时间序列以及所述第二特征向量对应的时间序列；

第三接收模块815，用于接收所述管理设备发送的所述第一特征向量对应的时间序列以及所述第二特征向量对应的时间序列的相同的标签；

更新模块816，用于基于接收的标签，更新预先存储的所述第一特征向量对应的时间序列的标签以及所述第二特征向量对应的时间序列的标签；

第三添加模块817，用于将所述第一特征向量作为参考特征向量添加至所述参考特征集合中。

可选地，所述装置应用于网络分析器，所述参考特征向量对应的标签为异常检测标签。

图15是本申请实施例提供的一种标签确定装置的框图。该标签确定装置可以是分析设备。如图15所示，分析设备150包括：处理器1501和存储器1502。

存储器1501，用于存储计算机程序，计算机程序包括程序指令；

处理器1502，用于调用计算机程序，实现本申请实施例提供的标签确定方法。

可选地，该网络设备150还包括通信总线1503和通信接口1504。

其中，处理器1501包括一个或者一个以上处理核心，处理器1501通过运行计算机程序，从而执行各种功能应用以及数据处理。

存储器1502可用于存储计算机程序。可选地，存储器可存储操作系统和至少一个功能所需的应用程序单元。操作系统可以是实时操作系统(Real Time eXecutive，RTX)、LINUX、UNIX、WINDOWS或OS X之类的操作系统。

通信接口1504可以为多个，通信接口1504用于与其它存储设备或网络设备进行通信。例如在本申请实施例中，通信接口1504可以用于接收通信网络中的网络设备发送的样本数据。

存储器1502与通信接口1504分别通过通信总线1503与处理器1501连接。

本申请实施例提供了一种计算机存储介质，计算机存储介质上存储有指令，当指令被处理器执行时，实现本申请实施例提供的标签确定方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机的可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质，或者半导体介质(例如固态硬盘)等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种标签确定方法，其特征在于，所述方法包括：

获取第一时间序列的目标特征向量；

获取所述目标特征向量与参考特征向量集合中参考特征向量的相似度，所述参考特征向量为已确定标签的第二时间序列的特征向量；

当所述目标特征向量与第一参考特征向量的相似度大于相似度阈值时，将所述第一参考特征向量所对应的标签确定为所述第一时间序列的标签，所述第一参考特征向量为所述参考特征向量集合中的一个参考特征向量。
根据权利要求1所述的方法，其特征在于，所述第一时间序列为网络关键绩效指标KPI的时间序列。
根据权利要求1或2所述的方法，其特征在于，所述参考特征向量包括一个或多个特征的数据，所述目标特征向量包括一个或多个特征的数据，

所述目标特征向量与所述第一参考特征向量的相似度为第一子特征向量和第二子特征向量的相似度，所述第一子特征向量和所述第二子特征向量分别由所述目标特征向量和所述第一参考特征向量中对应相同特征的数据组成。
根据权利要求3所述的方法，其特征在于，所述第一子特征向量和所述第二子特征向量的相似度，与所述第一子特征向量和所述第二子特征向量的距离负相关。
根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

当所述目标特征向量与所述参考特征向量集合中每个参考特征向量的相似度均不大于所述相似度阈值时，向管理设备发送所述第一时间序列，以供所述管理设备呈现所述第一时间序列；

接收所述管理设备发送的所述第一时间序列的标签。
根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

获取第一特征向量集合，所述第一特征向量集合中的任一特征向量与所述参考特征向量集合中每个参考特征向量的相似度均不大于所述相似度阈值，且所述任一特征向量对应的时间序列的标签未确定；

向管理设备发送所述第一特征向量集合对应的时间序列，以供所述管理设备呈现所述第一特征向量集合对应的时间序列；

接收所述管理设备发送的所述第一特征向量集合对应的时间序列的标签。
根据权利要求6所述的方法，其特征在于，在所述向管理设备发送所述第一特征向量集合对应的时间序列之前，所述方法还包括：

对所述第一特征向量集合中的特征向量进行聚类处理，得到所述第一特征向量集合中特征向量的类别关系；

所述向管理设备发送所述第一特征向量集合对应的时间序列，以供所述管理设备呈现所述第一特征向量集合对应的时间序列，包括：

向所述管理设备发送所述类别关系以及所述第一特征向量集合对应的时间序列，以供所述管理设备按照所述类别关系，呈现所述第一特征向量集合对应的时间序列。
根据权利要求7所述的方法，其特征在于，所述对所述第一特征向量集合中的特征向量进行聚类处理，包括：

基于所述第一特征向量集合中每两个特征向量的距离，统计每个所述特征向量的近邻向量，所述第一特征向量集合中任一特征向量的近邻向量为所述第一特征向量集合中与所述任一特征向量的距离小于距离阈值的其他特征向量，所述距离阈值为在基于所述第一特征向量集合确定的多个距离中指定的距离；

基于统计结果，将相同的近邻向量的数量大于数量阈值的每两个特征向量划分为同一类特征向量。
根据权利要求1至8任一所述的方法，其特征在于，所述方法还包括：

获取已确定标签的第三时间序列的第一特征向量；

获取所述第一特征向量与所述参考特征向量集合中参考特征向量的相似度；

当所述第一特征向量与所述参考特征向量集合中每个参考特征向量的相似度均不大于入库相似度阈值，将所述第一特征向量作为参考特征向量添加至所述参考特征集合中。
根据权利要求9所述的方法，其特征在于，所述方法还包括：

当所述第一特征向量与所述参考特征向量集合中的第二特征向量的相似度大于所述入库相似度阈值，且所述第一特征向量对应的标签与所述第二特征向量对应的标签相同时，将所述第一特征向量作为参考特征向量添加至所述参考特征集合中。
根据权利要求9所述的方法，其特征在于，所述方法还包括：

当所述第一特征向量与所述参考特征向量集合中的第二特征向量的相似度大于所述入库相似度阈值，且所述第一特征向量对应的标签与所述第二特征向量对应的标签不同时，向管理设备发送所述第一特征向量对应的时间序列以及所述第二特征向量对应的时间序列，以供所述管理设备呈现所述第一特征向量对应的时间序列以及所述第二特征向量对应的时间序列；

接收所述管理设备发送的所述第一特征向量对应的时间序列以及所述第二特征向量对应的时间序列的相同的标签；

基于接收的标签，更新预先存储的所述第一特征向量对应的时间序列的标签以及所述第二特征向量对应的时间序列的标签；

将所述第一特征向量作为参考特征向量添加至所述参考特征集合中。
根据权利要求1至11任一所述的方法，其特征在于，所述目标特征向量和所述参考特征向量均包括统计特征、拟合特征或频域特征中的一种或多种特征的数据。
根据权利要求1至12任一所述的方法，其特征在于，所述方法应用于网络分析器，所述参考特征向量对应的标签为异常检测标签。
一种标签确定装置，其特征在于，所述装置包括：

第一获取模块，用于获取第一时间序列的目标特征向量，时间序列为按照时序排列的一组数据的集合；

第二获取模块，用于获取所述目标特征向量与参考特征向量集合中参考特征向量的相似度，所述参考特征向量为已确定标签的第二时间序列的特征向量；

确定模块，用于当所述目标特征向量与第一参考特征向量的相似度大于相似度阈值时，将所述第一参考特征向量所对应的标签确定为所述第一时间序列的标签，所述第一参考特征向量为所述参考特征向量集合中的一个参考特征向量。
根据权利要求14所述的装置，其特征在于，所述第一时间序列为网络关键绩效指标KPI的时间序列。
根据权利要求14或15所述的装置，其特征在于，所述参考特征向量包括一个或多个特征的数据，所述目标特征向量包括一个或多个特征的数据，

所述目标特征向量与所述第一参考特征向量的相似度为第一子特征向量和第二子特征向量的相似度，所述第一子特征向量和所述第二子特征向量分别由所述目标特征向量和所述第一参考特征向量中对应相同特征的数据组成。
根据权利要求16所述的装置，其特征在于，所述第一子特征向量和所述第二子特征向量均以序列形式表征，所述第一子特征向量和所述第二子特征向量中相同位置的数据对应同一类别的特征，所述第一子特征向量和所述第二子特征向量的相似度，与所述第一子特征向量和所述第二子特征向量的距离负相关。
根据权利要求14至17任一所述的装置，其特征在于，所述装置还包括：

第一发送模块，用于当所述目标特征向量与所述参考特征向量集合中每个参考特征向量的相似度均不大于所述相似度阈值时，向管理设备发送所述第一时间序列，以供所述管理设备呈现所述第一时间序列；

第一接收模块，用于接收所述管理设备发送的所述第一时间序列的标签。
根据权利要求14至17任一所述的装置，其特征在于，所述装置还包括：

第三获取模块，用于获取第一特征向量集合，所述第一特征向量集合中的任一特征向量与所述参考特征向量集合中每个参考特征向量的相似度均不大于所述相似度阈值，且所述任一特征向量对应的时间序列的标签未确定；

第二发送模块，用于向管理设备发送所述第一特征向量集合对应的时间序列，以供所述管理设备呈现所述第一特征向量集合对应的时间序列；

第二接收模块，用于接收所述管理设备发送的所述第一特征向量集合对应的时间序列的标签。
根据权利要求19所述的装置，其特征在于，所述装置还包括：

聚类模块，同于在所述向管理设备发送所述第一特征向量集合对应的时间序列之前，对所述第一特征向量集合中的特征向量进行聚类处理，得到所述第一特征向量集合中特征向量的类别关系；

所述第二发送模块，用于：

向所述管理设备发送所述类别关系以及所述第一特征向量集合对应的时间序列，以供所述管理设备按照所述类别关系，呈现所述第一特征向量集合对应的时间序列。
根据权利要求20所述的装置，其特征在于，所述聚类模块，用于：

基于所述第一特征向量集合中每两个特征向量的距离，统计每个所述特征向量的近邻向量，所述第一特征向量集合中任一特征向量的近邻向量为所述第一特征向量集合中与所述任一特征向量的距离小于距离阈值的其他特征向量，所述距离阈值为在基于所述第一特征向量集合确定的多个距离中指定的距离；

基于统计结果，将相同的近邻向量的数量大于数量阈值的每两个特征向量划分为同一类特征向量，所述数量阈值为在所述第一特征向量集合中各个特征向量的近邻向量的数量中指定的数量。
根据权利要求14至21任一所述的装置，其特征在于，所述装置还包括：

第四获取模块，用于获取已确定标签的第三时间序列的第一特征向量；

第五获取模块，用于获取所述第一特征向量与所述参考特征向量集合中参考特征向量的相似度；

第一添加模块，用于当所述第一特征向量与所述参考特征向量集合中每个参考特征向量的相似度均不大于入库相似度阈值，将所述第一特征向量作为参考特征向量添加至所述参考特征集合中。
根据权利要求22所述的装置，其特征在于，所述装置还包括：

第二添加模块，用于当所述第一特征向量与所述参考特征向量集合中的第二特征向量的相似度大于所述入库相似度阈值，且所述第一特征向量对应的标签与所述第二特征向量对应的标签相同时，将所述第一特征向量作为参考特征向量添加至所述参考特征集合中。
根据权利要求22所述的装置，其特征在于，所述装置还包括：

第三发送模块，用于当所述第一特征向量与所述参考特征向量集合中的第二特征向量的相似度大于所述入库相似度阈值，且所述第一特征向量对应的标签与所述第二特征向量对应的标签不同时，向管理设备发送所述第一特征向量对应的时间序列以及所述第二特征向量对应的时间序列，以供所述管理设备呈现所述第一特征向量对应的时间序列以及所述第二特征向量对应的时间序列；

第三接收模块，用于接收所述管理设备发送的所述第一特征向量对应的时间序列以及所述第二特征向量对应的时间序列的相同的标签；

更新模块，用于基于接收的标签，更新预先存储的所述第一特征向量对应的时间序列的标签以及所述第二特征向量对应的时间序列的标签；

第三添加模块，用于将所述第一特征向量作为参考特征向量添加至所述参考特征集合中。
根据权利要求14至24任一所述的装置，其特征在于，所述目标特征向量和所述参考特征向量均包括统计特征、拟合特征或频域特征中的一种或多种特征的数据。
根据权利要求14至25任一所述的装置，其特征在于，所述装置应用于网络分析器，所述参考特征向量对应的标签为异常检测标签。
一种标签确定装置，其特征在于，包括：处理器和存储器；

所述存储器，用于存储计算机程序，所述计算机程序包括程序指令；

所述处理器，用于调用所述计算机程序，实现如权利要求1至13任一所述的标签确定方法。
一种计算机存储介质，其特征在于，所述计算机存储介质上存储有指令，当所述指令被处理器执行时，实现如权利要求1至13任一所述的标签确定方法。