WO2021139249A1

WO2021139249A1 - 数据异常检测方法、装置、设备及存储介质

Info

Publication number: WO2021139249A1
Application number: PCT/CN2020/118524
Authority: WO
Inventors: 邓悦; 郑立颖; 徐亮
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-05-28
Filing date: 2020-09-28
Publication date: 2021-07-15
Also published as: CN111813618A

Abstract

一种数据异常检测方法、装置、设备及存储介质，涉及大数据领域，该方法包括：获取未标记数据（S1）；根据预设的查询策略从所述未标记数据中提取出初级异常数据（S2）；将所述初级异常数据进行识别标记后存入已标记的第一数据集合中组成第二数据集合，并通过所述第二数据集合对预先训练的超球体分类模型进行训练（S3）；识别所述超球体分类模型是否达到训练终止条件（S4）；当达到所述训练终止条件，将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选，以得到目标异常数据（S5）。该方法利用少量已标记数据训练分类模型，达到训练终止条件后利用该分类模型对未标记数据进行分类，对数据的原始分布没有限制，减少了运营人员需要标记的数据量，分类结果准确度高。

Description

数据异常检测方法、装置、设备及存储介质

本申请要求于2020年05月28日提交中国专利局、申请号为202010468770.4，发明名称为“数据异常检测方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能中的数据处理技术领域，具体涉及一种数据异常检测方法、装置、设备及存储介质。

背景技术

对计算机系统的监控是智能运营(AIOps)的一个重要组成部分，在对计算机系统进行监控的过程中，计算机系统的CPU、磁盘等均会产生大量指标数据，其中也会包含部分异常值。通过对异常点的分支可以找出系统异常的原因，可以对后续的运营提供建议。因此异常检测技术在智能运营领域中发挥着重大作用。

传统的异常检测包括基于统计的方法和基于密度的方法。

基于统计的方法往往是通过对大量已标记数据进行训练，从中找出疑似的异常点，属于有监督学习。由以往的经验可知，有监督学习在异常检测的实际应用中存在以下问题：

1.程序运行过程中产生的海量数据大多数未经标记，而数据标记往往需要专业人士来进行，因此想要获得足够的数据标签需要耗费大量的人力、物力和财力。

2.异常数据所占比重较小，从大量数据中找到潜在的异常点及其对应分类也较为繁琐。

基于密度的方法属于无监督学习，无需数据标记即可完成，但检测准确率通常不高，对于分类结果缺乏理论支持。

技术问题

本申请的目的是提供一种数据异常检测方法、装置、设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

技术解决方案

根据本申请实施例的一个方面，提供一种数据异常检测方法，包括：

获取未标记数据；

根据预设的查询策略从所述未标记数据中提取出初级异常数据，其中，所述初级异常数据为通过查询策略筛选出的所述未标记数据中达到预设条件的数据；

将所述初级异常数据进行识别标记后存入已标记的第一数据集合中组成第二数据集合，并通过所述第二数据集合对预先训练的超球体分类模型进行训练，其中，所述超球体分类模型为可对当前已标记的数据，在高维空间中拟合一个涵盖大多数样本值的超球体，以超球体表面为界识别异常数据与正常数据的分类模型；

识别所述超球体分类模型是否达到训练终止条件；

当达到所述训练终止条件，将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选，以得到目标异常数据。

进一步地，所述超球体分类模型的训练方法包括：

对异常数据和正常数据分别设置不同的惩罚系数以生成损失函数，其中，所述惩罚系数为在预设预置内的常数；

设置约束条件后计算得到所述超球体分类模型中表征超球体中心位置的球心值和表征超球体球心值与超球体表面之间距离的半径值；

根据所述球心值和所述半径值生成识别正常值与异常值的决策函数。

进一步地，所述当达到所述训练终止条件，将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选，以得到目标异常数据，包括：

将所述未标记数据分别代入所述决策函数中以生成决策结果值；

判断所述决策结果值是否大于或等于零；

当大于或等于零，则输出该未标记数据，并标记为目标异常数据。

进一步地，所述查询策略基于上述预先训练好的超球体分类模型筛选初级异常数据，所述预设条件为距离所述超球体分类模型的超球体表面的加权距离值最小。

进一步地，所述根据预设的查询策略从所述未标记数据中提取出初级异常数据，包括：

将所述未标记数据带入所述决策函数中并取绝对值得到最近球面距离；

计算所述未标记数据之间的距离值取最小值作为最近邻样本距离；

将所述最近球面距离与所述最近邻样本距离归一化处理，并以预设系数进行加权得到各个所述未标记数据的加权距离值。

进一步地，所述最近球面距离归一化处理的方法包括：

从所有所述未标记数据的最近球面距离中选出数值最小的第一最小值和数值最大的第一最大值；

用每个所述未标记数据的最近球面距离与所述第一最小值之差除以所述第一最大值，得到所有所述未标记数据对应的归一化最近球面距离。

进一步地，所述最近邻样本距离归一化处理的方法包括：

从所有未标记数据的最近邻样本距离中选取数值最小的第二最小值和数值最大的第二最大值；

分别计算每个所述未标记数据与所述第二最小值之差，再用这些差值除以所述第二最大值，得到所有未标记数据的归一化最近邻样本距离。

根据本申请实施例的另一个方面，提供一种数据异常检测装置，包括：

获取模块：被配置为执行获取未标记数据；

查询模块：被配置为执行根据预设的查询策略从所述未标记数据中提取出初级异常数据，其中，所述初级异常数据为通过查询策略筛选出的所述未标记数据中达到预设条件的数据；训练模块：被配置为执行将所述初级异常数据进行识别标记后存入已标记的第一数据集合中组成第二数据集合，并通过所述第二数据集合对预先训练的超球体分类模型进行训练，其中，所述超球体分类模型为可对当前已标记的数据，在高维空间中拟合一个涵盖大多数样本值的超球体，以超球体表面为界识别异常数据与正常数据的分类模型；

识别模块：被配置为执行识别所述超球体分类模型是否达到训练终止条件；

结果输出模块：被配置为执行当达到所述训练终止条件，将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选，以得到目标异常数据。

根据本申请实施例的另一个方面，提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现数据异常检测方法的步骤：

获取未标记数据；

识别所述超球体分类模型是否达到训练终止条件；

根据本申请实施例的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现数据异常检测方法的步骤：

获取未标记数据；

识别所述超球体分类模型是否达到训练终止条件；

有益效果

本申请实施例提供的数据异常检测方法，利用少量已标记数据训练超球体分类模型，达到训练终止条件后利用该超球体分类模型对未标记数据进行分类，否则用更新的已标记数据继续训练超球体分类模型；该方法将无监督与有监督方法相结合，利用少量已标记数据训练的超球体分类模型对数据的原始分布没有限制，使用范围更广，基于边界距离与样本密度的查询策略能较为精准的找出最有价值的数据并且减少噪声的影响，大大减少了运营人员需要标记的数据量，既保证了超球体分类模型的分类精度，又节约了人工智能运营的成本，更适用于实际业界场景，便于大规模部署。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请的一个实施例的数据异常检测方法的流程图；

图2示出了本申请一实施例的根据预设的查询策略从所述未标记数据中提取出初级异常数据所包括的步骤流程图；

图3示出了本申请一实施例的最近球面距离归一化处理的方法流程图；

图4示出了本申请一实施例的最近邻样本距离归一化处理的方法流程图；

图5示出了本申请的一个实施例的超球体分类模型的训练方法流程图；

图6示出了本申请一实施例的将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选以得到目标异常数据所包括的步骤流程图；

图7示出了本申请的一个实施例的数据异常检测装置的结构框图；

图8示出了本申请的一个实施例的计算机设备的硬件架构示意图；

图9示出了本申请另一实施例的数据异常检测方法的流程图。

本发明的最佳实施方式

如图1所示，本申请的一个实施例提供了一种数据异常检测方法，包括：

S1、获取未标记数据。

实际智能运营过程中，计算机系统产生的数据往往是不平衡的，绝大部分数据属于正常数据，因此可以将运营过程的异常数据检测视为单分类问题。考虑到计算机系统的监控指标数据分布于高维空间中，因此训练的分类模型需要具备区分高维空间数据正常与否的能力。计算机系统产生的数据分为已标记数据和未标记数据，将已标记数据划分到已标记数据集中，将未标记数据划分到未标记数据集中。分类模型也可以称为分类器。

例如，某实施方式中的计算机系统的监控指标数据如表1所示：

表1系统监控指标数据

S2、根据预设的查询策略从所述未标记数据中提取出初级异常数据，其中，所述初级异常数据为通过查询策略筛选出的所述未标记数据中达到预设条件的数据。

考虑到运营人员精力有限而未标记数据较多，无法将其逐一标记，故使用查询策略决定选取哪些未标记数据交由运营人员进行标记。

所述查询策略基于上述预先训练好的超球体分类模型筛选初级异常数据，所述预设条件为距离所述超球体分类模型的超球体表面的加权距离值最小。

在某些实施方式中，如图2所示，步骤S2包括：

S21、将所述未标记数据带入所述决策函数中并取绝对值得到最近球面距离；

S22、计算所述未标记数据之间的距离值取最小值作为最近邻样本距离；

S23、将所述最近球面距离与所述最近邻样本距离归一化处理，并以预设系数进行加权得到各个所述未标记数据的加权距离值。

由于分类模型中的超球体分类模型表面是区分指标数据正常与否的关键，也是高维空间中最不确定的区域。因此，采用数据x到超球体分类模型表面的距离作为衡量标准，记作最近球面距离|f(x)|。

除此之外，考虑到超球体分类模型表面经过的区域数据分布越集中，其数据代表性越高。因此选择数据与其最近的一个数据之间的距离来衡量分布密度，记作最近邻样本距离d(x，NN ₁(x))。分布密度越大，最近邻样本距离越小。因此，若两点与边界距离相同的情况下，优先选择附近密度较大(即最近邻样本距离最小)的样本。

故查询策略每次选取加权距离最小的数据。加权距离最小的数据即为最具代表性的数据，也即初级异常数据。

如图3所示，最近球面距离归一化处理的方法包括：

S231、从所有所述未标记数据的最近球面距离中选出数值最小的第一最小值和数值最大的第一最大值；

S232、用每个所述未标记数据的最近球面距离与所述第一最小值之差除以所述第一最大值，得到所有所述未标记数据对应的归一化最近球面距离。

实际操作过程中，计算所有未标记数据的归一化最近球面距离时，先分别将所有未标记数据代入决策函数f(x)＝||x-a||-R中并取绝对值，得到各未标记数据的最近球面距离|f(x)|，从所有|f(x)|中取出最小值和最大值，分别记为

U代表未标记数据集，当x＝x1时，|f(x)|取得最小值，当x＝x2时，|f(x)|取得最大值。决策函数f(x)＝||x-a||-R所代表的含义为数据x与圆心a的距离与半径R之差。数据与分类模型的球心之间的距离可以称为对应于该数据的至球心距离。

用每个|f(x)|减去最小值后除以最大值，得到所有数据的归一化最近球面距离

如图4所示，最近邻样本距离归一化处理的方法包括：

S231’、从所有未标记数据的最近邻样本距离中选取数值最小的第二最小值和数值最大的第二最大值；

S232’、分别计算每个所述未标记数据与所述第二最小值之差，再用这些差值除以所述第二最大值，得到所有未标记数据的归一化最近邻样本距离。

具体地，计算所有未标记数据的归一化最近邻样本距离时，针对每个数据x，计算该数据x到其他所有数据之间的距离，取距离最小值记作最近邻样本距离，找到数据x最近邻的点记作d(x，NN ₁(x))。取所有数据的最近邻样本距离中的最小值以及最大值，分别记作

U代表未标记数据集，当x＝x3时，d(x,NN1(x))取得最小值，当x＝x4时，d(x,NN1(x))取得最大值。

再进行归一化操作，分别用每个数据的最近邻数据减去所有最近邻样本距离中的最小值，得到一个差，再用该差除以所有最近邻样本距离中的最大值，得到所有数据的归一化最近邻样本距离

将每一未标记数据的归一化后的最近球面距离与归一化后的最近邻样本距离分别以0.5为系数进行加权，即可得到对应的加权距离为：

将所有数据的加权距离按照从小到大的顺序排列，取前五个数据如下：

表2未标记数据的加权距离前五

S3、将所述初级异常数据进行识别标记后存入已标记的第一数据集合中组成第二数据集合，并通过所述第二数据集合对预先训练的超球体分类模型进行训练，其中，所述超球体分类模型为可对当前已标记的数据，在高维空间中拟合一个涵盖大多数样本值的超球体，以超球体表面为界识别异常数据与正常数据的分类模型。

识别所述初级异常数据并进行标记，得到新已标记数据。

通过计算机或者人工识别所述初级异常数据为正常数据或异常数据，并根据识别结果对所述初级异常数据进行标记，将标记后的初级异常数据作为新已标记数据。接收对该最具代表性的未标记数据的判定标记，得到新的已标记数据，即新已标记数据。

因此，根据查询策略的规则，选取加权距离最小的未标记数据x107048，交给AI运营人员进行判定标注，得到新的已标记数据。

可以通过人工判定或者通过计算机判定该最具代表性的未标记数据属于正常数据还是异常数据，并对该最具代表性的未标记数据进行标记，该最具代表性的未标记数据即得到判定标记，变成新的已标记数据。

将所述新已标记数据加入所述已标记数据集中，得到更新的已标记数据集。

将所述初级异常数据进行识别标记后得到的次级异常数据存入已标记的第一数据集合中组成第二数据集合。已标记的第一数据集合即已标记数据集。第二数据集合为将初级异常数据存入已标记数据集之后得到的更新的已标记数据集。

将新的已标记数据加入已标记数据集，从而更新已标记数据集。本实施例中将标记后的x107048加入已标记数据集中。

利用所述更新的已标记数据集中的已标记数据训练所述超球体分类模型。

通过所述第二数据集合对预先训练的超球体分类模型进行训练。其中，所述超球体分类模型为可对当前已标记的数据在高维空间中拟合一个涵盖大多数样本值的超球体，以超球体表面为界识别异常数据与正常数据的分类模型。

在某些实施方式中，如图5所示，超球体分类模型的训练方法包括：

S31、对异常数据和正常数据分别设置不同的惩罚系数以生成损失函数，其中，所述惩罚系数为在预设预置内的常数；

S32、设置约束条件后计算得到所述超球体分类模型中表征超球体中心位置的球心值和表征超球体球心值与超球体表面之间距离的半径值；

S33、根据所述球心值和所述半径值生成识别正常值与异常值的决策函数。

在某些实施方式中，利用已标记数据集中的已标记数据训练超球体分类模型，包括：针对当前的已标记数据集中的已标记数据，在高维空间中拟合一个超球体模型，该超球体模型包含有若干已标记数据，该超球体模型所包含的已标记数据的数量满足预设条件；该预设条件可以根据实际需要进行设定，例如可以为位于超球体模型表面及超球体模型内的已标记数据的数量最多，或者位于超球体模型表面及超球体模型内的已标记数据的数量占比达到预设阈值等等；确定所述超球体模型的圆心和半径，从而得到用于以所述超球体模型的表面为分界面对数据进行分类的超球体分类模型；以该超球体分类模型表面为界，位于超球体分类模型表面和超球体分类模型内的数据为正常数据，位于超球体分类模型以外的数据是异常数据(分类边界即超球体分类模型的表面)，而无需考虑已标记数据的原始分布情况。

确定超球体分类模型的圆心和半径，需要利用损失函数和约束条件进行求解。由于已标记数据中正常数据数量众多而异常数据较少，在构建分类模型的损失函数时，对正常数据和异常数据设置不同的惩罚系数进行区分，以提高异常数据对分类模型的影响力度。故构建的损失函数如下：

约束条件为：

||x _i-a|| ²≤R ²+ξ _i， i:x _i∈L _in

||x _j-a|| ²≤R ²-ξ _j， j：x _j∈L _out

ξ _i，ξ _j≥0

其中，a是球心，R为超球体模型的半径，ξi，ξj是松弛变量，xi,xj是已标记数据，Lin是已标记的正常数据集合，i和j为用于标记不同数据的数字，Lout是已标记的异常数据集合，惩罚系数C1、C2是常数，范围在0到1之间。

上述问题为非凸优化问题，拉格朗日乘子方法无法找到全局最优解。为解决上述问题，将包含松弛变量的约束条件以风险函数的形式表示，从而将上式表示的问题转化为无约束最优化问题，如下：

ξ _i＝l(R ²-||φ(x _i)-a|| ²)

ξ _j＝l(||φ(x _j)-a|| ²-R ²)

φ(x)为变换映射函数，用于将原始数据x经过特征变换后映射到新的特征空间中；

l(t)为风险函数，风险函数l(t)的函数值取值为max{-t,0}；为了将风险函数l(t)中与样本无关的变量进行合并，以便于求解，令T＝R ²-a ²，得到最优化目标：

然而当采用风险函数l(t)时，函数二阶导数不存在，从而无法应用梯度法求解，为此采用如下风险函数l(t)：

其中常数ε的作用是约束t的取值，使得风险函数l(t)在一个较小的范围内可以进行二阶求导，同时与初始风险函数数值相差较小。此处，根据实际经验，令ε＝0.5，将风险函数l(t)代入最优化目标表达式，得到

其中，矩阵K的元素k _ij＝k(x _i,x _j)＝<φ(x _i),φ(x _j)>＝(x _ix _j),e _i表示矩阵R ^n+m的标准基，利用对偶形式求解，忽略常数项，化简得到损失函数：

i，j：x _i，x _j∈L _in， l，m：x _l，x _m∈L _out

(xixj)代表的含义是第i个样本与第j个样本向量内积。

将约束条件的两个不等式进行化简后得到：

ξ _i≥‖x _i-a‖ ²-R ², i:x _i∈L _in

ξ _j≤R ²-||x _j-a|| ², j:x _j∈L _out

用ξ _i,ξ _j分别乘以拉格朗日系数。

这样，有约束的问题求解过程通常使用拉格朗日方法以得到最优解。

当通过求解上述函数得到对应于xi的拉格朗日乘数αi后，进而计算球心

紧接着将圆心a的值代入损失函数中，利用最优化方法解出半径R即可；

这样即可得到一个初步训练完成的超球体分类模型。

S4、识别所述超球体分类模型是否达到训练终止条件。

S5、当达到所述训练终止条件，将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选，以得到目标异常数据。

如图6所示，步骤S5包括：

S51、将所述未标记数据分别代入所述决策函数中以生成决策结果值；

S52、判断所述决策结果值是否大于或等于零；

S53、当大于或等于零，则输出该未标记数据，并标记为目标异常数据。

具体地，若对分类模型的训练未达到训练终止条件，则利用更新后的已标记数据集重新训练分类模型，以此循环。随着已标记数据不断更新，分类模型每次重新训练后，超球体分类模型球心位置、半径和决策函数也会随之相应调整。分类模型每次迭代后的变化量小于预设阈值即达到训练终止条件，此时即得到了训练好的分类模型，得到了最终的决策函数。决策函数f(x)＝||x-a||-R所代表的含义为数据x与圆心a的距离与半径R之差。达到训练终止条件后，分类模型的圆心a与半径R的值最终确定。

进行分类时，将未标记数据xi代入决策函数f(x)中判断正负，如果f(x) ≤0，则认为该未标记的系统指标数据为正常数据，如果f(x)＞0，则认为相应的系统指标数据异常。

换言之，进行分类时，计算未标记数据xi与超球体分类模型的球心之间的距离，判断该距离是否大于超球体分类模型的半径；若该距离小于或等于超球体分类模型的半径，则该未标记数据xi为正常数据，若该距离大于超球体分类模型的半径，则该未标记数据xi异常。

例如，利用上述步骤得到的一个超球体分类模型的球心a＝(92.69％,3.28％,3.49％,52.36％,495.53,63,69.72％,98,357,54,91.77％,58.92％)，半径R＝602.94。以表1中的实际数据为例，每个数据有12个属性值，将数据x _i＝(94.76％,3.76％,1.29％,47％,434.78,59,78.37％,104,379,50,95.47％,64.55％)代入决策函数f(x)＝||x-a||-R，得到f(x)＝-49.09＜0，则数据xi位于超球体分类模型内，因此可以认为xi是正常数据。

对于异常数据，AI运营人员可以继续进行根因分析等，找出系统异常的原因，给出修复建议。

如图7所示，本申请的另一实施例还提供了一种数据异常检测装置，包括：

获取模块100：被配置为执行获取未标记数据；

查询模块200：被配置为执行根据预设的查询策略从所述未标记数据中提取出初级异常数据，其中，所述初级异常数据为通过查询策略筛选出的所述未标记数据中达到预设条件的数据；

训练模块300：被配置为执行将所述初级异常数据进行识别标记后存入已标记的第一数据集合中组成第二数据集合，并通过所述第二数据集合对预先训练的超球体分类模型进行训练，其中，所述超球体分类模型为可对当前已标记的数据，在高维空间中拟合一个涵盖大多数样本值的超球体，以超球体表面为界识别异常数据与正常数据的分类模型；

识别模块400：被配置为执行识别所述超球体分类模型是否达到训练终止条件；

结果输出模块500：被配置为执行当达到所述训练终止条件，将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选，以得到目标异常数据。

如图8所示，本申请的另一个实施例公开了一种计算机设备600，包括存储器601、处理器602及存储在所述存储器601上并可在所述处理器602上运行的计算机程序，所述处理器602执行所述计算机程序时实现上述的数据异常检测方法。该计算机设备是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。如图所示，所述计算机设备600至少包括，但不限于，可通过装置总线相互通信连接存储器601、处理器602、网络接口603。其中：

本实施例中，存储器601至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器601可以是计算机设备600的内部存储单元，例如所述计算机设备600的硬盘或内存。在另一些实施例中，存储器601也可以是计算机设备600的外部存储设备，例如所述计算机设备600上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器601还可以既包括计算机设备 600的内部存储单元也包括其外部存储设备。本实施例中，存储器601通常用于存储安装于计算机设备600的操作装置和各类应用软件，例如异常医保群组识别装置500的程序代码等。此外，存储器601还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器602在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。所述处理器602通常用于控制计算机设备600的总体操作。本实施例中，处理器602用于运行存储器601中存储的程序代码或者处理数据，例如运数据异常检测装置500，以实现上述各个实施例中的数据异常检测方法。

所述网络接口603可包括无线网络接口或有线网络接口，所述网络接口603通常用于在所述计算机设备600与其他电子装置之间建立通信连接。例如，所述网络接口603用于通过网络将所述计算机设备600与外部终端相连，在所述计算机设备600与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯装置(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图8仅示出了具有部件601-603的计算机设备600，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器601中的所述异常医保群组识别装置500还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器601中，并由一个或多个处理器(本实施例为处理器602)所执行，以完成本申请数据异常检测方法。

本实施例还提供一种计算机可读存储介质，上述存储介质可以是非易失性存储介质，也可以是易失性存储介质。如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储异常医保群组识别装置500，以被处理器执行时实现本申请之数据异常检测方法。

本申请的另一实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述的数据异常检测方法。

如图9所示，本申请的另一个实施例提供了一种数据异常检测方法，包括：

S00、获取未标记数据。

S10、利用已标记数据集中的已标记数据训练一个超球体分类模型。

S20、根据预设的查询策略从所述未标记数据中提取出初级异常数据，其中，所述初级异常数据为通过查询策略筛选出的所述未标记数据中达到预设条件的数据。

S30、识别所述初级异常数据并进行标记，得到新已标记数据。

S40、将所述新已标记数据加入所述已标记数据集中，得到更新的已标记数据集。

S50、利用所述更新的已标记数据集中的已标记数据训练所述超球体分类模型。

S60、识别该超球体分类模型是否达到训练终止条件；若达到所述训练终止条件，则转向步骤S70；若未达到所述训练终止条件，则转向步骤S20。

S70、利用该超球体分类模型对未标记数据进行分类，将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选，以得到目标异常数据。

本申请的实施例提供的数据异常检测方法，从数据着手，将无监督学习方法与有监督学习方法相结合，利用少量已标记数据构建的超球体分类模型对数据的原始分布没有限制，使用范围更广；而基于边界距离与样本密度的查询策略能较为精准的找出最有价值的数据并且减少噪声的影响，大大减少了运营人员需要标记的数据量，既保证了数据分类精度，又节约了人工智能运营的成本，更适用于实际业界场景，便于大规模部署。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。本公开的范围由所附权利要求及其等价物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

一种数据异常检测方法，其中，包括：

获取未标记数据；

根据预设的查询策略从所述未标记数据中提取出初级异常数据，其中，所述初级异常数据为通过查询策略筛选出的所述未标记数据中达到预设条件的数据；

将所述初级异常数据进行识别标记后存入已标记的第一数据集合中组成第二数据集合，并通过所述第二数据集合对预先训练的超球体分类模型进行训练，其中，所述超球体分类模型为可对当前已标记的数据，在高维空间中拟合一个涵盖大多数样本值的超球体，以超球体表面为界识别异常数据与正常数据的分类模型；

识别所述超球体分类模型是否达到训练终止条件；

当达到所述训练终止条件，将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选，以得到目标异常数据。
根据权利要求1所述的方法，其中，所述超球体分类模型的训练方法包括：

对异常数据和正常数据分别设置不同的惩罚系数以生成损失函数，其中，所述惩罚系数为在预设预置内的常数；

设置约束条件后计算得到所述超球体分类模型中表征超球体中心位置的球心值和表征超球体球心值与超球体表面之间距离的半径值；

根据所述球心值和所述半径值生成识别正常值与异常值的决策函数。
根据权利要求2所述的方法，其中，所述当达到所述训练终止条件，将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选，以得到目标异常数据，包括：

将所述未标记数据分别代入所述决策函数中以生成决策结果值；

判断所述决策结果值是否大于或等于零；

当大于或等于零，则输出该未标记数据，并标记为目标异常数据。
根据权利要求2所述的方法，其中，所述查询策略基于上述预先训练好的超球体分类模型筛选初级异常数据，所述预设条件为距离所述超球体分类模型的超球体表面的加权距离值最小。
根据权利要求4所述的方法，其中，所述根据预设的查询策略从所述未标记数据中提取出初级异常数据，包括：

将所述未标记数据带入所述决策函数中并取绝对值得到最近球面距离；

计算所述未标记数据之间的距离值取最小值作为最近邻样本距离；

将所述最近球面距离与所述最近邻样本距离归一化处理，并以预设系数进行加权得到各个所述未标记数据的加权距离值。
根据权利要求5所述的方法，其中，所述最近球面距离归一化处理的方法包括：

从所有所述未标记数据的最近球面距离中选出数值最小的第一最小值和数值最大的第一最大值；

用每个所述未标记数据的最近球面距离与所述第一最小值之差除以所述第一最大值，得到所有所述未标记数据对应的归一化最近球面距离。
根据权利要求5所述的方法，其中，所述最近邻样本距离归一化处理的方法包括：

从所有未标记数据的最近邻样本距离中选取数值最小的第二最小值和数值最大的第二最大值；

分别计算每个所述未标记数据与所述第二最小值之差，再用这些差值除以所述第二最大值，得到所有未标记数据的归一化最近邻样本距离。
一种数据异常检测装置，其中，包括：

获取模块：被配置为执行获取未标记数据；

查询模块：被配置为执行根据预设的查询策略从所述未标记数据中提取出初级异常数据，其中，所述初级异常数据为通过查询策略筛选出的所述未标记数据中达到预设条件的数据；

训练模块：被配置为执行将所述初级异常数据进行识别标记后存入已标记的第一数据集合中组成第二数据集合，并通过所述第二数据集合对预先训练的超球体分类模型进行训练，其中，所述超球体分类模型为可对当前已标记的数据，在高维空间中拟合一个涵盖大多数样本值的超球体，以超球体表面为界识别异常数据与正常数据的分类模型；

识别模块：被配置为执行识别所述超球体分类模型是否达到训练终止条件；

结果输出模块：被配置为执行当达到所述训练终止条件，将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选，以得到目标异常数据。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现数据异常检测方法的步骤：

获取未标记数据；

根据预设的查询策略从所述未标记数据中提取出初级异常数据，其中，所述初级异常数据为通过查询策略筛选出的所述未标记数据中达到预设条件的数据；

将所述初级异常数据进行识别标记后存入已标记的第一数据集合中组成第二数据集合，并通过所述第二数据集合对预先训练的超球体分类模型进行训练，其中，所述超球体分类模型为可对当前已标记的数据，在高维空间中拟合一个涵盖大多数样本值的超球体，以超球体表面为界识别异常数据与正常数据的分类模型；

识别所述超球体分类模型是否达到训练终止条件；

当达到所述训练终止条件，将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选，以得到目标异常数据。
根据权利要求9所述的计算机设备，其中，所述超球体分类模型的训练方法包括：

对异常数据和正常数据分别设置不同的惩罚系数以生成损失函数，其中，所述惩罚系数为在预设预置内的常数；

设置约束条件后计算得到所述超球体分类模型中表征超球体中心位置的球心值和表征超球体球心值与超球体表面之间距离的半径值；

根据所述球心值和所述半径值生成识别正常值与异常值的决策函数。
根据权利要求10所述的计算机设备，其中，所述当达到所述训练终止条件，将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选，以得到目标异常数据，包括：

将所述未标记数据分别代入所述决策函数中以生成决策结果值；

判断所述决策结果值是否大于或等于零；

当大于或等于零，则输出该未标记数据，并标记为目标异常数据。
根据权利要求10所述的计算机设备，其中，所述查询策略基于上述预先训练好的超球体分类模型筛选初级异常数据，所述预设条件为距离所述超球体分类模型的超球体表面的加权距离值最小。
根据权利要求12所述的计算机设备，其中，所述根据预设的查询策略从所述未标记数据中提取出初级异常数据，包括：

将所述未标记数据带入所述决策函数中并取绝对值得到最近球面距离；

计算所述未标记数据之间的距离值取最小值作为最近邻样本距离；

将所述最近球面距离与所述最近邻样本距离归一化处理，并以预设系数进行加权得到各个所述未标记数据的加权距离值。
根据权利要求13所述的计算机设备，其中，所述最近球面距离归一化处理的方法包括：

从所有所述未标记数据的最近球面距离中选出数值最小的第一最小值和数值最大的第一最大值；

用每个所述未标记数据的最近球面距离与所述第一最小值之差除以所述第一最大值，得到所有所述未标记数据对应的归一化最近球面距离。
根据权利要求13所述的计算机设备，其中，所述最近邻样本距离归一化处理的方法包括：

从所有未标记数据的最近邻样本距离中选取数值最小的第二最小值和数值最大的第二最大值；

分别计算每个所述未标记数据与所述第二最小值之差，再用这些差值除以所述第二最大值，得到所有未标记数据的归一化最近邻样本距离。
一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行，以实现数据异常检测方法的步骤：

获取未标记数据；

根据预设的查询策略从所述未标记数据中提取出初级异常数据，其中，所述初级异常数据为通过查询策略筛选出的所述未标记数据中达到预设条件的数据；

将所述初级异常数据进行识别标记后存入已标记的第一数据集合中组成第二数据集合，并通过所述第二数据集合对预先训练的超球体分类模型进行训练，其中，所述超球体分类模型为可对当前已标记的数据，在高维空间中拟合一个涵盖大多数样本值的超球体，以超球体表面为界识别异常数据与正常数据的分类模型；

识别所述超球体分类模型是否达到训练终止条件；

当达到所述训练终止条件，将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选，以得到目标异常数据。
根据权利要求16所述的计算机可读存储介质，其中，所述超球体分类模型的训练方法包括：

对异常数据和正常数据分别设置不同的惩罚系数以生成损失函数，其中，所述惩罚系数为在预设预置内的常数；

设置约束条件后计算得到所述超球体分类模型中表征超球体中心位置的球心值和表征超球体球心值与超球体表面之间距离的半径值；

根据所述球心值和所述半径值生成识别正常值与异常值的决策函数。
根据权利要求17所述的计算机可读存储介质，其中，所述当达到所述训练终止条件，将所述未标记数据输入训练终止条件下的所述超球体分类模型中进行分类筛选，以得到目标异常数据，包括：

将所述未标记数据分别代入所述决策函数中以生成决策结果值；

判断所述决策结果值是否大于或等于零；

当大于或等于零，则输出该未标记数据，并标记为目标异常数据。
根据权利要求17所述的计算机可读存储介质，其中，所述查询策略基于上述预先训练好的超球体分类模型筛选初级异常数据，所述预设条件为距离所述超球体分类模型的超球体表面的加权距离值最小。
根据权利要求19所述的计算机可读存储介质，其中，所述根据预设的查询策略从所述未标记数据中提取出初级异常数据，包括：

将所述未标记数据带入所述决策函数中并取绝对值得到最近球面距离；

计算所述未标记数据之间的距离值取最小值作为最近邻样本距离；

将所述最近球面距离与所述最近邻样本距离归一化处理，并以预设系数进行加权得到各个所述未标记数据的加权距离值。