WO2020155755A1

WO2020155755A1 - 基于谱聚类的异常点比例优化方法、装置及计算机设备

Info

Publication number: WO2020155755A1
Application number: PCT/CN2019/117355
Authority: WO
Inventors: 杨志鸿; 徐亮; 阮晓雯
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-01-28
Filing date: 2019-11-12
Publication date: 2020-08-06
Also published as: CN109871886B; CN109871886A

Abstract

本申请公开了基于谱聚类的异常点比例优化方法、装置及计算机设备。该方法包括：通过接收待分类数据点集合，通过谱聚类将待分类数据点集合进行聚类得到多个聚类簇；获取各聚类簇对应的数据点，根据预设的当前异常点比例及各聚类簇，构建与各聚类簇一一对应的孤立森林模型；通过不断调整当前异常点比例，直至平均欧式距离变动幅度超出变动幅度阈值，将当前异常点比例加上步长作为最优异常点比例；将所选定的聚类簇根据最优异常点比例进行分类，得到最优分类结果。

Description

基于谱聚类的异常点比例优化方法、装置及计算机设备

本申请要求于2019年1月28日提交中国专利局、申请号为201910079172.5、申请名称为“基于谱聚类的异常点比例优化方法、装置及计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及智能决策技术领域，尤其涉及一种基于谱聚类的异常点比例优化方法、装置及计算机设备。

背景技术

异常值分析是检验数据是否有录入错误以及含有不合常理的数据的过程，忽视异常值的存在是十分危险的，不加剔除地把异常值包括进数据的计算分析过程中，对结果会产生不良影响。目前，当云服务器接收了海量的数据并需对其进行异常点检测是，若仅将海量数据视为只有一个中心的数据集，会导致用于异常点检测的无监督模型的区分效果较差，无法准确的检测出异常点。而且无监督模型在检测前的异常点比例的设置依赖用户经验，导致设置难度较大。

发明内容

本申请实施例提供了一种基于谱聚类的异常点比例优化方法、装置及计算机设备，旨在解决现有技术中海量数据视为只有一个中心的数据集，会导致用于异常点检测的无监督模型的区分效果较差，无法准确的检测出异常点的问题。

第一方面，本申请实施例提供了一种基于谱聚类的异常点比例优化方法，其包括：

接收待分类数据点集合，通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图，并得到与各子图对应的聚类簇；

获取多个聚类簇中所包括每一聚类簇对应的数据点，根据预设的当前异常点比例及每一聚类簇，构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型；

将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果中正常类别的正常点中心；

获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离，以作为当前状态平均欧式距离；

通过所述当前异常点比例减去预设的步长，以更新当前异常点比例；

将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离；

通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长，得到平均欧式距离变动幅度；

判断所述平均欧式距离变动幅度超出预设的变动幅度阈值；

若所述平均欧式距离变动幅度超出所述变动幅度阈值，将当前异常点比例加上步长作为最优异常点比例；以及

将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类，得到最优分类结果。

第二方面，本申请实施例提供了一种基于谱聚类的异常点比例优化装置，其包括：

谱聚类单元，用于接收待分类数据点集合，通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图，并得到与各子图对应的聚类簇；

孤立森林模型训练单元，用于获取多个聚类簇中所包括每一聚类簇对应的数据点，根据预设的当前异常点比例及每一聚类簇，构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型；

正常点中心获取单元，用于将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果中正常类别的正常点中心；

第一平均距离计算单元，用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离，以作为当前状态平均欧式距离；

第一异常点比例更新单元，用于通过所述当前异常点比例减去预设的步长，以更新当前异常点比例；

第二平均距离计算单元，用于将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离；

平均距离变动幅度获取单元，用于通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长，得到平均欧式距离变动幅度；

幅度判断单元，用于判断所述平均欧式距离变动幅度超出预设的变动幅度阈值；

最优比例获取单元，用于若所述平均欧式距离变动幅度超出所述变动幅度阈值，将当前异常点比例加上步长作为最优异常点比例；以及

最优分类单元，用于将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类，得到最优分类结果。

第三方面，本申请实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于谱聚类的异常点比例优化方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于谱聚类的异常点比例优化方法。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于谱聚类的异常点比例优化方法的流程示意图；

图2为本申请实施例提供的基于谱聚类的异常点比例优化方法的子流程示意图；

图3为本申请实施例提供的基于谱聚类的异常点比例优化方法的另一子流程示意图；

图4为本申请实施例提供的基于谱聚类的异常点比例优化方法的另一子流程示意图；

图5为本申请实施例提供的基于谱聚类的异常点比例优化方法的另一流程示意图；

图6为本申请实施例提供的基于谱聚类的异常点比例优化装置的示意性框图；

图7为本申请实施例提供的基于谱聚类的异常点比例优化装置的子单元示意性框图；

图8为本申请实施例提供的基于谱聚类的异常点比例优化装置的另一子单元示意性框图；

图9为本申请实施例提供的基于谱聚类的异常点比例优化装置的另一子单元示意性框图；

图10为本申请实施例提供的基于谱聚类的异常点比例优化装置的另一示意性框图；

图11为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本申请实施例提供的基于谱聚类的异常点比例优化方法的流程示意图，该基于谱聚类的异常点比例优化方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图1所示，该方法包括步骤S101～S181。

S101、接收待分类数据点集合，通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图，并得到与各子图对应的聚类簇。

在本实施例中，当企业的云服务器接收了各用户端上传的海量用户数据后，这些用户数据可视为待分类数据点集合。例如，待分类数据点集合可以是用户的保单数据，至少包括投保人姓名、投保人年龄、投保人保单数量、投保金额、投保年限、投保人手机号码等字段。此时可有选择性的选择其中一个字段数据作为主数据，而剩余的字段则作为上述主字段的属性数据。例如投保年限字段作为主数据，投保人的电话号码、身份证号等字段作为其属性数据。将待分类数据点集合中每一数据点转化为节点之后，可以通过谱聚类对节点进行划分，得到多个子图，每一个子图可以视为一个聚类簇。

在一实施例中，如图2所示，步骤S101包括：

S1011、获取所输入的相似度矩阵和目标聚类数目；

S1012、根据所述相似度矩阵构建与所述待分类数据点集合对应的节点相应的相似矩阵；

S1013、根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；

S1014、获取所述拉普拉斯矩阵中的多个特征值的排名，若判断特征值的排名位于预设排名阈值之前，获取对应的特征向量以组成目标特征向量集；

S1015、将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；

S1016、通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子图，并得到与各子图对应的聚类簇。

谱聚类是一种基于图论的聚类方法，通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据聚类的目的。谱聚类可以理解为将高维空间的数据映射到低维，然后在低维空间用其它聚类算法(如k-means)进行聚类。

为了实现对高维空间的理赔数据映射到低维空间，需将所述理赔数据对应的节点先根据式(1)进行相似矩阵的构建：

其中，n为赔数据对应的节点个数，xi和xj分别表示任意一个节点，σ表示节点的标准差，s _ij则组成了相似矩阵。

由所输入的相似度矩阵来构建与所述理赔数据对应的节点相应的相似矩阵有ε-邻近法，K邻近法和全连接法。例如，全连接法的计算公式如式1。

之后根据式2来计算对角矩阵，式2具体如下：

其中，d _i表示相似矩阵中每一行的元素之和，由d _i组成对角矩阵w _ij则表示相似矩阵中第i行第j列的元素。

当由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵后，即可以拉普拉斯矩阵中对应的每一特征向量转置为列向量，从而组成目标向量矩阵。最后通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子团。

S110、获取多个聚类簇中所包括每一聚类簇对应的数据点，根据预设的当前异常点比例及每一聚类簇，构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型。

在本实施例中，例如，云服务器接收了业务端所上传的待分类数据点集合并完成谱聚类分组后，此时若所设置初始的当前异常点比例为0.5(如将初始的当前异常点比例记为m ₀)，表示所期望的孤立森林模型的分类结果中正常点样本和异常点样本比例为1:1。由于假设正常点数量比异常点多，因此此时异常点类别中含有大量的错分正常点。当异常点比例减少的时候，异常点类别中的正常点会被剔除。此时，先根据预设的当前异常点比例及每一聚类簇分别构建用于异常点检测的孤立森林模型，作为后续调整当前异常点比例并重新分类的模型基础。

在一实施例中，如图3所示，步骤S110包括：

S111、从各聚类簇中均随机获取一个数据属性，及由各聚类簇中所选定的数据属性和当前异常点比例所确定的分裂值；

S112、根据所述数据属性及所述分裂值将各聚类聚分别进行划分，得到各聚类聚分别对应的多个孤立树，以组合得到与各聚类簇对应的用于异常点检测的孤立森林模型。

在本实施例中，例如聚类簇1对应的数据集为D1，其中D1＝{d ₁，d ₂，…，d _n}，从中随机选择一个数据属性A，并由数据属性A和当前异常点比例确定一个分裂值p ₁；然后对训练数据集中每个数据对象d _i，按照数据属性A的分裂值p ₁进行划分。若d _i(A)小于p ₁,则放在左子树，反之则在右子树。此时再随机选择一个数据属性B，并由数据属性B和当前异常点比例确定一个分裂值p ₂；然后对左子树和右子树均根据按照数据属性B的分裂值p2进行划分，得到与左子树对应的次级左子树和次级右子树，以及与右子树对应的次级左子树和次级右子树。以此迭代，直至满足一下条件之一：(1)D1中剩下一条数据或者多条相同的数据；(2)孤立树达到最大高度。由于每一个孤立树在形成的过程中，所随机得到数据属性及与数据属性对应的分裂值不同，这就导致了孤立森林中能包括多个孤立树。孤立树中若设置异常点比例得当，即可提升异常点的检测效果。

通过上述方式，在对多个聚类簇分别构建了孤立森林模型后，每一聚类簇根据其对应的孤立森林模型进行数据分类。

S120、将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果中正常类别的正常点中心。

在本实施例中，当选定多个聚类簇其中一个聚类簇作为目标聚类簇为示例进行最优异常点比例获取时，需根据初始设置的当前异常点比例将所选定的聚类簇由所述孤立森林模型进行分类后，可以确定分类结果中正常类别的数据点对应的正常点中心，这一正常点中心在后续过程中是恒定不变的。

在一实施例中，如图4所示，步骤S120包括：

S121、将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到与所选定的聚类簇对应的分类结果；其中，所述分类结果中包括正常类别的数据点和异常类别的数据点；

S122、获取所述分类结果中正常类别的数据点所对应的平均值，以获取初始正常点中心；

S123、获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点，以作为正常类别的数据点对应的正常点中心。

在本实施例中，先根据所述孤立森林模型及当前异常点比例将所选定的聚类簇进行分类后，得到了包括正常类别的数据点和异常类别的数据点的分类结果。此时为了确定正常点中心，需先获取正常类别的数据点的平均值，然后将正常类别的数据点中距离该平均值最近的数据点，以作为正常点中心。当固定所述正常点中心后，即可不断调整异常点比例，根据指定参数(如当前异常类别的每一数据点与所述正常点中心的平均欧式距离)的变化趋势，来获取最优异常点比例。

S130、获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离，以作为当前状态平均欧式距离。

在本申请中，为了判断异常类别的每一数据点与正常点的距离关系，需计算异常类别的每一数据点与所述正常点中心的欧式距离后求平均，得到所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离，以作为当前状态平均欧式距离，从该当前状态平均欧式距离可以看出异常类别的每一数据点是否均远离正常点中心。

S140、通过所述当前异常点比例减去预设的步长，以更新当前异常点比例。

在本实施例，将所述当前异常点比例减去预设的步长，是为了不断调整当前异常点比例，以通过试探法得出最优异常点比例。

S150、将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离。

在本实施例中，通过将当前异常点比例减去所述步长以更新当前异常点比例，此时无需再次确定正常点中心，只需得到分类结果中的异常类别的数据点，再计算异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离。

S160、通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长，得到平均欧式距离变动幅度。

在本实施例中，通过例如步骤S130中得到的当前状态平均欧式距离视为d ₀，则步骤S150初次执行得到的下一状态平均欧式距离视为d ₁，则步骤S150第二次执行得到的下一状态平均欧式距离视为d ₂(此时对应的当前状态平均欧式距离为d ₁)，……，步骤S150第N次执行得到的下一状态平均欧式距离视为d _N(此时对应的当前状态平均欧式距离为d _N-1)。若将预设的步长记为l，则是通过(d _N-d _N-1)/l来计算平均欧式距离变动幅度，其中N为大于0的正整数。

S170、判断所述平均欧式距离变动幅度是否超出预设的变动幅度阈值。

在本实施例中，当平均欧式距离变动幅度陡然变大，表示此刻最新的当前异常点比例不是最优异常点比例，可考虑将此刻最新的当前异常点比例之前一个状态的当前异常点比例作为最优异常点比例。

S180、若所述平均欧式距离变动幅度超出所述变动幅度阈值，将当前异常点比例加上步长作为最优异常点比例。

在本实施例中，若平均欧式距离变动幅度超出预设的变动幅度阈值，表示有部分真实的异常点被划分为正常点，导致异常点到正常中心点的平均欧式距离突增，此时当前异常点比例的上一状态(即当前异常点比例加上步长)即可作为最优异常点比例。

S181、将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类，得到最优分类结果。

在本实施例中，当确定了最优异常点比例后，即可将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类，得到最优分类结果，得到分类效果较好的无监督分类模型。

在一实施例中，如图5所示，步骤S170之后还包括：

S190、若所述平均欧式距离变动幅度未超出所述变动幅度阈值，将当前异常点比例减去步长以更新当前异常点比例，通过下一状态平均欧式距离以更新当前状态平均欧式距离，返回执行步骤S150。

在本实施例中，当平均欧式距离变动幅度仍保持平稳过渡，表示所降低的异常点比例不足以明显影响异常类别的每一数据点与所述正常点中心的平均欧式距离，此时需将当前异常点比例减去步长以更新当前异常点比例，并通过下一状态平均欧式距离以更新新当前状态平均欧式距离。例如当(d _N-d _N-1)/l未超出预设的变动幅度阈值，此时将d ₁作为当前状态平均欧式距离，将(m ₀-l)作为当前异常点比例重新返回执行步骤S150以得到d ₂；之后再次流向步骤S170时即是以(d ₂-d1)/l作为平均欧式距离变动幅度，以此类推，直至执行到平均欧式距离变动幅度超出预设的变动幅度阈值即可。

在一实施例中，步骤S181之后还包括：

将所述最优分类结果及所述最优异常点比例发送至所述待分类数据点集合对应的用户端，并将所述最优分类结果及所述最优异常点比例同步发送至云服务器；

将所述最优分类结果及所述最优异常点比例对应的存储区域进行格式化删除。

在本实施例中，若在服务器中完成了获取了与所述待分类数据点集合对应的最优分类结果及所述最优异常点比例后，可以及时的将该最优分类结果及所述最优异常点比例发送至所述待分类数据点集合对应的用户端，实现对用户端进行分类结果的有效通知。

而且为了降低服务器中的数据存储压力，此时可及时的将所述最优分类结果及所述最优异常点比例同步发送至云服务器，通过云服务器实现对与所述待分类数据点集合对应的最优分类结果及所述最优异常点比例的有效存储。此过程中，还可以将与所述最优分类结果及所述最优异常点比例对应的述待分类数据点集合同步至云服务器。上述的待分类数据点集合、最优分类结果及最优异常点比例在由服务器同步至云服务器中时，需以用户端的唯一机器识别码(如IMEI串号)为数据标识位来进行唯一数据标识。

此时将所述最优分类结果及所述最优异常点比例同步发送至云服务器之后，则可对服务器中将所述最优分类结果及所述最优异常点比例对应的存储区域进行格式化删除，从而有效释放出存储空间。

在一实施例中，所述将所述最优分类结果及所述最优异常点比例对应的存储区域进行格式化删除之前，还包括：

根据预设的当前异常点比例与所述最优异常点比例之差除以所述步长，得到迭代次数；

将所述迭代次数发送至所述待分类数据点集合对应的用户端，并将所述迭代次数同步发送至云服务器。

在本实施例中，为了清楚的获知预设的当前异常点比例所述最优异常点比例之间经过了多少次迭代，此时可以根据预设的当前异常点比例与所述最优异常点比例之差除以所述步长，得到迭代次数。当获知了所述迭代次数后，可以将所述迭代次数发送至所述待分类数据点集合对应的用户端，用户端对应则可积累设置最优异常点比例的经验。

该方法实现了对海量数据的谱聚类分类，然后分别对各聚类簇同时进行异常点检测和最优异常点比例自动获取，确定了最优异常点比例后对各聚类簇的数据进行异常点检测，检测准确率得到了提升。

本申请实施例还提供一种基于谱聚类的异常点比例优化装置，该基于谱聚类的异常点比例优化装置用于执行前述基于谱聚类的异常点比例优化方法的任一实施例。具体地，请参阅图6，图6是本申请实施例提供的基于谱聚类的异常点比例优化装置的示意性框图。该基于谱聚类的异常点比例优化装置100可以配置于服务器中。

如图6所示，基于谱聚类的异常点比例优化装置100包括谱聚类单元101、孤立森林模型训练单元110、正常点中心获取单元120、第一平均距离计算单元130、第一异常点比例更新单元140、第二平均距离计算单元150、平均距离变动幅度获取单元160、幅度判断单元170、最优比例获取单元180、最优分类单元181。

谱聚类单元101，用于接收待分类数据点集合，通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图，并得到与各子图对应的聚类簇。

在一实施例中，如图7所示，谱聚类单元101包括：

初始输入单元1011，用于获取所输入的相似度矩阵和目标聚类数目；

相似度矩阵获取单元1012，用于根据所述相似度矩阵构建与所述待分类数据点集合对应的节点相应的相似矩阵；

拉普拉斯矩阵获取单元1013，用于根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；

目标特征向量集获取单元1014，用于获取所述拉普拉斯矩阵中的多个特征值的排名，若判断特征值的排名位于预设排名阈值之前，获取对应的特征向量以组成目标特征向量集；

目标向量矩阵获取单元1015，用于将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；

子团获取单元1016，用于通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子图，并得到与各子图对应的聚类簇。

孤立森林模型训练单元110，用于获取多个聚类簇中所包括每一聚类簇对应的数据点，根据预设的当前异常点比例及每一聚类簇，构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型。

在一实施例中，如图8所示，孤立森林模型训练单元110包括：

分类参数获取单元111，用于从各聚类簇中均随机获取一个数据属性，及由各聚类簇中所选定的数据属性和当前异常点比例所确定的分裂值；

模型获取单元112，用于根据所述数据属性及所述分裂值将各聚类聚分别进行划分，得到各聚类聚分别对应的多个孤立树，以组合得到与各聚类簇对应的用于异常点检测的孤立森林模型。

正常点中心获取单元120，用于将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果中正常类别的正常点中心。

在一实施例中，如图9所示，正常点中心获取单元120包括：

初始分类单元121，用于将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到与所选定的聚类簇对应的分类结果；其中，所述分类结果中包括正常类别的数据点和异常类别的数据点；

距离均值计算单元122，用于获取所述分类结果中正常类别的数据点所对应的平均值，以获取初始正常点中心；

正常点中心选定单元123，用于获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点，以作为正常类别的数据点对应的正常点中心。

第一平均距离计算单元130，用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离，以作为当前状态平均欧式距离。

第一异常点比例更新单元140，用于通过所述当前异常点比例减去预设的步长，以更新当前异常点比例。

第二平均距离计算单元150，用于将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离。

平均距离变动幅度获取单元160，用于通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长，得到平均欧式距离变动幅度。

幅度判断单元170，用于判断所述平均欧式距离变动幅度是否超出预设的变动幅度阈值。

最优比例获取单元180，用于若所述平均欧式距离变动幅度超出所述变动幅度阈值，将当前异常点比例加上步长作为最优异常点比例。

最优分类单元181，用于将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类，得到最优分类结果。

在一实施例中，如图10所示，基于谱聚类的异常点比例优化装置100还包括：

第二异常点比例更新单元190，用于若所述平均欧式距离变动幅度未超出所述变动幅度阈值，将当前异常点比例减去步长以更新当前异常点比例，通过下一状态平均欧式距离以更新当前状态平均欧式距离，返回执行将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。

该装置实现了对海量数据的谱聚类分类，然后分别对各聚类簇同时进行异常点检测和最优异常点比例自动获取，确定了最优异常点比例后对各聚类簇的数据进行异常点检测，检测准确率得到了提升。

上述基于谱聚类的异常点比例优化装置可以实现为计算机程序的形式，该计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11，图11是本申请实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图11，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于谱聚类的异常点比例优化方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于谱聚类的异常点比例优化方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本申请实施例公开的基于谱聚类的异常点比例优化方法。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(Central Processing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本申请实施例公开的基于谱聚类的异常点比例优化方法。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种基于谱聚类的异常点比例优化方法，包括：

接收待分类数据点集合，通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图，并得到与各子图对应的聚类簇；

获取多个聚类簇中所包括每一聚类簇对应的数据点，根据预设的当前异常点比例及每一聚类簇，构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型；

将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果中正常类别的正常点中心；

获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离，以作为当前状态平均欧式距离；

通过所述当前异常点比例减去预设的步长，以更新当前异常点比例；

将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离；

通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长，得到平均欧式距离变动幅度；

判断所述平均欧式距离变动幅度超出预设的变动幅度阈值；

若所述平均欧式距离变动幅度超出所述变动幅度阈值，将当前异常点比例加上步长作为最优异常点比例；以及

将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类，得到最优分类结果。
根据权利要求1所述的基于谱聚类的异常点比例优化方法，其中，所述通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图，并得到与各子图对应的聚类簇，包括：

获取所输入的相似度矩阵和目标聚类数目；

根据所述相似度矩阵构建与所述待分类数据点集合对应的节点相应的相似矩阵；

根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；

获取所述拉普拉斯矩阵中的多个特征值的排名，若判断特征值的排名位于预设排名阈值之前，获取对应的特征向量以组成目标特征向量集；

将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；

通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子图，并得到与各子图对应的聚类簇。
根据权利要求1所述的基于谱聚类的异常点比例优化方法，其中，所述判断所述平均欧式距离变动幅度超出预设的变动幅度阈值之后，还包括：

若所述平均欧式距离变动幅度未超出所述变动幅度阈值，将当前异常点比例减去步长以更新当前异常点比例，通过下一状态平均欧式距离以更新当前状态平均欧式距离，返回执行将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
根据权利要求1所述的基于谱聚类的异常点比例优化方法，其中，所述根据预设的当前异常点比例及每一聚类簇，构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型，包括：

从各聚类簇中均随机获取一个数据属性，及由各聚类簇中所选定的数据属性和当前异常点比例所确定的分裂值；

根据所述数据属性及所述分裂值将各聚类聚分别进行划分，得到各聚类聚分别对应的多个孤立树，以组合得到与各聚类簇对应的用于异常点检测的孤立森林模型。
根据权利要求1所述的基于谱聚类的异常点比例优化方法，其中，所述将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果中正常类别的正常点中心，包括：

将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到与所选定的聚类簇对应的分类结果；其中，所述分类结果中包括正常类别的数据点和异常类别的数据点；

获取所述分类结果中正常类别的数据点所对应的平均值，以获取初始正常点中心；

获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点，以作为正常类别的数据点对应的正常点中心。
根据权利要求1所述的基于谱聚类的异常点比例优化方法，其中，所述将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类，得到最优分类结果之后，还包括：

将所述最优分类结果及所述最优异常点比例发送至所述待分类数据点集合对应的用户端，并将所述最优分类结果及所述最优异常点比例同步发送至云服务器；

将所述最优分类结果及所述最优异常点比例对应的存储区域进行格式化删除。
根据权利要求6所述的基于谱聚类的异常点比例优化方法，其中，所述将所述最优分类结果及所述最优异常点比例对应的存储区域进行格式化删除之前，还包括：

根据预设的当前异常点比例与所述最优异常点比例之差除以所述步长，得到迭代次数；

将所述迭代次数发送至所述待分类数据点集合对应的用户端，并将所述迭代次数同步发送至云服务器。
一种基于谱聚类的异常点比例优化装置，包括：

谱聚类单元，用于接收待分类数据点集合，通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图，并得到与各子图对应的聚类簇；

孤立森林模型训练单元，用于获取多个聚类簇中所包括每一聚类簇对应的数据点，根据预设的当前异常点比例及每一聚类簇，构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型；

正常点中心获取单元，用于将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果中正常类别的正常点中心；

第一平均距离计算单元，用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离，以作为当前状态平均欧式距离；

第一异常点比例更新单元，用于通过所述当前异常点比例减去预设的步长，以更新当前异常点比例；

第二平均距离计算单元，用于将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离；

平均距离变动幅度获取单元，用于通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长，得到平均欧式距离变动幅度；

幅度判断单元，用于判断所述平均欧式距离变动幅度超出预设的变动幅度阈值；

最优比例获取单元，用于若所述平均欧式距离变动幅度超出所述变动幅度阈值，将当前异常点比例加上步长作为最优异常点比例；以及

最优分类单元，用于将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类，得到最优分类结果。
根据权利要求8所述的基于谱聚类的异常点比例优化装置，其中，所述谱聚类单元，包括：

初始输入单元，用于获取所输入的相似度矩阵和目标聚类数目；

相似度矩阵获取单元，用于根据所述相似度矩阵构建与所述待分类数据点集合对应的节点相应的相似矩阵；

拉普拉斯矩阵获取单元，用于根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；

目标特征向量集获取单元，用于获取所述拉普拉斯矩阵中的多个特征值的排名，若判断特征值的排名位于预设排名阈值之前，获取对应的特征向量以组成目标特征向量集；

目标向量矩阵获取单元，用于将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；

子团获取单元，用于通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子图，并得到与各子图对应的聚类簇。
根据权利要求8所述的基于谱聚类的异常点比例优化装置，其中，还包括：

第二异常点比例更新单元，用于若所述平均欧式距离变动幅度未超出所述变动幅度阈值，将当前异常点比例减去步长以更新当前异常点比例，通过下一状态平均欧式距离以更新当前状态平均欧式距离，返回执行将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

接收待分类数据点集合，通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图，并得到与各子图对应的聚类簇；

获取多个聚类簇中所包括每一聚类簇对应的数据点，根据预设的当前异常点比例及每一聚类簇，构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型；

将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果中正常类别的正常点中心；

获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离，以作为当前状态平均欧式距离；

通过所述当前异常点比例减去预设的步长，以更新当前异常点比例；

将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离；

通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长，得到平均欧式距离变动幅度；

判断所述平均欧式距离变动幅度超出预设的变动幅度阈值；

若所述平均欧式距离变动幅度超出所述变动幅度阈值，将当前异常点比例加上步长作为最优异常点比例；以及

将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类，得到最优分类结果。
根据权利要求11所述的计算机设备，其中，所述通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图，并得到与各子图对应的聚类簇，包括：

获取所输入的相似度矩阵和目标聚类数目；

根据所述相似度矩阵构建与所述待分类数据点集合对应的节点相应的相似矩阵；

根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；

获取所述拉普拉斯矩阵中的多个特征值的排名，若判断特征值的排名位于预设排名阈值之前，获取对应的特征向量以组成目标特征向量集；

将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；

通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子图，并得到与各子图对应的聚类簇。
根据权利要求11所述的计算机设备，其中，所述判断所述平均欧式距离变动幅度超出预设的变动幅度阈值之后，还包括：

若所述平均欧式距离变动幅度未超出所述变动幅度阈值，将当前异常点比例减去步长以更新当前异常点比例，通过下一状态平均欧式距离以更新当前状态平均欧式距离，返回执行将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
根据权利要求11所述的计算机设备，其中，所述根据预设的当前异常点比例及每一聚类簇，构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型，包括：

从各聚类簇中均随机获取一个数据属性，及由各聚类簇中所选定的数据属性和当前异常点比例所确定的分裂值；

根据所述数据属性及所述分裂值将各聚类聚分别进行划分，得到各聚类聚分别对应的多个孤立树，以组合得到与各聚类簇对应的用于异常点检测的孤立森林模型。
根据权利要求11所述的计算机设备，其中，所述将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果中正常类别的正常点中心，包括：

将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到与所选定的聚类簇对应的分类结果；其中，所述分类结果中包括正常类别的数据点和异常类别的数据点；

获取所述分类结果中正常类别的数据点所对应的平均值，以获取初始正常点中心；

获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点，以作为正常类别的数据点对应的正常点中心。
根据权利要求11所述的计算机设备，其中，所述将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类，得到最优分类结果之后，还包括：

将所述最优分类结果及所述最优异常点比例发送至所述待分类数据点集合对应的用户端，并将所述最优分类结果及所述最优异常点比例同步发送至云服务器；

将所述最优分类结果及所述最优异常点比例对应的存储区域进行格式化删除。
根据权利要求16所述的计算机设备，其中，所述将所述最优分类结果及所述最优异常点比例对应的存储区域进行格式化删除之前，还包括：

根据预设的当前异常点比例与所述最优异常点比例之差除以所述步长，得到迭代次数；

将所述迭代次数发送至所述待分类数据点集合对应的用户端，并将所述迭代次数同步发送至云服务器。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行以下操作：

接收待分类数据点集合，通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图，并得到与各子图对应的聚类簇；

获取多个聚类簇中所包括每一聚类簇对应的数据点，根据预设的当前异常点比例及每一聚类簇，构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型；

将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类，得到分类结果中正常类别的正常点中心；

获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离，以作为当前状态平均欧式距离；

通过所述当前异常点比例减去预设的步长，以更新当前异常点比例；

将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离；

通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长，得到平均欧式距离变动幅度；

判断所述平均欧式距离变动幅度超出预设的变动幅度阈值；

若所述平均欧式距离变动幅度超出所述变动幅度阈值，将当前异常点比例加上步长作为最优异常点比例；以及

将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类，得到最优分类结果。
根据权利要求18所述的计算机可读存储介质，其中，所述通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图，并得到与各子图对应的聚类簇，包括：

获取所输入的相似度矩阵和目标聚类数目；

根据所述相似度矩阵构建与所述待分类数据点集合对应的节点相应的相似矩阵；

根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；

获取所述拉普拉斯矩阵中的多个特征值的排名，若判断特征值的排名位于预设排名阈值之前，获取对应的特征向量以组成目标特征向量集；

将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；

通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子图，并得到与各子图对应的聚类簇。
根据权利要求18所述的计算机可读存储介质，其中，所述判断所述平均欧式距离变动幅度超出预设的变动幅度阈值之后，还包括：

若所述平均欧式距离变动幅度未超出所述变动幅度阈值，将当前异常点比例减去步长以更新当前异常点比例，通过下一状态平均欧式距离以更新当前状态平均欧式距离，返回执行将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类，得到当前异常类别的数据点，获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。