WO2019174419A1

WO2019174419A1 - 预测异常样本的方法和装置

Info

Publication number: WO2019174419A1
Application number: PCT/CN2019/073411
Authority: WO
Inventors: 张雅淋; 李龙飞
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2018-03-15
Filing date: 2019-01-28
Publication date: 2019-09-19
Also published as: CN108595495A; SG11202005823VA; US11222046B2; US20200293554A1; TW201939311A; CN108595495B

Abstract

一种预测异常样本的方法和装置，方法包括：首先获取待测样本（41），然后采用多个降维方法，分别对待测样本进行降维处理，以获得多个处理样本（42）；接着将多个处理样本分别输入多个处理模型，以获得各个处理样本的打分，其中第i处理模型Mi，基于SVDD方式确定的超球面Qi，为对应的处理样本打分（43）；然后根据各个处理样本的打分确定待测样本的综合分（44），最后根据该综合分，确定待测样本是否为异常样本（45）。该方法可以更加有效地预测未知样本是否为异常样本。

Description

预测异常样本的方法和装置

相关申请的交叉引用

本专利申请要求于2018年3月15日提交的、申请号为201810215700.0、发明名称为“预测异常样本的方法和装置”的中国专利申请的优先权，该申请的全文以引用的方式并入本文中。

技术领域

本说明书一个或多个实施例涉及利用计算机进行样本分类领域，尤其涉及预测异常样本的方法和装置。

背景技术

随着计算机和互联网技术的发展，产生了大量的数据和样本。在许多场景下，需要对这些数据和样本进行分类，例如区分它是正常样本还是异常样本。例如，在支付和交易业务中，经常需要区分正常交易样本和异常交易样本(例如，套现，金融欺诈类交易等)，从而更好地预防支付风险。在安全访问领域，经常需要区分正常访问数据和异常访问数据，其中异常访问数据往往来源于一些用户试图通过非法访问的方式，达到入侵或获取非法数据目的。这样的异常访问数据常常具有比较大的危害，对这类数据进行识别和预测，从而阻止异常访问，对于数据安全至关重要。

随着人工智能和机器学习的兴起，越来越多的业务场景开始引入机器学习来进行数据分析，包括样本的分类和预测。一般来说，机器学习需要运用大量数据来训练模型，特别是有监督的学习，需要利用已知类别的样本，或称为已标定的样本，来训练和调整分类器，然后才能用来对未知样本进行分类。

然而，在许多情况下，异常样本往往难以采集和标定。一方面，异常样本本身通常数量更少，另一方面，异常样本往往非常隐蔽，难以被发现，例如异常访问的数据通常难以被察觉。因此，能够获取并识别出的异常样本的数量很少，这使得监督学习难以进行。

因此，希望能有改进的方案，能够更加有效地对异常样本进行预测。

发明内容

本说明书一个或多个实施例描述了一种方法和装置，能够在仅获取正常历史样本集，且样本维度较高的情况下，有效地对未知样本进行预测。

根据第一方面，提供了一种预测异常样本的方法，包括：

获取待测样本，所述待测样本包括维度为第一数目的特征数据；

采用多个降维方法，分别对所述待测样本进行降维处理，以获得多个处理样本，其中所述多个降维方法中的第i降维方法Pi，将所述待测样本处理为维度为Di的处理样本Si，维度Di小于所述第一数目；

将所述多个处理样本分别对应输入多个处理模型，以获得各个处理样本的打分，其中所述多个处理模型中的第i处理模型Mi，基于预先采用支持向量域描述SVDD方式在对应维度Di的空间中所确定的超球面Qi，为对应的处理样本Si打分；

根据所述各个处理样本的打分确定所述待测样本的综合分；

根据所述综合分，确定所述待测样本是否为异常样本。

在一种可能的方案中，上述多个降维方法包括运算降维方法和特征采样降维方法中的至少一种。

在一个实施例中，上述运算降维方法包括以下中的一种或多种：主成分分析PCA方法，最小绝对收缩和选择算子LASSO方法，线性判别式分析LDA方法，小波分析方法。

在一个实施例中，上述特征采样降维方法包括以下中的一种或多种：随机采样方法，哈希采样方法，过滤式特征选择方法，包裹式特征选择方法。

根据一个实施例，上述第i处理模型Mi通过以下步骤训练：获取已知为正常的历史样本集，所述历史样本集的样本维度为所述第一数目；采用所述第i降维方法Pi，将所述历史样本集处理为样本维度为Di的低维历史样本集Li；采用支持向量域描述SVDD方式，在维度为Di的空间中确定所述超球面Qi，使得该超球面Qi所包围的低维历史样本集Li中的样本数目与该超球面的半径之间的关系满足预定条件。

根据一种实施方式，为对应的处理样本Si打分包括：确定所述处理样本Si在对应维度空间中与所述超球面Qi的相对位置；根据所述相对位置，确定处理样本Si的打分。

根据可能的实施方式，上述相对位置包括以下之一：所述处理样本Si位于所述超球面Qi之外、之内或之上；所述处理样本Si在对应维度空间中距离所述超球面Qi的中心的距离；所述处理样本Si在对应维度空间中距离所述超球面Qi的最近表面的距离。

在一个实施例中，确定所述待测样本的综合分包括：对所述各个处理样本的打分进行加权求和，获得所述综合分，

根据第二方面，提供一种预测异常样本的装置，包括：

获取单元，配置为获取待测样本，所述待测样本包括维度为第一数目的特征数据；

多个降维单元，所述多个降维单元分别采用多个降维方法，对所述待测样本进行降维处理，以获得多个处理样本，其中所述多个降维方法中的第i降维方法Pi，将所述待测样本处理为维度为Di的处理样本Si，维度Di小于所述第一数目；

多个打分单元，配置为通过多个处理模型对所述多个处理样本进行打分，其中所述多个处理模型中的第i处理模型Mi，基于预先采用支持向量域描述SVDD方式在对应维度Di的空间中所确定的超球面Qi，为对应的处理样本Si打分；

综合单元，配置为根据所述各个处理样本的打分确定所述待测样本的综合分；

确定单元，配置为根据所述综合分，确定所述待测样本是否为异常样本。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，针对待测样本，采用多种降维方法分别对其进行降维，然后对于降维后的多个处理样本，分别基于SVDD模型确立的超球面，对处理样本进行打分，最后根据多个打分的综合结果判定待测样本是否异常。由于采用多种不同的降维方法，每种降维方法所得到的特征可以互相补充，最大限度地避免了降维带来的信息损失。同时，由于经过降维处理，使得SVDD模型的应用变得实际可行，避免了维度“爆炸”带来的计算障碍。在此基础上，综合考虑各个SVDD模型的结果，可以对待测样本进行全面的评估，准确的预测。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2A示出SVM模型的示意图；

图2B示出SVDD模型的示意图；

图3示出根据一个实施例的建立预测模型的示意图；

图4示出根据一个实施例的预测异常样本的方法流程图；

图5示出根据一个实施例的预测异常样本的过程示意图；

图6示出根据一个实施例的预测异常样本的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。如图1所示，计算平台100，例如支付宝服务器，基于正常的历史样本集(例如正常的历史交易样本集)，采用支持向量域描述SVDD方式训练一个预测模型。训练过程中，为避免样本维度太高带来的计算困难，对于各个历史样本，计算平台100采用多种降维方法对其分别进行降维，得到多个降维样本集，然后采用SVDD方式分别对降维样本集进行学习，得到多个处理模型，这些处理模型可以认为是预测模型的子模型，由这些子模型的组合构成上述预测模型。如此，在获取到未知的待测样本时，将待测样本采用相同的降维方式进行降维，对应输入该预测模型中的各个子模型，通过各个子模型对待测样本进行打分，最后根据打分的综合结果来预测该待测样本是否为异常样本。下面分别描述以上两个阶段的具体实施过程。

首先，描述上述预测模型的建立和训练。如前所述，对样本进行有监督的学习，从而训练预测模型的一项主要困难在于，异常样本难以获得，数量太少，不足以对其进行监督学习。为此，本说明书的实施例采用支持向量域描述(Support Vector Domain Description)SVDD方式，仅仅基于正常历史样本来构建模型。下面描述SVDD方法的处理方式。

支持向量域描述SVDD是基于支持向量机SVM(Support Vector Machine)思想发展而来的一种模型。支持向量机SVM模型仍然是一种监督学习模型，需要预先将样本标定为不同类。训练过程中，首先将样本向量映射到一个高维空间中，在这个空间中建立一个最大间隔超平面，以分开不同类的样本。图2A示出SVM模型的示意图。在图2A中，以二维情况下对样本进行二分类为例进行示意。如图2A所示，在分开样本数据(两类样本分别示出为圆圈和×)的超平面的两边建有两个互相平行的超平面(虚线示出)，分隔超平面使这两个平行超平面的距离最大化。这两个平行超平面上的样本点称为支持向量。

基于支持向量机SVM模型发展的支持向量域描述SVDD则可以基于给定某一类别的样本进行训练。图2B示出SVDD模型的示意图。如图2B所示，SVDD模型的主要思想是，给定一定数量的同类样本，例如，正常历史样本，将这些样本映射到高维空间中，然后在这个高维空间中试图建立一个椭球，使得该椭球尽量小，同时囊括尽量多的样本。可以理解的是，上述“椭球”的概念只是为了便于描述，在高维空间中，上述椭球实际上对应高维空间的超球面。换而言之，SVDD模型的目标就是，对于各个已知的正常样本xi，在xi对应的空间中求一个中心为a，半径为R的最小超球面，使得落入这个球形内部(到球心的距离小于R)的样本点的数目尽可能多，也就是构造目标函数F：

使得：

可以理解的是，希望超球面半径R尽可能小(第一条件)，与希望该超平面囊括尽可能的样本点(第二条件)，两者是数学上矛盾的两个条件。因此，在上述公式中设定了参数C，用以衡量对第一条件和第二条件的考虑比例。例如，C值更大的情况下，就会更偏向于找一个可以囊括更多样本点的超球面；C值更小的情况下，就会更偏向于找一个更小的超球面。确定的超球面可以用于对未知样本进行预测：如果未知样本落入该超球面，那么较大概率该未知样本为正常样本；如果未知样本位于该超球面之外，则为潜在的异常样本。

尽管SVDD模型可以基于单一类型的样本数据进行建模，例如基于正常样本进行建模，但是在样本数据的维度较大的情况下，容易出现“维度爆炸”，计算效率难以满足要求。如果对样本数据进行降维处理，又会损失一些有用的信息，使得训练结果不够准确。因此，在说明书的实施例中，创新性地采用多种方式并行降维，互为补充，然后对降维的样本数据分别采用SVDD方式，来获得多个子模型，由该多个子模型综合构成预测模型。

图3示出根据一个实施例的建立预测模型的示意图。如图3所示，首先获取已知为正常的历史样本集H，其中包括已知正常的多个历史样本。一般地，这些历史样本具有较高的维度。例如，交易样本涉及的特征数据可以包括，买方信息、卖方信息、交易对象信息、交易时间、交易地点、与该交易有关的交易记录等等，其中每一项又可以进一步细化，因此在一些情况下，交易样本常常包括上千维，甚至几千维的特征数据。又例如，访问样本涉及的特征数据可以包括，访问发起方的网络地址、个人信息、发起时间、发起地点、访问目标的网络地址、相关访问记录等等，因此，正常访问样本的维度通常也在几百到上千维之间。

对于这些高维历史样本构成的样本集H，采用多种(N种)降维方法(P1，P2，…Pi,…PN)，分别对样本集H进行降维，以得到多个(N个)低维历史样本集(L1,L2,…Li,…LN)。具体地，N种降维方法中的任一降维方法Pi，通过对高维历史样本集H进行降维处理，可以得到维度为Di的低维历史样本集Li。通过N种降维方法得到的N个低维历史样本集的维度可以不相同，但是均小于原始样本的维度。

图3示意性示出了N＝4的情况。更具体地，在图3中，多种降维方法具体为：第一、第二、第三、第四降维方法，这几种降维方法分别对原始的高维历史样本集进行降维处理，分别得到第一、第二、第三、第四低维样本集，其维度分别为D1，D2，D3和D4。

上述的降维方法可以采用各种已知的、以及以后可能采用的降维算法。

在一个实施例中，上述多种降维方法包括运算降维方法。运算降维方法是对原始高维样本中的特征数据进行线性或非线性的运算，得到维度降低的处理样本。一般地，处理样本中的特征值并不直接对应于原始样本中的某个特征，而是原始样本中多个特征共同运算的结果。

例如，运算降维方法包括主成分分析PCA(Principal Component Analysis)方法。主成分分析PCA方法通过线性正交变换将原始数据n维数据变换为一组各维度线性无关的表示，变换后的结果中，第一个主成分具有最大的方差值，每个后续的成分在与前述主成分正交条件限制下具有最大方差。

更具体地，假设有m条n维数据，根据PCA方法，首先将原始数据按列组成n行m列矩阵X，对该矩阵X的每一行进行零均值化(即减去这一行的均值)，然后求出其协方差矩阵C，以及矩阵C的特征值及对应的特征向量。接着，将上述特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P，并取Y＝PX作为最后得到的降维到k维后的数据。

在一个具体例子中，运算降维方法包括最小绝对收缩和选择算子LASSO(Least absolute shrinkage and selection operator)方法。该方法是一种压缩估计，其基本思想是在回归系数的绝对值之和小于一个常数的约束条件下，使残差平方和最小化。

在一个具体例子中，数学上的小波分析过程中的一些变换操作可以排除一些干扰数据，也可以起到降维作用，因此也可以将其作为一种运算降维方法。

其他的运算降维的例子还包括，例如，线性判别LDA(Linear Discriminant Analysis)方法，拉普拉斯特征映射，矩阵奇异值分解SVD，LLE局部线性嵌入(Locally linear embedding)等等。

在一个实施例中，上述多种降维方法还可以包括特征采样方法，或称为特征选择。特征采样方法是从原始高维样本的特征数据中选择其中的一部分进行采样，即形成一个特征子集，由该特征子集构成维度降低的处理样本。此时，处理样本中的特征值可以直接对应于原始样本中的某个特征。可以理解的是，可以采用多种采样方法来进行特征采样。

在一个具体例子中，采用随机采样方法对原始数据进行特征采样，也就是，从原始高维样本中随机选择一部分特征构成处理样本。在另一例子中，采用哈希采样方法进行特征采样。根据该方法，对原始高维样本进行哈希运算，根据哈希运算的结果，确定选择哪些特征数据。

在特征选择领域，为了评价选择出的特征子集对原始高维样本的代表性和预测性，会引入特征评估函数。根据特征评估函数的不同，特征采样还可以分为过滤式(Filter)特征选择方法和包裹式(Wrapper)特征选择方法。过滤式特征选择方法一般不依赖具体的学习算法来评价特征子集，而是根据数据集的内在特性来评价每个特征的预测能力，从而找出排序较优的若干个特征组成特征子集。通常，此类方法认为最优特征子集是由若干个预测能力较强的特征组成的。包裹式特征选择方法，又称为封装式特征选择方法，用后续的学习算法嵌入到特征选择过程中，通过测试特征子集在此算法上的预测性能来决定它的优劣，而极少关注特征子集中单个特征的预测性能。

以上列举了多种运算式降维方法的例子和多种特征采样式降维方法的例子。本领域技术人员可以根据要处理的数据特点，例如根据图3获取的历史样本集中历史样本的维度、数据分布、数据结构等特点，选择适当的降维方法。

例如，在图3的例子中，假定获取的正常历史样本集中，各个历史样本维度为1000维，那么在一个例子中，第一降维方法可以采用PCA方法，降维得到100维的第一低维样本集，第二降维方法可以采用随机采样方法，降维得到300维的第二低维样本集，第三降维方法可以采样哈希采样方法，降维得到200维的第三低维样本集，等等。

可以理解的是，以上仅仅是一个举例。在不同实施例中，采用的降维方法的数目(N)可以更多或更少，采取的具体降维方法可以与以上例子不同，对于任意的具体降维方法，降维比例的设定也可以不同。

在对原始历史样本集H分别进行降维的基础上，就可以基于降维得到的N个低维历史样本集，采用SVDD方式进行学习。具体地，对于通过降维方法Pi得到的第i个低维历史样本集Li(对应维度为Di)，采用支持向量域描述SVDD方式，在维度为Di的空间中确定超球面Qi，使得该超球面Qi所包围的低维历史样本的数目与该超球面的半径之间的关系满足预定条件。如前所述，根据支持向量域描述SVDD方法的主旨思想，通过之前的公式(1)和公式(2)确定超球面Qi，希望上述超球面Qi能够包围尽量多的低维历史样本，且具有尽量小的半径。所包围的低维历史样本的数目与该超球面的半径之间的关系通过其中的参数C进行设定。

如此，针对各个低维历史样本集Li确立了对应的超球面Qi。如前所述，如此确定的超球面Qi囊括了对应维度空间中大多数的低维历史样本，而并非绝对囊括所有的样本，因此仍然会有正常样本落在超球面之外。相应地，在一个实施例中，在训练阶段，还对正常的历史样本集中所有样本，在其低维空间中相对于超球面Qi的距离分布进行统计。例如统计所有正常样本在各个低维空间中距离超球面Qi中心的平均距离，最大距离等。这些统计的距离可用于确定预测阶段所需的判定阈值。

通过以上过程，针对正常的历史样本集，采用SVDD模型对其进行了学习。更具体地，采用多种降维方法分别对历史样本集进行降维，然后对于各个降维后的样本集，分别采用SVDD模型确立对应的超球面。由于采用多种不同的降维方法，每种降维方法所得到的特征可以互相补充，最大限度地避免了降维带来的信息损失。同时，由于经过降维处理，使得SVDD的应用变得实际可行，避免了维度“爆炸”带来的计算障碍。

在此基础上，可以采用通过以上方式建立的模型来预测未知样本。

图4示出根据一个实施例的预测异常样本的方法流程图，该方法的执行主体可以是图1所示的计算平台。如图4所示，该实施例中预测异常样本的方法包括以下步骤：步骤41，获取待测样本，其包括维度为第一数目的特征数据；步骤42，采用多个降维方法，分别对所述待测样本进行降维处理，以获得多个处理样本，其中所述多个降维方法中的第i降维方法Pi，将所述待测样本处理为维度为Di的处理样本Si，维度Di小于所述第一数目；步骤43，将多个处理样本分别对应输入多个处理模型，以获得各个处理样本的打分，其中第i处理模型Mi，基于预先采用支持向量域描述SVDD方式在对应维度空间中确定的超球面Qi，为对应的处理样本Si打分；步骤44，根据各个处理样本的打分确定所述待测样本的综合分；步骤45，根据所述综合分，确定所述待测样本是否为异常样本。下面描述以上各个步骤的具体执行方式。

首先在步骤41，获取待测样本T。可以理解，待测样本是分类未知的样本，并且与用于模型训练的历史样本一样都是高维样本，更具体地，待测样本与前述历史样本集中的历史样本具有相同的维度。该维度数目在此称为第一数目。

接着在步骤42，采用多个降维方法，分别对待测样本T进行降维处理，以获得多个处理样本。可以理解，此处的多个降维方法与训练阶段的多个降维方法分别对应一致。具体地，上述多个降维方法中的第i降维方法Pi，将所述待测样本T处理为维度为Di的处理样本Si，维度Di小于所述第一数目。通过多个降维方法分别得到的多个处理样本的维度之间可以不同，但是均小于待测样本的原始维度(第一数目)。

如前所述，降维方法可以采用各种已知的、以及以后可能采用的降维算法，例如包括运算降维方法，特征采样方法。运算降维方法进一步包括以下中的一项或多项：主成分分析PCA方法、最小绝对收缩和选择算子LASSO方法、小波分析方法、线性判别LDA方法、拉普拉斯特征映射、矩阵奇异值分解SVD、LLE局部线性嵌入，等等。特征采样方法进一步包括以下中的一项或多项：随机采样方法、哈希采样方法、过滤式特征选择方法、包裹式特征选择方法，等等。以上各种具体降维方法的具体描述可以参见之前的说明，在此不再赘述。但需要理解的是，不管具体采用了哪几种降维方法，步骤 42中采用的多种降维方法需与历史样本学习阶段的降维方法相一致。

在通过多种降维方法将待测样本降维为多个处理样本之后，在步骤43，将该多个处理样本分别对应输入多个处理模型，以获得各个处理样本的打分，其中第i处理模型Mi，基于预先采用支持向量域描述SVDD方式在对应维度空间中确定的超球面Qi，为对应的处理样本Si打分。

可以理解，在历史样本学习阶段，已经采用支持向量域描述SVDD方式，在各个降维之后的空间中确定了相应的超球面Qi，该超球面Qi具有尽量小的半径且能够囊括尽量多的降维后的历史样本。因此，该超球面Qi可以用于判断或预测具有相同维度的、当前输入的处理样本是异常样本的可能性。具体地，在一个实施例中，通过打分的方式来衡量这样的可能性。

在一个实施例中，处理模型Mi为对应的处理样本Si打分的过程可以包括：确定处理样本Si在对应维度空间中与超球面Qi的位置关系；根据所述位置关系，确定处理样本Si的打分。

更具体地，上述位置关系可以是，处理样本Si位于所述超球面Qi之外、之内或之上。例如，在一个示例中，处理模型Mi可以设定为，如果处理样本Si在对应维度空间(Di维空间)中位于超球面Qi之内，则其打分为1；如果处理样本Si正好位于超球面Qi的表面上(类似于支持向量)，则其打分为0.5；如果处理样本Si位于超球面Qi之外，则其打分为0分。如此，较高的分数意味着，该处理样本Si有较大的可能对应于正常样本。

在一个实施例中，上述位置关系可以是与超球面Qi的距离。更具体地，在一个例子中，处理模型Mi根据处理样本Si在对应维度空间中距离超球面Qi的中心的距离d，为该处理样本Si打分。其中，处理样本Si和超球面的中心分别对应于维度为Di的空间中的点，因此距离d的计算可以采用多维空间中两点距离的计算方式来确定。在计算得到距离d的基础上，例如可以根据以下公式计算处理样本Si的打分Gi：

Gi＝exp(-d) (3)

根据该公式(3)，Gi取值在0到1之间，且处理样本Si距离超球面Qi中心的距离越小，即越接近超球面中心，d越小，Gi值越大；处理样本Si距离超球面Qi中心的距离越大，即越远离超球面中心，d越大，Gi值越小。如此，较大的Gi分值意味着，该处理样本Si有较大概率对应于正常样本。

在另一实施例中，通过不同的方式计算处理样本Si与超球面的距离。例如，在一些SVDD模型下，获取到的超球面Qi并不对应于一个各向同性的正球体，而是在不同方向具有不同“半径”，类似于三维空间的椭球。在这样的情况下，在一个实施例中，首先判断处理样本Si是否位于超球面Qi之内，如果位于超球面Qi之内，则令Gi＝1；如果处理样本Si位于超球面Qi之外，那么计算处理样本Si在对应维度空间中与超球面Qi的最近表面的距离d，并根据该距离d，利用公式(3)计算打分Gi。

以上仅仅是给出了基于预先确定的超球面对处理样本进行打分的具体例子。在阅读这些例子的情况下，本领域技术人员可以对其进行修改、替换、结合或扩展，从而采用更多种打分方式，这些都应该涵盖在本说明书的构思之中。并且，步骤43中，多个处理模型分别对相应维度的处理样本进行打分，其中多个处理模型各自采用的打分算法可以相同，也可以不同。

在步骤43中各个处理模型Mi分别为各个处理样本Si进行打分的基础上，接着在步骤44，根据各个处理样本的打分确定待测样本的综合分。

根据一个实施例，在该步骤中，对各个处理样本的打分直接求和，将求和结果作为综合分。在另一实施例中，预先为各个处理模型的打分分配一定的权重，根据分配的权重，对各个处理样本的打分进行加权求和，由此获得所述综合分。

于是，在步骤45，根据所述综合分，确定待测样本是否为异常样本。根据一个实施例，在该步骤中，将步骤44确定的综合分与预先确定的阈值进行比较，根据比较结果，确定待测样本是否为异常样本。可以理解，该阈值的确定与步骤43中的打分算法有关。例如，在根据公式(3)进行打分的情况下，更高的综合分意味着，待测样本有更大概率对应于正常样本。另一方面，在一个实施例，上述阈值可以根据样本学习阶段的统计来确定。如前所述，在样本学习阶段，还可以对正常的历史样本集中所有样本，在其低维空间中相对于超球面Qi的距离分布进行统计。在一个实施例中，根据这些距离统计，采用与步骤43一致的打分算法，对正常的历史样本计算综合分的统计，根据综合分统计来确定判定阈值。基于如此确定的阈值，在步骤45中，就可以简单地通过阈值比较来确定，待测样本是否为异常样本。

图5示出根据一个实施例的预测异常样本的过程示意图，并且，图5的预测过程是基于图3所建立的预测模型而实现的。如图5所示，首先获取高维的待测样本T。待测样本T的维度与图3所示的历史样本集H中的样本维度相同。接着，采用多种降维方法，分别待测样本T进行降维，得到多个处理样本。具体地，与图3对应地，上述多种降维方法具体为：第一、第二、第三、第四降维方法，这几种降维方法分别对原始的待测样本T进行降维处理，分别得到第一、第二、第三、第四处理样本，其维度分别为D1，D2，D3和D4。

然后，将第一、第二、第三、第四处理样本分别对应输入第一、第二、第三、第四处理模型，以获得各个处理样本的打分。具体地，第一处理模型基于图3中获得的超球面Q1，为第一处理样本打分G1，第二处理模型基于图3中获得的超球面Q2，为第二处理样本打分G2，第三处理模型基于图3中获得的超球面Q3，为第三处理样本打分G3，第四处理模型基于图3中获得的超球面Q4，为第四处理样本打分G4。然后，根据各个处理样本的打分G1-G4确定待测样本的综合分G，根据该综合分G，确定所述待测样本是否为异常样本。

通过以上过程，针对待测样本，采用多种降维方法分别对其进行降维，然后对于降维后的多个处理样本，分别基于SVDD模型确立的超球面，对处理样本进行打分，最后根据多个打分的综合结果判定待测样本是否异常。由于采用多种不同的降维方法，每种降维方法所得到的特征可以互相补充，最大限度地避免了降维带来的信息损失。同时，由于经过降维处理，使得SVDD模型的应用变得实际可行，避免了维度“爆炸”带来的计算障碍。在此基础上，综合考虑各个SVDD模型的结果，可以对待测样本进行全面的评估，准确的预测。

根据另一方面的实施例，还提供一种预测异常样本的装置。图6示出根据一个实施例的预测异常样本的装置的示意性框图。如图6所示，该装置600包括：获取单元61，配置为获取待测样本，所述待测样本包括维度为第一数目的特征数据；多个降维单元62，所述多个降维单元分别采用多个降维方法，对所述待测样本进行降维处理，以获得多个处理样本，其中所述多个降维方法中的第i降维方法Pi，将所述待测样本处理为维度为Di的处理样本Si，维度Di小于所述第一数目；多个打分单元63，配置为通过多个处理模型对所述多个处理样本进行打分，其中所述多个处理模型中的第i处理模型Mi，基于预先采用支持向量域描述SVDD方式在对应维度Di的空间中所确定的超球面Qi，为对应的处理样本Si打分；综合单元64，配置为根据所述各个处理样本的打分确定所述待测样本的综合分；确定单元65，配置为根据所述综合分，确定所述待测样本是否为异常样本。在图6中，多个降维单元62和多个打分单元均示意性示出为3个，但是可以理解，降维单元和打分单元的数目可以根据需要进行设定，并不局限于图6的图示。

在一个实施例中，上述多个降维单元62所采用的多个降维方法包括运算降维方法和特征采样降维方法中的至少一种。

根据一个实施例，上述运算降维方法包括以下中的一种或多种：主成分分析PCA方法，最小绝对收缩和选择算子LASSO方法，线性判别式分析LDA方法，小波分析方法。

根据一个实施例，上述特征采样降维方法包括以下中的一种或多种：随机采样方法，哈希采样方法，过滤式特征选择方法，包裹式特征选择方法。

在一个实施例中，上述第i处理模型Mi通过第i训练装置(未示出)训练，所述第i训练装置包括：样本集获取模块，配置为获取已知为正常的历史样本集，所述历史样本集的样本维度为所述第一数目；第i降维模块，配置为采用所述第i降维方法Pi，将所述历史样本集处理为样本维度为Di的低维历史样本集Li；超球面确定模块，配置为采用支持向量域描述SVDD方式，在维度为Di的空间中确定所述超球面Qi，使得该超球面Qi所包围的低维历史样本集Li中的样本数目与该超球面的半径之间的关系满足预定条件。

根据一个实施例，上述多个打分单元63配置为：确定所述处理样本Si在对应维度Di的空间中与所述超球面Qi的相对位置；根据所述相对位置，确定处理样本Si的打分。

在一个实施例中，所述相对位置包括以下之一：

所述处理样本Si位于所述超球面Qi之外、之内或之上；

所述处理样本Si在对应维度空间中距离所述超球面Qi的中心的距离；

所述处理样本Si在对应维度空间中距离所述超球面Qi的最近表面的距离。

根据一个实施例，综合单元64配置为：对所述各个处理样本的打分进行加权求和，获得所述综合分。

通过以上装置，针对待测样本，采用多种降维方法分别对其进行降维，各个降维方法互相补充，以此避免降维带来的信息损失。对于降维后的多个处理样本，分别基于SVDD模型确立的超球面，对处理样本进行打分，最后根据多个打分的综合结果判定待测样本是否异常。由此，综合考虑各个SVDD模型的结果，对待测样本进行全面评估，准确预测。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图3到图5所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图3到图5所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

一种预测异常样本的方法，包括：

获取待测样本，所述待测样本包括维度为第一数目的特征数据；

采用多个降维方法，分别对所述待测样本进行降维处理，以获得多个处理样本，其中所述多个降维方法中的第i降维方法Pi，将所述待测样本处理为维度为Di的处理样本Si，维度Di小于所述第一数目；

将所述多个处理样本分别对应输入多个处理模型，以获得各个处理样本的打分，其中所述多个处理模型中的第i处理模型Mi，基于预先采用支持向量域描述SVDD方式在对应维度Di的空间中所确定的超球面Qi，为对应的处理样本Si打分；

根据所述各个处理样本的打分确定所述待测样本的综合分；

根据所述综合分，确定所述待测样本是否为异常样本。
根据权利要求1所述的方法，其中所述多个降维方法包括运算降维方法和特征采样降维方法中的至少一种。
根据权利要求2所述的方法，其中所述运算降维方法包括以下中的一种或多种：主成分分析PCA方法，最小绝对收缩和选择算子LASSO方法，线性判别式分析LDA方法，小波分析方法。
根据权利要求2所述的方法，其中所述特征采样降维方法包括以下中的一种或多种：随机采样方法，哈希采样方法，过滤式特征选择方法，包裹式特征选择方法。
根据权利要求1所述的方法，其中所述第i处理模型Mi通过以下步骤训练：

获取已知为正常的历史样本集，所述历史样本集的样本维度为所述第一数目；

采用所述第i降维方法Pi，将所述历史样本集处理为样本维度为Di的低维历史样本集Li；

采用支持向量域描述SVDD方式，在维度为Di的空间中确定所述超球面Qi，使得该超球面Qi所包围的低维历史样本集Li中的样本数目与该超球面的半径之间的关系满足预定条件。
根据权利要求1中所述的方法，其中为对应的处理样本Si打分包括：

确定所述处理样本Si在对应维度空间中与所述超球面Qi的相对位置；

根据所述相对位置，确定处理样本Si的打分。
根据权利要求6所述的方法，其中所述相对位置包括以下之一：

所述处理样本Si位于所述超球面Qi之外、之内或之上；

所述处理样本Si在对应维度空间中距离所述超球面Qi的中心的距离；

所述处理样本Si在对应维度空间中距离所述超球面Qi的最近表面的距离。
根据权利要求1所述的方法，其中根据所述各个处理样本的打分确定所述待测样本的综合分包括：对所述各个处理样本的打分进行加权求和，获得所述综合分。
一种预测异常样本的装置，包括：

获取单元，配置为获取待测样本，所述待测样本包括维度为第一数目的特征数据；

多个降维单元，所述多个降维单元分别采用多个降维方法，对所述待测样本进行降维处理，以获得多个处理样本，其中所述多个降维方法中的第i降维方法Pi，将所述待测样本处理为维度为Di的处理样本Si，维度Di小于所述第一数目；

多个打分单元，配置为通过多个处理模型对所述多个处理样本进行打分，其中所述多个处理模型中的第i处理模型Mi，基于预先采用支持向量域描述SVDD方式在对应维度Di的空间中所确定的超球面Qi，为对应的处理样本Si打分；

综合单元，配置为根据所述各个处理样本的打分确定所述待测样本的综合分；

确定单元，配置为根据所述综合分，确定所述待测样本是否为异常样本。
根据权利要求9所述的装置，其中所述多个降维方法包括运算降维方法和特征采样降维方法中的至少一种。
根据权利要求10所述的装置，其中所述运算降维方法包括以下中的一种或多种：主成分分析PCA方法，最小绝对收缩和选择算子LASSO方法，线性判别式分析LDA方法，小波分析方法。
根据权利要求10所述的装置，其中所述特征采样降维方法包括以下中的一种或多种：随机采样方法，哈希采样方法，过滤式特征选择方法，包裹式特征选择方法。
根据权利要求9所述的装置，其中所述第i处理模型Mi通过第i训练装置训练，所述第i训练装置包括：

样本集获取模块，配置为获取已知为正常的历史样本集，所述历史样本集的样本维度为所述第一数目；

第i降维模块，配置为采用所述第i降维方法Pi，将所述历史样本集处理为样本维度为Di的低维历史样本集Li；

超球面确定模块，配置为采用支持向量域描述SVDD方式，在维度为Di的空间中确定所述超球面Qi，使得该超球面Qi所包围的低维历史样本集Li中的样本数目与该超球面的半径之间的关系满足预定条件。
根据权利要求9所述的装置，其中所述多个打分单元配置为：

确定所述处理样本Si在对应维度Di的空间中与所述超球面Qi的相对位置；

根据所述相对位置，确定处理样本Si的打分。
根据权利要求14所述的装置，其中所述相对位置包括以下之一：

所述处理样本Si位于所述超球面Qi之外、之内或之上；

所述处理样本Si在对应维度空间中距离所述超球面Qi的中心的距离；

所述处理样本Si在对应维度空间中距离所述超球面Qi的最近表面的距离。
根据权利要求9所述的装置，其中所述综合单元配置为：对所述各个处理样本的打分进行加权求和，获得所述综合分。
一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。
一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的方法。