WO2019233189A1

WO2019233189A1 - 一种传感网络异常数据检测方法

Info

Publication number: WO2019233189A1
Application number: PCT/CN2019/082673
Authority: WO
Inventors: 李光辉; 许欧阳
Original assignee: 江南大学
Priority date: 2018-06-04
Filing date: 2019-04-15
Publication date: 2019-12-12
Also published as: CN108777873B; US20200374720A1; CN108777873A

Abstract

本发明公开了一种传感网络异常数据检测方法，属于无线传感器网络数据可靠性检测领域。通过利用传感器节点采集的历史数据集，以孤立森林算法为基础构造一定规模的孤立树集合iforest,在其各叶子节点上引入待测样本与其各类样本中心的距离信息，并结合多样性度量对孤立树进行权值系数的设定，构造加权混合孤立森林Whiforest模型，最终利用改进得到的加权混合孤立森林Whiforest模型对无线传感网络数据异常情况进行判定。通过对各传感器节点数据集进行实验，结果表明该方法由于基于森林中各棵树对最终异常分值的计算所给予的贡献不同而设定其权值系数，因而较传统iforest模型，异常检测的精度得到了提高。

Description

[根据细则91更正 11.10.2019]　一种传感网络异常数据检测方法

技术领域

[根据细则91更正 11.10.2019]　
本发明涉及一种传感网络异常数据检测方法，属于无线传感器网络数据可靠性检测领域。

背景技术

无线传感器网络(Wireless Sensor Network,WSN)是由大量的静止或移动的传感器以自组织和多跳的方式构成的无线网络，以协作地感知、采集、处理和传输网络覆盖地理区域内被感知对象的信息，并最终把这些信息发送给网络的所有者；而数据作为无线传感网络中承载被感知对象的信息的载体，包含有很多有用的信息，在采集数据的过程中，传感器易受环境中各类噪声或事件的影响，包括节点自身故障、环境噪声以及外部攻击等。它们都会对节点采集到的数据产生影响，进而导致所监测到的环境状态不正确，为确保无线传感器网络能够准确反映所监测的环境状态，通常需要采用各种异常检测技术找出其中的异常数据。

现有针对无线传感器网络异常数据检测方案主要分为集中式检测方案和分布式检测方案，其中，集中式检测方案要求每个节点都需要将自己的数据传送给汇聚节点，因而其网络的健壮性非常差；而分布式检测方案为提高网络的健壮性和生命周期，让各个节点都能够自动检测异常数据，但每一个节点只根据自己所建立的模型来检测异常数据，因而误报率较高，检测率也较低。

F.T.Liu等人提出的孤立森林算法在数据异常检测中具有广泛应用，该算法主要是通过对历史数据集构建孤立树集成模型，并以测试样本的平均搜索深度计算其异常分值s(Y)，对当前检测样本集的异常分值降序排列并取前一定数目的样本作为检测出来的异常值，从而决定其异常与否。该方法的优点是原理简单、算法复杂度较低且检测精度理想，但其对于一些凹面数据集的异常检测适用性较低，即当正常数据点和异常数据点之间存在部分交叉，此时按照检测路径长度越短异常分值越大原则则会导致检测效果较差，并且忽略了森林中各棵树对最终异常分值的计算所给予的贡献应当不同，该方法在无线传感器网络异常数据检测应用中尚未见到。

发明内容

为了解决目前存在的孤立森林算法对于凹面数据集的异常检测适用性较低且没有对森林中各棵树对最终异常分值的计算所给予的贡献进行区分的问题，本发明提供一种无线传感器网络异常数据检测方法，所述方法包括：

以孤立森林算法为基础，利用传感器节点采集的历史数据集构造孤立树集合iforest；在孤立树集合iforest中各孤立树的各叶子节点上引入待测样本与其各类样本中心的距离信息；结合多样性度量设定各孤立树的权值系数，构造加权混合孤立森林Whiforest模型，利用Whiforest模型对待测样本中无线传感器网络数据的异常情况进行判定。

可选的，所述以孤立森林算法为基础，利用传感器节点采集的历史数据集构造孤立树集合iforest之前，还包括：

将传感器节点采集的历史数据集划分为训练集和测试集。

可选的，所述以孤立森林算法为基础，利用传感器节点采集的历史数据集构造孤立树集合iforest；在孤立树集合iforest中各孤立树的各叶子节点上引入待测样本与其各类样本中心的距离信息；结合多样性度量设定各孤立树的权值系数，构造加权混合孤立森林Whiforest模型，包括：

步骤1：以历史数据集中的训练集的数据构建孤立树集合iforest中的各孤立树，包括设定参数bootstrap采样数ψ、森林规模大小T、权值系数阈值μ、验证样本集Val_W的大小和已知异常样本添加率ratio；

步骤2：根据已知异常样本添加率ratio随机选取已知异常样本加入到iforest中的各孤立树中；

步骤3：计算每棵树的叶子结点中的训练样本中心Cen-s，以及每个待测样本x在叶节点中与Cen-s间的距离δ(x)，将其在森林中的每棵树的均值记作s _c(x)；

s _c(x)＝E(δ(x))

步骤4：在其叶子结点中计算异常样本中心Cen-a，并计算每个待测样本x在叶节点中与上述的Cen-a间的距离记作δ _a(x)，并将δ(x)和δ _a(x)在所有孤立树中均值的比值记作s _a(x)；

步骤5：根据历史采集的数据集选取验证样本集Val-W，并使用上述建立好的孤立树集合iforest对其检测，结合集成学习中基分类器多样性的思想，通过不合度量对森林中孤立树间的多样性进行计算，得到一个对角为0的T*T对称矩阵diversity；其中，T为孤立树集合iforest中孤立树的棵数；

步骤6：对所述diversity矩阵求和,并按森林规模大小T作商得到B _index，此刻将B _index值与阈值μ比较，权值设置如下所示；

步骤7：设定B _index值大于等于μ的树的权值w1＝B _index+1；小于μ的树的权值w2＝1-B _index，对s _c(x)和s _a(x)变量都乘以w1和w2，以下式计算s _c(x)和s _a(x)：

s _c(x)＝W*δ(x)

δ _a(x)＝W*δ _a(x)

步骤8：将当前数据窗口内样本的原始Score(x)分值以及目前引入的基于距离的2个分值即{Score，s _a(x)，s _c(x)}进行归一化处理，使用的归一化公式如下所示，

其中s(x)代指上述Score、s _a(x)、s _c(x)3个分值，

为归一化后的值，最终以下式融合上述3个分值得到最终的窗口样本异常分值s _final；

步骤9：降序排列s _final，根据领域知识或参考原先数据集已知的异常数目比例ratio，得到异常分值最高的数据样本，再和待测数据样本标记对比，计算检测率以及误报率相关评价指标；

步骤10：若节点检测到数据窗口内有异常样本，则将其所属顺序编号传递到簇头节点，进行下一步的验证或处理。

可选的，所述步骤4中，若叶节点无异常样本，则其异常样本中心Cen-a记为0。

可选的，所述步骤6中，对所述diversity矩阵求和为对所述diversity矩阵按列求和。

可选的，所述步骤1中，孤立树构建终止条件：样本不可再分，即只包含一条数据值或数据样本完全相同或孤立树的深度达到最大值log(ψ)，其中ψ为参数bootstrap采样数。

可选的，所述步骤8中，当前数据窗口内样本的原始Score(x)分值根据下述公式计算得到：

其中，h(x)表示数据样本x在某棵树上的路径长度，C(ψ)为以采样数ψ构建的Itree的平均搜索路径长度。

可选的，所述数据样本x在某棵树上的路径长度h(x)＝e+C(T.size)，C(T.size)是以T.size条数据构建的二叉树的平均路径长度。

本发明的另一个目的在于提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

本发明的第三个目的在于提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述方法。

本发明有益效果是：

通过利用传感器节点采集的历史数据集，以孤立森林算法为基础构造一定规模的孤立树集合iforest，在其各叶子节点上引入待测样本与其各类样本中心的距离信息，并结合多样性度量对孤立树进行权值系数的设定，最终利用改进的孤立森林算法对无线传感网络数据异常情况进行判定。通过对各传感器节点数据集进行实验，结果表明该方法由于基于森林中各棵树对最终异常分值的计算所给予的贡献不同而设定其权值系数，因而提高了异常检测的精度，具有广阔的应用前景。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种无线传感器网络异常数据检测方法的流程示意图。

图2为基于加权混合孤立森林的无线传感网络异常数据检测方法中的AGD数据集示意图之一。

图3为基于加权混合孤立森林的无线传感网络异常数据检测方法中的AGD数据集示意图之二。

图4为基于加权混合孤立森林的无线传感网络异常数据检测方法中的传统iforest模型的异常分值图。

图5为基于加权混合孤立森林的无线传感网络异常数据检测方法中的Whiforest模型的异常分值图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本申请通过对孤立森林算法进行改进，提出了一种无线传感器网络异常数据检测方法，该方法基于加权混合孤立森林(Weighted Hybrid Isolation Forest，Whiforest)对无线传感器网络异常数据进行检测：首先以孤立森林算法为基础，构造一定规模的孤立树集合iforest，在其各叶子节点上引入待测样本与其各类样本中心的距离信息，并结合多样性度量对孤立树进行权值系数的设定，最终利用改进的孤立森林算法对无线传感网络数据异常情况进行判定。为进一步阐明方法的原理和创新之处，首先介绍一些基本概念：

1、检测率，指算法检测到的异常数据样本数与数据集中实际所含异常数据样本总数之比。

2、误报率，指被算法误判为异常数据样本的正常数据样本数与总的正常数据样本数之比。

3、数据窗口，在执行异常检测时，通常会选取最近一个时间段内的数据，对传感器数据取固定长度的滑动窗口作为一个数据块进行检测处理。

4、孤立树构建终止条件，样本不可再分，即只包含一条数据值或数据样本完全相同或孤立树的深度达到最大值log(ψ)，其中ψ为孤立树的根节点数据采样数。

5、搜索路径深度h(x)，表示数据样本x在孤立树上的路径长度，其中T.size表示训练时与x落在同一叶子节点的样本数目，e代表的是样本x从根节点到叶子节点所经过的边的个数。

h(x)＝e+C(T.size)

6、二叉树的平均路径长度C(n)，是以一定数目的数据构建的二叉树的平均路径长度。其中，H(n-1)可用ln(n-1)+0.5772156649估算，后边一项为欧拉常数e。

7、检测异常分值Score(x)，待测数据样本的最终异常分值Score(x)，由数据x的路径长度均值E(h(x))和以采样数ψ构建的树的平均搜索路径长度C(ψ)归一化得到。

一、模型训练阶段：

使用bootstrap自助采样构建一定数目的孤立树(Isolation Tree，Itree)，首先从总的训练样本中采样ψ个数据样本，并随机选取某个属性(比如温度、湿度等)作为根节点，同时在该属性的2个最值(最大值和最小值)间获取一个随机值，使得根节点中小于该值的样本划分在它的左子节点，而大于等于该值的置于右子节点中。接着以左右子节点分别作为根节点递归执行下去。依次按以上操作进行每棵树的构建，完成模型的训练。

二、待测样本检测阶段：

结合森林中所有孤立树的检测结果，获得每个数据点的异常分值。样本x的异常分值是由它在每棵Itree中的搜索路径深度h(x)决定的。具体过程是将x沿着一棵Itree的根节点按不同属性以及不同取值大小一直向下搜索，直到抵达叶子节点。

下面用2个实例来理解孤立森林的具体过程。

现有一组如下图2-6所示的1维数据，我们的目的是把点A和点B分离出来。使用的方式即先在最大值和最小值间随机选择一个值s(这里属性只有1维，不考虑属性的选择)，然后按照小于s以及大于等于s将数据分成左右两组。递归执行上述步骤，当数据样本不可分停止。由下图可以看出点B相对于其他数据所处位置偏边缘，只需很少的次数就可以把它孤立出来；而点A所处位置则为大多数蓝色点的重叠处，这就需要更多的次数才能把它孤立出来。

此刻换作2维数据集，若2个特征分别为x和y，则顺着两个属性轴进行随机划分，为了分离出下图2-7中的点C和点D。我们先随机选择x和y中的任意一个，按照上文中对1维数据的处理方式，依据和特征值的大小关系将数据划分为左右两块。依然按上文方式划分直到无法细分，在这里无法细分指的就是划分后的小块数据中只剩下1个数据点，或所剩数据完全相同。直观上就可以看出，点D相对于其他数据点比较偏远，只需要几次划分就可以将它分离出来；而点C所处位置偏数据块的中央密集处，所以需要的划分次数会更多一些。

以上述2个实例看，B和D相对于其他数据相隔的距离较远，被认为是异常数据，而A和C会被认为是正常数据。异常数据对比其他数据点直观上看会显得较为偏远，可能需要较少几次数据空间划分就可将它们单独分离，而正常数据则与异常数据相反。这也就是Isolation Forest的核心工作原理。

实施例一：

本实施例提供一种无线传感器网络异常数据检测方法，参见图1，所述方法包括：

S1：对传感器节点采集所得的历史数据集进行划分，分别为训练集和测试集。

S2：利用训练集构造孤立树集合iforest。

S3：对S2中所得模型手动添加少量已知异常样本，并基于孤立树叶节点的两类距离信息融合森林中多样性计算所得的权值系数建立Whiforest模型。

S4：对于各分布节点，当有一定数量的新样本进入数据窗口内时，使用已经训练好的Whiforest模型对这些新数据进行检测得到异常分值并判断数据是否异常。

S5：若S4中存在样本异常，则将节点对数据的检测结果传递给簇头节点，以便执行进一步的后续操作。

具体的，首先分别给出待测数据样本与孤立树叶结点中正常、异常数据样本中心的距离信息(即s _c(x)和δ _a(x))这两个定义。

定义1在训练阶段，计算每棵树叶子结点中的训练样本中心Cen-s，以及每个待测样本x在叶节点中与上述的Cen-s间的距离，将其在森林中的每棵树的均值记作s _c(x)。

定义2随机选取少量已知异常样本加入到已经训练完毕的Itrees中，在其叶子结点中计算异常样本中心Cen-a(若某些叶节点无异常样本，则记为0)，并计算每个待测样本x在叶节点中与上述的Cen-a间的距离记作δ _a(x)。

所提Whiforest算法又进一步结合了集成学习中基分类器多样性的思想，在孤立森林对数据执行异常检测时，每棵树会对各个待测样本给出异常分值，该算法结合每棵树的多样性及其检测精度设定了权值，进而使得多样性大的一些树对最终异常指数值得大小判定有更大的控制权。

首先选取一定数目的样本Val-W，并使用事先训练好的孤立森林对其检测，通过多样性尺度对森林中每棵树之间的多样性进行计算，得到一个对角为0的T*T对称矩阵diversity，对diversity矩阵按列求和并按森林规模大小T作商得到B _index，此刻将B _index值与阈值μ比较，权值设置如公式(2)所示，设定B中值大于等于μ的树的权值w1＝B _index+1，小于μ的树的权值w2＝1-B _index。对后边用到的几个变量都乘以w1和w2。

s _c(x)＝W*δ(x) (3)

δ _a(x)＝W*δ _a(x) (4)

通过对δ(x)以及δ _a(x)的加权W处理以后，再以上述公式(3)和(4)计算s _c(x)和s _a(x)，接着将原始Score分值以及目前引入的基于距离的2个分值即{Score,s _a(x),s _a(x)}进行归一化处理(使用的归一化公式如下(5)所示，其中s(x)代指的就是上述3个分值，

为归一化后的值)，最终以公式(6)融合3个分值得到最终的异常分值s _final。

当得到待测样本的异常得分s _final后，首先将它降序排列，根据领域知识或参考原先数据集已知的异常数目比例ratio，得到异常分值最高的一定数目的数据样本，再和待测数据样本标记对比，计算检测率以及误报率相关评价指标。WhisolationForest算法伪代码具体如下所示。

算法设计：

该算法具有两个相对较优的特点：1)若数据集呈图3所示的分布，则由该算法执行检测时，由于在异常分值计算时加入了叶子结点两个中心的距离信息，使得处于正常样本中心的异常点被漏报的概率大大降低，有效地提高了对该类异常值的检测率；2)没有加入权值系数时的算法对于某些数据样本的检测会受到森林中某些相关度较低的孤立树的决策结果的影响，对检测结果也存在一定程度上的负面影响，而Whiforest算法则通过不合度量以及权值系数的加入，进一步提高了检测精度并降低了误报率。

实施例二

本实施例提供实施例一所示的无线传感器网络异常数据检测方法的实际应用，利用无线传感网络节点所采集的数据流样本，以孤立森林算法为基础，首先构造一定规模的孤立树集合iforest，在其各叶子节点上引入待测样本与其各类样本中心的距离信息，并结合多样性度量对孤立树进行权值系数的设定，最终利用改进的孤立森林算法对WSN单位大小的数据样本集中异常分值降序排列，并结合参数ratio进行异常情况的判定。以下给出该方法在具体数据集中的实施案例。

数据样本来源于英特尔伯克利实验室中所部署的WSN节点所采集的数据(IBRL)，该系统包含有54个MICA2传感器节点，每个节点的数据采样周期为30s，采集数据特征包含温度、湿度、光照强度以及节点电压4个属性。在此选取25号节点在2004年3月份测得的 7500组温度、湿度以及光照强度作为样本数据。其中t表示温度数据矩阵，h表示湿度数据矩阵，l表示光照强度数据矩阵，则有：

t＝[19.616，19.449，-19.760，19.145，-16.898，18.933，-14.468，-13.527，-13.390…29.406，18.606，18.587，18.557，18.538，18.498，18.479，18.479，18.469…18.302，18.322，18.322，18.322，18.322，18.312，18.302，18.302，18.302….18.293，18.263，18.244，18.263，18.244，18.234，18.234，18.224，18.214...17.920，17.930，17.930，17.921，17.901，17.901，17.891，17.891，17.871...17.861，17.861，17.852，17.842，17.852，17.832，17.832，17.823，17.822…...]；

h＝[37.573，37.847，22.465，38.394，22.538，38.803，22.685，22.721，22.685…23.051，39.552，39.552，39.687，39.687，39.755，39.755，39.823，40.026…40.060，39.959，39.959，39.925，39.959，39.925，39.925，39.959，39.891….39.959，40.026，40.026，40.026，40.026，39.959，40.026，40.026，40.060...40.162，40.094，40.094，40.162，40.094，40.094，40.263，40.162，40.196...40.229，40.229，40.229，40.230，40.2976，40.196，40.229，40.229，40.264…...]；

l＝[97.52，97.52，0.46，97.52，0.46，97.52，0.46，0.46，0.46…0.46，97.52，101.2，97.52，97.52，97.52，97.52，101.2，97.52…97.52，97.52，97.52，97.52，97.52，101.2，97.52，97.52，97.52….101.2，101.2，101.2，101.2，101.2，101.2，101.2，101.2，101.2...97.52，97.52，97.52，97.52，101.2，101.2，101.2，97.52，101.2...101.2，97.52，97.52，97.52，97.52，97.52，97.52，101.2，101.2…...]；

将上述t、h以及l组成大小为s行3列的矩阵D，在此将它按3：1拆分成训练数据样本Train和测试数据样本Test，以Train数据集为输入进行孤立森林的训练，并在训练过程中根据领域知识添加少量已知异常样本计算2种距离，接着选取大小为val-w的验证样本集，使用该森林计算每棵树的不合度量值，结合其检测精度以及权值系数阈值μ为该森林中每棵孤立树设定权值系数。

使用引入了距离信息的森林模型对Test数据集执行检测，对当前单位大小size-t个样本的异常分值降序排列，结合ratio，取前size-t*ratio个数据作为当前单位大小样本集中的异常数据；而后续异常分值更低的数据点则为正常值。

为体现该实施例一所示的方法在凹面数据集上的优势，另外在人工生成的AGD(Artificial Global Dataset)数据集上进行了实验，该数据集的属性数目为3，选取的测试数据集大小分别是15000和21000。该数据分布大致为一个中心以及边缘分别存在异常簇的同心球体，如图3所示。本实验中，生成该数据集的基本参数有中心异常簇以及边缘异常簇样本的分布均值和协方差，分别表示为mea-center、mea-edge以及cov-center和cov-edge，具体参数设置如下表所示。

表1：AGD数据集具体参数

具体检测流程中，选取部分测试数据的检测结果可参照图4和图5，可以看出本发明中的算法对中心异常点以及边缘异常点的检测率明显高于传统孤立森林算法。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种无线传感器网络异常数据检测方法，其特征在于，所述方法包括：

以孤立森林算法为基础，利用传感器节点采集的历史数据集构造孤立树集合iforest；在孤立树集合iforest中各孤立树的各叶子节点上引入待测样本与其各类样本中心的距离信息；结合多样性度量设定各孤立树的权值系数，构造加权混合孤立森林Whiforest模型，利用Whiforest模型对待测样本中无线传感器网络数据的异常情况进行判定。
根据权利要求1所述的方法，其特征在于，所述以孤立森林算法为基础，利用传感器节点采集的历史数据集构造孤立树集合iforest之前，还包括：

将传感器节点采集的历史数据集划分为训练集和测试集。
根据权利要求2所述的方法，其特征在于，所述以孤立森林算法为基础，利用传感器节点采集的历史数据集构造孤立树集合iforest；在孤立树集合iforest中各孤立树的各叶子节点上引入待测样本与其各类样本中心的距离信息；结合多样性度量设定各孤立树的权值系数，构造加权混合孤立森林Whiforest模型，包括：

步骤1：以历史数据集中的训练集的数据构建孤立树集合iforest中的各孤立树，包括设定参数bootstrap采样数ψ、森林规模大小T、权值系数阈值μ、验证样本集Val_W的大小和已知异常样本添加率ratio；

步骤2：根据已知异常样本添加率ratio随机选取已知异常样本加入到iforest中的各孤立树中；

步骤3：计算每棵树的叶子结点中的训练样本中心Cen-s，以及每个待测样本x在叶节点中与Cen-s间的距离δ(x)，将其在森林中的每棵树的均值记作s _c(x)；

s _c(x)＝E(δ(x))

步骤4：在其叶子结点中计算异常样本中心Cen-a，并计算每个待测样本x在叶节点中与上述的Cen-a间的距离记作δ _a(x)，并将δ(x)和δ _a(x)在所有孤立树中均值的比值记作s _a(x)；

步骤5：根据历史采集的数据集选取验证样本集Val-W，并使用上述建立好的孤立树集合iforest对其检测，结合集成学习中基分类器多样性的思想，通过不合度量对森林中孤立树间的多样性进行计算，得到一个对角为0的T*T对称矩阵diversity；其中，T为孤立树集合iforest中孤立树的棵数；

步骤6：对所述diversity矩阵求和,并按森林规模大小T作商得到B _index，此刻将 B _index值与阈值μ比较，权值设置如下所示；

步骤7：设定B _index值大于等于μ的树的权值w1＝B _index+1；小于μ的树的权值w2＝1-B _index，对s _c(x)和s _a(x)变量都乘以w1和w2，以下式计算s _c(x)和s _a(x)：

s _c(x)＝W*δ(x)

δ _a(x)＝W*δ _a(x)

步骤8：将当前数据窗口内样本的原始Score(x)分值以及目前引入的基于距离的2个分值即{Score，s _a(x)，s _c(x)}进行归一化处理，使用的归一化公式如下所示，

其中s(x)代指上述Score、s _a(x)、s _c(x)3个分值，
为归一化后的值，最终以下式融合上述3个分值得到最终的窗口样本异常分值s _final；

步骤9：降序排列s _final，根据领域知识或参考原先数据集已知的异常数目比例ratio，得到异常分值最高的数据样本，再和待测数据样本标记对比，计算检测率以及误报率相关评价指标；

步骤10：若节点检测到数据窗口内有异常样本，则将其所属顺序编号传递到簇头节点，进行下一步的验证或处理。
根据权利要求3所述的方法，其特征在于，所述步骤4中，若叶节点无异常样本，则其异常样本中心Cen-a记为0。
根据权利要求3所述的方法，其特征在于，所述步骤6中，对所述diversity矩阵求和为对所述diversity矩阵按列求和。
根据权利要求3所述的方法，其特征在于，所述步骤1中，孤立树构建终止条件：样本不可再分，即只包含一条数据值或数据样本完全相同或孤立树的深度达到最大值log(ψ)，其中ψ为参数bootstrap采样数。
根据权利要求3所述的方法，其特征在于，所述步骤8中，当前数据窗口内样本的原始Score(x)分值根据下述公式计算得到：

其中，h(x)表示数据样本x在某棵树上的路径长度，C(ψ)为以采样数ψ构建的Itree的平均搜索路径长度。
根据权利要求7所述的方法，其特征在于，所述数据样本x在某棵树上的路径长度h(x)＝e+C(T.size)，C(T.size)是以T.size条数据构建的二叉树的平均路径长度。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-8任一项所述方法的步骤。
一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-8任一项所述的方法。