WO2023241484A1

WO2023241484A1 - 异常事件处理方法、电子设备及存储介质

Info

Publication number: WO2023241484A1
Application number: PCT/CN2023/099448
Authority: WO
Inventors: 姜磊; 罗秋野; 文秀林; 孟照星
Original assignee: 中兴通讯股份有限公司
Priority date: 2022-06-16
Filing date: 2023-06-09
Publication date: 2023-12-21
Also published as: CN117290133A

Abstract

一种异常事件处理方法、电子设备及存储介质，异常事件处理方法包括：在预设时间段内获取目标位置的多个异常事件，异常事件包括告警、关键性能指标异常和操作日志中的至少一种(S101)；在异常事件中确定聚合点(S102)；根据聚合点和异常事件进行聚合，得到聚合结果(S103)。

Description

异常事件处理方法、电子设备及存储介质

相关申请的交叉引用

本申请基于申请号为202210678899.7、申请日为2022年06月16日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及但不限于通信技术领域，特别是涉及一种异常事件处理方法、电子设备及存储介质。

背景技术

随着移动通信技术的发展，网络复杂化、应用多样性、数据爆炸导致对智能运维的要求与日俱增。对相关的流式数据进行聚合后再进行分析是识别故障根因主要手段，然而，相关技术中，在对数据源进行聚合的时候，往往只能在告警先发生后，再以告警往后聚合，如果是告警之前事先由于某种操作引发了告警，这样的聚合则无法明确故障根因，因此聚合能力低，导致故障运维水平低下。

发明内容

本申请实施例提供了一种异常事件处理方法、电子设备及存储介质。

第一方面，本申请实施例提供了一种异常事件处理方法，所述方法包括：在预设时间段内获取目标位置的多个异常事件，所述异常事件包括告警、关键性能指标异常和操作日志中的至少一种；在所述异常事件中确定聚合点；根据所述聚合点和所述异常事件进行聚合，得到聚合结果。

第二方面，本申请实施例提供了一种电子设备，包括：存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如本申请第一方面实施例中任意一项所述的异常事件处理方法。

第三方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如本申请第一方面实施例中任意一项所述的异常事件处理方法。

附图说明

图1是本申请一个实施例提供的异常事件处理方法的流程示意图；

图2是本申请另一个实施例提供的异常事件处理方法的流程示意图；

图3是本申请另一个实施例提供的异常事件处理方法的流程示意图；

图4是本申请另一个实施例提供的异常事件处理方法的流程示意图；

图5是本申请一个实施例提供的目标缓存区的示意图；

图6是本申请另一个实施例提供的异常事件处理方法的流程示意图；

图7是本申请另一个实施例提供的异常事件处理方法的流程示意图；

图8是本申请另一个实施例提供的异常事件处理方法的流程示意图；

图9是本申请一个实施例提供的以通信异常为聚合点进行前后双向聚合的示意图；

图10是本申请一个实施例提供的以网络不通告警为聚合点进行前后双向聚合的示意图；

图11是本申请另一个实施例提供的异常事件处理方法的流程示意图；

图12是本申请另一个实施例提供的异常事件处理方法的流程示意图；

图13是本申请另一个实施例提供的异常事件处理方法的流程示意图；

图14是本申请另一个实施例提供的异常事件处理方法的流程示意图；

图15是本申请另一个实施例提供的异常事件处理方法的流程示意图；

图16是本申请一个实施例提供的电子设备的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的实施例仅用以解释本申请，并不用于限定本申请。

在本申请的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请实施例的限制。

应了解，在本申请实施例的描述中，若干的含义为一个以上，多个(或多项)的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本申请实施例的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的内容合理确定上述词语在本申请实施例中的含义。

随着5G新基建的不断推进和发展，网络复杂化，应用多样性，数据爆炸，运营商和设备商在自治网络(Autonomous Network)的“规建维优营”几个方面，对自动化和智能化的诉求与日俱增，其中，“维”即是运维，以故障处理为主，对故障的定位，从单一告警数据源的聚合分析定位演进到了多数据源，如日志、关键性能指标(Key Performance Indicator，KPI)和告警的聚合分析。

聚合分析，是指把相关的流式数据进行聚合后再进行分析识别故障根因。聚合有时间空间两个维度，这个也是所谓的时空聚合。在空间维度聚合，可以利用拓扑资源相关性，如同一个网元或者同一条链路、同一个机房的相关数据；在时间维度聚合，即相关数据在一定时间范围内进行聚合，跟空间维度的聚合不同，时间维度的聚合相对来说比较困难，主要是时间范围并不好确定。

如在一个空间维度下，在一定时间窗口内，A告警导致B告警，运营商和设备商根据历史数据的统计得来的经验形成了一些规则，下面以三条规则来举例说明，规则基本格式可以为：

1)第一条规则，同网元，5分钟窗口，射频拉远单元(Remote Radio Unit，RRU)链路误码率高告警和光模块接收光功率异常同时发生，则认为它们两个告警可聚合；

1)第二条规则，同网元，10分钟窗口，光模块接收光功率异常和RRU链路断告警同时发生，则认为它们两个告警可聚合；

2)第三条规则，同网元，15分钟窗口，RRU链路断告警和分布式单元(Distributed Unit，DU)小区退服告警，则认为它们两个告警可聚合。

以上面几条规则看，需要把时空维度的RRU链路误码率高告警、光模块接收光功率异常告警、RRU链路断告警和DU小区退服告警聚合在一起，最后找到根因是RRU链路误码率高导致的DU小区退服。

申请人发现，相关技术中，在时间维度上的时间不好确定，需要时间步长的设计思想，不能以几条规则的最大时间15分钟来确定，也不能以所有相关规则的时间加和来确定，不仅如此，这还有一个关键性依赖，即时间维度上完全依赖向后判定，即A告警发生导致B告警发生，那么A告警发生时间会在B告警发生前，那么是以A告警发生后预测B告警发生的时间。

申请人发现，这种情况下的聚合会存在很多问题，这种情况下，告警发生时间可能会有差异，甚至可能B告警还在A告警之前，并且，无法聚合多数据源的情况，因为如果只是告警和关键性能指标异常，相对来说，容易明确异常发生时刻，即有明确的异常数据源，告警引发关键性能指标劣化或异常，那么告警先发生，以告警往后聚合，但如果是某种操作引起了相关告警，例如某种操作的日志是在告警之前，这样不方便向后聚合，由于日志不方便明确异常，所以无法即时感知，往往是告警或者关键性能指标异常后，再往前回头找相关日志，如内存泄漏这些故障，是已经发现了内存泄漏或者发现泄漏趋势，再往前找相关日志，这样属于事后聚合。

因此，相关技术中的方案存在技术缺陷，如果是告警之前事先由于某种操作引发了告警，这样的聚合则无法明确故障根因，因此聚合能力低，导致故障运维水平低下。

基于此，本申请实施例提供了一种异常事件处理方法、电子设备及存储介质，能够实现双向聚合，提高数据源的聚合能力，提高故障运维水平。

下面进行详细说明。

本申请实施例提供了一种异常事件处理方法，参照图1所示，本申请实施例中的异常事件处理方法包括但不限于步骤S101至步骤S103。

步骤S101，在预设时间段内获取目标位置的多个异常事件，异常事件包括告警、关键性能指标异常和操作日志中的至少一种。

步骤S102，在异常事件中确定聚合点。

步骤S103，根据聚合点和异常事件进行聚合，得到聚合结果。

在一实施例中，本申请实施例中的异常事件处理方法可以应用在通信设备中，通过执行异常事件处理方法，能够实现双向聚合，提高数据源的聚合能力，提高故障运维水平。本申请实施例中可以在预设时间段内获取目标位置的多个异常事件，并在所获取的异常事件中确定聚合点，异常事件包括告警、关键性能指标(KPI)异常和操作日志中的至少一种。在一实施例中，异常事件包括告警或关键性能指标异常中的一种，并且还包括操作日志。又或者，在另一实施例中，异常事件包括告警、关键性能指标异常和操作日志。本申请实施例中以包含上述三者为例子进行说明，聚合点是根据聚合需要设定的点，聚合点的类型可以通过配置指定。

本申请实施例根据聚合点和异常事件进行聚合，得到聚合结果，可以理解的是，聚合点是众多异常事件中的其中一个或多个，由于异常事件是在预设时间段内不断获取的，因此聚合点所处的时间位于预设时间段的中间，可以理解的是，以聚合点的聚合，在聚合点的获取时间前后，可以包含多个异常事件，这些前后时间的异常事件可以是告警、关键性能指标异常和操作日志中的至少一种，因此，本申请实施例中，可以在聚合点之前事先由于某种操作引发了告警或关键性能指标异常时，可以聚合到聚合点之前和之后的数据，得到的聚合结果可以用于明确故障根因，实现双向聚合，能够提高数据源的聚合能力，提高故障运维水平。

需要说明的是，本申请实施例中的预设时间段可以根据实际运维需要设置，例如，预设时间段可以是20分钟、1小时、4小时或者更长时间，从预设时间段的起始时间开始，本申请实施例就可以开始获取作为数据源的异常事件，包括获取告警、关键性能指标异常和操作日志中的至少一种，实现多数据源的获取，本申请实施例中预设时间段内获取数据源，通过设定预设时间段的时间长短可以在时间维度上明确聚合的时间。

需要说明的是，本申请实施例中的目标位置是空间维度上的一个位置，例如，目标位置可以为一个网元、一个机房或者是一个链路，通过最终得到的聚合结果，通过聚合分析后可以得到该网元、机房或者链路的故障根因。

参照图2所示，在一实施例中，上述步骤S101中还可以包括但不限于步骤S201和步骤S202。

步骤S201，根据预设时间段的总时长在目标缓存区中建立多个时间桶，其中，时间桶由时间戳区间构成，各个时间桶的时长相同且相邻的两个时间桶的时间连续。

步骤S202，连续获取目标位置的多个异常事件，并按照各个异常事件的获取时间缓存在对应时间的时间桶中。

在一实施例中，本申请实施例通过设置时间桶的实现对异常事件的缓存方式，本申请实施例通过根据预设时间段的总时长在目标缓存区中建立多个时间桶，时间桶由时间戳区间构成，各个时间桶的时长相同且相邻的两个时间桶的时间连续，并在连续获取目标位置的多个异常事件时，按照各个异常事件的获取时间缓存在对应时间的时间桶中，实现数据缓存，目标缓存区为与目标位置缓存对应的缓存区，一个目标位置可以对应多个缓存区，或对应一个一一对应的缓存区，本申请实施例用双向时间维度进行聚合，每个缓存区按照时间戳和一定时间区间当作时间桶的方式来缓存异常事件，因此，实现了在缓存异常事件后，并不要立即聚合，还需要等待一定时间，等到时间桶缓存完毕，才开始准备聚合。

需要说明的是，在目标缓存区中，各个时间桶的时长相同且相邻的两个时间桶的时间连续，例如，当一个目标缓存区在预设时间段为20分钟内获取异常事件时，可将每个时间桶的时长设定为5分钟，因此可以得到4个连续的时间桶，其中，第一个时间桶的时间从第0分钟缓存到第5分钟，第二个时间桶从第5分钟缓存到第10分钟，第三个时间桶从第10分钟缓存到第15分钟，第四个时间桶从第15分钟缓存到第20分钟，更长的预设时间段可以以此类推，每个时间桶的时长可以根据实际运维需要设置，在此不做具体限制。

可以理解的是，本申请实施例中可以通过设定目标缓存区中时间桶不再缓存的条件，来控制停止缓存异常事件。

参照图3所示，在一实施例中，上述步骤S202中还可以包括但不限于步骤S301至步骤 S303。

步骤S301，获取预设时间段内停止缓存异常事件的收敛条件。

步骤S302，从预设时间段的起始时间开始连续获取目标位置的多个异常事件，并按照各个异常事件的获取时间缓存在对应时间的时间桶中。

步骤S303，当缓存的异常事件满足收敛条件，停止缓存异常事件。

在一实施例中，针对目前在时间维度上聚合的时间不好确定的问题，本申请实施例通过设置时间桶的模式来缓存目标位置的异常事件，并通过设定时间桶的收敛条件来控制时间桶停止缓存的时间点，本申请实施例获取预设时间段内停止缓存异常事件的收敛条件，本申请实施例中在缓存异常事件时，从预设时间段的起始时间开始连续获取目标位置的多个异常事件，并按照各个异常事件的获取时间依次缓存在对应时间的时间桶中，并在缓存的异常事件满足收敛条件时，停止缓存异常事件，当满足收敛条件后，说明目标缓存区缓存完毕，即本缓存区关闭不再接收其它异常事件，把时间桶封装后准备聚合，还可以在收敛条件满足后清除目标缓存区，以待后面的异常事件缓存，本申请实施例中通过设置收敛条件来控制什么时候停止缓存异常事件，可以不用浪费数据收集的时间，在时间维度上提高聚合的效率，提高聚合能力。

需要说明的是，从聚合点角度来看，本申请实施例中在根据满足收敛条件关闭目标缓存区以停止缓存异常事件时，当前已经缓存的数据中，已经包含了聚合点时间维度上前后双向的异常事件，即聚合点为中心的前后异常事件均已进入目标缓存区中，提高数据的聚合能力，由此可以进行双向聚合。

参照图4所示，在一实施例中，收敛条件可以包括但不限于步骤S401至步骤S403中至少之一。

步骤S401，获取异常事件的时间超过预设时间段的结束时间。

步骤S402，连续多个时间桶之间缓存异常事件的数量递减速率小于预设的目标递减速率。

步骤S403，时间桶中异常事件的数量小于预设的桶内事件数量最小阈值。

在一实施例中，本申请实施例中的收敛条件可以有多个，可以在时间维度上判断什么时候数据源收集完成，以在时间维度上提高聚合效率和聚合能力，收敛条件可以包括步骤S401至步骤S403中的至少一个，可以理解的是，当满足上述步骤中的收敛条件中的其中一个时，即可判断数据源收集完成，因此停止缓存异常事件。

需要说明的是，判断获取异常事件的时间是否超过预设时间段的结束时间是收敛条件之一，预设时间段有一个起始时间和结束时间，当获取异常事件的时间超过预设时间段的结束时间，说明缓存时间截止，即本次缓存最后一个聚合点的时间到截止时间的时间区间，这个时间区间就是预设时间段的最大值，它限制了过长时间等待，通过本申请实施例的收敛条件实现强制结束缓存，在一实施例中，聚合时间区间最大值即预设时间段设定为60分钟，过了这个时间，就不再等待后续消息。

需要说明的是，判断连续多个时间桶之间缓存异常事件的数量递减速率是否小于预设的目标递减速率是收敛条件之一，当设定连续三个时间桶的异常事件数量以一定速率递减进行判断，低于事件次数递减比率，即低于目标递减速率，也就是后桶数量低于前桶数量一定百分比，当低于目标递减速率时，判断不再需要缓存异常事件，如当目标递减速率为25％，目标递减速率的数值可根据实际需要设置，本申请实施例中的收敛条件实现边际效应递减后结束缓存，如图5所示，目标缓存区内各个时间桶中分别缓存了用户登录日志、配置路由日志、重启路由日志、通信异常、网络不通告警、关键性能指标异常(图中的KPI异常)、业务异常、业务重启告警等异常事件，其中，通信异常、网络不通告警、关键性能指标异常和业务重启告警为聚合点，在图5的示例中，时间桶4的异常事件数量是时间桶3的三分之一，高于设定的目标递减速率(25％)，所以，当前还不能结束缓存，继续接收异常事件。

需要说明的是，判断时间桶中异常事件的数量是否小于预设的桶内事件数量最小阈值是收敛条件之一，时间桶的异常事件数量小于桶内事件数量最小阈值，即桶事件数最小值，桶内事件数量最小阈值可根据实际需要设置，当低于这个桶内事件数量最小阈值时，判断不再需要缓存异常事件，本申请实施例实现了以一定时间内事件收敛后结束缓存，同样以参考图5所示，时间桶4接收的事件只有1个，小于桶内事件数量最小阈值(假设是2)，即不用再接收异常事件，停止缓存异常事件，即时间桶5不必再接收，最终完成数据源的收集。

在一实施例中，目标位置有多个，参照图6所示，上述步骤S201中还可以包括但不限于步骤S501和步骤S302。

步骤S501，分别获取各个目标位置对应的预设时间段。

步骤S502，分别建立对应各个目标位置的目标缓存区，并根据各个预设时间段的总时长分别在对应的目标缓存区中建立多个时间桶。

在一实施例中，当目标位置有多个时，本申请实施例分别根据不同的目标位置进行数据源的缓存，每个不同的位置均可以对应设置一个自身缓存需要的预设时间段，本申请实施例分别获取各个目标位置对应的预设时间段，并对每个目标位置的数据进行缓存，分别建立对应各个目标位置的目标缓存区，在一实施例中，目标缓存区与目标位置一一对应，每个目标位置都有对应的一个目标缓存区，并根据各个预设时间段的总时长分别在对应的目标缓存区中建立多个时间桶，实现根据将各个目标位置的异常时间都缓存到对应的时间桶中。

本申请实施例中的目标位置为空间维度上的位置，例如，目标位置可以为一个网元、一条链路或者一个机房，多个目标位置可以包括多个网元、链路和机房，通过对不同的目标位置进行异常事件的收集，可以得到各个不同的目标位置的聚合结果，以便对各个目标位置进行聚合分析，可以理解的是，本申请实施例中可以得到各个目标位置的聚合结果，通过该聚合结果可以分析各个目标位置自身的故障根因，也可以得到多个目标位置整体的聚合结果，通过该聚合结果可以分析得到多个目标位置中的故障根因，提高了聚合能力，提高故障运维水平。

参照图7所示，在一实施例中，上述步骤S102中还可以包括但不限于步骤S601和步骤S602。

步骤S601，获取聚合点的筛选条件。

步骤S601，在多个异常事件中确定满足筛选条件的异常事件为聚合点。

在一实施例中，本申请实施例可以获取聚合点的筛选条件，从异常事件中确定聚合点，通过筛选条件可以从异常事件中确定哪些是重大告警或重大关键性能指标异常，重大告警可以是异常事件中的告警中的任意一个，重大关键性能指标异常可以是异常事件中关键性能指标异常中的任意一个，例如，聚合点如基站退服、小区退服等，聚合点是真正运维的中心，以重大告警或重大关键性能指标异常的聚合点为中心聚合适用于实际运维的需要，否则大量普通告警等的聚合会大量浪费时间，造成运维水平低下，聚合点的告警类型和关键性能指标异常类型可以通过配置指定。

可以理解的是，本申请实施例中可以根据实际运维需要自定义设定筛选条件，以确定其中的重大告警或重大关键性能指标异常，聚合点是众多异常事件中的其中一个或多个，由于异常事件是在预设时间段内不断获取的，因此聚合点所处的时间位于预设时间段的中间，可以理解的是，以聚合点的聚合，在聚合点的获取时间前后，可以包含多个异常事件，这些前后时间的异常事件可以是告警、关键性能指标异常和操作日志中的至少一种，因此，本申请实施例中，可以在聚合点之前事先由于某种操作引发了告警或关键性能指标异常时，可以聚合到聚合点之前和之后的数据，得到的聚合结果可以用于明确故障根因，实现双向聚合，能够提高数据源的聚合能力，提高故障运维水平。

需要说明的是，相关技术中，不会以某条操作日志作为起始点进行向后聚合，是因为日志太多太频繁，而且大多数操作日志只是为了记录并不是说明异常，所以对操作日志来说，由于操作日志不方便明确异常，所以无法即时感知，往往是告警或者关键性能指标异常后，再往前回头找相关操作日志，如内存泄漏这些故障，是已经发现了内存泄漏或者发现泄漏趋势，再往前找相关操作日志，因此导致聚合能力低下。

参照图8所示，在一实施例中，上述步骤S103中还可以包括但不限于步骤S701至步骤S703。

步骤S701，在异常事件中确定第一目标事件和第二目标事件，其中，第一目标事件表征为聚合点的噪音事件，第二目标事件表征为聚合点的关联事件。

步骤S702，清除第一目标事件并保留第二目标事件。

步骤S703，根据聚合点和第二目标事件进行聚合，得到聚合结果。

在一实施例中，本申请实施例可以去异常事件进行去噪，去除其中没必要的事件，保留与聚合点相关的异常事件，以便提高聚合能力，本申请实施例中可以在异常事件中确定第一异常事件和第二异常事件，第一目标事件表征为聚合点的噪音事件，第二目标事件表征为聚合点的关联事件，作为噪音事件，若与聚合点进行聚合，会使最终的聚合结果的数据量过大，并存在众多对故障根因分析无用的异常事件，因此，本申请实施例中可以确定表征为聚合点的噪音事件，即确定第一目标事件，并确定表征为聚合点的关联事件，即第二目标事件表征，清除第一目标事件并保留第二目标事件，最终可以根据聚合点和第二目标事件进行聚合，得到聚合结果，可以提高本申请实施例的聚合能力，提高故障运维水平。

需要说明的是，由于本申请实施例中的异常事件包含了操作日志，在实际运维的过程中，会存在大量的操作日志，本申请实施例中通过双向聚合，可以得到包含聚合点前后的异常事件以得到聚合结果，即可以得到聚合点前后的操作日志以得到聚合结果，最终可以根据聚合结果进行故障根因找到导致聚合点异常的操作日志等，为了解决操作日志过多且大量与聚合点无关的问题，本申请实施例通过明确异常事件中的第一目标事件和第二目标事件，清除第一目标事件并保留第二目标事件，最终保证了本申请实施例的聚合能力和效率。

以图5中收集的异常事件为例子，当以通信异常这个异常事件作为聚合点时，可以根据图9所示对通信异常进行前后双向聚合，向前可以聚合用户登录日志、配置路由日志和重启路由日志等异常事件，向后聚合可以聚合网络不通告警、关键性能指标异常、业务异常等异常事件，而当以网络不通告警这个异常事件作为聚合点时，可以根据图10所示对通信异常进行前后双向聚合，向前可以聚合用户登录日志、配置路由日志、重启路由日志和通信异常等异常事件，向后聚合可以聚合关键性能指标异常、业务异常和业务重启告警等异常事件。

参照图11所示，在一实施例中，上述步骤S103中还可以包括但不限于步骤S801和步骤S802。

步骤S801，将聚合点和异常事件进行聚合得到聚合包。

步骤S802，对聚合包进行根因识别，并结合各个聚合点对应的异常事件得到聚合点的根因识别结果。

在一实施例中，本申请实施例中可以进行根因识别，得到根因识别结果，本申请实施例中根据将聚合点和异常事件进行聚合得到聚合包，对聚合包进行根因识别，并结合各个聚合点对应的异常事件得到聚合点的根因识别结果，在另一实施例中，本申请实施例中根据聚合点和第二目标事件来进行聚合得到聚合包，通过对第二目标事件进行聚合，得到聚合效率更高的聚合包，把这些有用的异常事件进行根因识别，可以借用聚合点中的第二目标事件和知识库等技术分析哪个异常事件是根因事件，从而提高了故障运维水平。

参照图12所示，在一实施例中，上述步骤S701中还可以包括但不限于步骤S901和步骤S902。

步骤S901，对异常事件进行初始化处理得到初始数据，并将初始数据输入至预设的双向聚合模型中进行概率计算，分别得到各个异常事件与对应的聚合点的噪音概率值。

步骤S902，根据噪音概率值确定异常事件中的第一目标事件和第二目标事件。

在一实施例中，本申请实施例中通过获取预设的双向聚合模型，来确定异常事件中的第一目标事件和第二目标事件，双向聚合模型是一种通过神经网络模型训练得到的数据处理模型，本申请实施例中通过对异常事件进行初始化处理得到初始数据，并将初始数据输入至预设的双向聚合模型中进行概率计算，分别得到各个异常事件与对应的聚合点的噪音概率值，双向聚合模型的输入需要匹配对应的初始数据，以便双向聚合模型进行数据处理，噪音概率值可以表征该异常事件是对应的聚合点的噪音事件的概率大小，通过噪音概率值表征的概率大小就可以确定该异常事件是不是对应的聚合点的噪音事件，从而确定第一目标事件和第二目标事件。

可以理解的是，本申请实施例中的聚合点可以有多个，当聚合点为多个时，每个异常事件均可以通过双向聚合模型进行概率计算，得到针对各个聚合点的噪音概率值，这是由于，有些异常事件对某些聚合点是低概率，但对其它聚合点是高概率，因此将每个异常事件与各个聚合点进行概率计算，可以避免去除一些高概率的异常事件，有助于对所有的聚合点进行聚合。

参照图13所示，在一实施例中，上述步骤S902中还可以包括但不限于步骤S1001至步骤S1003。

步骤S1001，获取各个聚合点的第一概率阈值和第二概率阈值。

步骤S1002，将低于所有第一概率阈值的噪音概率值对应的异常事件确定为第一目标事件。

步骤S1003，将高于任意一个第二概率阈值的噪音概率值对应的异常事件确定为第二目标事件。

在一实施例中，本申请实施例通过设定低概率阈值和高概率阈值来对异常事件进行筛选，本申请实施例可以获取各个聚合点的第一概率阈值和第二概率阈值，第一概率阈值为低概率阈值，用于是筛选得到异常事件中的第一目标事件，因此将低于所有第一概率阈值的噪音概率值对应的异常事件确定为第一目标事件，第一目标事件为低概率事件，第二概率阈值为高概率阈值，用于筛选得到第二目标事件，将高于任意一个第二概率阈值的噪音概率值对应的异常事件确定为第二目标事件，第二目标事件为高概率事件。

需要说明的是，本申请实施例中将低于低概率阈值的标记，作为低概率阈值的第一概率阈值可以在界面或配置文件设置，根据实际运维需要配置，将高于高概率阈值的异常事件放在一个高概率列表中，作为高概率阈值的第二概率阈值可以在界面或配置文件设置，根据实际运维需要配置，其键值为异常点，值为列表，列表中保存这些高于高概率阈值的异常事件，低于低概率阈值的异常事件在分析每个聚合点时暂时不忙排除，因为有些异常事件对某些聚合点是低概率但对其它聚合点是高概率，因此本申请实施例中在判断哪些异常事件为第一目标事件时，是要求对异常事件的噪音概率值低于所有的聚合点的第一概率阈值才确定为第一目标事件，而判断得到第二目标事件时，异常事件的噪音概率值只需要高于任意一个聚合点的第二概率阈值即可判断为第二目标事件。

在一实施例中，第一概率阈值，以某个聚合点来预测本聚合点的上下文关联事件时，如果某些异常事件的概率很低，对所有聚合点的概率都低于第一概率阈值，如设置成10％，则可以当作噪音去噪；第二概率阈值，以某个聚合点来预测本聚合点的上下文关联事件时，如果相关某些异常事件的概率高于第二概率阈值，如设置成75％，则可以认为相关性很强，可以协助后续根因分析。

参照图14所示，在一实施例中，上述步骤S901中还可以包括但不限于步骤S1101至步骤S1103。

步骤S1101，对异常事件进行独热编码，得到初始化后的初始向量数据。

步骤S1102，获取预设的双向聚合模型，其中，双向聚合模型根据获取样本中的样本异常事件、表征为噪音事件的样本目标事件、和样本聚合点，并通过无监督训练后得到。

步骤S1103，将初始向量数据输入至预设的双向聚合模型中进行概率计算，分别得到各个异常事件与对应的聚合点的噪音概率值。

在一实施例中，需要对异常事件进行初始化的向量转换后，才输入到预设的双向聚合模型中进行处理，得到所需要的噪音概率值。双向聚合模型可以预先根据样本中的数据建立得到，本申请实施例由于在聚合中，会有大量的异常事件，而其中对根因分析并非所有事件都有用，有一些事件对聚合点来说，是噪音事件，如一些日常操作的操作日志，闪断告警正好跟异常点在某一时间窗口，它们的存在干扰了聚合分析，因此通过人工智能(Artificial Intelligence，AI)训练，通过一定概率来过滤，能够让聚合分析更加准确。

如同在自然语言处理(Natural Language Processing，NLP)中，词语向量化(Word vecor(word embedding)，Word2vec)的跳字模型(Continuous Skip-Gram Model，Skip-gram)模型，使用中心词预测上下文词语的概率的这个原理，本申请实施例使用同样的原理，把异常事件向量化后，通过双向聚合模型得到聚合点对前后时间段的异常事件的概率大小，通过概率阈值进行异常事件去噪。

本申请实施例中可以设置训练器，来加载历史数据，历史数据可以包括样本中的样本异常事件、表征为噪音事件的样本目标事件、和样本聚合点，在训练阶段，对样本中的这些数据进行独热编码(One-hot coding)后，通过无监督训练，当上下文概率最大，损失函数最小，即可把异常事件向量化，则训练得到双向聚合模型，以后后续应用需要。

本申请实施例中在进行概率计算时，先加载训练好的双向聚合模型，对异常事件进行独热编码，得到初始化后的初始向量数据，将初始向量数据输入至预设的双向聚合模型中进行概率计算，分别得到各个异常事件与对应的聚合点的噪音概率值，输入在双向聚合模型钱已经通过独热编码进行初始化向量表达了，因此可以直接使用通过训练发布得到的双向模型对事件进行概率计算，对异常事件进行向量概率计算，得到各个异常事件与对应的聚合点的噪音概率值。

可以理解的是，本申请实施可使用但不限于Word2vec的Skip-gram模型进行训练，包括神经网络的搭建，得到所需要的双向聚合模型，首先获取样本中的历史数据，或者根据故障处理手册等当作语料库进行独热编码后，用Skip-gram模型，其损失函数为所有概率最小化，这个时候，不同的告警、操作日志等异常事件，它们的相关性是经过训练得到中间隐藏层，这个就是最终需要的模型，训练得到双向聚合模型的步骤在本申请实施例中不做具体描述。

参照图15所示，在一实施例中，上述步骤S901中还可以包括但不限于步骤S1201和步骤S1202。

步骤S1201，将多个聚合点按照时间排序并存放在聚合点列表中。

步骤S1202，将初始数据输入至预设的双向聚合模型中，并按照聚合点列表中的各个聚合点分别对异常事件进行概率计算，得到各个异常事件与对应的聚合点的噪音概率值。

在一实施例中，本申请实施例中通过建立聚合点列表来存放聚合点，在目标缓存区停止缓存异常事件后，目标缓存区关闭不再接收其它异常事件，把时间桶封装成初始包准备聚合，然后清除缓存区，以待后面的事件缓存，需要强调的是，从聚合点角度来看，和常规做法单向往后聚合的不同在于，本申请实施例在关闭目标缓存区时，已经包含了前后双向的事件，即聚合点为中心的前后事件均已进入缓存区，本申请实施例中的双向聚合是以聚合点为准来双向聚合，因此可以收集目标缓存区的聚合点，如果没有聚合点，则目标缓存区直接回收用于下一次缓存，如果一个目标缓存区甚至缓存区中某一个桶内可能有多个聚合点，先把聚合点收集起来，按时间排序，存放在聚合点列表中，然后给出缓存区中最早发生时间的异常事件和最迟发生时间的异常事件，此外，还可以给出目标缓存区的位置，如网元、机房，或链路。

需要说明的是，在进行概率计算时，本申请实施例先得到聚合点列表，然后对列表中的聚合点通过双向模型得到数据中其它异常事件的噪音概值率，将低于低概率阈值(的标记，将高于高概率阈值的异常事件放在一个高概率列表中，其键值为异常点，值为列表，列表中保存这些高于高概率阈值的异常事件，最终在去噪后，可以把聚合点附加上高概率列表，组合成聚合包，发给根因识别。

此外，本申请实施例中的异常事件处理方法可以应用在异常事件处理装置中，简称处理装置，处理装置可以包括：

缓存器：接收外部异常事件进入缓存区，组装成初始包发送给打包器；

打包器：接收初始包，打包成编码包发送给聚合器；

聚合器：接收编码包，以聚合点为中心进行上下文概率训练和预测，去噪，得到聚合包，发送给根因分析；

训练器、缓存器、打包器、聚合器和训练器之间通信连接，通过处理装置执行上述实施例中的异常事件处理方法时，可以包括以下四步：

第一步：训练器训练双向聚合模型完成事件向量化。

在聚合中，可能会有大量的异常事件，而其中对根因分析并非所有事件都有用，有一些事件对聚合点来说，是噪音事件，如一些日常操作日志，闪断告警正好跟异常点在某一时间窗口，它们的存在干扰了聚合分析，因此通过AI训练，通过一定概率来过滤，能够让聚合分析更加准确。

如同在NLP中，Word2vec的Skip-gram模型，使用中心词预测上下文词语的概率的这个原理，本申请实施例使用同样的原理，把异常事件向量化后，通过双向聚合模型得到聚合点对前后时间段的异常事件的概率大小，通过概率阈值进行异常事件去噪。

训练器加载历史告警、日志和关键性能指标异常以及故障处理手册等当作语料库进行独热编码后，通过无监督训练，当上下文概率最大，损失函数最小，即可把异常事件向量化，则得到双向聚合模型，然后发布模型。

第二步：缓存器接收并缓存流式异常事件。

异常事件是流式输入，所以需要缓存一定时间段的异常事件。

缓存器根据不同的空间维度，即不同位置设置不同的缓存区，一个缓存区只能缓存同一个空间维度的异常事件，每个缓存区按照时间戳和一定时间区间当作时间桶的方式来缓存异常事件，如果该事件是聚合点，进行标记。

有了聚合点后，并不要立即聚合，还需要等待一定时间，等到时间桶缓存完毕，才开始准备聚合。一个时间桶为一个时间区间，如五分钟，里面缓存这5分钟的异常事件，下一个时间桶则缓存下一个时间区间，如五分钟的异常事件。

如参考图5，流式异常事件进入后，同一位置一个缓存区，图中每5分钟一个时间桶缓存一批异常事件，不同时间桶可能大小不一样。

一个缓存区由一个或多个时间桶组成，关键是什么时候截止，即本次缓存完毕，可以聚合了，本申请实施例采用三个维度作为收敛条件完成最后一个时间桶的缓存：

缓存时间截止，即本次缓存最后一个聚合点的时间到截止时间的时间区间，这个时间区间就是时间区间最大值，它限制了过长时间等待，这个做法是强制结束；

连续三个时间桶的异常事件数量以一定速率递减，低于事件次数递减比率，即后桶数量低于前桶数量一定百分比，如25％，这个数字可设置，这个做法是边际效应递减后结束，以参考图5示意，时间桶4的事件数量是时间桶3的三分之一，所以，还不能结束，继续接收异常事件；

时间桶的异常事件数量小于桶内事件数量最小阈值，即桶事件数最小值，这个值可设置，这个做法是一定时间内事件收敛后结束，同样以参考图5示意，时间桶4接收的事件只有1个，小于桶内事件数量最小阈值(假设是2)，即不用再接收，即时间桶5不必再接收异常数据。

当上述三个条件任何一个条件满足后，本缓存区缓存完毕，即本缓存区关闭不再接收其它异常事件，把时间桶封装成初始包发给打包器准备聚合，然后清除缓存区，以待后面的事件缓存。

需要强调的是，从聚合点角度来看，和常规做法单向往后聚合的不同在于，本申请实施例关闭缓存区时，已经包含了前后双向的事件，即聚合点为中心的前后事件均已进入缓存区。

第三步：打包器进行初始包进行打包。

缓存完毕后，打包器对初始包进行打包成聚合包，本申请的双向聚合是以聚合点为准来双向聚合，因此打包器首先收集本缓存区的聚合点，如果没有聚合点，则本缓存区直接回收用于下一次缓存，如果一个缓存区甚至缓存区中某一个桶内可能有多个聚合点，先把聚合点收集起来，按时间排序，然后给出缓存区中最早发生时间的异常事件和最迟发生时间的异常事件，给出本缓存区的位置，如网元、机房，或链路，对本缓存区的异常事件进行独热编码，完成上述操作后，打包器打包完毕，得到编码包，打包器把编码包发送给聚合器进行聚合。

第四步：聚合。

聚合器加载训练好的双向聚合模型对聚合包中的聚合点向前和向后双去噪完成聚合。

在第三步完毕时，聚合器收到打包器发送过来的编码包，由于已经独热编码了，可以直接使用通过训练发布得到的双向模型对事件进行向量化，对包内异常事件进行向量概率计算。

聚合器先得到聚合点列表，然后对列表中的聚合点通过双向模型得到本包中其它异常事件的概率，将低于低概率阈值(可在界面或配置文件设置)的标记，将高于高概率阈值的异常事件(可能也是聚合点)放在一个高概率列表中，其键值为异常点，值为列表，列表中保存这些高于高概率阈值的异常事件。

注意，低于低概率阈值的异常事件在分析每个聚合点时暂时不忙排除，因为有些异常事件对某些聚合点是低概率但对其它聚合点是高概率，当该编码包中所有聚合点分析完毕后，对所有标记低概率的异常事件进行查看，如果其对所有聚合点概率都低于最低概率阈值，则清除。

聚合器在分析完所有聚合点后，还可以再将标记的低于低概率阈值的异常事件进行二度检查，看它们是否对每个聚合点都是低于低概率，如果否，则保留，否则进行去噪清除，去噪后，聚合器把编码包中的聚合点附加上高概率列表，组合成聚合包，发给根因识别，本次聚合完毕。

图16示出了本申请实施例提供的电子设备100。电子设备100包括：处理器110、存储器120及存储在存储器120上并可在处理器110上运行的计算机程序，计算机程序运行时用于执行上述的异常事件处理方法。

处理器110和存储器120可以通过总线或者其他方式连接。

存储器120作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如本申请实施例描述的异常事件处理方法。处理器110通过运行存储在存储器120中的非暂态软件程序以及指令，从而实现上述的异常事件处理方法。

存储器120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储执行上述的异常事件处理方法。此外，存储器120可以包括高速随机存取存储器120，还可以包括非暂态存储器120，例如至少一个储存设备存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中，存储器120可包括相对于处理器110远程设置的存储器120，这些远程存储器120可以通过网络连接至该电子设备100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述的异常事件处理方法所需的非暂态软件程序以及指令存储在存储器120中，当被一个或者多个处理器110执行时，执行上述的异常事件处理方法，例如，执行图1中的方法步骤S101至步骤S103、图2中的方法步骤S201至步骤S202、图3中的方法步骤S301至步骤S303、图4中的方法步骤S401至步骤S403、图6中的方法步骤S501至步骤S502、图7中的方法步骤S601至步骤S602、图8中的方法步骤S701至步骤S703、图11中的方法步骤S801至步骤S802、图12中的方法步骤S901至步骤S902、图13中的方法步骤S1001至步骤S1003、图14中的方法步骤S1101至步骤S1103、图15中的方法步骤S1201至步骤S1202。

本申请实施例还提供了计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行上述的异常事件处理方法。

在一实施例中，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，执行图1中的方法步骤S101至步骤S103、图2中的方法步骤S201至步骤S202、图3中的方法步骤S301至步骤S303、图4中的方法步骤S401至步骤S403、图6中的方法步骤S501至步骤S502、图7中的方法步骤S601至步骤S602、图8中的方法步骤S701至步骤S703、图11中的方法步骤S801至步骤S802、图12中的方法步骤S901至步骤S902、图13中的方法步骤S1001至步骤S1003、图14中的方法步骤S1101至步骤S1103、图15中的方法步骤S1201至步骤S1202。

本申请实施例至少包括以下有益效果：本申请实施例中的异常事件处理方法、电子设备及存储介质，通过执行异常事件处理方法，可以在预设时段段内不断获取目标位置的多个异常事件，目标位置是空间上一条链路、一个网元或者一个机房，异常事件包括告警、关键性能指标异常和操作日志中的至少一种，实现了多数据源的获取，随后在异常事件中确定聚合点，聚合点可以为其中的任意一个标定的异常事件，在聚合的时候，本申请实施例可以根据聚合点进行聚合，根据聚合点和异常事件进行聚合得到聚合结果，以便进行根因分析，由于是在一段时间内获取的多个异常事件，在聚合的时候，根据聚合点所处的时间节点和位置等可以向该聚合点的时间节点以前聚合所需要的异常事件，使得本申请实施例在聚合的时候，不仅可以向后聚合，还可以向前聚合，将其他可能为故障根因的事件聚合起来，实现双向聚合，能够提高数据源的聚合能力，提高故障运维水平。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、储存设备存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

还应了解，本申请实施例提供的各种实施方式可以任意进行组合，以实现不同的技术效果。

以上是对本申请的若干实施方式进行了说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请范围的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本申请权利要求所限定的范围内。

Claims

一种异常事件处理方法，包括：

在预设时间段内获取目标位置的多个异常事件，所述异常事件包括告警、关键性能指标异常和操作日志中的至少一种；

在所述异常事件中确定聚合点；

根据所述聚合点和所述异常事件进行聚合，得到聚合结果。
根据权利要求1所述的异常事件处理方法，其中，所述在预设时间段内获取目标位置的多个异常事件，包括：

根据预设时间段的总时长在目标缓存区中建立多个时间桶，其中，所述时间桶由时间戳区间构成，各个所述时间桶的时长相同且相邻的两个所述时间桶的时间连续；

连续获取目标位置的多个异常事件，并按照各个所述异常事件的获取时间缓存在对应时间的所述时间桶中。
根据权利要求2所述的异常事件处理方法，其中，所述连续获取目标位置的多个异常事件，并按照各个所述异常事件的获取时间缓存在对应时间的所述时间桶中，包括：

获取所述预设时间段内停止缓存所述异常事件的收敛条件；

从所述预设时间段的起始时间开始连续获取目标位置的多个异常事件，并按照各个所述异常事件的获取时间缓存在对应时间的所述时间桶中；

当缓存的所述异常事件满足所述收敛条件，停止缓存所述异常事件。
根据权利要求3所述的异常事件处理方法，其中，所述收敛条件包括以下至少之一：

获取所述异常事件的时间超过所述预设时间段的结束时间；或

连续多个所述时间桶之间缓存所述异常事件的数量递减速率小于预设的目标递减速率；或

所述时间桶中所述异常事件的数量小于预设的桶内事件数量最小阈值。
根据权利要求3所述的异常事件处理方法，其中，所述目标位置有多个，所述根据预设时间段的总时长在目标缓存区中建立多个时间桶，包括：

分别获取各个所述目标位置对应的预设时间段；

分别建立对应各个所述目标位置的目标缓存区，并根据各个所述预设时间段的总时长分别在对应的所述目标缓存区中建立多个时间桶。
根据权利要求1所述的异常事件处理方法，其中，所述在所述异常事件中确定聚合点，包括：

获取聚合点的筛选条件；

在多个所述异常事件中确定满足所述筛选条件的所述异常事件为所述聚合点。
根据权利要求1所述的异常事件处理方法，其中，所述根据所述聚合点和所述异常事件进行聚合，得到聚合结果，包括：

在所述异常事件中确定第一目标事件和第二目标事件，其中，所述第一目标事件表征为所述聚合点的噪音事件，所述第二目标事件表征为所述聚合点的关联事件；

清除所述第一目标事件并保留所述第二目标事件；

根据所述聚合点和所述第二目标事件进行聚合，得到聚合结果。
根据权利要求1或7所述的异常事件处理方法，其中，所述根据所述聚合点和所述异常事件进行聚合，得到聚合结果，包括：

将所述聚合点和所述异常事件进行聚合得到聚合包；

对所述聚合包进行根因识别，并结合各个所述聚合点对应的所述异常事件得到所述聚合点的根因识别结果。
根据权利要求7所述的异常事件处理方法，其中，所述在所述异常事件中确定第一目标事件和第二目标事件，包括：

对所述异常事件进行初始化处理得到初始数据，并将所述初始数据输入至预设的双向聚合模型中进行概率计算，分别得到各个所述异常事件与对应的所述聚合点的噪音概率值；

根据所述噪音概率值确定所述异常事件中的第一目标事件和第二目标事件。
根据权利要求9所述的异常事件处理方法，其中，所述根据所述噪音概率值确定所述异常事件中的第一目标事件和第二目标事件，包括：

获取各个所述聚合点的第一概率阈值和第二概率阈值；

将低于所有所述第一概率阈值的所述噪音概率值对应的所述异常事件确定为第一目标事件；

将高于任意一个所述第二概率阈值的所述噪音概率值对应的所述异常事件确定为第二目标事件。
根据权利要求9所述的异常事件处理方法，其中，所述对所述异常事件进行初始化处理得到初始数据，并将所述初始数据输入至预设的双向聚合模型中进行概率计算，分别得到各个所述异常事件与对应的所述聚合点的噪音概率值，包括：

对所述异常事件进行独热编码，得到初始化后的初始向量数据；

获取预设的双向聚合模型，其中，所述双向聚合模型根据获取样本中的样本异常事件、表征为噪音事件的样本目标事件、和样本聚合点，并通过无监督训练后得到；

将所述初始向量数据输入至预设的所述双向聚合模型中进行概率计算，分别得到各个所述异常事件与对应的所述聚合点的噪音概率值。
根据权利要求9所述的异常事件处理方法，其中，所述将所述初始数据输入至预设的双向聚合模型中进行概率计算，分别得到各个所述异常事件与对应的所述聚合点的噪音概率值，包括：

将多个所述聚合点按照时间排序并存放在聚合点列表中；

将所述初始数据输入至预设的双向聚合模型中，并按照所述聚合点列表中的各个所述聚合点分别对所述异常事件进行概率计算，得到各个所述异常事件与对应的所述聚合点的噪音概率值。
一种电子设备，包括：存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时如实现权利要求1至12中任意一项所述的异常事件处理方法。
一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至12中任意一项所述的异常事件处理方法。