WO2023040381A1

WO2023040381A1 - 告警因果关系挖掘方法、告警因果挖掘装置及存储介质

Info

Publication number: WO2023040381A1
Application number: PCT/CN2022/098772
Authority: WO
Inventors: 弄庆鹏; 李忠良; 周祥生; 高洪; 屠要峰
Original assignee: 中兴通讯股份有限公司
Priority date: 2021-09-18
Filing date: 2022-06-14
Publication date: 2023-03-23
Also published as: CN113901126A

Abstract

一种告警因果关系挖掘方法、告警因果挖掘装置及存储介质。告警因果关系挖掘方法包括：基于系统告警信息和系统告警信息的根因标签数据，搭建深度强化学习的系统告警环境（101）；通过深度强化学习的智能体与系统告警环境交互，学习并生成表征告警因果关系和结构的告警因果模型（102）。

Description

告警因果关系挖掘方法、告警因果挖掘装置及存储介质

交叉引用

本申请基于申请号为“202111113557.2”、申请日为2021年9月18日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本申请。

技术领域

本申请实施例涉及互联网技术领域，特别涉及一种告警因果关系挖掘方法、告警因果挖掘装置及存储介质。

背景技术

在数据挖掘领域，通常需要对数据变量间的因果关系和结构进行挖掘和表征。因果关系挖掘算法通常是基于规则的统计学方法实现。例如，基于变量对的共现频率或者变量波动的时序性进行挖掘，然后使用变量对因果系数进行表征。

然而，因果挖掘存在理论缺陷。具体地，若通过规则定义因果性，当所定规则无法正确表示因果关系时，所挖掘得到的因果关系是无效的。而基于共现频率和时序性只能挖掘变量间的关联性而无法表征因果性。而当前新兴的因果论推理方法需要专家经验提供变量因果假设进行验证挖掘或者是通过随机因果假设图进行验证挖掘，存在变量因果假设获取困难和假设空间过大问题。

发明内容

本申请实施例提供了一种告警因果关系挖掘方法，包括：基于系统告警信息和系统告警信息的根因标签数据，搭建深度强化学习的系统告警环境；通过深度强化学习的智能体与系统告警环境交互，学习并生成表征告警因果关系和结构的告警因果模型。

本申请实施例提供了一种告警因果挖掘装置，包括：基于深度强化学习的智能体模块和系统告警环境模块；系统告警环境模块基于系统告警信息和系统告警信息的根因标签数据，搭建深度强化学习的系统告警环境；智能体模块与系统告警环境模块交互，学习并生成表征告警因果关系和结构的告警因果模型。

本申请实施例提供了一种告警因果挖掘装置，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实施例提及的告警因果关系挖掘方法。

本申请实施例提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，实现上述实施例提及的告警因果关系挖掘方法。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请实施例中的告警因果关系挖掘方法的流程图；

图2是本申请实施例中的基于表1和表2生成的系统告警图；

图3是本申请实施例中的告警因果挖掘装置的结构示意图；

图4是本申请实施例中的另一系统告警图；

图5是本申请实施例中的系统告警环境的状态空间的示意图；

图6是本申请实施例中的A2C模型的结构示意图；

图7是本申请实施例中的告警因果挖掘装置20与告警因果挖掘目标系统30的交互示意图；

图8是本申请实施例中的告警因果挖掘装置20得到告警因果模型的过程示意图一；

图9是本申请另一实施例中的告警因果挖掘装置20与告警因果挖掘目标系统30的交互示意图；

图10是本申请实施例中的告警因果挖掘装置20得到告警因果模型的过程示意图二；

图11是本申请另一实施例中的告警因果挖掘装置的结构示意图；

图12是本申请又一实施例中的告警因果挖掘装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本申请的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

在本申请公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施方式的目的在于提供一种告警因果关系挖掘方法、告警因果挖掘装置及存储介质，能够基于深度强化学习得到告警因果模型，避免了手工规则的使用，实现了告警因果关系的准确挖掘和表征。

本申请实施例中，如图1所示的告警因果关系挖掘方法，由告警因果挖掘装置执行，至少包括但不限于如下步骤。

步骤101：基于系统告警信息和系统告警信息的根因标签数据，搭建深度强化学习的系统告警环境。

步骤102：通过深度强化学习的智能体与系统告警环境交互，学习并生成表征告警因果关系和结构的告警因果模型。

本申请实施例中，根据系统告警信息和系统告警信息的根因标签数据搭建深度强化学习的系统告警环境，深度强化学习的智能体通过与系统告警环境进行探索性交互，来不断的探索优化完成告警变量间因果关系挖掘和表征，从而得到告警因果模型，通过利用告警因果模型，实现了告警因果关系的准确挖掘和表征。通过深度强化学习得到告警因果模型，避免了手工规则的使用，进而避免了规则错误导致因果关系无效的问题，也避免了变量因果假设获取困难和假设空间过大问题。

在一个实施例中，基于系统告警信息和系统告警信息的根因标签数据，搭建深度强化学习的系统告警环境，包括：获取指示系统告警信息和系统告警信息的根因标签数据的系统告警图；系统告警图包括系统的各节点的告警类别索引、告警特征向量和根因标记；根据系统告警图，搭建系统告警环境。具体地，告警因果挖掘装置包括系统告警环境模块，系统告警环境模块根据系统告警图，搭建系统告警环境。通过告警图构建系统告警环境，使得系统各节点关系更直观。

在一个例子中，系统告警图可以由系统告警图生成模块生成。以下对系统告警图生成模块基于系统告警信息生成系统告警图的过程进行举例说明。

例如，系统告警信息包括系统告警日志数据(如表1所示)和告警关键性能指标(Key Performance Indicator，KPI)信息(如表2所示)。表1和表2中，node表示节点。表1中，CPU Steal Time表示中央处理器偷盗时间。表2中，CPU：*％表示CPU占用*％，Mem：*％表示存储器占用*％，InputR：*％表示数据输入速率为*％，OutputR：*％表示数据输出速率为*％。

表1

表2

系统告警图生成模块获取如表1和表2所示的系统告警信息，并对系统告警信息进行清洗和收敛等处理，以去除系统告警信息中数值字段、无效字符字段等。系统告警图生成模块对处理后的数据进行分类，并分配告警类别索引(Identity Document，ID)，得到系统的告警类别集合字典。例如，基于表1生成的告警类别集合字典为：

其中，告警类别集合字典指示告警类别索引和实际的告警类别的对应关系。告警系统图生成模块在生成系统告警图的过程中，可根据各节点的系统告警信息对应的告警类别，查找该告警类别集合字典，确定该系统告警信息对应的告警类别索引，以便将系统告警信息对应的告警类别索引记录在系统告警图的对应节点中，供系统告警环境根据各节点的告警类别索引，响应智能体下发的指令。

可选择的，在获取得到系统的告警类别集合字典和各节点的告警类别索引之前或之后，系统告警图生成模块可对系统中的每一个节点的告警日志数据和告警KPI信息进行数字化。例如，通过word2vec技术，将告警日志数据和告警KPI信息转化为向量。例如，基于表1和表2中的node_1至node_3的系统告警信息，生成的向量如表3所示。

表3

在得到如表3所示的基于告警日志数据生成的向量(简称日志向量)和基于告警KPI信息生成的向量(简称KPI向量)后，针对每个节点，系统告警图生成模块将该节点的日志向量和KPI向量进行融合，得到该节点的告警特征向量。其中，日志向量和KPI向量融合的方式可例如是将日志向量和KPI向量合并为一个向量，如表4所示。

表4

在获取各节点的告警类别索引和告警特征向量后，系统告警图生成模块根据系统拓扑数据，生成系统拓扑图；结合系统拓扑图、根因标签数据、以及各节点的告警类别索引和告警特征向量，生成系统告警图。其中，拓扑图包括节点和边，节点在系统中可以为微服务、组件实例等，边则可以定义为微服务调用关系、微服务数据流向等关系。根因标签数据用于指示根因节点。具体地，在系统中，某一节点发生故障后迅速传播，引发其邻接节点故障告警，该节点可称为根因节点。系统告警图生成模块结合系统拓扑图、根因标签数据、以及各节点的告警特征向量和告警类别索引，得到系统告警图。系统告警图中，每个节点可例如为系统的实例化节点(例如微服务组件)，节点的特征值v为节点的告警特征向量，节点的特征值Wid为告警类别索引，节点的特征值rcn为根因标签。

例如，若表1和表2对应的系统拓扑数据为：{"node_1":["node_3"],"node_2":["node_3"],"node_3":["node_4"]}，则基于表1和表2生成的系统告警图如图2所示。其中，"node_1":["node_3"]表示"node_1"的出度节点为"node_3"，"node_2":["node_3"]表示"node_2"的出度节点为"node_3","node_3":["node_4"]表示"node_3"的出度节点为"node_4"。N1表示node_1，v1表示node_1的告警特征向量，N2表示node_2，v2表示node_2的告警特征向量，N3表示node_3，v3表示node_3的告警特征向量，N4表示node_4，v4表示node_4的告警特征向量。Wid表示告警类别索引，rcn表示根因节点标记。rcn＝0表示该节点不是根因节点，rcn＝1表示该节点是根因节点。

需要说明的是，本领域技术人员可以理解，上述例子为一个告警信息样本的处理过程，实际处理中，可以是批量的样本数据处理，得到系统告警图集合，基于系统告警图集合搭建系统告警环境，本实施例不限制系统告警信息的数量。

需要说明的是，本领域技术人员可以理解，系统告警信息也可以包括系统告警日志数据和告警KPI信息中的一种告警信息，系统告警图生成模块将该告警信息的向量作为节点的告警特征向量。

需要说明的是，本领域技术人员可以理解，系统告警信息也可以包括其他告警信息，本实施例不做限制。

需要说明的是，本领域技术人员可以理解，本实施例中，系统告警图生成模块可以是告警因果挖掘装置内部的虚拟模块，也可以是独立于告警因果挖掘装置的其他装置的模块，本实施例不限制系统告警图生成模块和告警因果挖掘装置的关系。

在本申请的一个实施例中，系统告警环境可根据告警类别集合字典中的告警类别索引，建立告警类别索引和挖掘动作的索引的对应关系，以便在接收到智能体下发的挖掘动作的索引后，根据挖掘动作的索引和告警类别索引的对应关系，确定与挖掘动作索引对应的下一节点，并调整系统告警环境的环境状态。

在一个实施例中，通过深度强化学习的智能体与系统告警环境交互，学习并生成表征告警因果关系和结构的告警因果模型，包括：智能体根据系统告警环境当前的环境状态选择挖掘动作；系统告警环境根据挖掘动作、根因标记、状态转移机制和奖励机制，反馈奖励值和继承状态至智能体；其中，挖掘动作的索引与告警类别索引对应；智能体根据挖掘动作和奖励值，学习并生成表征告警因果关系和结构的告警因果模型。具体地，基于深度强化学习模型，构建告警因果挖掘装置。告警因果挖掘装置10如图3所示，包括智能体模块11和系统告警环境模块12。智能体模块11负责告警挖掘策略的生成和学习，完成告警变量因果关系的挖掘和因果结构表征。系统告警环境模块12根据系统告警图生成模块13生成的系统告警图集合和告警类别集合，构建系统告警环境，对状态转移机制和动作奖励机制进行管理，并根据状态转移机制和动作奖励机制响应智能体模块11下发的挖掘动作。系统告警环境模块12还可提供环境交互接口，从而为智能体模块11提供用于挖掘告警变量因果关系的系统告警环境。系统告警环境模块12存储有带有根因节点标签的系统告警图，而系统告警图由系统的节点和关系边组成。其中，系统的节点为微服务组件，节点特征为其告警状态特征，即告警特征向量；关系边为微服务间的业务关系，可以为微服务间调用关系、数据流向关系等关系。根因节点标签则表示节点是否为系统告警图的根因。智能体模块11通过与系统告警环境模块12进行探索性交互，在交互过程中从初始节点为起点对目标节点(根因节点)进行探索游走，智能体模块11通过不断最大化挖掘动作奖励累积值来不断的探索优化完成告警变量间因果关系挖掘和表征，以得到告警因果模型。

在一个实施例中，系统告警环境模块12包括：环境状态表征及转移功能组件、环境动作空间功能组件、告警因果挖掘奖励功能组件和环境状态复位功能组件。

以下对各个功能组件的功能进行举例说明。

1、环境状态表征及转移功能组件

环境状态表征及转移功能组件负责系统告警环境的环境状态管理，存储有环境状态的表征机制和状态转移机制。智能体模块11与系统告警环境模块12交互操作包括：智能体模块11根据当前系统告警环境的环境状态选择相应的挖掘动作，系统告警环境模块12根据当前的环境状态和该挖掘动作将系统告警环境转移到相应继承状态中。

在一个例子中，环境状态的表征机制中，系统告警环境的环境状态根据当前节点的告警状态确定，当前节点的告警状态根据当前节点的告警特征向量，以及当前节点的邻接节点的告警特征向量生成。具体地，当前节点的告警状态由两部分组成：节点自身的告警状态和邻接节点的告警状态。当前节点的邻接节点为当前节点的出度邻接节点或入度邻接节点。其中，在系统告警图中，边的源节点为目标节点的入度邻接点，边的目标节点为源节点的出度邻接点。考虑到在不同出度邻接节点或入度邻接节点的情况下，具有同样告警特征向量的节点的期望继承节点可以是不一致的。本实施例中，可根据当前节点和当前的系统告警图获取当前节点的告警特征向量和邻接节点的告警特征向量，对这两个告警特征向量进行融合，作为当前节点的告警状态，将当前节点的告警状态作为系统告警环境的环境状态。系统告警环境的环境状态(State)采用当前节点的告警特征向量及其出度邻接节点(或者入度邻接节点)的告警特征向量融合进行表征，便于智能体模块11选择挖掘动作。

需要说明的是，本领域技术人员可以理解，邻接节点为出度邻接节点或入度邻接节点可以根据应用场景进行选择，本实施例不做限制。

在一个例子中，当前节点的告警特征向量和当前节点的邻接节点的告警特征向量融合得到当前节点的告警状态的过程如下：计算当前节点的邻接节点的告警特征向量的第一融合特征向量，第一融合特征向量为当前节点的邻接节点的告警特征向量的均值；将当前节点的告警特征向量和第一融合特征向量拼接，得到第二融合特征向量，第二融合特征向量为当前节点的告警状态。

以系统告警图如图4所示，邻接节点为出度邻接节点，当前节点为N3为例，对融合过程进行举例说明。N3的出度邻接节点为节点N4和节点N1，系统告警环境的环境状态为[v3,(v4+v1)/2]。例如，v3＝[1,2,3]，v1＝[2,3,4]，v4＝[2,5,6]，则通过计算，可以得到：v4+v2＝[4,8,10]，(v4+v1)/2＝[2,4,5]，[v3,(v4+v1)/2]＝[1,2,3,2,4,5])。

在一个例子中，状态转移机制负责根据当前系统告警环境的环境状态、挖掘动作、当前节点的局部动作空间决定系统告警环境的继承状态和继承节点。具体地，状态转移机制包括：在挖掘动作属于当前节点的局部动作空间的情况下，将当前节点的含有与挖掘动作的索引对应的告警类别索引的邻接节点作为继承节点；将继承节点的告警状态作为系统告警环境的继承状态；在挖掘动作不属于当前节点的局部动作空间的情况下，将系统告警环境的继承状态设置为指定状态，例如，零状态。具体地，系统告警图的节点转移动作的定义可以是从当前节点转移到期望节点所选择(或执行)的动作。节点转移动作分为全局动作空间和局部动作空间。全局动作空间是指整个系统告警图的样本环境中可选的转移动作空间。局部动作空间是指当前步骤所处的样本环境允许的转移动作空间(有效动作空间)。例如，如图5所示，某一系统告警环境的状态空间为ABCDE，对每一个状态分配动作ID：1:A，2:B，3:C，4:D，5:E。若当前状态为B，那么全局动作空间为{1,2,3,4,5}。如果当前步骤所处的节点为B节点，其局部动作空间为{1,3,4}，其可以选择动作3转移到C节点，但是B节点无法转移到E节点的。

例如，挖掘动作的索引和告警类别索引一致，以图4为例，对于节点N2，其局部动作空间为{2，3}，如果智能体模块11的挖掘动作的索引为2，对应的是wid＝2的节点N4，则将节点N4作为继承节点，进行状态转移；并根据继承节点的告警状态，获取系统告警环境的继承状态(State_)。如果挖掘动作的索引为3，对应的是wid＝3的节点N3，则将节点N3作为继承节点，进行状态转移；并根据继承节点的告警状态，获取系统告警环境的继承状态(State_)。如果挖掘动作不是2和3，例如挖掘动作的索引为5，不在当前节点的局部动作空间中，则判断挖掘动作为非法动作，则不进行节点转移，直接将系统告警环境继承状态State_设置为指定状态，例如零状态。

本实施例中，通过环境状态表征机制及状态转移机制，保证了系统告警图的节点特征表征的准确性和转移的合理性。

需要说明的是，本领域技术人员可以理解，指定状态也可以是其他状态，本实施例不做限制。

2、环境动作空间功能组件

负责交互环境的动作空间的设计。具体地，在智能体模块11与系统告警环境模块12交互过程中，挖掘动作的含义为根据当前节点的告警(果告警)状态，选择相应的挖掘动作，转移到因告警节点中，所以挖掘动作定义可以为因告警的选择。通过系统图生成模块对系统告警信息进行采集(包括但不限于系统告警日志数据和KPI数据)、清洗、收敛，然后对系统告警信息进行分类和索引分配。本实施例中，告警类别空间即动作空间，环境状态表征及转移功能组件将每一个挖掘动作对应每一个告警类，挖掘动作的索引与告警类别索引一一对应。

3、告警因果挖掘奖励功能组件

告警因果挖掘奖励功能组件负责根据奖励机制、当前环境状态和执行动作，为智能体模块11反馈相应的奖励，该奖励表征当前状态下所执行的挖掘动作的好坏。因为同一个环境状态下，执行不同的挖掘动作获取的奖励是不一样的，奖励的目标是为了更好地引导智能体模块11从初始节点游走到目标节点(例如可以为系统告警图的根因节点)，快速的完成告警变量因果关系挖掘和表征。

可选择的，奖励机制包括：根据挖掘动作是否属于当前节点的局部动作空间，以及执行挖掘动作后，系统告警环境的继承节点的类型，确定奖励值。具体地，系统告警环境模块12在执行完挖掘动作后进行状态转移，将系统告警环境的环境状态转移至继承状态中，在系统告警图中体现为从当前节点转移到继承节点中。

可选择的，将继承节点分为四类：根因节点、根因节点的入度邻接节点、零出度节点(或非根因节点)和正常节点。根因节点为当前系统告警图的根因节点，例如，图4中的节点N5。根因节点的入度邻接节点为根因节点入度边的源节点，例如图4中根因节点N5有一条入度边N4→N5，其源节点为N4，所以N4节点为根因节点N5的入度邻接节点。零出度节点为出度为0且不是根因节点的节点，例如图4中节点N1和节点N6，其出度边等于0。除以上类型节点外的节点归为正常节点，例如图4中的节点N2和节点N3。在交互过程中，系统告警环境模块12执行挖掘动作并将系统告警环境的从当前节点转移到继承节点，如果当前执行的挖掘动作为非法动作，则反馈负奖励；如果当前执行的挖掘动作属于当前节点的局部动作空间内的动作，且，继承节点为根因节点，则反馈正奖励；如果当前执行的挖掘动作属于当前节点的局部动作空间内的动作，且，继承节点为根因节点入度邻接点，则反馈正奖励；如果当前执行的挖掘动作属于当前节点的局部动作空间内的动作，且，继承节点为零出度节点，则反馈负奖励；如果当前执行的挖掘动作属于当前节点的局部动作空间内的动作，且，继承节点为正常节点，反馈0奖励。

例如，当前节点为节点N2，转移到节点N3时，N3为正常节点，所以反馈奖励为0；而从节点N3转移到节点N4时，因为节点N4为根因节点入度邻接节点，所以反馈正奖励；从节点N4转移到节点N5时，因为节点N5为根因节点，所以反馈正奖励；如果从节点N3转移到节点N1，因为节点N1为零出度节点，所以反馈负奖励；如果在节点N3执行非法动作则反馈负奖励。

需要说明的是，本领域技术人员可以理解，以上正奖励的具体奖励值和负奖励的具体奖励值可以根据应用场景特点进行设置，本实施例不做限制。

值得一提的是，通过设立奖励机制，实现了因果告警挖掘动作的正确引导，保证了挖掘动作的合法性。

4、环境状态复位功能组件

环境状态复位功能组件负责根据环境状态复位机制，对系统告警环境进行复位。具体地，在智能体与系统告警环境交互过程中，还包括：系统告警环境在执行完智能体下发的挖掘动作后，若满足交互终止条件，触发环境状态复位机制。

可选择的，智能体与系统告警环境的交互终止条件包括：交互次数达到交互阈值、继承节点为根因节点或挖掘动作不属于当前节点的局部动作空间中的至少一个。具体地，智能体与系统告警环境交互终止条件包括但不限于：当前交互周期的挖掘探索次数(即交互次数)达到指定数值(即交互阈值)、挖掘探索达到系统告警图根因节点(即继承节点为根因节点)和智能体输出非法挖掘动作。非法挖掘动作是指不属于当前节点的局部动作空间的动作。当满足以上条件中的任意一条时，对系统告警环境进行复位，进行下一周期告警因果挖掘探索。

可选择的，环境状态复位机制包括：在基于系统告警信息和系统告警信息的根因标签数据生成的系统告警图集合中，随机选取一个系统告警图，作为系统告警环境的系统告警图；从系统告警环境的系统告警图中，选择一个出度或入度不为0的节点作为起始节点；将起始节点的告警状态作为系统告警环境的环境状态，反馈给智能体，以便智能体与系统告警环境重新进行交互。

在一个实施例中，智能体负责根据系统告警环境的环境状态，生成相应的挖掘动作(Action)与系统告警环境进行交互，实现告警因果结构挖掘和表征，其功能包括挖掘和表征。

可选择的，智能体可以采用深度强化学习模型中的演员-评论家架构的A2C模型，A2C模型的结构如图6所示，智能体11由一个演员(Actor)网络模型和一个评论家(Critic)网络模型组成。其中，Actor网络模型负责根据系统告警环境12的环境状态(State)生成挖掘动作(Action)，因此，Actor模型的输入维度与系统告警环境的环境状态(State)空间维度一致，而输出维度与系统告警环境的动作(Action)空间维度一致。Critic网络模型负责评估动作-状态Q值Q(State,Action)，用于Actor网络模型的优化，所以Critic网络模型的输入维度＝State空间维度+Action空间维度，输出维度＝1。

以下结合针对不同的系统告警信息和系统告警图中拓扑边的不同含义，对本实施例提及的告警因果关系挖掘方法进行举例说明。

在一个实施例中，如图7所示，告警因果挖掘装置20与告警因果挖掘目标系统30通信连接。告警因果挖掘目标系统30对系统的告警日志和系统拓扑进行采集，打上根因标签，打包成系统告警样本，将系统告警样本上传到告警因果挖掘装置20。例如，如图8所示，告警因果挖掘装置20包括智能体模块21和系统告警环境模块22，得到告警因果模型的步骤如下：

步骤201：系统告警环境模块22对告警因果挖掘目标系统30上传的系统告警样本进行解析。

步骤202：系统告警环境模块22根据系统拓扑数据构建系统拓扑图，并创建图节点属性。节点属性包括告警特征向量v、告警类别索引wid和节点根因标记rcn。对所有系统告警样本的告警日志进行清洗、收敛、分类，获取告警类别集合，并对告警类别分配索引。

步骤203：系统告警环境模块22获取系统告警图。具体地，以单样本为例，系统告警环境模块22结合word2vec技术，将节点的告警日志进行向量化，获取节点的告警日志特征向量，并赋值给系统拓扑图对应的节点的属性v；根据步骤203中的告警类别索引的分配结果，获取节点的告警类别索引，并赋值给系统拓扑图对应的节点的属性wid；根据根因标签信息对系统拓扑图中的根因节点的属性rcn值置1，其余节点属性rcn值置0。

以上获取的系统告警图存放到系统告警图集合中。

步骤204：系统告警环境模块22根据告警类别集合构建系统告警环境动作空间。具体地，每一个告警类别对应一个挖掘动作，挖掘动作索引与告警类别索引保持一致。

步骤205：告警因果挖掘装置20创建智能体模块21，并设置告警因果挖掘周期数(episode_num)和周期长度(episode_len)，初始化周期和周期长度计数器episode_counter＝0，step_counter＝0。其中，智能体模块21可以包括Actor模型和Critic模型。

步骤206：系统告警环境模块22创建系统告警环境和交互经验池。

步骤207：系统告警环境模块22对系统告警环境进行复位。首先从系统告警图集合中随机获取一个系统告警图作为当前系统告警图A，然后从当前系统告警图A中随机选取一个出度不为0的节点作为当前节点，最后根据当前节点及其邻接节点的告警特征向量v，融合得到系统告警环境的环境状态(State)，并将系统告警环境的环境状态反馈给智能体模块21。

步骤208：智能体模块21读取系统告警环境的环境状态，根据系统告警环境的环境状态生成挖掘动作(Action)，并发送到系统告警环境中。

步骤209：系统告警环境模块22判断Action的合法性，即判断挖掘动作是否在当前节点的局部动作空间中。如果Action非法，执行步骤210。如果合法，执行步骤211。

步骤210：系统告警环境模块22不进行继承节点转移，直接将告警环境继承状态(State_)设置为零状态，将动作奖励设置为-10.0，周期交互结束标记(done)设置为正确(True)。之后执行步骤212。

步骤211：系统告警环境模块22转移到包含挖掘动作索引所对应的告警类别索引(wid)的节点中，将该节点作为继承节点，并根据继承节点获取系统告警环境的继承状态(State_)。如果继承节点为rcn＝1，那么将动作奖励(reward)设置为50.0，周期交互结束标记(done)设置为True；如果继承节点的出度＝0，那么将动作奖励设置为-1.0，周期交互结束标记设置为True；如果继承节点为根因节点入度邻接节点，那么将动作奖励设置为1.0，周期交互结束标记设置为错误(False)；如果继承节点为正常节点，那么将动作奖励设置为0.0，周期交互结束标记设置为False。

步骤212：系统告警环境模块22将继承状态、动作奖励和周期交互结束标记反馈至智能体模块21。

步骤213：智能体模块21将当前状态、挖掘动作、动作奖励和继承状态，组成四元组(State，Action，reward，State_)，作为经验样本存放到交互经验池中，并将系统告警环境的环境状态(State)更新为继承状态State_。

步骤214：智能体模块21将step_counter累计加1。

步骤215：智能体模块21基于以下判断结果执行后续操作：

如果确定周期交互标记done＝False并且step_counter<episode_len，跳转到步骤208；

如果周期交互标记done＝True或者step_counter>＝episode_len，那么 episode_counter累计加1，并且利用交互经验池中经验样本对智能体模块21进行模型优化(包括Actor模型和Critic模型)，使得智能体模块21能最大化交互累积回报；

如果episode_counter<episode_num，跳转到步骤207，否则跳转到步骤208。

步骤216：完成告警因果挖掘，将智能体模块21的Actor模型导出，作为目标系统告警因果关系和结构表征模型。可为系统故障根因定位提供二次开发支撑等。

在一个实施例中，如图9所示，告警因果挖掘装置20与告警因果挖掘目标系统30通信连接。告警因果挖掘目标系统30对系统的告警日志、告警KPI信息、系统拓扑采集，打上根因标签，打包成系统告警样本，然后将数据上传到告警因果挖掘装置20。如图10所示，告警因果挖掘装置20包括智能体模块21和系统告警环境模块22，得到告警因果模型的步骤如下：

步骤301：系统告警环境模块22对告警因果挖掘目标系统上传的系统告警样本进行解析。

步骤302：系统告警环境模块22根据系统拓扑数据构建系统拓扑图，并创建图节点属性。节点属性包括告警特征向量v、告警类别索引wid和节点根因标记rcn。对所有系统告警样本的告警日志进行清洗、收敛、分类，获取告警类别集合，并对告警类别分配索引。

步骤303：系统告警环境模块22获取系统告警图。具体地，以单样本为例，系统告警环境模块22结合word2vec技术对节点的告警日志进行向量化，获取节点的日志向量；对节点告警KPI信息进行向量化，获取节点的KPI向量；对日志向量和KPI向量进行拼接融合，获取节点的告警特征向量；将告警特性向量赋值给系统拓扑图对应的节点的属性v；根据步骤203中的告警类别索引的分配结果，获取节点的告警类别索引，并赋值给系统拓扑图对应的节点的属性wid；根据根因标签信息对系统拓扑图中的根因节点的属性rcn值置1，其余节点属性rcn值置0。

以上获取的系统告警图存放到系统告警图集合中。

步骤304：系统告警环境模块22根据告警类别集合构建系统告警环境动作空间。具体地，每一个告警类别对应一个挖掘动作，挖掘动作索引与告警类别索引保持一致。

步骤305：告警因果挖掘装置20创建智能体模块21，并设置告警因果挖掘周期数(episode_num)和周期长度(episode_len)，初始化周期和周期长度计数器episode_counter＝0，step_counter＝0。其中，智能体模块21可以包括Actor模型和Critic模型。

步骤306：系统告警环境模块22创建系统告警环境和交互经验池。

步骤307：系统告警环境模块22对系统告警环境进行复位。首先从系统告警图集合中随机获取一个系统告警图作为当前系统告警图A，然后从当前系统告警图A中随机选取一个出度不为0的节点作为当前节点，最后根据当前节点及其邻接节点的告警特征向量v，融合得到系统告警环境的环境状态(State)，并将系统告警环境的环境状态反馈给智能体模块21。

步骤308：智能体模块21读取系统告警环境的环境状态，根据系统告警环境的环境状态生成挖掘动作(Action)，并发送到系统告警环境中。

步骤309：系统告警环境模块22判断Action的合法性，即判断挖掘动作是否在当前节点的局部动作空间中。如果Action非法，执行步骤310。如果合法，执行步骤311。

步骤310：系统告警环境模块22不进行继承节点转移，直接将告警环境继承状态(State_)设置为零状态，将动作奖励设置为-10.0，周期交互结束标记(done)设置为正确(True)。之后执行步骤212。

步骤311：系统告警环境模块22转移到包含挖掘动作索引所对应的告警类别索引(wid)的节点中，将该节点作为继承节点，并根据继承节点获取系统告警环境的继承状态(State_)。如果继承节点为rcn＝1，那么将动作奖励(reward)设置为50.0，周期交互结束标记(done)设置为True；如果继承节点的出度＝0，那么将动作奖励设置为-1.0，周期交互结束标记设置为True；如果继承节点为根因节点入度邻接节点，那么将动作奖励设置为1.0，周期交互结束标记设置为错误(False)；如果继承节点为正常节点，那么将动作奖励设置为0.0，周期交互结束标记设置为False。

步骤312：系统告警环境模块22将继承状态、动作奖励和周期交互结束标记反馈至智能体21。

步骤313：智能体模块21将当前状态、挖掘动作、动作奖励和继承状态，组成四元组(State，Action，reward，State_)，作为经验样本存放到交互经验池中，并将系统告警环境的环境状态(State)更新为继承状态State_。

步骤314：智能体模块21将step_counter累计加1。

步骤315：智能体模块21基于以下判断结果执行后续操作：

如果确定周期交互标记done＝False并且step_counter<episode_len，跳转到步骤308；

如果周期交互标记done＝True或者step_counter>＝episode_len，那么episode_counter累计加1，并且利用交互经验池中经验样本对智能体进行模型优化(包括Actor模型和Critic模型)，使得智能体能最大化交互累积回报；

如果episode_counter<episode_num，跳转到步骤307，否则跳转到步骤308。

步骤316：完成告警因果挖掘，将智能体的Actor模型导出，作为目标系统告警因果关系和结构表征模型。可为系统故障根因定位提供二次开发支撑等。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请实施例还提供一种告警因果挖掘装置，如图11所示，告警因果挖掘装置20包括：智能体模块21和系统告警环境模块22。系统告警环境模块21可基于系统告警信息和系统告警信息的根因标签数据，搭建深度强化学习的系统告警环境；基于深度强化学习的智能体模块21与系统告警环境模块22交互，学习并生成表征告警因果关系和结构的告警因果模型。其中，智能体模块21和系统告警环境模块22的功能组件等及交互方式可参考上述实施例的相关描述，此处不再赘述。

不难发现，本实施例为与上述方法实施例相对应的装置实施方式，本实施例可与上述方法实施例互相配合实施。上述方法实施例中提到的相关技术细节在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在上述方法实施例中。

值得一提的是，本实施例中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本申请的创新部分，本实施例中并没有将与解决本申请所提出的技术问题关系不太密切的单元引入，但这并不表明本实施例中不存在其它的单元。

本申请实施例还提供一种告警因果挖掘装置，如图12所示，包括：至少一个处理器31；以及与至少一个处理器31通信连接的存储器32；其中，存储器存储有可被至少一个处理器31执行的指令，指令被至少一个处理器31执行，以使至少一个处理器31能够执行上述方法实施例。

其中，存储器32和处理器31采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器31和存储器32的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器31处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器31。

处理器31负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器32可以被用于存储处理器31在执行操作时所使用的数据。

本申请实施例还提供一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor) 执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

一种告警因果关系挖掘方法，包括：

基于系统告警信息和所述系统告警信息的根因标签数据，搭建深度强化学习的系统告警环境；

通过所述深度强化学习的智能体与所述系统告警环境的交互，学习并生成表征告警因果关系和结构的告警因果模型。
根据权利要求1所述的告警因果关系挖掘方法，其中，所述基于所述系统告警信息和所述系统告警信息的根因标签数据，搭建深度强化学习的系统告警环境，包括：

获取指示所述系统告警信息和所述系统告警信息的根因标签数据的系统告警图；所述系统告警图包括系统的各节点的告警类别索引、告警特征向量和根因标记；

根据所述系统告警图，搭建所述系统告警环境。
根据权利要求2所述的告警因果关系挖掘方法，其中，所述通过所述深度强化学习的智能体与所述系统告警环境交互，学习并生成表征告警因果关系和结构的告警因果模型，包括：

所述智能体根据所述系统告警环境当前的环境状态选择挖掘动作；

所述系统告警环境根据所述挖掘动作、所述根因标记、状态转移机制和奖励机制，反馈奖励值和继承状态至所述智能体；其中，所述挖掘动作的索引与所述告警类别索引对应；

所述智能体根据所述挖掘动作和所述奖励值，学习并生成表征告警因果关系和结构的告警因果模型。
根据权利要求3所述的告警因果关系挖掘方法，其中，所述系统告警环境的环境状态根据当前节点的告警状态确定，所述当前节点的告警状态根据所述当前节点的告警特征向量，以及所述当前节点的邻接节点的告警特征向量生成。
根据权利要求3所述的告警因果关系挖掘方法，其中，所述状态转移机制包括：

在所述挖掘动作属于当前节点的局部动作空间的情况下，将所述当前节点的含有与所述挖掘动作的索引对应的告警类别索引的邻接节点作为继承节点；将所述继承节点的告警状态作为所述系统告警环境的继承状态；

在所述挖掘动作不属于所述当前节点的局部动作空间的情况下，将所述系统告警环境的继承状态设置为指定状态。
根据权利要求3所述的告警因果关系挖掘方法，其中，所述奖励机制包括：根据所述挖掘动作是否属于当前节点的局部动作空间，以及执行所述挖掘动作后，所述系统告警环境的继承节点的类型，确定所述奖励值。
根据权利要求3至6中任一项所述的告警因果关系挖掘方法，其中，在所述智能体与所述系统告警环境交互过程中，还包括：

所述系统告警环境在执行完所述智能体下发的挖掘动作后，在满足交互终止条件的情况下，触发环境状态复位机制。
根据权利要求7所述的告警因果关系挖掘方法，其中，所述环境状态复位机制包括：

在基于所述系统告警信息和所述系统告警信息的根因标签数据生成的系统告警图集合中，随机选取一个系统告警图，作为所述系统告警环境的系统告警图；

从所述系统告警环境的系统告警图中，选择一个出度或入度不为0的节点作为起始节点；

将所述起始节点的告警状态作为所述系统告警环境的环境状态，反馈给所述智能体，以便所述智能体与所述系统告警环境重新进行交互。
一种告警因果挖掘装置，包括：基于深度强化学习的智能体模块和系统告警环境模块；

所述系统告警环境模块基于系统告警信息和系统告警信息的根因标签数据，搭建深度强化学习的系统告警环境；

所述智能体模块与所述系统告警环境模块交互，学习并生成表征告警因果关系和结构的告警因果模型。
一种告警因果挖掘装置，包括：至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8中任一项所述的告警因果关系挖掘方法。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至8中任一项所述的告警因果关系挖掘方法。