WO2021109578A1

WO2021109578A1 - 业务运维中告警的预测方法、装置与电子设备

Info

Publication number: WO2021109578A1
Application number: PCT/CN2020/101818
Authority: WO
Inventors: 徐键
Original assignee: 北京天元创新科技有限公司
Priority date: 2019-12-02
Filing date: 2020-07-14
Publication date: 2021-06-10
Also published as: CN111124840B; CN111124840A

Abstract

本申请实施例提供一种业务运维中告警的预测方法、装置与电子设备，其中所述方法包括：获取当前告警周期之前目标网元对象给定数量的历史告警数据，构成历史告警序列；基于所述历史告警序列，利用训练好的隐马尔科夫预测模型，对所述目标网元对象进行告警预测；其中，所述训练好的隐马尔科夫预测模型为预先通过分析故障管理系统中网元对象、网元故障和网元告警的关系信息进行初始化构建，并利用根据所述关系信息选取的原始数据样本进行训练获取的。本申请实施例能够有效提高业务运维中告警预测的准确性，从而有效避免故障或减小故障发生带来的影响。

Description

业务运维中告警的预测方法、装置与电子设备

相关申请的交叉引用

本申请要求于2019年12月02日提交的申请号为201911215004.0，发明名称为“业务运维中告警的预测方法、装置与电子设备”的中国专利申请的优先权，其通过引用方式全部并入本文。

技术领域

本申请涉及IT运维技术领域，更具体地，涉及一种业务运维中告警的预测方法、装置与电子设备。

背景技术

在IT运维领域，一个完善的运维体系中都包含具有故障管理能力的系统，通常称为故障管理系统。传统的故障管理系统一般具备设备告警监控、业务指标监控、响应故障和定位故障等功能。

传统故障管理系统关于设备告警监控，都是“后知后觉”的。即，相关的采集工具获取到数据后，发现数据触发了相应的规则才产生告警并审核派单。通常从发现告警到派单的过程越短，相应告警产生的影响就会越小，运维人员解决问题的时间窗口就越宽裕。因此，如果能够准确地提前预测到设备告警，就可以提前做好相应的规避措施，从而避免相关故障的产生或者减少相关故障产生时带来的影响。

目前，关于设备告警预测，相关学者和研究人员提出了基于人工智能的分析方法。例如，先采用机器学习和人工智能算法对数据进行聚类分析，提取设备或服务告警的规律信息，再采用相似性度量方式预测告警的发生。但是，由于该方法仅仅是对现有告警数据的规律性总结，并不能真正体现设备状态，导致对具体设备的告警预测准确性不高。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本申请实施例提供一种业务运维中告警的预测方法、装置与电子设备，用以有效提高业务运维中告警预测的准确性，从而有效避免故障或减小故障发生带来的影响。

第一方面，本申请实施例提供一种业务运维中告警的预测方法，包括：

获取当前告警周期之前目标网元对象给定数量的历史告警数据，构成历史告警序列；

基于所述历史告警序列，利用训练好的隐马尔科夫预测模型，对所述目标网元对象进行告警预测；

其中，所述训练好的隐马尔科夫预测模型为预先通过分析故障管理系统中网元对象、网元故障和网元告警的关系信息进行初始化构建，并利用根据所述关系信息选取的原始数据样本进行训练获取的。

进一步的，在所述利用训练好的隐马尔科夫预测模型，对所述目标网元对象进行告警预测的步骤之前，本申请实施例的业务运维中告警的预测方法还包括：

通过分析故障管理系统中网元对象、网元故障和网元告警间的关系信息，初始化构建基于监督学习的隐马尔科夫初始模型，并根据所述关系信息，选取故障管理系统中相应的历史告警数据，构成训练样本集；

利用所述训练样本集中的各样本数据，采用极大似然估计法，迭代训练所述隐马尔科夫初始模型，获取满足设定标准的预测模型，作为所述训练好的隐马尔科夫预测模型。

其中可选的，所述选取故障管理系统中相应的历史告警数据，构成训练样本集的步骤具体包括：

结合运维知识，通过分析故障管理系统中网元对象、网元故障和网元告警的因果关系，选取第二给定数量的历史告警数据，所述历史告警数据中包括所述网元对象与所述网元告警一对一的对应关系；

对所述历史告警数据根据时序性和缺失值进行预处理，并对预处理结果进行编码，得到样本数据；

根据所有所述样本数据，构成所述训练样本集。

进一步的，在所述迭代训练所述隐马尔科夫初始模型的步骤之前，本申请实施例的业务运维中告警的预测方法还包括：

不断调整所述训练样本集中所述样本数据的数量，并对所述训练样本集进行划分，产生多个子训练样本集；

对产生的所有所述子训练样本集，按照固定比例划分出训练集和测试集。

其中可选的，所述迭代训练所述隐马尔科夫初始模型的步骤具体包括：

利用各所述子训练样本集中的训练集，分别采用极大似然估计法，迭代训练所述隐马尔科夫初始模型，对应获取多个候选预测模型；

利用所述子训练样本集中的测试集，对应验证各所述候选预测模型是否满足所述设定标准，选取满足所述设定标准的预测模型，作为所述训练好的隐马尔科夫预测模型；

其中，所述设定标准为利用所述测试集验证的预测结果的准确率为最高。

其中可选的，所述利用训练好的隐马尔科夫预测模型，对所述目标网元对象进行告警预测的步骤具体包括：从所有网元对象产生的告警集合中选取多个不同类别的告警，并基于所述历史告警序列和选取的各所述告警，利用所述训练好的隐马尔科夫预测模型分别进行前向计算，获取选取的各所述告警分别对应的概率，并基于所述概率，确定所述目标网元对象的告警预测结果。

其中可选的，所述基于所述概率，确定所述目标网元对象的告警预测结果的步骤具体包括：根据所述概率的大小，对所有所述概率进行排序，并根据排序结果获取取值最大者对应的告警，作为所述目标网元对象的下一预测周期的告警。

第二方面，本申请实施例提供一种业务运维中告警的预测装置，包括：

数据获取模块，配置为获取当前告警周期之前目标网元对象给定数量的历史告警数据，构成历史告警序列；

预测输出模块，配置为基于所述历史告警序列，利用训练好的隐马尔科夫预测模型，对所述目标网元对象进行告警预测；

第三方面，本申请实施例提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上第一方面所述的业务运维中告警的预测方法的步骤。

第四方面，本申请实施例提供一种非暂态计算机可读存储介质，其上存储有计算机指令，所述计算机指令被计算机执行时，实现如上第一方面所述的业务运维中告警的预测方法的步骤。

本申请实施例提供的业务运维中告警的预测方法、装置与电子设备，通过对故障管理系统中网元对象、故障和告警的关系的分析，并结合隐马尔科夫预测模型，对根据网元对象历史告警构建的目标序列进行运算处理，最终实现对网元对象的告警预测，能够有效提高业务运维中告警预测的准确性，从而有效避免故障或减小故障发生带来的影响。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的业务运维中告警的预测方法的流程示意图；

图2为本申请实施例提供的业务运维中告警的预测方法的执行原理示意图；

图3为本申请实施例提供的业务运维中告警的预测装置的结构示意图；

图4为本申请实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请实施例的一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

针对运维过程中告警预测问题，即，若能较为准确地知道一些重要的告警在未来很短的一段时间内发生，就可以提前采取措施避免或减少相应的影响，本申请实施例提出了一种基于监督学习的隐马尔科夫告警预测方法，该方法采用离线的监督学习的方式产生预测模型，利用模型较为准确地预测下一个预测周期最可能产生的告警，从而提升运维的自动化和智能化。

也就是说，本申请实施例针对现有技术中对业务运维中告警预测准确性较差的问题，通过对故障管理系统中网元对象、故障和告警的关系的分析，并结合隐马尔科夫预测模型，对根据网元对象历史告警构建的目标序列进行运算处理，最终实现对网元对象的告警预测，能够有效提高业务运维中告警预测的准确性，从而有效避免故障或减小故障发生带来的影响。以下将具体通过多个实施例对本申请实施例进行展开说明和介绍。

图1为本申请实施例提供的业务运维中告警的预测方法的流程示意图，如图1所示，该方法包括：

S101，获取当前告警周期之前目标网元对象给定数量的历史告警数据，构成历史告警序列。

可以理解为，本申请实施例根据网元对象的历史告警数据，来对网元对象下一个告警周期的告警进行预测。因此，本申请实施例首先根据故障管理系统的历史记录数据，获取到目标网元对象在当前告警周期之前已经发出的告警，即历史告警数据。可以理解的是，为了避免偶然性带来的误差，兼顾隐马尔科夫预测模型的特性，选取的该历史告警数据的数量要达到一定的量，该一定的量可以通过实现设定得到。之后，可将这些历史告警数据按一定的时序性进行处理并编码，构成一数据序列，即为历史告警序列。

S102，基于历史告警序列，利用训练好的隐马尔科夫预测模型，对目标网元对象进行告警预测。其中，训练好的隐马尔科夫预测模型为预先通过分析故障管理系统中网元对象、网元故障和网元告警的关系信息进行初始化构建，并利用根据关系信息选取的原始数据样本进行训练获取的。

可以理解为，在得到目标网友对象的历史告警序列的基础上，可将其输入到预先训练好的隐马尔科夫预测模型中，通过该预测模型的前向计算，得到对目标网元对象下一个或多个告警周期的告警的预测结果。

可以理解的是，在对预测模型进行应用之前，需要采用一定的模型建立方法事先对模型进行建立。具体而言，可以先对故障管理系统中网元对象、故障和告警的关系进行分析，并基于此初始化构建出一隐马尔科夫初始模型。之后，根据上述分析的结果，选取出相应的原始告警数据，再对这些原始告警数据进行处理后，训练构建出的隐马尔科夫初始模型，最终得到训练好的隐马尔科夫预测模型，可用于网元对象的告警预测。

本申请实施例提供的业务运维中告警的预测方法，通过对故障管理系统中网元对象、故障和告警的关系的分析，并结合隐马尔科夫预测模型，对根据网元对象历史告警构建的目标序列进行运算处理，最终实现对网元对象的告警预测，能够有效提高业务运维中告警预测的准确性，从而有效避免故障或减小故障发生带来的影响。

进一步的，在上述各实施例的基础上，在利用训练好的隐马尔科夫预测模型，对目标网元对象进行告警预测的步骤之前，本申请实施例的业务运维中告警的预测方法还包括：

通过分析故障管理系统中网元对象、网元故障和网元告警间的关系信息，初始化构建基于监督学习的隐马尔科夫初始模型，并根据关系信息，选取故障管理系统中相应的历史告警数据，构成训练样本集；利用训练样本集中的各样本数据，采用极大似然估计法，迭代训练隐马尔科夫初始模型，获取满足设定标准的预测模型，作为训练好的隐马尔科夫预测模型。

可以理解为，在对预测模型进行应用之前，本申请实施例还采用一定的模型建立方法事先对模型进行建立。具体而言，首先根据故障管理系统的历史记录信息，获取故障管理系统中的网元对象，并获取各网元对象产生的故障数据和对应形成的告警数据。之后，对这些网元对象、故障和告警的关系进行综合分析，并在此基础上初始化构建出一基于监督学习的隐马尔科夫初始模型。同时，当然也可以在之前或之后，根据上述分析的结果，也即关系信息，从故障管理系统中选取一定量相应的历史告警数据，对应形成多个训练样本数据，并基于此构成初始预测模型的训练样本集。

然后，通过从上述训练样本集中逐个选取各样本数据，对初始化构建的隐马尔科夫初始模型采用极大似然估计法进行迭代训练，并在每轮训练过程中对模型的预测结果进行测试，最终得到满足设定标准的预测模型，即作为训练好的隐马尔科夫预测模型。

其中，根据上述各实施例可选的，选取故障管理系统中相应的历史告警数据，构成训练样本集的步骤具体包括：结合运维知识，通过分析故障管理系统中网元对象、网元故障和网元告警的因果关系，选取第二给定数量的历史告警数据，历史告警数据中包括网元对象与网元告警一对一的对应关系；对历史告警数据根据时序性和缺失值进行预处理，并对预处理结果进行编码，得到样本数据；根据所有样本数据，构成训练样本集。

可以理解为，本申请实施例实现对模型的训练样本集的构建。具体而言，首先结合运维知识，对故障管理系统历史记录信息中网元对象及网元对象产生的网元故障和网元告警的因果关系进行分析，并根据分析结果选取出给定数量的历史告警数据。其中，该历史告警数据表示为网元对象与其产生的告警信息之间的一对一的对应关系。例如，某历史时刻，某网元对象s _i产生了告警信息o _i，则根据其选取的历史告警数据可表示为(o _i,s _i)。

之后，对选取出的历史告警数据进行预处理，包括按时序进行处理以及对缺失值的等效补充等，再对预处理的结果进行编码处理，得到对应的编码结果作为样本数据。最后，根据这些样本数据构建一样本集合，即为训练样本集。

另外，在上述各实施例的基础上，在迭代训练隐马尔科夫初始模型的步骤之前，本申请实施例的业务运维中告警的预测方法还包括：不断调整训练样本集中样本数据的数量，并对训练样本集进行划分，产生多个子训练样本集；对产生的所有子训练样本集，按照固定比例划分出训练集和测试集。

可以理解为，本申请实施例在对预测模型进行训练之前，对训练样本集的划分进行改进处理，以改善传统仅将训练样本集划分为训练集和测试集时存在的缺陷。具体而言，根据实际训练样本集的容量情况，通过选取更多的历史告警数据，不断调整训练样本集中样本数据的数量。同时，对训练样本集按照应用需求进行子集划分，得到对应的多个子训练样本集。之后，再分别对各个子训练样本集，按照固定的比例划分出对应的多个训练集和测试集。

例如，如表1所示，为根据本申请实施例对训练样本集的划分示例表。表中将训练样本集中的样本数据均匀划分到五个子训练样本集中，并对每个子训练样本集按照固定比例7:3、8:2和9:1，划分出对应的训练集和测试集。

表1 根据本申请实施例对训练样本集的划分示例表

其中，根据上述各实施例可选的，迭代训练隐马尔科夫初始模型的步骤具体包括：利用各子训练样本集中的训练集，分别采用极大似然估计法，迭代训练隐马尔科夫初始模型，对应获取多个候选预测模型；利用子训练样本集中的测试集，对应验证各候选预测模型是否满足设定标准，选取满足设定标准的预测模型，作为训练好的隐马尔科夫预测模型；其中，设定标准为利用测试集验证的预测结果的准确率为最高。

可以理解为，为避免一次训练选取的损失函数不当而导致模型准确性不高的问题，本申请实施例利用根据上述实施例划分出的各子训练样本集，分别对构建的隐马尔科夫初始模型进行训练。具体而言，分别提取各子训练样本集中的训练集，采用极大似然估计法，对构建的隐马尔科夫初始模型分别单独进行训练，对应得到多个训练完成的预测模型作为候选预测模型。

之后，对于对应得到的各候选预测模型，利用与训练该候选预测模型的训练集对应的测试集，分别对应测试候选预测模型的准确性。也就是说，对于得到的任一候选预测模型，利用其对应的测试集进行前向计算得到预测结果，并与测试集中的参考告警结果进行比对测试预测准确性。则对于每个测试集，可对应得到一个准确率测试结果，该准确率测试结果表示为利用该测试集中的测试数据进行测试时，预测准确的数据占总测试数据的比例。

最后，选取各测试集对应的准确率测试结果中准确率最高者对应的测试对象，也即候选预测模型，认为其满足测试的设定标准，将其作为最终的训练好的隐马尔科夫预测模型。

本申请实施例通过改进对训练样本集的划分标准，能够有效避免一次训练选取的损失函数不当而导致过拟合问题，从而进一步提高预测模型的预测准确性。

其中，根据上述各实施例可选的，利用训练好的隐马尔科夫预测模型，对目标网元对象进行告警预测的步骤具体包括：从所有网元对象产生的告警集合中选取多个不同类别的告警，并基于历史告警序列和选取的各告警，利用训练好的隐马尔科夫预测模型分别进行前向计算，获取选取的各告警分别对应的概率，并基于概率，确定目标网元对象的告警预测结果。

可以理解为，在对目标网元对象进行告警预测时，不仅预测其是否发出告警，还包括其具体的告警类型。于是，对于根据当前告警周期前目标网元对象的历史告警数据得到的长度为n的历史告警序列，还需从故障管理系统中所有网元对象产生的告警信息集合中选取不同类别的告警，并将选取的每个告警与长度为n的历史告警序列结合，构造长度为n+1的目标序列。

之后，将上述各目标序列分别输入到训练好的隐马尔科夫预测模型中，进行前向计算，得到每个类别的告警分别对应的概率，并基于这些概率，确定目标网元对象的最终的告警预测结果。

其中可选的，基于概率，确定目标网元对象的告警预测结果的步骤具体包括：根据概率的大小，对所有概率进行排序，并根据排序结果获取取值最大者对应的告警，作为目标网元对象的下一预测周期的告警。

具体而言，对于得到的每个类别的告警分别对应的概率，按照取值大小进行排序，并根据排序结果选取其中的最大概率值。之后确定该最大概率值对应的告警及该告警的类别，作为目标网元对象的下一预测周期的预测告警。

为进一步说明本申请实施例的技术方案，本申请实施例根据上述各实施例提供如下具体说明，但不对本申请实施例的保护范围进行限制。

首先可以理解的是，关于监督学习隐马尔科夫的告警预测，是基于这样的事实：某一网元对象产生故障或相关指标达到某一阈值后，由故障管理系统产生相应的告警，再经过一些环节最终派单给运维人员，即网元对象产生告警。

如图2所示，为本申请实施例提供的业务运维中告警的预测方法的执行原理示意图，该原理图由两部分组成：第一部分是执行原理图的主体结点，描述了训练模型及通过模型预测的过程；第二部分是图顶端的时间轴，意在表示第一部分具体过程执行的先后顺序，即先训练得到模型，再结合模型对实时数据进行预测。可以理解的是，图中省略了一些关于数据处理的细节，因此，在意图一致的情况下，这些结点可以有其他的形式，或合并，或增加，总体上还是属于这一准备的范畴。

由图2的原理图可见，其示出了如下两个阶段的处理流程：

首先，模型训练阶段：根据提供的历史数据，通过极大似然估计的思想，结合具体的告警类别和网元对象类别，得到隐马尔科夫模型的初始状态概率、状态转移概率矩阵、观测概率矩阵，即隐马尔科夫模型。

即：先分析故障管理系统中网元对象、故障和告警的关系，并以这个关系为基础，构建监督学习的隐马尔科夫模型；再根据上述关系选取相应的原始数据，并对相应的数据进行预处理(时序性，缺失值、编码等)，最终形成训练数据集；最后改进隐马尔科夫模型的训练数据集划分和模型选择的标准，对构建的隐马尔科夫模型进行训练。

其次，利用模型预测阶段：根据实时提供的时序数据，预测紧接着的一个周期可能出现的告警并输出。

即：在预测方面，根据当前长度为n的序列(输入序列)，构造长度为n+1的序列(目标序列)，结合前向算法得出概率最大的序列，完成预测。

可以理解的是，在对模型进行训练之前，需要对训练数据集进行获取和预处理，并需要确定模型选择策略。具体的，对训练数据集的获取包括：结合运维知识，明确网元对象、故障、告警等因果关系选取原始数据，对这些原始数据做相应的预处理工作，得到初步的训练数据集。对训练数据的划分包括：不断调整初始训练集的选取量，产生若干子训练集，对产生的所有子训练集按照固定比例划分训练集和测试集。

另外，训练过程包括：对所有子训练集，利用极大似然估计等方法估计参数，形成模型。模型选择的标准包括：对每个子训练集产生的模型，利用相应的子测试集进行模型验证，验证的依据是在未来的预测周期内(或若干个观测内)相应告警预测准确的比例，取所有模型准确比例最高的那个为最终模型。

为更清楚的说明上述处理过程，以下进行具体举例说明，但不对本申请的保护范围进行限制。本申请实施例的业务运维中告警的预测方法包括以下处理步骤：

首先，做出如下假设：某一区域或某一网元组内的网元对象的集合为S＝{s ₁,s ₂,...,s _n},n＝1,2,...，其中n为网元对象的总数，所有网元对象产生的告警类别的集合为O＝{o ₁,o ₂,...,o _m},m＝1,2,...，其中m为告警类别的总数。

其次，说明具体处理过程。

步骤1，根据网元对象产生告警这样的关系，结合隐马尔科夫理论：将网元对象作为状态，将告警类别作为观测。

步骤2，获取一定数量的告警历史数据，构成历史告警序列D＝{(o ₁,s ₁),(o ₂,s ₂),...,(o _d,s _d)},d＝1,2,...，其中d为数据集中记录的数量，o和s分别是集合O和S中的元素，它们在一条记录中是一对一的关系。

步骤3，利用极大似然估计法，训练并得到隐马尔科夫模型M＝(π,A,B)，其中，π为初始概率分布向量(即D中每个网元对象的初始概率分布)，如式(1)所示，A为状态转移矩阵(即D中前一时刻网元对象s _i到后一个时刻网元对象s _j的概率)，如式(2)所示，B为观测概率矩阵(即D中出现相应告警o ⁱ的概率)，如式(3)所示。

π＝(π ₁,π ₂,...,π _n)； (1)

其中，n和m含义不变，π _i表示第i个网元对象的初始概率，a _ij表示前一个时刻状态为i而在下一个时刻状态由i变为j的概率，b _jk表示状态为j时出现观测为k的概率。

式(4)-式(8)为采用极大似然估计的思想，求解式(1)-式(3)中相关的未知数的相关数据。

其中，式(1)中π的每个分量π _i由相应状态在数据集中的频数除以数据集总记录数得到，A _ij是表示前一个时刻状态为i而在下一个时刻状态由i变为j的频数，式(2)中的a _ij是由A _ij除以式(4)中A'相应一行元素的和求得的，B _jk表示状态为j时出现观测为k的频数，式(3)中的b _jk是由B _jk除以式(5)中B'相应一行元素的和求得的。

步骤4，评估训练效果。对数据集D(一般而言，在网元对象未退网且相关结构不变的情况下，数据越多越好)按照表1进行分组，评估每组模型预测的准确率，从所有模型中选择最高的。

步骤5，利用训练得到的隐马尔科夫预测模型进行预测。即对于某一时刻的观测(告警)序列o _i,o _i+1,...,o _i+j-1，预测下一个预测周期出现o _i+j的概率：从O中依次选取o _k，组成m个o _i,o _i+1,...,o _i+j-1,o _k序列，利用隐马尔科夫预测模型进行前向计算，得到各P(o _i,o _i+1,...,o _i+j-1,o _k|M)的大小，最终选取出

相应的k对应的告警就是预测出的下一个预测周期的告警。

本申请实施例利用监督学习的隐马尔科夫告警预测方法，能够较为准确地预测未来一小段时间产生的告警序列和相应产生告警的网元对象，为故障规避提供决策等，同时缩短了故障处理时间长、减小了故障的影响等问题。

基于相同的发明构思，本申请实施例根据上述各实施例提供一种业务运维中告警的预测装置，该装置用于在上述各实施例中实现对业务运维中告警的预测。因此，在上述各实施例的业务运维中告警的预测方法中的描述和定义，可以用于本申请实施例中各个执行模块的理解，具体可参考上述实施例，此处不在赘述。

根据本申请实施例的一个实施例，业务运维中告警的预测装置的结构如图3所示，为本申请实施例提供的业务运维中告警的预测装置的结构示意图，该装置可以用于实现上述各方法实施例中对业务运维中告警的预测，该装置包括：数据获取模块301和预测输出模块302。其中：

数据获取模块301取当前告警周期之前目标网元对象给定数量的历史告警数据，构成历史告警序列；预测输出模块302于历史告警序列，利用训练好的隐马尔科夫预测模型，对目标网元对象进行告警预测。其中，训练好的隐马尔科夫预测模型为预先通过分析故障管理系统中网元对象、网元故障和网元告警的关系信息进行初始化构建，并利用根据关系信息选取的原始数据样本进行训练获取的。

具体而言，数据获取模块301根据故障管理系统的历史记录数据，获取到目标网元对象在当前告警周期之前已经发出的告警，即历史告警数据。可以理解的是，为了避免偶然性带来的误差，兼顾隐马尔科夫预测模型的特性，选取的该历史告警数据的数量要达到一定的量，该一定的量可以通过实现设定得到。之后，数据获取模块301可将这些历史告警数据按一定的时序性进行处理并编码，构成一数据序列，即为历史告警序列。

然后，预测输出模块302将得到目标网友对象的历史告警序列输入到预先训练好的隐马尔科夫预测模型中，通过该预测模型的前向计算，得到对目标网元对象下一个或多个告警周期的告警的预测结果。

本申请实施例提供的业务运维中告警的预测装置，通过设置相应的执行模块，对故障管理系统中网元对象、故障和告警的关系的分析，并结合隐马尔科夫预测模型，对根据网元对象历史告警构建的目标序列进行运算处理，最终实现对网元对象的告警预测，能够有效提高业务运维中告警预测的准确性，从而有效避免故障或减小故障发生带来的影响。

可以理解的是，本申请实施例中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且，本申请实施例的业务运维中告警的预测装置利用上述各程序模块，能够实现上述各方法实施例的业务运维中告警的预测流程，在用于实现上述各方法实施例中对业务运维中告警的预测时，本申请实施例的装置产生的有益效果与对应的上述各方法实施例相同，可以参考上述各方法实施例，此处不再赘述。

作为本申请实施例的又一个方面，本实施例根据上述各实施例提供一种电子设备，该电子设备包括存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序，该处理器执行该计算机程序时，实现如上述各实施例所述的业务运维中告警的预测方法的步骤。

进一步的，本申请实施例的电子设备还可以包括通信接口和总线。参考图4，为本申请实施例提供的电子设备的实体结构示意图，包括：至少一个存储器401、至少一个处理器402、通信接口403和总线404。

其中，存储器401、处理器402和通信接口403通过总线404完成相互间的通信，通信接口403用于该电子设备与故障管理系统设备之间的信息传输；存储器401中存储有可在处理器402上运行的计算机程序，处理器402执行该计算机程序时，实现如上述各实施例所述的业务运维中告警的预测方法的步骤。

可以理解为，该电子设备中至少包含存储器401、处理器402、通信接口403和总线404，且存储器401、处理器402和通信接口403通过总线404形成相互间的通信连接，并可完成相互间的通信，如处理器402从存储器401中读取业务运维中告警的预测方法的程序指令等。另外，通信接口403还可以实现该电子设备与故障管理系统设备之间的通信连接，并可完成相互间信息传输，如通过通信接口403实现对网元对象告警数据的获取等。

电子设备运行时，处理器402调用存储器401中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取当前告警周期之前目标网元对象给定数量的历史告警数据，构成历史告警序列；基于历史告警序列，利用训练好的隐马尔科夫预测模型，对目标网元对象进行告警预测等。

上述的存储器401中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。或者，实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例还根据上述各实施例提供一种非暂态计算机可读存储介质，其上存储有计算机指令，该计算机指令被计算机执行时，实现如上述各实施例所述的业务运维中告警的预测方法的步骤，例如包括：获取当前告警周期之前目标网元对象给定数量的历史告警数据，构成历史告警序列；基于历史告警序列，利用训练好的隐马尔科夫预测模型，对目标网元对象进行告警预测等。

本申请实施例提供的电子设备和非暂态计算机可读存储介质，通过执行上述各实施例所述的业务运维中告警的预测方法的步骤，对故障管理系统中网元对象、故障和告警的关系的分析，并结合隐马尔科夫预测模型，对根据网元对象历史告警构建的目标序列进行运算处理，最终实现对网元对象的告警预测，能够有效提高业务运维中告警预测的准确性，从而有效避免故障或减小故障发生带来的影响。

可以理解的是，以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，既可以位于一个位置，或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上实施方式的描述，本领域的技术人员可以清楚地了解，各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令，用以使得一台计算机设备(如个人计算机，服务器，或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。

另外，本领域内的技术人员应当理解的是，在本申请实施例的申请文件中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请实施例的说明书中，说明了大量具体细节。然而应当理解的是，本申请实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本申请实施例公开并帮助理解各个发明方面中的一个或多个，在上面对本申请实施例的示例性实施例的描述中，本申请实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。

最后应说明的是：以上实施例仅用以说明本申请实施例的技术方案，而非对其限制；尽管参照前述实施例对本申请实施例进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请实施例各实施例技术方案的精神和范围。

Claims

一种业务运维中告警的预测方法，其特征在于，包括：

获取当前告警周期之前目标网元对象给定数量的历史告警数据，构成历史告警序列；

基于所述历史告警序列，利用训练好的隐马尔科夫预测模型，对所述目标网元对象进行告警预测；

其中，所述训练好的隐马尔科夫预测模型为预先通过分析故障管理系统中网元对象、网元故障和网元告警的关系信息进行初始化构建，并利用根据所述关系信息选取的原始数据样本进行训练获取的。
根据权利要求1所述的业务运维中告警的预测方法，其特征在于，在所述利用训练好的隐马尔科夫预测模型，对所述目标网元对象进行告警预测的步骤之前，还包括：

通过分析故障管理系统中网元对象、网元故障和网元告警间的关系信息，初始化构建基于监督学习的隐马尔科夫初始模型，并根据所述关系信息，选取故障管理系统中相应的历史告警数据，构成训练样本集；

利用所述训练样本集中的各样本数据，采用极大似然估计法，迭代训练所述隐马尔科夫初始模型，获取满足设定标准的预测模型，作为所述训练好的隐马尔科夫预测模型。
根据权利要求2所述的业务运维中告警的预测方法，其特征在于，所述选取故障管理系统中相应的历史告警数据，构成训练样本集的步骤具体包括：

结合运维知识，通过分析故障管理系统中网元对象、网元故障和网元告警的因果关系，选取第二给定数量的历史告警数据，所述历史告警数据中包括所述网元对象与所述网元告警一对一的对应关系；

对所述历史告警数据根据时序性和缺失值进行预处理，并对预处理结果进行编码，得到样本数据；

根据所有所述样本数据，构成所述训练样本集。
根据权利要求2所述的业务运维中告警的预测方法，其特征在于，在所述迭代训练所述隐马尔科夫初始模型的步骤之前，还包括：

不断调整所述训练样本集中所述样本数据的数量，并对所述训练样本集进行划分，产生多个子训练样本集；

对产生的所有所述子训练样本集，按照固定比例划分出训练集和测试集。
根据权利要求4所述的业务运维中告警的预测方法，其特征在于，所述迭代训练所述隐马尔科夫初始模型的步骤具体包括：

利用各所述子训练样本集中的训练集，分别采用极大似然估计法，迭代训练所述隐马尔科夫初始模型，对应获取多个候选预测模型；

利用所述子训练样本集中的测试集，对应验证各所述候选预测模型是否满足所述设定标准，选取满足所述设定标准的预测模型，作为所述训练好的隐马尔科夫预测模型；

其中，所述设定标准为利用所述测试集验证的预测结果的准确率为最高。
根据权利要求1-5中任一项所述的业务运维中告警的预测方法，其特征在于，所述利用训练好的隐马尔科夫预测模型，对所述目标网元对象进行告警预测的步骤具体包括：

从所有网元对象产生的告警集合中选取多个不同类别的告警，并基于所述历史告警序列和选取的各所述告警，利用所述训练好的隐马尔科夫预测模型分别进行前向计算，获取选取的各所述告警分别对应的概率，并基于所述概率，确定所述目标网元对象的告警预测结果。
根据权利要求6所述的业务运维中告警的预测方法，其特征在于，所述基于所述概率，确定所述目标网元对象的告警预测结果的步骤具体包括：

根据所述概率的大小，对所有所述概率进行排序，并根据排序结果获取取值最大者对应的告警，作为所述目标网元对象的下一预测周期的告警。
一种业务运维中告警的预测装置，其特征在于，包括：

数据获取模块，配置为获取当前告警周期之前目标网元对象给定数量的历史告警数据，构成历史告警序列；

预测输出模块，配置为基于所述历史告警序列，利用训练好的隐马尔科夫预测模型，对所述目标网元对象进行告警预测；

其中，所述训练好的隐马尔科夫预测模型为预先通过分析故障管理系统中网元对象、网元故障和网元告警的关系信息进行初始化构建，并利用根据所述关系信息选取的原始数据样本进行训练获取的。
一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至7中任一项所述的业务运维中告警的预测方法的步骤。
一种非暂态计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被计算机执行时，实现如权利要求1至7中任一项所述的业务运维中告警的预测方法的步骤。