WO2021139252A1 - 运维故障根因识别方法、装置、计算机设备和存储介质 - Google Patents
运维故障根因识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- WO2021139252A1 WO2021139252A1 PCT/CN2020/118527 CN2020118527W WO2021139252A1 WO 2021139252 A1 WO2021139252 A1 WO 2021139252A1 CN 2020118527 W CN2020118527 W CN 2020118527W WO 2021139252 A1 WO2021139252 A1 WO 2021139252A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- alarm
- root cause
- clusters
- node
- objects
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012423 maintenance Methods 0.000 title claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims abstract description 51
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 43
- 238000004458 analytical method Methods 0.000 claims abstract description 28
- 238000003062 neural network model Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 61
- 239000011159 matrix material Substances 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 9
- 238000007726 management method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 238000012954 risk control Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Definitions
- a fault generated by a certain alarm object may trigger alarms for multiple objects, and there may be a large number of associated alarms caused by multiple object failures at each moment.
- alarms are a manifestation of failures, and specific failures need to be analyzed and judged through alarms. Due to the frequency and relevance of alarms, staff need to always pay attention to the operation and maintenance system, segment the alarm objects at a certain moment to summarize them into different problems, and perform root cause analysis for each problem to determine the fault object.
- the analysis unit is configured to perform root cause analysis on several of the alarm clusters through a preset root cause identification model to obtain the probability value of each alarm object in each of the alarm clusters as the root cause; wherein, the root cause identification model Based on deep neural network model training;
- the present application also provides a computer device, including a memory and a processor, wherein a computer program is stored in the memory, and when the processor executes the computer program, the steps of implementing a method for identifying root cause of an operation and maintenance failure are:
- This application also provides a computer-readable storage medium on which a computer program is stored, and when the computer program is executed by a processor, the steps of a method for identifying the root cause of an operation and maintenance failure are realized:
- the operation and maintenance fault root cause identification, device, computer equipment and storage medium provided in this application divide multiple alarm objects into different alarm clusters, and then analyze the root cause of each alarm cluster through the root cause identification model, and the root cause identification
- the model is trained through a deep neural network model, and the root cause analysis is more flexible and accurate through machine learning.
- the solution provided by this application can quickly find and display the root cause in each alarm cluster, so that the operation and maintenance personnel can quickly analyze and troubleshoot the root cause displayed, so that it can quickly after the failure occurs. Determine the root cause of the problem and repair it to ensure the stability of related services.
- this application provides a method for identifying root causes of operation and maintenance failures, including:
- Step S2 Perform clustering calculation on the multiple alarm objects by using a preset clustering algorithm, and cluster the multiple alarm objects into several alarm clusters;
- clustering algorithms such as K-means and K-center points can be used for clustering.
- K-means K-means and K-center points
- the elbow method determines the optimal cluster number K, and randomly selects K node codes from multiple node codes as the initial cluster centers; for the remaining node codes, according to the distance between the node codes and these initial cluster centers, Assign them to the most similar clusters, that is, the group represented by each cluster center; repeat this process until the standard measure function (usually the mean square error can be used as the standard measure function) starts to converge, and several Alarm cluster.
- K-means K-center points
- Step S32 splicing the vectors of the own features and node coding features to obtain a target vector
- the first matrix is input to the Transformer layer for iterative calculation to obtain a d*n matrix, where d can be set by the user.
- the Transformer layer includes 3 fully connected layers.
- the alarm cluster object When the alarm cluster object is insufficient, it will be supplemented.
- the output of the first fully connected layer and the output of the second fully connected layer are multiplied to obtain the first Target output, and then multiply the first target output by the output of the second fully connected layer through softmax.
- the application method of the mask is to set the element corresponding to 0 to negative infinity, so that it will not affect the node encoding of the real object.
- the probability that the alarm object is the root cause can be accurately calculated.
- the iterative calculation is performed for the first time, the first matrix is input into the three fully connected layers for calculation.
- Step S231 calling the objective function of the graph algorithm Node2Vec, the objective function of the graph algorithm Node2Vec is:
- the underlying platform of the blockchain can include processing modules such as user management, basic services, smart contracts, and operation monitoring.
- the user management module is responsible for the identity information management of all blockchain participants, including the maintenance of public and private key generation (account management), key management, and maintenance of the correspondence between the user’s real identity and the blockchain address (authority management), etc.
- authorization supervise and audit certain real-identity transactions, and provide risk control rule configuration (risk control audit); basic service modules are deployed on all blockchain node devices to verify the validity of business requests, After completing the consensus on the valid request, it is recorded on the storage.
- the basic service For a new business request, the basic service first performs interface adaptation analysis and authentication processing (interface adaptation), and then encrypts the business information through the consensus algorithm (consensus management), After encryption, it is completely and consistently transmitted to the shared ledger (network communication), and recorded and stored; the smart contract module is responsible for contract registration and issuance, contract triggering and contract execution.
- interface adaptation interface adaptation
- consensus algorithm consensus algorithm
- the smart contract module is responsible for contract registration and issuance, contract triggering and contract execution.
- the analysis unit 30 is configured to perform root cause analysis on several of the alarm clusters through a preset root cause identification model to obtain the probability value of each alarm object in each of the alarm clusters as the root cause; wherein the root cause identification
- the model is based on deep neural network model training;
- the analysis unit 30 includes:
- a creation module configured to create a first matrix according to the target vector
- the second calculation module is configured to reduce the dimension of the second matrix to a preset dimension, and calculate and output the probability that the alarm object corresponding to the target vector is the root cause through softmax.
- the encoding module is configured to encode the remaining associated nodes through the objective function.
- an embodiment of the present application also provides a computer device.
- the computer device may be a server, and its internal structure may be as shown in FIG. 3.
- the computer equipment includes a processor, a memory, a network interface, and a database connected through a system bus. Among them, the processor designed by the computer is used to provide calculation and control capabilities.
- the memory of the computer device includes a non-volatile storage medium and an internal memory.
- the non-volatile storage medium stores an operating system, a computer program, and a database.
- the internal memory provides an environment for the operation of the operating system and computer programs in the non-volatile storage medium.
- the database of the computer equipment is used to store alarm object data, root cause identification model data, etc.
- the network interface of the computer device is used to communicate with an external terminal through a network connection. When the computer program is executed by the processor, a method for identifying the root cause of operation and maintenance failure is realized.
- FIG. 3 is only a block diagram of a part of the structure related to the solution of the present application, and does not constitute a limitation on the computer device to which the solution of the present application is applied.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
一种运维故障根因识别方法、装置、计算机设备和存储介质,所述方法包括:获取多个告警对象(S1);利用预设的聚类算法对多个告警对象进行聚类计算,将多个告警对象聚类为若干个告警簇(S2);通过预设的根因识别模型对若干个告警簇进行根因分析,得到各个告警簇中各个告警对象为根因的概率值;其中,根因识别模型基于深度神经网络模型训练而成(S3);选择每个告警簇中最大概率值对应的告警对象作为该告警簇的根因(S4)。运维故障根因识别方法可运用在区块链领域中,将训练好的根因识别模型存储在区块链网络中,通过运维故障根因识别方法、装置、计算机设备和存储介质,能够准确的对运维故障做根因分析。
Description
本申请要求于2020年07月31日提交中国专利局、申请号为202010762957.5,发明名称为“运维故障根因识别方法、装置、计算机设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及运维技术领域,特别涉及一种运维故障根因识别方法、装置、计算机设备和存储介质。
运维系统中,某告警对象所产生的故障可能引发多个对象的告警,而每一时刻可能存在多个对象故障所引发的大量关联告警。对于运维工作人员而言,告警是故障的表现,而具体故障则需要通过告警进行分析判断。由于告警的频发性与关联性,工作人员需要时刻关注运维系统,对某时刻的告警对象进行切分以归纳为不同的问题,并对于每一个问题进行根因分析以判定故障对象。
目前大多采用两种方法进行根因分析,一种方法是通过规则实现,另一种方法是通过监督学习方法实现。第一种方法基于对象调用链路与规则以将多个告警对象归纳为不同的簇,并对每个簇按照规则进行根因概率排序(排序步骤也可通过监督学习方法实现)。第二种方法通过根因标注,可通过GCN图卷积神经网络等图算法直接标注根因。发明人意识到,第一种方法通过规则聚类,不仅缺少灵活性,而且常常需要运维专家根据实际情况进行更改,影响了后续根因的判断。第二种方法通过GCN直接进行根因识别效率较高,但是由于将告警聚类与根因识别整合为一个步骤,存在部分错误预测。
本申请的主要目的为提供一种运维故障根因识别方法、装置、计算机设备和存储介质,解决根因识别不准确的问题。
为实现上述目的,本申请提供了一种运维故障根因识别方法,包括以下步骤:
获取多个告警对象;
利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;
通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;
选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
本申请还提供一种运维故障根因识别装置,包括:
获取单元,用于获取多个告警对象;
聚类单元,用于利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;
分析单元,用于通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;
选择单元,用于选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现一种运维故障根因识别方法的步骤:
获取多个告警对象;
利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;
通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;
选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现一种运维故障根因识别方法的步骤:
获取多个告警对象;
利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;
通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;
选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
本申请提供的运维故障根因识别、装置、计算机设备和存储介质,通过将多个告警对象分为不同的告警簇,再通过根因识别模型分析每个告警簇的根因,根因识别模型通过深度神经网络模型训练而成,通过机器学习的方法使得根因分析具有更高的灵活性与准确性。对于运维系统,本申请提供的方案能够将每个告警簇中的根因快速找出并展示出来,使得运维人员根据展示出来的根因进行快速分析与排查,从而能够在故障发生后快速确定问题根源并进行修复,保证了相关服务的稳定性。
图1是本申请一实施例中运维故障根因识别方法的步骤示意图;
图2是本申请一实施例中运维故障根因识别装置的结构框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请提供一种运维故障根因识别方法,包括:
步骤S1,获取多个告警对象;
步骤S2,利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;
步骤S3,通过预设的根因识别模型对若干个所述告警簇进行根因分析,得 到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;
步骤S4,选择每个告警簇中最大概率值对应的所述告警对象作为该告警簇的根因,能够较为准确的识别出每个告警簇的根因。
本实施例中,获取多个告警对象,所述告警对象可为发出告警信息的设备,设备之间相互关联,一个设备发生故障产生的告警可能会引发其他对象的告警。将多个告警对象通过预设聚类算法进行聚类,每个告警簇中各自的告警对象之间相似度较高。根因识别模型由深度神经网络模型训练而成,训练好的根因识别模型可存储在区块链网络中,通过根因识别模型对每个告警簇中的告警对象计算其为根因的概率,当一个告警簇中所有告警对象为根因的概率计算完毕,选择概率值最高的那个告警对象作为该告警簇的根因。
本实施例将多个告警对象分为不同的告警簇,再分析每个告警簇的根因,同时通过机器学习的方法使得根因分析具有更高的灵活性与准确性。对于运维系统,本实施例提供的方案能够将每个告警簇中的根因快速找出并展示出来,使得运维人员根据展示出来的根因进行快速分析与排查,从而能够在故障发生后快速确定问题根源并进行修复,保证了相关服务的稳定性。
在一实施例中,所述利用预设的聚类算法对多个所述告警信息进行聚类计算,将多个所述告警对象聚类为若干个告警簇的步骤S2,包括:
步骤S21,获取多个所述告警对象之间的相互调用链图谱;
步骤S22,提取所述相互调用链图谱中不存在调用关联的节点,保留所述相互调用链图谱中的剩余关联节点;
步骤S23,采用图算法Node2Vec对所述剩余关联节点进行节点编码;
步骤S24,根据所述节点编码进行聚类,得到若干个所述告警簇。
本实施例中,如上述步骤S21所述,有些告警对象之间是独立运作的,有些告警对象之间存在调用关联,所有告警对象可以形成一个相互调用链图谱,将每个告警对象作为一个节点,将存在调用关联的告警对象之间通过线段连接起来,形成相互调用链图谱,独立运作的告警对象可作为独立的孤点存在。
如上述步骤S22所述,将相互调用链图谱中的独立运作的告警对象提取出来,保留存在调用关联的告警对象,在相互调用链图谱中作为剩余关联节点。当告警对象是独立运作时,其因故障产生的告警不会影响到其他对象,因此可自己作为自己的根因。
如上述步骤S23所述,采用图算法Node2Vec对所有剩余关联节点进行节点编码,编码成一个n维的向量。图算法Node2Vec能够生成随机游走,对随机游走采样得到节点和上下文的组合,然后用处理词向量的方法对这样的组合建模得到剩余关联节点的表示。
如上述步骤S24所述,根据各个关联节点的节点编码进行聚类,将多个告警对象聚类为若干个告警簇,本申请采用图算法Node2Vec对剩余关联节点进行节点编码,能够更加准确的对各个关联节点进行向量表示,更有利于后续的聚类和根因分析。
在一实施例中,所述根据所述节点编码进行聚类,得到若干个所述告警簇的步骤S24,包括:
步骤S241,获取所述剩余关联节点中任一节点的直接和/或间接关联的节点集合;
步骤S242,计算所述节点集合中各个所述节点之间的相似度;
步骤S243,根据所述相似度进行分类。
本实施例中,剩余关联节点中各个节点存在与其直接和/或间接关联的节点,将该节点直接和/或间接关联的节点提取出来组成节点集合,计算该节点集合中两两节点之间的相似度,将相似度大于预设相似度阀值的作为一个告警簇。
在另一实施例中,可选用其他聚类算法进行聚类,具体的,可采用K-means、K-中心点等聚类算法进行聚类,下面以K-means算法为例,首先可采用手肘法确定最佳聚类数K,从多个节点编码中任意选择K个节点编码作为初始聚类中心;而对于剩下其它节点编码,则根据节点编码与这些初始聚类中心的距离,分别将它们分配给与其最相似的聚类,即每个聚类中心所代表的组;不断重复这一过程直到标准测度函数(一般可采用均方差作为标准测度函数)开始收敛为止,得到若干个告警簇。
在一实施例中,所述通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值的步骤S3,包括:
步骤S31,获取各个所述告警簇中所述告警对象的自有特征和节点编码特征的向量;
步骤S32,将所述自有特征和节点编码特征的向量进行拼接得到目标向量;
步骤S33,将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率。
本实施例中,如上述步骤S31所述,所述告警对象的自有特征包括节点的告警频次、节点的调用链路层级等。
如上述步骤S32-S33所述,将节点的自有特征和节点编码特征的向量进行拼接,例如自有特征的向量为一个10维的向量,节点编码特征的向量为一个10维的向量,将两个向量拼接得到一个20维的向量,即目标向量,将目标向量输入到根因识别模型中进行计算,得到目标向量所对应的告警对象为根因的概率,根因识别模型根据深度神经网络训练而成,具体的,对深度神经网络进行监督学习训练,损失函数为交叉熵,交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小,模型预测效果就越好。本实施例通过监督学习,利用一组已知告警对象为根因的概率的样本调整根因识别模型的参数,使其达到能准确计算出告警对象为根因的概率,本实施例提供的根因识别模型能够更加准确的对每个告警簇的根因进行识别。
在一实施例中,所述将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率的步骤S33,包括:
步骤S331,根据所述目标向量创建第一矩阵;
步骤S332,将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵;
步骤S333,将所述第二矩阵降维到预设维度,通过softmax计算所述目标向量所对应的告警对象为根因的概率并输出。
本实施例中,如上述步骤S331所述,每个告警簇存在若干个告警对象,每个告警簇中的告警对象数量不固定,设定上限数量为n;每个告警对象可以获得节点自有特征与节点编码特征的向量,拼接得到一个e维向量,建立一个e*n的第一矩阵X,如果告警簇对象数量不足n,则将告警对象补充至n,并将补充的告警对象的特征置0,并记录mask向量(1表示真实告警对象,0表示补充告警对象);
如上述步骤S332所述,将第一矩阵输入至Transformer层进行迭代计算,得到一个d*n的矩阵,其中,d可由用户自行设置。
如上述步骤S333所述,通过叠加全连接层输出层,将d*n的矩阵降维到1*n,并通过softmax计算,由softmax计算所得的概率值,便是每一个告警对象作为根因的预测概率值。需要注意的是,现实中根因识别样本较少,因此不能训练得到鲁棒性较高的深度学习模型,因此本方案将同一个告警簇,通过随机删除其中少量对象的形式构造多个样本代入至模型训练,从而提升模型的鲁棒性。
在一实施例中,所述Transformer层包括3个全连接层,分别为第一全连接层、第二全连接层和第三全连接层;
所述将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵的步骤S332中其中一次迭代的步骤,包括:
步骤S3321,将前一次迭代计算的输出分别输入到所述第一全连接层、第二全连接层和第三全连接层;
步骤S3322,将所述第一全连接层的输出与所述第二全连接层的输出相乘,得到第一目标输出;
步骤S3323,将所述第一目标输出与所述第三全连接层的输出相乘,得到第二目标输出,将所述第二目标输出作为下一次迭代计算的输入。
本实施例中,Transformer层包括3个全连接层,当告警簇对象不足时,会进行补充,存在mask向量,将第一全连接层的输出和第二全连接层的输出相乘得到第一目标输出,再通过softmax计算第一目标输出与第二全连接层的输出相乘,mask的应用方式是将0对应的元素设置负无穷,这样不会对真实对象的节点编码形成影响,由此可准确的计算出告警对象为根因的概率。当第一次进行迭代计算时,将第一矩阵分别输入到三个全连接层中进行计算。
在一实施例中,所述采用图算法Node2Vec对所述剩余关联节点进行节点编码的步骤S23,包括:
步骤S231,调用所述图算法Node2Vec的目标函数,所述图算法Node2Vec的目标函数为:
其中,所述V为节点集合,N为邻接节点;
步骤S232,通过所述目标函数对所述剩余关联节点进行编码。
本实施例中,V为节点集合,即所有剩余关联节点的集合。编码过程中,图算法Node2Vec通过最大化给定f(u)条件下的邻近节点概率,对整个剩余关联节点的调用链图谱进行编码,即将每个节点编码为一个n维向量。需要注意的是,由于拓扑图是动态的,因此系统上线后需要实时更新这一编码矩阵。
本申请提供的运维故障根因识别方法可运用在区块链领域中,将训练好的根因识别模型存储在区块链网络中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
参见图2,本申请还提供一种运维故障根因识别装置,包括:
获取单元10,用于获取多个告警对象;
聚类单元20,用于利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;
分析单元30,用于通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;
选择单元40,用于选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
在一实施例中,所述聚类单元20,包括:
第一获取子单元,用于获取多个所述告警对象之间的相互调用链图谱;
提取子单元,用于提取所述相互调用链图谱中不存在调用关联的节点,保留所述相互调用链图谱中的剩余关联节点;
编码子单元,用于采用图算法Node2Vec对所述剩余关联节点进行节点编码;
聚类子单元,用于根据所述节点编码进行聚类,得到若干个所述告警簇。
在一实施例中,所述聚类子单元,包括:
获取模块,用于获取所述剩余关联节点中任一节点的直接和/或间接关联的节点集合;
第一计算模块,用于计算所述节点集合中各个所述节点之间的相似度;
分类模块,用于根据所述相似度进行分类。
在一实施例中,所述分析单元30,包括:
第二获取子单元,用于获取各个所述告警簇中所述告警对象的自有特征和节点编码特征的向量;
拼接子单元,用于将所述自有特征和节点编码特征的向量进行拼接得到目标向量;
计算子单元,用于将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率。
在一实施例中,所述计算子单元,包括:
创建模块,用于根据所述目标向量创建第一矩阵;
迭代计算模块,用于将所述第一矩阵输入至Transformer层进行迭代计算, 输出第二矩阵;
第二计算模块,用于将所述第二矩阵降维到预设维度,通过softmax计算所述目标向量所对应的告警对象为根因的概率并输出。
在一实施例中,所迭代计算模块,包括:
输入子模块,用于将前一次迭代计算的输出分别输入到所述第一全连接层、第二全连接层和第三全连接层;其中,所述Transformer层包括3个全连接层,分别为第一全连接层、第二全连接层和第三全连接层;
第一目标输出子模块,用于将所述第一全连接层的输出与所述第二全连接层的输出相乘,得到第一目标输出;
第二目标输出子模块,用于将所述第一目标输出与所述第三全连接层的输出相乘,得到第二目标输出,将所述第二目标输出作为下一次迭代计算的输入。
在一实施例中,所述编码子单元,包括:
调用模块,用于调用所述图算法Node2Vec的目标函数,所述图算法Node2Vec的目标函数为:
其中,所述V为节点集合,N为邻接节点;
编码模块,用于通过所述目标函数对所述剩余关联节点进行编码。
在本实施例中,上述各个单元、子单元、模块的具体实现请参照上述方法实施例中所述,在此不再进行赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储告警对象数据、根因识别模型数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种运维故障根因识别方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,上述存储介质可以是非易失性存储介质,也可以是易失性存储介质。其上存储有计算机程序,计算机程序被处理器执行时实现一种运维故障根因识别方法。
综上所述,为本申请实施例中提供的运维故障根因识别、装置、计算机设备和存储介质,获取多个告警对象;利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。本申请通过将多个告警对象分为不同的告警簇,再分析每个告警簇的根因,同时通过机器学 习的方法使得根因分析具有更高的灵活性与准确性。对于运维系统,本申请提供的方案能够将每个告警簇中的根因快速找出并展示出来,使得运维人员根据展示出来的根因进行快速分析与排查,从而能够在故障发生后快速确定问题根源并进行修复,保证了相关服务的稳定性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (20)
- 一种运维故障根因识别方法,其中,包括以下步骤:获取多个告警对象;利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
- 根据权利要求1所述的运维故障根因识别方法,其中,所述利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇的步骤,包括:获取多个所述告警对象之间的相互调用链图谱;提取所述相互调用链图谱中不存在调用关联的节点,保留所述相互调用链图谱中的剩余关联节点;采用图算法Node2Vec对所述剩余关联节点进行节点编码;根据所述节点编码进行聚类,得到若干个所述告警簇。
- 根据权利要求2所述的运维故障根因识别方法,其中,所述根据所述节点编码进行聚类,得到若干个所述告警簇的步骤,包括:获取所述剩余关联节点中任一节点的直接和/或间接关联的节点集合;计算所述节点集合中各个所述节点之间的相似度;根据所述相似度进行分类。
- 根据权利要求2所述的运维故障根因识别方法,其中,所述通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值的步骤,包括:获取各个所述告警簇中所述告警对象的自有特征和节点编码特征的向量;将所述自有特征和节点编码特征的向量进行拼接得到目标向量;将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率。
- 根据权利要求4所述的运维故障根因识别方法,其中,所述将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率的步骤,包括:根据所述目标向量创建第一矩阵;将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵;将所述第二矩阵降维到预设维度,通过softmax计算所述目标向量所对应的告警对象为根因的概率并输出。
- 根据权利要求5所述的运维故障根因识别方法,其中,所述Transformer层包括3个全连接层,分别为第一全连接层、第二全连接层和第三全连接层;所述将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵的步骤中其中一次迭代的步骤,包括:将前一次迭代计算的输出分别输入到所述第一全连接层、第二全连接层和第三全连接层;将所述第一全连接层的输出与所述第二全连接层的输出相乘,得到第一目标输出;将所述第一目标输出与所述第三全连接层的输出相乘,得到第二目标输出,将所述第二目标输出作为下一次迭代计算的输入。
- 一种运维故障根因识别装置,其中,包括:获取单元,用于获取多个告警对象;聚类单元,用于利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;分析单元,用于通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;选择单元,用于选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
- 一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其中,所述处理器执行所述计算机程序时实现一种运维故障根因识别方法的步骤:获取多个告警对象;利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
- 根据权利要求9所述的计算机设备,其中,所述利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇的步骤,包括:获取多个所述告警对象之间的相互调用链图谱;提取所述相互调用链图谱中不存在调用关联的节点,保留所述相互调用链图谱中的剩余关联节点;采用图算法Node2Vec对所述剩余关联节点进行节点编码;根据所述节点编码进行聚类,得到若干个所述告警簇。
- 根据权利要求10所述的计算机设备,其中,所述根据所述节点编码进行聚类,得到若干个所述告警簇的步骤,包括:获取所述剩余关联节点中任一节点的直接和/或间接关联的节点集合;计算所述节点集合中各个所述节点之间的相似度;根据所述相似度进行分类。
- 根据权利要求10所述的计算机设备,其中,所述通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值的步骤,包括:获取各个所述告警簇中所述告警对象的自有特征和节点编码特征的向量;将所述自有特征和节点编码特征的向量进行拼接得到目标向量;将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率。
- 根据权利要求12所述的计算机设备,其中,所述将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率的步骤,包括:根据所述目标向量创建第一矩阵;将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵;将所述第二矩阵降维到预设维度,通过softmax计算所述目标向量所对应的告警对象为根因的概率并输出。
- 根据权利要求13所述的计算机设备,其中,所述Transformer层包括3个全连接层,分别为第一全连接层、第二全连接层和第三全连接层;所述将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵的步骤中其中一次迭代的步骤,包括:将前一次迭代计算的输出分别输入到所述第一全连接层、第二全连接层和第三全连接层;将所述第一全连接层的输出与所述第二全连接层的输出相乘,得到第一目标输出;将所述第一目标输出与所述第三全连接层的输出相乘,得到第二目标输出,将所述第二目标输出作为下一次迭代计算的输入。
- 一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现一种运维故障根因识别方法的步骤:获取多个告警对象;利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
- 根据权利要求16所述的计算机可读存储介质,其中,所述利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇的步骤,包括:获取多个所述告警对象之间的相互调用链图谱;提取所述相互调用链图谱中不存在调用关联的节点,保留所述相互调用链图谱中的剩余关联节点;采用图算法Node2Vec对所述剩余关联节点进行节点编码;根据所述节点编码进行聚类,得到若干个所述告警簇。
- 根据权利要求17所述的计算机可读存储介质,其中,所述根据所述节点编码进行聚类,得到若干个所述告警簇的步骤,包括:获取所述剩余关联节点中任一节点的直接和/或间接关联的节点集合;计算所述节点集合中各个所述节点之间的相似度;根据所述相似度进行分类。
- 根据权利要求17所述的计算机可读存储介质,其中,所述通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值的步骤,包括:获取各个所述告警簇中所述告警对象的自有特征和节点编码特征的向量;将所述自有特征和节点编码特征的向量进行拼接得到目标向量;将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率。
- 根据权利要求19所述的计算机可读存储介质,其中,所述将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率的步骤,包括:根据所述目标向量创建第一矩阵;将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵;将所述第二矩阵降维到预设维度,通过softmax计算所述目标向量所对应的告警对象为根因的概率并输出。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010762957.5 | 2020-07-31 | ||
CN202010762957.5A CN111897673B (zh) | 2020-07-31 | 2020-07-31 | 运维故障根因识别方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021139252A1 true WO2021139252A1 (zh) | 2021-07-15 |
Family
ID=73183084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2020/118527 WO2021139252A1 (zh) | 2020-07-31 | 2020-09-28 | 运维故障根因识别方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111897673B (zh) |
WO (1) | WO2021139252A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821413A (zh) * | 2021-09-27 | 2021-12-21 | 中国建设银行股份有限公司 | 告警分析方法及装置 |
CN113869609A (zh) * | 2021-10-29 | 2021-12-31 | 北京宝兰德软件股份有限公司 | 一种根因分析频繁子图置信度预测方法及系统 |
CN113886120A (zh) * | 2021-09-28 | 2022-01-04 | 济南浪潮数据技术有限公司 | 一种服务器故障诊断方法、装置、设备及可读存储介质 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507720B (zh) * | 2020-11-12 | 2024-08-20 | 西安交通大学 | 基于因果语义关系传递的图卷积网络根因识别方法 |
CN112612685B (zh) * | 2020-12-24 | 2023-01-06 | 威创集团股份有限公司 | 一种处理器告警消息处理方法、装置、终端及存储介质 |
CN113268370B (zh) * | 2021-05-11 | 2023-05-23 | 西安交通大学 | 一种根因告警分析方法、系统、设备及存储介质 |
CN113381890B (zh) * | 2021-06-08 | 2023-01-13 | 天翼云科技有限公司 | 告警信息关联方法、装置、电子设备和可读存储介质 |
CN113434542B (zh) * | 2021-06-24 | 2023-12-05 | 平安国际智慧城市科技股份有限公司 | 数据关系识别方法、装置、电子设备及存储介质 |
CN113486192A (zh) * | 2021-07-06 | 2021-10-08 | 中国建设银行股份有限公司 | 一种告警聚合方法及相关设备 |
CN113254254B (zh) * | 2021-07-14 | 2021-11-30 | 南京中兴新软件有限责任公司 | 系统故障的根因定位方法、装置、存储介质及电子装置 |
CN113657022B (zh) * | 2021-07-15 | 2024-05-14 | 华为技术有限公司 | 一种芯片故障识别方法及相关设备 |
CN113780597B (zh) * | 2021-09-16 | 2023-04-07 | 睿云奇智(重庆)科技有限公司 | 影响传播关系模型构建和告警影响评估方法、计算机设备、存储介质 |
CN113590451B (zh) * | 2021-09-29 | 2022-02-01 | 阿里云计算有限公司 | 一种根因定位方法、运维服务器及存储介质 |
CN114237962B (zh) * | 2021-12-21 | 2024-05-14 | 中国电信股份有限公司 | 告警根因判断方法、模型训练方法、装置、设备和介质 |
CN114520994A (zh) * | 2022-02-18 | 2022-05-20 | 华为技术有限公司 | 一种确定根因故障的方法及装置 |
CN116866740A (zh) * | 2022-03-23 | 2023-10-10 | 中兴通讯股份有限公司 | 基于纵向联邦学习的otn数字孪生网络生成方法及系统 |
CN115001941B (zh) * | 2022-04-20 | 2023-10-13 | 广东省电信规划设计院有限公司 | 一种通信网管故障的确定方法及装置 |
CN114968727B (zh) * | 2022-06-29 | 2023-02-10 | 北京柏睿数据技术股份有限公司 | 基于人工智能运维的数据库贯穿基础设施的故障定位方法 |
CN115174355B (zh) * | 2022-07-26 | 2024-01-19 | 杭州东方通信软件技术有限公司 | 故障根因定位模型的生成方法,故障根因定位方法和装置 |
CN115865625A (zh) * | 2022-11-28 | 2023-03-28 | 武汉烽火技术服务有限公司 | 一种通信设备故障根因的分析方法和装置 |
TWI848481B (zh) * | 2022-12-23 | 2024-07-11 | 伊雲谷數位科技股份有限公司 | 資訊系統運作之預測與告警系統及方法、建模與訓練系統及方法及其電腦程式產品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684181A (zh) * | 2018-11-20 | 2019-04-26 | 华为技术有限公司 | 告警根因分析方法、装置、设备及存储介质 |
US20190140887A1 (en) * | 2015-01-27 | 2019-05-09 | Moogsoft, Inc. | System for decomposing clustering events from managed infrastructures |
CN109993363A (zh) * | 2019-04-01 | 2019-07-09 | 山东浪潮云信息技术有限公司 | 一种基于人工智能的自动化告警预测方法 |
CN111339211A (zh) * | 2018-12-19 | 2020-06-26 | 中国移动通信集团重庆有限公司 | 网络问题分析的方法、装置、设备及介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2418499A (en) * | 2004-09-24 | 2006-03-29 | Advanced Forensic Solutions Lt | Information analysis arrangement |
JP6116639B2 (ja) * | 2014-09-29 | 2017-04-19 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | クラスタ化されたコード解析警告のレビューのための方法およびシステム |
US11200377B2 (en) * | 2017-04-27 | 2021-12-14 | Micro Focus Llc | Cluster model to predict build failure |
CN110891283A (zh) * | 2019-11-22 | 2020-03-17 | 超讯通信股份有限公司 | 一种基于边缘计算模型的小基站监控装置及方法 |
CN111125268B (zh) * | 2019-12-27 | 2024-01-30 | 南京亚信软件有限公司 | 网络告警分析模型创建方法、告警分析方法及装置 |
CN111342997B (zh) * | 2020-02-06 | 2022-08-09 | 烽火通信科技股份有限公司 | 一种深度神经网络模型的构建方法、故障诊断方法及系统 |
CN111444247B (zh) * | 2020-06-17 | 2023-10-17 | 北京必示科技有限公司 | 一种基于kpi指标的根因定位方法、装置及存储介质 |
-
2020
- 2020-07-31 CN CN202010762957.5A patent/CN111897673B/zh active Active
- 2020-09-28 WO PCT/CN2020/118527 patent/WO2021139252A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190140887A1 (en) * | 2015-01-27 | 2019-05-09 | Moogsoft, Inc. | System for decomposing clustering events from managed infrastructures |
CN109684181A (zh) * | 2018-11-20 | 2019-04-26 | 华为技术有限公司 | 告警根因分析方法、装置、设备及存储介质 |
CN111339211A (zh) * | 2018-12-19 | 2020-06-26 | 中国移动通信集团重庆有限公司 | 网络问题分析的方法、装置、设备及介质 |
CN109993363A (zh) * | 2019-04-01 | 2019-07-09 | 山东浪潮云信息技术有限公司 | 一种基于人工智能的自动化告警预测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821413A (zh) * | 2021-09-27 | 2021-12-21 | 中国建设银行股份有限公司 | 告警分析方法及装置 |
CN113886120A (zh) * | 2021-09-28 | 2022-01-04 | 济南浪潮数据技术有限公司 | 一种服务器故障诊断方法、装置、设备及可读存储介质 |
CN113886120B (zh) * | 2021-09-28 | 2024-02-27 | 济南浪潮数据技术有限公司 | 一种服务器故障诊断方法、装置、设备及可读存储介质 |
CN113869609A (zh) * | 2021-10-29 | 2021-12-31 | 北京宝兰德软件股份有限公司 | 一种根因分析频繁子图置信度预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111897673A (zh) | 2020-11-06 |
CN111897673B (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021139252A1 (zh) | 运维故障根因识别方法、装置、计算机设备和存储介质 | |
Huang et al. | Real-time fault detection for IIoT facilities using GBRBM-based DNN | |
US11645528B2 (en) | Continuous learning neural network system using rolling window | |
CN111783875A (zh) | 基于聚类分析的异常用户检测方法、装置、设备及介质 | |
CN111652280B (zh) | 基于行为的目标物数据分析方法、装置及存储介质 | |
CN113011895B (zh) | 关联账户样本筛选方法、装置和设备及计算机存储介质 | |
CN112329865B (zh) | 基于自编码器的数据异常识别方法、装置和计算机设备 | |
WO2021169364A1 (zh) | 分析语义情感的方法、装置、设备及存储介质 | |
CN112464117A (zh) | 请求处理方法、装置、计算机设备和存储介质 | |
CN111368926B (zh) | 图像筛选方法、装置和计算机可读存储介质 | |
CN111506710B (zh) | 基于谣言预测模型的信息发送方法、装置和计算机设备 | |
CN111950622B (zh) | 基于人工智能的行为预测方法、装置、终端及存储介质 | |
CN113204968B (zh) | 医学实体的概念识别方法、装置、设备及存储介质 | |
CN111368911B (zh) | 一种图像分类方法、装置和计算机可读存储介质 | |
WO2021155684A1 (zh) | 基因疾病关系知识库构建方法、装置和计算机设备 | |
CN112580902B (zh) | 对象数据处理方法、装置、计算机设备和存储介质 | |
CN111679953B (zh) | 基于人工智能的故障节点识别方法、装置、设备和介质 | |
CN113327037A (zh) | 基于模型的风险识别方法、装置、计算机设备和存储介质 | |
CN113889262A (zh) | 基于模型的数据预测方法、装置、计算机设备和存储介质 | |
CN114978968A (zh) | 微服务的异常检测方法、装置、计算机设备和存储介质 | |
Lima Junior et al. | An experimental study of fitness function and time series forecasting using artificial neural networks | |
CN117667495A (zh) | 一种基于关联规则与深度学习集成模型的应用系统故障预测方法 | |
CN110597977A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN113064997B (zh) | 基于bert模型的意图分析方法、装置、设备及介质 | |
CN113065605B (zh) | 金银花识别模型的训练方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20912040 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
32PN | Ep: public notification in the ep bulletin as address of the adressee cannot be established |
Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 04/05/2023) |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20912040 Country of ref document: EP Kind code of ref document: A1 |