WO2023109437A1

WO2023109437A1 - 一种故障处理方法及装置、计算机可读存储介质

Info

Publication number: WO2023109437A1
Application number: PCT/CN2022/133149
Authority: WO
Inventors: 何威; 谢洁意; 闫兴安; 柳圆圆; 曹彬; 魏志芯
Original assignee: 中移(苏州)软件技术有限公司; 中国移动通信集团有限公司
Priority date: 2021-12-16
Filing date: 2022-11-21
Publication date: 2023-06-22
Also published as: CN116266808A

Abstract

本发明实施例公开了一种故障处理方法及装置、计算机可读存储介质，该方法包括：获取故障通知信息；基于故障通知信息，以及拓扑结构和推导规则库，推导出对应的故障信息；其中，拓扑结构表征软件定义广域网络提供的业务的工作流；基于故障信息，从故障库中调用对应的处理方法；根据处理方法对故障信息对应的故障进行处理，并得到处理结果。上述方法能够在工作流中断时，自动获取故障通知信息，并根据故障通知信息，自动完成故障节点的定位、故障信息的推导和故障的处理，从而实现故障的自动定位和处理，达到故障自愈的目的，提高故障处理效率，减少故障对工作流的影响。

Description

一种故障处理方法及装置、计算机可读存储介质

相关申请的交叉引用

本发明基于申请号为202111547268.3、申请日为2021年12月16日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本发明作为参考。

技术领域

本发明涉及通信技术领域，尤其涉及一种故障处理方法及装置、计算机可读存储介质。

背景技术

随着软硬件的快速发展，传统网络逐渐被基于软件的设备所替代。软件定义广域网络(Software-Defined WAN，SDWAN)，是将软件定义网络(Software Defined Network，SDN)技术应用到广域网场景中所形成的一种服务。这种服务用于连接广阔地理范围的企业网络、数据中心、互联网应用及程序的能力。

为了使SDWAN的业务更加清晰可控，目前引入了工作流的机制，整个工作流包括：用户下单、配置设备、计费和完成。其中，由于，当工作流中的节点发生故障，需要人为去定位故障节点，并手动解决故障。因此，如何确定人为故障节点并解决故障成为待解决的问题。

发明内容

本发明实施例提供了一种故障处理方法及装置、计算机可读存储介质，能够自动定位故障节点，并对故障进行处理，达到故障自愈的目的，提高故障处理效率。

本发明的技术方案是这样实现的：

本发明实施例提供一种故障处理方法，上述方法包括：

获取故障通知信息；

基于所述故障通知信息，以及拓扑结构和推导规则库，推导出对应的故障信息；其中，所述拓扑结构表征软件定义广域网络提供的业务的工作流；

基于所述故障信息，从故障库中调用对应的处理方法；

根据所述处理方法对所述故障信息对应的故障进行处理，并得到处理结果。

上述方案中，所述基于所述故障通知信息，以及拓扑结构和推导规则库，推导出对应的故障信息，包括：

根据所述故障通知信息，以及所述拓扑结构，确定对应的故障节点；

基于所述故障节点，以及所述推导规则库，推导出所述故障信息。

上述方案中，所述根据所述故障通知信息，以及所述拓扑结构，确定对应的故障节点，包括：

对所述故障通知信息进行数据图形化处理，得到对应的图结构；

将所述图结构与所述拓扑结构进行关联，以确定所述故障节点。

上述方案中，所述基于所述故障节点，以及所述推导规则库，推导出所述故障信息，包括：

根据所述故障节点，在所述推导规则库中匹配对应的目标规则；

根据所述目标规则，以及所述故障通知信息，推导出所述故障信息。

上述方案中，所述获取故障通知信息，包括：

采集通知信息；其中，所述通知信息包括所述故障通知信息和警告信息；

对所述警告信息进行格式化处理，以得到所述故障通知信息。

上述方案中，所述方法还包括：

基于所述故障通知信息、所述目标规则、所述故障信息、所述处理方法和所述处理结果，进行迭代优化处理，以得到优化规则；

根据所述优化规则，对所述推导规则库进行更新。

上述方案中，所述方法还包括：

对所述故障信息的推导过程以及所述故障信息的处理过程进行显示。

上述方案中，所述方法还包括：

对所述处理结果进行反馈。

本发明实施例提供一种故障处理装置，包括获取部分、推导部分、调用部分和处理部分；其中，

所述获取部分，被配置为获取故障通知信息；

所述推导部分，被配置为基于所述故障通知信息，以及拓扑结构和推导规则库，确定对应的故障信息；其中，所述拓扑结构表征软件定义广域网络提供的业务的工作流；

所述调用部分，被配置为基于所述故障信息，从故障库中调用对应的处理方法；

所述处理部分，被配置为根据所述处理方法对所述故障信息对应的故障进行处理，并得到处理结果。

上述方案中，所述推导部分，还被配置为根据所述故障通知信息，以及所述拓扑结构，确定对应的故障节点；基于所述故障节点，以及所述推导规则库，推导出所述故障信息。

上述方案中，所述推导部分，还被配置为对所述故障通知信息进行数据图形化处理，得到对应的图结构；将所述图结构与所述拓扑结构进行关联，以确定所述故障节点。

上述方案中，所述推导部分，还被配置为根据所述故障节点，在所述推导规则库中匹配对应的目标规则；根据所述目标规则，以及所述故障通知信息，推导出所述故障信息。

上述方案中，所述获取部分，还被配置为采集通知信息；其中，所述通知信息包括所述故障通知信息和警告信息；对所述警告信息进行格式化处理，以得到所述故障通知信息。

上述方案中，所述装置还包括迭代优化部分和更新部分，其中：

所述迭代优化部分，被配置为基于所述故障通知信息、所述目标规则、所述故障信息、所述处理方法和所述处理结果，进行迭代优化处理，以得到优化规则；

所述更新部分，被配置为根据所述优化规则，对所述推导规则库进行更新。

上述方案中，所述装置还包括显示部分，其中：

所述显示部分，被配置为对所述故障信息的推导过程以及所述故障信息的处理过程进行显示。

上述方案中，所述装置还包括反馈部分，其中：

所述反馈部分，被配置为对所述处理结果进行反馈。

本发明实施例提供一种故障处理装置，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现如本发明实施例提供的故障处理方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现如本发明实施例提供的故障处理方法。

本发明实施例提供一种故障处理方法及装置、计算机可读存储介质，该方法包括：获取故障通知信息；基于故障通知信息，以及拓扑结构和推导规则库，推导出对应的故障信息；其中，拓扑结构表征软件定义广域网络提供的业务的工作流；基于故障信息，从故障库中调用对应的处理方法；根据处理方法对故障信息对应的故障进行处理，并得到处理结果。上述方法中，在工作流节点发生故障时，获取故障通知信息，之后对故障通知信息进行处理，结合工作流节点对应的拓扑结构，得到故障节点；根据故障节点以及预存的推导规则推导出故障节点发生故障的原因，即故障信息，最后基于故障信息，从故障库中调用对应的处理方法，对故障信息对应的故障进行处理，得到处理结果。

本发明实施例能够在工作流中断时，自动获取故障通知信息，并根据故障通知信息，自动完成故障节点的定位、故障信息的推导和故障的处理，从而实现故障的自动定位和处理，达到故障自愈的目的，提高故障处理效率，减少故障对工作流的影响。

附图说明

图1为本发明实施例提供的一种可选的方法流程示意图一；

图2为本发明实施例提供的一种应用于SDWAN的故障处理装置的结构示意图；

图3为本发明实施例提供的一种可选的方法流程示意图二；

图4为本发明实施例提供的一种故障处理装置的结构示意图一；

图5为本发明实施例提供的一种可选的方法流程示意图三；

图6为本发明实施例提供的一种可选的方法流程示意图四；

图7a为本发明实施例提供的一种可选的方法流程示意图五；

图7b为本发明实施例提供的一种故障处理装置的结构示意图二；

图8为本发明实施例提供的一种故障处理装置的结构示意图三；

图9为本发明实施例提供的一种故障处理装置的结构示意图四。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在对本发明实施例的方案进行介绍之前，先对本发明实施例中可能会使用到的技术术语进行简单说明：

软件定义广域网络(Software-Defined WAN，SDWAN)：是将软件定义网络技术应用到广域网场景中所形成的一种服务。

软件定义网络技术(Software Defined Network，SDN)：是一种网络创新架构，用于实现网络虚拟化；通过将网络设备的控制面与数据面分离开来，从而实现了网络流量的灵活控制，使网络作为管道变得更加智能。

图1是本发明实施例提供的一种可选的方法流程示意图一，如图1所示，本发明实施例提供一种故障处理方法，包括：

S101、获取故障通知信息。

本发明实施例中，适用于在工作流节点发生故障时，获取故障通知信息的场景。

本发明实施例中，装置在工作流节点发生故障时，获取故障通知信息。

本发明实施例中，工作流节点发生故障时，装置将会采集通知信息。其中，通知信息可以包括故障通知信息和警告信息，故障通知信息中记录有工作流节点的故障信息，装置通过对故障通知信息的处理，可以获取到工作流节点的故障内容等信息，而警告信息则用于提醒用户当前工作流节点发生故障，起警示作用。

本发明实施例中，装置采集到通知信息后，需要对通知信息进行数据处理，从而获取故障通知信息。其中，装置可以通过消息队列(Message Queue，MQ)等消息通道将通知信息传输至对通知信息进行数据处理的数据模块，通过上述数据模块进行数据处理。

示例性的，数据模块可以对通知信息进行格式化处理，将通知信息中的警告信息格式化，格式化处理时的数据格式如下：

Relateship(node1,node2)

Node(node1)

Node(node2)

Content:{alarmCode:10010……}

本发明实施例中，上述故障处理方法可以用于SDWAN业务。示例性的，图2是本发明实施例提供的一种应用于SDWAN的故障处理装置的结构示意图，如图2所示，其中，SDWAN通过引入工作流机制将SDWAN业务的整个过程分为：用户下单、配置设备、计费和交付。用户下单后，由配置设备为用户提供需要的服务；其中，配置设备可以由多个部分组成，如：客户前置设备(Customer Premise Equipment，CPE)、入网点(Point-of-Presence，PoP)、VC/PE和控制器等。上述组成配置设备的多个部分中的每个部分即为一个工作流节点。

本发明实施例中，装置可以包括故障采集模块1、数据模块2、graph模块3、推理引擎4、rule模块5、机器学习模块7、action模块6和UI模块8，当工作流节点发生故障时，装置可以通过S1-S8对上述故障进行处理，如下：

S1、故障采集模块1进行故障采集，以获取通知信息，并将通知信息发送至数据模块2。

S2、数据模块2对通知信息进行数据处理，得到故障通知信息，并将故障通知信息发送至graph模块3。

S3、graph模块3对故障通知信息进行图形算法处理，得到图形数据(故障节点信息)，并将图形数据发送至推理引擎4。

S4、推理引擎4调用rule模块5中存储的推导规则，结合图形数据和故障通知信息推导出故障信息。

S5、推理引擎4根据故障信息和图形数据从action模块6调用action(处理方法)，并通过action对故障信息对应的故障进行处理，得到对应的处理结果。

S6、推理引擎4将处理结果发送至机器学习模块7；处理结果携带故障通知信息、图形数据、规则、故障信息和action。

S7、机器学习模块7对处理结果进行迭代优化，得到优化结果，并通过优化结果对rule模块5配置规则。

S8、UI模块8对rule模块6、action模块6和推理引擎4的处理过程进行前端展示。

可以理解的是，装置对采集到的通知信息进行数据处理，以获取故障通知信息，提高后续对装置采集到的信息进行处理以获取故障信息的便捷度，提高工作效率。

本发明实施例中，S101还可以包括S1011-S1012，如下：

S1011、采集通知信息；其中，通知信息包括故障通知信息和警告信息。

在本发明的一些实施例中，适用于采集通知信息的场景。

在本发明的一些实施例中，装置在工作流节点发生故障时，采集故障通知信息和警告信息，从而得到通知信息。

可以理解的是，通过采集通知信息，即可获得当前发生故障的工作流节点的故障情况，为后续对于故障的处理提供数据支持。

S1012、对警告信息进行格式化处理，以得到故障通知信息。

在本发明的一些实施例中，适用于对通知信息进行数据处理的场景。

在本发明的一些实施例中，装置对通知信息中的警告信息进行格式化处理，从而得到故障通知信息。

可以理解的是，对采集到的通知信息中的警告信息进行格式化处理后，将得到故障通知信息，提高后续对装置采集到的信息进行处理以获取故障信息的便捷度，提高工作效率。

S102、基于故障通知信息，以及拓扑结构和推导规则库，推导出对应的故障信息；其中，拓扑结构表征软件定义广域网络提供的业务的工作流。

本发明实施例中，适用于通过点线关系，结合推导规则库中的规则得到故障信息的场景。

本发明实施例中，装置基于故障通知信息以及拓扑结构确定故障节点，之后基于推导规则库，推导出对应的故障信息。

本发明实施例中，装置根据工作流节点，利用点线关系构建并存储拓扑结构；之后将故障通知信息数据图形化处理并得到对应的图结构，通过图结构，在拓扑结构中进行搜索，并得到搜索结果。其中，拓扑结构中搜索结果对应的工作流节点即为故障节点。

示例性的，装置可以通过图形算法对故障通知信息进行数据图形化处理，从而得到上述图结构。

本发明实施例中，装置完成对故障通知信息的数据图形化处理并得到故障节点后，可以从推导规则库中调用推导规则，将推导规则与故障节点进行匹配，直至找得到与故障节点匹配成功的推导规则作为目标规则，根据目标规则推导出上述故障节点发生故障的原因，即推导出对应的故障信息。

本发明实施例中，装置可以通过graph模块对故障通知信息进行数据图形化处理，在得到故障节点后，graph模块可以发送推导请求至装置中的推理引擎。当推理引擎接收到推导请求后，将响应于上述推导请求，从graph模块中调用上述故障节点，同时对装置中的rule模块进行搜索，以从rule模块的推导规则库中得到与上述故障节点匹配的目标规则。其中，graph模块发送推导请求至推理引擎时，推导请求可以携带故障节点，还可以携带图结构，使得推导引擎接收到推导请求后不需要从graph模块调用故障节点。

本发明实施例中，装置通过目标规则和故障通知信息推导出对应的故障信息。示例性的，装置可以将故障通知信息代入至目标规则中，以对故障节点发生故障的原因进行推导，最后得到对应的故障信息。其中，推导规则存储于推导规则库中，而推导规则库中的数据格式如下：

可以理解的是，通过对故障通知信息的处理确定工作流中发生故障的工作流节点，从而得到故障节点，之后根据与故障节点匹配的目标规则，即可推导出故障节点发生的故障对应的故障信息，对上述故障信息对应的故障进行处理，即可实现故障自愈的目的；且使用图形算法可以加快故障推导的效率。

本发明实施例中，S102还可以包括S1021-S1022，如下：

S1021、根据故障通知信息，以及拓扑结构，确定对应的故障节点。

在本发明的一些实施例中，适用于确定故障节点的场景。

在本发明的一些实施例中，装置根据故障通知信息以及拓扑结构，确定工作流中发生故障的故障节点。

在本发明的一些实施例中，拓扑结构可以预存在装置中，也可以由装置在需要时通过点线关系，根据工作流节点构建。

可以理解的是，通过对故障通知信息的处理确定工作流中发生故障的工作流节点，从而得到故障节点，便于确定故障信息。

在本发明的一些实施例中，S1021还可以包括S10211-S10212，如下：

S10211、对故障通知信息进行数据图形化处理，得到对应的图结构。

在本发明的一些实施例中，适用于对故障通知信息进行处理的场景。

在本发明的一些实施例中，装置对故障通知信息进行数据图形化处理，从而得到对应的图结构。

在本发明的一些实施例中，装置通过数据图形化处理，将故障通知信息转换为图结构；其中，图结构可以由点线构成，即上述图结构能够表示故障通知信息对应的点线关系。

可以理解的是，将故障通知信息转化为图结构后，根据图结构与拓扑结构的关联，确定工作流中发生故障的工作流节点，从而得到故障节点，便于确定故障信息。

S10212、将图结构与拓扑结构进行关联，以确定故障节点。

在本发明的一些实施例中，适用于确定故障节点的场景。

在本发明的一些实施例中，装置通过将图结构与拓扑结构进行关联，确定故障节点。

在本发明的一些实施例中，装置通过将图结构与拓扑结构进行关联，根据关联，搜索得到拓扑结构中与图结构关联度最高的部分，上述部分对应分工作流节点即为故障节点。

S1022、基于故障节点，以及推导规则库，推导出故障信息。

在本发明的一些实施例中，适用于通过推导规则库中的规则得到发生故障的原因的场景。

在本发明的一些实施例中，装置根据故障节点从推导规则库中确定与故障节点匹配的目标规则，基于目标规则推导出故障信息。

可以理解的是，得到故障信息后，对上述故障信息对应的故障进行处理即可实现故障自愈的目的。

在本发明的一些实施例中，S1022还可以包括S10221-S10222，如下：

S10221、根据故障节点，在推导规则库中匹配对应的目标规则。

在本发明的一些实施例中，适用于从推导规则库中获取目标规则的场景。

在本发明的一些实施例中，装置将推导规则库中的推导规则与故障节点进行匹配，从而得到目标规则。

在本发明的一些实施例中，装置将推导规则库中的推导规则与故障节点进行匹配时，若匹配结果为第一推导规则与故障节点匹配，则第一推导规则为目标规则。其中，第一推导规则为推导规则库中的任意一个推导规则。在实际应用中，每个故障节点可以对应一个或多个推导规则，而推导规则库中的每个推导规则均对应一种故障信息。

可以理解的是，得到目标规则后，根据目标规则即可得到故障信息，之后对故障信息对应的故障进行处理即可，这样提高了处理故障时的目的性。

S10222、根据目标规则，以及故障通知信息，推导出故障信息。

在本发明的一些实施例中，适用于得到故障信息的场景。

在本发明的一些实施例中，装置根据S10221得到的目标规则，结合故障通知信息，推导出故障信息。

可以理解的是，通过故障信息即可知道发生故障的原因，之后对故障信息对应的故障进行处理即可，这样提高了处理故障时的目的性。

S103、基于故障信息，从故障库中调用对应的处理方法。

本发明实施例中，适用于获取处理方法，以处理故障的场景。

本发明实施例中，装置根据S102得到的故障信息，基于故障信息，从故障库中调用对应的处理方法。

本发明实施例中，装置可以从装置中的action模块的故障库中调用处理方法。其中，故障库中的处理方法，和/或，action模块中的故障库，可以通过插件(plugin)的方式被自定义添加至装置中，也可以预存在装置中，还可以通过用户对已添加至装置内的处理方法或故障库进行修改并保存后，生成新的处理方法或故障库添加至装置中。

本发明实施例中，装置可以从故障库中调用处理方法，不仅可以依据故障信息，还可以结合故障节点或故障通知信息，以提高调用的处理方法的准确度。

可以理解的是，在故障库中调用对应的处理方法，为后续处理故障实现故障自愈提供了基础。

S104、根据处理方法对故障信息对应的故障进行处理，并得到处理结果。

本发明实施例中，适用于对故障进行处理的场景。

本发明实施例中，装置根据S103调用的处理方法，对故障信息对应的故障进行处理，并得到对应的处理结果。

本发明实施例中，当处理结果为故障已解决，则装置可以对处理结果进行反馈，使得业务继续进行。其中，装置对处理结果进行反馈时，可以是推理引擎调用处理方法对故障信息对应的故障进行处理，并得到处理结果。之后推理引擎将处理结果发送至装置中的控制器，由控制器发送指令使得工作流节点继续进行流程；也可以将处理结果发送至发生故障的工作流节点处，以通知工作流节点继续进行流程。

本发明实施例中，当处理结果为故障未解决，则装置可以重复S102-S104，直至处理结果为故障已解决。其中，装置在重复S102-S104的同时，还可以发出提示信息，通知用户对故障信息对应的故障进行人工处理。

本发明实施例中，当处理结果为故障未解决，装置可以将故障信息、故障通知信息、故障节点、处理方法均发送至装置中的机器学习模块中，通过机器学习模块对处理方法进行迭代优化，以得到新的处理方法，并将新的处理方法更新至故障库中，通过新的处理方法对上述故障信息对应的故障进行处理。

可以理解的是，本发明实施例能够自动定位故障节点，并对故障进行处理，实现故障的自愈，，提高故障处理效率。

基于图1，图3是本发明实施例提供的一种可选的方法流程示意图二，如图3所示，在本发明的一些实施例中，本发明实施例提供一种故障处理方法，还包括：

S105、对故障信息的推导过程以及故障信息的处理过程进行显示。

在本发明的一些实施例中，适用于对故障处理流程进行显示的场景。

在本发明的一些实施例中，装置对故障信息的推导过程以及故障信息的处理过程进行显示。

在本发明的一些实施例中，装置通过装置中的UI模块对故障的推导过程以及故障信息的处理过程进行显示。其中，故障的推导过程为S101-S103，故障信息的处理过程为S104；由于S101-S104上文中均有叙述，因此，此处不再赘述。

在本发明的一些实施例中，图4是本发明实施例提供的一种故障处理装置中的结构示意图一，如图4所示，装置中UI模块41与action模块42、推导引擎43和rule模块44建立通信连接，使得通过UI模块41可以对rule模块44的推导规则库中的推导规则进行配置，还可以对action模块42中调用的处理方法进行配置。其中，装置可以以图形化的方式展示推导引擎43对故障信息的推导过程以及故障信息的处理过程，即展示故障自愈的流程。

在本发明的一些实施例中，装置展示的内容中还可以包括处理结果，而装置中的UI模块可以是支持互动的显示屏，如触摸屏。

可以理解的是，装置对故障自愈过程进行展示，便于用户了解当前工作流的工作情况。

基于图1，图5是本发明实施例提供的一种可选的方法流程示意图三，如图5所示，在本发明的一些实施例中，本发明实施例提供一种故障处理方法，还包括：

S106、对处理结果进行反馈。

在本发明的一些实施例中，适用于对处理结果进行反馈的场景。

在本发明的一些实施例中，装置得到处理结果后，对处理结果进行反馈，使得工作流可以继续进行。

在本发明的一些实施例中，可以通过推导引擎将处理结果发送至装置的控制器或发生故障的工作流节点，从而完成处理结果的反馈。

可以理解的是，通过对处理结果的反馈，使得工作流可以尽快继续进行，提高工作效率。

基于图1，图6是本发明实施例提供的一种可选的方法流程示意图四，如图6所示，在本发明的一些实施例中，本发明实施例提供一种故障处理方法，还包括：

S107、基于故障通知信息、目标规则、故障信息、处理方法和处理结果，进行迭代优化处理，以得到优化规则。

在本发明的一些实施例中，适用于对推导规则库进行优化更新的场景。

在本发明的一些实施例中，基于故障通知信息、目标规则、故障信息、处理方法和处理结果，对故障信息对应的故障进行迭代优化处理，以得到优化规则。

在本发明的一些实施例中，装置可以通过装置中的机器学习模块进行迭代优化处理。其中，迭代优化处理指对故障信息对应的故障进行处理，以得到更准确的推导规则，即优化规则。在实际应用中，机器学习模块还可以对故障信息对应的故障进行迭代优化处理，得到更优化的处理方法，并对故障库进行更新。机器学习模块根据预设的算法对故障通知信息、目标规则、故障信息、处理方法和处理结果进行迭代优化处理，预设的算法可以通过自定义配置或插件添加于机器学习模块中。

可以理解的是，装置可以实现对推导规则库的优化和更新，从而提高故障自愈的成功率。

S108、根据优化规则，对推导规则库进行更新。

在本发明的一些实施例中，适用于对推导规则库进行更新的场景。

在本发明的一些实施例中，装置根据优化规则，对推导规则库中的推导规则进行更新。

在本发明的一些实施例中，装置可以利用优化规则，对推导规则库中对应的推导规则进行覆盖，从而完成更新；也可以将优化规则保存至对应的推导规则库中，以完成更新。

图7a为本发明实施例提供的一种可选的方法流程示意图五，如图7a所示，本发明实施例提供的一种故障处理方法，包括：

S301、故障采集，得到通知信息。

S302、对通知信息进行数据处理，得到故障通知信息。

S303、根据故障通知信息确定故障节点。

S304、根据故障节点调用目标规则，基于目标规则推导故障信息。

S305、根据故障信息调用处理方法，通过处理方法对故障进行处理，得到处理结果。

S306、反馈处理结果至工作流节点。

S307、根据故障通知信息、故障节点、故障信息、目标规则，对处理结果进行迭代优化，得到优化推导规则。

S308、利用优化推导规则，对推导规则库进行更新。

在本发明的一些实施例中，图7b为本发明实施例提供的一种故障处理装置的结构示意图二，如图7b所示，本发明实施例提供的故障处理装置包括故障采集模块71、数据模块72、graph模块73、推导引擎74、action模块75、rule模块76、工作流节点77、机器学习模块78。其中，可以通过本发明实施例提供的故障处理装置执行S301-S308。示例性的，故障采集模块71与数据模块72建立通信连接，当故障采集模块71采集到通知信息后，将通知信息发送至数据模块72；数据模块72与graph模块73建立通信连接，当数据模块72接收到通知信息后，对通知信息进行数据处理从而得到故障通知信息后，将故障通知信息发送至graph模块73；graph模块73与推导引擎74建立通信连接，当graph模块73接收到故障通知信息后，对故障通知信息进行数字图形化处理，从而确定工作流中发生故障的故障节点，之后通知推导引擎74，告知推导引擎74已确定故障节点；推导引擎74与action模块75、rule模块76、工作流节点77、机器学习模块78均建立通信连接，当推导引擎74接收到graph模块73的通知后，将从graph模块73调用故障节点，从rule模块76中搜索与故障节点对应的推导规则作为目标规则，基于目标规则推导故障信息，并从action模块75中调用对应的处理方法，以对故障信息对应的故障进行处理，得到处理结果后，将处理结果发送至工作流节点77；同时，推导引擎74将故障通知信息、故障节点、故障信息、目标规则、处理结果发送至机器学习模块78。机器学习模块78与rule模块76建立通信连接，当机器学习模块78接收到故障通知信息、故障节点、故障信息、目标规则、处理结果之后，将会对上述故障通知信息的处理结果进行迭代优化，得到优化推导规则并将优化推导规则发送至rule模块76实现推导规则的更新。

可以理解的是，本发明实施例能够在工作流中断时，自动获取故障通知信息，并根据故障通知信息，自动完成故障节点的定位、故障信息的推导和故障的处理，从而实现故障的自动定位和处理，达到故障自愈的目的，还可以实现对推导规则库的优化和更新，从而提高故障自愈的成功率。

图8为本发明实施例提供的一种故障处理装置的结构示意图三，如图8所示，本发明实施例提供一种故障处理装置，适用于一种故障处理方法，上述装置8包括：获取部分81、推导部分82、调用部分83和处理部分84；其中，

所述获取部分81，被配置为获取故障通知信息；

所述推导部分82，被配置为基于所述故障通知信息，以及拓扑结构和推导规则库，确定对应的故障信息；其中，所述拓扑结构表征软件定义广域网络提供的业务的工作流；

所述调用部分83，被配置为基于所述故障信息，从故障库中调用对应的处理方法；

所述处理部分84，被配置为根据所述处理方法对所述故障信息对应的故障进行处理，并得到处理结果。

在本发明的一些实施例中，所述推导部分82，还被配置为根据所述故障通知信息，以及所述拓扑结构，确定对应的故障节点；基于所述故障节点，以及所述推导规则库，推导出所述故障信息。

在本发明的一些实施例中，所述推导部分82，还被配置为对所述故障通知信息进行数据图形化处理，得到对应的图结构；将所述图结构与所述拓扑结构进行关联，以确定所述故障节点。

在本发明的一些实施例中，所述获取部分81，还被配置为采集通知信息；其中，所述通知信息包括所述故障通知信息和警告信息；对所述警告信息进行格式化处理，以得到所述故障通知信息。

在本发明的一些实施例中，所述装置还包括迭代优化部分85和更新部分86，其中：

所述迭代优化部分85，被配置为基于所述故障通知信息、所述目标规则、所述故障信息、所述处理方法和所述处理结果，进行迭代优化处理，以得到优化规则；

所述更新部分86，被配置为根据所述优化规则，对所述推导规则库进行更新。

在本发明的一些实施例中，所述装置还包括显示部分87，其中：

所述显示部分87，被配置为对所述故障信息的推导过程以及所述故障信息的处理过程进行显示。

在本发明的一些实施例中，所述装置还包括反馈部分88，其中：

所述反馈部分88，被配置为对所述处理结果进行反馈。

图9是本发明实施例提供的一种故障处理装置的结构示意图四，如图9所示，本发明实施例提供了一种故障处理装置，对应于一种故障处理方法；故障处理装置9包括：处理器91、存储器92以及通信总线94，存储器92通过通信总线94与处理器91进行通信，存储器92存储所述处理器91可执行的一个或者多个程序，当所述一个或者多个程序被执行时，所述处理器91执行如本发明实施例的故障处理方法，具体的，故障处理装置9还包括用于进行数据传输的通信组件93，其中，处理器91至少设有一个。

本发明实施例中，故障处理装置9中的各个组件通过总线94耦合在一起。可理解，通过总线94用于实现这些组件之间的连接通信。通过总线94除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图9中将各种总线都标为通过总线94。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

工业实用性

本发明实施例公开了一种故障处理方法及装置、计算机可读存储介质，上述方法在工作流节点发生故障时，获取故障通知信息，之后对故障通知信息进行处理，结合工作流节点对应的拓扑结构，得到故障节点；根据故障节点以及预存的推导规则推导出故障节点发生故障的原因，即故障信息，最后基于故障信息，从故障库中调用对应的处理方法，对故障信息对应的故障进行处理，得到处理结果。上述方法能够在工作流中断时，自动获取故障通知信息，并根据故障通知信息，自动完成故障节点的定位、故障信息的推导和故障的处理，从而实现故障的自动定位和处理，达到故障自愈的目的，提高故障处理效率，减少故障对工作流的影响。

Claims

一种故障处理方法，上述方法包括：

获取故障通知信息；

基于所述故障通知信息，以及拓扑结构和推导规则库，推导出对应的故障信息；其中，所述拓扑结构表征软件定义广域网络提供的业务的工作流；

基于所述故障信息，从故障库中调用对应的处理方法；

根据所述处理方法对所述故障信息对应的故障进行处理，并得到处理结果。
根据权利要求1所述的方法，其中，所述基于所述故障通知信息，以及拓扑结构和推导规则库，推导出对应的故障信息，包括：

根据所述故障通知信息，以及所述拓扑结构，确定对应的故障节点；

基于所述故障节点，以及所述推导规则库，推导出所述故障信息。
根据权利要求2所述的方法，其中，所述根据所述故障通知信息，以及所述拓扑结构，确定对应的故障节点，包括：

对所述故障通知信息进行数据图形化处理，得到对应的图结构；

将所述图结构与所述拓扑结构进行关联，以确定所述故障节点。
根据权利要求2所述的方法，其中，所述基于所述故障节点，以及所述推导规则库，推导出所述故障信息，包括：

根据所述故障节点，在所述推导规则库中匹配对应的目标规则；

根据所述目标规则，以及所述故障通知信息，推导出所述故障信息。
根据权利要求1所述的方法，其中，所述获取故障通知信息，包括：

采集通知信息；其中，所述通知信息包括所述故障通知信息和警告信息；

对所述警告信息进行格式化处理，以得到所述故障通知信息。
根据权利要求4所述的方法，其中，所述方法还包括：

基于所述故障通知信息、所述目标规则、所述故障信息、所述处理方法和所述处理结果，进行迭代优化处理，以得到优化规则；

根据所述优化规则，对所述推导规则库进行更新。
根据权利要求1所述的方法，其中，所述方法还包括：

对所述故障信息的推导过程以及所述故障信息的处理过程进行显示。
根据权利要求1所述的方法，其中，所述方法还包括：

将所述处理结果反馈至当前节点。
一种故障处理装置，包括获取部分、推导部分、调用部分和处理部分；其中，

所述获取部分，被配置为获取故障通知信息；

所述推导部分，被配置为基于所述故障通知信息，以及拓扑结构和推导规则库，确定对应的故障信息；其中，所述拓扑结构表征软件定义广域网络提供的业务的工作流；

所述调用部分，被配置为基于所述故障信息，从故障库中调用对应的处理方法；

所述处理部分，被配置为根据所述处理方法对所述故障信息对应的故障进行处理，并得到处理结果。
根据权利要求9所述的装置，其中，所述推导部分，还被配置为根据所述故障通知信息，以及所述拓扑结构，确定对应的故障节点；基于所述故障节点，以及所述推导规则库，推导出所述故障信息。
根据权利要求10所述的装置，其中，所述推导部分，还被配置为对所述故障通知信息进行数据图形化处理，得到对应的图结构；将所述图结构与所述拓扑结构进行关联，以确定所述故障节点。
根据权利要求10所述的装置，其中，所述推导部分，还被配置为根据所述故障节点，在所述推导规则库中匹配对应的目标规则；根据所述目标规则，以及所述故障通知信息，推导出所述故障信息。
根据权利要求9所述的装置，其中，所述获取部分，还被配置为采集通知信息；其中，所述通知信息包括所述故障通知信息和警告信息；对所述警告信息进行格式化处理，以得到所述故障通知信息。
根据权利要求12所述的装置，其中，所述故障处理装置还包括迭代优化部分和更新部分；其中，

所述迭代优化部分，被配置为基于所述故障通知信息、所述目标规则、所述故障信息、所述处理方法和所述处理结果，进行迭代优化处理，以得到优化规则；

所述更新部分，被配置为根据所述优化规则，对所述推导规则库进行更新。
根据权利要求9所述的装置，其中，所述故障处理装置还包括显示部分；其中，

所述显示部分，被配置为对所述故障信息的推导过程以及所述故障信息的处理过程进行显示。
根据权利要求9所述的装置，其中，所述故障处理装置还包括反馈部分；其中，

所述反馈部分，被配置为将所述处理结果反馈至当前节点。
一种故障处理装置，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至8任一项所述的方法。
一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现权利要求1至8任一项所述的方法。