WO2022083576A1

WO2022083576A1 - 一种网络功能虚拟化设备运行数据的分析方法及装置

Info

Publication number: WO2022083576A1
Application number: PCT/CN2021/124662
Authority: WO
Inventors: 常诚; 刘建华
Original assignee: 中兴通讯股份有限公司
Priority date: 2020-10-22
Filing date: 2021-10-19
Publication date: 2022-04-28
Also published as: CN114385391A

Abstract

本公开涉及一种网络功能虚拟化(NFV)设备运行数据的分析方法及分析装置。该分析方法包括：日志数据采集步骤、日志数据清洗步骤、聚类分析步骤、频繁项集分析步骤、规则入库步骤和日志数据的快速匹配步骤。

Description

一种网络功能虚拟化设备运行数据的分析方法及装置

技术领域

本公开涉及虚拟化技术领域。

背景技术

云化分层解耦带来了更多的设备组件以及海量事件数据，因此给故障定界定位带来了较大的困难，如：从APP应用层/平台层到虚拟层/物理层等，故障定位周期长。因此需要实现自动化快速定界故障所发生的层次，故障定界定位对于移动通信虚拟化网络设备的正常运行、网络保障具有重大的意义，尤其是在虚拟化设备运行、升级期间，通过对网络设备事件数据的深度分析，通过虚拟设备的垂直维度、网元之间的水平维度以及网元内部调试数据的维度分析。深度分析对网络设备智能化运维保障十分重要，定位故障发生的根源是也是运营商运维、故障解决人员迫切需要利器。

发明内容

本公开的一方面提供了一种网络功能虚拟化(Network Function Virtualization，NFV)设备运行数据的分析方法，该分析方法包括：获取所述NFV设备产生的日志数据的日志数据采集步骤；针对应用层日志数据采用专家库模型和聚类规则计算、针对虚拟层日志数据和物理层日志数据采用预处理模型的定义来将所述日志数据进行标准化的日志数据清洗步骤；根据簇规则中定义的关键字信息对应用层日志数据、虚拟层日志数据、物理层日志数据进行聚类分析从而形成聚类标签的作为一级关联规则的簇规则的聚类分析步骤；采用FP-tree频繁项集算法对所述聚类分析步骤中聚类形成的簇规则中的事物数据集进行深度规则挖掘从而生成作为二级关联规则的频繁项集规则的频繁项集分析步骤；通过将所述频繁项集规则与专家库中的关联模型规则进行比对来识别出有价值的故障关联规则并将识别出的有价值的故障关联规则持久化存储于专家库中的规则入库步骤；依据故障关联规则利用drools规则引擎和rete算法以及实际的资源拓扑关系，将应用层日志数据与虚拟层日志数据进行快速关联以获得根因规则，从而通过所述日志数据检测出异常故障的根源的日志数据的快速匹配步骤。

本公开的另一方面提供了一种NFV设备运行数据的分析装置，该分析装置包括：日志数据采集模块，其被配置为获取所述NFV设备产生的日志数据；数据分析模块，其被配置为对所述日志数据进行清洗，将所述日志数据标准化并进行聚类分析，生成一级关联规则，进行频繁项集分析，生成二级关联规则，并识别出有价值的故障关联规则；快速匹配模块，其被配置为用于依据故障关联规则，利用drools规则引擎和rete算法，以及实际的资源拓扑关系，将应用层日志数据与虚拟层日志数据进行快速关联，获得根因规则。

附图说明

图1是根据本公开的实施例的NFV设备运行数据的分析方法的架构图；

图2是根据本公开的实施例的NFV设备运行数据的分析方法的流程图；

图3是根据本公开的实施例的聚类分析的示意图；

图4是根据本公开的实施例的规则频繁项集挖掘示意图；

图5是根据本公开的实施例的快速匹配算法图；以及

图6是根据本公开的实施例的NFV设备运行数据的分析装置的结构框图。

具体实施方式

下面将结合附图对本公开的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

在本公开的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本公开和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本公开的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本公开的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本公开中的具体含义。

以下结合图1至图5对本公开进行进一步详细的叙述。

根据本公开的实施例的NFV设备运行数据的分析方法包括步骤S1至S6。

在步骤S1，进行日志数据的采集。根据本公开的实施例，步骤S1包括：获取NFV设备产生的日志数据，所述日志数据包括应用层(应用服务器)日志数据、虚拟层(虚拟机/主机)日志数据，物理层服务器/交换机/路由器/防火墙)日志数据等等，并支持多种日志数据格式。

NFV设备(例如，如图1所示的虚拟化网元、云计算平台、虚拟化管理网元等)实时产生日志数据并上报，采集装置在接收日志数据后生成内部统计文件并存储在目录下，后续由清洗组件拉取日志数据进行日志数据的清洗。根据本公开的实施例的存储方式为：将业务实时生成的数据按服务实例存储，每个实例各自生成一个文件，所述文件中描述了所述服务实例的实际运行数据。在实际的应用中，为了节省存储空间，系统会按照采集粒度将多个服务实例的数据压缩到同一个压缩包中，并通过解析模型文件定义的格式匹配解析以上文件，以便分析获取到正确的数据。通过该分析步骤，能够得到此压缩包中每个文件归属的服务实例、模块实例等信息。

在步骤S2，进行日志数据的清洗。根据本公开的实施例，步骤S2包括：针对应用层日志数据采用专家库模型和聚类规则计算、针对虚拟层日志数据和物理层日志数据采用预处理模型的定义，来将日志数据进行标准化。日志数据不同，其清洗方法也不同。

根据本公开的实施例的应用层日志数据的清洗方法包括步骤S211和S212。

在步骤S211，首先采用专家库模型计算公式处理日志数据以获得业务模型，所述业务模型包括关键字及规则数据。

所述专家库模型是事先建立好的一种标准模型，包括规则名、规则描述、规则数据，汇总实例及文件标签的参数特征。

预处理计算结果，作为一种数据，是需要根据专家库模型计算得到的，(见图3Step0)，表1中给出了专家库模型计算公式的几个示例。

表1

经专家库模型计算公式计算得到的是规则数据而非条件，通过专利库模型中的各规则从原始数据中清洗出计算数据。

在步骤S212，将规则数据生成动作表，当计算出的规则数据满足一个动作设定的条件后，即可触发该动作。规则数据将作为规则使用，从而获得簇规则。

表2示出了应用层中几种触发条件的示例，

表2

在簇规则的触发条件中，“${N}”符号代表了某个粒度的Rule的值，如图3中Step1，其中N＝0时表示当前粒度的Rule值，N＝1时表示前一个粒度的Rule值，依此类推,即可；

动作可以定义为：

①触发问题：当满足一定条件后，触发关联的问题，此功能主要用于触发分析系统自动分析问题；

②生成规则：满足条件后，此Rule数据将作为规则使用，与通常的日志数据生成的规则一样，不同的是只有明确“生成规则”后，才能作为规则使用。

日志数据描述中的“连续”/“失败率”/“下降”等为聚类清洗时候填补的关键字信息。

根据本公开的实施例，虚拟层日志数据和物理层日志数据的清洗方法为：从虚拟层日志数据和物理层日志数据的运行日志信息的关键信息中，通过预处理模型提取出簇规则。所述预处理模型即正则表达匹配方式。

表3列出了正则表达匹配方式的一个示例：

表3

对象	触发条件	动作	描述	簇规则描述
云平台	日志数据关键字：端口,	生成簇规则	*端口异常**	C1000

异常

在步骤S3，通过聚类分析生成一级关联规则。根据本公开的实施例，步骤S3包括：分析系统的核心步骤,如图3中STEP2所示，根据簇规则中定义的关键字信息，对应用层日志数据、虚拟层日志数据、物理层日志数据进行聚类分析，形成聚类标签(例如，失败率/地址/消息等)的一级关联规则，即簇规则。

表4列出了几种簇规则的示例。

表4

簇规则标识	簇规则描述	关联的簇	出现次数
cRule1	失败率地址分配失败*端口	C1000,C0010,C0020	M次
cRule2	失败率消息发送失败*端口	C1000,C0010,C0030	N次

簇规则说明：

①簇规则标识：唯一标识了此规则，全局唯一；

②簇规则描述：描述了此簇的功能，属于辅助信息；

③关联的簇：与本簇关联的下级规则，可以关联多个，多个规则之间通过逗号分隔，此表描述了规则之间的上下级关系(没有明确规则的上下级关系，所以需要保证不能存在相互引用的场景，例如A规则关联了B规则，B规则又关联了A规则，这样会无穷无尽)。为了避免簇规则关联过程中相互引用，还需在分析系统中对所述簇规则的显示层数进行限定，可以限定所述簇规则在分析系统中的显示层数小于等于N，N为正整数，即N≥1。例如N＝5表示分析系统限制所述簇规则最多显示层数为5层，这样即使递归也不会引发灾难性后果。

一般情况下我们希望聚类的规则是树状的，如图3所示，一个规则一定是归属在某一个或多个层级上，通过指定聚类的簇种类和数量，按照规则的描述关键属性进行层次聚类算法的处理。

此外簇与簇之间通过聚类的嵌套生成，同时为了避免相互引用，也可以设置一些分析约束条件进行了有效的限制。

通过该聚类分析步骤就可以将原始数据转换成分析系统所能识别的规则数据。

在步骤S4，进行频繁项集分析，以生成二次关联规则。根据本公开的实施，步骤S4包括：分析系统的核心步骤采用FP-tree频繁项集算法对在步骤S3中聚类形成的簇规则中的事物数据集进行深度规则挖掘，从而生成二级关联规则(例如，计算/CPU/内存/网络/存储等)，即频繁项集规则。

该步骤S4在分析系统中通过FP-tree频繁项集算法挖掘步骤S3形成的簇规则的事务数据集(见图4)，所述事物数据集为簇规则中所关联的事务的集合。

根据本公开的实施例，挖掘事物数据集的步骤包括：通过两次扫描事务数据集，把每个事务所包含的频繁项目按其支持度降序压缩存储到FP-Tree中。在之后发现频繁模式的过程中，不需要再扫描事务数据集，而仅在FP-Tree中进行查找即可。通过递归调用FP-Growth算法可直接产生频繁模式，因此在整个发现过程中也不需产生候选模式。因为只对数据集扫描两次，因此FP-Growth算法克服了Apriori算法中存在的问题，在执行效率上也明显好于Apriori算法。同时该步骤是建立在聚类分析的基础步骤上，因此对关联规则的挖掘准确性和有效性会有明显的提高，避免无效关联数据的挖掘，同时进一步提升了挖掘效率。

根据本公开的实施例，步骤S4包括步骤S11至S13。

在步骤S11，建立项头表。根据本公开的实施例，步骤S11包括：通过扫描S3中形成的簇规则的事务数据集，找到支持度>设定阈值的项头表并排序，获得排序后的日志数据集。

在步骤S12，建立FP-tree。根据本公开的实施例，步骤S12包括：扫描项头表和排序后的日志数据集，将扫描到的所有的项表头和日志数据集插入簇规则的节点，从而建成FP-Tree。由于实际操作时，FP-Tree每次建立均是在上一次建立的FP-Tree上进行的，因此，当扫描项头表和排序后的日志数据集时，发现有新结点出现，则项头表对应的节点会链接上新结点，直到所有的数据都插入后，FP-Tree的建立完成。

在步骤S13，挖掘FP-tree。根据本公开的实施例，步骤S13包括：基于FP-Tree、项头表及结点链表，从项头表的底部项依次向上挖掘，找到项头表对应于FP-Tree的节点，即可找到条件模式基，基于条件模式基进行递归挖掘，即可得到频繁项集规则。

在步骤S5，进行规则入库。根据本公开的实施例，在步骤S5，将频繁项集分析的关联规则结果(即频繁项集规则)与专家库中的关联模型规则进行比对，最终识别有价值的故障关联规则，并持久化存储。

将二次关联生成的频繁项集规则收入专家库前，需要验证二次关联生成的频繁项集规则的准确性。根据本公开的实施例，将二次关联生成的频繁项集与专家库提供的关联规则按照相似度进行比对，根据比对的结果列出差异后，由人工进行规则确认；对于匹配成功或确认的规则入库保存，作为日志数据关联的规则库，提供下一步的使用。

在步骤S6，进行日志数据的快速匹配。根据本公开的实施例，步骤S6包括：依据在步骤S5形成的故障关联规则，利用drools规则引擎和rete算法，以及实际的资源拓扑关系，将应用层日志数据与虚拟层日志数据进行快速关联，获得根因规则。如图5所示，根因规则Root Rule1关联有规则Rule16和cRule1,从而通过日志数据检测出异常故障的根源。

如图5所示，对分析结果来说，最关心的是故障发生的问题的原因，可以通过RETE算法进行快速匹配来确定故障发生的问题的原因。所述RETE算法是一种前向规则快速匹配算法，该RETE算法通过形成一个rete网络进行模式匹配，利用基于规则的系统的时间冗余性和结构相似性特征，从而提高系统模式匹配效率，最终生效的问题即根本原因。

在一个产生式系统中，被处理的日志数据叫做log working memory，用于判定的关联规则分为两个部分LHS(left-hand-side)和RHS(right hand side)，分别表示前提和结论。

所述RETE算法的主要流程包括步骤①至步骤④。

在步骤①，进行匹配，以找出符合LHS部分的log working memory集合。

在步骤②，消除冲突，以选出一个条件被满足的规则。

在步骤③，执行RHS的内容。

在步骤④，返回步骤①,从而重复循环执行步骤①至步骤④。

在步骤S7，进行故障警示。根据本公开的实施例，步骤S7包括：在故障发生前，根据实时检测的要求，对设备故障进行实时分析和预警。

在步骤S8，进行故障追踪。根据本公开的实施例，步骤S8包括：在故障发生后，对于已经发生的故障(来源于设备监控)，反向的挖掘历史日志数据，形成对异常故障问题的溯源。

下面将参照图6描述根据本公开的实施例的NFV设备运行数据的分析装置。

如图6所示，根据本公开的实施的NFV设备运行数据的分析装置包括日志数据采集模块1、数据分析模块2、快速匹配模块3、预警模块4和故障追踪模块5。

日志数据采集模块1获取NFV设备产生的日志数据。

数据分析模块2对获取的日志数据进行清洗，将日志数据标准化，并进行聚类分析，生成一级关联规则，进行频繁项集分析，生成二级关联规则，并识别出有价值的故障关联规则。

快速匹配模块3依据故障关联规则，利用drools规则引擎和rete算法，以及实际的资源拓扑关系，将应用层日志数据与虚拟层日志数据进行快速关联，获得根因规则。

根据本公开的实施例，所述数据分析模块2包括数据清洗子模块21、模型训练子模块22和验证子模块23。

数据清洗子模块21用于对获取的日志数据进行清洗，将日志数据标准化。

模型训练子模块22用于对日志数据进行聚类分析，生成一级关联规则，并进行频繁项集分析，生成二级关联规则。

验证子模块23用于验证二次关联生成的频繁项集规则的准确性，识别出有价值的故障关联规则。

根据本公开的实施例，所述分析装置还包括预警模块4。预警模块4用于根据实时检测的要求，对设备故障进行实时分析和预警。

根据本公开的实施例，所述分析装置还包括故障追踪5。故障追踪模块5用于对于已经发生的故障，反向的挖掘历史日志数据，形成对异常故障问题的溯源。

本公开的有益效果在于：

1、本公开对NFV网元和云平台的设备实时采集运行数据，首先将采集的运行数据计算并转换为待分析的日志数据，降低了设备的记录大量日志数据以及上报大量日志数据带来的冲击。

2、本公开通过聚类分析在对日志数据预处理过程中，对于复杂结构的多维数据通过聚类分析的方法对原始数据进行聚集，使复杂结构数据标准化。

3、本公开中发现数据之间的依赖关系，继续采用聚类分析法，从而去除或合并有密切依赖关系的数据。为下一步的日志数据关联规则的挖掘提供可靠的数据；在日志数据关联规则二次的深度挖掘中采用频繁项集的方法，可以发现日志数据之间的关联规则，进而帮助决策树的形成；将形成的决策树与专家库进行比对分析，最终形成高效、准确的关联规则关系。

4、本公开通过匹配规则引擎，依据关联规则关系快速，准确地对日志数据进行关联匹配，达到追溯故障的根源的目的

5、本公开通过对日志数据规则的挖掘分析与关联处理，解决了虚拟化场景下故障定位普遍存在的难点，带来了以下的收益：

(1)、通过分析NFV设备内实时产生的日志数据可以即时了解当前NFV设备的运行实际情况，从而及时发现故障隐患，可以及时采取闭环措施的建议，达到预警/避免重大问题的发生。

(2)、当系统发生故障时，可以通过分析发生问题时所产生日志数据，根据其中的关联关系，快速的进行故障定界定位；同时通过回溯NFV设备的问题的根源并确定故障的范围及可能原因，方便故障人员的分析以及进一步的深层次挖掘分析NFV设备故障的状况。

(3)、通过智能的分析处理算法和机器学习方法，有效的避免了无效日志数据的占用、消耗系统处理资源，以及重要日志数据漏处理的场景。

(4)、通过精准的问题定位，避免让运维产生困扰，影响故障的实际处理效率。快速的识别根因问题，避免了多系统频繁派单的无效处理，有效的降低了运营商的维护运营成本。

(5)、在NFV设备内跨层、NFV设备之间产生故障时，如果按照人工维护方式，需协调多部门，多地的合作分析定界定位。本公开的分析方法和分析装置使得沟通成本大幅减少，有效的提高了协同各部门之间处理问题的效率。

以上所述实施方式仅为了示出和描述本公开，而不意图对本公开进行限制。对于本领域一般技术人员而言，在不背离本公开原理和精神的前提下对其所作出的任何显而易见的改动，都应当被认为包含在本公开的权利要求保护范围之内。

Claims

一种网络功能虚拟化(NFV)设备运行数据的分析方法，包括：

获取所述NFV设备产生的日志数据的日志数据采集步骤；

针对应用层日志数据采用专家库模型和聚类规则计算、针对虚拟层日志数据和物理层日志数据采用预处理模型的定义，来将所述日志数据进行标准化的日志数据清洗步骤；

根据簇规则中定义的关键字信息对所述应用层日志数据、所述虚拟层日志数据、所述物理层日志数据进行聚类分析从而形成聚类标签的作为一级关联规则的簇规则的聚类分析步骤；

采用FP-tree频繁项集算法对所述聚类分析步骤中聚类形成的所述簇规则中的事物数据集进行深度规则挖掘从而生成作为二级关联规则的频繁项集规则的频繁项集分析步骤；

通过将所述频繁项集规则与专家库中的关联模型规则进行比对来识别出有价值的故障关联规则并将识别出的有价值的故障关联规则持久化存储于专家库中的规则入库步骤；

依据故障关联规则利用drools规则引擎和rete算法以及实际的资源拓扑关系，将所述应用层日志数据与所述虚拟层日志数据进行快速关联以获得根因规则，从而通过所述日志数据检测出异常故障的根源的日志数据的快速匹配步骤。
根据权利要求1所述的NFV设备运行数据的分析方法，还包括：

在故障发生前，根据实时检测的要求，对设备故障进行实时分析和预警的故障警示步骤。
根据权利要求1或2所述的NFV设备运行数据的分析方法，还包括：

在故障发生后，对于已经发生的故障，反向的挖掘历史日志数据，形成对异常故障问题的溯源的故障追踪步骤。
根据权利要求1所述的NFV设备运行数据的分析方法，其中，所述日志数据采集步骤中的所述日志数据包括所述应用层日志数据、所述虚拟层日志数据和所述物理层日志数据。
根据权利要求1所述的NFV设备运行数据的分析方法，其中，所述聚类分析步骤包括在分析系统中对所述簇规则的显示层数进行限定。
根据权利要求1所述的NFV设备运行数据的分析方法，其中，所述频繁项集分析步骤包括：

通过扫描所述聚类分析步骤中形成的所述簇规则的事务数据集，找到支持度大于设定阈值的项头表并排序，从而获得排序后的日志数据集的建立项头表的步骤；

扫描所述项头表和所述排序后的日志数据集，将扫描到的所有的项表头和日志数据集插入所述簇规则的节点，从而建成FP-Tree的建立FP-Tree的步骤；

基于所述FP-Tree、所述项头表及结点链表，从所述项头表的底部项依次向上挖掘，找到所述项头表对应于所述FP-Tree的节点，从而找到条件模式基，并基于所述条件模式基进行递归挖掘以得到所述频繁项集规则的挖掘FP-Tree步骤。
一种NFV设备运行数据的分析装置，包括：

日志数据采集模块，其被配置为获取所述NFV设备产生的日志数据；

数据分析模块，其被配置为对所述日志数据进行清洗，将所述日志数据标准化并进行聚类分析，生成一级关联规则，进行频繁项集分析，生成二级关联规则，并识别出有价值的故障关联规则；

快速匹配模块，其被配置为用于依据故障关联规则，利用drools 规则引擎和rete算法，以及实际的资源拓扑关系，将应用层日志数据与虚拟层日志数据进行快速关联，获得根因规则。
根据权利要求7所述的NFV设备运行数据的分析装置，其中，所述数据分析模块包括：

数据清洗子模块，其被配置为对所述日志数据进行清洗，将所述日志数据标准化，

模型训练子模块，其被配置为对所述日志数据进行聚类分析，生成作为所述一级关联规则的簇规则，对所述簇规则进行频繁项集分析，生成作为所述二级关联规则的频繁项集规则；

验证子模块，其被配置为验证所述频繁项集规则的准确性，以识别出有价值的故障关联规则。
根据权利要求7所述的NFV设备运行数据的分析装置，还包括预警模块，其被配置为根据实时检测的要求，对设备故障进行实时分析和预警。
根据权利要求7所述的NFV设备运行数据的分析装置，还包括故障追踪，其被配置为对于已经发生的故障，反向的挖掘历史日志数据，形成对异常故障问题的溯源。