WO2020001642A1

WO2020001642A1 - 一种运维系统及方法

Info

Publication number: WO2020001642A1
Application number: PCT/CN2019/093812
Authority: WO
Inventors: 刘丽霞; 吉锋; 文韬
Original assignee: 中兴通讯股份有限公司
Priority date: 2018-06-28
Filing date: 2019-06-28
Publication date: 2020-01-02
Also published as: US11947438B2; EP3798846A4; EP3798846A1; KR20210019564A; KR102483025B1; US20210271582A1; EP3798846B1; CN110659173A; CN110659173B

Abstract

一种运维系统及方法，该系统包括相互连接的数据采集模块、数据存储模块、异常及故障标注模块、模型自动训练及评估模块、运维管理及任务执行模块、结果审核模块。

Description

一种运维系统及方法

本申请要求在2018年06月28日提交中国专利局、申请号为201810689427.5的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及但不限于一种运维系统及方法。

背景技术

目前随着云计算、大数据技术的成熟，各个行业在实际应用过程中积累了多种多样的海量数据，除了应用系统自身的必要数据之外，还有与之相关的底层存储介质、网络传输、操作系统、数据库及文件系统、管理系统等的日志数据，这些数据记录了系统正常操作、异常操作、故障出现之前及故障出现之后系统的变化及关联组件的连锁反应等等，是运维人员进行异常发现、故障定界、根因分析以及故障预测的依据。但是面对每时每刻不断增长的、组件之间交错复杂的、日志记录形式种类多样的运维数据，过去那种依赖人力逐步排查、脚本辅助定位、日志检索、简单统计分析、阈值监控等已经无法满足当前运维对时效性、功能性的基本需求了。

目前运维领域的方法有以下几类：一种是人工经验，运维工程师通过检索、查看日志的日志级别(如排除故障(debug)、警告(warning)、错误(error)、信息(info)、致命错误(fatal))或者错误码(如400、ORA-01500等特定码)，结合丰富的运维经验快速锁定故障所在的位置；这种运维方式在成熟稳定的小型企业中比较有效，对于目前大型的、复杂的、新软件不断叠加的集群中，由于日志数据量巨大、日志类型多种多样、运维需求高效有效的情况下就显得力不从心了。另一种是日志分析工具，这种工具最早以分析用户的操作日志为主，在了解用户的操作习惯、行为爱好的基础上进行系统优化、精准营销等等，后来应用进一步扩展到运维上，但是这些工具的主要功能是对日志进行统一收集、解析、存储之后提供日志检索、简单的统计分析及可视化展示(如用户的访问量(Unique Visitor，UV)、页面的访问量(Page View，PV)等等)，这些工具随着云计算及大数据的发展对底层架构也进行了更新，可以满足复杂多样的、海量的日志的快速检索、简单统计分析、实时监控等需求，但是对于运维领域中的异常自动发现、故障快速定位、故障提前预警等高级运维需求没法满足。

而如何在云计算、大数据的基础上，利用人工智能技术实现运维的智能化，当前及后续较长一段时间内各中大型企业积极探索的内容。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供了一种运维系统，包括：相互连接的数据采集模块、数据存储模块、异常及故障标注模块、模型自动训练及评估模块、运维管理及任务执行模块、结果审核模块；其中，数据采集模块，设置为采集所述运维系统所需要的多种日志源数据并将所述多种日志源数据存储在数据存储模块；数据存储模块，设置为对所述日志源数据、运维结果、标注结果、模型及知识库进行存储；异常及故障标注模块，设置为持续地对数据存储模块中的部分源数据进行异常及故障标注，并将标注结果存储到数据存储模块；模型自动训练及评估模块，设置为持续地生成并更新多种运维模型及知识库，并将所述多种运维模型和知识库存储到数据存储模块；运维管理及任务执行模块，设置为对运维任务进行设置并执行运维任务、调用运维模型及知识库、存储及输出运维结果；结果审核模块，设置为对运维管理及任务执行模块输出的异常及故障进行审核，并将审核确认后的异常及故障输出到异常及故障标注模块。

本申请实施例还提供了一种运维方法，包括：数据采集模块采集运维系统所需要的多种日志源数据，并将所述多种日志源数据存储在数据存储模块；数据存储模块对所述日志源数据、运维结果、标注结果、模型及知识库进行存储；异常及故障标注模块持续地对数据存储模块中的部分源数据进行异常及故障标注，并将标注结果存储到数据存储模块模型自动训练及评估模块持续地生成并更新多种运维模型及知识库，并将所述多种运维模型和知识库存储到数据存储模块；运维管理及任务执行模块对运维任务进行设置并执行运维任务、调用运维模型及知识库、存储及输出运维结果；结果审核模块对运维管理及任务执行模块输出的异常及故障进行审核，并将审核确认后的异常及故障输出到异常及故障标注模块。

本申请本申请本申请在阅读并理解了附图和详细描述后，可以明白其他方面。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本发明实施例一提供的运维系统的结构示意图；

图2为相关技术中运维系统的结构示意图；

图3为本发明实施例二提供的运维系统的结构示意图；

图4为本发明实施例三提供的运维方法的流程示意图；

图5为本发明实施例四提供的运维方法的流程示意图。

具体实施方式

下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为了在云计算、大数据的基础上，利用人工智能技术实现运维的智能化，本发明实施例提供了一种新的运维系统及方法，来保证整个运维系统能够实现自适应更新、自我提升、逐步进化，显著提升运维的效率。

实施例一

图1为本发明实施例一提供的运维系统的结构示意图。如图1所示，该运维系统，包括：相互连接的数据采集模块、数据存储模块、异常及故障标注模块、模型自动训练及评估模块、运维管理及任务执行模块、结果审核模块。

数据采集模块，设置为采集所述运维系统所需要的多种日志源数据，并将所述多种日志源数据存储在数据存储模块。

数据存储模块，设置为对所述日志源数据、运维结果、标注结果、模型及知识库进行存储。

异常及故障标注模块，设置为持续地对数据存储模块中的部分源数据进行异常及故障标注，并将标注结果存储到数据存储模块。

模型自动训练及评估模块，设置为持续地生成并更新多种运维模型及知识库，并将所述多种运维模型和知识库存储到数据存储模块。

运维管理及任务执行模块，设置为对运维任务进行设置并执行运维任务、调用运维模型及知识库、存储及输出运维结果。

结果审核模块，设置为对运维管理及任务执行模块输出的异常及故障进行审核，并将审核确认后的异常及故障输出到异常及故障标注模块。

如此，能够在满足基本运维需求的同时，可以实现异常及故障自动发现和输出，保证整个运维系统能够实现自适应更新、自我提升、逐步进化，显著提升运维的效率。

在一实施例中，所述数据采集模块采集的多种日志源数据，包括：应用系统日志、操作系统资源状态日志、异常日志数据、流式日志数据、运维详细记录，以及第三方标注数据；

其中，针对应用系统日志和操作系统资源状态日志，数据采集模块采用定时扫描、批量传输的数据采集模式，针对异常日志数据和流式日志数据，数据采集模块采用实时采集、实时传输的数据采集模式，针对运维详细记录和第三方标注数据，数据采集模块采用定时扫描、批量传输的数据采集模式；

所述异常及故障标注模块进行异常及故障标注的源数据，包括：数据存储模块中存储的运维详细记录和第三方标注数据、结果审核模块输出的审核确认后的异常及故障、模型自动训练及评估模块用来作为训练测试验证的数据。

在一实施例中，所述异常及故障标注模块进行异常及故障标注的方式，包括：人工、半人工、半监督学习、迁移学习四种方式。

所述人工方式，表示按照故障发生模块、故障类型、故障原因对数据存储模块中按需抽取的运维详细记录进行标注。

所述半人工方式，表示按故障发生模块、故障类型、故障原因对结果审核模块输出的审核确认后的异常及故障进行标注。

所述半监督学习方式，表示利用半监督学习算法、部分已经标注好的标注样本对模型自动训练及评估模块用来作为训练测试验证的数据进行标注。

所述迁移学习方式，表示利用迁移学习技术对相近的第三方标注数据学习生成所述运维系统所需的标注数据。

在一实施例中，所述模型自动训练及评估模块生成并更新多种运维模型及知识库的方式包括：实时数据处理建模及评估、批量数据处理建模及评估。

所述实时数据处理建模及评估，表示从数据存储模块中的实时数据库中抽取实时日志数据，按照实时任务需求对数据进行处理，按时间顺序对数据进行排序、按照特定时间窗口对数据进行时间切分，然后利用简单的关系判定、统计分析对异常模式进行发现与抽取。

所述批量数据处理建模及评估，表示按照运维任务的不同及标注数据准备情况，对发现和抽取的异常模式选择单模型训练及评估、集成模型训练及评估和增量模型训练及评估，生成多种运维模型及知识库。

其中，所述的单模型训练及评估，包含：根据任务类型、异常及故障标注数据、训练测试及验证数据，从监督模型、非监督模型、半监督模型三类中选择合适的算法，进行训练和评估生成单模型。

所述的集成模型训练及评估，包含：当单模型训练及评估的结果不稳定时将多个单模型采用合适的集成模式以获取稳定的最优结果。

所述的增量模式训练及评估，包含：新日志数据到来后需要对已有运维模型进行模型参数更新、模型重新训练及评估更新操作。

在一实施例中，多种运维模型及知识库，包含：实时模型、通用模型、知识库、增量模型。

其中，所述实时模型，包含：用于实时计算场景下发现日志数据中的简单异常规则、静态阈值参数。

所述通用模型，包含：用于批量计算场景下单模型训练及评估后形成的算法及相应的参数、随时间及数据变化的动态阈值，集成模型及评估后形成的集成框架及相应的算法及参数。

所述知识库，包含：模型综合训练及评估中各阶段发现的复杂规则、关联关系、链路传播图、知识图谱、故障树。

所述增量模型，包含：已有运维模型如何适应新的数据而做出的模型参数调整、模型类型调整，既包含单模型的增量，也包含集成模型的增量。

下面通过一个具体的实施例详细阐述本申请实施例一提供的技术方案。

实施例二

图2为相关技术中运维系统的结构示意图，图3为本申请实施例二提供的运维系统的结构示意图。如图2、3所示，该运维系统包括：数据采集模块、数据存储模块、模型自动训练及评估模块、运维管理及任务执行模块；还包括：异常及故障标注模块、结果审核模块。

其中，数据采集模块，设置为采集智能运维系统所需要的多种日志源数据，并将所述多种日志源数据存储在数据存储模块。

数据采集模块主要实现对多种类型、多种形态日志数据的采集：除了常见的应用系统日志批量采集、操作系统资源状态日志采集、异常日志实时采集之外，增加对流式日志数据的采集、运维详细记录表的采集、第三方标注数据的采集。

在一实施例中，数据采集模块单独运行数据采集接口配置向导，向导根据待采集数据的速率、数据类型，启动相应的采集方案。向导预置三种不同的采集方案为：1)针对异常日志数据、流式日志数据，均采用实时采集、实时传输的数据采集模式，采集到的数据直接传入数据存储模块中的实时内存数据库；2)针对运维详细记录、第三方标注数据，均采用定时扫描、批量传输的数据采集模式，采集到的数据直接传入数据存储模块中的分布式数据库；3)针对应用系统日志、操作系统资源状态日志，均采用定时扫描、批量传输的数据采集模式，但是此时采集到的数据直接存入数据存储模块中的分布式文件系统。

其中，数据存储模块，设置为对日志源数据、运维结果、标注结果、模型及知识库等系统必要的数据进行存储。

数据存储模块主要实现对日志数据、异常及故障标注结果、多种模型及知识库等等的存储。

在一实施例中，数据存储模块主要对日志源数据的存储、日志分析结果的存储、异常及故障标注结果的存储、多种模型及知识库的存储，其他模块中间的结果数据根据需要也可考虑在此存储。与普通运维系统相比，本模块增加了智能运维系统所需的异常及故障标注结果的存储、模型及知识库的存储。多种不同数据可根据数据类型、数据形态、数据采集速率进行分布式、分类存储：如非结构化、半结构化的应用系统日志及操作系统资源状态日志源数据可以存储在分布式文件系统中，运维详细记录和第三方标注数据可以选择存储在分布式数据库中，实时采集的异常及流式数据可以先存储在内存数据库中后根据考虑需要考虑是否转存入分布式文件系统中或者分布式数据库中。

其中，异常及故障标注模块，设置为持续地对数据存储模块中的部分源数据进行异常及故障标注，并将标注结果存储到数据存储模块。

所述异常及故障标注模块中的部分源数据，包括：运维详细记录、结果审核模块输出的确定的异常及故障、第三方标注数据、模型自动训练及评估模块用来作为训练测试验证的数据；

所述异常及故障标注模块中的异常及故障标注，包括：人工、半人工、半监督学习、迁移学习四种方式；具体操作方式为：人工表示按需抽取来自数据存储中的运维详细记录，按照故障发生模块、故障类型、故障原因对数据进行标注；半人工表示结果审核模块输出的人工确认后的异常及故障按故障发生模块、故障类型、故障原因等对数据进行标注；半监督学习表示利用半监督学习算法、部分已经标注好的标注样本对其他未进行标注的数据(模型自动训练及评估模块用来作为训练测试验证的数据)进行标注；迁移学习表示利用迁移学习技术、相近的第三方标注数据学习生成本运维系统所需的标注数据(模型自动训练及评估模块用来作为训练测试验证的数据)。

其中，模型自动训练及评估模块，设置为持续地生成并更新多种运维模型及知识库，并将所述多种运维模型和知识库存储到数据存储模块。

所述模型自动训练及评估模块，持续地生成并更新多种运维模型及知识库，生成并更新方式包含：实时数据处理建模及评估、批量数据处理建模及评估。实时数据处理建模及评估是从数据存储模块中的实时数据库中抽取实时日志数据，按照实时任务需求对数据进行处理，如按时间顺序对数据进行排序、按照特定时间窗口对数据进行时间切分等，然后利用简单的关系判定、统计分析等对异常模式进行发现与抽取。批量数据处理建模及评估是按照运维任务的不同及标注数据准备情况，例如可以选用的模型及评估方法分为单模模型训练及评估、集成模型训练及评估和增量模型训练及评估。

模型自动训练及评估模块的主要目标是生成并更新运维管理及任务执行模块在进行异常自动发现、故障快速定位、故障提前预警时所需要调用的实时模型、通用模型、知识库、增量模型。运维自动训练及评估模块又分为数据处理、单模型训练及评估、集成模型训练及评估、增量模型训练及评估四个子模块，每个子模块的作用及功能均不相同，使用时根据运维任务、数据质量依次选择每个子模块中不同的方法进行数据预处理、模型训练、模型评估。

所述的单模型训练及评估，包含：根据任务类型、异常及故障标注数据、训练测试及验证数据，从监督模型、非监督模型、半监督模型三类中选择合适的算法，如异常模式发现任务由于异常模式变化多样，但出现频率不高，所以在样本数量上较少，所以一般多以非监督模型为主；而故障定位和故障预警一般以监督模型为主、以半监督模型为辅。

所述的集成模型训练及评估，包含：当单个模型训练评估结果不稳定时将多个单模型采用合适的集成模式以获取稳定的最优的结果。

所述的增量模式训练及评估，包含：新日志数据到来后需要对已有运维模型进行模型参数更新、模型重新训练及评估等更新操作。

所述的多种运维模型及知识库，包含：实时模型、通用模型、知识库、增量模型。所述的实时模型，包含：用于实时计算场景下发现日志数据中的简单异常规则、静态阈值参数等。所述的通用模型，包含：用于批量计算场景下单模型训练及评估后形成的算法及相应的参数、随时间及数据等变化的动态阈值，集成模型及评估后形成的集成框架及相应的算法及参数。所述的知识库，包含：运维模型综合训练及评估中各阶段发现的复杂规则、关联关系、链路传播图、知识图谱、故障树等等，这部分模式可以直接应用于实时日志数据进行实时异常检测，也可以应用于批量日志数据进行故障的提前预测。所述的增量模型，包含：已有运维模型如何适应新的数据而做出的模型参数调整、模型类型调整等，既包含单模型的增量，也包含集成模型的增量。

在一实施例中，模型自动训练及评估模块由运维管理及任务执行模块按需启动、分类执行：a)实时数据处理、建模及评估：从数据存储模块中的实时数据库中抽取实时日志数据，按照实时任务需求对数据进行处理，如按时间顺序对数据进行排序、按照特定时间窗口对数据进行时间切分等，然后利用简单的关系判定、统计分析等对异常模式进行发现与抽取。b)批量数据处理、建模及评估：按照运维任务的不同及标注数据准备情况，例如可以选用的模型及评估方法分为单模模型训练及评估、集成模型训练及评估和增量模型训练及评估。其中，单模型训练及评估主要根据任务类型、异常及故障标注数据从监督模型、非监督模型、半监督模型三类中选择合适的算法，如异常模式发现任务由于异常模式变化多样，但出现频率不高，所以在样本数量上较少，所以一般多以非监督模型为主；而故障定位和故障预警一般以监督模型为主、以半监督模型为辅；集成模型训练及评估是为了弥补单模在任务类型存在多态时结果不稳定情况下将多个单模型采用合适的集成模式以获取稳定的最优的结果；增量模式训练及评估是为了满足面对不断涌现的新日志数据情况下已有运维模型能够保持及时更新。模型自动训练及评估的结果以模型及知识库的形式存入数据存储模块中，模型及知识库在存储时根据各自的应用场景分为以下四种：a)实时模型，主要是设置为实时计算场景下发现日志数据中的简单异常规则、静态阈值参数等。b)通用模型，主要设置为批量计算场景下单模型训练及评估后形成的算法及相应的参数、随时间及数据等变化的动态阈值，集成模型及评估后形成的集成框架及相应的算法及参数。c)知识库类，主要是运维模型综合训练及评估中各阶段发现的复杂规则、关联关系、链路传播图、知识图谱、故障树等等，这部分模式可以直接应用于实时日志数据进行实时异常检测，也可以应用于批量日志数据进行故障的提前预测；d)增量模型，将单模型训练及评估、集成模型训练及评估后得到的模型进行增量效能评估，保留增量效能较好的模型单独作为增量模型，以满足整个智能运维系统对新增数据的适应性。增量模型在调用时，按照增量模型是对全部数据进行重新计算还是仅对新增数据进行增量计算来选取是定时启动还是触发启动。

其中，运维管理及任务执行模块实现对运维系统的统一管理及任务能力：日志查询与关键绩效指标(Key Performance Indicator，KPI)监控的任务执行及结果展示、故障手动定位及结果的展示、异常规则过滤的执行及结果的展示、静态阈值的设定及执行结果的展示、异常自动发现相关模型的调用及结果的展示、故障快速定位相关模型的调用及结果的展示、故障提前预警相关模型的调用及结果的展示、模型自动训练及评估模块的启动及结果的管理、多种模型的分类管理及更新。与普通运维系统相比，异常自动发现相关模型的调用及结果的展示、故障快速定位相关模型的调用及结果的展示、故障提前预警相关模型的调用及结果的展示、模型自动训练及评估模块的启动及结果的管理、多种模型的分类管理及更新均是此模块新增功能。

在实施例中，运维管理及任务执行模块一方面根据系统配置及模型可调用情况提供日志查询、多种KPI监控、异常发现、故障预警等功能，另一方面跟踪KPI监控的结果、异常规则过滤的结果、阈值超限的结果、异常模式自动发现的结果，并根据新发现的异常及故障数据、已有异常及故障的数据标注情况调用模型自动训练及评估模块生成的模型或者知识库中的一种或者几种，实现故障的快速定位并给出相应的结果。运维管理及任务执行模块负责运维结果的输出。

其中，运维管理及任务执行模块继续监测新的日志数据的采集情况，依次启动异常及故障标注模块、模型自动训练及评估模块，生成新的模型及知识库或者对已有模型及知识库进行更新，后续迭代性地执行运维任务、进行结果审核等等，从而实现系统运维能力的自我更新、迭代和进化。

其中，结果审核模块，设置为对运维管理及任务执行模块输出的异常及故障进行审核，并将审核确认后的异常及故障输出到异常及故障标注模块。

结果审核模块主要负责对运维管理模块生成的运维结果进行人工审核及确认，将确认有效的异常及故障传入异常及故障标注模块中作为一种数据标注方式不断扩充、累积标注数据。

本申请实施例二提供的技术方案，在日志数据类型及形态多样、运维需求复杂情况下可以高效地进行异常自动发现、故障快速定位、故障提前预警等，而且整个智能运维系统可以实现自适应更新、自我迭代、逐步进化。

实施例三

图4为本申请实施例三提供的运维方法的流程示意图。如图4所示，该运维方法，包括步骤401至步骤406。

在步骤401中，数据采集模块采集运维系统所需要的多种日志源数据，并将所述多种日志源数据存储在数据存储模块。

在步骤402中，数据存储模块对所述日志源数据、运维结果、标注结果、模型及知识库进行存储。

在步骤403中，异常及故障标注模块持续地对数据存储模块中的部分源数据进行异常及故障标注，并将标注结果存储到数据存储模块。

在步骤404中，模型自动训练及评估模块持续地生成并更新多种运维模型及知识库，并将所述多种运维模型和知识库存储到数据存储模块。

在步骤405中，运维管理及任务执行模块对运维任务进行设置并执行运维任务、调用运维模型及知识库、存储及输出运维结果。

在步骤406中，结果审核模块对运维管理及任务执行模块输出的异常及故障进行审核，并将审核确认后的异常及故障输出到异常及故障标注模块。

其中，针对应用系统日志和操作系统资源状态日志，数据采集模块采用定时扫描、批量传输的数据采集模式，针对异常日志数据和流式日志数据，数据采集模块采用实时采集、实时传输的数据采集模式，针对运维详细记录和第三方标注数据，数据采集模块采用定时扫描、批量传输的数据采集模式。

下面通过一个具体的实施例详细阐述本申请实施例三提供的技术方案。

实施例四

图5为本申请实施例四提供的运维方法的流程示意图。如图5所示，该运维方法，包括步骤501至步骤506。

在步骤501中，数据采集。

其中，该数据采集包括：1、异常日志实时采集，对工作集群中重要应用/操作的异常日志进行实时采集；2、操作系统资源状态采集，对应用系统日志批量采集；4、第三方标注数据采集，设置为补充运维系统异常及故障标注数据的匮乏，主要通过迁移学习技术对外界相近的标注数据进行迁移实现；5、运维详细记录表采集，直接作为运维系统异常及故障的标注数据；6、流式日志数据采集，主要采集大数据环境中类似交易型、实时传输型/操作型的流式数据进行实时采集。

在步骤502中，数据存储。

其中，该数据存储包括：1、日志源数据存储，一般存储在文件系统中；2、日志分析结果存储，一般存储在数据库或数据仓库中；3、标注结果存储，设置为保存异常及故障标注模中生成的标注结果；4、模型及知识库存储，设置为保存模型自动训练及评估模块中生成的多种模型和知识库。

在步骤503中，异常及故障标注。

其中，所述异常及故障标注，包括：1、异常事件标注，对系统中采集到的异常数据进行确认，标注出真正异常的事件；2、故障类型标注，对系统中采集到的故障数据及故障类型进行标注；3、标注数据迁移，对第三方标注数据通过迁移学习技术形成系统可用的异常及故障标注数据。

在步骤504中，模型自动训练及评估。

其中，模型自动训练及评估，包括：1、数据预处理，负责模型自动训练及评估模块中的数据准备工作，包含但不限于样本数据抽取、数据解析及格式统一、特征提取及构造、数据不平衡处理等等；2、单模型训练及评估，根据数据存储模块中日志源数据存储的现状、标注结果存储的现状、任务类型(异常自动发现/故障快速定位/故障提前预警)选择单模型训练及评估中的非监督模型训练及评估、半监督模型训练及评估、监督模型训练及评估中的一种或者多种算法进行训练、测试及评估，并将形成的的算法及参数、关联关系、链路传播、复杂规则、知识图谱、故障树等作为模型或者知识库存入数据存储模块的模型及知识库存储中；3、集成模型训练及评估，在单模型训练及评估的基础上，根据模型的稳定性及评估效果可继续选择集成模型训练及评估进行模型的优化；4、增量模型训练及评估，随着采集数据的不断增加，需要对已有模型及知识库进行更新，可以通过增量模型训练及评估实现。

在步骤505中，运维管理及任务执行。

其中，其中，运维管理及任务执行包括：日志查询及KPI监控任务执行及结果展示、故障手动定位及结果的展示、异常规则过滤的执行及结果的展示、静态阈值的设定及执行结果的展示、异常自动发现相关模型的调用及结果的展示、故障快速定位相关模型的调用及结果的展示、故障提前预警相关模型的调用及结果的展示、模型自动训练及评估模块的启动及结果的管理、多种模型的分类管理及更新等等。

在步骤506中，结果审核。

其中，所述结果审核包括：对运维管理及任务执行模块中的异常及故障相关的结果进行审核，一方面将审核后的所有的异常及故障输出，另一方面将确认的异常及故障传入异常及故障标注模块中。

其中，上述各个步骤可以周期性循环，并不存在固定的顺序。

本实施例三、四提供的运维方法可以应用于上述实施例一、二提供的运维系统中。

本申请实施例三、四提供的技术方案，在日志数据类型及形态多样、运维需求复杂情况下可以高效地进行异常自动发现、故障快速定位、故障提前预警等，而且整个智能运维系统可以实现自适应更新、自我迭代、逐步进化。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在设置为存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(random access memory，RAM)、只读存储器(Read Only Memory，ROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、闪存或其他存储器技术、光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能盘数字多功能光盘(Digital Video Disc，DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以设置为存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

一种运维系统，包括：相互连接的数据采集模块、数据存储模块、异常及故障标注模块、模型自动训练及评估模块、运维管理及任务执行模块、结果审核模块；其中，

数据采集模块，设置为采集所述运维系统所需要的多种日志源数据，并将所述多种日志源数据存储在数据存储模块；

数据存储模块，设置为对所述日志源数据、运维结果、标注结果、模型及知识库进行存储；

异常及故障标注模块，设置为持续地对数据存储模块中的部分源数据进行异常及故障标注，并将标注结果存储到数据存储模块；

模型自动训练及评估模块，设置为持续地生成并更新多种运维模型和知识库，并将所述多种运维模型和知识库存储到数据存储模块；

运维管理及任务执行模块，设置为对运维任务进行设置并执行运维任务、调用运维模型和知识库、存储和输出运维结果；

结果审核模块，设置为对运维管理及任务执行模块输出的异常及故障进行审核，并将审核确认后的异常及故障输出到异常及故障标注模块。
根据权利要求1所述的运维系统，其中，

所述数据采集模块采集的多种日志源数据，包括：应用系统日志、操作系统资源状态日志、异常日志数据、流式日志数据、运维详细记录，以及第三方标注数据；

其中，针对应用系统日志和操作系统资源状态日志，数据采集模块采用定时扫描、批量传输的数据采集模式；针对异常日志数据和流式日志数据，数据采集模块采用实时采集、实时传输的数据采集模式；针对运维详细记录和第三方标注数据，数据采集模块采用定时扫描、批量传输的数据采集模式；

所述异常及故障标注模块进行异常及故障标注的源数据，包括：数据存储模块中存储的运维详细记录和第三方标注数据、结果审核模块输出的审核确认后的异常及故障、模型自动训练及评估模块用来作为训练测试验证的数据。
根据权利要求1所述的运维系统，其中，

所述异常及故障标注模块进行异常及故障标注的方式，包括：人工方式、半人工方式、半监督学习方式，以及迁移学习方式；

所述人工方式，表示按照故障发生模块、故障类型、故障原因对数据存储模块中按需抽取的运维详细记录进行标注；

所述半人工方式，表示按故障发生模块、故障类型、故障原因对结果审核模块输出的审核确认后的异常及故障进行标注；

所述半监督学习方式，表示利用半监督学习算法、部分已经标注好的标注样本，对模型自动训练及评估模块用来作为训练测试验证的数据进行标注；

所述迁移学习方式，表示利用迁移学习技术对相近的第三方标注数据学习生成所述运维系统所需的标注数据。
根据权利要求1所述的运维系统，其中，

所述模型自动训练及评估模块生成并更新多种运维模型及知识库的方式包括：实时数据处理建模及评估、批量数据处理建模及评估；

所述实时数据处理建模及评估，表示从数据存储模块中的实时数据库中抽取实时日志数据，按照实时任务需求对数据进行处理，按时间顺序对数据进行排序、按照特定时间窗口对数据进行时间切分，利用关系判定和统计分析对异常模式进行发现与抽取；

所述批量数据处理建模及评估，表示按照运维任务的不同及标注数据准备情况，对发现和抽取的异常模式选择单模型训练及评估、集成模型训练及评估和增量模型训练及评估，生成多种运维模型及知识库；

其中，所述的单模型训练及评估，包括：根据任务类型、异常及故障标注数据、训练测试及验证数据，从监督模型、非监督模型、半监督模型中选择相应的模型，进行训练和评估生成单模型；

所述的集成模型训练及评估，包括：在单模型训练及评估的结果不稳定时的情况下，对多个单模型采用相应的集成模式以获取稳定的结果；

所述的增量模式训练及评估，包括：新日志数据到来后需要对已有运维模型进行模型参数更新、模型重新训练及评估更新操作。
根据权利要求4所述的运维系统，其中，

多种运维模型及知识库，包括：实时模型、通用模型、知识库、增量模型；

其中，所述实时模型，包括：用于实时计算场景下发现日志数据中的简单异常规则、静态阈值参数；

所述通用模型，包括：用于批量计算场景下单模型训练及评估后形成的算法及相应的参数、随时间及数据变化的动态阈值，集成模型及评估后形成的集成框架及相应的算法及参数；

所述知识库，包括：模型综合训练及评估中各阶段发现的复杂规则、关联关系、链路传播图、知识图谱，以及故障树；

所述增量模型，包括：已有运维模型如何适应新的数据而做出的模型参数调整、模型类型调整，所述增量模型包括单模型的增量，以及集成模型的增量。
一种运维方法，包括：

数据采集模块采集运维系统所需要的多种日志源数据，并将所述多种日志源数据存储在数据存储模块；

数据存储模块对所述日志源数据、运维结果、标注结果、模型及知识库进行存储；

异常及故障标注模块持续地对数据存储模块中的部分源数据进行异常及故障标注，并将标注结果存储到数据存储模块；

模型自动训练及评估模块持续地生成并更新多种运维模型和知识库，并将所述多种运维模型和知识库存储到数据存储模块；

运维管理及任务执行模块对运维任务进行设置并执行运维任务、调用运维模型及知识库、存储及输出运维结果；

结果审核模块对运维管理及任务执行模块输出的异常及故障进行审核，并将审核确认后的异常及故障输出到异常及故障标注模块。
根据权利要求6所述的运维方法，其中，

所述数据采集模块采集的多种日志源数据，包括：应用系统日志、操作系统资源状态日志、异常日志数据、流式日志数据、运维详细记录，以及第三方标注数据；

其中，针对应用系统日志和操作系统资源状态日志，数据采集模块采用定时扫描、批量传输的数据采集模式；针对异常日志数据和流式日志数据，数据采集模块采用实时采集、实时传输的数据采集模式；针对运维详细记录和第三方标注数据，数据采集模块采用定时扫描、批量传输的数据采集模式；

所述异常及故障标注模块进行异常及故障标注的源数据，包括：数据存储模块中存储的运维详细记录和第三方标注数据、结果审核模块输出的审核确认后的异常及故障、模型自动训练及评估模块用来作为训练测试验证的数据。
根据权利要求6所述的运维方法，其中，

所述异常及故障标注模块进行异常及故障标注的方式，包括：人工方式、半人工方式、半监督学习方式、迁移学习方式；

所述人工方式，表示按照故障发生模块、故障类型、故障原因对数据存储模块中按需抽取的运维详细记录进行标注；

所述半人工方式，表示按故障发生模块、故障类型、故障原因对结果审核模块输出的审核确认后的异常及故障进行标注；

所述半监督学习方式，表示利用半监督学习算法、部分已经标注好的标注样本，对模型自动训练及评估模块用来作为训练测试验证的数据进行标注；

所述迁移学习方式，表示利用迁移学习技术对相近的第三方标注数据学习生成所述运维系统所需的标注数据。
根据权利要求6所述的运维方法，其中，

所述模型自动训练及评估模块生成并更新多种运维模型及知识库的方式包括：实时数据处理建模及评估、批量数据处理建模及评估；

所述实时数据处理建模及评估，表示从数据存储模块中的实时数据库中抽取实时日志数据，按照实时任务需求对数据进行处理，按时间顺序对数据进行排序、按照特定时间窗口对数据进行时间切分，利用关系判定和统计分析对异常模式进行发现与抽取；

所述批量数据处理建模及评估，表示按照运维任务的不同及标注数据准备情况，对发现和抽取的异常模式选择单模型训练及评估、集成模型训练及评估和增量模型训练及评估，生成多种运维模型及知识库；

其中，所述的单模型训练及评估，包括：根据任务类型、异常及故障标注数据、训练测试及验证数据，从监督模型、非监督模型、半监督模型三类中选择相应的模型，进行训练和评估生成单模型；

所述的集成模型训练及评估，包括：在单模型训练及评估的结果的情况下，不稳定时将对多个单模型采用相应的集成模式以获取稳定的结果；

所述的增量模式训练及评估，包括：新日志数据到来后需要对已有运维模型进行模型参数更新、模型重新训练及评估更新操作。
根据权利要求9所述的运维方法，其中，

多种运维模型及知识库，包括：实时模型、通用模型、知识库、增量模型；

其中，所述实时模型，包括：用于实时计算场景下发现日志数据中的简单异常规则、静态阈值参数；

所述通用模型，包括：用于批量计算场景下单模型训练及评估后形成的算法及相应的参数、随时间及数据变化的动态阈值，集成模型及评估后形成的集成框架及相应的算法及参数；

所述知识库，包括：模型综合训练及评估中各阶段发现的复杂规则、关联关系、链路传播图、知识图谱，以及故障树；

所述增量模型，包括：已有运维模型如何适应新的数据而做出的模型参数调整、模型类型调整，所述增量模型包括单模型的增量，以及集成模型的增量。