WO2024001080A1

WO2024001080A1 - 基于人工智能运维的数据库贯穿基础设施的故障定位方法

Info

Publication number: WO2024001080A1
Application number: PCT/CN2022/139853
Authority: WO
Inventors: 刘睿民; 林秀峰
Original assignee: 北京柏睿数据技术股份有限公司
Priority date: 2022-06-29
Filing date: 2022-12-19
Publication date: 2024-01-04
Also published as: CN114968727B; CN114968727A

Abstract

一种基于人工智能运维的数据库贯穿基础设施的故障定位方法，包括以下步骤：搭建智能运维大数据分布式平台；采集得到IaaS基础设施层的关键性能指标向量和数据库运行的告警信息；进行告警根源标注和划分告警事务；对CNN卷积神经网络进行训练；实时数据故障诊断和根因分析。该方法具有以下优点：将人工智能技术运用到数据库的运营维护中，贯穿数据库到基础设施IaaS层设备的信息，根据数据库告警信息快速进行故障定位和根因分析。

Description

基于人工智能运维的数据库贯穿基础设施的故障定位方法

技术领域

本发明属于信息技术领域，具体涉及一种基于人工智能运维的数据库贯穿基础设施的故障定位方法。

背景技术

随着IT技术的高速发展，现代信息网络化的可交互业务系统已经替代传统的纸书、磁带以及光盘等需要依靠物理媒介的业务传播方式，信息网络化让各行业的业务效率得到极大的提高。随着各行业的相关业务系统的搭建，以及大量的相关计算机网络硬件设备的应用开发，带来成倍增长的运维问题和各行业对IT运维工作的需求。

在大型企业信息化建设以及数智化转型的过程中，传统的运维方式愈发难以满足大数据时代自动、高效和智能的运维需求。传统运维被动式的人工干预解决问题的方式存在成本失控、效率低下等诸多弊端，在当今时代中会导致企业难以估量的损失。为了突破运维方式的瓶颈。数据库作为信息系统的核心和基础数据处理技术得到广泛的应用，已经成为企业信息化建设核心部件。但是，目前，企业和相关运维工作人员对数据库运营维护的认识通常仅限于常规参数设置和设备主动报警。贯穿基础设施层的关键指标数据，利用程度不足，缺少联合分析和相关分析。数据库一旦出现告警，运维人员通常只在数据库浅层次上进行维护，无法深层次挖掘出现问题的根本原因，不能充分发挥整体网络的潜在能力。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于人工智能运维的数据库贯穿基础设施的故障定位方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种基于人工智能运维的数据库贯穿基础设施的故障定位方法，包括以下步骤：

步骤1，搭建智能运维大数据分布式平台，所述智能运维大数据分布式平台，包括分布式存储单元和分布式计算平台；

步骤2，在预设定时间段内，采集得到IaaS基础设施层的关键性能指标向量和数据库运行的告警信息；其中，每个关键性能指标向量为n维向量，包括n个关键性能指标；

步骤3，对IaaS基础设施层的关键性能指标向量进行标准化预处理，得到标准化处理后的关键性能指标向量；

步骤4，对不同时间采集的标准化处理后的关键性能指标向量和不同时间产生的告警信息进行联合分析，得到引起告警信息的告警根源；

步骤5，将一组连续时间内的告警信息划分为一个告警事务，由此得到多个告警事务；标注每个告警事务的告警根源；其中，每个告警事务的告警根源，是告警事务对应时间段采集到的标准化处理后的关键性能指标向量形成的向量组合；

步骤6，将每个告警事务所标注的告警根源作为该告警事务的标签，以告警事务作为输入，以每个告警事务属于每类告警根源的概率作为输出，对CNN卷积神经网络进行训练，得到训练完成的CNN卷积神经网络即为故障定位及根因分析分类模型；

步骤7，实时数据故障诊断和根因分析：

在数据库实时运行时，当产生告警信息时，将连续时间内的告警信息作为一个告警事务，输入到故障定位及根因分析分类模型，输出其对应每类告警根源的概率，获得概率最大的告警根源，完成数据库告警根因分析。

优选的，其特征在于，关键性能指标向量包括6个关键性能指标，分别为：服务器IP地址、服务器CPU占用率、服务器内存占用率、服务器硬盘读写速率、服务器硬盘空间占用率和网络实时速率。

优选的，其特征在于，数据库运行的告警信息包括39类，分别为：一般告警信息、无数据告警、尚未完成的SQL语句、连接异常、触发动作异常、不支持的功能、无效的事务启动、定位器异常、无效的角色规范、诊断异常、违反基数、数据异常、违反完整性约束、无效的游标状态、无效的交易状态、无效的SQL语句名称、触发数据更改违规、无效的授权规范、依赖特权描述符仍然存在、无效的交易终止、SQL例程异常、无效的游标名称、外部例程异常、外部例程调用异常、保存点异常、无效的目录名称、无效的架构名称、事务回滚、语法错误或访问规则违规、违反检查选项、资源不足、超出程序限制、对象未处于先决状态、操作员干预、系统错误、快照失败、配置文件错误、外部数据包装器错误、内部错误告警。

优选的，步骤3具体为：

将关键性能指标向量表示为：X(t)＝(X ₁，X ₂，...，X _n)，含义为：在采集时刻t，采集到的关键性能指标向量，包括n个关键性能指标，分别为：X ₁，X ₂，...，X _n；

假设在预设定时间段内，共采集得到u个关键性能指标向量，分别为：X(t ₁)＝(X ₁₁，X ₁₂，...，X _1n)，X(t ₂)＝(X ₂₁，X ₂₂，...，X _2n)，...，X(t _u)＝(X _u1，X _u2，...，X _un)，含义为：在采集时刻t ₁，t ₂...，t _u，分别采集到的关键性能指标向量；

对于关键性能指标X ₁₁，采用以下方法进行标准化处理，得到标准化处理后的关键性能指标

其中：

为X ₁₁，X ₂₁，...，X _u1的均值；

σ为X ₁₁，X ₂₁，...，X _u1的标准差；

对其他关键性能指标，采用同样方法标准化处理。

优选的，步骤5具体为：

步骤5.1，对于某个告警根源Ga，其发生时间为sa，消除时间为fa；

步骤5.2，预设定x和y值；

选取告警根源Ga发生前x分钟至告警根源Ga消除后y分钟内的一组告警信息作为一个告警事务，即：将[sa-x，fa+y]时间段内的所有告警信息作为一个告警事务S(1)；

步骤5.3，预先为告警事务S(1)时间区间设定阈值y_max，T_max，使得其满足公式(2)和公式(3)的约束：

fa-sa+y＜y_max (2)

x+y_max＜T_max (3)

步骤5.4，若[sa，fa+y]时间段内包含有标注为其他的告警根源Gb的告警信息，则将告警根源Gb发生前x分钟以及告警根源Gb消除后y分钟的告警信息合并至告警事务S(1)，即：将以下时间区间内的告警信息作为一个告警事务[sa-x，min(max(fa，fb)+y，sa-x+T_max)]。

本发明提供的基于人工智能运维的数据库贯穿基础设施的故障定位方法具有以下优点：

将人工智能技术运用到数据库的运营维护中，贯穿数据库到基础设施IaaS 层设备的信息，根据数据库告警信息快速进行故障定位和根因分析。

附图说明

图1为本发明提供的基于人工智能运维的数据库贯穿基础设施的故障定位方法的流程示意图；

图2为本发明提供的告警事物切分示意图；

图3为本发明提供的告警事务Ga和Gb合并为一个告警事务示意图；

图4为本发明提供的CNN卷积申请网络示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

随着IT技术的高速发展，现代信息网络化的可交互业务系统已经替代了传统的纸书、磁带以及光盘等需要依靠物理媒介的业务传播方式，信息网络化让各行业的业务效率得到了极大的提高。随着各行业的相关业务系统的搭建，以及大量的相关计算机网络硬件设备的应用开发，带来了成倍增长的运维问题和各行业对IT运维工作的需求。最近几年随着人工智能的发展，各企业都已经逐渐融入了人工智能算法，为很多企业带来了行业难题的解决办法，当IT运维和人工智能相互结合，于是便产生了智能运维AIOps(Artificial Intelligence for IT Operations)。利用机器学习和大数据工具，聚焦具体类别设备的关键性能指标KPI数据和日志数据进行建模分析，研究故障预测和诊断以及根因分析等算法模型，提高智能运维故障发现处置效率，助力大型企业IT运维实现精细化和智能化，是未来智能运维发展的重要方向。

与本申请最为接近的技术方案有申请号为CN201610922085.8的发明专利，一种用于分布式数据库的性能故障定位方法，该发明提供一种用于分布式数据库的性能故障定位方法，定位执行速度缓慢的性能故障节点；判断性能故障节点的SQL执行计划是否改变，若是，则性能故障定位完成，并优化性能故障节点的SQL执行计划，若否，则依次查看系统资源负载、协调器性能及用户网络状况，直至完成性能故障的定位。该专利仅利用故障节点的SQL执行计划是否改变的信息，识别数据库性能故障的定位所在。与该专利相比，本发明基于IaaS基础设施层的6类关键性能指标和数据库的39类运行告警信息，创造性地聚合各类告警信息，建立人工智能模型分析故障根因，并使用关联分析深度挖掘问题根因。本发明仅针对数据库开展研究，对数据库告警的分析利用更加充分，对数据库的处理性能提升更加具有实用性。本发明可以充分深入挖掘数据库的数据处理能力，提升数据库运行的稳定性和效率，从根本上提高企业环境下的数据处理能力，进一步提升智能运维工作价值。

基于现有技术现状，本申请旨在将人工智能技术运用到数据库的运营维护中，贯穿数据库到基础设施IaaS层设备的信息，根据数据库告警信息快速进行故障定位和根因分析。

本发明提供一种基于人工智能运维的数据库贯穿基础设施的故障定位方法，参考图1，包括以下步骤：

该智能运维大数据分布式平台基于开源HDFS、Yam、Zookeeper、Hive、HBase等Hadoop生态组件、Spark和Python等计算引擎分布式存储单元用于采集关键运行指标向量和系统运行日志数据信息。

作为一种具体实现方式，关键性能指标向量包括但不限于以下6个关键性能指标，分别为：服务器IP地址、服务器CPU占用率、服务器内存占用率、服务器硬盘读写速率、服务器硬盘空间占用率和网络实时速率。

数据库运行的告警信息包括但不限于以下39类，分别为：一般告警信息、无数据告警、尚未完成的SQL语句、连接异常、触发动作异常、不支持的功能、无效的事务启动、定位器异常、无效的角色规范、诊断异常、违反基数、数据异常、违反完整性约束、无效的游标状态、无效的交易状态、无效的SQL语句名称、触发数据更改违规、无效的授权规范、依赖特权描述符仍然存在、无效的交易终止、SQL例程异常、无效的游标名称、外部例程异常、外部例程调用异常、保存点异常、无效的目录名称、无效的架构名称、事务回滚、语法错误或访问规则违规、违反检查选项、资源不足、超出程序限制、对象未处于先决状态、操作员干预、系统错误、快照失败、配置文件错误、外部数据包装器错误、内部错误告警。

步骤3，对IaaS基础设施层的关键性能指标向量进行标准化预处理，得到标准化处理后的关键性能指标向量；本步骤目的为方便后续步骤准确提取关键信息，避免无效数据干扰，

具体的，可采用以下方法进行标准化处理：

其中：

为X ₁₁，X ₂₁，...，X _u1的均值；

σ为X ₁₁，X ₂₁，...，X _u1的标准差；

对其他关键性能指标，采用同样方法标准化处理。

步骤5，将一组连续时间内的告警信息划分为一个告警事务，由此得到多个告警事务；

标注每个告警事务的告警根源；其中，每个告警事务的告警根源，是告警事务对应时间段采集到的标准化处理后的关键性能指标向量形成的向量组合；

具体的，采用步骤S1建立的智能运维大数据分布式平台，对对数据库告警信息进行预处理和人工标注，其目的为后续步骤准确提取关键信息，避免无效数据干扰。

参考图2，对于告警信息，将一组连续时间内的告警信息作为一个告警事务，利用告警事务中所标注的告警根源对该告警事务的根源进行分类，可以有效聚合告警信息，提取关键信息，避免干扰。

步骤5具体为：

步骤5.2，预设定x和y值；

fa-sa+y＜y_max (2)

x+y_max＜T_max (3)

步骤5.4，参考图3，若[sa，fa+y]时间段内包含有标注为其他的告警根源Gb的告警信息，则将告警根源Gb发生前x分钟以及告警根源Gb消除后y分钟的告警信息合并至告警事务S(1)，即：将以下时间区间内的告警信息作为一个告警事务[sa-x，min(max(fa，fb)+y，sa-x+T_max)]。

在具体实现上，还可以进行以下步骤：

步骤5.5，重复步骤5.2至步骤5.5，直至确定以Ga为时间中心的告警事务。

步骤5.6，针对告警信息中所有标注的告警根源，按照告警产生时间排序，用于提取告警事务。

步骤5.7，从告警信息中第一个标注的告警根源Ga开始，按照以上步骤，确定以Ga为时间中心的告警事务。

步骤5.8，按照时间顺序，确定下一个告警根源Gb为时间中心的告警事务。其中，若告警根源Gb已经包含于上一个告警事务，则忽略告警根源Gb，继续查找下一个告警根源，直至所有告警根源都包含于告警事务中。

通过CNN卷积神经网络计算每一个告警事务属于每一个告警根源的概率。其中，一个告警事务属于某个告警根源的概率越大，则该类告警是这个告警事务的根源的概率越大。CNN卷积神经网络结构如图4所示。

本步骤之后，还可以包括：

在得到每一个告警事务属于每一个告警根源的概率后，根据概率的大小，通过专家人工赋予0到1之间的系数相乘进行修正，最终得到每一个告警事务属于最大概率告警根源的概率。

步骤7，实时数据故障诊断和根因分析：

因此，基于步骤S1建立的智能运维大数据分布式平台，与实时数据进行分类判别，可以得到包括告警事物、服务器定位、服务器CPU、服务器内存、服务器硬盘、网络在内的数据库告警根因分析。

本发明提供的基于人工智能运维的数据库贯穿基础设施的故障定位方法具有以下特点：

1.本发明使用特定方法定义告警事务，原创的计算步骤，提取关键信息，避免无效数据干扰，为后续数据能够应用CNN卷积神经网络进行计算，提升计算效率。此为本申请的关键点之一。

2.相较于传统的人工处理数据库告警信息，本发明应用了CNN卷积申请网络算法并进行了改进。应用CNN卷积申请网络可以快速判断大量数据库告警信息的根因，本专利改进之处在于引入专家人工赋权对CNN卷积神经网络的计算结果进行修正，有效避免了因数据库告警信息采集量不足而导致的计算结果出现偏差。此为本申请的关键点之一。

本发明提供的基于人工智能运维的数据库贯穿基础设施的故障定位方法，将人工智能技术运用到数据库的运营维护中，贯穿数据库到基础设施IaaS层设备的信息，根据数据库告警信息快速进行故障定位和根因分析。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

一种基于人工智能运维的数据库贯穿基础设施的故障定位方法，其特征在于，包括以下步骤：

步骤1，搭建智能运维大数据分布式平台，所述智能运维大数据分布式平台，包括分布式存储单元和分布式计算平台；

步骤2，在预设定时间段内，采集得到IaaS基础设施层的关键性能指标向量和数据库运行的告警信息；其中，每个关键性能指标向量为n维向量，包括n个关键性能指标；

步骤3，对IaaS基础设施层的关键性能指标向量进行标准化预处理，得到标准化处理后的关键性能指标向量；

步骤4，对不同时间采集的标准化处理后的关键性能指标向量和不同时间产生的告警信息进行联合分析，得到引起告警信息的告警根源；

步骤5，将一组连续时间内的告警信息划分为一个告警事务，由此得到多个告警事务；标注每个告警事务的告警根源；其中，每个告警事务的告警根源，是告警事务对应时间段采集到的标准化处理后的关键性能指标向量形成的向量组合；

步骤6，将每个告警事务所标注的告警根源作为该告警事务的标签，以告警事务作为输入，以每个告警事务属于每类告警根源的概率作为输出，对CNN卷积神经网络进行训练，得到训练完成的CNN卷积神经网络即为故障定位及根因分析分类模型；

步骤7，实时数据故障诊断和根因分析：

在数据库实时运行时，当产生告警信息时，将连续时间内的告警信息作为一个告警事务，输入到故障定位及根因分析分类模型，输出其对应每类告警根源的概率，获得概率最大的告警根源，完成数据库告警根因分析。
根据权利要求1所述的基于人工智能运维的数据库贯穿基础设施的故障定位方法，其特征在于，关键性能指标向量包括6个关键性能指标，分别为：服务器IP地址、服务器CPU占用率、服务器内存占用率、服务器硬盘读写速率、服务器硬盘空间占用率和网络实时速率。
根据权利要求1所述的基于人工智能运维的数据库贯穿基础设施的故障定位方法，其特征在于，数据库运行的告警信息包括39类，分别为：一般告警信息、无数据告警、尚未完成的SQL语句、连接异常、触发动作异常、不支持的功能、无效的事务启动、定位器异常、无效的角色规范、诊断异常、违反基数、数据异常、违反完整性约束、无效的游标状态、无效的交易状态、无效的SQL语句名称、触发数据更改违规、无效的授权规范、依赖特权描述符仍然存在、无效的交易终止、SQL例程异常、无效的游标名称、外部例程异常、外部例程调用异常、保存点异常、无效的目录名称、无效的架构名称、事务回滚、语法错误或访问规则违规、违反检查选项、资源不足、超出程序限制、对象未处于先决状态、操作员干预、系统错误、快照失败、配置文件错误、外部数据包装器错误、内部错误告警。
根据权利要求1所述的基于人工智能运维的数据库贯穿基础设施的故障定位方法，步骤3具体为：

将关键性能指标向量表示为：X(t)＝(X ₁，X ₂，...，X _n)，含义为：在采集时刻t，采集到的关键性能指标向量，包括n个关键性能指标，分别为：X ₁，X ₂，...，X _n；

假设在预设定时间段内，共采集得到u个关键性能指标向量，分别为：X(t ₁)＝(X ₁₁，X ₁₂，...，X _1n)，X(t ₂)＝(X ₂₁，X ₂₂，...，X _2n)，...，X(t _u)＝(X _u1，X _u2，...，X _un)，含义为：在采集时刻t ₁，t ₂...，t _u，分别采集到的关键性能指标向量；

对于关键性能指标X ₁₁，采用以下方法进行标准化处理，得到标准化处理后的关键性能指标

其中：

为X ₁₁，X ₂₁，...，X _u1的均值；

σ为X ₁₁，X ₂₁，...，X _u1的标准差；

对其他关键性能指标，采用同样方法标准化处理。
根据权利要求1所述的基于人工智能运维的数据库贯穿基础设施的故障定位方法，步骤5具体为：

步骤5.1，对于某个告警根源Ga，其发生时间为sa，消除时间为fa；

步骤5.2，预设定x和y值；

选取告警根源Ga发生前x分钟至告警根源Ga消除后y分钟内的一组告警信息作为一个告警事务，即：将[sa-x，fa+y]时间段内的所有告警信息作为一个告警事务S(1)；

步骤5.3，预先为告警事务S(1)时间区间设定阈值y_max，T_max，使得其满足公式(2)和公式(3)的约束：

fa-sa+y＜y_max(2)

x+y_max＜T_max(3)

步骤5.4，若[sa，fa+y]时间段内包含有标注为其他的告警根源Gb的告警信息，则将告警根源Gb发生前x分钟以及告警根源Gb消除后y分钟的告警信息合并至告警事务S(1)，即：将以下时间区间内的告警信息作为一个告警事务[sa-x，min(max(fa，fb)+y，sa-x+T_max)]。