WO2024007426A1

WO2024007426A1 - 一种基于k8s结合灾备演练故障预测及Pod调度的方法

Info

Publication number: WO2024007426A1
Application number: PCT/CN2022/114446
Authority: WO
Inventors: 满新宇; 陈世亮; 杨梅; 王震; 朱庭俊; 黄嘉伟
Original assignee: 中电信数智科技有限公司
Priority date: 2022-07-06
Filing date: 2022-08-24
Publication date: 2024-01-11
Also published as: CN115220961A

Abstract

一种基于k8s结合灾备演练故障预测及Pod调度的方法，包括在组网内的中央集群管理服务器上创建一个基于k8s的中央调度集群，同时在组网内各地子网建立一个Node节点；在组网内Master在非中央指定子网创建一个备份Node节点并部署数据收集服务Pod，再向Master发送请求获取参与灾备演练的各地Node下Pod演练数据；选择不同的模型数据分析方式，构建并训练马尔可夫链模型，获得下一次k8s集群灾备演练各步骤可能发生故障的概率；对马尔可夫链模型训练结果及参与分析的数据进行存储。解决了通过主机管理k8s集群的方式不能满足跨k8s集群管理需求的技术问题，提高了Pod调度的灵活性。

Description

一种基于k8s结合灾备演练故障预测及Pod调度的方法

技术领域

本发明属于灾备演练技术领域，具体涉及一种基于k8s结合灾备演练故障预测及Pod调度的方法。

背景技术

随着数字化技术的逐渐发展，网络安全已经成为社会发展的重要保证，使得异地灾备更加具有参考价值。灾备数据信息的收集和处理是灾备演练中的一个重要环节，信息收集全面，数据准确能够保证灾备演练的各任务正常执行。演练的处理过程是高度接近真实灾难发生时的处理过程，确保了灾备演练能够对工作起到作用，从而使灾备自动演练对数据维护起到参考作用。

传统意义上的灾备数据收敛及分析方法均存在一定维度局限，存在资源浪费的问题，且各地灾备关联的隐私数据相互分析运算也不方便。不利于运维人员对大型组网内各地灾备系统状态的分析和数据处理。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于k8s结合灾备演练故障预测及Pod调度的方法，解决了通过主机管理k8s集群的方式不能满足跨k8s集群管理需求的技术问题，提高了Pod调度的灵活性。

为实现上述技术目的，本发明采取的技术方案为：

一种基于k8s结合灾备演练故障预测及Pod调度的方法，包括：

步骤1、在组网内的中央集群管理服务器上创建一个基于k8s的中央调度集群，同时在组网内各地子网建立一个Node节点，所述中央调度集群包括：主节点Master、Node节点、数据收集服务Pod；

步骤2、在组网内Master通过k8s的API server在非中央指定子网创建一个备份Node节点并部署数据收集服务Pod，再通过k8s的API server向Master发送请求获取参与灾备演练的各地Node下Pod演练数据；

步骤3、根据业务特征选择不同的模型数据分析方式分析训练Pod演练数据，以构建并训练马尔可夫链模型，获得下一次k8s集群灾备演练各步骤可能发生故障的概率；

步骤4、马尔可夫链模型训练结果及参与分析的数据存储到中央服务器部署的历史灾备演练数据库。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤1所述中央集群管理服务器所在网络节点为集群中央管理节点，中央调度集群包括三个对象：主节点Master、Node节点、数据收集服务Pod，其部署方式为：

所述中央集群管理服务器上部署Master以及创建组网内包括中央及各地所有Node，在中央集群管理服务器上部署计算Node和计算程序，计算程序负责通过k8s的API server向备份Node节点获取需要的灾备演练数据，并进行相关灾备演练业务的分析及计算；

中央服务器部署历史灾备演练数据库，负责存储分析结果，存储分析包括：参与灾备演练业务的每个Pod或Pod集合运算结果；

运算结果包括：运算发生时间、Pod名称、PodIP、所属Node节点、及异地参与运算Pod及所属Node本次分析及运算的结果数据。

上述的步骤2中，Master收到请求命令后开始向各地参与灾备演练的Node下发收集数据指令，直到将参与灾备演练的Node下的数据收集服务Pod存储的数据传递给备份Node节点。

上述的步骤3有如下两种数据分析方式可选择：

方式一：异地数据分析：将灾备演练的数据放在不同运算点进行数据训练，最后针对数据训练结果进行集合分析，提取最接近真实的数据结果；

方式二：集中数据分析：备份Node节点集中运算：

首先，获取备份Node节点下各地方参与灾备演练的Pod数据；

其次，备份Node节点收到指令后通过k8s的API server将参与计算及分析的Pod或Pod集合的灾备演练数据发送给计算Node提取最接近真实的数据结果。

上述的步骤3构建马尔可夫链模型如下：

P(X ⁽ⁿ⁺¹⁾＝i|X ⁽ⁿ⁾＝j,X ^(n-1)＝i _(n-1),...,X ⁽⁰⁾＝i ₍₀₎)＝P _ij,n≥0

P _ij代表从给定的当前灾备演练步骤j转移到灾备演练步骤i的概率；

X ⁽ⁿ⁾代表当前灾备演练步骤；

X ⁽ⁿ⁺¹⁾代表下一灾备演练步骤；

其中，i,j,i ₀,i _j,...,i _n-1∈M，此随机过程为马尔可夫链。

上述的步骤3生成马尔可夫链数据集合，对马尔可夫链模型进行训练；

所述马尔可夫链数据集合生成方法为：

1)获得灾备演练过程中各步骤发生故障初始概率值及每次灾备演练过程中发生异常的灾备演练数据集合；

2)通过部署在中央服务器的计算Node上的计算程序执行将参与灾备演练的Pod数据聚合，按照灾备演练步骤，以步骤名称为查询条件访问部署在中央服务器的历史灾备演练数据库灾备演练过程中各步骤发生异常的演练数据；

所述灾备演练步骤包括事件上报、业务预警、灾害评估；

3)通过灾备演练过程中各步骤的计算公式获得各步骤发生故障初始概率和按演练时间从远到近有序生成的非初始概率，构成马尔可夫链数据集合。

上述的3)所述各步骤发生故障初始概率获得方式如下：

事件上报步骤发生故障初始概率：从历史灾备演练数据库中当前步骤灾备演练发生故障的条数/包含当前步骤灾备演练总条数；

业务预警步骤发生故障初始概率＝从历史灾备演练数据库中当前步骤灾备演练发生故障的条数/包含当前步骤灾备演练总条数；

灾害评估步骤发生故障初始概率＝从历史灾备演练数据库中当前步骤灾备演练发生故障的条数/包含当前步骤灾备演练总条数。

上述的3)所述非初始概率通过事件上报为查询条件访问历史灾备演练数据库获取。

上述的步骤3将初始概率和非初始概率生成矩形数据集合放入马尔可夫链模型进行训练，最终获得下一次k8s集群灾备演练各步骤可能发生故障的概率。

上述的步骤4通过计算程序将收集到的马尔可夫链模型训练结果及参与分析的数据存储到中央服务器部署的历史灾备演练数据库；

存储的数据包括演练时间、参与Pod名称、参与PodIP、参与Node节点、灾备演练发生故障概率值、灾备演练是否异常标识、演练序号。

本发明具有以下有益效果：

本发明突出了k8s人工智能在灾备演练过程中的优势，通过采用分布式存储数据及分析方式在灾备演练场景下采用不同方法达到更加高效智能并接近真实的数据分析、人工智能训练及存储过程。能够对多地方灾备隐私数据共同参与运算且多地方灾备数据可灵活调度参与分析及运算，并将运算与数据分离存储，进而达到了能够提高异地灾备的数据计算及分析效率又减轻了中央服务器的资源消耗，解决了现有IT业务系统的多地方灾备隐私数据无法共同参与运算且多地方灾备数据无法灵活调度参与分析及运算的技术问题。

附图说明

图1为本发明方法流程图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

本发明的方法针对机房运维场景下业务规模大、应用关系复杂、依赖层次多、排查问题困难的问题，无法满足当前集群对运维管理要求及高效调度处理，无法满足当前集群对运维管理要求及高效调度处理及数据备份功能。为集群pod的跨集群备份，集群之间业务数据交互，及集群资源灵活配置及调度提供了一种可行性基于k8s结合灾备演练故障预测及Pod调度的方法，采见图1，本发明方法包括：

步骤1、在组网内的中央集群管理服务器上创建一个基于k8s的中央调度集群，同时在组网内各地子网建立一个Node节点。

其中，中央集群管理服务器所在网络节点简称为集群中央管理节点。

中央调度集群主要包括三个对象：主节点Master、Node节点、数据收集服务Pod。

其特征是分析方法包括：

Master：

首先，在中央集群管理服务器上部署Master以及创建组网内包括中央及各地所有Node。

其次，在中央集群管理服务器上部署计算Node和计算程序，计算程序负责通过k8s的API server向备份Node节点获取需要的灾备演练数据，并进行相关灾备演练业务的分析及计算。

中央服务器部署历史灾备演练数据库，负责存储分析结果，包括：参与灾备演练业务的每个Pod或Pod集合运算结果；

运算结果包括：运算发生时间、Pod名称、PodIP、所属Node节点、及异地参与运算Pod及所属Node等本次分析及运算的结果数据。

步骤2、在组网内Master通过k8s的API server在非中央指定子网创建一个备份Node节点并部署数据收集服务Pod，再通过k8s的API server向Master发送请求获取参与灾备演练的各地Node下Pod演练数据。

具体描述：

在各地Node下部署一个数据收集服务Pod，负责收集与存储所有该Node节点下的参与灾备演练Pod的数据，Master收到请求命令后开始向各地参与灾备演练的Node下发收集数据指令，直到将参与灾备演练的Node下的数据收集服务Pod存储的数据传递给备份Node节点，从而完成分布式灾备演练数据的收集和存储流程。

步骤3、根据业务特征采用不同的模型数据分析方式，并构建马尔可夫链模型；

方式一：异地数据分析

考虑到多地联合灾备演练的数据在传输过程中可能造成网络延迟等因素及由于各地方业务特征不同，网络安全策略不一致，可能造成多地联合灾备演练的数据报文中数据遭到网络策略拦截从而使运算数据真实性降低。因此，将灾备演练的数据放在不同运算点进行数据训练。最后针对数据训练结果进行集合分析，提取最接近真实的数据结果。

联合异地之间灾备演练数据训练具体描述：

多地联合灾备演练过程中，以其中任意地方Node节点，简称：运算点，通过k8s的API server向Master(主节点)发送命令获取本次灾备多地联合演练过程中，异地参与运算的Pod上灾备数据传输到运算点，然后开始构建【马尔可夫链模型】。

方式二：集中数据分析

【备份Node节点】集中运算、当需要从全局角度对异地灾备演练数据进行数据分析及计算的时候，并不需要考虑联合灾备演练数据丢失情况的时候采用。

灾备演练数据联合集中训练具体描述：

首先，由部署在Master(主节点)下的【计算Node(节点)】上的【计算程序】通过调用k8s的API server向Master(主节点)发送请求获取【备份Node节点】下各地方参与灾备演练的Pod数据。

其次，【备份Node节点】收到指令后通过k8s的API server将参与计算及分析的Pod或Pod集合的灾备演练数据发送给【计算Node(节点)】，然后开始构建【马尔可夫链模型】。

构建【马尔可夫链模型】

公式如下：

X ⁽ⁿ⁾代表当前灾备演练步骤；

X ⁽ⁿ⁺¹⁾代表下一灾备演练步骤，仅仅依赖于当前演练步骤；

其中i,j,i ₀,i _j,...,i _n-1∈M称此随机过程为马尔可夫链。

进一步的，生成马尔可夫链数据集合，对马尔可夫链模型进行训练；

马尔可夫链数据集合生成具体描述：

首先，获得灾备演练过程中各步骤发生故障初始概率值及每次灾备演练过程中发生异常的灾备演练数据集合。数据来源【历史灾备演练数据库】。

其次，通过部署在中央服务器的计算Node(节点)上的【计算程序】执行将参与灾备演练的Pod数据聚合，按照灾备演练步骤(事件上报、业务预警、灾害评估)，以该步骤名称为查询条件访问部署在中央服务器的【历史灾备演练数据库】灾备演练过程中各步骤发生异常的演练数据。

最后，通过灾备演练过程中各步骤的计算公式获得各步骤发生故障初始概率和按演练时间从远到近有序生成的非初始训练数据(为获得每次灾备演练各步骤是否出现故障的概率进行数据准备)。

初始概率获得描述如下：

事件上报步骤发生故障初始概率：从历史灾备演练数据库中当前步骤灾备演练发生故障的条数/包含当前步骤灾备演练总条数。

业务预警步骤发生故障初始概率＝从历史灾备演练数据库中当前步骤灾备演练发生故障的条数/包含当前步骤灾备演练总条数。

假设第一月灾备演练初始概率【x1＝0.6、x2＝0.2、x3＝0.2】

(一个月可能按天或小时等时间段进行演练。)

非初始概率获得描述如下：

第二次演练初始概率参照第一次

【x1＝0.6、x2＝0.2、x3＝0.2】

首先，通过x1＝事件上报为查询条件访问【历史灾备演练数据库】获取第二次灾备演练从事件上报故障转移到其他步骤故障比例。即，第二月灾备演练总次数中事件上报故障增减情况与第一月。x2和x3获取方法相同。

即：

第一次演练x1＝0.6的情况下第二次演练概率

【x1＝0.2、x2＝0.3、x3＝0.5】

第一次演练x2＝0.2的情况下第二次演练概率

【x1＝0.1、x2＝0.6、x3＝0.3】

第一次演练x3＝0.2的情况下第二次演练概率

【x1＝0.4、x2＝0.5、x3＝0.1】

最后，将初始概率和非初始概率生成矩形数据集合放入【马尔可夫链模型】进行训练。

具体步骤描述如下：

矩形集合为：

X1＝【事件上报】主要负责发起一个灾备演练事件并确定本次参与的灾备演练业务Pod集合，包括本地灾备演练事件和各地联合灾备演练事件。

X2＝【业务预警】主要负责对发生的灾备演练事件进行筛查从而确定是否为误报演练事件或者其他原因造成的非故障灾备演练事件。

X3＝【灾害评估】主要负责获取及存储【历史灾备演练数据库】灾害级别(分为灾难、紧急、重要、次要、轻微五个等级)。

第一次的转移矩阵【X1＝0.6、X2＝0.2、X3＝0.2】

X1＝0.6的转移矩阵【X1＝0.2、X2＝0.3、X3＝0.5】

X2＝0.2的转移矩阵【X1＝0.1、X2＝0.6、X3＝0.3】

X3＝0.6的转移矩阵【X1＝0.4、X2＝0.5、X3＝0.1】

依据模型公式进行训练：

计算步骤1：

第一次的转移矩阵X1＝0.6乘X1＝0.2+

第一次的转移矩阵X2＝0.2乘X1＝0.1+

第一次的转移矩阵X3＝0.2乘X1＝0.4

第二次演练的事件上报X1＝0.22

计算步骤2：

第一次的转移矩阵X1＝0.6乘X2＝0.3+

第一次的转移矩阵X2＝0.2乘X2＝0.6+

第一次的转移矩阵X3＝0.2乘X2＝0.5

第二次演练的业务预警X2＝0.4

计算步骤3：

第一次的转移矩阵X1＝0.6乘X3＝0.5+

第一次的转移矩阵X2＝0.2乘X3＝0.3+

第一次的转移矩阵X3＝0.2乘X3＝0.1

第二次演练的业务预警X3＝0.38

第一次初始概率【0.6、0.2、0.2】

第二次模型训练结果【0.22、0.4、0.38】即，最终获得k8s集群本地及异地灾备演练第二月各演练步骤可能发生故障的概率。

步骤3中，按照马尔可夫链模型特征每次训练依据上一次训练概率，当三个步骤模型训练数据值接近或达到平均值结束。即，当在平均概率0.33的10％内上下浮动或达到【0.34、0.33、0.33】表示概率区域稳定，不需要再进行概率预测的模型训练则终止执行模型训练，否则直到完成所有矩形集合内训练条数训练为止。最终获得下一次k8s集群灾备演练各步骤可能发生故障的概率。从而通过人工智能手段为异地灾备演练保驾护航，也为业务健康运行提供参考依据。

步骤4、最后，【计算程序】将收集到的马尔可夫链模型训练结果及参与分析的数据存储到中央服务器部署的【历史灾备演练数据库】包括(演练时间、参与Pod名称、参与PodIP、参与Node节点、灾备演练发生故障概率值、灾备演练是否异常标识、演练序号)。从而完成一次基于k8s的灾备演练Pod数据的调用、分析、模型训练、结果存储一个完整的流程。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

一种基于k8s结合灾备演练故障预测及Pod调度的方法，其特征在于，包括：

步骤1、在组网内的中央集群管理服务器上创建一个基于k8s的中央调度集群，同时在组网内各地子网建立一个Node节点，所述中央调度集群包括：主节点Master、Node节点、数据收集服务Pod；

步骤2、在组网内Master通过k8s的API server在非中央指定子网创建一个备份Node节点并部署数据收集服务Pod，再通过k8s的API server向Master发送请求获取参与灾备演练的各地Node下Pod演练数据；

步骤3、根据业务特征选择不同的模型数据分析方式分析训练Pod演练数据，以构建并训练马尔可夫链模型，获得下一次k8s集群灾备演练各步骤可能发生故障的概率；

步骤4、马尔可夫链模型训练结果及参与分析的数据存储到中央服务器部署的历史灾备演练数据库。
根据权利要求1所述的一种基于k8s结合灾备演练故障预测及Pod调度的方法，其特征在于，步骤1所述中央集群管理服务器所在网络节点为集群中央管理节点，中央调度集群包括三个对象：主节点Master、Node节点、数据收集服务Pod，其部署方式为：

所述中央集群管理服务器上部署Master以及创建组网内包括中央及各地所有Node，在中央集群管理服务器上部署计算Node和计算程序，计算程序负责通过k8s的API server向备份Node节点获取需要的灾备演练数据，并进行相关灾备演练业务的分析及计算；

中央服务器部署历史灾备演练数据库，负责存储分析结果，存储分析包括：参与灾备演练业务的每个Pod或Pod集合运算结果；

运算结果包括：运算发生时间、Pod名称、PodIP、所属Node节点、及异地参与运算Pod及所属Node本次分析及运算的结果数据。
根据权利要求1所述的一种基于k8s结合灾备演练故障预测及Pod调度的方法，其特征在于，步骤2中，Master收到请求命令后开始向各地参与灾备演练的Node下发收集数据指令，直到将参与灾备演练的Node下的数据收集服务Pod存储的数据传递给备份Node节点。
根据权利要求1所述的一种基于k8s结合灾备演练故障预测及Pod调度的方法，其特征在于，所述步骤3有如下两种数据分析方式可选择：

方式一：异地数据分析：将灾备演练的数据放在不同运算点进行数据训练，最后针对数据训练结果进行集合分析，提取最接近真实的数据结果；

方式二：集中数据分析：备份Node节点集中运算：

首先，获取备份Node节点下各地方参与灾备演练的Pod数据；

其次，备份Node节点收到指令后通过k8s的API server将参与计算及分析的Pod或Pod集合的灾备演练数据发送给计算Node提取最接近真实的数据结果。
根据权利要求1所述的一种基于k8s结合灾备演练故障预测及Pod调度的方法，其特征在于，所述步骤3构建马尔可夫链模型如下：

P(X ⁽ⁿ⁺¹⁾＝i|X ⁽ⁿ⁾＝j,X ^(n-1)＝i _(n-1),...,X ⁽⁰⁾＝i ₍₀₎)＝P _ij,n≥0

P _ij代表从给定的当前灾备演练步骤j转移到灾备演练步骤i的概率；

X ⁽ⁿ⁾代表当前灾备演练步骤；

X ⁽ⁿ⁺¹⁾代表下一灾备演练步骤；

其中，i,j,i ₀,i _j,...,i _n-1∈M，此随机过程为马尔可夫链。
根据权利要求1所述的一种基于k8s结合灾备演练故障预测及Pod调度的方法，其特征在于，所述步骤3生成马尔可夫链数据集合，对马尔可夫链模型进行训练；

所述马尔可夫链数据集合生成方法为：

1)获得灾备演练过程中各步骤发生故障初始概率值及每次灾备演练过程中发生异常的灾备演练数据集合；

2)通过部署在中央服务器的计算Node上的计算程序执行将参与灾备演练的Pod数据聚合，按照灾备演练步骤，以步骤名称为查询条件访问部署在中央服务器的历史灾备演练数据库灾备演练过程中各步骤发生异常的演练数据；

所述灾备演练步骤包括事件上报、业务预警、灾害评估；

3)通过灾备演练过程中各步骤的计算公式获得各步骤发生故障初始概率和按演练时间从远到近有序生成的非初始概率，构成马尔可夫链数据集合。
根据权利要求6所述的一种基于k8s结合灾备演练故障预测及Pod调度的方法，其特征在于，3)所述各步骤发生故障初始概率获得方式如下：

事件上报步骤发生故障初始概率：从历史灾备演练数据库中当前步骤灾备演练发生故障的条数/包含当前步骤灾备演练总条数；

业务预警步骤发生故障初始概率＝从历史灾备演练数据库中当前步骤灾备演练发生故障的条数/包含当前步骤灾备演练总条数；

灾害评估步骤发生故障初始概率＝从历史灾备演练数据库中当前步骤灾备演练发生故障的条数/包含当前步骤灾备演练总条数。
根据权利要求6所述的一种基于k8s结合灾备演练故障预测及Pod调度的方法，其特征在于，3)所述非初始概率通过事件上报为查询条件访问历史灾备演练数据库获取。
根据权利要求6所述的一种基于k8s结合灾备演练故障预测及Pod调度的方法，其特征在于，所述步骤3将初始概率和非初始概率生成矩形数据集合放入马尔可夫链模型进行训练，最终获得下一次k8s集群灾备演练各步骤可能发生故障的概率。
根据权利要求1所述的一种基于k8s结合灾备演练故障预测及Pod调度的方法，其特征在于，所述步骤4通过计算程序将收集到的马尔可夫链模型训练结果及参与分析的数据存储到中央服务器部署的历史灾备演练数据库；

存储的数据包括演练时间、参与Pod名称、参与PodIP、参与Node节点、灾备演练发生故障概率值、灾备演练是否异常标识、演练序号。