WO2012126430A2

WO2012126430A2 - 基于管理分层的关联告警的方法和装置

Info

Publication number: WO2012126430A2
Application number: PCT/CN2012/075954
Authority: WO
Inventors: 王斌
Original assignee: 华为技术有限公司
Priority date: 2012-05-23
Filing date: 2012-05-23
Publication date: 2012-09-27
Also published as: CN102783087A; CN102783087B; WO2012126430A3

Description

基于管理分层的关联告警的方法和装置技术领域

本发明涉及网络领域，具体而言，涉及基于管理分层的关联告警的方法和装置。背景技术

目前的网管系统以工作流程管理以及计算机化的考核为主要的实现目标。并且，系统的智能化程度越来越高，各个管理部分结合得更为紧密。因此，对综合分析、自动处理的能力要求也越来越来高。由于网管系统与业务系统的关系更加紧密，各种业务的实施都可以通过网管系统来实现，因此网管系统逐渐发展成一个对网络的智能管理工具以及对业务的端到端实施工具。一般地，网管系统包括告警采集、告警存储、告警展现和告警上报等功能。

通常，网管系统可以针对管理对象进行监控。这里，管理对象可以是一切被管理的物理对象或逻辑对象的通称，例如，物理对象包括设备、单板、端口、链路、路由、时隙、电路、 VPN ( Virtual Private Network, 虚拟专用网络）、 CPU ( Central Processing Unit, 中央处理器）、内存、硬盘等，逻辑对象包括数据库、软件模块、指定功能点等。

目前的网管系统都是平面式的监控，均属于单一层面和维度的监控，因此无法形成一个整体的系统健康程度的判断。即便是基于单维度的直连物理设备的监控来建立关联关系，比如针对机房的设备或交换机的告警会引起与交换机物理相连的主机的告警，这种从物理上通过直连关系获得告警的筒单对应关系，也无法获取到针对被影响的运行业务的告警。发明内容

本发明实施例旨在解决全网监控的关联告警问题。

一方面，提出了一种基于管理分层的关联告警的方法，包括：获取管理对象的告警信息或性能数据以及关联信息，其中该关联信息表示该管理对象与其他管理对象之间的关联关系，该管理对象与其他管理对象位于不同的管理分层中；基于该关联信息，在该管理分层中查询与该管理对象具有关联关系的其他管理对象的告警信息或性能数据；依据该管理对象的告警信息或性能数据以及其他管理对象的告警信息或性能数据生成关联告警信息，该关联告警信息用于指示网络中与该管理对象的告警信息相关联的告警信息。

另一方面，提出了一种基于管理分层的关联告警的装置，包括：获取单元，用于获取管理对象的告警信息或性能数据以及关联信息，其中该关联信息表示该管理对象与其他管理对象之间的关联关系，该管理对象与其他管理对象位于不同的管理分层中；查询单元，用于基于该关联信息，在该管理分层中查询与该管理对象具有关联关系的其他管理对象的告警信息或性能数据；生成单元，用于依据该管理对象的告警信息或性能数据以及其他管理对象的告警信息或性能数据生成关联告警信息，该关联告警信息用于指示网络中与该管理对象的告警信息相关联的告警信息。

本发明实施例的基于管理分层的关联告警的方法和装置通过获取不同管理分层中的管理对象的关联信息，能够从一个管理对象的告警信息出发，而最终获得网络中与该管理对象的告警信息相关联的关联告警信息，从而实现全网监控。附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作筒单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1是根据本发明实施例的基于管理分层的关联告警的方法的流程图。图 2是根据本发明实施例的基于管理分层的关联告警的装置的结构示意图。

图 3是根据本发明实施例的基于管理分层的关联告警的装置中获取单元的结构示意图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。随着越来越多的电信或是其它领域的大颗粒解决方案的落地，系统变得越来越庞大和复杂。人们迫切需要使监控更条理化，能够让错综复杂的告警关系一目了然，从而快速把握系统整体运营状况，从总体上快速识别风险或是发现系统（硬件、软件业务等）出现的故障。

下面将结合图 1说明根据本发明实施例的基于管理分层的关联告警的方法，能够实现全网监控的关联告警。本发明实施例的方法包括如下步骤。

11 , 网管系统获取管理对象的告警信息或性能数据以及关联信息，其中该关联信息表示该管理对象与其他管理对象之间的关联关系，该管理对象与其他管理对象位于不同的管理分层中。

这里，管理对象可以是物理对象，例如硬件资源，也可以是逻辑对象，例如应用资源、业务资源等。管理对象是网管的对象。

为了实现本发明实施例的方法，可以将管理对象进行分层管理，在不同管理分层中的管理对象之间建立关联，例如将物理对象与逻辑对象建立关联。当一个管理对象发出告警信息或性能异常（例如性能数据超出阈值的情况），可以通过关联关系找到与该管理对象有关联的全部其他管理对象，以便在全网中分析与该告警信息有关的其他告警信息。

通过管理分层关联，在庞大的网络中，变平面单维管理为立体多维管理。这里，举例说明一种分层思想。例如，将管理对象分为应用系统（Application System )层、逻辑组网（ Logic Network )层和基础设施（Infrastructure )层。其中，应用系统层可以包括各种应用系统，如 CRM ( Customer Relationship Management, 客户关系管理）系统、 CBS ( Convergent billing Solution, 融合计费解决方案）系统、 BI ( Business Intelligence, 商业智能）系统等；逻辑组网层可以包括组成应用系统支撑平台的各种网元，如 CBP ( Convergence Billing Point, 融合计费点）、 BMP ( Business Management Point, 事务管理点）等；基础设施层可以包括应用系统的硬件资源，如主机、存储器、交换机等。进一步地，还可以将应用系统层作为最上层，逻辑组网层作为中间层，基础设施层作为最下层。本领域技术人员可以理解，将管理对象进行管理分层的方式可以有多种，并不限于上述示例性的管理分层方式。这样，便于将处于不同管理分层中的管理对象进行关联。

有关告警信息和关联信息都需要从管理对象处采集。目前使用较多的采集代理是 OAMAgent ( Operation Administration Maintenance Agent, 运行管理维护代理）或是 UOA ( Uniform of Agent, 统一代理），它们基于的是传统的 SNMP ( Simple Network Management Protocol, 筒单网管协议 )标准协议，这里称为原有采集器（Common Collector )。但是，为了兼容老的现网设备的接入，本发明实施例考虑在原有采集器的基础上，新增自定义采集器 ( Self-define collector ) , 以建立了统一代理 UOA接口。自定义采集器用于扩展新增协议和私有协议的对接，例如，可以基于 JSON ( JavaScript Object Notation )标准协议或是 BSON ( Binary JSON )标准协议等，其中 JSON是一种轻量级的数据交换格式， BSON是 JSON的二进制序列化编码格式。例如，原有采集器可以用于采集物理对象的数据，比如基础设施（硬件）的性能数据等，自定义采集器可以用于采集逻辑对象的数据，比如业务的性能数据。或者，原有采集器可以用于采集逻辑对象的数据，而自定义采集器可以用于采集物理对象的数据。或者，原有采集器与自定义采集器可以分别采集物理对象和逻辑对象的数据。接入网络的管理对象需要通过统一代理 UOA 接口将自己的关联信息通知给网管系统，以便网管系统根据各管理对象的关联信息建立相互关联的网络拓朴（Topology )。一旦，网络中的一个管理对象发出告警信息或性能异常（对应于超过阈值的性能数据），网管系统通过统一代理 UOA接口采集到上述告警信息后，可以依据管理对象的关联关系推演出可能被影响的其他管理对象。

也就是说，本发明实施例通过统一代理接口采集管理对象的告警信息或性能数据以及关联信息。这里，统一代理接口可以包括自定义采集器。

一旦采集到管理对象的告警信息或性能数据和关联信息，这些告警信息或性能数据以及关联信息将被存储于与该管理对象所在管理分层相对应的存储区域，例如数据库中的不同存储区域。以上述管理分层方式为例，数据库中可以分别为应用系统层、逻辑组网层和基础设施层划定不同的存储区域。这样，采集到的告警信息或性能数据以及关联信息可以被存储在与该管理对象所在管理分层对应的存储区域中。

12, 网管系统基于采集到的关联信息，在管理分层中查询与该管理对象具有关联关系的其他管理对象的告警信息或性能数据。

网管系统基于采集到的关联信息，可以在部分或全部管理分层中查询与该管理对象具有关联关系的其他管理对象的告警信息或性能数据。为了保证查询效率，可以采用逐层查询的方式。仍以上述示例性的管理分层方式为例进行说明。例如，如果网管系统采集到位于基础设施层（最下层）的管理对象的告警信息，网管系统中的 RRE ( Relation Rule Engine, 关系规则引擎 )将依据关联信息依次查询逻辑组网层（中间层 )和应用系统层 (最上层）中与管理对象具有关联关系的其他管理对象。然后， RRE查询这些与管理对象具有关联关系的其他管理对象的告警信息或性能数据。例如，当告警信息指示该其他管理对象具有被管理对象的告警信息或性能数据所指向的故障，或者超出阈值的性能数据指示该其他管理对象具有被管理对象的告警信息或性能数据所指向的性能异常而产生告警信息的情况，则可以将该管理对象以及发出告警信息的其他管理对象进行关联，并连同上述告警信息一并关联。

可以理解， RRE通常遍历全部管理分层中与该管理对象关联的全部其他管理对象及其告警信息，这样能确保网管系统分析的完备性。

也就是，当管理对象位于第一管理分层，即某一管理分层，网管系统可以基于关联信息，逐层地在全部的管理分层中查询与该管理对象具有关联关系的其他管理对象的告警信息。

13 , 最后，网管系统依据该管理对象的告警信息或性能数据以及其他管理对象的告警信息或性能数据生成关联告警信息，该关联告警信息用于指示网络中与该管理对象的告警信息相关联的告警信息，甚至相应的解决方案。

通常，在依据该管理对象的告警信息或性能数据以及其他管理对象的告警信息或性能数据生成关联告警信息的过程中， RRE还需要基于用于指示网络中告警信息的关联关系的关联规则。由于该关联规则可根据网络的应用、需求等进行调整，因此由关联规则指示的关联关系也随网络的应用和需求等而调整。

综上该，本发明实施例的基于管理分层的关联告警的方法通过获取不同管理分层中的管理对象的关联信息，能够从一个管理对象的告警信息出发，最终获得网络中与该管理对象的告警信息相关联的关联告警信息，从而实现全网监控。

下面将仍以上述管理分层为例，结合具体实施例说明根据本发明实施例的基于管理分层的关联告警的方法的实现过程。

以客户关怀前台（ Customer Care Frontend )系统硬件发生故障,如主机掉电、 CPU占用 100%等为例。客户关怀前台系统位于基础设施层，并且客户关怀前台主机上有多个业务，例如营销（Campaign )管理、渠道（ Channel ) 管理、客户关怀（ Customer Care )。

首先，网管系统通过自定义采集器采集到基础设施的告警信息，该告警信息可以包括主机的 ID ( Identify, 标识符）、主机的 IP ( Internet Protocol, 网协）地址、告警信息的 ID、告警定位信息和告警附加信息等。然后，网管系统将该告警信息存储在数据库中与基础设施层对应的存储区域中。接着， RRE根据该管理对象的关联信息查询对应的逻辑组网层和应用系统层中与其关联的其他管理对象。 RRE判断逻辑组网层的管理对象，例如，网元 ( Network Element, NE )是否与发出告警信息的管理对象存在关联，如果是，则获取逻辑组层的客户关怀前台网元的告警信息。 RRE再判断应用系统层的管理对象是否与上述逻辑组网层的管理对象存在关联。此时从上述逻辑组网层的告警信息中获取该应用系统层的管理对象上运行的服务（或应用）信息，并将该服务信息与该基础设施层的管理对象的关联信息中的数据进行比对和关联计算，最终确定故障影响的营销业务、渠道业务和客户关怀业务。

最后，将上述各层的告警信息可以清晰的展现出基础设施层的故障所影响的逻辑业务以及应用。

应理解，网管系统可以同时采集到多个告警信息，但由于不同的告警信息将存储于与发出该告警信息的管理对象对应的存储区域，因此 RRE在进行告警信息的关联的同时对获取的告警信息进行比对和关联计算的整合操作。

例如，当上述基础设施层的管理对象发出告警信息的同时，逻辑组网层的网元也由于工单积压数超过阈值而发出告警信息，上述两条告警信息分别存储于数据库的对应基础设施层的存储区域和对应逻辑组网层的存储区域。若该网元与基础设施层的管理对象存在关联，那么当 RRE从对应基础设施层的存储区域查询到对应逻辑组网层的存储区域，将同时获取该网元的告警信息的内容。从而，在生成关联告警信息的过程中，同时将考虑该网元的告警信息而不会发生遗漏。

在另一实施例中，对于业务分布式部署的情况。在不同的主机上部署该业务的不同模块，比如语音业务，在服务器 1上部署模块 1 , 在服务器 2上部署模块 2,在服务器 3上部署模块 3。此外， SMS ( Short Messaging Service, 短消息业务）业务和 MMS ( Multimedia Message Service, 多媒体短信服务 ) 业务也可能做类似部署。假设一种业务有异常，将不好判断故障点。通过本发明实施例的基于管理分层的关联告警的方法可以很好地解决这一问题。

首先，网管系统通过统一代理接口采集应用系统层的管理对象的告警信息。该告警信息是依据业务的性能数据判断得到。其中，性能数据可以是 KPI ( Key Performance Indicator, 关键性能指标），例如语音 CAPS ( Call Attempts Per Second, 每秒呼叫次数）值、短信 CAPS值等。然后，网管系统将该告警信息存储在数据库中与应用系统层对应的存储区域中。接着， RRE根据该管理对象的关联信息查询对应的逻辑组网层和基础设施层中与其关联的其他管理对象。 RRE判断逻辑组网层的网元是否与发出告警信息的管理对象存在关联，如果是，则获取逻辑组层的关联网元的告警信息。 RRE再判断基础设施层的管理对象是否与上述逻辑组网层的管理对象存在关联。此时从上述告警信息中确定多个与上述应用系统层的管理对象关联的基础设施层的管理对象。例如，如果语音业务出现性能故障，通过上述关联过程，最后可以锁定有关的服务器 1、服务器 2和服务器 3。最后， RRE通过分析基础设施层的管理对象的告警信息，最终确定故障影响业务的基础设施层的管理对象。例如根据服务器 1、服务器 2和服务器 3的性能数据判断出服务器 1和服务器 3运行良好，但是服务器 2的内存占用率已经达到 95%, 并且有故障的告警信息。也就是说，由 RRE根据应用系统层的管理对象的告警信息以及其他层的管理对象的告警信息推算出服务器 2影响业务，并产生关联告警信息。由此，需要采集紧急措施，比如扩容服务器 2的内存。

根据本发明实施例的基于管理分层的关联告警的方法通过获取不同管理分层中的管理对象的关联信息，能够从一个管理对象的告警信息出发，而最终获得网络中与该管理对象的告警信息相关联的关联告警信息，从而实现全网监控。

下面将结合图 2描述根据本发明实施例的基于管理分层的关联告警的装置。

如图 2所示，基于管理分层的关联告警的装置 20包括获取单元 21、查询单元 22和生成单元 23。其中，获取单元 21用于获取管理对象的告警信息以及关联信息，其中该关联信息表示该管理对象与其他管理对象之间的关联关系，该管理对象与其他管理对象位于不同的管理分层中。查询单元 22用于基于该关联信息，在部分或全部的管理分层中查询与该管理对象具有关联关系的其他管理对象的告警信息或性能数据。生成单元 23用于依据该管理对象的告警信息或性能数据以及其他管理对象的告警信息或性能数据生成关联告警信息，该关联告警信息用于指示网络中与该管理对象的告警信息相关联的告警信息及相应地解决方案。

可选地，查询单元 22用于当该管理对象位于第一管理分层，基于该关联信息，逐层地在上述管理分层中查询与该管理对象具有关联关系的其他管理对象的告警信息或性能数据。

可选地，生成单元 23用于基于用于指示网络中告警信息的关联关系的关联规则，依据该管理对象的告警信息或性能数据以及其他管理对象的告警信息或性能数据生成关联告警信息。

可选地，获取单元 21包括采集模块 211和存储模块 212。其中，采集模块 211用于采集管理对象的告警信息或性能数据以及关联信息，其中该采集模块包括自定义采集器。存储模块 212用于将该管理对象的告警信息或性能数据以及关联信息存储于与该管理对象所在管理分层相对应的存储区域。

应理解，采集模块 211的功能可由统一代理接口实现，存储模块 212可以是数据库的形式。查询单元 22和生成单元 23的功能可以在 RRE中实现。

应理解，本发明的每个权利要求所叙述的方案也应看作是一个实施例，并且是权利要求中的特征是可以结合的，如本发明中的判断步骤后的执行的不同分支的步骤可以作为不同的实施例。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和筒洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括： U盘、移动硬盘、只读存储器（ ROM, Read-Only Memory )、随机存取存储器（RAM, Random Access Memory ), 磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

权利要求

1、一种基于管理分层的关联告警的方法，其特征在于，包括：获取管理对象的告警信息或性能数据以及关联信息，其中所述关联信息表示所述管理对象与其他管理对象之间的关联关系，所述管理对象与其他管理对象位于不同的管理分层中；

基于所述关联信息，在所述管理分层中查询与所述管理对象具有关联关系的其他管理对象的告警信息或性能数据；

依据所述管理对象的告警信息或性能数据以及其他管理对象的告警信息或性能数据生成关联告警信息，所述关联告警信息用于指示网络中与所述管理对象的告警信息相关联的告警信息。

2、根据权利要求 1所示的方法，其特征在于，所述基于所述关联信息，在所述管理分层中查询与所述管理对象具有关联关系的其他管理对象的告警信息或性能数据包括：

当所述管理对象位于第一管理分层，基于所述关联信息，逐层地在全部的管理分层中查询与所述管理对象具有关联关系的其他管理对象的告警信息或性能数据。

3、根据权利要求 1或 2所示的方法，其特征在于，所述依据所述管理对象的告警信息或性能数据以及其他管理对象的告警信息或性能数据生成关联告警信息包括：

基于用于指示网络中告警信息的关联关系的关联规则，依据所述管理对象的告警信息或性能数据以及其他管理对象的告警信息或性能数据生成关联告警信息。

4、根据权利要求 1至 3中任一项所述的方法，其特征在于，所述获取管理对象的告警信息或性能数据以及关联信息包括：

通过统一代理接口采集管理对象的告警信息或性能数据以及关联信息，其中所述统一代理接口包括自定义采集器；

将所述管理对象的告警信息或性能数据以及关联信息存储于与所述管理对象所在管理分层相对应的存储区域。

5、根据权利要求 1至 4中任一项所述的方法，其特征在于，所述管理对象是物理对象或逻辑对象。

6、一种基于管理分层的关联告警的装置，其特征在于，包括：获取单元，用于获取管理对象的告警信息或性能数据以及关联信息，其中所述关联信息表示所述管理对象与其他管理对象之间的关联关系，所述管理对象与其他管理对象位于不同的管理分层中；

查询单元，用于基于所述关联信息，在所述管理分层中查询与所述管理对象具有关联关系的其他管理对象的告警信息或性能数据；

生成单元，用于依据所述管理对象的告警信息或性能数据以及其他管理对象的告警信息或性能数据生成关联告警信息，所述关联告警信息用于指示网络中与所述管理对象的告警信息相关联的告警信息。

7、根据权利要求 6所示的装置，其特征在于，所述查询单元具体用于：当所述管理对象位于第一管理分层，基于所述关联信息，逐层地在所述管理分层中查询与所述管理对象具有关联关系的其他管理对象的告警信息或性能数据。

8、根据权利要求 6或 7所示的装置，其特征在于，所述生成单元具体用于：

9、根据权利要求 6至 8中任一项所述的装置，其特征在于，所述获取单元包括：

采集模块，用于通过统一代理接口采集管理对象的告警信息或性能数据以及关联信息，其中所述统一代理接口包括自定义采集器；

存储模块，用于将所述管理对象的告警信息或性能数据以及关联信息存储于与所述管理对象所在管理分层相对应的存储区域。

10、根据权利要求 6至 9中任一项所述的装置，其特征在于，所述管理对象是物理对象或逻辑对象。