KR100429894B1

KR100429894B1 - 멀티 에이전트간 통신에 의한 네트워크 장애 관리 장치 및방법

Info

Publication number: KR100429894B1
Application number: KR10-2001-0067139A
Authority: KR
Inventors: 황태인; 박광로
Original assignee: 한국전자통신연구원
Priority date: 2001-10-30
Filing date: 2001-10-30
Publication date: 2004-05-03
Also published as: KR20030035181A

Abstract

본 발명은 멀티 에이전트간 통신에 의해 네트워크의 장애를 관리하는 장치 및 방법에 관한 것으로, 네트워크 장애 관리 장치는, 네트워크의 운영을 관리하는 관리자 시스템; 상기 네트워크의 장애를 자체적으로 진단 및 복구하는 복수 개의 에이전트들; 및 상기 관리자 시스템과 상기 에이전트들 사이에서 상기 장애를 관리하는 기능을 중재하는 중재자 시스템을 포함한다.

Description

멀티 에이전트간 통신에 의한 네트워크 장애 관리 장치 및 방법{Apparatus and method for managing network faults by multi-agent communication}

본 발명은 네트워크 관리 장치 및 방법에 관한 것으로, 특히 다양한 영역의 장애 관리 도메인을 담당하는 에이전트들간의 협조에 의해 네트워크의 장애를 관리하는 장치 및 방법에 관한 것이다.

기존의 망관리 기법은 크게 관리자 시스템과 에이전트로 구성된다. 관리자 시스템은 피관리 시스템의 정보를 폴링하여 데이터를 누적하고, 그 누적된 데이터를 가공하여 분석함으로써 네트워크의 성능과 장애를 판단하게 된다. 관리자 시스템과 에이전트 사이에서는 SNMP(Simple Network Management Protocol), CMIP(Common Management Information Protocol)과 같은 프로토콜을 이용하여 통신이 이루어진다. SNMP는 네트워크 관리 및 네트워크 장치와 그들의 동작을 감시, 통제하는 프로토콜로서, GET 메시지에 의해 에이전트가 관리하는 관리 객체의 정보를 얻어올 수 있으며, SET 메시지에 의해 피관리 시스템의 정보를 설정할 수 있다. 그리고, Trap 메시지를 통하여 관리자 시스템의 폴링에 의하지 않고 에이전트 스스로가 장애 발생 상태를 관리자에게 알려줄 수 있다.

에이전트가 관리하는 정보는 MIB(Management Information Base)로 정의 되는데, 이는 트리 구조형태를 이루고 있다. MIB는 SNMP를 이용하여 관리될 수 있는 일련의 네트워크 객체들에 대한 형식적인 설명으로서, MIB의 형식은 SNMP의 일부로서 정의되어 있다. MIB들 중 MIB-I는 초기 MIB의 정의를 의미하며, MIB-II는 현재 정의를 의미한다. 각 장비들은 자신에게 필요한 운용관리 MIB를 정의하여, 필요한 관리 정보를 관리한다.

망관리를 위한 기능은 크게 장애관리, 구성관리, 계정관리, 성능관리, 보안관리로 나누어진다. 이 중에서 계정관리, 구성관리, 성능관리는 기존의 망관리 기법으로 관리가 용이하다. 그러나, 장애관리는 기존의 방법으로 진단은 가능하나 실제로 복구하는데 있어서는 상당히 복잡할 뿐만 아니라, 기존의 방법으로는 해결하기 힘든 문제가 있다. 예를 들어, 기존의 망관리에서는 폴링 또는 Trap메시지의 수신에 의해서 관리자 시스템으로부터 수집한 트래픽 정보나 어플리케이션의 장애 유무를 알 수는 있지만 이를 직접 해결할 수는 없다. 따라서, 이 같은 문제를 실제로 해결하기 위해서는 관리자가 직접 장애가 발생한 피관리 시스템으로 이동하여 시스템 및 네트워크 상태를 복구하거나, 또는 문제가 발생하기 전에 장애 발생 가능성을 예측하여 장애가 발생하지 않도록 미리 대처하는 시스템을 설계해야만 한다.

이를 위해 최근에는 트래픽의 추이를 예측하여 네트워크의 장애를 사전에 예방하는 방법들이 개발되어오고 있다. 그러나, 네트워크의 장애 발생 가능성을 예측할 수 있기 위해서는 사전에 많은 경험치 정보들이 필요하다. 그리고, 예측을 위한 정보는 주로 트래픽의 추이에 국한되기 때문에, 장비 자체의 장애, 어플리케이션 장애, 네트워크 구성 장애로 인해 발생되는 문제는 찾지 못하는 한계가 있고, 예측이 된다 하더라도 복구 자체는 불가능한 단점이 있다.

본 발명이 이루고자 하는 기술적 과제는, 에이전트들간에 장애 원인과 복구 방법 및 각 에이전트가 관리하는 정보들을 중재자 시스템을 통해 공유하는 MACP(Multi-Agent Communication Protocol)을 제공함으로써, 각 에이전트가 스스로 장애를 감지 및 복구할 수 있는 멀티 에이전트간 통신에 의한 네트워크 장애 관리 장치 및 방법을 제공하는데 있다.

도 1은 본 발명의 바람직한 실시예에 따른 댁내망 장애 관리 시스템의 블록도이다.

도 2는 댁내망 관리자가 중재자 시스템을 통하여 장애 진단 요구를 하였을 경우, 도 1에 도시된 중재자 시스템과 에이전트간에 수행되는 통신 절차를 보여주는 도면이다.

도 3은 본 발명의 바람직한 실시예에 의한 MACP 프로토콜의 메시지 유형을 보여주는 도면이다.

도 4는 본 발명의 바람직한 실시예에 의한 MACP를 이용한 중재자 시스템의 댁내망 장애 관리 방법을 설명하는 흐름도이다.

도 5는 도 4에 도시된 방법에 의해 댁내망 장애 관리 시스템에서 수행되는 동작을 설명하는 도면이다.

도 6은 도 4에 도시된 204 또는 206 단계에서 수행되는 에이전트의 장애 진단 및 복구를 위한 추론 상태를 보여주는 상태 천이도이다.

< 도면의 주요 부분에 대한 부호의 설명 >

10 : 관리자 시스템 11, 21 : 클라이언트

13, 23 : 서버 15, 25, 35, 45 : 수집 모듈

16, 26 : 분석 모듈 17, 27 : 데이터베이스

19, 29, 39, 49 : 메시지 처리모듈 20 : 중재자 시스템

22 : 웹 브라우저 24 : 웹 서버

30, 40 : 에이전트 37, 47 : 규칙 저장부

38, 48 : 추론 엔진 100 : 댁내망 장애 관리 시스템

상기의 과제를 이루기 위하여 본 발명에 의한 멀티 에이전트간 통신에 의한 네트워크 장애 관리 장치는, 네트워크의 운영을 관리하는 관리자 시스템; 상기 네트워크의 장애를 자체적으로 진단 및 복구하는 복수 개의 에이전트들; 및 상기 관리자 시스템과 상기 에이전트들 사이에서 상기 장애를 관리하는 기능을 중재하는 중재자 시스템을 포함하는 것을 특징으로 한다.

상기의 과제를 이루기 위하여 본 발명에 의한 멀티 에이전트간 통신에 의한 댁내망 장애 관리 장치는, 댁내망 시스템의 운영을 관리하는 관리자 시스템; 상기 댁내망의 네트워크 장애를 자체적으로 진단 및 복구하는 복수 개의 에이전트들; 및 상기 관리자 시스템과 상기 에이전트들 사이에서 상기 장애를 관리하는 기능을 중재하는 중재자 시스템을 포함하는 것을 특징으로 한다.

상기의 과제를 이루기 위하여 본 발명에 의한 멀티 에이전트간 통신에 의한 네트워크 장애 관리를 위한 통신 프로토콜은, 상기 에이전트의 고유의 식별자를 나타내는 Agent ID 필드; 목적지 시스템을 가리키는 Dest System 필드; 상기 목적지 시스템으로부터 에이전트가 탑재된 장비의 구성 정보를 얻기 위한 GET 메시지 및 상기 정보를 상기 목적지 시스템에 제공하기 위한 SET 메시지를 포함하는 Message 필드; 상기 Message 필드를 구성하는 복수 개의 메시지 서브 타입들; 및 상기 정보를 전송하기 위한 데이터 필드를 포함하는 것을 특징으로 한다.

상기의 과제를 이루기 위하여 본 발명에 의한 멀티 에이전트간 통신에 의한 네트워크 장애 관리 방법은, (a) 제 1 에이전트를 인식하는 단계; (b) 상기 제 1 에이전트가 탑재된 장비의 구성 정보를 획득하는 단계; (c) 상기 정보에 응답해서 상기 제 1 에이전트의 장애를 진단 및 복구하는 추론을 수행하는 단계; (d) 상기 제 1 에이전트가 제 2 에이전트의 장애 진단 및 복구를 요청하는 단계; (e) 상기 요청에 응답해서 상기 제 2 에이전트의 장애를 진단 및 복구하는 추론을 수행하는 단계; 및 (f) 상기 제 2 에이전트의 장애 진단 및 복구 결과를 관리자 시스템 및 상기 제 1 에이전트로 전송하는 단계를 포함하는 것을 특징으로 한다.

이하에서, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다. 본 명세서에서는 다양한 종류의 네트워크 장애 관리 시스템 중 댁내망(Home Network) 관리 시스템을 예로 들어 설명하기로 한다.

도 1은 본 발명의 바람직한 실시예에 따른 댁내망 장애 관리 시스템(100)의블록도이다. 도 1을 참조하면, 본 발명에 의한 댁내망 장애 관리 시스템(100)은, 관리자 시스템(10), 중재자 시스템(20), 복수 개의 에이전트(30, 40)로 구성된다. 관리자 시스템(10)은 댁내망 시스템의 운영을 관리하고, 에이전트(30, 40)는 상기 댁내망의 네트워크 장애를 자체적으로 진단 및 복구하는 기능을 수행한다. 중재자 시스템(20)은 관리자 시스템(10)과 에이전트들(30, 40) 사이에서 댁내망에서 발생된 네트워크 장애를 관리하는 기능을 중재한다. 이들 각 블록들에 대한 상세 구성은 다음과 같다.

관리자 시스템(10)과 중재자 시스템(20)은 각각 클라이언트(11, 21)와 서버(13, 23)로 구성된다. 서버(13, 23)는 수집 모듈(15, 25), 분석 모듈(16, 26), 데이터베이스(17, 27), 및 메시지 처리 모듈(19, 29)로 각각 구성되며, 중재자 시스템(20)은 중재 모듈(28)을 더 포함한다.

관리자 시스템(10)의 클라이언트(11)는 관리자의 네트워크 관리를 위한 사용자 인터페이스를 제공하는 기능을 수행하며, 클라이언트(11)로부터 모든 관리자의 관리 행위가 이루어진다. 서버(13)에 구비된 수집 모듈(15)은 중재자 시스템(20)으로부터 주기적으로 정보를 수집하여 이를 분석 모듈(16)로 전달한다. 이 정보는 통계 정보로 변경되어 데이터베이스(17)에 저장된다. 분석 모듈(16)은 수집 모듈(15)이 중재자 시스템으로부터 수집한 정보를 분석 가공하는 기능을 수행한다. 메시지 처리 모듈(19)은 중재자 시스템(20)으로부터 받게 되는 메시지 및 중재자 시스템(20)으로 전달되는 관리자의 관리 요구 메시지를 처리한다.

중재자 시스템(20)의 클라이언트(21)는 댁내망 사용자에게 댁내망 모니터링을 위한 인터페이스를 제공해 주는 기능을 수행한다. 서버(23)에 구비된 수집 모듈(25)은 댁내망에 위치한 관리 에이전트(30 또는 40)로부터 정보를 수집하고, 분석 모듈(26)은 수집된 정보를 분석 가공한다. 메시지 처리 모듈(29)은 각 에이전트(30 또는 40)로부터 도착하는 메시지를 분류하여 중재가 필요한 메시지를 중재 모듈(28)로 전달한다. 중재 모듈(28)은 받은 메시지를 분석하여 장애 진단 요청을 해당 에이전트(30 또는 40)로 하게 되며 이 결과를 실제로 장애 진단을 요청할 에이전트(30 또는 40)에게 돌려준다.

에이전트(30, 40)는 상기 댁내망의 네트워크 장애를 자체적으로 진단 및 복구하는 지능형 장애 관리 시스템으로 구성된다. 이 에이전트(30, 40)는 각각 수집 모듈(35, 45), 규칙 저장부(37, 47), 추론 엔진(38, 48), 및 메시지 처리 모듈(39, 49)로 구성된다. 수집 모듈(35, 45)은 에이전트(30, 40)의 현재 상태 정보를 수집한다. 규칙 저장부(37, 47)는 에이전트(30, 40)에 발생된 장애의 진단 및 복구 규칙을 저장하며, 추론 엔진(38, 48)은 수집된 상기 상태 정보에 응답해서 에이전트(30, 40)의 장애를 진단하고, 진단된 장애를 복구하는 추론을 수행한다. 그리고, 메시지 처리 모듈(39, 49)은 에이전트(30, 40)에서 수행된 장애 진단 및 복구에 관한 정보를 중재자 시스템(20)으로 전송한다.

도 2는 댁내망 관리자가 중재자 시스템(20)을 통하여 장애 진단 요구를 하였을 경우, 도 1에 도시된 중재자 시스템(20)과 에이전트(30)간에 수행되는 통신 절차를 보여주는 도면이다.

도 2를 참조하면, 중재자 시스템(20)의 클라이언트(21)에 위치한 관리자의웹 브라우저(22)와 중재자 시스템(20)의 서버(23) 모듈 사이에 HTTP(HyperText Transfer Protocol) 연결이 되면(화살표 ① 참조), 웹 브라우저(22)는 서버(23) 모듈에 있는 웹 서버(24)로부터 애플릿(Applet ; APL)을 다운로딩 한다(화살표 ② 참조).

애플릿(APL)이 다운로딩 되면 클라이언트(21)는 서버(23)에 TCP(Transmission Control Protocol ; 전송 제어 프로토콜)연결을 요청하고(화살표 ③ 참조), 사용자의 요구 메시지(REQ)를 서버(23)로 전송한다(화살표 ④ 참조).

사용자의 요구에 따라 중재자 시스템 서버(23)는 지능형 장애 관리 에이전트(30)와 TCP연결을 맺고(화살표 ⑤ 참조), 장애 진단 요구 메시지(REQ)를 전송한다(화살표 ⑥ 참조). 에이전트(30)는 요구 메시지(REQ)에 대해 결과 메시지를 보낸다. 에이전트(30)는 장애 진단 결과 데이터(DATA)를 전송할 수도 있는데(화살표 ⑦ 참조) 서버는 이러한 데이터에 대해서는 확인 응답(ACK)을 전송한다(화살표 ⑧ 참조).

서버(23)는 이렇게 처리된 사용자의 요구 처리 결과와 장애 진단 결과(DATA)를 클라이언트(21)에 전송한다(화살표 ⑨ 참조). 클라이언트(21)는 서버(23)로부터 데이터(DATA)를 수신하면 확인 응답(ACK)을 전송한다(화살표 ⑩ 참조). 그리고, 클라이언트(21)는 모든 데이터를 다 수신하고 결과를 출력하고 나면, 요구 중지 메시지(REQ_STOP)를 서버(23)로 전송한다(화살표 ⑪ 참조).

이와 같은 중재자 시스템(20)과 에이전트(30)간에 수행되는 일련의 통신은 도 2에서 설명한 바와 같이 중재자 시스템(20)과 하나의 에이전트(30)간에 수행될수도 있고, 각기 다른 지능형 장애 관리 기능을 수행하는 복수 개의 에이전트 사이에서 수행될 수도 있다. 그러므로, 중재자 시스템(20)의 중재에 의한 다른 에이전트의 장애 진단 및 추론을 통해, 해당 에이전트 자신의 장애 관리 영역을 벗어난 다른 장애에 대해서도 해결이 가능해질 수 있다.

도 3에서는 중재시스템(20)과 지능형 장애 관리 에이전트(30)간에 통신을 위한 프로토콜을 MACP(Multi-Agent Communication Protocol)로 명명하고, 다음과 같이 메시지 유형을 정의한다.

도 3을 참조하면, Agent ID 필드(51)는 에이전트(30)가 중재자 시스템(20)으로부터 할당받은 에이전트 고유의 식별자를 가지는 필드이다. Agent ID 필드(51)는, 에이전트(30)가 탑재된 장비의 IP 주소(Internet Protocol Address)가 수정되었을 경우, 이전의 장비의 장애 히스토리를 유지하는 데 사용되며, 중재자 시스템(20)은 Agent ID(51)와 IP 주소를 맵핑한다.

Dest System 필드(52)는 목적지 시스템을 가리키는 필드이다. Message 필드(53)는 크게 GET 메시지와 SET 메시지로 나누어진다. GET 메시지(531)는 목적지 시스템으로부터 정보를 얻기 위한 메시지이고, SET 메시지(532)는 상기 정보를 목적지 시스템에 제공하기 위한 메시지이다.

각 메시지는 또한 서브 타입의 메시지(54) 형식으로 구성된다. 이 중 HELLO 메시지 서브 타입(541)은, 에이전트(30, 40) 설치 후 첫 가동시 자신의 고유한 Agent ID를 중재자 시스템(20)으로 요청하는 메시지이다. MODIFIED 메시지 서브 타입(542)은 에이전트(30, 40)가 탑재된 시스템의 IP 주소가 변경되었을 경우 이를중재자 시스템(20)에 알려주는 메시지이다. DIAGNO 메시지 서브 타입(543)은 에이전트(30, 40)가 감지한 장애를 진단하고 복구한 결과를 전달하는 메시지이다. KEEPALIVE 메시지 서브 타입(544)은 에이전트(30, 40)의 ALIVE상태를 주기적으로 중재자 시스템(20)에게 알려주는 메시지이다. CONF 메시지 서브 타입(545)은 각 에이전트(30, 40)가 가지고 있는 구성 정보를 전달하는 메시지이다. 그리고, DATA는 상기 정보를 전송하기 위한 필드이다.

도 4는 본 발명의 바람직한 실시예에 의한 MACP를 이용한 중재자 시스템(20)의 댁내망 장애 관리 방법을 설명하는 흐름도이고, 도 5는 도 4에 도시된 방법에 의해 댁내망 장애 관리 시스템(100)에서 수행되는 동작을 설명하는 도면이다.

도 4 및 도 5를 참조하면, 먼저 댁내망에 설치된 제 1 에이전트(30)는 중재자 시스템(20)에게 "SET HELLO Agent ID" 메시지를 보내서 자신의 존재를 인식시킨다(201 단계)(도 5의 화살표 ① 참조). 중재자 시스템(20)은 상기 메시지를 받은 후 제 1 에이전트(30)로 "GET CONF" 메시지를 전송하여 제 1 에이전트(30)가 탑재된 장비의 구성정보를 요구한다(202 단계)(도 5의 화살표 ② 참조). 제 1 에이전트(30)는 이에 대한 응답으로 "SET CONF" 메시지를 중재자 시스템(20)으로 전송한다(도 5의 화살표 ③ 참조). 그 결과, 중재자 시스템(20)은 에이전트(30, 40)가 탑재된 장비의 구성 정보를 획득하게 되고(203 단계), 상기 정보를 바탕으로 하여 제 1 에이전트의 장애 진단 및 복구를 위한 추론이 수행된다(204 단계). 제 1 에이전트(204)에서 수행되는 추론의 상태는 다음과 같다.

도 6은 도 4에 도시된 204 또는 206 단계에서 수행되는 에이전트의 장애 진단 및 복구를 위한 추론 상태를 보여주는 상태 천이도이다. 도 6을 참조하면, S1 상태(초기 상태)에서 초기화가 완료되면, S2 상태(대기상태)로 천이되어 타이머가 종료될 때까지 기다리게 된다. 이 때, 타이머가 종료되거나 외부 중재자 시스템(20)으로부터 사용자 입력 메시지를 수신하게 되면, S2 상태는 S3 상태(추론 상태)로 천이하게 되고, S3 상태는 추론의 질의를 수행하기 위해 S4 상태(질의함수 실행 상태)로 천이하게 된다. 이 경우, 장애 진단 및 복구가 정상적으로 수행되었다면 S3 상태로 다시 천이하여 다른 진단 규칙을 모두 수행하게 되고, 상기 규칙의 수행 후 장애가 모두 복구가 되면 추론 완료 상태가 되어 S2 상태로 천이하게 된다. 그리고, S4 상태에서 장애 진단 및 복구가 정상적으로 수행되지 못했을 경우, S4 상태는 S5 상태(중재 요청 상태)로 천이하게 된다. S5 상태에서는 중재 요청 메시지를 생성하여 중재자 시스템으로 송신하고 결과 메시지 수신을 위해 대기하게 된다. S6 상태(결과 출력 상태)는 S3 상태에서 밝혀진 결과들을 출력한다.

다시 도 4 및 도 5를 참조하면, 상기와 같은 제 1 에이전트(30)의 추론에 의해 장애 진단 및 복구가 수행되고 나면(204 단계), 제 1 에이전트(30)는 "GET DIAGNO AgentType" 메시지를 생성하여 중재자 시스템(20)으로 제 2 에이전트(40)에 대한 장애 진단 및 복구 요청을 수행한다(205 단계)(도 5의 화살표 ④ 참조). 중재자 시스템(20)의 메시지 처리 모듈(29)은 이 메시지를 해석하여 중재 모듈(28)로 전달하고, 중재 모듈(28)은 AgentType에 해당하는 제 2 에이전트(40)로 "GET DIAGNO" 메시지를 생성하여 해당 에이전트(40)로 상기 메시지를 송신한다(도 5의 화살표 ⑤ 참조), 상기 요청에 의해 제 2 에이전트(40)는 장애 진단 및 복구를 위한 추론을 수행하게 된다(206 단계). 이 때 수행되는 추론 방법은 도 5와 동일하다. 제 2 에이전트(40)는 "SET DIAGNO" 메시지를 생성하여 제 2 에이전트(40)에서 수행된 장애 진단 및 복구 결과를 중재자 시스템(20)으로 전송한다(207 단계)(도 5의 화살표 ⑥ 참조). 이어서, 중재자 시스템(20)은 "GET DIAGNO" 메시지를 생성하여 제 2 에이전트(40)에서 수행된 장애 진단 및 복구 결과를 관리자 시스템(10)과 제 1 에이전트(30)로 전송한다(208 단계)(도 5의 화살표 ⑦ 및 ⑧ 참조).

앞에서 설명한 바와 같이, 본 발명에 의한 댁내망 장애 관리 장치 및 방법은, 중재자 시스템을 통한 관리자 시스템과 에이전트간의 단순한 관리 정보 전달의 형태가 아니라, 중재자 시스템을 통해 진단 및 복구 규칙을 가진 에이전트들간의 진단 및 복구 요청을 다른 에이전트에게 할 수 있으며, 이를 통하여 지능형 장애 관리 에이전트들은 자신의 장애 관리 영역을 벗어난 장애에 대해서도 다른 에이전트의 장애 진단 및 추론을 통해 해결할 수 있게 된다.

이상에서, 본 발명의 실시예로서 에이전트들간의 통신에 의해 댁내망에서 발생된 네트워크의 장애를 관리하는 장치 및 방법에 대해 구체적으로 예시되었으나, 그밖에도 일반적인 네트워크의 장애 관리에도 본 발명을 적용할 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로 저장되고 실행될 수 있다.

이상에 설명한 바와 같이, 본 발명에 의한 댁내망 장애 관리 장치 및 방법에 의하면, 중재자 시스템을 통해서 관리자 시스템과 에이전트간의 관리 정보 전달은 물론, 에이전트들간의 진단 및 복구 요청을 수행할 수 있다. 따라서, 다른 에이전트의 장애 진단 및 추론을 통해 에이전트 자신의 장애 관리 영역을 벗어난 장애도 해결할 수 있다. 특히, 이 같은 기술은 댁내망의 뿐만 아니라 일반적인 네트워크의 장애 관리에도 적용 가능하다. 그러므로, 대규모 네트워크를 관리하는 관리자가 복잡 다양한 장애를 손쉽게 해결할 수 있고, 장애의 해결에 드는 시간과 비용을 줄일 수 있다.

Claims

네트워크의 운영을 관리하는 관리자 시스템;

상기 네트워크의 장애를 자체적으로 진단 및 복구하는 복수 개의 에이전트들; 및

상기 관리자 시스템과 상기 에이전트들 사이에서 상기 장애를 관리하는 기능을 중재하는 중재자 시스템을 포함하는 것을 특징으로 하는 멀티 에이전트간 통신에 의한 네트워크 장애 관리 장치.
제 1 항에 있어서, 상기 관리자 시스템은

네트워크 관리를 위한 사용자 인터페이스를 제공하는 클라이언트; 및

상기 중재자 시스템으로부터 전송된 메시지 및 상기 중재자 시스템으로 전달되는 관리자의 관리 요구 메시지를 처리하는 메시지 처리 모듈,

상기 메시지 처리 모듈로부터 상기 메시지를 주기적으로 수집하는 수집 모듈,

상기 수집 모듈이 수집한 정보를 분석 가공하는 분석 모듈, 및

상기 수집 모듈이 수집한 상기 정보를 통계 정보로 변경하여 저장하는 데이터베이스를 구비한 서버를 포함하는 것을 특징으로 하는 멀티 에이전트간 통신에 의한 네트워크 장애 관리 장치.
제 1 항에 있어서, 상기 중재자 시스템은

네트워크 사용자에게 네트워크 모니터링을 위한 인터페이스를 제공하는 클라이언트; 및

상기 에이전트로부터 도착하는 메시지를 분류하는 메시지 처리 모듈,

상기 메시지 처리 모듈로부터 중재가 필요한 메시지를 받아들이고, 상기 메시지를 분석하여 해당 에이전트로 장애 진단 요청을 하는 중재모듈,

상기 에이전트로부터 상기 메시지를 수집하는 수집 모듈,

상기 수집 모듈이 수집한 정보를 분석 가공하는 분석 모듈, 및

상기 수집 모듈이 수집한 상기 정보를 통계 정보로 변경하여 저장하는 데이터베이스를 구비한 서버를 포함하는 것을 특징으로 하는 멀티 에이전트간 통신에 의한 네트워크 장애 관리 장치.
제 1 항에 있어서, 상기 에이전트는

상기 에이전트의 현재 상태 정보를 수집하는 수집 모듈;

상기 에이전트에 발생된 장애의 진단 및 복구 규칙을 저장하는 규칙 저장부;

수집된 상기 상태 정보에 응답해서 상기 에이전트의 장애를 진단하고, 진단된 상기 장애를 복구하는 추론을 수행하는 추론 엔진; 및

상기 에이전트에서 수행된 장애 진단 및 복구에 관한 정보를 상기 중재자 시스템으로 전송하는 메시지 처리 모듈을 포함하는 것을 특징으로 하는 멀티 에이전트간 통신에 의한 네트워크 장애 관리 장치.
네트워크에서 장애 진단 관리를 수행하는 복수개의 에이전트들의 중재를 수행하는 중재자 시스템과 상기 에이전트 사이의 통신 프로토콜에 있어서:

상기 에이전트의 고유의 식별자를 나타내는 Agent ID 필드;

목적지 시스템을 가리키는 Dest System 필드;

상기 목적지 시스템으로부터 에이전트가 탑재된 장비의 구성 정보를 얻기 위한 GET 메시지 및 상기 정보를 상기 목적지 시스템에 제공하기 위한 SET 메시지를 포함하는 Message 필드;

상기 Message 필드를 구성하는 복수 개의 메시지 서브 타입들; 및

상기 정보를 전송하기 위한 데이터 필드를 포함하는 것을 특징으로 하는 멀티 에이전트간 통신에 의한 네트워크 장애 관리를 위한 통신 프로토콜.
제 5 항에 있어서,

상기 Agent ID 필드는, 상기 에이전트가 탑재된 장비의 IP 주소가 수정되었을 경우, 이전의 장비의 장애 히스토리를 유지하는 데 사용되며,

상기 중재자 시스템은 상기 Agent ID와 상기 IP 주소를 맵핑하는 것을 특징으로 하는 멀티 에이전트간 통신에 의한 네트워크 장애 관리를 위한 통신 프로토콜.
제 5 항에 있어서, 상기 메시지 서브 타입은

상기 에이전트 설치 후 첫 가동시 자신의 고유한 Agent ID를 상기 중재자 시스템으로 요청하는 HELLO 메시지 서브 타입;

상기 에이전트가 탑재된 시스템의 IP 주소가 변경되었을 경우 이를 상기 중재자 시스템에 알려주는 MODIFIED 메시지 서브 타입;

상기 에이전트가 감지한 장애 진단 및 복구 결과를 전달하는 DIAGNO 메시지 서브 타입;

상기 에이전트의 ALIVE상태를 상기 중재자 시스템에게 주기적으로 알려주는 KEEPALIVE 메시지 서브 타입; 및

상기 각각의 에이전트가 가지고 있는 구성 정보를 전달하는 CONF 메시지 서브 타입을 포함하는 것을 특징으로 하는 멀티 에이전트간 통신에 의한 네트워크 장애 관리를 위한 통신 프로토콜.
(a) 제 1 에이전트를 인식하는 단계;

(b) 상기 제 1 에이전트가 탑재된 장비의 구성 정보를 획득하는 단계;

(c) 상기 정보에 응답해서 상기 제 1 에이전트의 장애를 진단 및 복구하는 추론을 수행하는 단계;

(d) 상기 제 1 에이전트가 제 2 에이전트의 장애 진단 및 복구를 요청하는 단계;

(e) 상기 요청에 응답해서 상기 제 2 에이전트의 장애를 진단 및 복구하는 추론을 수행하는 단계; 및

(f) 상기 제 2 에이전트의 장애 진단 및 복구 결과를 관리자 시스템 및 상기 제 1 에이전트로 전송하는 단계를 포함하는 것을 특징으로 하는 멀티 에이전트간 통신에 의한 네트워크 장애 관리 방법.
제 8 항에 있어서, 상기 (C) 또는 (e) 단계는,

(c-1) 상기 에이전트가 초기화되는 단계;

(c-2) 타이머가 종료될 때까지 대기하는 단계;

(c-3) 상기 에이전트의 장애를 진단하고, 진단된 상기 장애를 복구하는 단계;

(c-4) 상기 장애의 진단 및 복구의 실행 상태를 체크하는 단계;

(c-5) 상기 (c-4) 단계에서의 체크 결과, 상기 장애의 진단 및 복구가 정상적으로 진행된 경우, 다른 진단 규칙을 적용하여 상기 (c-3) 단계를 더 실행하는 단계;

(c-6) 상기 (c-3) 단계에서 수행된 장애 진단 및 복구 결과를 출력하는 단계; 및

(c-7) 상기 (c-4) 단계에서의 체크 결과, 상기 장애의 진단 및 복구가 정상적으로 진행되지 못한 경우, 중재 요청 메시지를 상기 중재자 시스템으로 전송하고, 결과 메시지 수신을 기다리는 단계를 포함하는 것을 특징으로 하는 멀티 에이전트간 통신에 의한 네트워크 장애 관리 방법.
제 8 항 내지 제 9 항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.