WO2015076493A1

WO2015076493A1 - 사전 장애 탐지 시스템 및 방법

Info

Publication number: WO2015076493A1
Application number: PCT/KR2014/009320
Authority: WO
Inventors: 홍병진; 장윤철
Original assignee: (주)데이타뱅크시스템즈
Priority date: 2013-11-20
Filing date: 2014-10-02
Publication date: 2015-05-28
Also published as: KR101433045B1

Abstract

본 발명의 일 실시예에 따른 사전 장애 탐지 시스템은 OS, RDBMS, NETWORK, WAS 중 적어도 하나를 포함하고 운영 및 성능 정보를 수집하는 정보 시스템; 상기 정보 시스템으로부터 상기 운영 및 성능 정보를 전송받고 상기 운영 및 성능 정보와 데이터베이스에 저장된 기설정된 허용값을 비교 및 분석하여 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하고 상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 상기 정보 시스템으로 전송하고 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 클라이언트에 전송하는 통합 관리 서버; 및 상기 통합 관리 서버로부터 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 수신하여 클라이언트의 관리자가 인지할 수 있도록 출력하는 클라이언트;를 포함할 수 있다.

Description

사전 장애 탐지 시스템 및 방법

본 발명은 사전에 장애를 탐지하기 위한 사전 장애 탐지 시스템 및 방법에 관한 것으로, 더 구체적으로는 시스템의 장애를 사전에 탐지하여 자동화된 해결을 수행하도록 하는 사전 장애 탐지 시스템 및 방법에 관한 것이다.

정보 기술(Information Technology, IT) 장애 탐지의 경우 네트워크(Network), 시스템(System), 응용프로그램(Application), 데이터베이스(Database, DB) 등의 장애를 탐지하는 것을 의미한다.

현재 정보 기술 장애 탐지를 위한 시스템은 상용 모니터링 툴을 이용하여 수집된 성능 정보를 분석하거나 단순 모니터링만 하고, 운영 장애 및 성능 장애가 발생한 후에 모니터링 툴로부터 수집한 모든 데이터를 분석하여 장애 원인을 파악하는 사후 기능이 강하며, 사후에 시스템의 장애 원인을 파악하여 수작업으로 장애를 복구하기 때문에 시스템 운영에 있어 경제적이지 못한 문제점이 있다.

본 발명이 해결하고자 하는 과제는 정보 시스템으로 부터 운영장애요소 및 성능정보를 실시간으로 전송받아 시스템간의 연관된 정보들을 종합적으로 분석 및 판단하여 장애발생 예측상황을 탐지하여 미리 데이터베이스화된 조치방법을 통해 자동화된 해결을 수행하여 정보기술 시스템을 이용한 서비스를 훨씬 더 안정적으로 운영할 수 있도록 하는 자동화 및 반 자동화된 사전 장애탐지 및 그 해결 방법을 실시간으로 제공하려는 것이다.

또한 상기 통합 관리 서버는, 상기 정보 시스템으로부터 상기 운영 및 성능 정보를 전송받고 상기 운영 및 성능 정보와 데이터베이스에 저장된 기설정된 허용값을 비교 및 분석하여 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하는 자가 진단 로봇; 및 상기 자가 진단 로봇으로부터 상기 장애 예측 상황 정보를 수신하여 상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 생성하여 상기 정보 시스템으로 전송하고 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 경보 시스템에 전송하는 자가 치료 로봇;을 더 포함할 수 있다.

또한 상기 정보 시스템은 상기 자가 치료 로봇으로부터 상기 자동화 해결 방법 정보를 수신하여 상기 자동화 해결 방법 정보에 따라 예측된 장애 상황을 자동화 처리를 수행하고, 그 처리 결과를 상기 자가 치료 로봇에 전송할 수 있다.

또한 상기 사전 장애 탐지 시스템은 상기 자가 치료 로봇으로부터 상기 처리 결과, 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 수신하여 이를 상기 클라이언트에 통지하는 경보 시스템;을 더 포함할 수 있다.

또한 상기 자동화 해결 방법 정보는, 상기 정보 시스템이 OS를 포함하는 경우 상기 운영 및 성능 정보가 운영 관련 parameter인 file descriptor 또는 process max count에 해당하여 상기 file descriptor 또는 process max count가 상기 기설정된 허용값을 벗어나면 상기 file descriptor 또는 process max count 값을 특정값으로 자동 변경하게 할 수 있다.

또한 상기 자동화 해결 방법 정보는, 상기 정보 시스템이 RDBMS를 포함하는 경우 상기 운영 및 성능 정보가 데이터베이스 관련 disk usage에 해당하여 상기 disk usage가 상기 기설정된 허용값을 벗어나면 오래된 log file을 분류하여 분류된 log file을 자동으로 삭제하게 할 수 있다.

또한 상기 자동화 해결 방법 정보는, 상기 정보 시스템이 NETWORK를 포함하는 경우 상기 운영 및 성능 정보가 OS에서 오픈중인 소켓 상태에 해당하여 대기중인 소켓 개수를 상기 기설정된 허용값과 비교하여 상기 대기중인 소켓 개수에 기초해 상기 기설정된 허용값을 변경설정할 수 있다.

또한 상기 자동화 해결 방법 정보는, 상기 정보 시스템이 WAS를 포함하는 경우 상기 운영 및 성능 정보가 heap memory에 해당하여 heap memory가 기설정된 허용값보다 부족하면 heap memory 부족으로 인해 WAS 로그에 출력되는 exception 정보를 추적하여 heap memory를 증가시키고 WAS 재기동을 수행할 수 있다.

본 발명의 일 실시예에 따른 사전 장애 탐지 방법은 통합 관리 서버가, OS, RDBMS, NETWORK, WAS 중 적어도 하나의 각 대상 에이전트를 통해 운영 및 성능 정보를 실시간 수집하는 단계; 상기 수집한 운영 및 성능 정보와 데이터 베이스에 저장된 기설정된 허용값을 비교 및 분석하는 단계; 상기 비교 및 분석을 통해 상기 운영 및 성능 정보가 상기 기설정된 허용값을 벗어나 장애발생 가능성이 있는 것으로 판단한 경우 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하는 단계; 상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 생성하여 상기 정보 시스템으로 전송하는 단계; 및 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 클라이언트에 전송하는 단계;를 포함할 수 있다.

또한 상기 정보 시스템으로 전송하는 단계 이후에, 상기 정보 시스템이 상기 자동화 해결 방법 정보에 따라 예측된 장애 상황을 자동화 처리를 수행한 처리 결과를 수신하는 단계;를 더 포함할 수 있다.

또한 상기 클라이언트에 전송하는 단계는, 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보뿐만 아니라 상기 처리 결과를 전송하는 단계;일 수 있다.

본 발명에 따른 사전 장애 탐지 시스템 및 방법에 의하면 정보 시스템의 운영 장애요소 및 성능정보를 실시간으로 전송 받아 분석, 진단 및 해결하여 정보 시스템에 대한 운영장애를 사전에 예측할 수 있으며, 이로 인해 정보기술 서비스를 안정적으로 제공할 수 있는 효과를 가진다.

본 발명에 따른 사전 장애 탐지 시스템 및 방법에 의하면 운영장애 및 성능장애가 발생한 후 감지를 하는 것이 아니라, 사전에 탐지를 수행하여 지속적으로 안정적인 서비스를 할 수 있는 환경을 제공하는 효과를 가진다.

본 발명에 따른 사전 장애 탐지 시스템 및 방법에 의하면 정보 시스템의 리소스에 대한 분석 및 진단을 수행하여 시스템 리소스에 대한 확장 또는 재분배를 수행하도록 지원할 수 있는 효과를 가진다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.

도 1은 본 발명의 일 실시예에 따른 사전 장애 탐지 시스템을 나타내는 도면이다.

도 2는 본 발명의 일 실시예에 따른 클라이언트 및 데이터베이스를 나타내는 블록도이다.

도 3은 본 발명의 일 실시예에 따른 사전 장애 탐지 방법을 나타내는 흐름도이다.

도 4는 본 발명의 일 실시예에 따른 정보 시스템별 자동화 처리를 나타내는 흐름도이다.

도 5는 본 발명의 일 실시예에 따른 사전 장애 탐지 시스템에서 수행되는 사전 장애 탐지 방법을 나타내는 도면이다.

<부호의 설명>

10: 사전 장애 탐지 시스템 100: 정보 시스템

110: OS 120: RDBMS

130: NETWORK 140: WAS

200: 통합 관리 서버 210: 자가 진단 로봇

220: 자가 치료 로봇 230: 경보 시스템

300: 클라이언트 310: 통합 관리 콘솔

320: Smart App 330: Mail Server

340: Mobile Phone 400: 데이터베이스

410: 성능 정보 DB 420: 장애 정보 DB

430: 자동 치료 DB

본 명세서 또는 출원에 개시되어 있는 본 발명의 실시 예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명에 따른 실시 예를 설명하기 위한 목적으로 예시된 것으로, 본 발명에 따른 실시 예들은 다양한 형태로 실시될 수 있으며 본 명세서 또는 출원에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.

본 발명에 따른 실시예는 다양한 변경을 가할 수 있고 여러가지 형태를 가질 수 있으므로 특정실시 예들을 도면에 예시하고 본 명세서 또는 출원에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예를 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1 및/또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기구성 요소들은 상기용어들에 의해 한정되어서는 안된다.

상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일 실시예에 따른 사전 장애 탐지 시스템을 나타내는 도면이다. 상기 사전 장애 탐지 시스템(10)은 정보 시스템(100), 통합 관리 서버(200), 클라이언트(300) 및 데이터베이스(DB, 400)를 포함한다.

상기 정보 시스템(100)은 OS(110), RDBMS(Relational Database Management System, 120), NETWORK(130) 및 WAS(Web Application Server, 140)를 관리하고, 상기 통합 관리 서버(200)는 자가 진단 로봇(210), 자가 치료 로봇(220) 및 경보 시스템(230)을 포함한다.

상기 정보 시스템(100)에 포함되는 OS(110), RDBMS(120), NETWORK(130) 및 WAS(140)의 각각의 에이전트(Agent)들은 상기 OS(110), RDBMS(120), NETWORK(130) 및 WAS(140)의 운영 및 성능 정보를 실시간으로 수집하며, 이를 통합 관리 서버(200)로 전송한다.

상기 정보 시스템(100)이 상기 운영 및 성능 정보를 상기 통합 관리 서버(200)로 전송하는 경우 소켓 통신인 UDP(User Datagram Protocol) 통신으로 전송할 수 있다.

상기 운영 및 성능 정보는 OS의 경우 cpu usage, memory usage, disk usage, top 5 process, open file descriptor 및 system log를 포함할 수 있고, RDBMS의 경우 예컨대, oracle RDBMS 기준으로 db info, s/w 및 database 관련 disk usage, tablespace usage, datafile status, process/session count, transaction status, alert log를 포함할 수 있다.

또한 상기 운영 및 성능 정보는 NETWORK의 경우 network bandwidth/traffic, packet loss, packet delay variation, error monitoring 및 security 관련 parameter를 포함할 수 있고, WAS의 경우 active thread count, jdbc min/max, heap memory usage, was disk usage 및 was exception log를 포함할 수 있다.

상기 통합 관리 서버(200)는 상기 OS(110), RDBMS(120), NETWORK(130) 및 WAS(140)의 운영 및 성능 정보를 상기 정보 시스템(100)으로부터 수신하고 데이터베이스(400)에 저장된 기설정된 허용값과 상기 운영 및 성능 정보를 비교 및 분석한다.

구체적으로, 상기 자가 진단 로봇(210)이 상기 OS(110), RDBMS(120), NETWORK(130) 및 WAS(140)의 운영 및 성능 정보를 상기 정보 시스템(100)으로부터 수신하고 데이터베이스(400)에 저장된 기설정된 허용값과 상기 운영 및 성능 정보를 비교 및 분석하여 장애발생 가능성을 체크하고 체크결과 장애발생 가능성이 있는 경우 장애 예측 상황인 해당 내용을 상기 자가 치료 로봇(220)에 전송한다.

상기 자가 치료 로봇(220)은 상기 자가 진단 로봇(210)으로부터 수신한 상기 장애 예측 상황을 통해 해당 장애에 상응하는 자동화 해결 방법을 설정하거나 상기 데이터베이스(400)에 저장된 상기 자동화 해결 방법을 가져올 수 있으며, 상기 자동화 해결 방법 및 장애 예측 상황을 경보 시스템(230)에 전송하고 상기 자동화 해결 방법을 상기 정보 시스템(100)에 전송한다.

상기 자가 치료 로봇(220)이 상기 정보 시스템(100)에 상기 자동화 해결 방법을 전송할 수 있으며, 상기 정보 시스템(100)이 그것을 기초로 하여 처리를 수행한 후 처리 결과를 상기 자가 치료 로봇(200)에 전달하면 상기 자가 치료 로봇(200)은 상기 처리 결과를 상기 데이터베이스(400)에 저장하고 상기 처리 결과를 상기 경보 시스템(230)에 전송한다.

상기 경보 시스템(230)은 수신한 상기 자동화 해결 방법, 상기 장애 예측 상황 및 상기 처리 결과를 클라이언트(300)에 전달하여 상기 클라이언트(300)가 이를 출력 또는 알람하여 상기 클라이언트(300)의 관리자 또는 담당자가 인지할 수 있도록 한다.

도 2는 본 발명의 일 실시예에 따른 클라이언트 및 데이터베이스를 나타내는 블록도이다. 도 2의 (a)를 참고하면, 상기 클라이언트(300)는 통합 관리 콘솔(310), Smart App(320), Mail Server(330) 및 Mobile Phone(340)를 포함할 수 있다.

상기 통합 관리 콘솔(310)은 UX가 적용된 웹기반의 모니터링 콘솔로 TCP 기반에서 통합 관리 서버(200)와 실시간 통신할 수 있으며, 통신을 통해 수신한 상기 자동화 해결 방법, 상기 장애 예측 상황 및 상기 처리 결과를 관리자 또는 담당자가 인지할 수 있도록 디스플레이 또는 알람 출력하는 기능을 수행한다.

상기 Smart App(320)은 상기 클라이언트(300)가 스마트폰 또는 태블릿 PC 등인 경우 설치될 수 있으며, 통합 관리 서버(200)와 통신을 통해 수신한 상기 자동화 해결 방법, 상기 장애 예측 상황 및 상기 처리 결과를 관리자 또는 담당자가 인지할 수 있도록 디스플레이 또는 알람 출력하는 기능을 수행한다.

또한 통합 관리 서버(200)와 통신을 통해 상기 Mail Server(330) 및 Mobile Phone(340)에 상기 자동화 해결 방법, 상기 장애 예측 상황 및 상기 처리 결과가 통보되어 관리자 또는 담당자가 인지할 수 있다.

도 2의 (b)를 참고하면, 상기 데이터베이스(400)는 성능 정보 DB(410), 장애 정보 DB(420) 및 자동 치료 DB(430)를 포함할 수 있다.

상기 성능 정보 DB(410)는 상기 정보 시스템(100)의 상기 운영 및 성능 정보를 저장하는 기능을 수행한다.

상기 장애 정보 DB(420)는 상기 장애 예측 상황을 저장하는 기능을 수행한며, 상기 자동 치료 DB(430)는 상기 자동화 해결 방법 및/또는 상기 정보 시스템(100)의 상기 처리 결과를 저장하는 기능을 수행한다.

도 3은 본 발명의 일 실시예에 따른 사전 장애 탐지 방법을 나타내는 흐름도이다. 상기 사전 장애 탐지 방법은 도 1에 도시된 사전 장애 탐지 시스템(10)의 통합 관리 서버(200)에서 수행될 수 있다.

도 3을 참고하면, 상기 통합 관리 서버(200)는 정보 시스템(100)의 각 대상 에이전트를 통해 운영 및 성능 정보를 실시간 수집한다(S100). 예컨대, 상기 통합 관리 서버(200)는 OS(110)의 경우 file descriptor, mprocess max count,emory usage 등을 포함하는 운영 및 성능 정보를 실시간 수집할 수 있다.

다음으로 상기 통합 관리 서버(200)는 수집한 운영 및 성능 정보와 데이터 베이스(400)에 저장된 기설정된 허용값을 비교한다(S200). 예컨대, 상기 통합 관리 서버(200)는 OS(110)의 경우 수집한 file descriptor 또는 mprocess max count와 기설정된 허용값인 임계값과 비교할 수 있다.

다음으로 상기 통합 관리 서버(200)는 상기 비교를 통해 상기 운영 및 성능 정보가 상기 허용값을 벗어나 장애발생 가능성이 있는 것으로 판단한 경우 해당 정보를 데이터베이스(400)에 저장하고, 장애 예측 상황 및 자동화 해결 방법을 상기 정보 시스템(100)에 전송한다(S300). 예컨대, 상기 통합 관리 서버(200)는 OS(110)의 경우 수집한 file descriptor 또는 mprocess max count가 기설정된 허용값인 임계값을 벗어나는 경우에 해당 파라미터를 자동으로 변경하도록 자동화 해결 방법을 설정할 수 있을 것이다.

다음으로 상기 통합 관리 서버(200)는 상기 정보 시스템(100)의 최종 처리 결과를 수신하고 해당 내용을 데이터베이스(400)에 저장하며 장애 예측 상황, 자동화 해결 방법 및 최종 처리 결과를 클라이언트(300)에 전달한다(S400). 이때, 상기 클라이언트(300)는 상기 장애 예측 상황, 자동화 해결 방법 및 최종 처리 결과를 출력할 수 있다.

도 4는 본 발명의 일 실시예에 따른 정보 시스템별 자동화 처리를 나타내는 흐름도이다. 도 4 (a)는 정보 시스템(100)의 OS(110)의 운영 및 성능 장애를 자동화 처리하는 자동화 처리 방법의 일 예를 나타낸다.

도 4 (a)를 참고하면, 통합 관리 서버(200)의 자가 진단 로봇(210)이 운영 관련 파라미터인 file descriptor 또는 process max count가 임계값 이상인지(또는 허용값을 벗어나는지)를 판단한다(S13).

판단결과 임계값 이상인(또는 허용값을 벗어난) 것으로 판단한 경우 통합 관리 서버(200)는 상기 file descriptor 또는 process max count를 특정값으로 자동 변경 조치(S15)하는 자동화 처리 방법을 상기 정보 시스템(100)에 전송하여 상기 정보 시스템(100)이 이에 따라 자동화 처리를 수행할 수 있도록 한다.

도 4 (b)는 정보 시스템(100)의 RDBMS(120)의 운영 및 성능 장애를 자동화 처리하는 자동화 처리 방법의 일 예를 나타낸다.

도 4 (b)를 참고하면, 통합 관리 서버(200)의 자가 진단 로봇(210)이 archived log dest의 disk usage가 임계값 이상인지(또는 허용값을 벗어나는지)를 판단한다(S23).

판단결과 임계값 이상인(또는 허용값을 벗어난) 것으로 판단한 경우 통합 관리 서버(200)는 오래된 log file을 분류(S25)하여 오래된 log file을 자동으로 삭제 조치(S27)하는 자동화 처리 방법을 상기 정보 시스템(100)에 전송하여 상기 정보 시스템(100)이 이에 따라 자동화 처리를 수행할 수 있도록 한다.

도 4 (c)는 정보 시스템(100)의 NETWORK(130)의 운영 및 성능 장애를 자동화 처리하는 자동화 처리 방법의 일 예를 나타낸다.

도 4 (c)를 참고하면, 통합 관리 서버(200)의 자가 진단 로봇(210)이 OS(110)에서 오픈중인 소켓에 대한 상태를 모니터링(S33)하여, 대기중인 소켓 개수에 따라서 임계값(또는 허용값)을 새로이 다시 설정 조치(S35)하는 자동화 처리 방법을 상기 정보 시스템(100)에 전송하여 상기 정보 시스템(100)이 이에 따라 자동화 처리를 수행할 수 있도록 한다.

추가적으로, 보안 관련 환경 파라미터 값과 임계값(또는 허용값)을 비교하여 상기 보안 관련 환경 파라미터를 조정할 수 있으며, 조정을 통해 보안 대응 능력을 증가시킬 수 있다. 여기서 보안 관련 환경 파라미터는 ARP Timeout, IP forwarding, TCP connection queue size, network connection 등을 포함할 수 있다.

도 4 (d)는 정보 시스템(100)의 WAS(140)의 운영 및 성능 장애를 자동화 처리하는 자동화 처리 방법의 일 예를 나타낸다.

도 4 (d)를 참고하면, 통합 관리 서버(200)의 자가 진단 로봇(210)이 heap memory 부족을 판단한 경우 heap memory 부족으로 인해 WAS 로그에서 출력되는 exception 정보를 추적(S43)하여 heap memory를 증가시키고 WAS 재기동을 수행하여 장애 처리 조치(S45)하는 자동화 처리 방법을 상기 정보 시스템(100)에 전송하여 상기 정보 시스템(100)이 이에 따라 자동화 처리를 수행할 수 있도록 한다.

도 5를 참고하면, 상기 통합 관리 서버(200)는 정보 시스템(100)의 각 대상 에이전트를 통해 운영 및 성능 정보를 실시간 수집한다(S10).

다음으로 상기 통합 관리 서버(200)는 데이터베이스(400)로부터 기설정된 허용값을 가져오며(S20), 수집한 상기 운영 및 성능 정보와 데이터 베이스(400)에서 가져온 상기 기설정된 허용값을 비교한다(S30).

비교결과, 상기 통합 관리 서버(200)가 장애 발생 가능성이 있는 것으로 판단한 경우 상기 운영 및 성능 정보 및 해당 정보인 장애 예측 상황 정보를 상기 데이터베이스(400)에 저장하고(S40), 상기 장애 예측 상황 정보 및 그에 상응하는 자동화 해결 방법을 상기 정보 시스템(100)에 전송한다(S50).

이때, 상기 자동화 해결 방법은 상기 장애 예측 상황 정보를 분석하여 상기 통합 관리 서버(200)가 자체 설정한 것에 해당할 수도 있고, 상기 데이터베이스(400)에 저장된 상기 장애 예측 상황 정보에 따른 기설정된 자동화 해결 방법에 해당할 수도 있다.

상기 정보 시스템(100)은 상기 자동화 해결 방법을 수신하고 OS, RDBMS, NETWORK, WAS 각각에 따라 상기 자동화 해결 방법에 따른 자동화 처리를 수행한다(S60). 여기서 상기 정보 시스템(100) 상기 OS, RDBMS, NETWORK, WAS 각각에 따른 상기 자동화 해결 방법에 대한 구체적인 내용은 도 4 (a) 내지 (d)에서 설명한 바 있다.

이후 상기 정보 시스템(100)은 자동화 처리를 수행하고 그 처리 결과를 상기 통합 관리 서버(200)에 전송한다(S70)

상기 통합 관리 서버(200)는 상기 정보 시스템(100)의 상기 처리 결과를 수신하고 해당 내용을 데이터베이스(400)에 저장하며 장애 예측 상황, 자동화 해결 방법 및 처리 결과를 클라이언트(300)에 전달한다(S80).

상기 클라이언트(300)는 상기 장애 예측 상황, 자동화 해결 방법 및 처리 결과를 수신하여 모니터링하거나 그 내용을 출력한다(S90).

이와 같은 본 발명에 따른 사전 장애 탐지 시스템 및 방법에 의하면 정보 시스템(100)의 운영 장애요소 및 성능정보를 실시간으로 전송 받아 분석, 진단 및 해결하여 정보 시스템(100)에 대한 운영 장애를 사전에 예측할 수 있으며, 이로 인해 정보기술 서비스를 안정적으로 제공할 수 있고, 운영 장애 및 성능 장애가 발생한 후 감지를 하는 것이 아니라, 사전에 탐지를 수행할 수 있어 지속적으로 안정적인 서비스를 할 수 있는 환경을 제공할 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.

컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 본 발명에 따른 객체 정보 추정 방법을 수행하기 위한 프로그램 코드는 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 전송될 수도 있다.

또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

본 발명은 도면에 도시된 일 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

OS, RDBMS, NETWORK, WAS 중 적어도 하나를 포함하고 운영 및 성능 정보를 수집하는 정보 시스템;

상기 정보 시스템으로부터 상기 운영 및 성능 정보를 전송받고 상기 운영 및 성능 정보와 데이터베이스에 저장된 기설정된 허용값을 비교 및 분석하여 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하고 상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 상기 정보 시스템으로 전송하고 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 클라이언트에 전송하는 통합 관리 서버; 및

상기 통합 관리 서버로부터 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 수신하여 클라이언트의 관리자가 인지할 수 있도록 출력하는 클라이언트;를 포함하는 것을 특징으로 하는 사전 장애 탐지 시스템.
제1항에 있어서,

상기 통합 관리 서버는,

상기 정보 시스템으로부터 상기 운영 및 성능 정보를 전송받고 상기 운영 및 성능 정보와 데이터베이스에 저장된 기설정된 허용값을 비교 및 분석하여 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하는 자가 진단 로봇; 및

상기 자가 진단 로봇으로부터 상기 장애 예측 상황 정보를 수신하여 상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 생성하여 상기 정보 시스템으로 전송하고 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 경보 시스템에 전송하는 자가 치료 로봇;을 더 포함하는 것을 특징으로 하는 사전 장애 탐지 시스템.
제2항에 있어서,

상기 정보 시스템은 상기 자가 치료 로봇으로부터 상기 자동화 해결 방법 정보를 수신하여 상기 자동화 해결 방법 정보에 따라 예측된 장애 상황을 자동화 처리를 수행하고, 그 처리 결과를 상기 자가 치료 로봇에 전송하며,

상기 사전 장애 탐지 시스템은,

상기 자가 치료 로봇으로부터 상기 처리 결과, 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 수신하여 이를 상기 클라이언트에 통지하는 경보 시스템;을 더 포함하는 것을 특징으로 하는 사전 장애 탐지 시스템.
제3항에 있어서,

상기 자동화 해결 방법 정보는,

상기 정보 시스템이 OS를 포함하는 경우 상기 운영 및 성능 정보가 운영 관련 parameter인 file descriptor 또는 process max count에 해당하여 상기 file descriptor 또는 process max count가 상기 기설정된 허용값을 벗어나면 상기 file descriptor 또는 process max count 값을 특정값으로 자동 변경하게 하는 것을 특징으로 하는 사전 장애 탐지 시스템.
제3항에 있어서,

상기 자동화 해결 방법 정보는,

상기 정보 시스템이 RDBMS를 포함하는 경우 상기 운영 및 성능 정보가 데이터베이스 관련 disk usage에 해당하여 상기 disk usage가 상기 기설정된 허용값을 벗어나면 오래된 log file을 분류하여 분류된 log file을 자동으로 삭제하게 하는 것을 특징으로 하는 사전 장애 탐지 시스템.
제3항에 있어서,

상기 자동화 해결 방법 정보는,

상기 정보 시스템이 NETWORK를 포함하는 경우 상기 운영 및 성능 정보가 OS에서 오픈중인 소켓 상태에 해당하여 대기중인 소켓 개수를 상기 기설정된 허용값과 비교하여 상기 대기중인 소켓 개수에 기초해 상기 기설정된 허용값을 변경설정하며,
제3항에 있어서,

상기 자동화 해결 방법 정보는,

상기 정보 시스템이 WAS를 포함하는 경우 상기 운영 및 성능 정보가 heap memory에 해당하여 heap memory가 기설정된 허용값보다 부족하면 heap memory 부족으로 인해 WAS 로그에 출력되는 exception 정보를 추적하여 heap memory를 증가시키고 WAS 재기동을 수행하는 것을 특징으로 하는 사전 장애 탐지 시스템.
OS, RDBMS, NETWORK, WAS를 포함하고 운영 및 성능 정보를 수집하는 정보 시스템;

상기 정보 시스템으로부터 상기 OS, RDBMS, NETWORK, WAS의 운영 및 성능 정보를 전송받고 상기 운영 및 성능 정보와 데이터베이스에 저장된 기설정된 허용값을 비교 및 분석하여 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하는 자가 진단 로봇과, 상기 자가 진단 로봇으로부터 상기 장애 예측 상황 정보를 수신하여 상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 생성하여 상기 정보 시스템으로 전송하고, 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 경보 시스템에 전송하는 자가 치료 로봇을 포함하는 통합 관리 서버; 및

상기 통합 관리 서버로부터 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 수신하여 클라이언트의 관리자가 인지할 수 있도록 출력하는 클라이언트;를 포함하고,

상기 정보 시스템이 상기 자가 치료 로봇으로부터 상기 자동화 해결 방법 정보를 수신하여 상기 자동화 해결 방법 정보에 따라 예측된 장애 상황을 자동화 처리를 수행하고, 그 처리 결과를 상기 자가 치료 로봇에 다시 전송하며,

상기 자가 치료 로봇은 상기 처리 결과를 데이터베이스에 저장하고 상기 처리 결과를 상기 경보 시스템에 전송하며,

상기 경보 시스템은 상기 자가 치료 로봇으로부터 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 수신하여, 상기 클라이언트가 상기 자동화 해결 방법 정보를 이용해 수동제어를 통하여 해결을 할 수 있도록 하기 위해, 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 상기 클라이언트에 출력 또는 알람을 통해 통지하는 것을 특징으로 하는 사전 장애 탐지 시스템.
통합 관리 서버가,

OS, RDBMS, NETWORK, WAS 중 적어도 하나의 각 대상 에이전트를 통해 운영 및 성능 정보를 실시간 수집하는 단계;

상기 수집한 운영 및 성능 정보와 데이터 베이스에 저장된 기설정된 허용값을 비교 및 분석하는 단계;

상기 비교 및 분석을 통해 상기 운영 및 성능 정보가 상기 기설정된 허용값을 벗어나 장애발생 가능성이 있는 것으로 판단한 경우 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하는 단계;

상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 생성하여 상기 정보 시스템으로 전송하는 단계; 및

상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 클라이언트에 전송하는 단계;를 포함하는 것을 특징으로 하는 사전 장애 탐지 방법.
제9항에 있어서,

상기 정보 시스템으로 전송하는 단계 이후에,

상기 정보 시스템이 상기 자동화 해결 방법 정보에 따라 예측된 장애 상황을 자동화 처리를 수행한 처리 결과를 수신하는 단계;를 더 포함하고,

상기 클라이언트에 전송하는 단계는,

상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보뿐만 아니라 상기 처리 결과를 전송하는 단계;인 것을 특징으로 하는 사전 장애 탐지 방법.