KR101326451B1

KR101326451B1 - 복합 장애 조건을 이용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법 및 서버

Info

Publication number: KR101326451B1
Application number: KR1020120012424A
Authority: KR
Inventors: 고진원; 주기돈; 허태명
Original assignee: 에스케이씨앤씨 주식회사
Priority date: 2012-02-07
Filing date: 2012-02-07
Publication date: 2013-11-07
Also published as: KR20130091130A

Abstract

복합 장애 조건을 이용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법이 제공된다. 본 발명의 실시예에 따른 시스템 장애 모니터링 방법은, 시스템에 대한 제1 장애 조건이 성립하면 시스템에 대한 제2 장애 조건이 성립하는지 판단하고, 제2 장애 조건이 성립하면 장애 발생 사실을 시스템의 관리자에 안내한다. 이에 의해, 장애 조건들을 복합적으로 적용하여 시스템 장애를 판단할 수 있게 되어, 시스템 장애를 보다 효과적으로 모니터링할 수 있게 된다.

Description

복합 장애 조건을 이용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법 및 서버{MONITORING METHOD FOR ESTIMATING SYSTEM FAILURE WITH MULTIPLE FAILURE CONDITION AND MONITORING SERVER USING THE SAME}

본 발명은 시스템 장애 모니터링 방법 및 서버에 관한 것으로, 더욱 상세하게는 DB, 서버 등과 같은 시스템에 장애 발생 여부를 판단하여 관리자에 안내하는 시스템 장애 모니터링 방법 및 서버에 관한 것이다.

안정화된 시스템 운영을 위해, 시스템에 장애 발생 여부를 자동으로 모니터링하는 기법이 널리 이용되고 있다. 시스템의 장애 발생 여부는, 시스템의 상태가 기정해진 장애 조건에 해당하는지 여부를 판단하는 방법에 의해 수행된다.

하지만, 복잡화된 시스템의 상태가 단순히 장애 조건에 해당하는지 여부만을 가지고 장애 발생 여부를 판단하기 때문에 잘못된 판단이 빈번한데, 이는 시스템 관리자를 번거롭게 만드는 요인이다.

또한, 시스템 장애 발생이 감지된다 하더라도, 시스템 관리자가 장애 원인을 파악하여 조치하기까지 많은 시간이 소요된다. 이 과정을 도 1에 나타내었다.

도 1에 도시된 바에 따르면, 문자 메세지를 통해 시스템 장애를 인지한 시스템 관리자가 시스템에 접속하여 문제 발생 시간을 확인하고, 성능 이력 데이터를 확인 분석한 후에야, 문제점 파악과 해결 방안 도출이 이루어짐을 알 수 있다.

특히, 문제점 파악과 해결 방안 도출 전에 수행하여야 하는, 문제 발생 시간 확인과 성능 이력 데이터 확인/분석에 많은 시간이 소요되는데, 이로 인해 적시에 시스템 장애를 해소시키지 못하여 사고로 이어지기도 한다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 보다 신속하면서도 효과적으로 시스템 장애를 감지하여 조치하기 위한 방안으로, 장애 조건들을 복합적으로 적용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법 및 서버를 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 실시예에 따른, 시스템 장애 모니터링 방법은, 시스템에 대한 제1 장애 조건이 성립하는지 판단하는 단계; 상기 제1 장애 조건이 성립하면, 상기 시스템에 대한 제2 장애 조건이 성립하는지 판단하는 단계; 및 상기 제2 장애 조건이 성립하면, 장애 발생 사실을 상기 시스템의 관리자에 안내하는 단계;를 포함한다.

그리고, 상기 제1 장애 조건은, 상기 시스템에 마련된 제1 하드웨어의 사용상태에 대한 조건일 수 있다.

또한, 상기 제2 장애 조건은, 상기 시스템에 마련된 제2 하드웨어의 사용상태에 대한 조건 및 상기 시스템에 장애 이벤트 발생 여부 중 어느 하나일 수 있다.

그리고, 상기 제2 장애 조건은, 상기 시스템에 마련된 제2 하드웨어의 사용상태에 대한 조건이고, 상기 제1 하드웨어는, CPU(Central Processing Unit) 및 메모리 중 어느 하나이며, 상기 제2 하드웨어는, CPU 및 메모리 중 다른 하나일 수 있다.

또한, 본 발명의 실시예에 따른, 시스템 장애 모니터링 방법은, 상기 제1 장애 조건이 성립하면, 상기 시스템에서 실행되었던 프로세스들에 대한 정보를 수집하는 단계;를 더 포함할 수 있다.

그리고, 상기 프로세스들은, 상기 시스템에서 실행되었던 프로세스들 중 시스템 점유 순위 또는 점유율이 설정치 이상인 프로세스들일 수 있다.

또한, 본 발명의 실시예에 따른, 시스템 장애 모니터링 방법은, 상기 제2 장애 조건이 성립하면, 상기 제1 장애 조건 성립 시점에서 상기 시스템에서 실행되었던 프로세스들의 실행 관련 정보를 수집하는 단계;를 더 포함할 수 있다.

그리고, 상기 시스템은, DB(DataBase) 시스템이고, 상기 프로세스들의 실행 관련 정보는, SQL(Structured Query Language), 실행계획 및 성능 데이터 중 적어도 하나를 포함할 수 있다.

또한, 본 발명의 실시예에 따른, 시스템 장애 모니터링 방법은, 상기 프로세스들의 실행 관련 정보를 상기 시스템의 관리자에 제공하는 단계;를 더 포함할 수 있다.

그리고, 상기 안내단계에서 장애 발생 사실을 안내하는 매체와, 상기 제공단계에서 상기 프로세스들의 실행 관련 정보를 제공하는 매체는 상이할 수 있다.

한편, 본 발명의 다른 실시예에 따른, 시스템 장애 모니터링 서버는, 시스템 및 단말과 통신가능하도록 연결되는 통신부; 및 상기 통신부에 연결된 상기 시스템에 대한 제1 장애 조건이 성립하는지 판단하고, 상기 제1 장애 조건이 성립하면 상기 시스템에 대한 제2 장애 조건이 성립하는지 판단하며, 상기 제2 장애 조건이 성립하면 장애 발생 사실을 상기 통신부를 통해 상기 단말에 통보하는 제어부;를 포함한다.

이상 설명한 바와 같이, 본 발명에 따르면, 장애 조건들을 복합적으로 적용하여 시스템 장애를 판단할 수 있게 되어, 시스템 장애를 보다 효과적으로 모니터링할 수 있게 된다.

또한, 복합적인 장애 조건들에 기반하여 장애 발생 원인과 관련 있는 프로세스 정보들을 효과적으로 추출하여 제공하기 때문에, 시스템 관리자에 의한 장애 복구 조치에 소요되는 시간을 획기적으로 줄일 수 있게 됨은 물론, 장애 예방에도 기여할 수 있게 된다.

도 1은 시스템 장애 발생이 감지된 후에 시스템 관리자에 의한 장애 조치 과정의 설명에 제공되는 도면,
도 2는 본 발명이 적용가능한 리소스 장애 모니터링 시스템을 도시한 도면,
도 3은 DB 시스템 장애 모니터링 방법의 설명에 제공되는 흐름도,
도 4는, 도 3의 S370단계에서 관리자 단말에 발송되는 전자 메일의 내용을 예시한 도면, 그리고,
도 5는, 도 2에 도시된 장애 모니터링 서버의 상세 블럭도이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 2는 본 발명이 적용가능한 리소스 장애 모니터링 시스템을 도시하였다. 도 2에 도시된 리소스 장애 모니터링 시스템은 오라클^R DB(DataBase) 시스템들(10-1, 10-2, ... , 10-n), 장애 모니터링 서버(100) 및 관리자 단말(200)을 포함하여 구축된다.

오라클 DB 시스템들(10-1, 10-2, ... , 10-n)에는 에이전트들(15-1, 15-2, ... , 15-n)이 각각 설치되어, 오라클 DB 시스템들(10-1, 10-2, ... , 10-n)에 마련된 리소스에 대한 사용 상태와 장애 이벤트를 수집한다.

장애 모니터링 서버(100)는 에이전트들(15-1, 15-2, ... , 15-n)이 수집한 리소스에 대한 사용 상태와 장애 이벤트를 수신하여, 오라클 DB 시스템들(10-1, 10-2, ... , 10-n)에 장애가 발생하였는지 모니터링한다. 장애 발생 모니터링은, 다수의 장애 발생 조건들을 복합적으로 연계 적용하여 수행하는데, 이에 대한 상세한 설명은 도 3을 참조하여 후술한다.

장애가 발생한 것으로 판단되면, 장애 모니터링 서버(100)는 관리자가 휴대/이용하는 관리자 단말(200)에 장애 발생 사실을 통보하여 관리자에게 이를 안내한다.

또한, 장애 발생시, 장애 모니터링 서버(100)는 에이전트들(15-1, 15-2, ... , 15-n)에 장애 관련 상세 정보들을 요청/수신하여 관리자 단말(200)에 제공한다.

이하에서, 도 2에 도시된 장애 모니터링 서버(100)가 오라클 DB 시스템들(10-1, 10-2, ... , 10-n)에 대한 장애를 모니터링하여 관리자에 안내하는 과정에 대해, 도 3을 참조하여 상세히 설명한다.

도 3은 DB 시스템 장애 모니터링 방법의 설명에 제공되는 흐름도이다. 도 3에는 도시와 설명의 편의를 위해, 오라클 DB 시스템들(10-1, 10-2, ... , 10-n)과 에이전트들(15-1, 15-2, ... , 15-n)을 오라클 DB 시스템(10)과 에이전트(15) 하나로 대표하여 도시하였음에 유념하여야 한다.

도 3에 도시된 바와 같이, 에이전트(15)가 오라클 DB 시스템(10)의 CPU(Central Processing Unit) 사용율을 장애 모니터링 서버(100)에 전송한다(S305). S305단계에서의 CPU 사용율 전송은 주기적으로 수행된다.

장애 모니터링 서버(100)는 S305단계를 통해 주기적으로 수신되는 CPU 사용율을 기초로, 오라클 DB 시스템(10)의 장애 발생 여부를 1차적으로 판단한다. 구체적으로, 장애 모니터링 서버(100)는 오라클 DB 시스템(10)의 CPU 사용율이 70%를 3회 이상 초과하였는지 모니터링한다(S310).

CPU 사용율이 70%를 3회 이상 초과하였는지 여부는, 오라클 DB 시스템(10)의 장애 발생 여부를 1차적으로 판단하기 위한 1차 장애 조건에 해당한다.

S310단계에서의 모니터링 결과, CPU 사용율이 70%를 3회 이상 초과하게 되면(S310-Y), 장애 모니터링 서버(100)는 오라클 DB 시스템(10)에서 실행중인 프로세스들 중 CPU 사용율 상위 10개의 프로세스들에 대한 정보를 에이전트(15)에 요청하고, 수신하여 저장한다(S315, S320 및 S325).

CPU 사용율 상위 10개 프로세스들은 CPU 사용 순위가 상위 10개인 프로세스들로 이해하여도 무방하다.

그리고, 장애 모니터링 서버(100)는, 에이전트(15)에 오라클 DB 시스템(10)의 OWI(Oracle Wait Interface) 정보들을 수집 요청하여(S330), 에이전트(15)로부터 수신되는 OWI 정보들을 OWI 히스토리 테이블에 저장한다(S335 및 S340). OWI 정보는 오라클 DB 시스템(10)에서 발생한 대기 이벤트에 대한 정보를 말한다.

이후, 장애 모니터링 서버(100)는 S340단계에서 OWI 히스토리 테이블에 수록된 OWI 정보들과 장애 OWI 테이블에 수록된 OWI 정보들을 비교한다(S345). 장애 OWI 테이블은 오라클 DB 시스템(10)의 장애 발생으로 취급할 수 있는 OWI 정보들(예를 들어, buffer busy waits, db file scattered read, db file sequential read 등)이 수록되어 있는 테이블이다.

OWI 히스토리 테이블에 수록된 OWI 정보들이 장애 OWI 테이블에 수록되어 있는지 여부는, 오라클 DB 시스템(10)의 장애 발생 여부를 2차적으로 판단하기 위한 2차 장애 조건에 해당한다.

OWI 히스토리 테이블과 장애 OWI 테이블에 일치하는 OWI 정보가 있으면(S345-Y), 장애 모니터링 서버(100)는 오라클 DB 시스템(10)의 장애 발생 사실이 수록된 SMS(Short Message Service) 메세지를 관리자 단말(200)에 발송하여, 오라클 DB 시스템(10)의 관리자에 안내한다(S350).

한편, 장애 모니터링 서버(100)는 'S325단계에서 저장된 오라클 DB 시스템(10)의 CPU 사용율 상위 10개 프로세스들의 SQL(Structured Query Language), 실행계획, 성능 데이터'를 에이전트(15)에 수집 요청하여 수신받아 저장한다(S355, S360 및 S365).

요청하여 수신받아 저장하는 SQL, 실행계획, 성능 데이터들은, CPU 사용율이 70%를 3회 이상 초과하게 된 시점에 오라클 DB 시스템(10)에서 실행되었던 CPU 사용율 상위 10개 프로세스들의 실행 관련 정보들이다.

장애 모니터링 서버(100)는 S365단계에서 저장된 상위 10개 프로세스들의 SQL, 실행계획, 성능 데이터를 관리자 단말(200)에 전자 메일로 발송하여, 오라클 DB 시스템(10)의 관리자에 제공한다(S370).

도 4는 S370단계에서 관리자 단말(200)에 발송되는 전자 메일의 내용을 예시한 도면이다. 도 4에는 특정 프로세스 1개에 대한 SQL, 실행계획, 성능 데이터가 수록된 전자 메일을 예시하였는데, 이는 도시와 예시의 편의를 위한 것으로, 도 3의 S370단계에서 발송되는 전자 메일에는 10개 프로세스들에 대한 SQL, 실행계획, 성능 데이터가 수록됨에 유념하여야 한다.

지금까지, 장애 모니터링 서버(100)에 의한 DB 시스템 장애 모니터링 과정에 대해, 도 3을 참조하여 상세히 설명하였다. 도 3에 도시된 바와 같이, DB 시스템 장애 모니터링은, S310단계에서 1차 장애 조건으로 오라클 DB 시스템(10)의 장애 발생 여부를 1차적으로 판단하고, S345단계에서 2차 장애 조건으로 오라클 DB 시스템(10)의 장애 발생 여부를 2차적으로 판단하는, 복합 장애 조건을 이용한 장애 판단 방식을 채택하고 있다.

위 실시예에서, 1차 장애 조건은 오라클 DB 시스템(10)의 CPU 사용율에 대한 조건이고, 2차 장애 조건은 오라클 DB 시스템(10)의 장애 이벤트 발생 여부인 것을 상정하였다.

이에 따르면, 1차 장애 조건은 시스템의 하드웨어 상태에 기인한 조건이고, 2차 장애 조건은 시스템에 발생된 이벤트에 기인한 조건인데, 이는 설명의 편의를 위한 것으로 다르게 변형이 가능하다.

예를 들어, 1차 장애 조건은 오라클 DB 시스템(10)의 CPU 사용율에 대한 조건이고, 2차 장애 조건은 오라클 DB 시스템(10)의 메모리 사용율에 대한 조건으로 변형하는 것이 가능하다. 구체적으로, 2차 장애 조건은 오라클 DB 시스템(10)의 메모리 사용율이 50%를 초과하는지 여부로 설정가능하다.

이는, 1차 장애 조건과 2차 장애 조건을 모두 시스템의 하드웨어 상태에 기인한 조건들로 설정한 경우인데, 이 역시 일 예에 불과하므로 다르게 변형가능하다. 1차 장애 조건과 2차 장애 조건을 모두 시스템에서 발생된 이벤트에 기인한 조건들로 설정하는 것이 가능함은 물론, 1차 장애 조건은 시스템에서 발생된 이벤트에 기인한 조건으로 2차 장애 조건을 모두 시스템의 하드웨어 상태에 기인한 조건으로 변형가능하다.

그리고, CPU와 메모리 이외의 다른 하드웨어 상태를 장애 조건으로 설정할 수 있음은 물론, 하드웨어가 아닌 다른 리소스(예를 들면, Operating System, Management System 등)의 상태를 장애 조건으로 설정할 수도 있고, OWI 이외의 다른 이벤트 발생 여부를 장애 조건으로 설정할 수도 있다.

한편, 위 실시예에서 오라클 DB 시스템(10)의 장애 발생 사실은 관리자 단말(200)에 SMS 메세지로 발송하여 안내하고, 오라클 DB 시스템(10)의 상위 10개 프로세스들의 실행 관련 정보들(SQL, 실행계획, 성능 데이터)은 관리자 단말(200)에 전자 메일로 발송하여, 양자를 각기 다른 매체를 통해 제공하는 것으로 상정하였다. 발송 매체는 SMS 메세지와 전자 메일 이외의 다른 것을 이용하여도 무방하다. 2개의 매체를 통한 발송이 불가능한 경우라면, 1개의 매체로 발송하는 것도 가능하다.

또한, 위 실시예에서 상정한 오라클 DB 시스템(10)은 DB 시스템의 일 예에 해당하는 것으로 다른 종류의 DB 시스템으로 대체될 수 있음은 물론이다. 그리고, 본 발명의 기술적 사상은 DB 시스템 이외의 다른 시스템에 대한 장애를 모니터링하는 경우에도 적용될 있다.

아울러, 본 발명의 기술적 사상은, 위 실시예에서와 같이 장애 조건들이 2개인 경우는 물론이며, 3개 이상의 장애 조건들이 복합적으로 이용되는 경우에도 적용될 수 있다.

도 2에 도시된 장애 모니터링 서버(100)의 상세 구성을 도 5에 도시하였다. 도 5는 장애 모니터링 서버(100)의 상세 블럭도이다. 도 5에 도시된 바와 같이, 장애 모니터링 서버(100)는 통신 인터페이스(110), 프로세서(120) 및 저장부(130)를 구비한다.

통신 인터페이스(110)는 오라클 DB 시스템들(10-1, 10-2, ... , 10-n) 및 관리자 단말(200)과 통신 연결을 설정하고 유지한다.

프로세서(120)는 통신 인터페이스(110)를 통해 오라클 DB 시스템들(10-1, 10-2, ... , 10-n)로부터 수신되는 정보들을 이용하여, 도 3에 도시된 DB 시스템 장애 모니터링을 수행한다.

이 과정에서, 프로세서(120)는 수신 또는 생성되는 정보를 저장부(130)에 저장한다. 또한, DB 시스템 장애가 모니터링되면, 프로세서(120)는 통신 인터페이스(110)를 통해 관리자의 관리자 단말(200)에 장애 발생 사실과 장애 관련 정보를 전달한다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

10, 10-1, 10-2, ... , 10-n : 오라클 DB 시스템
15, 15-1, 15-2, ... , 15-n : 에이전트
100 : 장애 모니터링 서버 110 : 통신 인터페이스
120 : 프로세서 130 : 저장부
200 : 관리자 단말

Claims

시스템에 대한 제1 장애 조건이 성립하는지 판단하는 단계;
상기 제1 장애 조건이 성립하면, 상기 시스템에 대한 제2 장애 조건이 성립하는지 판단하는 단계; 및
상기 제2 장애 조건이 성립하면, 장애 발생 사실을 상기 시스템의 관리자에 안내하는 단계;를 포함하고,
상기 제1 장애 조건이 성립하면, 상기 시스템에서 실행되었던 프로세스들에 대한 정보를 수집하는 단계; 및
상기 제2 장애 조건이 성립하면, 상기 제1 장애 조건 성립 시점에서 상기 시스템에서 실행되었던 프로세스들의 실행 관련 정보를 수집하는 단계;를 더 포함하는 것을 특징으로 하는 시스템 장애 모니터링 방법.
제 1항에 있어서,
상기 제1 장애 조건은,
상기 시스템에 마련된 제1 하드웨어의 사용상태에 대한 조건인 것을 특징으로 하는 시스템 장애 모니터링 방법.
제 2항에 있어서,
상기 제2 장애 조건은,
상기 시스템에 마련된 제2 하드웨어의 사용상태에 대한 조건 및 상기 시스템에 장애 이벤트 발생 여부 중 어느 하나인 것을 특징으로 하는 시스템 장애 모니터링 방법.
제 3항에 있어서,
상기 제2 장애 조건은, 상기 시스템에 마련된 제2 하드웨어의 사용상태에 대한 조건이고,
상기 제1 하드웨어는, CPU(Central Processing Unit) 및 메모리 중 어느 하나이며,
상기 제2 하드웨어는, CPU 및 메모리 중 다른 하나인 것을 특징으로 하는 시스템 장애 모니터링 방법.
삭제
제 1항에 있어서,
상기 프로세스들은,
상기 시스템에서 실행되었던 프로세스들 중 시스템 점유 순위 또는 점유율이 설정치 이상인 프로세스들인 것을 특징으로 하는 시스템 장애 모니터링 방법.
삭제
제 1항에 있어서,
상기 시스템은, DB(DataBase) 시스템이고,
상기 프로세스들의 실행 관련 정보는, SQL(Structured Query Language), 실행계획 및 성능 데이터 중 적어도 하나를 포함하는 것을 특징으로 하는 시스템 장애 모니터링 방법.
제 1항에 있어서,
상기 프로세스들의 실행 관련 정보를 상기 시스템의 관리자에 제공하는 단계;를 더 포함하는 것을 특징으로 하는 시스템 장애 모니터링 방법.
제 9항에 있어서,
상기 안내단계에서 장애 발생 사실을 안내하는 매체와, 상기 제공단계에서 상기 프로세스들의 실행 관련 정보를 제공하는 매체는 상이한 것을 특징으로 하는 시스템 장애 모니터링 방법.
제 8항에 있어서,
상기 DB 시스템의 OWI(Oracle Wait Interface) 정보들을 수집하여 상기 DB 시스템에 장애 이벤트 발생 여부를 판단하는 단계;를 더 포함하는 것을 특징으로 하는 시스템 장애 모니터링 방법.
시스템 및 단말과 통신가능하도록 연결되는 통신부; 및
상기 통신부에 연결된 상기 시스템에 대한 제1 장애 조건이 성립하는지 판단하고, 상기 제1 장애 조건이 성립하면 상기 시스템에 대한 제2 장애 조건이 성립하는지 판단하며, 상기 제2 장애 조건이 성립하면 장애 발생 사실을 상기 통신부를 통해 상기 단말에 통보하는 제어부;를 포함하고,
상기 제어부는,
상기 제1 장애 조건이 성립하면, 상기 시스템에서 실행되었던 프로세스들에 대한 정보를 수집하고,
상기 제2 장애 조건이 성립하면, 상기 제1 장애 조건 성립 시점에서 상기 시스템에서 실행되었던 프로세스들의 실행 관련 정보를 수집하는 것을 특징으로 하는 시스템 장애 모니터링 서버.