KR102561702B1

KR102561702B1 - 시스템 장애 모니터링 방법 및 장치

Info

Publication number: KR102561702B1
Application number: KR1020160032012A
Authority: KR
Inventors: 손석호; 원희선
Original assignee: 한국전자통신연구원
Priority date: 2016-03-17
Filing date: 2016-03-17
Publication date: 2023-08-01
Also published as: KR20170108315A

Abstract

본 발명은 시스템 장애 모니터링 방법 및 장치에 관한 것이다. 본 발명에 따르면, 모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정하는 단계; 상기 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색하는 단계; 상기 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정하는 단계를 포함하는 시스템 장애 모니터링 방법이 제공된다.

Description

시스템 장애 모니터링 방법 및 장치{METHOD AND APPARATUS FOR MONITORING FAULT OF SYSTEM}

본 발명은, 시스템 장애 모니터링 방법 및 장치에 관한 것이다.

시스템 장애 모니터링 장치는, 장애 원인을 파악하고 기록을 남기기 위하여 플랫폼에서는 각종 모니터링 데이터를 저장하여야 하며, 이 데이터의 량은 시간이 지남에 따라 기하급수적으로 늘어난다.

따라서, 모니터링 데이터의 저장 효율을 올리기 위한 방법이 필요하다.

본 발명은, 빅데이터 기반 장애 분석 시스템에서 모니터링 빅데이터의 저장 효율을 향상시키기 위해서, 장애 원인 분석 정보로서 가치가 있는 파라미터의 데이터를 동적으로 지정하는 것을 제공하는 것을 목적으로 한다.

본 발명은, 다중 모니터링 파라미터 별 차등 주기를 지정하는 것을 제공하는 것을 목적으로 한다.

상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.

일실시예에 따른, 시스템 장애 모니터링 방법에 있어서, 시스템 장애 모니터링 방법은, 모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정하는 단계; 상기 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색하는 단계; 상기 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정하는 단계를 포함할 수 있다.

다른 실시예에 따른, 상기 모니터링 주기를 조정하는 단계는, 상기 장애 원인 파라미터가 발견될 경우, 상기 발견된 장애 원인 파라미터에 대한 모니터링 주기를 감소시키는 것을 할 수 있다.

다른 실시예에 따른, 상기 모니터링 주기를 조정하는 단계는, 상기 발견된 장애 원인 파라미터를 제외한 다른 모니터링 대상 파라미터들에 대한 모니터링 주기를 증가시키는 것을 할 수 있다.

다른 실시예에 따른, 상기 모니터링 주기를 조정하는 단계는, 상기 장애 원인 파라미터가 발견되지 않을 경우, 상기 모니터링 대상 파라미터들에 대한 모니터링 주기를 축소시키는 것을 할 수 있다.

다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 상기 장애 원인 파라미터와 상기 모니터링 대상 파라미터들 간의 상관 관계를 계산하고, 상기 상관 관계에 기초하여 상기 장애 원인 파라미터를 탐색하는 것을 할 수 있다.

다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 상기 모니터링 대상 파라미터들에 대한 상관 계수를 계산하고, 상기 상관 관계에 기초하여 상기 장애 원인 파라미터를 탐색하는 것을 할 수 있다.

다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 분석 윈도우 내 상관 관계의 변화의 크기를 기초로 장애 원인 파라미터를 탐색하는 것을 할 수 있다.

다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 상기 분석 윈도우 내 상관 계수의 값을 기초로 상기 상관 관계의 변화의 크기를 계산하는 것을 할 수 있다.

다른 실시예에 따른, 상기 장애 원인 파라미터를 탐색하는 단계는, 상기 모니터링 대상 파라미터들에 대한 상관 관계의 변화의 크기와 임계치를 비교하고, 상기 임계치를 초과한 상관 관계의 변화의 크기에 대응하는 모니터링 대상 파라미터를 장애 원인으로 추가하는 것을 할 수 있다.

다른 실시예에 따른, 시스템 장애 모니터링 방법에 있어서, 시스템 장애 모니터링 방법은, 상기 추가한 장애 원인의 모니터링 대상 파라미터에 관한 메시지를 생성하는 단계; 및 상기 생성한 메시지를 시스템 관리 단말로 전송하는 단계;를 더 포함할 수 있다.

다른 실시예에 따른, 시스템 장애 모니터링 방법에 있어서, 시스템 장애 모니터링 방법은, 모니터링 에이전트를 이용하여 모니터링 데이터를 수집하는 단계; 및 상기 수집된 모니터링 데이터 중 장애 정보를 분류하는 단계;를 더 포함할 수 있다.

일실시예에 따른, 시스템 장애 모니터링 방법에 있어서, 시스템 장애 모니터링 방법은, 시스템에서 장애가 발생될 경우, 발생된 시스템 장애의 장애 원인을 결정하는 단계; 상기 결정한 장애 원인을 기초로, 장애 원인 파라미터를 탐색하는 단계; 상기 탐색한 장애 원인 파라미터에 기초하여 상기 시스템의 파라미터들에 대한 모니터링 주기를 차등적으로 설정하는 단계를 포함할 수 있다.

일실시예에 따른, 시스템 장애 모니터링 장치에 있어서, 시스템 장애 모니터링 장치는, 모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정하는 장애 발생 여부 결정부; 상기 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색하는 장애 원인 파라미터 탐색부; 상기 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정하는 모니터링 주기 설정부;를 포함할 수 있다.

다른 실시예에 따른, 시스템 장애 모니터링 장치는, 상기 추가한 장애 원인의 모니터링 대상 파라미터에 관한 메시지를 생성하는 메시지 생성부; 및 상기 생성한 메시지를 시스템 관리 단말로 전송하는 메시지 전송부;를 더 포함할 수 있다.

다른 실시예에 따른, 시스템 장애 모니터링 장치는, 모니터링 에이전트를 이용하여 모니터링 데이터를 수집하는 모니터링 데이터 수집부; 및 상기 수집된 모니터링 데이터 중 장애 정보를 분류하는 장애 정보 분류부를 더 포함할 수 있다.

본 발명은, 빅데이터 플랫폼에서 분석 데이터를 저장하는데 있어서, 고정적으로 많은 데이터를 저장하는 것이 아니라, 장애 상관 관계에 따라 차등적으로 저장 속도를 조절할 수 있는 효과가 있다.

본 발명은, 장애와 관련이 있는 파라미터의 모니터링 데이터 저장량은 늘려서 장애 원인 분석 확률의 향상을 제공할 수 있다. 그러므로, 본 발명은, 장애와 주로 관련이 없는 파라미터의 모니터링 데이터 저장량은 줄여서 데이터 저장 효율을 향상시키는 효과가 있다.

도 1은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 개념도이다.
도 2는 본 발명의 일실시예에 따른. 시스템 장애 모니터링 방법의 흐름을 나타내는 것이다.
도 3은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법을 나타내는 흐름도이다.
도 4는 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법을 나타내는 것이다.
도 5는 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 흐름도이다.
도 6은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 그래프이다.
도 7은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 상관 관계 변화표이다.
도 8은 본 발명의 일실시예에 따른 시스템 장애 모니터링 장치를 나타내는 블록도이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 개념도이다.

먼저, 도 1을 참조하면, 데이터 분석 플랫폼 기반 장애 모니터링 데이터 저장 시스템으로서, 빅데이터 플랫폼을 이용하여 장애를 분석하는 시스템 장애 모니터링 장치(110)를 알 수 있다. 이때, 시스템 장애 모니터링 장치(110)는 분산 컴포넌트로서 모니터링 에이전트와 통신하여 시스템 1(131) 내지 시스템 N(132)의 장애를 모니터링할 수 있다. 이때, 모니터링 에이전트 각각은 매칭되는 시스템의 장애를 모니터링하고, 시스템 장애 모니터링 장치(110)로 시스템 장애 모니터링 장치(110)가 설정한 주기에 따라 모니터링한 장애 정보를 전송할 수 있다.

일실시예에 따르면, 빅데이터 기반 장애 분석 시스템으로서, 시스템 장애 모니터링 장치(110)는, 모니터링 데이터를 특정 고정 주기로 데이터베이스(111)에 저장할 수 있다. 이때, 단순히 고정 주기로 저장되는 데이터는 장애 원인 분석 정보로써 가치가 없을 가능성이 높을 수 있으므로, 데이터 저장 효율을 향상 시키기 위하여 장애 원인 분석 정보로서 가치가 있는 데이터를 적응적으로 저장할 필요가 있다. 예를 들어, 시스템 장애 모니터링 장치(110)는, 모니터링 데이터별 차등 주기를 지정할 수 있다.

또한, 일실시예에 따르면, 시스템 장애 모니터링 장치(110)는, 수신한 장애 정보를 데이터베이스(111)에 저장할 수 있으며, 모니터링 에이전트가 모니터링하는 주기 또는 시스템 장애 모니터링 장치(110)는 빅데이터 분석을 이용하여 모니터링하는 주기를 변경할 수 있으며, 모니터링 한 결과를 시스템 관리자 단말(120)로 전송할 수도 있다.

도 2는 본 발명의 일실시예에 따른. 시스템 장애 모니터링 방법의 흐름을 나타내는 것이다.

도 2를 참조하면, 시스템 장애 모니터링 장치가 수행하는 시스템 장애 모니터링 방법은, 하기와 같은 단계를 포함하여 구성될 수 있다.

단계(201)에서, 시스템 장애 모니터링 장치는, 모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정할 수 있다. 이때, 모니터링 데이터는 시스템 장애 모니터링 장치 내부의 데이터 베이스에 저장될 수도 있다. 물론, 경우에 따라서, 모니터링 데이터는 시스템 장애 모니터링 장치 외부의 연결된 데이터 베이스에 저장될 수도 있다.

단계(202)에서, 시스템 장애 모니터링 장치는, 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색할 수 있다.

구체적으로, 시스템 장애 모니터링 장치는, 장애 원인 파라미터와 모니터링 대상 파라미터들 간의 상관 관계를 계산하고, 상관 관계에 기초하여 장애 원인 파라미터를 탐색할 수 있다. 또한, 시스템 장애 모니터링 장치는, 모니터링 대상 파라미터들에 대한 상관 계수를 계산하고, 상관 관계에 기초하여 장애 원인 파라미터를 탐색할 수 있다.

또한, 시스템 장애 모니터링 장치는, 분석 윈도우 내 상관 관계의 변화의 크기를 기초로 장애 원인 파라미터를 탐색할 수 있다. 또한, 시스템 장애 모니터링 장치는, 분석 윈도우 내 상관 계수의 값을 기초로 상관 관계의 변화의 크기를 계산할 수 있다.

또한, 시스템 장애 모니터링 장치는, 모니터링 대상 파라미터들에 대한 상관 관계의 변화의 크기와 임계치를 비교하고, 임계치를 초과한 상관 관계의 변화의 크기에 대응하는 모니터링 대상 파라미터를 장애 원인으로 추가할 수도 있다.

단계(203)에서, 시스템 장애 모니터링 장치는, 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정할 수 있다.

구체적으로, 시스템 장애 모니터링 장치는, 장애 원인 파라미터가 발견될 경우, 발견된 장애 원인 파라미터에 대한 모니터링 주기를 감소시킬 수 있다. 이때, 시스템 장애 모니터링 장치는, 발견된 장애 원인 파라미터를 제외한 다른 모니터링 대상 파라미터들에 대한 모니터링 주기를 증가시킬 수 있다. 또한, 시스템 장애 모니터링 장치는, 장애 원인 파라미터가 발견되지 않을 경우, 모니터링 대상 파라미터들에 대한 모니터링 주기를 축소시킬 수 있다.

일실시예에 따르면, 시스템 장애 모니터링 장치는, 추가한 장애 원인의 모니터링 대상 파라미터에 관한 메시지를 생성할 수 있다. 다음으로, 시스템 장애 모니터링 장치는, 생성한 메시지를 시스템 관리 단말로 전송할 수 있다.

일실시예에 따르면, 시스템 장애 모니터링 장치는, 모니터링 에이전트를 이용하여 모니터링 데이터를 수집할 수 있다. 다음으로, 시스템 장애 모니터링 장치는, 수집된 모니터링 데이터 중 장애 정보를 분류할 수도 있다.

도 3은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법을 나타내는 흐름도이다.

일실시예에 따르면, 시스템 장애 모니터링 장치가 수행하는 시스템 장애 모니터링 방법은, 하기와 같은 단계를 포함하여 이루어 질 수도 있다.

단계(301)에서, 시스템 장애 모니터링 장치는, 시스템에서 장애가 발생될 경우, 발생된 시스템 장애의 장애 원인을 결정할 수 있다.

단계(302)에서, 시스템 장애 모니터링 장치는, 결정한 장애 원인을 기초로, 장애 원인 파라미터를 탐색할 수 있다.

단계(303)에서, 시스템 장애 모니터링 장치는, 탐색한 장애 원인 파라미터에 기초하여 시스템의 파라미터들에 대한 모니터링 주기를 차등적으로 설정할 수 있다.

도 4는 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법을 나타내는 것이다.

도 4를 참조하면, 모니터링 빅데이터 저장 효율을 향상시킨 빅데이터 분석 플랫폼 기반 장애 분석 시스템으로서 시스템 장애 모니터링 장치(410)의 구성을 알 수 있다.

일실시예에 따르면, 시스템 장애를 빅데이터 플랫폼을 통해 분석하고 장애 관련 모니터링 데이터량을 적응적으로 경량화하여 데이터 저장 효율을 증강시키기 위하여, 시스템 장애 모니터링 장치(410)는, 빅데이터 분석 방식 및 플랫폼을 이용하여 많은 파라미터 및 데이터를 동시에 분석할 수 있다. 특히, 시스템에 장애가 발생하였을 경우, 시스템 장애 모니터링 장치(410)는, 장애 원인을 파악하기 위하여 빅데이터 분석을 이용할 수도 있다.

일실시예에 따르면, 시스템 장애 모니터링 장치(410)는, 빅데이터 분석 플랫폼으로서, 모니터링 데이터 저장소(411), 모니터링 데이터 수집 및 저장부(412), 장치 이벤트 분류부(413), 장애 원인 파라미터 탐색부(414), 모니터링 주기 설정부(415)를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다. 이때, 모니터링 데이터 저장소(411), 모니터링 데이터 수집 및 저장부(412), 장치 이벤트 분류부(413), 장애 원인 파라미터 탐색부(414), 모니터링 주기 설정부(415)는, 메모리, 데이터송수신기, 메모리 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다.

일실시예에 따르면, 시스템 장애 모니터링 장치(410)의 모니터링 데이터 수집 및 저장부(412)는, 시스템 1 내지 시스템 N 내에 분산된 컴포넌트들이 발생시키는 다중 모니터링 데이터를 모니터링 에이전트(421, 422, 423, 424)를 이용하여 수집 및 저장할 수 있다. 다음으로, 시스템 장애 모니터링 장치(410)의 장치 이벤트 분류부(413)는, 장애 이벤트 확인할 수 있다. 다음으로, 시스템 장애 모니터링 장치(410)의 장애 원인 파라미터 탐색부(414)는, 장애 원인을 분석할 수 있다. 다음으로, 시스템 장애 모니터링 장치(410)의 모니터링 주기 설정부(415)는, 장애 원인의 상관관계에 따라 모니터링 데이터의 수집 주기를 제어할 수도 있다.

도 5는 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 흐름도이다.

도 5를 참조하면, 시스템 장애 모니터링 장치가 수행하는, 시스템 장애 모니터링 방법으로서, 장애 모니터링 데이터 저장 주기를 제어하기 위한 알고리즘을 알 수 있다.

일실시예에 따르면, 시스템 장애 모니터링 장치가 수행하는, 시스템 장애 모니터링 방법은 하기와 같은 단계를 포함하여 이루어 질 수 있다.

먼저, 단계(511)에서, 시스템 장애 모니터링 장치는, 모니터링 데이터를 각 컴포넌트의 모니터링 에이전트를 통해서 수집할 수 있다.

단계(512)에서, 시스템 장애 모니터링 장치는, 모니터링 데이터에서 장애 정보를 분류할 수 있다. 이때, 장애 정보는, 성능 저하, 에러 발생 로그 등이 될 수 있으나, 이에 한정되는 것은 아니다. 또한, 단계(513)에서, 시스템 장애 모니터링 장치는, 모든 모니터링 데이터를 저장할 수 있다.

단계(514)에서, 시스템 장애 모니터링 장치는, 시스템에 장애가 발견되지 않은 경우, 모니터링 데이터를 수집 하는 단계(511)로 돌아갈 수도 있다.

다음으로, 단계(515)에서, 시스템 장애 모니터링 장치는, 시스템에 장애가 발견된 경우, 장애 발생을 시스템 관리자에게 통보할 수 있다. 또한, 단계(516)에서, 시스템 장애 모니터링 장치는, 장애 원인을 분석할 수 있다.

단계(517)에서, 시스템 장애 모니터링 장치는, 장애 원인 파라미터 발견하지 못한 경우, 단계(518)에서, 시스템 장애 모니터링 장치는, 전체 파라미터들(의 모니터링 주기를 기존 모니터링 주기인 에서 변경 후 모니터링 주기인 으로 모니터링 주기의 변화 크기 만큼 감소() 시켜서 차기에 장애 원인 분석 확률을 향상시킬 수 있다. 또한, 시스템 장애 모니터링 장치는, 모니터링 데이터를 수집하는 단계(511)로 돌아갈 수도 있다.

다음으로, 단계(519)에서, 시스템 장애 모니터링 장치는, 장애 원인 파라미터를 발견한 경우, 우선 장애 예상 원인을 시스템 관리자에게 통보할 수 있다.

다음으로, 단계(520)에서, 시스템 장애 모니터링 장치는, 장애 원인 파라미터들의 모니터링 주기를 감소() 시켜서, 주요 장애 원인으로 모니터링 관심도를 높일 수 있다. 또한, 단계(521)에서, 시스템 장애 모니터링 장치는, 장애 원인이 아닌 파라미터들의 모니터링 주기를 증가()시켜서 모니터링 데이터 저장량을 감소시켜서 저장 효율을 향상시킬 수 있다. 또한, 시스템 장애 모니터링 장치는, 모니터링 데이터를 수집하는 단계(511)로 돌아갈 수도 있다.

이때, 모니터링 파라미터 의 모니터링 주기의 변화 크기 는 시스템 관리자의 정책에 따라서 가변 수치 또는 고정 수치로 지정될 수 있다. 예를 들어, 가 가변 수치로 지정되는 경우에는 파라미터의 중요도에 따라서 모니터링 주기의 변화 폭이 조정될 수 있다. 또한, 의 중요도에 따른 의 지정 값은 와 장애를 일으킨 파라미터인 와의 상관 관계 변화 크기인 와 의 곱으로 연산될 수 있다.

일실시예에 따르면, 시스템 장애 모니터링 장치는, 모니터링 주기를 감소시키는 경우 으로 모니터링 주기의 변경 주기를 결정하고, 모니터링 주기를 증가시키는 경우 으로 모니터링 주기의 변경 주기를 결정할 수 있다. 이때, 는 지속적으로 변화하는 값이므로, 또한 유동적으로 변화될 수 있다. 또한, 를 고정 수치로 지정하는 경우 는 상수로 설정될 수 있다. 예를 들어 가 2로 지정되는 경우, 변경 후 모니터링 주기는 이 되고 모니터링 주기는 점진적으로 변경될 수 있다.

도 6은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 시스템 장애 모니터링 방법을 나타내는 그래프이다.

도 6을 참조하면, 시스템 장애 모니터링 장치가 수행하는 시스템 장애 모니터링 방법으로서, 장애 분석 방식을 알 수 있다.

일실시예에 따르면, 시스템 장애 모니터링 장치는, 장애를 일으킨 파라미터인 Pe의 데이터와 이외의 모든 다중 파라미터들인 Pk의 데이터를 모두 상관 관계 분석할 수 있다. 이때, 시스템 장애 모니터링 장치는, 상관 관계 분석을 통해서 시간당 상관계수(-1 <= <= 1)를 계산할 수 있다. 또한, 시스템 장애 모니터링 장치는, 장애 시점 이전의 지정된 분석 윈도우 내에서 상관 관계 변화 크기 계산식으로서 하기 수학식 1을 이용하여 상관 관계 변화 크기인 를 계산할 수 있다. 이때, 수학식 1에서 는 윈도우 내의 상관계수 최대값, 는 윈도우 내의 상관계수 최소값을 나타낼 수 있다.

도 7은 본 발명의 일실시예에 따른 시스템 장애 모니터링 방법으로서, 상관 관계 변화표이다.

도 7을 참조하면, 시스템 장애 모니터링 장치가 수행하는 시스템 장애 모니터링 방법으로서, 상관 관계 변화 비교 방식을 알 수 있다.

일실시예에 따르면, 시스템 장애 모니터링 장치는, 파라미터와의 상관 관계 변화 크기가 설정된 임계치를 넘으면, 장애 원인으로 예상할 수 있다. 이때, 임계치는 시스템 관리자에 의해 지정될 수도 있으나, 이에 한정되는 것은 아니다. 예를 들어, 임계치가 0.5일 경우, 0.5이상인 파라미터는 장애 원인으로 예상될 수 있다. 또한, 예를 들어, 임계치가 0.4일 경우, 0.4 초과인 파라미터는 장애 원인으로 예상될 수도 있다.

도 8은 본 발명의 일실시예에 따른 시스템 장애 모니터링 장치를 나타내는 블록도이다.

도 8을 참조하면, 시스템 장애 모니터링 장치(800)는, 장애 발생 여부 결정부(810), 장애 원인 파라미터 탐색부(820), 모니터링 주기 설정부(830)를 포함하여 구성될 수 있다. 이때, 시스템 장애 모니터링 장치(800)는, 서버와 같은 컴퓨팅 디바이스일 수 있다. 또한, 장애 발생 여부 결정부(810), 장애 원인 파라미터 탐색부(820), 모니터링 주기 설정부(830)는, 메모리, 프로세서, 데이터 송수신기 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다.

장애 발생 여부 결정부(810)는, 모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정할 수 있다. 이때, 모니터링 데이터는 시스템 장애 모니터링 장치 내부의 데이터 베이스에 저장될 수도 있다. 또한, 모니터링 데이터는 시스템 장애 모니터링 장치 외부의 연결된 데이터 베이스에 저장될 수도 있다.

장애 원인 파라미터 탐색부(820)는, 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색할 수 있다. 예를 들어, 장애 원인 파라미터 탐색부(820)는, 장애 원인 파라미터와 모니터링 대상 파라미터들 간의 상관 관계를 계산하고, 상관 관계에 기초하여 장애 원인 파라미터를 탐색할 수 있다. 또한, 경우에 따라서, 장애 원인 파라미터 탐색부(820)는, 모니터링 대상 파라미터들에 대한 상관 계수를 계산하고, 상관 관계에 기초하여 장애 원인 파라미터를 탐색할 수도 있다.

일실시예에 따르면, 장애 원인 파라미터 탐색부(820)는, 분석 윈도우 내 상관 관계의 변화의 크기를 기초로 장애 원인 파라미터를 탐색할 수 있다. 또한, 장애 원인 파라미터 탐색부(820)는, 분석 윈도우 내 상관 계수의 값을 기초로 상관 관계의 변화의 크기를 계산할 수도 있다.

또한, 일실시예에 따르면, 장애 원인 파라미터 탐색부(820)는, 모니터링 대상 파라미터들에 대한 상관 관계의 변화의 크기와 임계치를 비교하고, 임계치를 초과한 상관 관계의 변화의 크기에 대응하는 모니터링 대상 파라미터를 장애 원인으로 추가할 수도 있다.

모니터링 주기 설정부(830)는, 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정할 수 있다. 예를 들면, 모니터링 주기 설정부(830)는, 장애 원인 파라미터가 발견될 경우, 발견된 장애 원인 파라미터에 대한 모니터링 주기를 감소시킬 수 있다. 이때, 모니터링 주기 설정부(830)는, 발견된 장애 원인 파라미터를 제외한 다른 모니터링 대상 파라미터들에 대한 모니터링 주기를 증가시킬 수 있다. 또한, 경우에 따라서, 모니터링 주기 설정부(830)는, 장애 원인 파라미터가 발견되지 않을 경우, 모니터링 대상 파라미터들에 대한 모니터링 주기를 축소시킬 수도 있다.

일실시예에 따르면, 시스템 장애 모니터링 장치는, 메시지 생성부, 메시지 전송부를 더 포함하여 구성될 수 있다. 이때, 메시지 생성부, 메시지 전송부는, 메모리, 프로세서, 데이터 송수신기 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다. 예를 들면, 메시지 생성부는, 추가한 장애 원인의 모니터링 대상 파라미터에 관한 메시지를 생성할 수 있다. 다음으로, 메시지 전송부는, 생성한 메시지를 시스템 관리 단말로 전송할 수도 있다.

또한, 일실시예에 따르면, 시스템 장애 모니터링 장치는, 모니터링 데이터 수집부, 장애 정보 분류부를 더 포함하여 구성될 수도 있다. 이때, 모니터링 데이터 수집부, 장애 정보 분류부는, 메모리, 프로세서, 데이터 송수신기 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다. 예를 들면, 모니터링 데이터 수집부는, 모니터링 에이전트를 이용하여 모니터링 데이터를 수집할 수 있다. 다음으로, 장애 정보 분류부는, 수집된 모니터링 데이터 중 장애 정보를 분류할 수도 있다.

또한, 일실시예에 따르면, 시스템 장애 모니터링 장치는, 경우에 따라서, 장애 원인 결정부, 장애 원인 파라미터 탐색부, 모니터링 주기 설정부를 포함하여 구성될 수도 있다. 이때, 장애 원인 결정부, 장애 원인 파라미터 탐색부, 모니터링 주기 설정부는, 메모리, 프로세서, 데이터 송수신기 중 적어도 하나를 포함하여 구성될 수 있으나, 이에 한정되는 것은 아니다. 예를 들면, 장애 원인 결정부는, 시스템에서 장애가 발생될 경우, 발생된 시스템 장애의 장애 원인을 결정할 수 있다. 다음으로, 장애 원인 파라미터 탐색부는, 결정한 장애 원인을 기초로, 장애 원인 파라미터를 탐색할 수 있다. 다음으로, 모니터링 주기 설정부는, 탐색한 장애 원인 파라미터에 기초하여 시스템의 파라미터들에 대한 모니터링 주기를 차등적으로 설정할 수도 있다.

본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 청구범위뿐 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.

Claims

시스템 장애 모니터링 방법에 있어서,
모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정하는 단계;
상기 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색하는 단계;
상기 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정하는 단계
를 포함하고,
상기 모니터링 주기를 조정하는 단계는,
상기 장애 원인 파라미터가 발견되지 않을 경우, 상기 모니터링 대상 파라미터들에 대한 모니터링 주기를 축소시키고,
상기 장애 원인 파라미터가 발견될 경우, 상기 발견된 장애 원인 파라미터에 대한 모니터링 주기를 감소시키고, 상기 발견된 장애 원인 파라미터를 제외한 다른 모니터링 대상 파라미터들에 대한 모니터링 주기를 증가시키는,
시스템 장애 모니터링 방법.
삭제
삭제
삭제
제1항에 있어서,
상기 장애 원인 파라미터를 탐색하는 단계는,
상기 장애 원인 파라미터와 상기 모니터링 대상 파라미터들 간의 상관 관계를 계산하고, 상기 상관 관계에 기초하여 상기 장애 원인 파라미터를 탐색하는, 시스템 장애 모니터링 방법.
제1항에 있어서,
상기 장애 원인 파라미터를 탐색하는 단계는,
상기 모니터링 대상 파라미터들에 대한 상관 계수를 계산하고, 상관 관계에 기초하여 상기 장애 원인 파라미터를 탐색하는, 시스템 장애 모니터링 방법.
제1항에 있어서,
상기 장애 원인 파라미터를 탐색하는 단계는,
분석 윈도우 내 상관 관계의 변화의 크기를 기초로 장애 원인 파라미터를 탐색하는, 시스템 장애 모니터링 방법.
제7항에 있어서,
상기 장애 원인 파라미터를 탐색하는 단계는,
상기 분석 윈도우 내 상관 계수의 값을 기초로 상기 상관 관계의 변화의 크기를 계산하는, 시스템 장애 모니터링 방법.
제1항에 있어서,
모니터링 에이전트를 이용하여 모니터링 데이터를 수집하는 단계; 및
상기 수집된 모니터링 데이터 중 장애 정보를 분류하는 단계;
를 더 포함하는, 시스템 장애 모니터링 방법.
시스템 장애 모니터링 장치에 있어서,
모니터링 데이터에 기초하여 시스템의 장애 발생 여부를 결정하는 장애 발생 여부 결정부;
상기 시스템의 장애가 발생한 것으로 결정된 경우, 장애 원인 파라미터를 탐색하는 장애 원인 파라미터 탐색부;
상기 장애 원인 파라미터의 탐색 결과에 기초하여 모니터링 대상 파라미터들에 대한 모니터링 주기를 조정하는 모니터링 주기 설정부;
를 포함하고,
상기 모니터링 주기 설정부는,
상기 장애 원인 파라미터가 발견되지 않을 경우, 상기 모니터링 대상 파라미터들에 대한 모니터링 주기를 축소시키고,
상기 장애 원인 파라미터가 발견될 경우, 상기 발견된 장애 원인 파라미터에 대한 모니터링 주기를 감소시키고, 상기 발견된 장애 원인 파라미터를 제외한 다른 모니터링 대상 파라미터들에 대한 모니터링 주기를 증가시키는,
시스템 장애 모니터링 장치.
삭제
삭제
삭제
삭제
삭제