KR20080044508A

KR20080044508A - 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법

Info

Publication number: KR20080044508A
Application number: KR1020060113444A
Authority: KR
Inventors: 김병섭; 이치훈; 박재희; 신정호; 박치훈; 김종선; 류성화
Original assignee: 삼성에스디에스 주식회사
Priority date: 2006-11-16
Filing date: 2006-11-16
Publication date: 2008-05-21
Also published as: CN101632093A; KR100840129B1; WO2008060015A1; US20100082708A1; JP2010526352A

Abstract

본 발명은 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법에 관한 것으로, 에이전트(Agent)를 통해 성능정보를 수집하여 전송하는 적어도 하나의 관리대상자원과, 상기 관리대상자원으로부터 전송된 각각의 성능정보를 통합적으로 관리하는 통합관리서버와, 상기 통합관리서버로부터 관리하는 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 추출한 후, 각각의 성능항목에 대해 통계정보를 자동으로 생성하는 통계정보 생성모듈과, 상기 통합관리서버에서 관리하는 성능정보들을 실시간으로 제공받아 현재 각 성능정보에 대해 통계적인 분석을 수행하여 상기 통계정보 생성모듈로부터 생성된 통계정보와 비교 판단한 후, 그 판단결과에 따라 장애이벤트를 생성하여 상기 통합관리서버로 전송하는 장애관리서버를 포함함으로써, 정보기술(IT) 서비스를 제공하기 위한 관리대상자원들에 대한 성능장애를 사전에 예측할 수 있으며, 성능장애 오탐지를 최소화하여 보다 안정적인 정보기술(IT) 서비스를 제공할 수 있는 효과가 있다.

정보기술, 성능장애, 응용프로그램, 서버, 네트워크, 통계적 공정 관리도

Description

통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법{SYSTEM AND METHOD FOR MANAGEMENT OF PERFORMANCE FAULT USING STATISTICAL ANALYSIS}

도 1은 본 발명의 일 실시예에 따른 통계적인 분석을 이용한 성능장애 관리시스템을 전체적으로 설명하기 위한 개략적인 블록 구성도.

도 2는 본 발명의 일 실시예에 따른 통계적인 분석을 이용한 성능장애 관리방법을 전체적으로 설명하기 위한 흐름도.

도 3은 본 발명의 일 실시예에 적용된 실시간 데이터 처리방법을 설명하기 위한 개념도.

*** 도면의 주요 부분에 대한 부호 설명 ***

100 : 관리대상자원, 200 : 통합관리서버,

210 : 장애관리 데이터베이스, 230 : 통합관리 콘솔,

300 : 장애관리서버, 310 : 성능정보 데이터베이스,

330 : 장애관리 콘솔, 350 : 장애이벤트 데이터베이스,

400 : 통계정보 생성모듈

본 발명은 성능장애 관리시스템 및 그 방법에 관한 것으로, 보다 상세하게는 정보기술(IT) 서비스를 제공하기 위한 관리대상자원들의 성능정보를 실시간으로 전송 받아 통계적인 분석을 통해 성능장애를 사전에 감지하고 이를 사용자에게 통보해줌으로써, 시스템 운영에 있어서 장애를 최소화하며 성능장애의 근본 원인을 제거할 수 있도록 한 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법에 관한 것이다.

일반적으로, 정보기술(Information Technology, IT) 관리란 네트워크(Network) 관리, 시스템(System) 관리, 응용프로그램(Application) 관리, 데이터베이스(Database, DB) 관리를 통칭하는 것이다.

종래 기술의 정보기술(IT)의 관리는 관리대상으로부터 성능정보를 수집한 후, 수집한 성능정보의 값이 사전에 사용자에 의해 해당 성능정보에 대해 설정된 임계값을 초과하게 되는 상황이 발생하면, 임계값과 마찬가지로 사전에 사용자에 의해 설정된 장애허용한계(Fault Tolerance)값을 초과하게 되면 장애를 보고하는 방식이다.

이러한 종래 기술은 아래와 같이 다양한 문제점들을 내포하고 있다.

첫째, 각각의 정보기술(IT) 인프라(Infra)(예컨대, 서버, 네트워크, 데이터베이스 등)나 응용프로그램이 운영되는 시스템들의 용량(Capacity)이 다르고, 부하(Load)도 다른 상황에서 사용자들은 개별 항목에 대해서 과거의 데이터를 바탕 으로 수동으로 분석한 후 적정한(각 시스템별로 차별화된) 임계값을 일일이 수작업으로 설정해야함에 따라 시스템 운영에 많은 M/H가 소모되고 있다.

둘째, 수집된 성능정보에 대한 임계값과 장애허용범위를 바탕으로만 장애여부를 판단하기 때문에, 특정시점에서의 성능값이 평균보다 높게 나타나는 상황이 발생할 경우, 시스템의 상태는 정상일지라도 장애로 판단하는 경우가 자주 발생하게 된다.

셋째, 만약 평상시의 성능정보값이 50％ 정도를 차지하는 시스템이 있다고 가정했을 때, 일정 시간동안 수집된 값이 10∼20％ 사이라면 시스템에 문제가 발생한 상황이 분명하다. 하지만, 기존의 장애 판단 기준으로는 임계값의 범위를 벗어나지 않기 때문에 정상상태로 판정하게 되어, 결국에는 시스템에 이상이 발생할 가능성이 높다.

결론적으로, 종래의 정보기술(IT) 관리는 단순히 성능값을 수집한 후 정해진 임계치를 초과하면 장애를 보고하는 단순 시스템으로 장애의 사전 감지는 불가능하고, 정보기술(IT) 인프라(Infra) 및 응용프로그램의 특성상 문제가 되지 않는 현상인 순간적인 임계치 초과에 대한 내용까지 모두 보고가 되며, 장애의 근본 원인을 분석할 수 없을 뿐만 아니라 시스템의 성능 또한 분석할 수 없는 문제점이 있다.

본 발명은 전술한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 정보기술(IT) 서비스를 제공하기 위한 관리대상자원들의 성능정보를 실시간으로 전송 받아 통계적인 분석을 통해 성능장애를 관리함으로써, 관리대상자원들에 대한 성능장애를 사전에 예측할 수 있으며, 성능장애 오탐지를 최소화하여 보다 안정적인 정보기술(IT) 서비스를 제공할 수 있도록 한 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법을 제공하는데 있다.

전술한 목적을 달성하기 위하여 본 발명의 제1 측면은, 에이전트(Agent)를 통해 성능정보를 수집하여 전송하는 적어도 하나의 관리대상자원; 상기 관리대상자원으로부터 전송된 각각의 성능정보를 통합적으로 관리하는 통합관리서버; 상기 통합관리서버로부터 관리하는 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 추출한 후, 각각의 성능항목에 대해 통계정보를 자동으로 생성하는 통계정보 생성모듈; 및 상기 통합관리서버에서 관리하는 성능정보들을 실시간으로 제공받아 현재 각 성능정보에 대해 통계적인 분석을 수행하여 상기 통계정보 생성모듈로부터 생성된 통계정보와 비교 판단한 후, 그 판단결과에 따라 장애이벤트를 생성하여 상기 통합관리서버로 전송하는 장애관리서버를 포함하는 통계적인 분석을 이용한 성능장애 관리시스템을 제공하는 것이다.

여기서, 상기 관리대상자원은, 정보기술(IT) 서비스를 제공하기 위한 서버/하드웨어, 네트워크, 데이터베이스(DB) 또는 응용프로그램(Application)들 중 적어도 어느 하나로 이루어짐이 바람직하다.

바람직하게는, 상기 통계정보는, 관리한계선, 평균 또는 표준편차 중 적어도 어느 하나로 이루어진다.

바람직하게는, 상기 통계적인 분석은, 성능항목별로 미리 설정된 통계적 공정 관리도에 따라 실시간으로 분석한다.

바람직하게는, 상기 통계적 공정 관리도는, Xbar-R 관리도, Xbar-S 관리도, I-MR 관리도, C 관리도 또는 U 관리도 중에서 적어도 어느 하나이다.

바람직하게는, 상기 장애관리서버는, 상기 통합관리서버에서 관리하는 성능정보들을 실시간으로 제공받아 별도로 마련된 성능정보 데이터베이스에 저장하고, 필요에 따라 상기 성능정보 데이터베이스에 저장된 성능정보에 대해 통계적인 분석을 수행한다.

바람직하게는, 상기 장애관리서버는, 상기 통합관리서버에서 관리하는 성능정보들을 실시간으로 제공받아 저장 및 관리하는 성능정보 데이터베이스를 더 구비하고, 상기 통계정보 생성모듈은, 상기 성능정보 데이터베이스에 저장된 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 주기적으로 추출한 후, 각각의 성능항목에 대해 통계정보를 자동으로 생성한다.

바람직하게는, 상기 통합관리서버는, 각 관리대상자원에 성능장애가 발생할 경우 이에 대한 정보를 저장 및 관리하는 장애관리 데이터베이스를 더 구비하며, 상기 장애관리서버는, 상기 생성된 장애이벤트를 상기 장애관리 데이터베이스로 전송한다.

바람직하게는, 상기 장애관리서버는, 현재 각 성능정보에 대한 통계적인 분 석 및 상기 발생된 장애이벤트를 사용자에게 시각적으로 실시간 통보할 수 있도록 장애관리 콘솔을 더 포함한다.

바람직하게는, 상기 장애관리서버는, 현재 각 성능정보에 대해 7 규칙(Rule) 장애예측 방법을 이용하여 성능정보 패턴을 더 분석하고, 그 분석결과 장애발생 가능성이 있을 경우 상기 장애이벤트를 생성한다.

바람직하게는, 상기 장애관리서버는, 상기 생성된 장애이벤트를 저장 및 관리하는 장애이벤트 데이터베이스를 더 구비한다.

본 발명의 제2 측면은, 정보기술(IT) 서비스를 제공하기 위한 적어도 하나의 관리대상자원과, 상기 관리대상자원을 통합적으로 관리하는 통합관리서버와, 상기 관리대상자원의 성능정보들에 대한 장애발생을 모니터링(Monitoring)하는 장애관리서버를 포함하는 시스템을 이용한 성능장애 관리 방법에 있어서, (a) 상기 관리대상자원을 통해 수집된 성능정보를 상기 통합관리서버로 전송하는 단계; (b) 상기 통합관리서버를 통해 상기 수집된 성능정보를 상기 장애관리서버로 실시간 전송하는 단계; (c) 상기 장애관리서버를 통해 실시간으로 전송 받은 현재 각 성능정보에 대해 통계적인 분석을 수행하여 미리 설정된 통계정보와 비교 판단하는 단계; 및 (d) 상기 단계(c)에서의 판단결과, 장애발생 가능성이 있을 경우 장애이벤트를 생성하여 상기 통합관리서버로 전송하는 단계를 포함하는 것을 특징으로 하는 통계적인 분석을 이용한 성능장애 관리방법을 제공하는 것이다.

여기서, 상기 단계(c)에서의 통계정보는, 관리한계선, 평균 또는 표준편차 중 적어도 어느 하나를 사용함이 바람직하다.

바람직하게는, 상기 단계(c)에서의 통계적인 분석은, 성능항목별로 미리 설정된 통계적 공정 관리도에 따라 실시간으로 분석한다.

바람직하게는, 상기 통계적 공정 관리도는, Xbar-R 관리도, Xbar-S 관리도, I-MR 관리도, C 관리도 또는 U 관리도 중에서 적어도 어느 하나를 사용한다.

바람직하게는, 상기 단계(c)에서, 상기 실시간으로 제공받은 성능정보들을 별도로 마련된 성능정보 데이터베이스에 저장하고, 필요에 따라 상기 성능정보 데이터베이스에 저장된 성능정보에 대해 통계적인 분석을 수행한다.

바람직하게는, 상기 단계(c)에서의 통계정보는, 상기 실시간으로 제공받아 성능정보들을 별도로 마련된 성능정보 데이터베이스에 저장하고, 상기 성능정보 데이터베이스에 저장된 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 주기적으로 추출한 후, 각각의 성능항목에 대해 자동으로 생성한다.

바람직하게는, 상기 단계(c)에서, 현재 각 성능정보에 대해 7 규칙(Rule) 장애예측 방법을 이용하여 성능정보 패턴을 더 분석하고, 그 분석결과 장애발생 가능성이 있을 경우 상기 장애이벤트를 생성한다.

바람직하게는, 상기 단계(d)에서 생성된 장애이벤트는, 상기 통합관리서버와 연계된 장애관리 데이터베이스에 전송한다.

바람직하게는, 상기 단계(d)에서 생성된 장애이벤트는, 상기 장애관리서버와 연계된 장애이벤트 데이터베이스에 저장 및 관리한다.

바람직하게는, 상기 단계(c) 및 단계(d)에서, 현재 각 성능정보에 대한 통 계적인 분석 및 상기 발생된 장애이벤트를 사용자에게 시각적으로 실시간 통보한다.

본 발명의 제3 측면은, 상술한 통계적인 분석을 이용한 성능장애 관리방법을 실행시키기 위한 프로그램을 기록한 기록매체를 제공한다.

이하, 첨부 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다. 그러나, 다음에 예시하는 본 발명의 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시예에 한정되는 것은 아니다. 본 발명의 실시예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되어지는 것이다.

도 1은 본 발명의 일 실시예에 따른 통계적인 분석을 이용한 성능장애 관리시스템을 전체적으로 설명하기 위한 개략적인 블록 구성도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 통계적인 분석을 이용한 성능장애 관리시스템은, 크게 적어도 하나의 관리대상자원(100), 통합관리서버(200), 장애관리서버(300) 및 통계정보 생성모듈(400)을 포함하여 이루어진다.

여기서, 관리대상자원(100)은 정보기술(Information Technology, IT) 인프라(Infra) 예컨대, 서버/하드웨어(Server/Hardware), 네트워크(Network), 데이터베이스(Database, DB) 또는 정보기술(IT) 인프라를 바탕으로 서비스를 제공하는 응용프로그램(Application) 등을 포함할 수 있다.

이러한 관리대상자원(100)에서 동작하는 각각의 에이전트(Agent)들은 일정한 주기별로 성능정보 데이터들을 수집하여 통합관리서버(200)로 전송하는 기능을 수행한다.

한편, 에이전트(Agent)의 종류에 따라 성능정보를 수집하여 관리한계선(임계값)과 장애허용범위에 대한 판단까지 수행한 후, 통합관리서버(200)로 전송할 수도 있다.

통합관리서버(200)는 관리대상자원(100)으로부터 전송된 각각의 성능정보를 통합적으로 관리하는 서버로서, 관리대상자원(100)으로부터 전송된 각각의 성능정보를 장애관리서버(300)로 실시간 전송하는 기능을 수행한다.

이러한 통합관리서버(200)는 통상적으로 기업에서 도입하여 운영중인 통합관제 솔루션(Solution) 예컨대, EMS(Enterprise Management System), SMS(System Management System/Software/Service), NMS(Network Management System), AMS(Application Management System), FMS(Facility Management System) 등으로 구현될 수 있다.

한편, 통합관리서버(200)는 관리대상자원(100)으로부터 전송된 각각의 성능정보를 장애관리서버(300)로 실시간 전송함이 바람직하지만, 이에 국한하지 않으며, 장애관리서버(300)가 통합관리서버(200)의 데이터 소스에 접속하여 실시간으로 직접 가져올 수도 있다.

또한, 통합관리서버(200)는 관리대상자원(100)에 성능장애가 발생할 경우 이에 대한 정보를 저장 및 관리하는 장애관리 데이터베이스(DB)(210)를 더 포함할 수 있다.

또한, 통합관리서버(200)는 관리대상자원(100)에 대한 통합관리(예컨대, 실시간 성능정보 등) 및 성능장애 상황을 관리자에게 시각적으로 통보해주는 통합관리 콘솔(Console)(230)을 더 포함할 수 있다.

장애관리서버(300)는 통합관리서버(200)에서 관리하는 성능정보 데이터들을 실시간으로 모니터링(Monitoring)하여 성능장애 감지를 위한 통계적인 분석을 수행한 후, 순간적으로 관리한계선(임계값)을 벗어나는 의미 없는 성능장애들을 감지하여 제거하며, 관리대상자원(100)의 패턴을 분석하여 성능장애 발생 가능성이 있을 경우 이를 실시간으로 사용자에게 통보하는 기능을 수행한다.

즉, 장애관리서버(300)는 통합관리서버(200)에서 관리하는 성능정보들을 실시간으로 제공받아 현재 각 성능정보에 대해 통계적인 분석을 수행하여 통계정보 생성모듈(400)로부터 생성된 통계정보와 비교 판단한 후, 그 판단결과에 따라 장애이벤트(Fault Event)를 생성하여 통합관리서버(200)로 다시 전송하는 기능을 수행한다.

여기서, 상기 통계적인 분석(Statistical Analysis)은 성능항목별로 미리 설정된 통계적 공정 관리도에 따라 실시간으로 분석함이 바람직하다.

이때, 상기 통계적 공정 관리도는 예컨대, Xbar-R 관리도, Xbar-S 관리도, I-MR 관리도, C 관리도 또는 U 관리도 등을 적용할 수 있다.

한편, 상기 통계적 공정 관리(Statistical Process Control, SPC)는 통상적으로 공정 개선을 목표로 하며, 공정을 이해하기 위해 통계를 이용하는 기법으로 서, 어떤 공정의 변동(Variation)을 감소하기 위해서 데이터를 사용하여 안정되고 능력 있는 공정을 유지하기 위하여 활용되는 관리기법이다.

이러한 통계적 공정 관리(SPC)는 품질과 생산성의 개선을 실현하기 위한 하나의 전략으로써, 통계를 이용하여 공정산포를 이해하고 관리를 통해 목표치 주위에서 산포를 최소화하는 것을 목표로 하며, 공정으로부터 데이터를 수집하여 평균치와 범위 등의 통계량을 계산하고, 이 값들을 공정산포의 이해를 위해 사용하는 관리도에 점을 찍어 나가는 방식을 이용하여 공정에 대한 정보들(예컨대, 평균, 변동, 불량률 등)을 추정하거나 공정 능력을 결정하는데 이용한다.

여기서, 상기 '관리도'란 1924년에 "Dr. Walter Shewhart"에 의해 제안된 것으로, 공정을 관리상태로 유지하고, 공정에 이상원인이 발생하였을 경우 가능한 빨리 이를 탐지하여 수정조치를 취함으로써 불량상품의 발생을 사전에 억제하기 위해 사용하는 것이다.

한편, 전술한 통계적 공정 관리(SPC) 기법은 예컨대, 제조현장 뿐만 아니라 설비의 성능 혹은 특성, 물류관리 시스템 등에서의 운반시간, 재무/회계분야 등에서의 이익률/매출, 소프트웨어(S/W) 개발 등 다양한 분야에서 널리 적용되고 있는 것으로서, 이에 대한 상세한 설명은 생략하기로 한다.

또한, 장애관리서버(300)는 통합관리서버(200)에서 관리하는 성능정보들을 실시간으로 제공받아 저장 및 관리하는 성능정보 데이터베이스(DB)(310)를 더 포함할 수 있으며, 필요에 따라 추후에 사용자가 이력을 조회할 수 있을 뿐만 아니라 추후에 성능정보 데이터베이스(DB)(310)에 저장된 성능정보에 대해 통계적인 분석을 수행할 수도 있다.

또한, 장애관리서버(300)는 생성되는 장애이벤트를 통합관리서버(200)의 장애관리 데이터베이스(DB)(210)로 전송함이 바람직하다.

또한, 장애관리서버(300)는 현재 각 성능정보에 대한 통계적인 분석 및 발생되는 장애이벤트를 사용자에게 시각적으로 실시간 통보할 수 있도록 장애관리 콘솔(Console)(330)을 더 포함할 수 있다.

또한, 장애관리서버(300)는 현재 각 성능정보에 대해 통상의 7 규칙(Rule) 장애예측 방법을 이용하여 성능정보 패턴(Pattern)을 더 분석하고, 그 분석결과 장애발생 가능성이 있을 경우 장애이벤트를 생성할 수도 있다.

또한, 장애관리서버(300)는 생성되는 장애이벤트를 별도로 저장 및 관리하는 장애이벤트 데이터베이스(DB)(350)를 더 포함할 수 있으며, 추후에 사용자가 이력을 조회할 수도 있다.

그리고, 통계정보 생성모듈(400)은 통합관리서버(200)로부터 관리하는 성능정보들 중에서 사용자에 의해 미리 설정된 분석대상 성능정보의 항목들을 추출한 후, 각각의 성능항목에 대해 통계정보를 자동적으로 생성하는 기능을 수행한다. 이러한 통계정보 생성모듈(400)은 매일 특정시간에 주기적으로 동작함이 바람직하다.

즉, 이러한 통계정보 생성모듈(400)은 장애관리서버(300)의 성능정보 데이터베이스(DB)(310)에 저장된 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 주기적으로 추출한 후, 각각의 성능항목에 대해 통계정보를 자동적으로 생성하 는 기능을 수행한다.

여기서, 상기 통계정보는 예컨대, 관리한계선(임계값), 평균 또는 표준편차 등을 포함할 수 있다.

또한, 상기 추출하는 주기와 처리 데이터 양은 장애관리 콘솔(330)에서 사용자에 의해 각각의 관리도별로 사전에 설정되어 있는 상태이다. 상기 설정되는 정보들의 종류는 예컨대, 하나의 성능정보에 대해 적용할 관리도(예컨대, Xbar-R 관리도, Xbar-S 관리도, I-MR 관리도, C 관리도 또는 U 관리도 등), 부분군의 크기(1∼25), 관리한계선 변경주기(일단위), 적용 부분군 최소건수, 적용 데이터 최소건수, 스펙(SPEC)지정방식, 통계적 공정 관리(SPC) 계산방식, 범위타입, 장애허용범위, 7 규칙(Rule) 등이 포함될 수 있다.

도 2는 본 발명의 일 실시예에 따른 통계적인 분석을 이용한 성능장애 관리방법을 전체적으로 설명하기 위한 흐름도이고, 도 3은 본 발명의 일 실시예에 적용된 실시간 데이터 처리방법을 설명하기 위한 개념도이다.

도 2 및 도 3을 참조하면, 우선 관리대상자원(100, 도 1 참조)의 각 에이전트(Agent)를 통해 일정한 주기별로 수집된 성능정보 데이터를 통합관리서버(200, 도 1 참조)로 전송한다(S100).

이후에, 통합관리서버(200)는 관리대상자원(100)의 각 에이전트(Agent)로부터 수집된 성능정보 데이터를 장애관리서버(300)로 실시간 전송한다(S200).

이때, 장애관리서버(300)에서 실시간으로 전송된 성능정보 데이터를 처리하 는 방법은 도 3에 도시된 바와 같이, 통계적 처리를 위해 7개의 5부분 군으로 처리하는 예를 나타낸다.

이를 구체적으로 설명하면, 1∼17의 숫자는 들어온 데이터의 순번이며, 아래의 실선은 데이터의 그룹이 되며, 실선이 아래로 내려가는 것은 데이터의 순번에 따른 이동을 표시한다.

처음 성능정보 데이터를 수집해서 부분군의 개수만큼 들어올 때까지 대기하다가 7번째 데이터가 들어오면, 현재 부분군(1∼7)에 대한 통계적 공정 관리(SPC)계산 및 패턴 분석의 한 방법인 7 규칙(Rule)을 적용하고, 8번째 데이터가 오면 현재 부분군이 (2∼8)로 이동하고 과거 부분군(1)의 크기가 1이므로 현재 부분군(2∼8)만 계산하고 과거 부분군(1)은 계산하지 않는다.

다음으로, 9번째 데이터가 오면 현재 부분군이 (3∼9)로 이동하고 과거 부분군(1∼2)의 크기가 1 이상이므로 현재 부분군(3∼9)과 과거 부분군(1∼2)을 모두 계산한다.

상기와 같은 방법으로 계산하여 마지막으로, 14번째 데이터가 오면 현재 부분군이 (8∼14)로 이동하고 과거 부분군(1∼7)의 크기가 1 이상이므로 현재 부분군(8∼14)과 과거 부분군(1∼7)을 모두 계산한다.

이때, 과거 부분군(1∼7)의 계산된 값은 맨 처음의 현재 부분군(1∼7)의 계산값과 동일하게 된다. 결과적으로 데이터가 하나 들어올 때마다 새로 들어온 데이터를 기준으로 부분군 개수보다 1적은 과거데이터를 이용하여 부분군 처리를 하여 실시간으로 처리하게 된다.

다음으로, 장애관리서버(300)를 통해 상기 단계S200에서 실시간으로 전송 받은 현재 각 성능정보 데이터에 대해 통계적인 분석을 수행하여 미리 설정된 통계정보(예컨대, 관리한계선, 평균 또는 표준편차 등)와 비교 판단한 후(S300), 장애발생 가능성이 있을 경우 장애이벤트를 생성하여 통합관리서버(200)로 전송한다(S400).

여기서, 상기 통계적인 분석은 성능항목별로 미리 설정된 통계적 공정 관리도(예컨대, Xbar-R 관리도, Xbar-S 관리도, I-MR 관리도, C 관리도 또는 U 관리도 등)에 따라 실시간으로 분석한다.

또한, 상기 단계S300에서, 실시간으로 제공받은 성능정보 데이터들을 별도로 마련된 성능정보 데이터베이스(DB)(310, 도 1 참조)에 저장하고, 필요에 따라 성능정보 데이터베이스(DB)(310)에 저장된 성능정보 데이터에 대해 통계적인 분석을 수행할 수 있다.

또한, 상기 단계S300에서의 통계정보는 성능정보 데이터베이스(DB)(310)에 저장된 성능정보 데이터들 중에서 사용자에 의해 미리 설정된 분석대상 성능항목들을 주기적으로 추출한 후, 각각의 성능항목에 대해 자동으로 생성함이 바람직하다.

또한, 상기 단계S300에서, 현재 각 성능정보 데이터에 대해 통상의 7 규칙(Rule) 장애예측 방법을 이용하여 성능정보 패턴을 더 분석하고, 그 분석결과 장애발생 가능성이 있을 경우 장애이벤트를 생성함이 바람직하다.

또한, 상기 단계S400에서 생성된 장애이벤트는 통합관리서버(200)와 연계된 장애관리 데이터베이스(DB)(210, 도 1 참조)에 전송함이 바람직하다.

또한, 상기 단계S400에서 생성된 장애이벤트는 장애관리서버(300)와 연계된 장애이벤트 데이터베이스(DB)(350, 도 1 참조)에 저장 및 관리함이 바람직하다.

또한, 상기 단계S300 및 단계S400에서, 현재 각 성능정보에 대한 통계적인 분석 및 발생된 장애이벤트를 장애관리 콘솔(330, 도 1 참조)을 통해 사용자에게 시각적으로 실시간 통보할 수 있다.

전술한 바와 같이, 본 발명은 통계적 공정 관리(SPC) 사전 예측 방법인 7 규칙(Rule)을 이용하여 장애를 사전에 감지할 수 있으며, 관리 대상항목의 데이터를 보관하고 있다가 7 규칙(Rule)과 패턴이 동일하여지면, 이를 장애의 사전 징후로 판단하여 사용자에게 장애의 가능성을 판단하여 장애발생 이전에 조치가 가능하도록 할 수 있다.

또한, 본 발명은 통계적 공정 관리(SPC)도인 Xbar-R, Xbar-S, I-MR, C 또는 U 관리도 등을 실시간으로 계산한 후, 그 결과를 사용자에게 시각적인 형태인 그래프(Graph)로 보여 주어 계수형, 계량형 데이터들의 분석 결과를 실시간으로 분석하여 공정을 개선할 수 있도록 하여준다.

예컨대, 시스템의 경우를 살펴보면 간헐적으로 배치작업이 수행되는 서버가 아닌 24시간×365일 온라인 서비스를 제공하는 서버의 경우나, 무중단으로 가동되는 제조라인의 설비를 제어하는 장비의 경우에는 시차에 따른 편차 없이 일정 수준의 시스템 리소스를 항상 균등하게 사용할 것이다.

이러한 시스템의 중앙처리장치(CPU)에 대한 이용(Utilization)값이나 메모리(Memory)에 대한 Usage값을 통계적 공정 관리(SPC)를 통해 관리하면, 비정상적으로 시스템 리소스들을 사용할 경우를 바로 확인하여 장애를 사전에 예방할 수 있다.

또한, 응용프로그램(Application)의 경우에는 24시간 운영되는 온라인 프로세스나 트랜잭션 또는 웹페이지에 대한 응답시간, 처리건수, 에러건수 등의 항목에 대하여 통계적 공정 관리(SPC)를 적용하여 사전에 장애를 예방할 수 있다.

한편, 본 발명의 일 실시예에 따른 통계적인 분석을 이용한 성능장애 관리방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.

예컨대, 컴퓨터가 읽을 수 있는 기록매체로는 롬(ROM), 램(RAM), 시디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피디스크, 이동식 저장장치, 비휘발성 메모리(flash memory), 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다.

또한, 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

전술한 본 발명에 따른 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법에 대한 바람직한 실시예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 특허청구범위와 발명의 상세한 설명 및 첨부한 도면의 범위 안에서 여러 가지로 변형하여 실시하는 것이 가능하고 이 또한 본 발명에 속한다.

이상에서 설명한 바와 같은 본 발명의 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법에 따르면, 정보기술(IT) 서비스를 제공하기 위한 관리대상자원들의 성능정보를 실시간으로 전송 받아 통계적인 분석을 통해 성능장애를 관리함으로써, 관리대상자원들에 대한 성능장애를 사전에 예측할 수 있으며, 성능장애 오탐지를 최소화하여 보다 안정적인 정보기술(IT) 서비스를 제공할 수 있는 이점이 있다.

또한, 본 발명에 따르면, 시스템(System)이나 응용프로그램(Application)의 관리에 통계적 공정 관리(SPC) 기법을 적용함으로써, 첫째, 관리항목에 대한 관리한계선(임계값)의 자동 설정 기능이다. 즉, 사용자가 각각의 성능지표에 대해 개별적으로 확인한 후 일일이 수작업으로 관리한계선(임계값)을 지정하는 것이 아니라, 과거 통계 데이터에 근거하여 사용자의 별도 설정 작업 없이 자동으로 관리한계선(임계값)을 적용하여 모니터링을 손쉽게 수행할 수 있다.

둘째, 장애 사전 예방조치 기능이다. 즉, 서버나 응용프로그램의 과거 성능 지표를 바탕으로 하여 계산된 통계값을 활용하여 해당 서버나 응용프로그램에 특 화된 관리한계선(임계값)과 패턴(7 Rule)을 적용하여 장애가 발생한 후 감지를 하는 것이 아니라, 사전에 감지를 수행하여 무장애 운영환경을 지원할 수 있다.

셋째, 장애 오탐지를 최소화할 수 있다. 즉, 개별 성능값에 대한 장애 판단이 아닌 부분군의 평균값과 산포를 활용하여 장애를 측정하기 때문에, 순간적으로 높낮이가 심한 경우가 발생하여도 데이터에 대한 왜곡이 발생하지 않아 오탐지를 최소화 할 수 있다.

넷째, 시스템 리소스에 대한 용량을 비교하여 자원 재분배를 도와준다. 즉, 여러 대의 서버에 대한 중앙처리장치(CPU) 사용량과 메모리 사용량 등을 동시에 확인/분석함으로써, 자원의 편중성과 유휴성을 감안하여 사용자가 시스템 리소스에 대한 확장 또는 재분배 작업을 수행할 수 있는 근거 자료를 제공할 수 있다.

Claims

에이전트(Agent)를 통해 성능정보를 수집하여 전송하는 적어도 하나의 관리대상자원;

상기 관리대상자원으로부터 전송된 각각의 성능정보를 통합적으로 관리하는 통합관리서버;

상기 통합관리서버로부터 관리하는 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 추출한 후, 각각의 성능항목에 대해 통계정보를 자동으로 생성하는 통계정보 생성모듈; 및

상기 통합관리서버에서 관리하는 성능정보들을 실시간으로 제공받아 현재 각 성능정보에 대해 통계적인 분석을 수행하여 상기 통계정보 생성모듈로부터 생성된 통계정보와 비교 판단한 후, 그 판단결과에 따라 장애이벤트를 생성하여 상기 통합관리서버로 전송하는 장애관리서버를 포함하는 통계적인 분석을 이용한 성능장애 관리시스템.
제 1 항에 있어서, 상기 관리대상자원은,

정보기술(IT) 서비스를 제공하기 위한 서버/하드웨어, 네트워크, 데이터베이스(DB) 또는 응용프로그램(Application)들 중 적어도 어느 하나로 이루어진 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
제 1 항에 있어서, 상기 통계정보는,

관리한계선, 평균 또는 표준편차 중 적어도 어느 하나로 이루어진 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
제 1 항에 있어서, 상기 통계적인 분석은,

성능항목별로 미리 설정된 통계적 공정 관리도에 따라 실시간으로 분석하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
제 4 항에 있어서, 상기 통계적 공정 관리도는,

Xbar-R 관리도, Xbar-S 관리도, I-MR 관리도, C 관리도 또는 U 관리도 중에서 적어도 어느 하나인 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
제 1 항에 있어서, 상기 장애관리서버는,

상기 통합관리서버에서 관리하는 성능정보들을 실시간으로 제공받아 별도로 마련된 성능정보 데이터베이스에 저장하고, 필요에 따라 상기 성능정보 데이터베이스에 저장된 성능정보에 대해 통계적인 분석을 수행하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
제 1 항에 있어서, 상기 장애관리서버는,

상기 통합관리서버에서 관리하는 성능정보들을 실시간으로 제공받아 저장 및 관리하는 성능정보 데이터베이스를 더 구비하고,

상기 통계정보 생성모듈은,

상기 성능정보 데이터베이스에 저장된 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 주기적으로 추출한 후, 각각의 성능항목에 대해 통계정보를 자동으로 생성하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
제 1 항에 있어서, 상기 통합관리서버는,

각 관리대상자원에 성능장애가 발생할 경우 이에 대한 정보를 저장 및 관리하는 장애관리 데이터베이스를 더 구비하며,

상기 장애관리서버는,

상기 생성된 장애이벤트를 상기 장애관리 데이터베이스로 전송하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
제 1 항에 있어서, 상기 장애관리서버는,

현재 각 성능정보에 대한 통계적인 분석 및 상기 발생된 장애이벤트를 사용자에게 시각적으로 실시간 통보할 수 있도록 장애관리 콘솔을 더 포함하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
제 1 항에 있어서, 상기 장애관리서버는,

현재 각 성능정보에 대해 7 규칙(Rule) 장애예측 방법을 이용하여 성능정보 패턴을 더 분석하고, 그 분석결과 장애발생 가능성이 있을 경우 상기 장애이벤트를 생성하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
제 1 항에 있어서, 상기 장애관리서버는,

상기 생성된 장애이벤트를 저장 및 관리하는 장애이벤트 데이터베이스를 더 구비하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
정보기술(IT) 서비스를 제공하기 위한 적어도 하나의 관리대상자원과, 상기 관리대상자원을 통합적으로 관리하는 통합관리서버와, 상기 관리대상자원의 성능정보들에 대한 장애발생을 모니터링(Monitoring)하는 장애관리서버를 포함하는 시스템을 이용한 성능장애 관리 방법에 있어서,

(a) 상기 관리대상자원을 통해 수집된 성능정보를 상기 통합관리서버로 전송하는 단계;

(b) 상기 통합관리서버를 통해 상기 수집된 성능정보를 상기 장애관리서버로 실시간 전송하는 단계;

(c) 상기 장애관리서버를 통해 실시간으로 전송 받은 현재 각 성능정보에 대해 통계적인 분석을 수행하여 미리 설정된 통계정보와 비교 판단하는 단계; 및

(d) 상기 단계(c)에서의 판단결과, 장애발생 가능성이 있을 경우 장애이벤트를 생성하여 상기 통합관리서버로 전송하는 단계를 포함하는 것을 특징으로 하는 통계적인 분석을 이용한 성능장애 관리방법.
제 12 항에 있어서, 상기 단계(c)에서의 통계정보는,

관리한계선, 평균 또는 표준편차 중 적어도 어느 하나를 사용하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
제 12 항에 있어서, 상기 단계(c)에서의 통계적인 분석은,

성능항목별로 미리 설정된 통계적 공정 관리도에 따라 실시간으로 분석하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
제 14 항에 있어서, 상기 통계적 공정 관리도는,

Xbar-R 관리도, Xbar-S 관리도, I-MR 관리도, C 관리도 또는 U 관리도 중에서 적어도 어느 하나를 사용하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
제 12 항에 있어서, 상기 단계(c)에서,

상기 실시간으로 제공받은 성능정보들을 별도로 마련된 성능정보 데이터베이스에 저장하고, 필요에 따라 상기 성능정보 데이터베이스에 저장된 성능정보에 대해 통계적인 분석을 수행하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
제 12 항에 있어서, 상기 단계(c)에서의 통계정보는,

상기 실시간으로 제공받아 성능정보들을 별도로 마련된 성능정보 데이터베이스에 저장하고, 상기 성능정보 데이터베이스에 저장된 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 주기적으로 추출한 후, 각각의 성능항목에 대해 자동으로 생성하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
제 12 항에 있어서, 상기 단계(c)에서,

현재 각 성능정보에 대해 7 규칙(Rule) 장애예측 방법을 이용하여 성능정보 패턴을 더 분석하고, 그 분석결과 장애발생 가능성이 있을 경우 상기 장애이벤트를 생성하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
제 12 항에 있어서, 상기 단계(d)에서 생성된 장애이벤트는,

상기 통합관리서버와 연계된 장애관리 데이터베이스에 전송하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
제 12 항에 있어서, 상기 단계(d)에서 생성된 장애이벤트는,

상기 장애관리서버와 연계된 장애이벤트 데이터베이스에 저장 및 관리하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
제 12 항에 있어서, 상기 단계(c) 및 단계(d)에서,

현재 각 성능정보에 대한 통계적인 분석 및 상기 발생된 장애이벤트를 사용자에게 시각적으로 실시간 통보하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
제 12 항 내지 제 21 항 중 어느 한 항의 방법을 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.