KR20080044508A - 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법 - Google Patents

통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법 Download PDF

Info

Publication number
KR20080044508A
KR20080044508A KR1020060113444A KR20060113444A KR20080044508A KR 20080044508 A KR20080044508 A KR 20080044508A KR 1020060113444 A KR1020060113444 A KR 1020060113444A KR 20060113444 A KR20060113444 A KR 20060113444A KR 20080044508 A KR20080044508 A KR 20080044508A
Authority
KR
South Korea
Prior art keywords
performance
failure
management server
information
statistical analysis
Prior art date
Application number
KR1020060113444A
Other languages
English (en)
Other versions
KR100840129B1 (ko
Inventor
김병섭
이치훈
박재희
신정호
박치훈
김종선
류성화
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020060113444A priority Critical patent/KR100840129B1/ko
Priority to JP2009537063A priority patent/JP2010526352A/ja
Priority to CN200780042321A priority patent/CN101632093A/zh
Priority to PCT/KR2007/001753 priority patent/WO2008060015A1/en
Priority to US12/514,928 priority patent/US20100082708A1/en
Publication of KR20080044508A publication Critical patent/KR20080044508A/ko
Application granted granted Critical
Publication of KR100840129B1 publication Critical patent/KR100840129B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Abstract

본 발명은 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법에 관한 것으로, 에이전트(Agent)를 통해 성능정보를 수집하여 전송하는 적어도 하나의 관리대상자원과, 상기 관리대상자원으로부터 전송된 각각의 성능정보를 통합적으로 관리하는 통합관리서버와, 상기 통합관리서버로부터 관리하는 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 추출한 후, 각각의 성능항목에 대해 통계정보를 자동으로 생성하는 통계정보 생성모듈과, 상기 통합관리서버에서 관리하는 성능정보들을 실시간으로 제공받아 현재 각 성능정보에 대해 통계적인 분석을 수행하여 상기 통계정보 생성모듈로부터 생성된 통계정보와 비교 판단한 후, 그 판단결과에 따라 장애이벤트를 생성하여 상기 통합관리서버로 전송하는 장애관리서버를 포함함으로써, 정보기술(IT) 서비스를 제공하기 위한 관리대상자원들에 대한 성능장애를 사전에 예측할 수 있으며, 성능장애 오탐지를 최소화하여 보다 안정적인 정보기술(IT) 서비스를 제공할 수 있는 효과가 있다.
Figure P1020060113444
정보기술, 성능장애, 응용프로그램, 서버, 네트워크, 통계적 공정 관리도

Description

통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법{SYSTEM AND METHOD FOR MANAGEMENT OF PERFORMANCE FAULT USING STATISTICAL ANALYSIS}
도 1은 본 발명의 일 실시예에 따른 통계적인 분석을 이용한 성능장애 관리시스템을 전체적으로 설명하기 위한 개략적인 블록 구성도.
도 2는 본 발명의 일 실시예에 따른 통계적인 분석을 이용한 성능장애 관리방법을 전체적으로 설명하기 위한 흐름도.
도 3은 본 발명의 일 실시예에 적용된 실시간 데이터 처리방법을 설명하기 위한 개념도.
*** 도면의 주요 부분에 대한 부호 설명 ***
100 : 관리대상자원, 200 : 통합관리서버,
210 : 장애관리 데이터베이스, 230 : 통합관리 콘솔,
300 : 장애관리서버, 310 : 성능정보 데이터베이스,
330 : 장애관리 콘솔, 350 : 장애이벤트 데이터베이스,
400 : 통계정보 생성모듈
본 발명은 성능장애 관리시스템 및 그 방법에 관한 것으로, 보다 상세하게는 정보기술(IT) 서비스를 제공하기 위한 관리대상자원들의 성능정보를 실시간으로 전송 받아 통계적인 분석을 통해 성능장애를 사전에 감지하고 이를 사용자에게 통보해줌으로써, 시스템 운영에 있어서 장애를 최소화하며 성능장애의 근본 원인을 제거할 수 있도록 한 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법에 관한 것이다.
일반적으로, 정보기술(Information Technology, IT) 관리란 네트워크(Network) 관리, 시스템(System) 관리, 응용프로그램(Application) 관리, 데이터베이스(Database, DB) 관리를 통칭하는 것이다.
종래 기술의 정보기술(IT)의 관리는 관리대상으로부터 성능정보를 수집한 후, 수집한 성능정보의 값이 사전에 사용자에 의해 해당 성능정보에 대해 설정된 임계값을 초과하게 되는 상황이 발생하면, 임계값과 마찬가지로 사전에 사용자에 의해 설정된 장애허용한계(Fault Tolerance)값을 초과하게 되면 장애를 보고하는 방식이다.
이러한 종래 기술은 아래와 같이 다양한 문제점들을 내포하고 있다.
첫째, 각각의 정보기술(IT) 인프라(Infra)(예컨대, 서버, 네트워크, 데이터베이스 등)나 응용프로그램이 운영되는 시스템들의 용량(Capacity)이 다르고, 부하(Load)도 다른 상황에서 사용자들은 개별 항목에 대해서 과거의 데이터를 바탕 으로 수동으로 분석한 후 적정한(각 시스템별로 차별화된) 임계값을 일일이 수작업으로 설정해야함에 따라 시스템 운영에 많은 M/H가 소모되고 있다.
둘째, 수집된 성능정보에 대한 임계값과 장애허용범위를 바탕으로만 장애여부를 판단하기 때문에, 특정시점에서의 성능값이 평균보다 높게 나타나는 상황이 발생할 경우, 시스템의 상태는 정상일지라도 장애로 판단하는 경우가 자주 발생하게 된다.
셋째, 만약 평상시의 성능정보값이 50% 정도를 차지하는 시스템이 있다고 가정했을 때, 일정 시간동안 수집된 값이 10∼20% 사이라면 시스템에 문제가 발생한 상황이 분명하다. 하지만, 기존의 장애 판단 기준으로는 임계값의 범위를 벗어나지 않기 때문에 정상상태로 판정하게 되어, 결국에는 시스템에 이상이 발생할 가능성이 높다.
결론적으로, 종래의 정보기술(IT) 관리는 단순히 성능값을 수집한 후 정해진 임계치를 초과하면 장애를 보고하는 단순 시스템으로 장애의 사전 감지는 불가능하고, 정보기술(IT) 인프라(Infra) 및 응용프로그램의 특성상 문제가 되지 않는 현상인 순간적인 임계치 초과에 대한 내용까지 모두 보고가 되며, 장애의 근본 원인을 분석할 수 없을 뿐만 아니라 시스템의 성능 또한 분석할 수 없는 문제점이 있다.
본 발명은 전술한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 정보기술(IT) 서비스를 제공하기 위한 관리대상자원들의 성능정보를 실시간으로 전송 받아 통계적인 분석을 통해 성능장애를 관리함으로써, 관리대상자원들에 대한 성능장애를 사전에 예측할 수 있으며, 성능장애 오탐지를 최소화하여 보다 안정적인 정보기술(IT) 서비스를 제공할 수 있도록 한 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법을 제공하는데 있다.
전술한 목적을 달성하기 위하여 본 발명의 제1 측면은, 에이전트(Agent)를 통해 성능정보를 수집하여 전송하는 적어도 하나의 관리대상자원; 상기 관리대상자원으로부터 전송된 각각의 성능정보를 통합적으로 관리하는 통합관리서버; 상기 통합관리서버로부터 관리하는 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 추출한 후, 각각의 성능항목에 대해 통계정보를 자동으로 생성하는 통계정보 생성모듈; 및 상기 통합관리서버에서 관리하는 성능정보들을 실시간으로 제공받아 현재 각 성능정보에 대해 통계적인 분석을 수행하여 상기 통계정보 생성모듈로부터 생성된 통계정보와 비교 판단한 후, 그 판단결과에 따라 장애이벤트를 생성하여 상기 통합관리서버로 전송하는 장애관리서버를 포함하는 통계적인 분석을 이용한 성능장애 관리시스템을 제공하는 것이다.
여기서, 상기 관리대상자원은, 정보기술(IT) 서비스를 제공하기 위한 서버/하드웨어, 네트워크, 데이터베이스(DB) 또는 응용프로그램(Application)들 중 적어도 어느 하나로 이루어짐이 바람직하다.
바람직하게는, 상기 통계정보는, 관리한계선, 평균 또는 표준편차 중 적어도 어느 하나로 이루어진다.
바람직하게는, 상기 통계적인 분석은, 성능항목별로 미리 설정된 통계적 공정 관리도에 따라 실시간으로 분석한다.
바람직하게는, 상기 통계적 공정 관리도는, Xbar-R 관리도, Xbar-S 관리도, I-MR 관리도, C 관리도 또는 U 관리도 중에서 적어도 어느 하나이다.
바람직하게는, 상기 장애관리서버는, 상기 통합관리서버에서 관리하는 성능정보들을 실시간으로 제공받아 별도로 마련된 성능정보 데이터베이스에 저장하고, 필요에 따라 상기 성능정보 데이터베이스에 저장된 성능정보에 대해 통계적인 분석을 수행한다.
바람직하게는, 상기 장애관리서버는, 상기 통합관리서버에서 관리하는 성능정보들을 실시간으로 제공받아 저장 및 관리하는 성능정보 데이터베이스를 더 구비하고, 상기 통계정보 생성모듈은, 상기 성능정보 데이터베이스에 저장된 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 주기적으로 추출한 후, 각각의 성능항목에 대해 통계정보를 자동으로 생성한다.
바람직하게는, 상기 통합관리서버는, 각 관리대상자원에 성능장애가 발생할 경우 이에 대한 정보를 저장 및 관리하는 장애관리 데이터베이스를 더 구비하며, 상기 장애관리서버는, 상기 생성된 장애이벤트를 상기 장애관리 데이터베이스로 전송한다.
바람직하게는, 상기 장애관리서버는, 현재 각 성능정보에 대한 통계적인 분 석 및 상기 발생된 장애이벤트를 사용자에게 시각적으로 실시간 통보할 수 있도록 장애관리 콘솔을 더 포함한다.
바람직하게는, 상기 장애관리서버는, 현재 각 성능정보에 대해 7 규칙(Rule) 장애예측 방법을 이용하여 성능정보 패턴을 더 분석하고, 그 분석결과 장애발생 가능성이 있을 경우 상기 장애이벤트를 생성한다.
바람직하게는, 상기 장애관리서버는, 상기 생성된 장애이벤트를 저장 및 관리하는 장애이벤트 데이터베이스를 더 구비한다.
본 발명의 제2 측면은, 정보기술(IT) 서비스를 제공하기 위한 적어도 하나의 관리대상자원과, 상기 관리대상자원을 통합적으로 관리하는 통합관리서버와, 상기 관리대상자원의 성능정보들에 대한 장애발생을 모니터링(Monitoring)하는 장애관리서버를 포함하는 시스템을 이용한 성능장애 관리 방법에 있어서, (a) 상기 관리대상자원을 통해 수집된 성능정보를 상기 통합관리서버로 전송하는 단계; (b) 상기 통합관리서버를 통해 상기 수집된 성능정보를 상기 장애관리서버로 실시간 전송하는 단계; (c) 상기 장애관리서버를 통해 실시간으로 전송 받은 현재 각 성능정보에 대해 통계적인 분석을 수행하여 미리 설정된 통계정보와 비교 판단하는 단계; 및 (d) 상기 단계(c)에서의 판단결과, 장애발생 가능성이 있을 경우 장애이벤트를 생성하여 상기 통합관리서버로 전송하는 단계를 포함하는 것을 특징으로 하는 통계적인 분석을 이용한 성능장애 관리방법을 제공하는 것이다.
여기서, 상기 단계(c)에서의 통계정보는, 관리한계선, 평균 또는 표준편차 중 적어도 어느 하나를 사용함이 바람직하다.
바람직하게는, 상기 단계(c)에서의 통계적인 분석은, 성능항목별로 미리 설정된 통계적 공정 관리도에 따라 실시간으로 분석한다.
바람직하게는, 상기 통계적 공정 관리도는, Xbar-R 관리도, Xbar-S 관리도, I-MR 관리도, C 관리도 또는 U 관리도 중에서 적어도 어느 하나를 사용한다.
바람직하게는, 상기 단계(c)에서, 상기 실시간으로 제공받은 성능정보들을 별도로 마련된 성능정보 데이터베이스에 저장하고, 필요에 따라 상기 성능정보 데이터베이스에 저장된 성능정보에 대해 통계적인 분석을 수행한다.
바람직하게는, 상기 단계(c)에서의 통계정보는, 상기 실시간으로 제공받아 성능정보들을 별도로 마련된 성능정보 데이터베이스에 저장하고, 상기 성능정보 데이터베이스에 저장된 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 주기적으로 추출한 후, 각각의 성능항목에 대해 자동으로 생성한다.
바람직하게는, 상기 단계(c)에서, 현재 각 성능정보에 대해 7 규칙(Rule) 장애예측 방법을 이용하여 성능정보 패턴을 더 분석하고, 그 분석결과 장애발생 가능성이 있을 경우 상기 장애이벤트를 생성한다.
바람직하게는, 상기 단계(d)에서 생성된 장애이벤트는, 상기 통합관리서버와 연계된 장애관리 데이터베이스에 전송한다.
바람직하게는, 상기 단계(d)에서 생성된 장애이벤트는, 상기 장애관리서버와 연계된 장애이벤트 데이터베이스에 저장 및 관리한다.
바람직하게는, 상기 단계(c) 및 단계(d)에서, 현재 각 성능정보에 대한 통 계적인 분석 및 상기 발생된 장애이벤트를 사용자에게 시각적으로 실시간 통보한다.
본 발명의 제3 측면은, 상술한 통계적인 분석을 이용한 성능장애 관리방법을 실행시키기 위한 프로그램을 기록한 기록매체를 제공한다.
이하, 첨부 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다. 그러나, 다음에 예시하는 본 발명의 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시예에 한정되는 것은 아니다. 본 발명의 실시예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되어지는 것이다.
도 1은 본 발명의 일 실시예에 따른 통계적인 분석을 이용한 성능장애 관리시스템을 전체적으로 설명하기 위한 개략적인 블록 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 통계적인 분석을 이용한 성능장애 관리시스템은, 크게 적어도 하나의 관리대상자원(100), 통합관리서버(200), 장애관리서버(300) 및 통계정보 생성모듈(400)을 포함하여 이루어진다.
여기서, 관리대상자원(100)은 정보기술(Information Technology, IT) 인프라(Infra) 예컨대, 서버/하드웨어(Server/Hardware), 네트워크(Network), 데이터베이스(Database, DB) 또는 정보기술(IT) 인프라를 바탕으로 서비스를 제공하는 응용프로그램(Application) 등을 포함할 수 있다.
이러한 관리대상자원(100)에서 동작하는 각각의 에이전트(Agent)들은 일정한 주기별로 성능정보 데이터들을 수집하여 통합관리서버(200)로 전송하는 기능을 수행한다.
한편, 에이전트(Agent)의 종류에 따라 성능정보를 수집하여 관리한계선(임계값)과 장애허용범위에 대한 판단까지 수행한 후, 통합관리서버(200)로 전송할 수도 있다.
통합관리서버(200)는 관리대상자원(100)으로부터 전송된 각각의 성능정보를 통합적으로 관리하는 서버로서, 관리대상자원(100)으로부터 전송된 각각의 성능정보를 장애관리서버(300)로 실시간 전송하는 기능을 수행한다.
이러한 통합관리서버(200)는 통상적으로 기업에서 도입하여 운영중인 통합관제 솔루션(Solution) 예컨대, EMS(Enterprise Management System), SMS(System Management System/Software/Service), NMS(Network Management System), AMS(Application Management System), FMS(Facility Management System) 등으로 구현될 수 있다.
한편, 통합관리서버(200)는 관리대상자원(100)으로부터 전송된 각각의 성능정보를 장애관리서버(300)로 실시간 전송함이 바람직하지만, 이에 국한하지 않으며, 장애관리서버(300)가 통합관리서버(200)의 데이터 소스에 접속하여 실시간으로 직접 가져올 수도 있다.
또한, 통합관리서버(200)는 관리대상자원(100)에 성능장애가 발생할 경우 이에 대한 정보를 저장 및 관리하는 장애관리 데이터베이스(DB)(210)를 더 포함할 수 있다.
또한, 통합관리서버(200)는 관리대상자원(100)에 대한 통합관리(예컨대, 실시간 성능정보 등) 및 성능장애 상황을 관리자에게 시각적으로 통보해주는 통합관리 콘솔(Console)(230)을 더 포함할 수 있다.
장애관리서버(300)는 통합관리서버(200)에서 관리하는 성능정보 데이터들을 실시간으로 모니터링(Monitoring)하여 성능장애 감지를 위한 통계적인 분석을 수행한 후, 순간적으로 관리한계선(임계값)을 벗어나는 의미 없는 성능장애들을 감지하여 제거하며, 관리대상자원(100)의 패턴을 분석하여 성능장애 발생 가능성이 있을 경우 이를 실시간으로 사용자에게 통보하는 기능을 수행한다.
즉, 장애관리서버(300)는 통합관리서버(200)에서 관리하는 성능정보들을 실시간으로 제공받아 현재 각 성능정보에 대해 통계적인 분석을 수행하여 통계정보 생성모듈(400)로부터 생성된 통계정보와 비교 판단한 후, 그 판단결과에 따라 장애이벤트(Fault Event)를 생성하여 통합관리서버(200)로 다시 전송하는 기능을 수행한다.
여기서, 상기 통계적인 분석(Statistical Analysis)은 성능항목별로 미리 설정된 통계적 공정 관리도에 따라 실시간으로 분석함이 바람직하다.
이때, 상기 통계적 공정 관리도는 예컨대, Xbar-R 관리도, Xbar-S 관리도, I-MR 관리도, C 관리도 또는 U 관리도 등을 적용할 수 있다.
한편, 상기 통계적 공정 관리(Statistical Process Control, SPC)는 통상적으로 공정 개선을 목표로 하며, 공정을 이해하기 위해 통계를 이용하는 기법으로 서, 어떤 공정의 변동(Variation)을 감소하기 위해서 데이터를 사용하여 안정되고 능력 있는 공정을 유지하기 위하여 활용되는 관리기법이다.
이러한 통계적 공정 관리(SPC)는 품질과 생산성의 개선을 실현하기 위한 하나의 전략으로써, 통계를 이용하여 공정산포를 이해하고 관리를 통해 목표치 주위에서 산포를 최소화하는 것을 목표로 하며, 공정으로부터 데이터를 수집하여 평균치와 범위 등의 통계량을 계산하고, 이 값들을 공정산포의 이해를 위해 사용하는 관리도에 점을 찍어 나가는 방식을 이용하여 공정에 대한 정보들(예컨대, 평균, 변동, 불량률 등)을 추정하거나 공정 능력을 결정하는데 이용한다.
여기서, 상기 '관리도'란 1924년에 "Dr. Walter Shewhart"에 의해 제안된 것으로, 공정을 관리상태로 유지하고, 공정에 이상원인이 발생하였을 경우 가능한 빨리 이를 탐지하여 수정조치를 취함으로써 불량상품의 발생을 사전에 억제하기 위해 사용하는 것이다.
한편, 전술한 통계적 공정 관리(SPC) 기법은 예컨대, 제조현장 뿐만 아니라 설비의 성능 혹은 특성, 물류관리 시스템 등에서의 운반시간, 재무/회계분야 등에서의 이익률/매출, 소프트웨어(S/W) 개발 등 다양한 분야에서 널리 적용되고 있는 것으로서, 이에 대한 상세한 설명은 생략하기로 한다.
또한, 장애관리서버(300)는 통합관리서버(200)에서 관리하는 성능정보들을 실시간으로 제공받아 저장 및 관리하는 성능정보 데이터베이스(DB)(310)를 더 포함할 수 있으며, 필요에 따라 추후에 사용자가 이력을 조회할 수 있을 뿐만 아니라 추후에 성능정보 데이터베이스(DB)(310)에 저장된 성능정보에 대해 통계적인 분석을 수행할 수도 있다.
또한, 장애관리서버(300)는 생성되는 장애이벤트를 통합관리서버(200)의 장애관리 데이터베이스(DB)(210)로 전송함이 바람직하다.
또한, 장애관리서버(300)는 현재 각 성능정보에 대한 통계적인 분석 및 발생되는 장애이벤트를 사용자에게 시각적으로 실시간 통보할 수 있도록 장애관리 콘솔(Console)(330)을 더 포함할 수 있다.
또한, 장애관리서버(300)는 현재 각 성능정보에 대해 통상의 7 규칙(Rule) 장애예측 방법을 이용하여 성능정보 패턴(Pattern)을 더 분석하고, 그 분석결과 장애발생 가능성이 있을 경우 장애이벤트를 생성할 수도 있다.
또한, 장애관리서버(300)는 생성되는 장애이벤트를 별도로 저장 및 관리하는 장애이벤트 데이터베이스(DB)(350)를 더 포함할 수 있으며, 추후에 사용자가 이력을 조회할 수도 있다.
그리고, 통계정보 생성모듈(400)은 통합관리서버(200)로부터 관리하는 성능정보들 중에서 사용자에 의해 미리 설정된 분석대상 성능정보의 항목들을 추출한 후, 각각의 성능항목에 대해 통계정보를 자동적으로 생성하는 기능을 수행한다. 이러한 통계정보 생성모듈(400)은 매일 특정시간에 주기적으로 동작함이 바람직하다.
즉, 이러한 통계정보 생성모듈(400)은 장애관리서버(300)의 성능정보 데이터베이스(DB)(310)에 저장된 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 주기적으로 추출한 후, 각각의 성능항목에 대해 통계정보를 자동적으로 생성하 는 기능을 수행한다.
여기서, 상기 통계정보는 예컨대, 관리한계선(임계값), 평균 또는 표준편차 등을 포함할 수 있다.
또한, 상기 추출하는 주기와 처리 데이터 양은 장애관리 콘솔(330)에서 사용자에 의해 각각의 관리도별로 사전에 설정되어 있는 상태이다. 상기 설정되는 정보들의 종류는 예컨대, 하나의 성능정보에 대해 적용할 관리도(예컨대, Xbar-R 관리도, Xbar-S 관리도, I-MR 관리도, C 관리도 또는 U 관리도 등), 부분군의 크기(1∼25), 관리한계선 변경주기(일단위), 적용 부분군 최소건수, 적용 데이터 최소건수, 스펙(SPEC)지정방식, 통계적 공정 관리(SPC) 계산방식, 범위타입, 장애허용범위, 7 규칙(Rule) 등이 포함될 수 있다.
도 2는 본 발명의 일 실시예에 따른 통계적인 분석을 이용한 성능장애 관리방법을 전체적으로 설명하기 위한 흐름도이고, 도 3은 본 발명의 일 실시예에 적용된 실시간 데이터 처리방법을 설명하기 위한 개념도이다.
도 2 및 도 3을 참조하면, 우선 관리대상자원(100, 도 1 참조)의 각 에이전트(Agent)를 통해 일정한 주기별로 수집된 성능정보 데이터를 통합관리서버(200, 도 1 참조)로 전송한다(S100).
이후에, 통합관리서버(200)는 관리대상자원(100)의 각 에이전트(Agent)로부터 수집된 성능정보 데이터를 장애관리서버(300)로 실시간 전송한다(S200).
이때, 장애관리서버(300)에서 실시간으로 전송된 성능정보 데이터를 처리하 는 방법은 도 3에 도시된 바와 같이, 통계적 처리를 위해 7개의 5부분 군으로 처리하는 예를 나타낸다.
이를 구체적으로 설명하면, 1∼17의 숫자는 들어온 데이터의 순번이며, 아래의 실선은 데이터의 그룹이 되며, 실선이 아래로 내려가는 것은 데이터의 순번에 따른 이동을 표시한다.
처음 성능정보 데이터를 수집해서 부분군의 개수만큼 들어올 때까지 대기하다가 7번째 데이터가 들어오면, 현재 부분군(1∼7)에 대한 통계적 공정 관리(SPC)계산 및 패턴 분석의 한 방법인 7 규칙(Rule)을 적용하고, 8번째 데이터가 오면 현재 부분군이 (2∼8)로 이동하고 과거 부분군(1)의 크기가 1이므로 현재 부분군(2∼8)만 계산하고 과거 부분군(1)은 계산하지 않는다.
다음으로, 9번째 데이터가 오면 현재 부분군이 (3∼9)로 이동하고 과거 부분군(1∼2)의 크기가 1 이상이므로 현재 부분군(3∼9)과 과거 부분군(1∼2)을 모두 계산한다.
상기와 같은 방법으로 계산하여 마지막으로, 14번째 데이터가 오면 현재 부분군이 (8∼14)로 이동하고 과거 부분군(1∼7)의 크기가 1 이상이므로 현재 부분군(8∼14)과 과거 부분군(1∼7)을 모두 계산한다.
이때, 과거 부분군(1∼7)의 계산된 값은 맨 처음의 현재 부분군(1∼7)의 계산값과 동일하게 된다. 결과적으로 데이터가 하나 들어올 때마다 새로 들어온 데이터를 기준으로 부분군 개수보다 1적은 과거데이터를 이용하여 부분군 처리를 하여 실시간으로 처리하게 된다.
다음으로, 장애관리서버(300)를 통해 상기 단계S200에서 실시간으로 전송 받은 현재 각 성능정보 데이터에 대해 통계적인 분석을 수행하여 미리 설정된 통계정보(예컨대, 관리한계선, 평균 또는 표준편차 등)와 비교 판단한 후(S300), 장애발생 가능성이 있을 경우 장애이벤트를 생성하여 통합관리서버(200)로 전송한다(S400).
여기서, 상기 통계적인 분석은 성능항목별로 미리 설정된 통계적 공정 관리도(예컨대, Xbar-R 관리도, Xbar-S 관리도, I-MR 관리도, C 관리도 또는 U 관리도 등)에 따라 실시간으로 분석한다.
또한, 상기 단계S300에서, 실시간으로 제공받은 성능정보 데이터들을 별도로 마련된 성능정보 데이터베이스(DB)(310, 도 1 참조)에 저장하고, 필요에 따라 성능정보 데이터베이스(DB)(310)에 저장된 성능정보 데이터에 대해 통계적인 분석을 수행할 수 있다.
또한, 상기 단계S300에서의 통계정보는 성능정보 데이터베이스(DB)(310)에 저장된 성능정보 데이터들 중에서 사용자에 의해 미리 설정된 분석대상 성능항목들을 주기적으로 추출한 후, 각각의 성능항목에 대해 자동으로 생성함이 바람직하다.
또한, 상기 단계S300에서, 현재 각 성능정보 데이터에 대해 통상의 7 규칙(Rule) 장애예측 방법을 이용하여 성능정보 패턴을 더 분석하고, 그 분석결과 장애발생 가능성이 있을 경우 장애이벤트를 생성함이 바람직하다.
또한, 상기 단계S400에서 생성된 장애이벤트는 통합관리서버(200)와 연계된 장애관리 데이터베이스(DB)(210, 도 1 참조)에 전송함이 바람직하다.
또한, 상기 단계S400에서 생성된 장애이벤트는 장애관리서버(300)와 연계된 장애이벤트 데이터베이스(DB)(350, 도 1 참조)에 저장 및 관리함이 바람직하다.
또한, 상기 단계S300 및 단계S400에서, 현재 각 성능정보에 대한 통계적인 분석 및 발생된 장애이벤트를 장애관리 콘솔(330, 도 1 참조)을 통해 사용자에게 시각적으로 실시간 통보할 수 있다.
전술한 바와 같이, 본 발명은 통계적 공정 관리(SPC) 사전 예측 방법인 7 규칙(Rule)을 이용하여 장애를 사전에 감지할 수 있으며, 관리 대상항목의 데이터를 보관하고 있다가 7 규칙(Rule)과 패턴이 동일하여지면, 이를 장애의 사전 징후로 판단하여 사용자에게 장애의 가능성을 판단하여 장애발생 이전에 조치가 가능하도록 할 수 있다.
또한, 본 발명은 통계적 공정 관리(SPC)도인 Xbar-R, Xbar-S, I-MR, C 또는 U 관리도 등을 실시간으로 계산한 후, 그 결과를 사용자에게 시각적인 형태인 그래프(Graph)로 보여 주어 계수형, 계량형 데이터들의 분석 결과를 실시간으로 분석하여 공정을 개선할 수 있도록 하여준다.
예컨대, 시스템의 경우를 살펴보면 간헐적으로 배치작업이 수행되는 서버가 아닌 24시간×365일 온라인 서비스를 제공하는 서버의 경우나, 무중단으로 가동되는 제조라인의 설비를 제어하는 장비의 경우에는 시차에 따른 편차 없이 일정 수준의 시스템 리소스를 항상 균등하게 사용할 것이다.
이러한 시스템의 중앙처리장치(CPU)에 대한 이용(Utilization)값이나 메모리(Memory)에 대한 Usage값을 통계적 공정 관리(SPC)를 통해 관리하면, 비정상적으로 시스템 리소스들을 사용할 경우를 바로 확인하여 장애를 사전에 예방할 수 있다.
또한, 응용프로그램(Application)의 경우에는 24시간 운영되는 온라인 프로세스나 트랜잭션 또는 웹페이지에 대한 응답시간, 처리건수, 에러건수 등의 항목에 대하여 통계적 공정 관리(SPC)를 적용하여 사전에 장애를 예방할 수 있다.
한편, 본 발명의 일 실시예에 따른 통계적인 분석을 이용한 성능장애 관리방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
예컨대, 컴퓨터가 읽을 수 있는 기록매체로는 롬(ROM), 램(RAM), 시디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피디스크, 이동식 저장장치, 비휘발성 메모리(flash memory), 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다.
또한, 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
전술한 본 발명에 따른 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법에 대한 바람직한 실시예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 특허청구범위와 발명의 상세한 설명 및 첨부한 도면의 범위 안에서 여러 가지로 변형하여 실시하는 것이 가능하고 이 또한 본 발명에 속한다.
이상에서 설명한 바와 같은 본 발명의 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법에 따르면, 정보기술(IT) 서비스를 제공하기 위한 관리대상자원들의 성능정보를 실시간으로 전송 받아 통계적인 분석을 통해 성능장애를 관리함으로써, 관리대상자원들에 대한 성능장애를 사전에 예측할 수 있으며, 성능장애 오탐지를 최소화하여 보다 안정적인 정보기술(IT) 서비스를 제공할 수 있는 이점이 있다.
또한, 본 발명에 따르면, 시스템(System)이나 응용프로그램(Application)의 관리에 통계적 공정 관리(SPC) 기법을 적용함으로써, 첫째, 관리항목에 대한 관리한계선(임계값)의 자동 설정 기능이다. 즉, 사용자가 각각의 성능지표에 대해 개별적으로 확인한 후 일일이 수작업으로 관리한계선(임계값)을 지정하는 것이 아니라, 과거 통계 데이터에 근거하여 사용자의 별도 설정 작업 없이 자동으로 관리한계선(임계값)을 적용하여 모니터링을 손쉽게 수행할 수 있다.
둘째, 장애 사전 예방조치 기능이다. 즉, 서버나 응용프로그램의 과거 성능 지표를 바탕으로 하여 계산된 통계값을 활용하여 해당 서버나 응용프로그램에 특 화된 관리한계선(임계값)과 패턴(7 Rule)을 적용하여 장애가 발생한 후 감지를 하는 것이 아니라, 사전에 감지를 수행하여 무장애 운영환경을 지원할 수 있다.
셋째, 장애 오탐지를 최소화할 수 있다. 즉, 개별 성능값에 대한 장애 판단이 아닌 부분군의 평균값과 산포를 활용하여 장애를 측정하기 때문에, 순간적으로 높낮이가 심한 경우가 발생하여도 데이터에 대한 왜곡이 발생하지 않아 오탐지를 최소화 할 수 있다.
넷째, 시스템 리소스에 대한 용량을 비교하여 자원 재분배를 도와준다. 즉, 여러 대의 서버에 대한 중앙처리장치(CPU) 사용량과 메모리 사용량 등을 동시에 확인/분석함으로써, 자원의 편중성과 유휴성을 감안하여 사용자가 시스템 리소스에 대한 확장 또는 재분배 작업을 수행할 수 있는 근거 자료를 제공할 수 있다.

Claims (22)

  1. 에이전트(Agent)를 통해 성능정보를 수집하여 전송하는 적어도 하나의 관리대상자원;
    상기 관리대상자원으로부터 전송된 각각의 성능정보를 통합적으로 관리하는 통합관리서버;
    상기 통합관리서버로부터 관리하는 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 추출한 후, 각각의 성능항목에 대해 통계정보를 자동으로 생성하는 통계정보 생성모듈; 및
    상기 통합관리서버에서 관리하는 성능정보들을 실시간으로 제공받아 현재 각 성능정보에 대해 통계적인 분석을 수행하여 상기 통계정보 생성모듈로부터 생성된 통계정보와 비교 판단한 후, 그 판단결과에 따라 장애이벤트를 생성하여 상기 통합관리서버로 전송하는 장애관리서버를 포함하는 통계적인 분석을 이용한 성능장애 관리시스템.
  2. 제 1 항에 있어서, 상기 관리대상자원은,
    정보기술(IT) 서비스를 제공하기 위한 서버/하드웨어, 네트워크, 데이터베이스(DB) 또는 응용프로그램(Application)들 중 적어도 어느 하나로 이루어진 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
  3. 제 1 항에 있어서, 상기 통계정보는,
    관리한계선, 평균 또는 표준편차 중 적어도 어느 하나로 이루어진 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
  4. 제 1 항에 있어서, 상기 통계적인 분석은,
    성능항목별로 미리 설정된 통계적 공정 관리도에 따라 실시간으로 분석하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
  5. 제 4 항에 있어서, 상기 통계적 공정 관리도는,
    Xbar-R 관리도, Xbar-S 관리도, I-MR 관리도, C 관리도 또는 U 관리도 중에서 적어도 어느 하나인 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
  6. 제 1 항에 있어서, 상기 장애관리서버는,
    상기 통합관리서버에서 관리하는 성능정보들을 실시간으로 제공받아 별도로 마련된 성능정보 데이터베이스에 저장하고, 필요에 따라 상기 성능정보 데이터베이스에 저장된 성능정보에 대해 통계적인 분석을 수행하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
  7. 제 1 항에 있어서, 상기 장애관리서버는,
    상기 통합관리서버에서 관리하는 성능정보들을 실시간으로 제공받아 저장 및 관리하는 성능정보 데이터베이스를 더 구비하고,
    상기 통계정보 생성모듈은,
    상기 성능정보 데이터베이스에 저장된 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 주기적으로 추출한 후, 각각의 성능항목에 대해 통계정보를 자동으로 생성하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
  8. 제 1 항에 있어서, 상기 통합관리서버는,
    각 관리대상자원에 성능장애가 발생할 경우 이에 대한 정보를 저장 및 관리하는 장애관리 데이터베이스를 더 구비하며,
    상기 장애관리서버는,
    상기 생성된 장애이벤트를 상기 장애관리 데이터베이스로 전송하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
  9. 제 1 항에 있어서, 상기 장애관리서버는,
    현재 각 성능정보에 대한 통계적인 분석 및 상기 발생된 장애이벤트를 사용자에게 시각적으로 실시간 통보할 수 있도록 장애관리 콘솔을 더 포함하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
  10. 제 1 항에 있어서, 상기 장애관리서버는,
    현재 각 성능정보에 대해 7 규칙(Rule) 장애예측 방법을 이용하여 성능정보 패턴을 더 분석하고, 그 분석결과 장애발생 가능성이 있을 경우 상기 장애이벤트를 생성하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
  11. 제 1 항에 있어서, 상기 장애관리서버는,
    상기 생성된 장애이벤트를 저장 및 관리하는 장애이벤트 데이터베이스를 더 구비하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리시스템.
  12. 정보기술(IT) 서비스를 제공하기 위한 적어도 하나의 관리대상자원과, 상기 관리대상자원을 통합적으로 관리하는 통합관리서버와, 상기 관리대상자원의 성능정보들에 대한 장애발생을 모니터링(Monitoring)하는 장애관리서버를 포함하는 시스템을 이용한 성능장애 관리 방법에 있어서,
    (a) 상기 관리대상자원을 통해 수집된 성능정보를 상기 통합관리서버로 전송하는 단계;
    (b) 상기 통합관리서버를 통해 상기 수집된 성능정보를 상기 장애관리서버로 실시간 전송하는 단계;
    (c) 상기 장애관리서버를 통해 실시간으로 전송 받은 현재 각 성능정보에 대해 통계적인 분석을 수행하여 미리 설정된 통계정보와 비교 판단하는 단계; 및
    (d) 상기 단계(c)에서의 판단결과, 장애발생 가능성이 있을 경우 장애이벤트를 생성하여 상기 통합관리서버로 전송하는 단계를 포함하는 것을 특징으로 하는 통계적인 분석을 이용한 성능장애 관리방법.
  13. 제 12 항에 있어서, 상기 단계(c)에서의 통계정보는,
    관리한계선, 평균 또는 표준편차 중 적어도 어느 하나를 사용하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
  14. 제 12 항에 있어서, 상기 단계(c)에서의 통계적인 분석은,
    성능항목별로 미리 설정된 통계적 공정 관리도에 따라 실시간으로 분석하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
  15. 제 14 항에 있어서, 상기 통계적 공정 관리도는,
    Xbar-R 관리도, Xbar-S 관리도, I-MR 관리도, C 관리도 또는 U 관리도 중에서 적어도 어느 하나를 사용하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
  16. 제 12 항에 있어서, 상기 단계(c)에서,
    상기 실시간으로 제공받은 성능정보들을 별도로 마련된 성능정보 데이터베이스에 저장하고, 필요에 따라 상기 성능정보 데이터베이스에 저장된 성능정보에 대해 통계적인 분석을 수행하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
  17. 제 12 항에 있어서, 상기 단계(c)에서의 통계정보는,
    상기 실시간으로 제공받아 성능정보들을 별도로 마련된 성능정보 데이터베이스에 저장하고, 상기 성능정보 데이터베이스에 저장된 성능정보들 중에서 미리 설정된 분석대상 성능항목들을 주기적으로 추출한 후, 각각의 성능항목에 대해 자동으로 생성하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
  18. 제 12 항에 있어서, 상기 단계(c)에서,
    현재 각 성능정보에 대해 7 규칙(Rule) 장애예측 방법을 이용하여 성능정보 패턴을 더 분석하고, 그 분석결과 장애발생 가능성이 있을 경우 상기 장애이벤트를 생성하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
  19. 제 12 항에 있어서, 상기 단계(d)에서 생성된 장애이벤트는,
    상기 통합관리서버와 연계된 장애관리 데이터베이스에 전송하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
  20. 제 12 항에 있어서, 상기 단계(d)에서 생성된 장애이벤트는,
    상기 장애관리서버와 연계된 장애이벤트 데이터베이스에 저장 및 관리하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
  21. 제 12 항에 있어서, 상기 단계(c) 및 단계(d)에서,
    현재 각 성능정보에 대한 통계적인 분석 및 상기 발생된 장애이벤트를 사용자에게 시각적으로 실시간 통보하는 것을 특징으로 하는 통계적 분석을 이용한 성능장애 관리방법.
  22. 제 12 항 내지 제 21 항 중 어느 한 항의 방법을 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020060113444A 2006-11-16 2006-11-16 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법 KR100840129B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020060113444A KR100840129B1 (ko) 2006-11-16 2006-11-16 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법
JP2009537063A JP2010526352A (ja) 2006-11-16 2007-04-11 統計的な分析を利用した性能障害管理システム及びその方法
CN200780042321A CN101632093A (zh) 2006-11-16 2007-04-11 用于使用统计学分析来管理性能故障的系统和方法
PCT/KR2007/001753 WO2008060015A1 (en) 2006-11-16 2007-04-11 System and method for management of performance fault using statistical analysis
US12/514,928 US20100082708A1 (en) 2006-11-16 2007-04-11 System and Method for Management of Performance Fault Using Statistical Analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060113444A KR100840129B1 (ko) 2006-11-16 2006-11-16 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20080044508A true KR20080044508A (ko) 2008-05-21
KR100840129B1 KR100840129B1 (ko) 2008-06-20

Family

ID=39401807

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060113444A KR100840129B1 (ko) 2006-11-16 2006-11-16 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법

Country Status (5)

Country Link
US (1) US20100082708A1 (ko)
JP (1) JP2010526352A (ko)
KR (1) KR100840129B1 (ko)
CN (1) CN101632093A (ko)
WO (1) WO2008060015A1 (ko)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101219364B1 (ko) * 2012-09-28 2013-01-21 한국보건복지정보개발원 기관 서버와 업무 서버 간의 연계 서비스에 대한 모니터링 방법 및 모니터링 서버, 그 기록매체
KR20130049976A (ko) * 2011-11-07 2013-05-15 엔에이치엔(주) 앱 통계정보 제공방법, 서버 및 컴퓨터로 판독 가능한 기록매체
KR101433045B1 (ko) * 2013-11-20 2014-08-27 (주)데이타뱅크시스템즈 사전 장애 탐지 시스템 및 방법
WO2016056708A1 (ko) * 2014-10-10 2016-04-14 삼성에스디에스 주식회사 시계열 데이터의 분석을 통한 이상 감지 및 예측 시스템 및 방법
KR20160047065A (ko) * 2014-10-21 2016-05-02 삼성에스디에스 주식회사 텍스트 데이터의 분석을 통한 이상 감지 및 예측 시스템 및 방법
KR20160081321A (ko) * 2014-12-31 2016-07-08 (주)엔키아 It 인프라 품질 감시 시스템 및 방법
KR101663426B1 (ko) * 2015-07-10 2016-10-07 한양대학교 산학협력단 대형 운용 시스템의 상태 기반 예방정비 장치 및 방법
KR20170108315A (ko) * 2016-03-17 2017-09-27 한국전자통신연구원 시스템 장애 모니터링 방법 및 장치
KR20180068002A (ko) * 2016-12-13 2018-06-21 나무기술 주식회사 빅데이터 기반의 클라우드 인프라 실시간 분석 시스템 및 그 제공방법
JP2018198417A (ja) * 2017-04-14 2018-12-13 ソーラーウインズ ワールドワイド エルエルシー ネットワーク状態評価
KR20190019493A (ko) * 2017-08-18 2019-02-27 주식회사 티맥스 소프트 구성정보 관리 데이터베이스 기반의 it 시스템 장애 분석 기법
KR20200077704A (ko) * 2018-12-21 2020-07-01 주식회사 플러스원 에스.에이.에이.에스를 이용한 전산자원에 대한 서비스 수준 관리 방법
KR102139058B1 (ko) * 2019-05-10 2020-07-29 (주)비앤에스컴 서버 관리 장치를 구비한 클라우드 서버 및 로컬 서버를 이용하는 제로클라이언트 단말기용 클라우드 컴퓨팅 시스템
CN111669295A (zh) * 2020-06-22 2020-09-15 南方电网数字电网研究院有限公司 业务管理方法和装置
KR102338425B1 (ko) * 2021-09-28 2021-12-10 (주)제너럴데이타 인공지능 기반 모니터링 대상 서버의 어플리케이션 자동 설정 및 모니터링 방법, 장치 및 시스템
KR20220082223A (ko) * 2020-12-10 2022-06-17 주식회사 플랜정보기술 빅데이터 저장 플랫폼의 장애 진단 모니터링 표시 방법
KR102417823B1 (ko) * 2022-02-10 2022-07-06 대신네트웍스 주식회사 NTP 기능이 구비된 스마트 PoE 스위치
KR102556788B1 (ko) * 2023-06-01 2023-07-20 (주)와치텍 다중 웹애플리케이션에 대한 성능 모니터링 및 이벤트 사전 예측을 위한 머신러닝 학습 방법
CN117251331A (zh) * 2023-11-17 2023-12-19 常州满旺半导体科技有限公司 一种基于物联网的芯片性能数据监管传输系统及方法

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8656226B1 (en) 2011-01-31 2014-02-18 Open Invention Network, Llc System and method for statistical application-agnostic fault detection
US8612802B1 (en) 2011-01-31 2013-12-17 Open Invention Network, Llc System and method for statistical application-agnostic fault detection
JP5244686B2 (ja) * 2009-04-24 2013-07-24 株式会社東芝 監視装置およびサーバー
CN102065544B (zh) * 2009-11-17 2015-02-25 索尼株式会社 资源管理方法和系统
CN102082701B (zh) * 2009-12-01 2013-08-07 中兴通讯股份有限公司 网元位置信息存储方法及装置
US9948324B1 (en) 2011-01-31 2018-04-17 Open Invention Network, Llc System and method for informational reduction
US10031796B1 (en) 2011-01-31 2018-07-24 Open Invention Network, Llc System and method for trend estimation for application-agnostic statistical fault detection
US10191796B1 (en) 2011-01-31 2019-01-29 Open Invention Network, Llc System and method for statistical application-agnostic fault detection in environments with data trend
CN102540944B (zh) * 2012-01-13 2013-10-23 顺德职业技术学院 嵌入式多功能统计过程控制装置及方法
WO2013131059A1 (en) * 2012-03-02 2013-09-06 Neutral Tandem, Inc. d/b/a Inteliquent Systems and methods for diagnostic, performance and fault management of a network
CN102799513B (zh) * 2012-06-28 2016-04-06 腾讯科技(深圳)有限公司 故障问题的展示方法及展示系统
CN103514506B (zh) * 2012-06-29 2017-03-29 国际商业机器公司 用于自动事件分析的方法和系统
CN103546331B (zh) * 2012-07-16 2018-10-26 南京中兴新软件有限责任公司 监控信息的获取方法、装置及系统
CN103198008A (zh) * 2013-04-27 2013-07-10 清华大学 系统测试统计方法及装置
KR102117637B1 (ko) * 2013-10-01 2020-06-01 삼성에스디에스 주식회사 데이터 전처리 장치 및 방법
CN104199744B (zh) * 2014-08-29 2017-11-24 浪潮(北京)电子信息产业有限公司 一种超级计算机应用性能稳定性判断方法及装置
US20160224400A1 (en) * 2015-01-29 2016-08-04 AppDynamics Inc. Automatic root cause analysis for distributed business transaction
KR101599718B1 (ko) * 2015-02-27 2016-03-04 삼성에스디에스 주식회사 데이터베이스 성능 관리 방법 및 장치
EP3128466A1 (en) * 2015-08-05 2017-02-08 Wipro Limited System and method for predicting an event in an information technology infrastructure
KR101783201B1 (ko) 2015-12-14 2017-10-13 주식회사 이스턴생명과학 서버 통합 관리 시스템 및 방법
US10176034B2 (en) * 2016-02-16 2019-01-08 International Business Machines Corporation Event relationship analysis in fault management
CN108255660A (zh) * 2016-12-28 2018-07-06 深圳市优朋普乐传媒发展有限公司 一种复杂软件体系的错误分析方法和装置
CN108650123B (zh) * 2018-05-08 2022-09-06 平安普惠企业管理有限公司 故障信息记录方法、装置、设备和存储介质
KR101900727B1 (ko) 2018-06-14 2018-09-20 김상순 가상 서버 관리 장치
US10922164B2 (en) * 2019-04-30 2021-02-16 Accenture Global Solutions Limited Fault analysis and prediction using empirical architecture analytics
CN110378808A (zh) * 2019-07-24 2019-10-25 广东电网有限责任公司 一种基于基因重组及特征聚类的电力营销稽查方法及系统
KR102179290B1 (ko) * 2019-11-07 2020-11-18 연세대학교 산학협력단 워크로드 데이터에 대한 이상징후 판별 방법
EP3828804A1 (en) * 2019-11-27 2021-06-02 Tata Consultancy Services Limited Method and system for recommender model selection
CN111969648B (zh) * 2020-07-31 2022-05-10 国电南瑞科技股份有限公司 一种适应大规模新能源并网的实时信息采集系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04183561A (ja) * 1990-11-16 1992-06-30 Nachi Fujikoshi Corp 工程状態判断エキスパートシステム
US6012152A (en) * 1996-11-27 2000-01-04 Telefonaktiebolaget Lm Ericsson (Publ) Software fault management system
WO2000072183A2 (en) * 1999-05-24 2000-11-30 Aprisma Management Technologies, Inc. Service level management
US6892317B1 (en) * 1999-12-16 2005-05-10 Xerox Corporation Systems and methods for failure prediction, diagnosis and remediation using data acquisition and feedback for a distributed electronic system
US7500143B2 (en) * 2000-05-05 2009-03-03 Computer Associates Think, Inc. Systems and methods for managing and analyzing faults in computer networks
US7383191B1 (en) * 2000-11-28 2008-06-03 International Business Machines Corporation Method and system for predicting causes of network service outages using time domain correlation
US7389341B2 (en) * 2001-01-31 2008-06-17 Accenture Llp Remotely monitoring a data processing system via a communications network
US7028228B1 (en) * 2001-03-28 2006-04-11 The Shoregroup, Inc. Method and apparatus for identifying problems in computer networks
KR100496958B1 (ko) * 2001-12-28 2005-06-27 삼성에스디에스 주식회사 시스템 장애 통합관리방법
KR100558348B1 (ko) * 2002-03-30 2006-03-10 텔스타홈멜 주식회사 생산라인의 품질관리를 위한 통계적 공정관리 시스템 및방법
KR100496980B1 (ko) * 2002-12-12 2005-06-28 삼성에스디에스 주식회사 웹기반 시스템 통합관리 도구 및 그 방법
US7340649B2 (en) * 2003-03-20 2008-03-04 Dell Products L.P. System and method for determining fault isolation in an enterprise computing system
US20040193467A1 (en) * 2003-03-31 2004-09-30 3M Innovative Properties Company Statistical analysis and control of preventive maintenance procedures
US20050198279A1 (en) * 2003-05-21 2005-09-08 Flocken Philip A. Using trend data to address computer faults
US7072899B2 (en) * 2003-12-19 2006-07-04 Proclarity, Inc. Automatic monitoring and statistical analysis of dynamic process metrics to expose meaningful changes
US7526684B2 (en) * 2004-03-24 2009-04-28 Seagate Technology Llc Deterministic preventive recovery from a predicted failure in a distributed storage system
JP4058038B2 (ja) * 2004-12-22 2008-03-05 株式会社日立製作所 負荷監視装置および負荷監視方法
US8856312B2 (en) * 2004-12-24 2014-10-07 International Business Machines Corporation Method and system for monitoring transaction based system
US7395187B2 (en) * 2006-02-06 2008-07-01 International Business Machines Corporation System and method for recording behavior history for abnormality detection
US7565266B2 (en) * 2006-02-14 2009-07-21 Seagate Technology, Llc Web-based system of product performance assessment and quality control using adaptive PDF fitting

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130049976A (ko) * 2011-11-07 2013-05-15 엔에이치엔(주) 앱 통계정보 제공방법, 서버 및 컴퓨터로 판독 가능한 기록매체
KR101219364B1 (ko) * 2012-09-28 2013-01-21 한국보건복지정보개발원 기관 서버와 업무 서버 간의 연계 서비스에 대한 모니터링 방법 및 모니터링 서버, 그 기록매체
KR101433045B1 (ko) * 2013-11-20 2014-08-27 (주)데이타뱅크시스템즈 사전 장애 탐지 시스템 및 방법
WO2015076493A1 (ko) * 2013-11-20 2015-05-28 (주)데이타뱅크시스템즈 사전 장애 탐지 시스템 및 방법
WO2016056708A1 (ko) * 2014-10-10 2016-04-14 삼성에스디에스 주식회사 시계열 데이터의 분석을 통한 이상 감지 및 예측 시스템 및 방법
KR20160042616A (ko) * 2014-10-10 2016-04-20 삼성에스디에스 주식회사 시계열 데이터의 분석을 통한 이상 감지 및 예측 시스템 및 방법
KR20160047065A (ko) * 2014-10-21 2016-05-02 삼성에스디에스 주식회사 텍스트 데이터의 분석을 통한 이상 감지 및 예측 시스템 및 방법
KR20160081321A (ko) * 2014-12-31 2016-07-08 (주)엔키아 It 인프라 품질 감시 시스템 및 방법
KR101663426B1 (ko) * 2015-07-10 2016-10-07 한양대학교 산학협력단 대형 운용 시스템의 상태 기반 예방정비 장치 및 방법
WO2017010778A1 (ko) * 2015-07-10 2017-01-19 한양대학교 산학협력단 대형 운용 시스템의 상태 기반 예방정비 장치 및 방법
US11068859B2 (en) 2015-07-10 2021-07-20 Industry-University Cooperation Foundation Hanyang University Condition based preventive maintenance apparatus and method for large operation system
KR20170108315A (ko) * 2016-03-17 2017-09-27 한국전자통신연구원 시스템 장애 모니터링 방법 및 장치
KR20180068002A (ko) * 2016-12-13 2018-06-21 나무기술 주식회사 빅데이터 기반의 클라우드 인프라 실시간 분석 시스템 및 그 제공방법
JP2018198417A (ja) * 2017-04-14 2018-12-13 ソーラーウインズ ワールドワイド エルエルシー ネットワーク状態評価
KR20190019493A (ko) * 2017-08-18 2019-02-27 주식회사 티맥스 소프트 구성정보 관리 데이터베이스 기반의 it 시스템 장애 분석 기법
KR20200077704A (ko) * 2018-12-21 2020-07-01 주식회사 플러스원 에스.에이.에이.에스를 이용한 전산자원에 대한 서비스 수준 관리 방법
KR102139058B1 (ko) * 2019-05-10 2020-07-29 (주)비앤에스컴 서버 관리 장치를 구비한 클라우드 서버 및 로컬 서버를 이용하는 제로클라이언트 단말기용 클라우드 컴퓨팅 시스템
CN111669295A (zh) * 2020-06-22 2020-09-15 南方电网数字电网研究院有限公司 业务管理方法和装置
CN111669295B (zh) * 2020-06-22 2023-09-19 南方电网数字电网研究院有限公司 业务管理方法和装置
KR20220082223A (ko) * 2020-12-10 2022-06-17 주식회사 플랜정보기술 빅데이터 저장 플랫폼의 장애 진단 모니터링 표시 방법
KR102338425B1 (ko) * 2021-09-28 2021-12-10 (주)제너럴데이타 인공지능 기반 모니터링 대상 서버의 어플리케이션 자동 설정 및 모니터링 방법, 장치 및 시스템
KR102417823B1 (ko) * 2022-02-10 2022-07-06 대신네트웍스 주식회사 NTP 기능이 구비된 스마트 PoE 스위치
KR102556788B1 (ko) * 2023-06-01 2023-07-20 (주)와치텍 다중 웹애플리케이션에 대한 성능 모니터링 및 이벤트 사전 예측을 위한 머신러닝 학습 방법
CN117251331A (zh) * 2023-11-17 2023-12-19 常州满旺半导体科技有限公司 一种基于物联网的芯片性能数据监管传输系统及方法
CN117251331B (zh) * 2023-11-17 2024-01-26 常州满旺半导体科技有限公司 一种基于物联网的芯片性能数据监管传输系统及方法

Also Published As

Publication number Publication date
CN101632093A (zh) 2010-01-20
KR100840129B1 (ko) 2008-06-20
WO2008060015A1 (en) 2008-05-22
US20100082708A1 (en) 2010-04-01
JP2010526352A (ja) 2010-07-29

Similar Documents

Publication Publication Date Title
KR100840129B1 (ko) 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
CN106909487B (zh) 应用于信息系统的预警方法及装置
RU2389117C2 (ru) Система и способ централизованного мониторинга и управления режимом работы силовых трансформаторов, установленных на разных подстанциях и в центрах мониторинга
US7412448B2 (en) Performance degradation root cause prediction in a distributed computing system
JP5267736B2 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
WO2011046228A1 (ja) システム運用管理装置、システム運用管理方法、及びプログラム記憶媒体
US20050216793A1 (en) Method and apparatus for detecting abnormal behavior of enterprise software applications
KR101476081B1 (ko) 네트워크 이벤트 관리
KR100982034B1 (ko) 데이터베이스 성능 모니터링 방법 및 시스템
JP2005327261A (ja) 性能監視装置、性能監視方法及びプログラム
US20070297337A1 (en) Apparatus and methods for determining availability and performance of entities providing services in a distributed system using filtered service consumer feedback
CN112162907A (zh) 基于监控指标数据的健康度评估方法
CN105872061B (zh) 一种服务器集群管理方法、装置及系统
CN101297536A (zh) 用于准备在端点上执行系统管理任务的方法和系统
CN108599977B (zh) 基于统计方法监控系统可用性的系统及方法
KR20190096706A (ko) 서비스 연관성 추적을 통한 시스템 이상 징후 모니터링 방법 및 시스템
CN116719664B (zh) 基于微服务部署的应用和云平台跨层故障分析方法及系统
CN110633194A (zh) 一种硬件资源在特定环境下的性能评估方法
US20090240476A1 (en) Method and device for forecasting computational needs of an application
US20080071807A1 (en) Methods and systems for enterprise performance management
US7350100B2 (en) Method and apparatus for monitoring data-processing system
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
JP2005071136A (ja) 納期管理支援システム、そのプログラム、そのプログラムを記録した記録媒体および製品の納期管理方法
CN117520096B (zh) 一种智能服务器安全监控系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120404

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130408

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150305

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170309

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180403

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 12