KR101545215B1

KR101545215B1 - 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법

Info

Publication number: KR101545215B1
Application number: KR1020130130234A
Authority: KR
Inventors: 남궁영환; 이재영
Original assignee: 삼성에스디에스 주식회사
Priority date: 2013-10-30
Filing date: 2013-10-30
Publication date: 2015-08-18
Also published as: US9652318B2; KR20150049541A; US20150121136A1; CN104598367B; CN104598367A

Abstract

장애 이벤트 관리 자동화 시스템 및 방법이 개시된다. 장애 이벤트 분석부는 장애 이벤트 저장부에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성한다. 장애 이벤트 정보 지식 저장부에는 유형별 장애 이벤트과 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴이 저장된다. 장애 이벤트 관련 조치 방법 저장부에는 발생된 장애 이벤트에 대해 검증된 조치 방법이 저장된다. 장애 이벤트 모니터링부는 서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단한다. 장애 이벤트 관련 조치 방법 추천부는 장애 이벤트 관련 조치 방법 저장부에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판별된 장애 이벤트에 대해 장애 이벤트 정보 지식 저장부에 축적되어 있는 정보로부터 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 추출한 정보를 기초로 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력한다. 장애 이벤트 조치부는 감지된 장애 이벤트에 대해 장애 이벤트 관련 조치 방법 저장부에 축적되어 있는 조치 방법을 이용하여 자동 조치한다.

Description

데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법{system and method for automatically manageing fault events of data center}

본 발명은 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법에 관한 것으로, 보다 상세하게는, 데이터 센터에서 발생하는 장애 이벤트를 자동적으로 관리할 수 있는 시스템 및 방법에 관한 것이다.

최근 클라우드 환경의 성장세와 더불어 데이터 센터의 효과적인 운영 관리는 매우 중요한 문제로 대두되고 있다. 기존의 데이터 센터 관리 방법들의 대부분은 과거 운영 기록에 의존하고 있으며, 사람에 의해 수동으로 데이터 센터의 장애를 관리하고 있다. 이 경우 장애 이벤트 발생에 대한 예측과 신속한 자동 대응 및 조치가 불가능하다는 문제가 있다. 또한 과거에 발생하지 않았던 새로운 형태의 장애 이벤트에 대한 사전 대비 및 예측도 어려운 문제점이 있다.

이와 같은 기존의 대표적인 장애 관리 시스템은 IBM사에서 제안한 자기 진단 분석 및 보고 기법(Self-Monitoring Analysis and Reporting Technology : S.M.A.R.T)이 있다. S.M.A.R.T는 스토리지에 대한 동작 이상 여부를 모니터링하고문제점 발생 원인을 추적하며, 향후 발생할 장애에 대해 예측 결과를 제공한다. 이때 예측적 고장 분석(Predictive Failure Analysis : PFA)라는 기술이 사용되었으며, PFA는 디스크들의 과거 데이터를 바탕으로 기계학습, 수학적 모델링 등의 기법을 통해 장비의 동작 이상 여부(정상 작동 모니터링 포함) 및 문제 발생시 관련 잠재 원인 등을 추적한다.

이러한 S.M.A.R.T의 문제점과 한계는 다음과 같다.

첫째, 장애 및 오작동에 대한 대상이 하드 디스크 드라이버로 한정되어 있다. 이로 인해 하드 디스크가 갖는 속성(예: Read Error Rate, Reallocated Sectors Count 등)에 제약을 받는다.

둘째, 하드 디스크에서 발생하는 각종 데이터를 기반으로 기계학습, 수학적 모델링 기법 등을 동원하여 예측 모델을 만들었다 하더라도 이는 현재까지 내부적으로 발생한 오작동 패턴에만 적용이 가능하다. 따라서 S.M.A.R.T는 과거 동작 성능 기록 데이터를 기반으로 하여 도출된 임계치를 가지고 작동하도록 되어 있다. 한편, 이러한 이유로 시스템의 오작동 경고가 없었음에도 하드 디스크 장애가 발생하는 경우가 전체의 50%에 달하는 것으로 알려져 있다

셋째, S.M.A.R.T는 소프트웨어(예: 시스템 소프트웨어, 미들웨어 애플리케이션 등)의 버전별 충돌 등으로 발생할 수 있는 시스템 다운과 같은 잠재 장애 이벤트에 대한 예측 및 대응이 불가능하다는 한계점을 지니고 있다.

넷째, S.M.A.R.T가 모니터링을 통해 사용자에게 알리는 메시지는 오직 두 가지 형태('Device is OK' 또는 'Drive is likely to fail soon')만 존재한다.

도 1에는 S.M.A.R.T에서 사용되는 PFA의 전체 구조가 도시되어 있다.

이상에서 설명한 종래 기술은 내부적으로 발생한 데이터에 대해 기계학습, 수학적 모델링에 기초하여 분석 모델과 정상 작동으로 간주할 수 있는 임계치에 기반하여 모니터링을 하는 기법을 채택하고 있기 때문에, 내부적으로 돌발적인 시스템 오류와 같은 장애 이벤트에 대한 예측 및 대응이 어렵다는 문제가 있다. 또한 종래 기술은 특정 장비(즉, 하드 디스크)만을 대상으로 하고 있으며, 이로 인해 시스템에 설치되어 운용되는 소프트웨어가 원인이 되어 발생할 수 있는 다양한 형태의 장애 이벤트에 대해서는 대처 방안이 존재하지 않는다는 문제가 있다. 또한, 종래 기술은 모니터링이 주 역할이며, 이는 많은 장애 오탐지 발생으로 인한 시스템 운영자의 불필요한 추가 작업을 유발하게 된다.

한국공개특허 제2008-0097254호 (발명의 명칭: 통합관리 시스템 환경에서의 장애 및 성능정보 통합 모니터링 방법 및 그 시스템, 공개일: 2008년 11월 5일) 한국공개특허 제2010-0133168호 (발명의 명칭: IT서비스에서의 어플리케이션 장애 분석 감시 시스템 및 방법, 공개일: 2010년 12월 21일) 미국공개특허 제2013/0073913호 (발명의 명칭: B2B 네트워크 관리 이벤트 검출 및 대응 시스템 및 방법, 공개일: 2013년 3월 21일)

본 발명이 이루고자 하는 기술적 과제는, 데이터 센터의 운영 및 관리 자동화를 통해 내부적으로 돌발적인 시스템 오류와 같은 장애 이벤트에 대한 예측 및 대응이 가능한 시스템 및 방법을 제공하는 데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는, 데이터 센터의 운영 및 관리 자동화를 통해 내부적으로 돌발적인 시스템 오류와 같은 장애 이벤트에 대한 예측 및 대응이 가능한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템은, 장애 이벤트 저장부에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성하는 장애 이벤트 분석부; 상기 유형별 장애 이벤트와 각각의 유형별 장애 이벤트에 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴이 저장되는 장애 이벤트 정보 지식 저장부; 발생된 장애 이벤트에 대해 검증된 조치 방법이 저장되는 장애 이벤트 관련 조치 방법 저장부; 서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단하는 장애 이벤트 모니터링부; 상기 장애 이벤트 모니터링부에 의해 새롭게 감지되었거나 상기 장애 이벤트 관련 조치 방법 저장부에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판별된 장애 이벤트에 대해 상기 장애 이벤트 정보 지식 저장부에 축적되어 있는 정보로부터 해결이 어려운 것으로 판별된 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 추출한 정보를 기초로 해결이 어려운 것으로 판별된 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력하는 장애 이벤트 관련 조치 방법 추천부; 및 장애 이벤트 모니터링부에 의해 감지된 장애 이벤트에 대해 상기 장애 이벤트 관련 조치 방법 저장부에 축적되어 있는 조치 방법을 이용하여 자동 조치하는 장애 이벤트 조치부;를 구비한다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 방법은, (a) 장애 이벤트 저장소에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성하는 단계; (b) 상기 유형별 장애 이벤트와 각각의 유형별 장애 이벤트에 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴을 저장하는 단계; (c) 서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단하는 단계; (d) 상기 발생된 장애 이벤트에 대해 검증된 조치 방법이 저장되어 있는 장애 이벤트 관련 조치 방법 저장소에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판단되면, 상기 장애 이벤트 정보 지식 저장소에 축적되어 있는 정보로부터 상기 해결이 어려운 것으로 판별된 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 상기 추출한 정보를 기초로 상기 해결이 어려운 것으로 판별된 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력하는 단계; 및 (e) 상기 발생딘 장애 이벤트에 대해 상기 장애 이벤트 관련 조치 방법 저장소에 축적되어 있는 조치 방법을 이용하여 자동 조치하는 단계;를 갖는다.

본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법에 의하면, 지속적으로 축적되는 장애 이벤트 지식을 활용하여 불시에 발생하는 특정한 애플리케이션의 실행시 발생가능한 장애 이벤트, 시스템 다운 현상 등과 같은 시스템 소프트웨어 관련 장애 이벤트의 감지 및 대처가 가능한 효과가 있다. 또한 지속적으로 축적되는 장애 이벤트 외부 정보 분석 결과를 기초로 현재 운영 중인 데이터 센터 내에서만 발생했던 장애 이벤트 외에 신규로 발생 가능성이 있는 장애 이벤트를 효율적으로 차단할 수 있다. 또한, 탐지된 장애 이벤트에 대한 자동 처리를 통해 운영 작업 부하를 획기적으로 줄일 수 있으며, 장애 이벤트의 사전 감지 및 자동 조치를 수행한 후 지속적인 확인을 통한 시스템의 안정화도 지원할 수 있게 된다.

도 1은 S.M.A.R.T에서 사용되는 PFA의 전체 구조를 도시한 도면,
도 2는 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템에 대한 바람직한 실시예의 구조를 도시한 도면,
도 3은 장애 유형별 분석부(220)에 의한 원시 자료로부터 유형별 장애 이벤트를 생성하는 동작을 도시한 도면,
도 4는 장애 유형별 대처 방법 분석부(224)에 의한 장애 유형별 대처 방법 생성 과정을 도시한 도면,
도 5는 장애 이벤트 분석부(220)에서 수행되는 장애 이벤트 분석 및 대처 방법 도출 과정의 바람직한 실시예를 도시한 흐름도,
도 6은 원시 데이터 및 원시 데이터로부터 추출한 요약 정보를 도시한 도면,
도 7은 장애 이벤트 정보 요약 결과를 이용한 장애 이벤트 대처 방반을 생성하는 예를 도시한 도면, 그리고,
도 8은 장애 이벤트 정보를 기반으로 장애 이벤트를 자동으로 관리하는 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.

이하에서, 첨부된 도면들을 참조하여 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.

도 2는 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템에 대한 바람직한 실시예의 구조를 도시한 도면이다.

도 2를 참조하면, 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템의 바람직한 실시예는, 자료수집부(210), 장애 이벤트 저장부(215), 장애 이벤트 분석부(220), 장애 이벤트 정보 지식 저장부(225), 시스템 인터페이스부(230), 장애 이벤트 모니터링부(235), 장애 이벤트 관련 조치 방법 추천부(240), 사용자 인터페이스부(245), 장애 이벤트 관련 조치 방법 저장부(250) 및 장애 이벤트 조치부(255)를 구비한다. 이때, 자료수집부(210), 장애 이벤트 저장부(215) 및 장애 이벤트 모니터링부(235)는 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템과는 별도의 모듈 또는 시스템으로 구축될 수 있다.

자료수집부(210)는 시스템 운영자료, 논의 자료, 하드웨어 및 소프트웨어 기술 포럼 결과, 기술지원 서비스 메뉴얼 등 다양한 장애 이벤트 관련 자료를 검색하여 수집한다. 이러한 자료수집부(210)는 검색모듈과 수집모듈로 구성될 수 있다. 이때 검색 및 수집은 블로그 수집기(예를 들면, 블로그디거, 블로그스피어 등)와 외부 검색 엔진(예를 들면, 구글, 빙 등), 웹 크롤러 등과 같은 다양한 온라인 자료 검색 및 수집기를 기반으로 장애 이벤트와 관련된 원시 데이터를 수집한다. 수집 대상은 시스템 장애 관련 온라인 포럼, 시스템 제작 업체 기술 지원 사이트, 운영체제 커뮤니티, IT 관련 최신 동향 기사 제공 사이트 등 가능한 모든 사이트들을 대상으로 한다. 또한 수집 내용은 운영체제, 애플리케이션, DBMS 등 데이터 센터에서 설치 운영 중인 소프트웨어와 하드웨어에 관련된 모든 사항을 포함한다. 자료수집부(210)에 의해 수집된 자료는 장애 이벤트 저장부(215)에 저장된다. 이대 장애 이벤트 관련 원시 데이터는 분산 파일 시스템에 저장될 수 있으며, 원시 데이터는 숫자, 텍스트, 이미지 등 다양한 유형으로 구성된 비정형 데이터일 수 있다.

장애 이벤트 분석부(220)는 장애 이벤트 저장부(215)에 저장되어 있는 자료를 분석하여 각 자료에 대한 기본 정보를 1차 추출한 후 다중 자료에서 생성된 1차 추출 정보들 사이의 연관 관계를 분석하여 관련성 분석결과를 기초로 유형별 장애 이벤트를 생성 및 정리하고, 각각의 유형별 장애 이벤트에 대응하는 대처 방법 및 사전 예방 조치를 생성한다. 생성된 유형별 장애 이벤트에 대응하는 대처 방법 및 사전 예방 조치는 [장애 이벤트, 대처 방법]의 형식을 가진 패턴으로 장애 이벤트 정보 지식 저장부(225)에 저장되며, 각각의 패턴들은 지속적인 수집, 분석 및 생성 과정을 통해 장애 이벤트 정보 지식 저장부(225)에 축적되고 관리된다. 그리고 이러한 패턴들은 향후 새롭게 발견된 장애 이벤트에 대한 신속 조치를 위해 활용된다. 장애 이벤트 정보 지식 저장부(225)에 저장되는 정보는 원인-발생 연관 규칙, 대응 방법 분석 결과 등이다. 이러한 장애 이벤트 분석부(220)는 장애 유형별 분석부(222) 및 장애 유형별 대처 방법 분석부(224)로 구성된다.

장애 유형별 분석부(222)는 장애 이벤트 저장부(215)에 저장되어 있는 정형 및 비정형 원시 데이터의 분석을 통해 각 유형별로 장애 이벤트를 정리, 정의 및 요약한다. 도 3에는 장애 유형별 분석부(220)에 의한 원시 자료로부터 유형별 장애 이벤트를 생성하는 동작이 도시되어 있다. 도 3을 참조하면, 장애 유형별 분석부(222)는 장애 이벤트 관련 원시 데이터에 대해 형태소 사전을 참조한 형태소 분석, 동의어 사전을 참조한 용어 추출/특성 추출, 유사어 사전을 참조한 용어별 유사어 추출, 불용어 사전을 참조한 불용어 제거 및 용어 빈도수와 문서 역빈도수를 참조한 (용어별 빈도수)*(문서 역빈도수) 및 가중치 계산을 수행한다. 그리고 이러한 원시 데이터에 대한 분석 결과를 기초로 장애 이벤트 키워드를 출력하고, 분석 결과에 대해 키워드 기반 구문 확장과 키워드 기반 구문 가중치 계산을 통해 장애 이벤트 정보 요약 문장을 출력한다. 또한, 원시 데이터에 대해 문장 추출 및 문장 가중치 계산을 통해 장애 이벤트 정보 추출 문장을 출력한다. 이때, 문장 가중치 계산시 키워드 기반 구문 가중치를 참조할 수 있다. 다음으로 장애 유형별 분석부(222)는 이상의 과정을 통해 출력된 장애 이벤트 키워드, 장애 이벤트 정보 요약 문장 및 장애 이벤트 정보 추출 문장으로 구성된 1차 추출 요약 정보들 사이의 연관 관계를 분석하여 관련성 기반 유형별 장애 이벤트를 생성한다. 이때 1차 추출 요약 정보들 사이의 연관관계 분석은 상호 관련도를 계산하여 유사한 정보들을 취합하고 분류하는 방법에 의해 수행된다. 상호 관련도는 선험적 알고리즘(Apriori Algorithm), 빈발 패턴 트리(Frequent Pattern Tree)를 포함하는 군집화 및 범주화와 관련한 다양한 기술을 적용하여 계산될 수 있다. 그리고 이러한 과정을 통해 얻은 중간 결과물들에 대해 각각의 장애 유형별로 기본 정보 요약사항, 발생 형태, 발생 장비들에 대한 통계 정보 등을 생성한다.

장애 유형별 대처 방법 분석부(224)는 유형별 장애 분석부(222)에 의해 생성된 장애 이벤트 정보에 대한 요약 정보를 기반으로 장애 대처 방법을 생성한다. 도 4에는 장애 유형별 대처 방법 분석부(224)에 의한 장애 유형별 대처 방법 생성 과정이 도시되어 있다. 도 4를 참조하면, 장애 유형별 대처 방법 분석부(224)는 유형별 장애 분석부(222)에 의해 생성된 장애 이벤트 요약 정보를 재해석한다. 이를 위해 장애 유형별 대처 방법 분석부(224)는 형태소 분석, 맞춤법 확인, 정규화 등을 포함하는 키워드 구문 분석을 수행하고, 이를 기초로 장애 이벤트 현상에 외부 영향 요인을 고려하여 장애 이벤트 정보를 다양한 질문 형태로 변환한다. 이때 장애 이벤트 질문은 언제, 어디서, 어떻게, 무슨 이유로 등의 형태를 가질 수 있다. 다음으로, 장애 유형별 대처 방법 분석부(224)는 해석한 질문 형태의 이벤트 요약 정보에 대해 정보 검색 기법을 이용하여 대응 및 조치 방법 생성을 위한 자료를 확보한다. 이때 작업 대상은 기존에 수집한 원시 데이터를 포함하여 외부에서 수집할 수 있는 모든 자료이다. 다음으로, 장애 유형별 대처 방법 분석부(224)는 수집한 자료를 바탕으로 상호 인과 관계 및 연관 관계를 파악하여 해결책을 생성한다. 이때 장애 이벤트 질문에 따라 '해결책 후보군'을 선별하고, 이들 사이의 상호 연관 관계(예를 들면, 작업 단계별 의존도)와 해결 방법의 신뢰도, 정확도 등을 계산하여 가능한 해결 방법을 생성한다. 다음으로, 장애 유형별 대처 방법 분석부(224)는 생성된 장애 이벤트 해결 방법을 취합하여 [장애 이벤트, 대처방법] 패턴을 생성하여 장애 이벤트 정보 지식 저장부(225)에 저장한다.

시스템 인터페이스부(230)는 데이터 센터와 장애 이벤트 모니터링부(235) 사이의 데이터 입출력 경로를 제공한다.

장애 이벤트 모니터링부(235)는 장애 이벤트 정보 지식 저장부(225)에 저장되어 있는 장애 이벤트 패턴을 이용하여 현재 운영중인 서버들의 상태를 점검한다. 장애 이벤트 모니터링부(235)는 현재 서버의 상태를 실시간으로 감시하고, 장애 발생 가능성을 판단한다. 만약 장애 이벤트 발생이 예상되면, 장애 이벤트 모니터링부(235)는 현재 정보를 기반으로 장애 이벤트 후보군을 선별하여 출력한다. 또한 장애 이벤트 모니터링부(235)는 장애 이벤트가 발생했을 때, 자동 조치 가능 여부를 판단하고 그에 따른 후속 작업을 수행한다. 만약 감지한 장애 이벤트가 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 '과거 자동 조치 방법 축적 자료'에 포함되어 있으면, 이를 이용하여 장애 이벤트 조치부(255)에게 자동 조치를 지시한다. 이와 달리, 감지한 장애 이벤트가 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 '과거 자동 조치 방법 축적 자료'에 포함되어 있지 않으면, 장애 이벤트 조치 방법 추천부(240)에 관련 정보를 전달하여 조치를 지시한다.

장애 이벤트 관련 조치 방법 추천부(240)는 장애 이벤트 모니터링부(235)에 의해 새롭게 감지되었거나 기존의 자동 조치 방법을 통해 해결이 어려운 것으로 판별된 장애 이벤트에 대해 장애 이벤트 정보 지식 저장부(225)에 축적되어 있는 정보로부터 해당 장애 이벤트와 관련있는 정보들을 검색하여 추출한다. 그리고 장애 이벤트 관련 조치 방법 추천부(240)는 추출한 정보를 기초로 해당 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 사용자 인터페이스부(245)를 통해 시스템 운영자에게 출력한다. 시스템 운영자는 사용자 인터페이스부(245)를 통해 출력된 자동 조치 방법 후보군을 기초로 발생한 장애 이벤트에 대한 대처 방법을 결정하여 장애 이벤트를 해결한다. 이때 장애 이벤트 관련 조치 방법 추천부(240)는 자동 조치 방법 후보군을 생성하기 위해 협업 필터링 추천 시스템, 연관성 규칙 마이닝 기법, 베이지안 기법 등 인공지능분야, 기계학습분야에서 알려진 알고리즘을 사용할 수 있다.

장애 이벤트 관련 조치 방법 저장부(250)에는 장애 이벤트 조치 후 검증된 조치 방법이 추후 동일한 유형의 장애 이벤트에 대해 자동 실행되도록 저장된다.

장애 이벤트 조치부(255)는 장애 이벤트 모니터링부(235)에 의해 감지된 장애 이벤트에 대해 장애 이벤트 관련 조치 방법 저장부(250)에 축적되어 있는 조치 방법을 이용하여 자동 조치한다. 이때 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 자동 조치 방법 관련 결과물은 자동 실행 스크립트, 패치 프로그램 등 다양한 형태를 가질 수 있다.

도 5는 장애 이벤트 분석부(220)에서 수행되는 장애 이벤트 분석 및 대처 방법 도출 과정의 바람직한 실시예를 도시한 흐름도이다.

도 5를 참조하면, 장애 이벤트 분석부(220)는 장애 이벤트 저장부(215)에 저장되어 있는 원시 데이터에 대한 형태소 분석, 키워드 추출, 구문 분석 등을 수행하여 특정 상황에 대한 장애 이벤트의 기본 정보를 1차 추출한다(S500). 도 6에는 원시 데이터 및 원시 데이터로부터 1차 추출한 요약 정보가 도시되어 있다. 다음으로, 장애 이벤트 분석부(220)는 다수의 원시 데이터로부터 추출한 장애 이벤트 정보들 사이의 연관관계를 분석한다(S510). 이때 다양한 원시 데이터로부터 추출한 결과들을 취합한 후 연관규칙 알고리즘을 포함한 통계적 기법, 논리적 추론 등 다양한 연관관계 추론 기법을 적용하여 이들 사이의 연관관계를 분석한다. 다음으로, 장애 이벤트 분석부(220)는 여러 장애 이벤트 정보들 사이의 연관관계 분석 결과를 기초로 장애 결과 요약을 생성하고 장애 이벤트의 유형을 분류한다(S520). 이때 자연어 처리 기법, 텍스트 요약 기법과 관련된 알고리즘들이 적용되며, 요약 생성된 결과는 데이터 분류 기법을 이용하여 관련 유형군으로 분류된다. 이상의 과정을 통해 얻어진 유형별 장애 이벤트 분석 요약 결과는 장애 이벤트 정보 지식 저장부(225)에 저장된다(S530).

다음으로, 장애 이벤트 분석부(220)는 유형별 장애 이벤트 분석 요약 결과에 대해 구분 분석 및 해석을 수행하고(S540), 이를 기초로 장애 이벤트 연관 키워드를 조사하여 대처 방안과 매핑될 수 있는 장애 이벤트 대처 방안에 대한 질문을 생성한다(S550). 다음으로, 장애 이벤트 분석부(220)는 장애 이벤트 대처 방안 관련 질문을 기반으로 필요한 정보를 수집하기 위한 키워드를 생성하고, 생성된 키워드를 기초로 대처 방법을 생성하기 위한 정보들을 검색하고 수집한다(S560). 이때 유형별 장애 이벤트 분석을 위해 사용되었던 자료를 포함하여 온라인 검색을 통해 다른 관련 정보를 추가로 수집한다. 다음으로, 장애 이벤트 분석부(220)는 장애 이벤트에 대한 대처 방법을 질의응답 시스템 기법 등을 이용하여 생성한다(S570). 생성된 장애 이벤트 대처 방안은 대응하는 장애 이벤트와 연관시켜 장애 이벤트 패턴으로 장애 이벤트 정보 지식 저장부(225)에 저장된다(S580). 도 7에는 장애 이벤트 정보 요약 결과를 이용한 장애 이벤트 대처 방반을 생성하는 예가 도시되어 있다.

도 8은 장애 이벤트 정보를 기반으로 장애 이벤트를 자동으로 관리하는 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.

도 8을 참조하면, 장애 이벤트 모니터링부(235)는 시스템의 상태를 파악하여 장애 이벤트를 감지한다(S800). 다음으로 장애 이벤트 모니터링부(235)는 장애 이벤트 감지시 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 정보를 기반으로 자동화 기반 대응 가능 여부를 판단한다(S810). 만약 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 정보를 기초로 자동 대응이 가능한 것으로 판단되면, 장애 이벤트 조치부(255)는 장애 이벤트 모니터링부(235)에 의해 감지된 장애 이벤트에 대해 장애 이벤트 관련 조치 방법 저장부(250)에 축적되어 있는 조치 방법을 이용하여 자동 조치한다(S820). 이와 달리, 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 정보를 기초로 자동 대응이 불가능한 것으로 판단되면, 장애 이벤트 관련 조치 방법 추천부(240)는 장애 이벤트 정보 지식 저장부(225)에 저장되어 있는 정보 중에서 해당 장애 이벤트와 관련있는 정보들을 검색하여 추출한 정보를 기초로 해당 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하고, 사용자 인터페이스부(245)를 통해 자동 조치 방법 후보군을 시스템 운영자에게 출력한다(S830). 다음으로, 시스템 운영자가 선택한 자동 조치 방법에 의해 장애 이벤트가 해결되면, 해당 자동 조치 방법은 해결된 장애 이벤트와 연관되어 자동 실행이 가능하도록 알람 기능 또는 스크립트 자동 실행 등이 설정된 후 장애 이벤트 관련 조치 방법 저장부(250)에 저장된다(S840).

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

Claims

장애 이벤트 저장부에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성하는 장애 이벤트 분석부;
상기 유형별 장애 이벤트와 각각의 유형별 장애 이벤트에 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴이 저장되는 장애 이벤트 정보 지식 저장부;
발생된 장애 이벤트에 대해 검증된 조치 방법이 저장되는 장애 이벤트 관련 조치 방법 저장부;
서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단하는 장애 이벤트 모니터링부;
상기 장애 이벤트 모니터링부에 의해 새롭게 감지되었거나 상기 장애 이벤트 관련 조치 방법 저장부에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판별된 장애 이벤트에 대해 상기 장애 이벤트 정보 지식 저장부에 축적되어 있는 정보로부터 해결이 어려운 것으로 판별된 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 추출한 정보를 기초로 해결이 어려운 것으로 판별된 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력하는 장애 이벤트 관련 조치 방법 추천부; 및
장애 이벤트 모니터링부에 의해 감지된 장애 이벤트에 대해 상기 장애 이벤트 관련 조치 방법 저장부에 축적되어 있는 조치 방법을 이용하여 자동 조치하는 장애 이벤트 조치부;를 포함하는 것을 특징으로 하는 장애 이벤트 관리 자동화 시스템.
제 1항에 있어서,
상기 장애 이벤트 분석부는,
상기 장애 이벤트 저장부에 저장되어 있는 원시 데이터에 대한 형태소 분석 및 동의어 분석을 포함하는 분석을 통해 각각의 원시 데이터에 대한 장애 이벤트 키워드 및 문장을 추출하고, 추출된 장애 이벤트 키워드 및 문장을 기초로 장애 이벤트 관련 자료에 대한 요약 정보를 생성하는 장애 유형별 분석부; 및
상기 장애 이벤트 요약 정보에 대한 키워드 구문 분석을 수행하여 상기 장애 이벤트 요약 정보를 다양한 질문 형태로 변환하고, 상기 질문 형태의 이벤트 요약 정보에 대해 조치 방법 생성을 위해 확보한 자료를 기초로 장애 이벤트 질문에 대응하는 대처 방법을 도출하여 장애 이벤트와 대처방법을 연관시켜 상기 장애 이벤트 패턴을 생성하는 장애 유형별 대처 방법 분석부;를 포함하는 것을 특징으로 하는 장애 이벤트 관리 자동화 시스템.
제 1항 또는 제 2항에 있어서,
상기 장애 이벤트 관련 조치 방법 저장부에 저장되어 있는 조치 방법은 자동 실행 스크립트 또는 패치 프로그램인 것을 특징으로 하는 장애 이벤트 관리 자동화 시스템.
데이터 센터 장애 이벤트 관리 자동화 시스템에서 수행되는 장애 이벤트 관리 방법에 있어서,
(a) 장애 이벤트 저장소에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성하는 단계;
(b) 상기 유형별 장애 이벤트와 각각의 유형별 장애 이벤트에 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴을 저장하는 단계;
(c) 서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단하는 단계;
(d) 상기 발생된 장애 이벤트에 대해 검증된 조치 방법이 저장되어 있는 장애 이벤트 관련 조치 방법 저장소에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판단되면, 상기 장애 이벤트 정보 지식 저장소에 축적되어 있는 정보로부터 상기 해결이 어려운 것으로 판별된 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 상기 추출한 정보를 기초로 상기 해결이 어려운 것으로 판별된 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력하는 단계; 및
(e) 상기 발생딘 장애 이벤트에 대해 상기 장애 이벤트 관련 조치 방법 저장소에 축적되어 있는 조치 방법을 이용하여 자동 조치하는 단계;를 포함하는 것을 특징으로 하는 장애 이벤트 관리 방법.
제 4항에 있어서,
상기 (a)단계는,
(a1) 상기 장애 이벤트 저장소에 저장되어 있는 원시 데이터에 대한 형태소 분석 및 동의어 분석을 포함하는 분석을 통해 각각의 원시 데이터에 대한 장애 이벤트 키워드 및 문장을 추출하고, 추출된 장애 이벤트 키워드 및 문장을 기초로 장애 이벤트 관련 자료에 대한 요약 정보를 생성하는 단계; 및
(a2) 상기 장애 이벤트 요약 정보에 대한 키워드 구문 분석을 수행하여 상기 장애 이벤트 요약 정보를 다양한 질문 형태로 변환하고, 상기 질문 형태의 이벤트 요약 정보에 대해 조치 방법 생성을 위해 확보한 자료를 기초로 장애 이벤트 질문에 대응하는 대처 방법을 도출하여 장애 이벤트와 대처방법을 연관시켜 상기 장애 이벤트 패턴을 생성하는 단계;를 포함하는 것을 특징으로 하는 장애 이벤트 관리 방법.
제 4항 또는 제 5항에 있어서,
상기 장애 이벤트 관련 조치 방법 저장소에 저장되어 있는 조치 방법은 자동 실행 스크립트 또는 패치 프로그램인 것을 특징으로 하는 장애 이벤트 관리 방법.
제 4항 또는 제 5항에 기재된 장애 이벤트 관리 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.