KR101545215B1 - 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법 - Google Patents
데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법 Download PDFInfo
- Publication number
- KR101545215B1 KR101545215B1 KR1020130130234A KR20130130234A KR101545215B1 KR 101545215 B1 KR101545215 B1 KR 101545215B1 KR 1020130130234 A KR1020130130234 A KR 1020130130234A KR 20130130234 A KR20130130234 A KR 20130130234A KR 101545215 B1 KR101545215 B1 KR 101545215B1
- Authority
- KR
- South Korea
- Prior art keywords
- event
- fault
- fault event
- failure
- information
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Z—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
- G16Z99/00—Subject matter not provided for in other main groups of this subclass
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
장애 이벤트 관리 자동화 시스템 및 방법이 개시된다. 장애 이벤트 분석부는 장애 이벤트 저장부에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성한다. 장애 이벤트 정보 지식 저장부에는 유형별 장애 이벤트과 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴이 저장된다. 장애 이벤트 관련 조치 방법 저장부에는 발생된 장애 이벤트에 대해 검증된 조치 방법이 저장된다. 장애 이벤트 모니터링부는 서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단한다. 장애 이벤트 관련 조치 방법 추천부는 장애 이벤트 관련 조치 방법 저장부에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판별된 장애 이벤트에 대해 장애 이벤트 정보 지식 저장부에 축적되어 있는 정보로부터 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 추출한 정보를 기초로 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력한다. 장애 이벤트 조치부는 감지된 장애 이벤트에 대해 장애 이벤트 관련 조치 방법 저장부에 축적되어 있는 조치 방법을 이용하여 자동 조치한다.
Description
본 발명은 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법에 관한 것으로, 보다 상세하게는, 데이터 센터에서 발생하는 장애 이벤트를 자동적으로 관리할 수 있는 시스템 및 방법에 관한 것이다.
최근 클라우드 환경의 성장세와 더불어 데이터 센터의 효과적인 운영 관리는 매우 중요한 문제로 대두되고 있다. 기존의 데이터 센터 관리 방법들의 대부분은 과거 운영 기록에 의존하고 있으며, 사람에 의해 수동으로 데이터 센터의 장애를 관리하고 있다. 이 경우 장애 이벤트 발생에 대한 예측과 신속한 자동 대응 및 조치가 불가능하다는 문제가 있다. 또한 과거에 발생하지 않았던 새로운 형태의 장애 이벤트에 대한 사전 대비 및 예측도 어려운 문제점이 있다.
이와 같은 기존의 대표적인 장애 관리 시스템은 IBM사에서 제안한 자기 진단 분석 및 보고 기법(Self-Monitoring Analysis and Reporting Technology : S.M.A.R.T)이 있다. S.M.A.R.T는 스토리지에 대한 동작 이상 여부를 모니터링하고문제점 발생 원인을 추적하며, 향후 발생할 장애에 대해 예측 결과를 제공한다. 이때 예측적 고장 분석(Predictive Failure Analysis : PFA)라는 기술이 사용되었으며, PFA는 디스크들의 과거 데이터를 바탕으로 기계학습, 수학적 모델링 등의 기법을 통해 장비의 동작 이상 여부(정상 작동 모니터링 포함) 및 문제 발생시 관련 잠재 원인 등을 추적한다.
이러한 S.M.A.R.T의 문제점과 한계는 다음과 같다.
첫째, 장애 및 오작동에 대한 대상이 하드 디스크 드라이버로 한정되어 있다. 이로 인해 하드 디스크가 갖는 속성(예: Read Error Rate, Reallocated Sectors Count 등)에 제약을 받는다.
둘째, 하드 디스크에서 발생하는 각종 데이터를 기반으로 기계학습, 수학적 모델링 기법 등을 동원하여 예측 모델을 만들었다 하더라도 이는 현재까지 내부적으로 발생한 오작동 패턴에만 적용이 가능하다. 따라서 S.M.A.R.T는 과거 동작 성능 기록 데이터를 기반으로 하여 도출된 임계치를 가지고 작동하도록 되어 있다. 한편, 이러한 이유로 시스템의 오작동 경고가 없었음에도 하드 디스크 장애가 발생하는 경우가 전체의 50%에 달하는 것으로 알려져 있다
셋째, S.M.A.R.T는 소프트웨어(예: 시스템 소프트웨어, 미들웨어 애플리케이션 등)의 버전별 충돌 등으로 발생할 수 있는 시스템 다운과 같은 잠재 장애 이벤트에 대한 예측 및 대응이 불가능하다는 한계점을 지니고 있다.
넷째, S.M.A.R.T가 모니터링을 통해 사용자에게 알리는 메시지는 오직 두 가지 형태('Device is OK' 또는 'Drive is likely to fail soon')만 존재한다.
도 1에는 S.M.A.R.T에서 사용되는 PFA의 전체 구조가 도시되어 있다.
이상에서 설명한 종래 기술은 내부적으로 발생한 데이터에 대해 기계학습, 수학적 모델링에 기초하여 분석 모델과 정상 작동으로 간주할 수 있는 임계치에 기반하여 모니터링을 하는 기법을 채택하고 있기 때문에, 내부적으로 돌발적인 시스템 오류와 같은 장애 이벤트에 대한 예측 및 대응이 어렵다는 문제가 있다. 또한 종래 기술은 특정 장비(즉, 하드 디스크)만을 대상으로 하고 있으며, 이로 인해 시스템에 설치되어 운용되는 소프트웨어가 원인이 되어 발생할 수 있는 다양한 형태의 장애 이벤트에 대해서는 대처 방안이 존재하지 않는다는 문제가 있다. 또한, 종래 기술은 모니터링이 주 역할이며, 이는 많은 장애 오탐지 발생으로 인한 시스템 운영자의 불필요한 추가 작업을 유발하게 된다.
본 발명이 이루고자 하는 기술적 과제는, 데이터 센터의 운영 및 관리 자동화를 통해 내부적으로 돌발적인 시스템 오류와 같은 장애 이벤트에 대한 예측 및 대응이 가능한 시스템 및 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는, 데이터 센터의 운영 및 관리 자동화를 통해 내부적으로 돌발적인 시스템 오류와 같은 장애 이벤트에 대한 예측 및 대응이 가능한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템은, 장애 이벤트 저장부에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성하는 장애 이벤트 분석부; 상기 유형별 장애 이벤트와 각각의 유형별 장애 이벤트에 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴이 저장되는 장애 이벤트 정보 지식 저장부; 발생된 장애 이벤트에 대해 검증된 조치 방법이 저장되는 장애 이벤트 관련 조치 방법 저장부; 서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단하는 장애 이벤트 모니터링부; 상기 장애 이벤트 모니터링부에 의해 새롭게 감지되었거나 상기 장애 이벤트 관련 조치 방법 저장부에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판별된 장애 이벤트에 대해 상기 장애 이벤트 정보 지식 저장부에 축적되어 있는 정보로부터 해결이 어려운 것으로 판별된 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 추출한 정보를 기초로 해결이 어려운 것으로 판별된 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력하는 장애 이벤트 관련 조치 방법 추천부; 및 장애 이벤트 모니터링부에 의해 감지된 장애 이벤트에 대해 상기 장애 이벤트 관련 조치 방법 저장부에 축적되어 있는 조치 방법을 이용하여 자동 조치하는 장애 이벤트 조치부;를 구비한다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 방법은, (a) 장애 이벤트 저장소에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성하는 단계; (b) 상기 유형별 장애 이벤트와 각각의 유형별 장애 이벤트에 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴을 저장하는 단계; (c) 서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단하는 단계; (d) 상기 발생된 장애 이벤트에 대해 검증된 조치 방법이 저장되어 있는 장애 이벤트 관련 조치 방법 저장소에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판단되면, 상기 장애 이벤트 정보 지식 저장소에 축적되어 있는 정보로부터 상기 해결이 어려운 것으로 판별된 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 상기 추출한 정보를 기초로 상기 해결이 어려운 것으로 판별된 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력하는 단계; 및 (e) 상기 발생딘 장애 이벤트에 대해 상기 장애 이벤트 관련 조치 방법 저장소에 축적되어 있는 조치 방법을 이용하여 자동 조치하는 단계;를 갖는다.
본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법에 의하면, 지속적으로 축적되는 장애 이벤트 지식을 활용하여 불시에 발생하는 특정한 애플리케이션의 실행시 발생가능한 장애 이벤트, 시스템 다운 현상 등과 같은 시스템 소프트웨어 관련 장애 이벤트의 감지 및 대처가 가능한 효과가 있다. 또한 지속적으로 축적되는 장애 이벤트 외부 정보 분석 결과를 기초로 현재 운영 중인 데이터 센터 내에서만 발생했던 장애 이벤트 외에 신규로 발생 가능성이 있는 장애 이벤트를 효율적으로 차단할 수 있다. 또한, 탐지된 장애 이벤트에 대한 자동 처리를 통해 운영 작업 부하를 획기적으로 줄일 수 있으며, 장애 이벤트의 사전 감지 및 자동 조치를 수행한 후 지속적인 확인을 통한 시스템의 안정화도 지원할 수 있게 된다.
도 1은 S.M.A.R.T에서 사용되는 PFA의 전체 구조를 도시한 도면,
도 2는 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템에 대한 바람직한 실시예의 구조를 도시한 도면,
도 3은 장애 유형별 분석부(220)에 의한 원시 자료로부터 유형별 장애 이벤트를 생성하는 동작을 도시한 도면,
도 4는 장애 유형별 대처 방법 분석부(224)에 의한 장애 유형별 대처 방법 생성 과정을 도시한 도면,
도 5는 장애 이벤트 분석부(220)에서 수행되는 장애 이벤트 분석 및 대처 방법 도출 과정의 바람직한 실시예를 도시한 흐름도,
도 6은 원시 데이터 및 원시 데이터로부터 추출한 요약 정보를 도시한 도면,
도 7은 장애 이벤트 정보 요약 결과를 이용한 장애 이벤트 대처 방반을 생성하는 예를 도시한 도면, 그리고,
도 8은 장애 이벤트 정보를 기반으로 장애 이벤트를 자동으로 관리하는 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.
도 2는 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템에 대한 바람직한 실시예의 구조를 도시한 도면,
도 3은 장애 유형별 분석부(220)에 의한 원시 자료로부터 유형별 장애 이벤트를 생성하는 동작을 도시한 도면,
도 4는 장애 유형별 대처 방법 분석부(224)에 의한 장애 유형별 대처 방법 생성 과정을 도시한 도면,
도 5는 장애 이벤트 분석부(220)에서 수행되는 장애 이벤트 분석 및 대처 방법 도출 과정의 바람직한 실시예를 도시한 흐름도,
도 6은 원시 데이터 및 원시 데이터로부터 추출한 요약 정보를 도시한 도면,
도 7은 장애 이벤트 정보 요약 결과를 이용한 장애 이벤트 대처 방반을 생성하는 예를 도시한 도면, 그리고,
도 8은 장애 이벤트 정보를 기반으로 장애 이벤트를 자동으로 관리하는 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.
이하에서, 첨부된 도면들을 참조하여 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.
도 2는 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템에 대한 바람직한 실시예의 구조를 도시한 도면이다.
도 2를 참조하면, 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템의 바람직한 실시예는, 자료수집부(210), 장애 이벤트 저장부(215), 장애 이벤트 분석부(220), 장애 이벤트 정보 지식 저장부(225), 시스템 인터페이스부(230), 장애 이벤트 모니터링부(235), 장애 이벤트 관련 조치 방법 추천부(240), 사용자 인터페이스부(245), 장애 이벤트 관련 조치 방법 저장부(250) 및 장애 이벤트 조치부(255)를 구비한다. 이때, 자료수집부(210), 장애 이벤트 저장부(215) 및 장애 이벤트 모니터링부(235)는 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템과는 별도의 모듈 또는 시스템으로 구축될 수 있다.
자료수집부(210)는 시스템 운영자료, 논의 자료, 하드웨어 및 소프트웨어 기술 포럼 결과, 기술지원 서비스 메뉴얼 등 다양한 장애 이벤트 관련 자료를 검색하여 수집한다. 이러한 자료수집부(210)는 검색모듈과 수집모듈로 구성될 수 있다. 이때 검색 및 수집은 블로그 수집기(예를 들면, 블로그디거, 블로그스피어 등)와 외부 검색 엔진(예를 들면, 구글, 빙 등), 웹 크롤러 등과 같은 다양한 온라인 자료 검색 및 수집기를 기반으로 장애 이벤트와 관련된 원시 데이터를 수집한다. 수집 대상은 시스템 장애 관련 온라인 포럼, 시스템 제작 업체 기술 지원 사이트, 운영체제 커뮤니티, IT 관련 최신 동향 기사 제공 사이트 등 가능한 모든 사이트들을 대상으로 한다. 또한 수집 내용은 운영체제, 애플리케이션, DBMS 등 데이터 센터에서 설치 운영 중인 소프트웨어와 하드웨어에 관련된 모든 사항을 포함한다. 자료수집부(210)에 의해 수집된 자료는 장애 이벤트 저장부(215)에 저장된다. 이대 장애 이벤트 관련 원시 데이터는 분산 파일 시스템에 저장될 수 있으며, 원시 데이터는 숫자, 텍스트, 이미지 등 다양한 유형으로 구성된 비정형 데이터일 수 있다.
장애 이벤트 분석부(220)는 장애 이벤트 저장부(215)에 저장되어 있는 자료를 분석하여 각 자료에 대한 기본 정보를 1차 추출한 후 다중 자료에서 생성된 1차 추출 정보들 사이의 연관 관계를 분석하여 관련성 분석결과를 기초로 유형별 장애 이벤트를 생성 및 정리하고, 각각의 유형별 장애 이벤트에 대응하는 대처 방법 및 사전 예방 조치를 생성한다. 생성된 유형별 장애 이벤트에 대응하는 대처 방법 및 사전 예방 조치는 [장애 이벤트, 대처 방법]의 형식을 가진 패턴으로 장애 이벤트 정보 지식 저장부(225)에 저장되며, 각각의 패턴들은 지속적인 수집, 분석 및 생성 과정을 통해 장애 이벤트 정보 지식 저장부(225)에 축적되고 관리된다. 그리고 이러한 패턴들은 향후 새롭게 발견된 장애 이벤트에 대한 신속 조치를 위해 활용된다. 장애 이벤트 정보 지식 저장부(225)에 저장되는 정보는 원인-발생 연관 규칙, 대응 방법 분석 결과 등이다. 이러한 장애 이벤트 분석부(220)는 장애 유형별 분석부(222) 및 장애 유형별 대처 방법 분석부(224)로 구성된다.
장애 유형별 분석부(222)는 장애 이벤트 저장부(215)에 저장되어 있는 정형 및 비정형 원시 데이터의 분석을 통해 각 유형별로 장애 이벤트를 정리, 정의 및 요약한다. 도 3에는 장애 유형별 분석부(220)에 의한 원시 자료로부터 유형별 장애 이벤트를 생성하는 동작이 도시되어 있다. 도 3을 참조하면, 장애 유형별 분석부(222)는 장애 이벤트 관련 원시 데이터에 대해 형태소 사전을 참조한 형태소 분석, 동의어 사전을 참조한 용어 추출/특성 추출, 유사어 사전을 참조한 용어별 유사어 추출, 불용어 사전을 참조한 불용어 제거 및 용어 빈도수와 문서 역빈도수를 참조한 (용어별 빈도수)*(문서 역빈도수) 및 가중치 계산을 수행한다. 그리고 이러한 원시 데이터에 대한 분석 결과를 기초로 장애 이벤트 키워드를 출력하고, 분석 결과에 대해 키워드 기반 구문 확장과 키워드 기반 구문 가중치 계산을 통해 장애 이벤트 정보 요약 문장을 출력한다. 또한, 원시 데이터에 대해 문장 추출 및 문장 가중치 계산을 통해 장애 이벤트 정보 추출 문장을 출력한다. 이때, 문장 가중치 계산시 키워드 기반 구문 가중치를 참조할 수 있다. 다음으로 장애 유형별 분석부(222)는 이상의 과정을 통해 출력된 장애 이벤트 키워드, 장애 이벤트 정보 요약 문장 및 장애 이벤트 정보 추출 문장으로 구성된 1차 추출 요약 정보들 사이의 연관 관계를 분석하여 관련성 기반 유형별 장애 이벤트를 생성한다. 이때 1차 추출 요약 정보들 사이의 연관관계 분석은 상호 관련도를 계산하여 유사한 정보들을 취합하고 분류하는 방법에 의해 수행된다. 상호 관련도는 선험적 알고리즘(Apriori Algorithm), 빈발 패턴 트리(Frequent Pattern Tree)를 포함하는 군집화 및 범주화와 관련한 다양한 기술을 적용하여 계산될 수 있다. 그리고 이러한 과정을 통해 얻은 중간 결과물들에 대해 각각의 장애 유형별로 기본 정보 요약사항, 발생 형태, 발생 장비들에 대한 통계 정보 등을 생성한다.
장애 유형별 대처 방법 분석부(224)는 유형별 장애 분석부(222)에 의해 생성된 장애 이벤트 정보에 대한 요약 정보를 기반으로 장애 대처 방법을 생성한다. 도 4에는 장애 유형별 대처 방법 분석부(224)에 의한 장애 유형별 대처 방법 생성 과정이 도시되어 있다. 도 4를 참조하면, 장애 유형별 대처 방법 분석부(224)는 유형별 장애 분석부(222)에 의해 생성된 장애 이벤트 요약 정보를 재해석한다. 이를 위해 장애 유형별 대처 방법 분석부(224)는 형태소 분석, 맞춤법 확인, 정규화 등을 포함하는 키워드 구문 분석을 수행하고, 이를 기초로 장애 이벤트 현상에 외부 영향 요인을 고려하여 장애 이벤트 정보를 다양한 질문 형태로 변환한다. 이때 장애 이벤트 질문은 언제, 어디서, 어떻게, 무슨 이유로 등의 형태를 가질 수 있다. 다음으로, 장애 유형별 대처 방법 분석부(224)는 해석한 질문 형태의 이벤트 요약 정보에 대해 정보 검색 기법을 이용하여 대응 및 조치 방법 생성을 위한 자료를 확보한다. 이때 작업 대상은 기존에 수집한 원시 데이터를 포함하여 외부에서 수집할 수 있는 모든 자료이다. 다음으로, 장애 유형별 대처 방법 분석부(224)는 수집한 자료를 바탕으로 상호 인과 관계 및 연관 관계를 파악하여 해결책을 생성한다. 이때 장애 이벤트 질문에 따라 '해결책 후보군'을 선별하고, 이들 사이의 상호 연관 관계(예를 들면, 작업 단계별 의존도)와 해결 방법의 신뢰도, 정확도 등을 계산하여 가능한 해결 방법을 생성한다. 다음으로, 장애 유형별 대처 방법 분석부(224)는 생성된 장애 이벤트 해결 방법을 취합하여 [장애 이벤트, 대처방법] 패턴을 생성하여 장애 이벤트 정보 지식 저장부(225)에 저장한다.
시스템 인터페이스부(230)는 데이터 센터와 장애 이벤트 모니터링부(235) 사이의 데이터 입출력 경로를 제공한다.
장애 이벤트 모니터링부(235)는 장애 이벤트 정보 지식 저장부(225)에 저장되어 있는 장애 이벤트 패턴을 이용하여 현재 운영중인 서버들의 상태를 점검한다. 장애 이벤트 모니터링부(235)는 현재 서버의 상태를 실시간으로 감시하고, 장애 발생 가능성을 판단한다. 만약 장애 이벤트 발생이 예상되면, 장애 이벤트 모니터링부(235)는 현재 정보를 기반으로 장애 이벤트 후보군을 선별하여 출력한다. 또한 장애 이벤트 모니터링부(235)는 장애 이벤트가 발생했을 때, 자동 조치 가능 여부를 판단하고 그에 따른 후속 작업을 수행한다. 만약 감지한 장애 이벤트가 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 '과거 자동 조치 방법 축적 자료'에 포함되어 있으면, 이를 이용하여 장애 이벤트 조치부(255)에게 자동 조치를 지시한다. 이와 달리, 감지한 장애 이벤트가 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 '과거 자동 조치 방법 축적 자료'에 포함되어 있지 않으면, 장애 이벤트 조치 방법 추천부(240)에 관련 정보를 전달하여 조치를 지시한다.
장애 이벤트 관련 조치 방법 추천부(240)는 장애 이벤트 모니터링부(235)에 의해 새롭게 감지되었거나 기존의 자동 조치 방법을 통해 해결이 어려운 것으로 판별된 장애 이벤트에 대해 장애 이벤트 정보 지식 저장부(225)에 축적되어 있는 정보로부터 해당 장애 이벤트와 관련있는 정보들을 검색하여 추출한다. 그리고 장애 이벤트 관련 조치 방법 추천부(240)는 추출한 정보를 기초로 해당 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 사용자 인터페이스부(245)를 통해 시스템 운영자에게 출력한다. 시스템 운영자는 사용자 인터페이스부(245)를 통해 출력된 자동 조치 방법 후보군을 기초로 발생한 장애 이벤트에 대한 대처 방법을 결정하여 장애 이벤트를 해결한다. 이때 장애 이벤트 관련 조치 방법 추천부(240)는 자동 조치 방법 후보군을 생성하기 위해 협업 필터링 추천 시스템, 연관성 규칙 마이닝 기법, 베이지안 기법 등 인공지능분야, 기계학습분야에서 알려진 알고리즘을 사용할 수 있다.
장애 이벤트 관련 조치 방법 저장부(250)에는 장애 이벤트 조치 후 검증된 조치 방법이 추후 동일한 유형의 장애 이벤트에 대해 자동 실행되도록 저장된다.
장애 이벤트 조치부(255)는 장애 이벤트 모니터링부(235)에 의해 감지된 장애 이벤트에 대해 장애 이벤트 관련 조치 방법 저장부(250)에 축적되어 있는 조치 방법을 이용하여 자동 조치한다. 이때 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 자동 조치 방법 관련 결과물은 자동 실행 스크립트, 패치 프로그램 등 다양한 형태를 가질 수 있다.
도 5는 장애 이벤트 분석부(220)에서 수행되는 장애 이벤트 분석 및 대처 방법 도출 과정의 바람직한 실시예를 도시한 흐름도이다.
도 5를 참조하면, 장애 이벤트 분석부(220)는 장애 이벤트 저장부(215)에 저장되어 있는 원시 데이터에 대한 형태소 분석, 키워드 추출, 구문 분석 등을 수행하여 특정 상황에 대한 장애 이벤트의 기본 정보를 1차 추출한다(S500). 도 6에는 원시 데이터 및 원시 데이터로부터 1차 추출한 요약 정보가 도시되어 있다. 다음으로, 장애 이벤트 분석부(220)는 다수의 원시 데이터로부터 추출한 장애 이벤트 정보들 사이의 연관관계를 분석한다(S510). 이때 다양한 원시 데이터로부터 추출한 결과들을 취합한 후 연관규칙 알고리즘을 포함한 통계적 기법, 논리적 추론 등 다양한 연관관계 추론 기법을 적용하여 이들 사이의 연관관계를 분석한다. 다음으로, 장애 이벤트 분석부(220)는 여러 장애 이벤트 정보들 사이의 연관관계 분석 결과를 기초로 장애 결과 요약을 생성하고 장애 이벤트의 유형을 분류한다(S520). 이때 자연어 처리 기법, 텍스트 요약 기법과 관련된 알고리즘들이 적용되며, 요약 생성된 결과는 데이터 분류 기법을 이용하여 관련 유형군으로 분류된다. 이상의 과정을 통해 얻어진 유형별 장애 이벤트 분석 요약 결과는 장애 이벤트 정보 지식 저장부(225)에 저장된다(S530).
다음으로, 장애 이벤트 분석부(220)는 유형별 장애 이벤트 분석 요약 결과에 대해 구분 분석 및 해석을 수행하고(S540), 이를 기초로 장애 이벤트 연관 키워드를 조사하여 대처 방안과 매핑될 수 있는 장애 이벤트 대처 방안에 대한 질문을 생성한다(S550). 다음으로, 장애 이벤트 분석부(220)는 장애 이벤트 대처 방안 관련 질문을 기반으로 필요한 정보를 수집하기 위한 키워드를 생성하고, 생성된 키워드를 기초로 대처 방법을 생성하기 위한 정보들을 검색하고 수집한다(S560). 이때 유형별 장애 이벤트 분석을 위해 사용되었던 자료를 포함하여 온라인 검색을 통해 다른 관련 정보를 추가로 수집한다. 다음으로, 장애 이벤트 분석부(220)는 장애 이벤트에 대한 대처 방법을 질의응답 시스템 기법 등을 이용하여 생성한다(S570). 생성된 장애 이벤트 대처 방안은 대응하는 장애 이벤트와 연관시켜 장애 이벤트 패턴으로 장애 이벤트 정보 지식 저장부(225)에 저장된다(S580). 도 7에는 장애 이벤트 정보 요약 결과를 이용한 장애 이벤트 대처 방반을 생성하는 예가 도시되어 있다.
도 8은 장애 이벤트 정보를 기반으로 장애 이벤트를 자동으로 관리하는 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.
도 8을 참조하면, 장애 이벤트 모니터링부(235)는 시스템의 상태를 파악하여 장애 이벤트를 감지한다(S800). 다음으로 장애 이벤트 모니터링부(235)는 장애 이벤트 감지시 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 정보를 기반으로 자동화 기반 대응 가능 여부를 판단한다(S810). 만약 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 정보를 기초로 자동 대응이 가능한 것으로 판단되면, 장애 이벤트 조치부(255)는 장애 이벤트 모니터링부(235)에 의해 감지된 장애 이벤트에 대해 장애 이벤트 관련 조치 방법 저장부(250)에 축적되어 있는 조치 방법을 이용하여 자동 조치한다(S820). 이와 달리, 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 정보를 기초로 자동 대응이 불가능한 것으로 판단되면, 장애 이벤트 관련 조치 방법 추천부(240)는 장애 이벤트 정보 지식 저장부(225)에 저장되어 있는 정보 중에서 해당 장애 이벤트와 관련있는 정보들을 검색하여 추출한 정보를 기초로 해당 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하고, 사용자 인터페이스부(245)를 통해 자동 조치 방법 후보군을 시스템 운영자에게 출력한다(S830). 다음으로, 시스템 운영자가 선택한 자동 조치 방법에 의해 장애 이벤트가 해결되면, 해당 자동 조치 방법은 해결된 장애 이벤트와 연관되어 자동 실행이 가능하도록 알람 기능 또는 스크립트 자동 실행 등이 설정된 후 장애 이벤트 관련 조치 방법 저장부(250)에 저장된다(S840).
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
Claims (7)
- 장애 이벤트 저장부에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성하는 장애 이벤트 분석부;
상기 유형별 장애 이벤트와 각각의 유형별 장애 이벤트에 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴이 저장되는 장애 이벤트 정보 지식 저장부;
발생된 장애 이벤트에 대해 검증된 조치 방법이 저장되는 장애 이벤트 관련 조치 방법 저장부;
서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단하는 장애 이벤트 모니터링부;
상기 장애 이벤트 모니터링부에 의해 새롭게 감지되었거나 상기 장애 이벤트 관련 조치 방법 저장부에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판별된 장애 이벤트에 대해 상기 장애 이벤트 정보 지식 저장부에 축적되어 있는 정보로부터 해결이 어려운 것으로 판별된 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 추출한 정보를 기초로 해결이 어려운 것으로 판별된 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력하는 장애 이벤트 관련 조치 방법 추천부; 및
장애 이벤트 모니터링부에 의해 감지된 장애 이벤트에 대해 상기 장애 이벤트 관련 조치 방법 저장부에 축적되어 있는 조치 방법을 이용하여 자동 조치하는 장애 이벤트 조치부;를 포함하는 것을 특징으로 하는 장애 이벤트 관리 자동화 시스템. - 제 1항에 있어서,
상기 장애 이벤트 분석부는,
상기 장애 이벤트 저장부에 저장되어 있는 원시 데이터에 대한 형태소 분석 및 동의어 분석을 포함하는 분석을 통해 각각의 원시 데이터에 대한 장애 이벤트 키워드 및 문장을 추출하고, 추출된 장애 이벤트 키워드 및 문장을 기초로 장애 이벤트 관련 자료에 대한 요약 정보를 생성하는 장애 유형별 분석부; 및
상기 장애 이벤트 요약 정보에 대한 키워드 구문 분석을 수행하여 상기 장애 이벤트 요약 정보를 다양한 질문 형태로 변환하고, 상기 질문 형태의 이벤트 요약 정보에 대해 조치 방법 생성을 위해 확보한 자료를 기초로 장애 이벤트 질문에 대응하는 대처 방법을 도출하여 장애 이벤트와 대처방법을 연관시켜 상기 장애 이벤트 패턴을 생성하는 장애 유형별 대처 방법 분석부;를 포함하는 것을 특징으로 하는 장애 이벤트 관리 자동화 시스템. - 제 1항 또는 제 2항에 있어서,
상기 장애 이벤트 관련 조치 방법 저장부에 저장되어 있는 조치 방법은 자동 실행 스크립트 또는 패치 프로그램인 것을 특징으로 하는 장애 이벤트 관리 자동화 시스템. - 데이터 센터 장애 이벤트 관리 자동화 시스템에서 수행되는 장애 이벤트 관리 방법에 있어서,
(a) 장애 이벤트 저장소에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성하는 단계;
(b) 상기 유형별 장애 이벤트와 각각의 유형별 장애 이벤트에 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴을 저장하는 단계;
(c) 서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단하는 단계;
(d) 상기 발생된 장애 이벤트에 대해 검증된 조치 방법이 저장되어 있는 장애 이벤트 관련 조치 방법 저장소에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판단되면, 상기 장애 이벤트 정보 지식 저장소에 축적되어 있는 정보로부터 상기 해결이 어려운 것으로 판별된 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 상기 추출한 정보를 기초로 상기 해결이 어려운 것으로 판별된 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력하는 단계; 및
(e) 상기 발생딘 장애 이벤트에 대해 상기 장애 이벤트 관련 조치 방법 저장소에 축적되어 있는 조치 방법을 이용하여 자동 조치하는 단계;를 포함하는 것을 특징으로 하는 장애 이벤트 관리 방법. - 제 4항에 있어서,
상기 (a)단계는,
(a1) 상기 장애 이벤트 저장소에 저장되어 있는 원시 데이터에 대한 형태소 분석 및 동의어 분석을 포함하는 분석을 통해 각각의 원시 데이터에 대한 장애 이벤트 키워드 및 문장을 추출하고, 추출된 장애 이벤트 키워드 및 문장을 기초로 장애 이벤트 관련 자료에 대한 요약 정보를 생성하는 단계; 및
(a2) 상기 장애 이벤트 요약 정보에 대한 키워드 구문 분석을 수행하여 상기 장애 이벤트 요약 정보를 다양한 질문 형태로 변환하고, 상기 질문 형태의 이벤트 요약 정보에 대해 조치 방법 생성을 위해 확보한 자료를 기초로 장애 이벤트 질문에 대응하는 대처 방법을 도출하여 장애 이벤트와 대처방법을 연관시켜 상기 장애 이벤트 패턴을 생성하는 단계;를 포함하는 것을 특징으로 하는 장애 이벤트 관리 방법. - 제 4항 또는 제 5항에 있어서,
상기 장애 이벤트 관련 조치 방법 저장소에 저장되어 있는 조치 방법은 자동 실행 스크립트 또는 패치 프로그램인 것을 특징으로 하는 장애 이벤트 관리 방법. - 제 4항 또는 제 5항에 기재된 장애 이벤트 관리 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130130234A KR101545215B1 (ko) | 2013-10-30 | 2013-10-30 | 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법 |
CN201410598452.4A CN104598367B (zh) | 2013-10-30 | 2014-10-30 | 数据中心故障事件管理自动化系统及方法 |
US14/528,019 US9652318B2 (en) | 2013-10-30 | 2014-10-30 | System and method for automatically managing fault events of data center |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130130234A KR101545215B1 (ko) | 2013-10-30 | 2013-10-30 | 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150049541A KR20150049541A (ko) | 2015-05-08 |
KR101545215B1 true KR101545215B1 (ko) | 2015-08-18 |
Family
ID=52996859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130130234A KR101545215B1 (ko) | 2013-10-30 | 2013-10-30 | 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9652318B2 (ko) |
KR (1) | KR101545215B1 (ko) |
CN (1) | CN104598367B (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170126553A (ko) * | 2016-05-09 | 2017-11-20 | 한국전자통신연구원 | 제조 현장의 작업 이벤트 추천 및 입력을 위한 장치 |
KR20200049028A (ko) * | 2018-10-31 | 2020-05-08 | 주식회사 엘지씨엔에스 | 장애 유형 기반의 서버 장애 진단 및 대응 방법 |
KR102432284B1 (ko) | 2021-07-28 | 2022-08-12 | 인프라닉스 아메리카 코퍼레이션 | It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법 |
KR20230100903A (ko) | 2021-12-29 | 2023-07-06 | 스트라토 주식회사 | 네트워크 장치 장애 처리를 위한 시스템 및 그 제어방법 |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6593981B2 (ja) * | 2014-08-08 | 2019-10-23 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法、およびプログラム |
BR112017003168B1 (pt) * | 2014-08-21 | 2021-03-02 | Syngenta Participations Ag | compostos derivados de heterocíclicos, composição pesticida, método para controle de pragas e método para a proteção de material de propagação de plantas do ataque por pragas |
US9965458B2 (en) * | 2014-12-09 | 2018-05-08 | Sansa AI Inc. | Intelligent system that dynamically improves its knowledge and code-base for natural language understanding |
CN105159813B (zh) * | 2015-08-05 | 2018-09-14 | 北京百度网讯科技有限公司 | 基于数据中心的故障报警方法、装置、管理设备及系统 |
US10235227B2 (en) * | 2015-10-12 | 2019-03-19 | Bank Of America Corporation | Detection, remediation and inference rule development for multi-layer information technology (“IT”) structures |
US9684556B2 (en) | 2015-10-12 | 2017-06-20 | Bank Of America Corporation | Method and apparatus for a self-adjusting calibrator |
US9703624B2 (en) | 2015-10-12 | 2017-07-11 | Bank Of America Corporation | Event correlation and calculation engine |
CN107368895A (zh) * | 2016-05-13 | 2017-11-21 | 扬州大学 | 一种结合机器学习和自动规划的动作知识提取方法 |
WO2018092924A1 (ko) * | 2016-11-15 | 2018-05-24 | (주) 글루시스 | 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법 |
KR101971013B1 (ko) | 2016-12-13 | 2019-04-22 | 나무기술 주식회사 | 빅데이터 기반의 클라우드 인프라 실시간 분석 시스템 및 그 제공방법 |
JP6897140B2 (ja) * | 2017-02-14 | 2021-06-30 | 富士フイルムビジネスイノベーション株式会社 | 設計支援システムおよびプログラム |
US10338991B2 (en) * | 2017-02-21 | 2019-07-02 | Microsoft Technology Licensing, Llc | Cloud-based recovery system |
US10776577B2 (en) * | 2017-06-30 | 2020-09-15 | Open Text Corporation | Systems and methods for diagnosing problems from error logs using natural language processing |
CN108509477B (zh) * | 2017-09-30 | 2019-10-11 | 平安科技(深圳)有限公司 | 语义识别方法、电子装置及计算机可读存储介质 |
KR101854576B1 (ko) | 2017-11-10 | 2018-05-03 | 베스핀글로벌 주식회사 | 챗봇 기반 클라우드 관리 시스템 및 그의 운영 방법 |
US12085901B2 (en) * | 2017-11-21 | 2024-09-10 | Accenture Global Solutions Limited | Bot management framework for robotic process automation systems |
US10795753B2 (en) * | 2017-12-08 | 2020-10-06 | Nec Corporation | Log-based computer failure diagnosis |
US10896114B2 (en) * | 2018-05-23 | 2021-01-19 | Seagate Technology Llc | Machine learning error prediction in storage arrays |
US10831588B2 (en) * | 2018-10-16 | 2020-11-10 | International Business Machines Corporation | Diagnosis of data center incidents with augmented reality and cognitive analytics |
US11153152B2 (en) | 2018-11-21 | 2021-10-19 | Cisco Technology, Inc. | System and methods to validate issue detection and classification in a network assurance system |
CN109814526B (zh) * | 2018-12-29 | 2021-06-08 | 卡斯柯信号有限公司 | 面向轨旁安全信号系统的维护诊断方法 |
CN110288103A (zh) * | 2019-06-28 | 2019-09-27 | 重庆回形针信息技术有限公司 | 基于自学习的解决方案推荐系统及方法 |
US11301316B2 (en) * | 2019-07-12 | 2022-04-12 | Ebay Inc. | Corrective database connection management |
CN111190943B (zh) * | 2020-01-08 | 2024-04-30 | 中国石油天然气集团有限公司 | 一种事故事件致因的智能化分析方法 |
US11586983B2 (en) * | 2020-03-02 | 2023-02-21 | Nxp B.V. | Data processing system and method for acquiring data for training a machine learning model for use in monitoring the data processing system for anomalies |
US11836032B2 (en) | 2020-10-15 | 2023-12-05 | State Farm Mutual Automobile Insurance Company | Error monitoring and prevention in computing systems based on determined trends and routing a data stream over a second network having less latency |
US11893644B2 (en) | 2020-10-15 | 2024-02-06 | State Farm Mutual Automobile Insurance Company | Intelligent user interface monitoring and alert |
KR102509402B1 (ko) * | 2020-12-09 | 2023-03-13 | 주식회사 에이앤에이 | 플랫폼 상의 이벤트 처리 방법 |
US11397629B1 (en) * | 2021-01-06 | 2022-07-26 | Wells Fargo Bank, N.A. | Automated resolution engine |
US20220300547A1 (en) * | 2021-03-19 | 2022-09-22 | EMC IP Holding Company, LLC | System and Method for Generating Defect Identifiers |
CN113162810A (zh) * | 2021-05-14 | 2021-07-23 | 中央军委后勤保障部信息中心 | 事件数据处理方法及设备 |
KR102509374B1 (ko) * | 2021-08-12 | 2023-03-15 | (주)와치텍 | 언어학적 분석 기법을 이용한 it 인프라 장애 학습 및 분석 시스템 |
US11853149B2 (en) | 2021-09-10 | 2023-12-26 | International Business Machines Corporation | Generating error event descriptions using context-specific attention |
KR102509382B1 (ko) * | 2021-09-14 | 2023-03-15 | (주)와치텍 | 머신러닝을 이용한 빅데이터 기반의 it인프라 이벤트 제어 방안 |
CN114820225B (zh) * | 2022-06-28 | 2022-09-13 | 成都秦川物联网科技股份有限公司 | 基于关键词识别和处理制造问题的工业物联网及控制方法 |
CN118445106B (zh) * | 2024-05-16 | 2024-10-18 | 天地(常州)自动化股份有限公司北京分公司 | 一种煤机设备的在线状态监测方法及健康管理系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008210148A (ja) | 2007-02-26 | 2008-09-11 | Hitachi Information Systems Ltd | 障害対応システム及び障害対応方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8332502B1 (en) | 2001-08-15 | 2012-12-11 | Metavante Corporation | Business to business network management event detection and response system and method |
CN100456687C (zh) * | 2003-09-29 | 2009-01-28 | 华为技术有限公司 | 网络故障实时相关性分析方法及系统 |
US20060174167A1 (en) * | 2005-01-28 | 2006-08-03 | Hitachi, Ltd. | Self-creating maintenance database |
US7502971B2 (en) * | 2005-10-12 | 2009-03-10 | Hewlett-Packard Development Company, L.P. | Determining a recurrent problem of a computer resource using signatures |
KR100869902B1 (ko) | 2007-01-26 | 2008-11-24 | 삼성에스디에스 주식회사 | 통합관리 시스템 환경에서의 장애 및 성능정보 통합모니터링 방법 및 그 시스템 |
KR101520103B1 (ko) | 2009-06-11 | 2015-05-21 | 주식회사 케이티 | It서비스에서의 어플리케이션 장애 분석 감시 시스템 및 방법 |
CN101833497B (zh) | 2010-03-30 | 2015-01-21 | 浪潮电子信息产业股份有限公司 | 一种基于专家系统方法的计算机故障管理系统 |
KR20110135632A (ko) | 2010-06-11 | 2011-12-19 | 중소기업은행 | 은행 서비스의 실시간 오작동 관리 장치, 방법 및 기록매체 |
US8423638B2 (en) * | 2010-09-29 | 2013-04-16 | International Business Machines Corporation | Performance monitoring of a computer resource |
US8862938B2 (en) * | 2011-04-18 | 2014-10-14 | General Electric Company | System, method, and apparatus for resolving errors in a system |
-
2013
- 2013-10-30 KR KR1020130130234A patent/KR101545215B1/ko active IP Right Grant
-
2014
- 2014-10-30 US US14/528,019 patent/US9652318B2/en active Active
- 2014-10-30 CN CN201410598452.4A patent/CN104598367B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008210148A (ja) | 2007-02-26 | 2008-09-11 | Hitachi Information Systems Ltd | 障害対応システム及び障害対応方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170126553A (ko) * | 2016-05-09 | 2017-11-20 | 한국전자통신연구원 | 제조 현장의 작업 이벤트 추천 및 입력을 위한 장치 |
KR20200049028A (ko) * | 2018-10-31 | 2020-05-08 | 주식회사 엘지씨엔에스 | 장애 유형 기반의 서버 장애 진단 및 대응 방법 |
KR102109536B1 (ko) | 2018-10-31 | 2020-05-28 | 주식회사 엘지씨엔에스 | 장애 유형 기반의 서버 장애 진단 및 대응 방법 |
KR102432284B1 (ko) | 2021-07-28 | 2022-08-12 | 인프라닉스 아메리카 코퍼레이션 | It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법 |
US11815988B2 (en) | 2021-07-28 | 2023-11-14 | Infranics America Corp. | System that automatically responds to event alarms or failures in it management in real time and its operation method |
KR20230100903A (ko) | 2021-12-29 | 2023-07-06 | 스트라토 주식회사 | 네트워크 장치 장애 처리를 위한 시스템 및 그 제어방법 |
Also Published As
Publication number | Publication date |
---|---|
US9652318B2 (en) | 2017-05-16 |
KR20150049541A (ko) | 2015-05-08 |
US20150121136A1 (en) | 2015-04-30 |
CN104598367B (zh) | 2017-12-08 |
CN104598367A (zh) | 2015-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101545215B1 (ko) | 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법 | |
Li et al. | Swisslog: Robust and unified deep learning based log anomaly detection for diverse faults | |
Das et al. | Desh: deep learning for system health prediction of lead times to failure in hpc | |
US10706229B2 (en) | Content aware heterogeneous log pattern comparative analysis engine | |
US11334602B2 (en) | Methods and systems for alerting based on event classification and for automatic event classification | |
CN106202561B (zh) | 基于文本大数据的数字化应急管理案例库构建方法及装置 | |
Aussel et al. | Improving performances of log mining for anomaly prediction through nlp-based log parsing | |
Tian et al. | Information retrieval based nearest neighbor classification for fine-grained bug severity prediction | |
AU2017274576B2 (en) | Classification of log data | |
KR101948634B1 (ko) | 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법 | |
Zhou et al. | Deepsyslog: Deep anomaly detection on syslog using sentence embedding and metadata | |
US10628749B2 (en) | Automatically assessing question answering system performance across possible confidence values | |
Tang et al. | Optimizing system monitoring configurations for non-actionable alerts | |
US11822578B2 (en) | Matching machine generated data entries to pattern clusters | |
US20240289206A1 (en) | System and method for automatically monitoring and diagnosing user experience problems | |
Cavallaro et al. | Identifying anomaly detection patterns from log files: A dynamic approach | |
Xie et al. | Logdp: Combining dependency and proximity for log-based anomaly detection | |
Gu et al. | Online failure forecast for fault-tolerant data stream processing | |
Chen et al. | Unsupervised Anomaly Detection Based on System Logs. | |
Kuang et al. | Knowledge-aware Alert Aggregation in Large-scale Cloud Systems: a Hybrid Approach | |
Nagashree et al. | An early risk detection and management system for the cloud with log parser | |
Kubacki et al. | Holistic processing and exploring event logs | |
Wang et al. | LogOnline: A Semi-Supervised Log-Based Anomaly Detector Aided with Online Learning Mechanism | |
Yu et al. | An approach to failure prediction in cluster by self-updating cause-and-effect graph | |
Hickman et al. | Enhancing HPC system log analysis by identifying message origin in source code |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180625 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20190701 Year of fee payment: 5 |