KR101545215B1 - 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법 - Google Patents

데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법 Download PDF

Info

Publication number
KR101545215B1
KR101545215B1 KR1020130130234A KR20130130234A KR101545215B1 KR 101545215 B1 KR101545215 B1 KR 101545215B1 KR 1020130130234 A KR1020130130234 A KR 1020130130234A KR 20130130234 A KR20130130234 A KR 20130130234A KR 101545215 B1 KR101545215 B1 KR 101545215B1
Authority
KR
South Korea
Prior art keywords
event
fault
fault event
failure
information
Prior art date
Application number
KR1020130130234A
Other languages
English (en)
Other versions
KR20150049541A (ko
Inventor
남궁영환
이재영
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020130130234A priority Critical patent/KR101545215B1/ko
Priority to CN201410598452.4A priority patent/CN104598367B/zh
Priority to US14/528,019 priority patent/US9652318B2/en
Publication of KR20150049541A publication Critical patent/KR20150049541A/ko
Application granted granted Critical
Publication of KR101545215B1 publication Critical patent/KR101545215B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

장애 이벤트 관리 자동화 시스템 및 방법이 개시된다. 장애 이벤트 분석부는 장애 이벤트 저장부에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성한다. 장애 이벤트 정보 지식 저장부에는 유형별 장애 이벤트과 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴이 저장된다. 장애 이벤트 관련 조치 방법 저장부에는 발생된 장애 이벤트에 대해 검증된 조치 방법이 저장된다. 장애 이벤트 모니터링부는 서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단한다. 장애 이벤트 관련 조치 방법 추천부는 장애 이벤트 관련 조치 방법 저장부에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판별된 장애 이벤트에 대해 장애 이벤트 정보 지식 저장부에 축적되어 있는 정보로부터 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 추출한 정보를 기초로 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력한다. 장애 이벤트 조치부는 감지된 장애 이벤트에 대해 장애 이벤트 관련 조치 방법 저장부에 축적되어 있는 조치 방법을 이용하여 자동 조치한다.

Description

데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법{system and method for automatically manageing fault events of data center}
본 발명은 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법에 관한 것으로, 보다 상세하게는, 데이터 센터에서 발생하는 장애 이벤트를 자동적으로 관리할 수 있는 시스템 및 방법에 관한 것이다.
최근 클라우드 환경의 성장세와 더불어 데이터 센터의 효과적인 운영 관리는 매우 중요한 문제로 대두되고 있다. 기존의 데이터 센터 관리 방법들의 대부분은 과거 운영 기록에 의존하고 있으며, 사람에 의해 수동으로 데이터 센터의 장애를 관리하고 있다. 이 경우 장애 이벤트 발생에 대한 예측과 신속한 자동 대응 및 조치가 불가능하다는 문제가 있다. 또한 과거에 발생하지 않았던 새로운 형태의 장애 이벤트에 대한 사전 대비 및 예측도 어려운 문제점이 있다.
이와 같은 기존의 대표적인 장애 관리 시스템은 IBM사에서 제안한 자기 진단 분석 및 보고 기법(Self-Monitoring Analysis and Reporting Technology : S.M.A.R.T)이 있다. S.M.A.R.T는 스토리지에 대한 동작 이상 여부를 모니터링하고문제점 발생 원인을 추적하며, 향후 발생할 장애에 대해 예측 결과를 제공한다. 이때 예측적 고장 분석(Predictive Failure Analysis : PFA)라는 기술이 사용되었으며, PFA는 디스크들의 과거 데이터를 바탕으로 기계학습, 수학적 모델링 등의 기법을 통해 장비의 동작 이상 여부(정상 작동 모니터링 포함) 및 문제 발생시 관련 잠재 원인 등을 추적한다.
이러한 S.M.A.R.T의 문제점과 한계는 다음과 같다.
첫째, 장애 및 오작동에 대한 대상이 하드 디스크 드라이버로 한정되어 있다. 이로 인해 하드 디스크가 갖는 속성(예: Read Error Rate, Reallocated Sectors Count 등)에 제약을 받는다.
둘째, 하드 디스크에서 발생하는 각종 데이터를 기반으로 기계학습, 수학적 모델링 기법 등을 동원하여 예측 모델을 만들었다 하더라도 이는 현재까지 내부적으로 발생한 오작동 패턴에만 적용이 가능하다. 따라서 S.M.A.R.T는 과거 동작 성능 기록 데이터를 기반으로 하여 도출된 임계치를 가지고 작동하도록 되어 있다. 한편, 이러한 이유로 시스템의 오작동 경고가 없었음에도 하드 디스크 장애가 발생하는 경우가 전체의 50%에 달하는 것으로 알려져 있다
셋째, S.M.A.R.T는 소프트웨어(예: 시스템 소프트웨어, 미들웨어 애플리케이션 등)의 버전별 충돌 등으로 발생할 수 있는 시스템 다운과 같은 잠재 장애 이벤트에 대한 예측 및 대응이 불가능하다는 한계점을 지니고 있다.
넷째, S.M.A.R.T가 모니터링을 통해 사용자에게 알리는 메시지는 오직 두 가지 형태('Device is OK' 또는 'Drive is likely to fail soon')만 존재한다.
도 1에는 S.M.A.R.T에서 사용되는 PFA의 전체 구조가 도시되어 있다.
이상에서 설명한 종래 기술은 내부적으로 발생한 데이터에 대해 기계학습, 수학적 모델링에 기초하여 분석 모델과 정상 작동으로 간주할 수 있는 임계치에 기반하여 모니터링을 하는 기법을 채택하고 있기 때문에, 내부적으로 돌발적인 시스템 오류와 같은 장애 이벤트에 대한 예측 및 대응이 어렵다는 문제가 있다. 또한 종래 기술은 특정 장비(즉, 하드 디스크)만을 대상으로 하고 있으며, 이로 인해 시스템에 설치되어 운용되는 소프트웨어가 원인이 되어 발생할 수 있는 다양한 형태의 장애 이벤트에 대해서는 대처 방안이 존재하지 않는다는 문제가 있다. 또한, 종래 기술은 모니터링이 주 역할이며, 이는 많은 장애 오탐지 발생으로 인한 시스템 운영자의 불필요한 추가 작업을 유발하게 된다.
한국공개특허 제2008-0097254호 (발명의 명칭: 통합관리 시스템 환경에서의 장애 및 성능정보 통합 모니터링 방법 및 그 시스템, 공개일: 2008년 11월 5일) 한국공개특허 제2010-0133168호 (발명의 명칭: IT서비스에서의 어플리케이션 장애 분석 감시 시스템 및 방법, 공개일: 2010년 12월 21일) 미국공개특허 제2013/0073913호 (발명의 명칭: B2B 네트워크 관리 이벤트 검출 및 대응 시스템 및 방법, 공개일: 2013년 3월 21일)
본 발명이 이루고자 하는 기술적 과제는, 데이터 센터의 운영 및 관리 자동화를 통해 내부적으로 돌발적인 시스템 오류와 같은 장애 이벤트에 대한 예측 및 대응이 가능한 시스템 및 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는, 데이터 센터의 운영 및 관리 자동화를 통해 내부적으로 돌발적인 시스템 오류와 같은 장애 이벤트에 대한 예측 및 대응이 가능한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템은, 장애 이벤트 저장부에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성하는 장애 이벤트 분석부; 상기 유형별 장애 이벤트와 각각의 유형별 장애 이벤트에 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴이 저장되는 장애 이벤트 정보 지식 저장부; 발생된 장애 이벤트에 대해 검증된 조치 방법이 저장되는 장애 이벤트 관련 조치 방법 저장부; 서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단하는 장애 이벤트 모니터링부; 상기 장애 이벤트 모니터링부에 의해 새롭게 감지되었거나 상기 장애 이벤트 관련 조치 방법 저장부에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판별된 장애 이벤트에 대해 상기 장애 이벤트 정보 지식 저장부에 축적되어 있는 정보로부터 해결이 어려운 것으로 판별된 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 추출한 정보를 기초로 해결이 어려운 것으로 판별된 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력하는 장애 이벤트 관련 조치 방법 추천부; 및 장애 이벤트 모니터링부에 의해 감지된 장애 이벤트에 대해 상기 장애 이벤트 관련 조치 방법 저장부에 축적되어 있는 조치 방법을 이용하여 자동 조치하는 장애 이벤트 조치부;를 구비한다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 방법은, (a) 장애 이벤트 저장소에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성하는 단계; (b) 상기 유형별 장애 이벤트와 각각의 유형별 장애 이벤트에 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴을 저장하는 단계; (c) 서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단하는 단계; (d) 상기 발생된 장애 이벤트에 대해 검증된 조치 방법이 저장되어 있는 장애 이벤트 관련 조치 방법 저장소에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판단되면, 상기 장애 이벤트 정보 지식 저장소에 축적되어 있는 정보로부터 상기 해결이 어려운 것으로 판별된 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 상기 추출한 정보를 기초로 상기 해결이 어려운 것으로 판별된 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력하는 단계; 및 (e) 상기 발생딘 장애 이벤트에 대해 상기 장애 이벤트 관련 조치 방법 저장소에 축적되어 있는 조치 방법을 이용하여 자동 조치하는 단계;를 갖는다.
본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법에 의하면, 지속적으로 축적되는 장애 이벤트 지식을 활용하여 불시에 발생하는 특정한 애플리케이션의 실행시 발생가능한 장애 이벤트, 시스템 다운 현상 등과 같은 시스템 소프트웨어 관련 장애 이벤트의 감지 및 대처가 가능한 효과가 있다. 또한 지속적으로 축적되는 장애 이벤트 외부 정보 분석 결과를 기초로 현재 운영 중인 데이터 센터 내에서만 발생했던 장애 이벤트 외에 신규로 발생 가능성이 있는 장애 이벤트를 효율적으로 차단할 수 있다. 또한, 탐지된 장애 이벤트에 대한 자동 처리를 통해 운영 작업 부하를 획기적으로 줄일 수 있으며, 장애 이벤트의 사전 감지 및 자동 조치를 수행한 후 지속적인 확인을 통한 시스템의 안정화도 지원할 수 있게 된다.
도 1은 S.M.A.R.T에서 사용되는 PFA의 전체 구조를 도시한 도면,
도 2는 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템에 대한 바람직한 실시예의 구조를 도시한 도면,
도 3은 장애 유형별 분석부(220)에 의한 원시 자료로부터 유형별 장애 이벤트를 생성하는 동작을 도시한 도면,
도 4는 장애 유형별 대처 방법 분석부(224)에 의한 장애 유형별 대처 방법 생성 과정을 도시한 도면,
도 5는 장애 이벤트 분석부(220)에서 수행되는 장애 이벤트 분석 및 대처 방법 도출 과정의 바람직한 실시예를 도시한 흐름도,
도 6은 원시 데이터 및 원시 데이터로부터 추출한 요약 정보를 도시한 도면,
도 7은 장애 이벤트 정보 요약 결과를 이용한 장애 이벤트 대처 방반을 생성하는 예를 도시한 도면, 그리고,
도 8은 장애 이벤트 정보를 기반으로 장애 이벤트를 자동으로 관리하는 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.
이하에서, 첨부된 도면들을 참조하여 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.
도 2는 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템에 대한 바람직한 실시예의 구조를 도시한 도면이다.
도 2를 참조하면, 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템의 바람직한 실시예는, 자료수집부(210), 장애 이벤트 저장부(215), 장애 이벤트 분석부(220), 장애 이벤트 정보 지식 저장부(225), 시스템 인터페이스부(230), 장애 이벤트 모니터링부(235), 장애 이벤트 관련 조치 방법 추천부(240), 사용자 인터페이스부(245), 장애 이벤트 관련 조치 방법 저장부(250) 및 장애 이벤트 조치부(255)를 구비한다. 이때, 자료수집부(210), 장애 이벤트 저장부(215) 및 장애 이벤트 모니터링부(235)는 본 발명에 따른 데이터 센터 장애 이벤트 관리 자동화 시스템과는 별도의 모듈 또는 시스템으로 구축될 수 있다.
자료수집부(210)는 시스템 운영자료, 논의 자료, 하드웨어 및 소프트웨어 기술 포럼 결과, 기술지원 서비스 메뉴얼 등 다양한 장애 이벤트 관련 자료를 검색하여 수집한다. 이러한 자료수집부(210)는 검색모듈과 수집모듈로 구성될 수 있다. 이때 검색 및 수집은 블로그 수집기(예를 들면, 블로그디거, 블로그스피어 등)와 외부 검색 엔진(예를 들면, 구글, 빙 등), 웹 크롤러 등과 같은 다양한 온라인 자료 검색 및 수집기를 기반으로 장애 이벤트와 관련된 원시 데이터를 수집한다. 수집 대상은 시스템 장애 관련 온라인 포럼, 시스템 제작 업체 기술 지원 사이트, 운영체제 커뮤니티, IT 관련 최신 동향 기사 제공 사이트 등 가능한 모든 사이트들을 대상으로 한다. 또한 수집 내용은 운영체제, 애플리케이션, DBMS 등 데이터 센터에서 설치 운영 중인 소프트웨어와 하드웨어에 관련된 모든 사항을 포함한다. 자료수집부(210)에 의해 수집된 자료는 장애 이벤트 저장부(215)에 저장된다. 이대 장애 이벤트 관련 원시 데이터는 분산 파일 시스템에 저장될 수 있으며, 원시 데이터는 숫자, 텍스트, 이미지 등 다양한 유형으로 구성된 비정형 데이터일 수 있다.
장애 이벤트 분석부(220)는 장애 이벤트 저장부(215)에 저장되어 있는 자료를 분석하여 각 자료에 대한 기본 정보를 1차 추출한 후 다중 자료에서 생성된 1차 추출 정보들 사이의 연관 관계를 분석하여 관련성 분석결과를 기초로 유형별 장애 이벤트를 생성 및 정리하고, 각각의 유형별 장애 이벤트에 대응하는 대처 방법 및 사전 예방 조치를 생성한다. 생성된 유형별 장애 이벤트에 대응하는 대처 방법 및 사전 예방 조치는 [장애 이벤트, 대처 방법]의 형식을 가진 패턴으로 장애 이벤트 정보 지식 저장부(225)에 저장되며, 각각의 패턴들은 지속적인 수집, 분석 및 생성 과정을 통해 장애 이벤트 정보 지식 저장부(225)에 축적되고 관리된다. 그리고 이러한 패턴들은 향후 새롭게 발견된 장애 이벤트에 대한 신속 조치를 위해 활용된다. 장애 이벤트 정보 지식 저장부(225)에 저장되는 정보는 원인-발생 연관 규칙, 대응 방법 분석 결과 등이다. 이러한 장애 이벤트 분석부(220)는 장애 유형별 분석부(222) 및 장애 유형별 대처 방법 분석부(224)로 구성된다.
장애 유형별 분석부(222)는 장애 이벤트 저장부(215)에 저장되어 있는 정형 및 비정형 원시 데이터의 분석을 통해 각 유형별로 장애 이벤트를 정리, 정의 및 요약한다. 도 3에는 장애 유형별 분석부(220)에 의한 원시 자료로부터 유형별 장애 이벤트를 생성하는 동작이 도시되어 있다. 도 3을 참조하면, 장애 유형별 분석부(222)는 장애 이벤트 관련 원시 데이터에 대해 형태소 사전을 참조한 형태소 분석, 동의어 사전을 참조한 용어 추출/특성 추출, 유사어 사전을 참조한 용어별 유사어 추출, 불용어 사전을 참조한 불용어 제거 및 용어 빈도수와 문서 역빈도수를 참조한 (용어별 빈도수)*(문서 역빈도수) 및 가중치 계산을 수행한다. 그리고 이러한 원시 데이터에 대한 분석 결과를 기초로 장애 이벤트 키워드를 출력하고, 분석 결과에 대해 키워드 기반 구문 확장과 키워드 기반 구문 가중치 계산을 통해 장애 이벤트 정보 요약 문장을 출력한다. 또한, 원시 데이터에 대해 문장 추출 및 문장 가중치 계산을 통해 장애 이벤트 정보 추출 문장을 출력한다. 이때, 문장 가중치 계산시 키워드 기반 구문 가중치를 참조할 수 있다. 다음으로 장애 유형별 분석부(222)는 이상의 과정을 통해 출력된 장애 이벤트 키워드, 장애 이벤트 정보 요약 문장 및 장애 이벤트 정보 추출 문장으로 구성된 1차 추출 요약 정보들 사이의 연관 관계를 분석하여 관련성 기반 유형별 장애 이벤트를 생성한다. 이때 1차 추출 요약 정보들 사이의 연관관계 분석은 상호 관련도를 계산하여 유사한 정보들을 취합하고 분류하는 방법에 의해 수행된다. 상호 관련도는 선험적 알고리즘(Apriori Algorithm), 빈발 패턴 트리(Frequent Pattern Tree)를 포함하는 군집화 및 범주화와 관련한 다양한 기술을 적용하여 계산될 수 있다. 그리고 이러한 과정을 통해 얻은 중간 결과물들에 대해 각각의 장애 유형별로 기본 정보 요약사항, 발생 형태, 발생 장비들에 대한 통계 정보 등을 생성한다.
장애 유형별 대처 방법 분석부(224)는 유형별 장애 분석부(222)에 의해 생성된 장애 이벤트 정보에 대한 요약 정보를 기반으로 장애 대처 방법을 생성한다. 도 4에는 장애 유형별 대처 방법 분석부(224)에 의한 장애 유형별 대처 방법 생성 과정이 도시되어 있다. 도 4를 참조하면, 장애 유형별 대처 방법 분석부(224)는 유형별 장애 분석부(222)에 의해 생성된 장애 이벤트 요약 정보를 재해석한다. 이를 위해 장애 유형별 대처 방법 분석부(224)는 형태소 분석, 맞춤법 확인, 정규화 등을 포함하는 키워드 구문 분석을 수행하고, 이를 기초로 장애 이벤트 현상에 외부 영향 요인을 고려하여 장애 이벤트 정보를 다양한 질문 형태로 변환한다. 이때 장애 이벤트 질문은 언제, 어디서, 어떻게, 무슨 이유로 등의 형태를 가질 수 있다. 다음으로, 장애 유형별 대처 방법 분석부(224)는 해석한 질문 형태의 이벤트 요약 정보에 대해 정보 검색 기법을 이용하여 대응 및 조치 방법 생성을 위한 자료를 확보한다. 이때 작업 대상은 기존에 수집한 원시 데이터를 포함하여 외부에서 수집할 수 있는 모든 자료이다. 다음으로, 장애 유형별 대처 방법 분석부(224)는 수집한 자료를 바탕으로 상호 인과 관계 및 연관 관계를 파악하여 해결책을 생성한다. 이때 장애 이벤트 질문에 따라 '해결책 후보군'을 선별하고, 이들 사이의 상호 연관 관계(예를 들면, 작업 단계별 의존도)와 해결 방법의 신뢰도, 정확도 등을 계산하여 가능한 해결 방법을 생성한다. 다음으로, 장애 유형별 대처 방법 분석부(224)는 생성된 장애 이벤트 해결 방법을 취합하여 [장애 이벤트, 대처방법] 패턴을 생성하여 장애 이벤트 정보 지식 저장부(225)에 저장한다.
시스템 인터페이스부(230)는 데이터 센터와 장애 이벤트 모니터링부(235) 사이의 데이터 입출력 경로를 제공한다.
장애 이벤트 모니터링부(235)는 장애 이벤트 정보 지식 저장부(225)에 저장되어 있는 장애 이벤트 패턴을 이용하여 현재 운영중인 서버들의 상태를 점검한다. 장애 이벤트 모니터링부(235)는 현재 서버의 상태를 실시간으로 감시하고, 장애 발생 가능성을 판단한다. 만약 장애 이벤트 발생이 예상되면, 장애 이벤트 모니터링부(235)는 현재 정보를 기반으로 장애 이벤트 후보군을 선별하여 출력한다. 또한 장애 이벤트 모니터링부(235)는 장애 이벤트가 발생했을 때, 자동 조치 가능 여부를 판단하고 그에 따른 후속 작업을 수행한다. 만약 감지한 장애 이벤트가 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 '과거 자동 조치 방법 축적 자료'에 포함되어 있으면, 이를 이용하여 장애 이벤트 조치부(255)에게 자동 조치를 지시한다. 이와 달리, 감지한 장애 이벤트가 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 '과거 자동 조치 방법 축적 자료'에 포함되어 있지 않으면, 장애 이벤트 조치 방법 추천부(240)에 관련 정보를 전달하여 조치를 지시한다.
장애 이벤트 관련 조치 방법 추천부(240)는 장애 이벤트 모니터링부(235)에 의해 새롭게 감지되었거나 기존의 자동 조치 방법을 통해 해결이 어려운 것으로 판별된 장애 이벤트에 대해 장애 이벤트 정보 지식 저장부(225)에 축적되어 있는 정보로부터 해당 장애 이벤트와 관련있는 정보들을 검색하여 추출한다. 그리고 장애 이벤트 관련 조치 방법 추천부(240)는 추출한 정보를 기초로 해당 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 사용자 인터페이스부(245)를 통해 시스템 운영자에게 출력한다. 시스템 운영자는 사용자 인터페이스부(245)를 통해 출력된 자동 조치 방법 후보군을 기초로 발생한 장애 이벤트에 대한 대처 방법을 결정하여 장애 이벤트를 해결한다. 이때 장애 이벤트 관련 조치 방법 추천부(240)는 자동 조치 방법 후보군을 생성하기 위해 협업 필터링 추천 시스템, 연관성 규칙 마이닝 기법, 베이지안 기법 등 인공지능분야, 기계학습분야에서 알려진 알고리즘을 사용할 수 있다.
장애 이벤트 관련 조치 방법 저장부(250)에는 장애 이벤트 조치 후 검증된 조치 방법이 추후 동일한 유형의 장애 이벤트에 대해 자동 실행되도록 저장된다.
장애 이벤트 조치부(255)는 장애 이벤트 모니터링부(235)에 의해 감지된 장애 이벤트에 대해 장애 이벤트 관련 조치 방법 저장부(250)에 축적되어 있는 조치 방법을 이용하여 자동 조치한다. 이때 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 자동 조치 방법 관련 결과물은 자동 실행 스크립트, 패치 프로그램 등 다양한 형태를 가질 수 있다.
도 5는 장애 이벤트 분석부(220)에서 수행되는 장애 이벤트 분석 및 대처 방법 도출 과정의 바람직한 실시예를 도시한 흐름도이다.
도 5를 참조하면, 장애 이벤트 분석부(220)는 장애 이벤트 저장부(215)에 저장되어 있는 원시 데이터에 대한 형태소 분석, 키워드 추출, 구문 분석 등을 수행하여 특정 상황에 대한 장애 이벤트의 기본 정보를 1차 추출한다(S500). 도 6에는 원시 데이터 및 원시 데이터로부터 1차 추출한 요약 정보가 도시되어 있다. 다음으로, 장애 이벤트 분석부(220)는 다수의 원시 데이터로부터 추출한 장애 이벤트 정보들 사이의 연관관계를 분석한다(S510). 이때 다양한 원시 데이터로부터 추출한 결과들을 취합한 후 연관규칙 알고리즘을 포함한 통계적 기법, 논리적 추론 등 다양한 연관관계 추론 기법을 적용하여 이들 사이의 연관관계를 분석한다. 다음으로, 장애 이벤트 분석부(220)는 여러 장애 이벤트 정보들 사이의 연관관계 분석 결과를 기초로 장애 결과 요약을 생성하고 장애 이벤트의 유형을 분류한다(S520). 이때 자연어 처리 기법, 텍스트 요약 기법과 관련된 알고리즘들이 적용되며, 요약 생성된 결과는 데이터 분류 기법을 이용하여 관련 유형군으로 분류된다. 이상의 과정을 통해 얻어진 유형별 장애 이벤트 분석 요약 결과는 장애 이벤트 정보 지식 저장부(225)에 저장된다(S530).
다음으로, 장애 이벤트 분석부(220)는 유형별 장애 이벤트 분석 요약 결과에 대해 구분 분석 및 해석을 수행하고(S540), 이를 기초로 장애 이벤트 연관 키워드를 조사하여 대처 방안과 매핑될 수 있는 장애 이벤트 대처 방안에 대한 질문을 생성한다(S550). 다음으로, 장애 이벤트 분석부(220)는 장애 이벤트 대처 방안 관련 질문을 기반으로 필요한 정보를 수집하기 위한 키워드를 생성하고, 생성된 키워드를 기초로 대처 방법을 생성하기 위한 정보들을 검색하고 수집한다(S560). 이때 유형별 장애 이벤트 분석을 위해 사용되었던 자료를 포함하여 온라인 검색을 통해 다른 관련 정보를 추가로 수집한다. 다음으로, 장애 이벤트 분석부(220)는 장애 이벤트에 대한 대처 방법을 질의응답 시스템 기법 등을 이용하여 생성한다(S570). 생성된 장애 이벤트 대처 방안은 대응하는 장애 이벤트와 연관시켜 장애 이벤트 패턴으로 장애 이벤트 정보 지식 저장부(225)에 저장된다(S580). 도 7에는 장애 이벤트 정보 요약 결과를 이용한 장애 이벤트 대처 방반을 생성하는 예가 도시되어 있다.
도 8은 장애 이벤트 정보를 기반으로 장애 이벤트를 자동으로 관리하는 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.
도 8을 참조하면, 장애 이벤트 모니터링부(235)는 시스템의 상태를 파악하여 장애 이벤트를 감지한다(S800). 다음으로 장애 이벤트 모니터링부(235)는 장애 이벤트 감지시 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 정보를 기반으로 자동화 기반 대응 가능 여부를 판단한다(S810). 만약 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 정보를 기초로 자동 대응이 가능한 것으로 판단되면, 장애 이벤트 조치부(255)는 장애 이벤트 모니터링부(235)에 의해 감지된 장애 이벤트에 대해 장애 이벤트 관련 조치 방법 저장부(250)에 축적되어 있는 조치 방법을 이용하여 자동 조치한다(S820). 이와 달리, 장애 이벤트 관련 조치 방법 저장부(250)에 저장되어 있는 정보를 기초로 자동 대응이 불가능한 것으로 판단되면, 장애 이벤트 관련 조치 방법 추천부(240)는 장애 이벤트 정보 지식 저장부(225)에 저장되어 있는 정보 중에서 해당 장애 이벤트와 관련있는 정보들을 검색하여 추출한 정보를 기초로 해당 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하고, 사용자 인터페이스부(245)를 통해 자동 조치 방법 후보군을 시스템 운영자에게 출력한다(S830). 다음으로, 시스템 운영자가 선택한 자동 조치 방법에 의해 장애 이벤트가 해결되면, 해당 자동 조치 방법은 해결된 장애 이벤트와 연관되어 자동 실행이 가능하도록 알람 기능 또는 스크립트 자동 실행 등이 설정된 후 장애 이벤트 관련 조치 방법 저장부(250)에 저장된다(S840).
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

Claims (7)

  1. 장애 이벤트 저장부에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성하는 장애 이벤트 분석부;
    상기 유형별 장애 이벤트와 각각의 유형별 장애 이벤트에 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴이 저장되는 장애 이벤트 정보 지식 저장부;
    발생된 장애 이벤트에 대해 검증된 조치 방법이 저장되는 장애 이벤트 관련 조치 방법 저장부;
    서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단하는 장애 이벤트 모니터링부;
    상기 장애 이벤트 모니터링부에 의해 새롭게 감지되었거나 상기 장애 이벤트 관련 조치 방법 저장부에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판별된 장애 이벤트에 대해 상기 장애 이벤트 정보 지식 저장부에 축적되어 있는 정보로부터 해결이 어려운 것으로 판별된 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 추출한 정보를 기초로 해결이 어려운 것으로 판별된 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력하는 장애 이벤트 관련 조치 방법 추천부; 및
    장애 이벤트 모니터링부에 의해 감지된 장애 이벤트에 대해 상기 장애 이벤트 관련 조치 방법 저장부에 축적되어 있는 조치 방법을 이용하여 자동 조치하는 장애 이벤트 조치부;를 포함하는 것을 특징으로 하는 장애 이벤트 관리 자동화 시스템.
  2. 제 1항에 있어서,
    상기 장애 이벤트 분석부는,
    상기 장애 이벤트 저장부에 저장되어 있는 원시 데이터에 대한 형태소 분석 및 동의어 분석을 포함하는 분석을 통해 각각의 원시 데이터에 대한 장애 이벤트 키워드 및 문장을 추출하고, 추출된 장애 이벤트 키워드 및 문장을 기초로 장애 이벤트 관련 자료에 대한 요약 정보를 생성하는 장애 유형별 분석부; 및
    상기 장애 이벤트 요약 정보에 대한 키워드 구문 분석을 수행하여 상기 장애 이벤트 요약 정보를 다양한 질문 형태로 변환하고, 상기 질문 형태의 이벤트 요약 정보에 대해 조치 방법 생성을 위해 확보한 자료를 기초로 장애 이벤트 질문에 대응하는 대처 방법을 도출하여 장애 이벤트와 대처방법을 연관시켜 상기 장애 이벤트 패턴을 생성하는 장애 유형별 대처 방법 분석부;를 포함하는 것을 특징으로 하는 장애 이벤트 관리 자동화 시스템.
  3. 제 1항 또는 제 2항에 있어서,
    상기 장애 이벤트 관련 조치 방법 저장부에 저장되어 있는 조치 방법은 자동 실행 스크립트 또는 패치 프로그램인 것을 특징으로 하는 장애 이벤트 관리 자동화 시스템.
  4. 데이터 센터 장애 이벤트 관리 자동화 시스템에서 수행되는 장애 이벤트 관리 방법에 있어서,
    (a) 장애 이벤트 저장소에 저장되어 있는 장애 이벤트 관련 자료를 분석하여 각각의 장애 이벤트 관련 자료에 대한 요약 정보를 생성하고, 각각의 장애 이벤트 관련 자료에 대해 생성된 요약 정보들 사이의 연관 관계를 분석하여 각각의 유형별 장애 이벤트에 대응하는 대처 방법을 생성하는 단계;
    (b) 상기 유형별 장애 이벤트와 각각의 유형별 장애 이벤트에 대응하는 대처 방법이 연관되어 생성된 장애 이벤트 패턴을 저장하는 단계;
    (c) 서버들의 상태를 점검하여 장애 이벤트의 발생여부를 감지하고, 장애 이벤트가 발생하면 자동 조치 가능 여부를 판단하는 단계;
    (d) 상기 발생된 장애 이벤트에 대해 검증된 조치 방법이 저장되어 있는 장애 이벤트 관련 조치 방법 저장소에 저장되어 있는 조치 방법에 의해 해결이 어려운 것으로 판단되면, 상기 장애 이벤트 정보 지식 저장소에 축적되어 있는 정보로부터 상기 해결이 어려운 것으로 판별된 장애 이벤트와 관련있는 정보들을 검색하여 추출하고, 상기 추출한 정보를 기초로 상기 해결이 어려운 것으로 판별된 장애 이벤트에 대한 자동 조치 방법 후보군을 생성하여 출력하는 단계; 및
    (e) 상기 발생딘 장애 이벤트에 대해 상기 장애 이벤트 관련 조치 방법 저장소에 축적되어 있는 조치 방법을 이용하여 자동 조치하는 단계;를 포함하는 것을 특징으로 하는 장애 이벤트 관리 방법.
  5. 제 4항에 있어서,
    상기 (a)단계는,
    (a1) 상기 장애 이벤트 저장소에 저장되어 있는 원시 데이터에 대한 형태소 분석 및 동의어 분석을 포함하는 분석을 통해 각각의 원시 데이터에 대한 장애 이벤트 키워드 및 문장을 추출하고, 추출된 장애 이벤트 키워드 및 문장을 기초로 장애 이벤트 관련 자료에 대한 요약 정보를 생성하는 단계; 및
    (a2) 상기 장애 이벤트 요약 정보에 대한 키워드 구문 분석을 수행하여 상기 장애 이벤트 요약 정보를 다양한 질문 형태로 변환하고, 상기 질문 형태의 이벤트 요약 정보에 대해 조치 방법 생성을 위해 확보한 자료를 기초로 장애 이벤트 질문에 대응하는 대처 방법을 도출하여 장애 이벤트와 대처방법을 연관시켜 상기 장애 이벤트 패턴을 생성하는 단계;를 포함하는 것을 특징으로 하는 장애 이벤트 관리 방법.
  6. 제 4항 또는 제 5항에 있어서,
    상기 장애 이벤트 관련 조치 방법 저장소에 저장되어 있는 조치 방법은 자동 실행 스크립트 또는 패치 프로그램인 것을 특징으로 하는 장애 이벤트 관리 방법.
  7. 제 4항 또는 제 5항에 기재된 장애 이벤트 관리 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020130130234A 2013-10-30 2013-10-30 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법 KR101545215B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020130130234A KR101545215B1 (ko) 2013-10-30 2013-10-30 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법
CN201410598452.4A CN104598367B (zh) 2013-10-30 2014-10-30 数据中心故障事件管理自动化系统及方法
US14/528,019 US9652318B2 (en) 2013-10-30 2014-10-30 System and method for automatically managing fault events of data center

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130130234A KR101545215B1 (ko) 2013-10-30 2013-10-30 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20150049541A KR20150049541A (ko) 2015-05-08
KR101545215B1 true KR101545215B1 (ko) 2015-08-18

Family

ID=52996859

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130130234A KR101545215B1 (ko) 2013-10-30 2013-10-30 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법

Country Status (3)

Country Link
US (1) US9652318B2 (ko)
KR (1) KR101545215B1 (ko)
CN (1) CN104598367B (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170126553A (ko) * 2016-05-09 2017-11-20 한국전자통신연구원 제조 현장의 작업 이벤트 추천 및 입력을 위한 장치
KR20200049028A (ko) * 2018-10-31 2020-05-08 주식회사 엘지씨엔에스 장애 유형 기반의 서버 장애 진단 및 대응 방법
KR102432284B1 (ko) 2021-07-28 2022-08-12 인프라닉스 아메리카 코퍼레이션 It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법
KR20230100903A (ko) 2021-12-29 2023-07-06 스트라토 주식회사 네트워크 장치 장애 처리를 위한 시스템 및 그 제어방법

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6593981B2 (ja) * 2014-08-08 2019-10-23 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、およびプログラム
BR112017003168B1 (pt) * 2014-08-21 2021-03-02 Syngenta Participations Ag compostos derivados de heterocíclicos, composição pesticida, método para controle de pragas e método para a proteção de material de propagação de plantas do ataque por pragas
US9965458B2 (en) * 2014-12-09 2018-05-08 Sansa AI Inc. Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
CN105159813B (zh) * 2015-08-05 2018-09-14 北京百度网讯科技有限公司 基于数据中心的故障报警方法、装置、管理设备及系统
US10235227B2 (en) * 2015-10-12 2019-03-19 Bank Of America Corporation Detection, remediation and inference rule development for multi-layer information technology (“IT”) structures
US9684556B2 (en) 2015-10-12 2017-06-20 Bank Of America Corporation Method and apparatus for a self-adjusting calibrator
US9703624B2 (en) 2015-10-12 2017-07-11 Bank Of America Corporation Event correlation and calculation engine
CN107368895A (zh) * 2016-05-13 2017-11-21 扬州大学 一种结合机器学习和自动规划的动作知识提取方法
WO2018092924A1 (ko) * 2016-11-15 2018-05-24 (주) 글루시스 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법
KR101971013B1 (ko) 2016-12-13 2019-04-22 나무기술 주식회사 빅데이터 기반의 클라우드 인프라 실시간 분석 시스템 및 그 제공방법
JP6897140B2 (ja) * 2017-02-14 2021-06-30 富士フイルムビジネスイノベーション株式会社 設計支援システムおよびプログラム
US10338991B2 (en) * 2017-02-21 2019-07-02 Microsoft Technology Licensing, Llc Cloud-based recovery system
US10776577B2 (en) * 2017-06-30 2020-09-15 Open Text Corporation Systems and methods for diagnosing problems from error logs using natural language processing
CN108509477B (zh) * 2017-09-30 2019-10-11 平安科技(深圳)有限公司 语义识别方法、电子装置及计算机可读存储介质
KR101854576B1 (ko) 2017-11-10 2018-05-03 베스핀글로벌 주식회사 챗봇 기반 클라우드 관리 시스템 및 그의 운영 방법
US12085901B2 (en) * 2017-11-21 2024-09-10 Accenture Global Solutions Limited Bot management framework for robotic process automation systems
US10795753B2 (en) * 2017-12-08 2020-10-06 Nec Corporation Log-based computer failure diagnosis
US10896114B2 (en) * 2018-05-23 2021-01-19 Seagate Technology Llc Machine learning error prediction in storage arrays
US10831588B2 (en) * 2018-10-16 2020-11-10 International Business Machines Corporation Diagnosis of data center incidents with augmented reality and cognitive analytics
US11153152B2 (en) 2018-11-21 2021-10-19 Cisco Technology, Inc. System and methods to validate issue detection and classification in a network assurance system
CN109814526B (zh) * 2018-12-29 2021-06-08 卡斯柯信号有限公司 面向轨旁安全信号系统的维护诊断方法
CN110288103A (zh) * 2019-06-28 2019-09-27 重庆回形针信息技术有限公司 基于自学习的解决方案推荐系统及方法
US11301316B2 (en) * 2019-07-12 2022-04-12 Ebay Inc. Corrective database connection management
CN111190943B (zh) * 2020-01-08 2024-04-30 中国石油天然气集团有限公司 一种事故事件致因的智能化分析方法
US11586983B2 (en) * 2020-03-02 2023-02-21 Nxp B.V. Data processing system and method for acquiring data for training a machine learning model for use in monitoring the data processing system for anomalies
US11836032B2 (en) 2020-10-15 2023-12-05 State Farm Mutual Automobile Insurance Company Error monitoring and prevention in computing systems based on determined trends and routing a data stream over a second network having less latency
US11893644B2 (en) 2020-10-15 2024-02-06 State Farm Mutual Automobile Insurance Company Intelligent user interface monitoring and alert
KR102509402B1 (ko) * 2020-12-09 2023-03-13 주식회사 에이앤에이 플랫폼 상의 이벤트 처리 방법
US11397629B1 (en) * 2021-01-06 2022-07-26 Wells Fargo Bank, N.A. Automated resolution engine
US20220300547A1 (en) * 2021-03-19 2022-09-22 EMC IP Holding Company, LLC System and Method for Generating Defect Identifiers
CN113162810A (zh) * 2021-05-14 2021-07-23 中央军委后勤保障部信息中心 事件数据处理方法及设备
KR102509374B1 (ko) * 2021-08-12 2023-03-15 (주)와치텍 언어학적 분석 기법을 이용한 it 인프라 장애 학습 및 분석 시스템
US11853149B2 (en) 2021-09-10 2023-12-26 International Business Machines Corporation Generating error event descriptions using context-specific attention
KR102509382B1 (ko) * 2021-09-14 2023-03-15 (주)와치텍 머신러닝을 이용한 빅데이터 기반의 it인프라 이벤트 제어 방안
CN114820225B (zh) * 2022-06-28 2022-09-13 成都秦川物联网科技股份有限公司 基于关键词识别和处理制造问题的工业物联网及控制方法
CN118445106B (zh) * 2024-05-16 2024-10-18 天地(常州)自动化股份有限公司北京分公司 一种煤机设备的在线状态监测方法及健康管理系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008210148A (ja) 2007-02-26 2008-09-11 Hitachi Information Systems Ltd 障害対応システム及び障害対応方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332502B1 (en) 2001-08-15 2012-12-11 Metavante Corporation Business to business network management event detection and response system and method
CN100456687C (zh) * 2003-09-29 2009-01-28 华为技术有限公司 网络故障实时相关性分析方法及系统
US20060174167A1 (en) * 2005-01-28 2006-08-03 Hitachi, Ltd. Self-creating maintenance database
US7502971B2 (en) * 2005-10-12 2009-03-10 Hewlett-Packard Development Company, L.P. Determining a recurrent problem of a computer resource using signatures
KR100869902B1 (ko) 2007-01-26 2008-11-24 삼성에스디에스 주식회사 통합관리 시스템 환경에서의 장애 및 성능정보 통합모니터링 방법 및 그 시스템
KR101520103B1 (ko) 2009-06-11 2015-05-21 주식회사 케이티 It서비스에서의 어플리케이션 장애 분석 감시 시스템 및 방법
CN101833497B (zh) 2010-03-30 2015-01-21 浪潮电子信息产业股份有限公司 一种基于专家系统方法的计算机故障管理系统
KR20110135632A (ko) 2010-06-11 2011-12-19 중소기업은행 은행 서비스의 실시간 오작동 관리 장치, 방법 및 기록매체
US8423638B2 (en) * 2010-09-29 2013-04-16 International Business Machines Corporation Performance monitoring of a computer resource
US8862938B2 (en) * 2011-04-18 2014-10-14 General Electric Company System, method, and apparatus for resolving errors in a system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008210148A (ja) 2007-02-26 2008-09-11 Hitachi Information Systems Ltd 障害対応システム及び障害対応方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170126553A (ko) * 2016-05-09 2017-11-20 한국전자통신연구원 제조 현장의 작업 이벤트 추천 및 입력을 위한 장치
KR20200049028A (ko) * 2018-10-31 2020-05-08 주식회사 엘지씨엔에스 장애 유형 기반의 서버 장애 진단 및 대응 방법
KR102109536B1 (ko) 2018-10-31 2020-05-28 주식회사 엘지씨엔에스 장애 유형 기반의 서버 장애 진단 및 대응 방법
KR102432284B1 (ko) 2021-07-28 2022-08-12 인프라닉스 아메리카 코퍼레이션 It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법
US11815988B2 (en) 2021-07-28 2023-11-14 Infranics America Corp. System that automatically responds to event alarms or failures in it management in real time and its operation method
KR20230100903A (ko) 2021-12-29 2023-07-06 스트라토 주식회사 네트워크 장치 장애 처리를 위한 시스템 및 그 제어방법

Also Published As

Publication number Publication date
US9652318B2 (en) 2017-05-16
KR20150049541A (ko) 2015-05-08
US20150121136A1 (en) 2015-04-30
CN104598367B (zh) 2017-12-08
CN104598367A (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
KR101545215B1 (ko) 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법
Li et al. Swisslog: Robust and unified deep learning based log anomaly detection for diverse faults
Das et al. Desh: deep learning for system health prediction of lead times to failure in hpc
US10706229B2 (en) Content aware heterogeneous log pattern comparative analysis engine
US11334602B2 (en) Methods and systems for alerting based on event classification and for automatic event classification
CN106202561B (zh) 基于文本大数据的数字化应急管理案例库构建方法及装置
Aussel et al. Improving performances of log mining for anomaly prediction through nlp-based log parsing
Tian et al. Information retrieval based nearest neighbor classification for fine-grained bug severity prediction
AU2017274576B2 (en) Classification of log data
KR101948634B1 (ko) 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법
Zhou et al. Deepsyslog: Deep anomaly detection on syslog using sentence embedding and metadata
US10628749B2 (en) Automatically assessing question answering system performance across possible confidence values
Tang et al. Optimizing system monitoring configurations for non-actionable alerts
US11822578B2 (en) Matching machine generated data entries to pattern clusters
US20240289206A1 (en) System and method for automatically monitoring and diagnosing user experience problems
Cavallaro et al. Identifying anomaly detection patterns from log files: A dynamic approach
Xie et al. Logdp: Combining dependency and proximity for log-based anomaly detection
Gu et al. Online failure forecast for fault-tolerant data stream processing
Chen et al. Unsupervised Anomaly Detection Based on System Logs.
Kuang et al. Knowledge-aware Alert Aggregation in Large-scale Cloud Systems: a Hybrid Approach
Nagashree et al. An early risk detection and management system for the cloud with log parser
Kubacki et al. Holistic processing and exploring event logs
Wang et al. LogOnline: A Semi-Supervised Log-Based Anomaly Detector Aided with Online Learning Mechanism
Yu et al. An approach to failure prediction in cluster by self-updating cause-and-effect graph
Hickman et al. Enhancing HPC system log analysis by identifying message origin in source code

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180625

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190701

Year of fee payment: 5