KR20160132698A - 지능형 시스템 진단 장치 및 방법 - Google Patents

지능형 시스템 진단 장치 및 방법 Download PDF

Info

Publication number
KR20160132698A
KR20160132698A KR1020150065569A KR20150065569A KR20160132698A KR 20160132698 A KR20160132698 A KR 20160132698A KR 1020150065569 A KR1020150065569 A KR 1020150065569A KR 20150065569 A KR20150065569 A KR 20150065569A KR 20160132698 A KR20160132698 A KR 20160132698A
Authority
KR
South Korea
Prior art keywords
failure
fault
type
cause
predetermined
Prior art date
Application number
KR1020150065569A
Other languages
English (en)
Inventor
박기정
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020150065569A priority Critical patent/KR20160132698A/ko
Publication of KR20160132698A publication Critical patent/KR20160132698A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

지능형 시스템 진단 장치 및 방법이 개시된다. 본 발명의 일 실시예에 따른 지능형 시스템 진단 장치는 시스템 장애 발생 시 기 설정된 장애 유형에 기초하여 발생된 장애의 장애 유형을 판단하는 판단부, 상기 발생된 장애의 장애 유형과 관련된 시스템 데이터를 수집하는 수집부 및 상기 발생된 장애의 장애 유형과 연관된 장애 진단 모델을 이용하여, 상기 수집된 시스템 데이터로부터 장애 원인을 판단하는 분석부를 포함한다.

Description

지능형 시스템 진단 장치 및 방법{APPARATUS AND METHOD OF INTELLIGENT SYSTEM DIAGNOSIS}
본 발명의 실시예들은 시스템에 발생된 장애를 진단하기 위한 장치 및 방법과 관련된다.
기존 LTE, UMTS, WiMAX, 코어 네트워크(Core Network) 등과 같은 다양한 형태의 시스템에 있어서, 시스템 장애에 대한 진단 및 조치는 대부분 시스템 운영자 내지는 관리자에 의해 이루어지고 있다.
그러나, 시스템 운영자 내지는 관리자에 따라 시스템에 대한 지식과 숙련도에 차이가 존재하며, 장애 진단 및 복구를 위해 시스템의 방대한 자원을 수집하고 활용함에 있어서 한계가 존재한다. 이에 따라, 시스템 장애 발생 시 시스템의 운영자 내지는 관리자가 장애 발생 유형별 상황에 대하여 적절한 대처를 하지 못하거나 신속한 조치가 이루어지지 못하는 상황이 다수 발생하고 있어 시스템의 안정적 운영 및 유지 보수에 문제점이 발생하고 있다.
대한민국 공개특허 제2004-0001076호 (2014.01.07)
본 발명의 실시예들은 시스템에 발생된 장애를 진단하기 위한 장치 및 방법을 제공하기 위한 것이다.
본 발명의 일 실시예에 따른 지능형 시스템 진단 장치는 시스템 장애 발생 시 기 설정된 장애 유형에 기초하여 발생된 장애의 장애 유형을 판단하는 판단부, 상기 발생된 장애의 장애 유형과 관련된 시스템 데이터를 수집하는 수집부 및 상기 발생된 장애의 장애 유형과 연관된 장애 진단 모델을 이용하여, 상기 수집된 시스템 데이터로부터 장애 원인을 판단하는 분석부를 포함한다.
상기 기 설정된 장애 유형은, 기 설정된 적어도 하나의 장애 코드와 연관되며, 상기 판단부는, 상기 기 설정된 장애 유형 중 상기 시스템의 자원들로부터 수신된 장애 메시지에 포함된 장애 코드와 연관된 장애 유형을 판단할 수 있다.
상기 판단부는, 상기 기 설정된 장애 유형 중 상기 발생된 장애에 대응하는 장애 유형이 존재하지 않는 경우, 시스템 운영자 또는 시스템 관리자에게 장애 발생을 보고할 수 있다.
상기 시스템 데이터는, 시스템 로그(log) 정보, 시스템의 상태와 관련된 통계 정보 및 이벤트 정보 중 적어도 하나를 포함할 수 있다.
상기 장애 진단 모델은, 과거 장애 발생 사례에 기초하여 학습된 진단 모델을 포함할 수 있다.
상기 지능형 시스템 진단 장치는 상기 장애 원인에 기초하여, 장애 대응 조치를 도출하는 장애 조치부를 더 포함할 수 있다.
상기 장애 조치부는, 적어도 하나 이상의 장애 원인에 대응하는 기 설정된 장애 대응 조치에 기초하여 상기 장애 대응 조치를 도출할 수 있다.
상기 장애 조치부는, 상기 장애 원인이 도출되지 않은 경우, 상기 수집된 시스템 데이터를 시스템 운영자 또는 시스템 관리자에게 제공할 수 있다.
상기 분석부는, 상기 장애 원인에 기초하여 장애 확대 패턴을 판단하고, 상기 장애 조치부는, 상기 장애 원인 및 상기 장애 확대 패턴에 기초하여 상기 장애 대응 조치를 도출할 수 있다.
상기 장애 조치부는, 상기 도출된 장애 대응 조치에 기초하여 상기 발생된 장애에 대한 자가 조치 가능 여부를 판단할 수 있다.
상기 장애 조치부는, 상기 판단 결과 자가 조치 가능한 경우, 상기 도출된 장애 대응 조치를 수행할 수 있다.
상기 장애 조치부는, 상기 판단 결과 자가 조치가 불가능한 경우, 상기 도출된 장애 대응 조치에 대한 정보를 시스템 운영자 또는 시스템 관리자에게 제공할 수 있다.
본 발명의 일 실시예에 따른 지능형 시스템 진단 방법은 시스템 장애 발생 시 기 설정된 장애 유형에 기초하여 발생된 장애의 장애 유형을 판단하는 단계, 상기 발생된 장애의 장애 유형과 관련된 시스템 데이터를 수집하는 단계 및 상기 발생된 장애의 장애 유형과 연관된 장애 진단 모델을 이용하여, 상기 수집된 시스템 데이터로부터 장애 원인을 판단하는 단계를 포함한다.
상기 기 설정된 장애 유형은, 기 설정된 적어도 하나의 장애 코드와 연관되며, 상기 장애 유형을 판단하는 단계는, 상기 기 설정된 장애 유형 중 상기 시스템의 자원들로부터 수신된 장애 메시지에 포함된 장애 코드와 연관된 장애 유형을 판단할 수 있다.
상기 장애 유형을 판단하는 단계는, 상기 기 설정된 장애 유형 중 상기 발생된 장애에 대응하는 장애 유형이 존재하지 않는 경우, 시스템 운영자 또는 시스템 관리자에게 장애 발생을 보고하는 단계를 더 포함할 수 있다.
상기 시스템 데이터는, 시스템 로그(log) 정보, 시스템의 상태와 관련된 통계 정보 및 이벤트 정보 중 적어도 하나를 포함할 수 있다.
상기 장애 진단 모델은, 과거 장애 발생 사례에 기초하여 학습된 진단 모델을 포함할 수 있다.
상기 지능형 시스템 진단 방법은 상기 장애 원인에 기초하여, 장애 대응 조치를 도출하는 단계를 더 포함할 수 있다.
상기 도출하는 단계는, 적어도 하나 이상의 장애 원인에 대응하는 기 설정된 장애 대응 조치에 기초하여 상기 장애 대응 조치를 도출할 수 있다.
상기 도출하는 단계는, 상기 장애 원인이 도출되지 않은 경우, 상기 수집된 시스템 데이터를 시스템 운영자 또는 시스템 관리자에게 제공하는 단계를 더 포함할 수 있다.
상기 장애 유형을 판단하는 단계는, 상기 장애 원인에 기초하여 장애 확대 패턴을 판단하는 단계를 더 포함하고, 상기 도출하는 단계는, 상기 장애 원인 및 상기 장애 확대 패턴에 기초하여 상기 장애 대응 조치를 도출할 수 있다.
상기 지능형 시스템 진단 방법은, 상기 도출된 장애 대응 조치에 기초하여 상기 발생된 장애에 대한 자가 조치 가능 여부를 판단하는 단계를 더 포함할 수 있다.
상기 지능형 시스템 진단 방법은, 상기 자가 조치가 가능한 경우, 상기 도출된 장애 대응 조치를 수행하는 단계를 더 포함할 수 있다.
상기 지능형 시스템 진단 방법은, 상기 자가 조치가 불가능한 경우, 상기 도출된 장애 대응 조치에 대한 정보를 시스템 운영자 또는 시스템 관리자에게 제공하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 기록매체에 저장된 컴퓨터 프로그램은, 하드웨어와 결합되어, 시스템 장애 발생시 기 설정된 장애 유형에 기초하여 발생된 장애의 장애 유형을 판단하는 단계, 상기 발생된 장애의 장애 유형과 관련된 시스템 데이터를 수집하는 단계 및 상기 발생된 장애의 장애 유형과 연관된 장애 진단 모델을 이용하여, 상기 수집된 시스템 데이터로부터 장애 원인을 판단하는 단계를 실행시킨다.
본 발명의 실시예들에 따르면, 시스템의 장애 발생 시 장애와 관련된 시스템 데이터를 수집 및 진단이 자동적으로 이루어지도록 함으로써, 시스템의 운영 및 유지 보수의 효율성을 향상시킬 수 있다.
나아가, 시스템에 발생된 장애에 대하여 적절한 장애 대응 조치를 도출하여, 자가 조치하거나 시스템의 운영자 또는 관리자에게 제공함으로써, 시스템 장애 복구의 신속성 및 시스템의 안정성을 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 지능형 시스템 진단 장치의 블록도
도 2는 본 발명의 추가적인 실시예에 따른 지능형 시스템 진단 장치의 블록도
도 3은 본 발명의 일 실시예에 따른 지능형 시스템 진단 방법의 순서도
도 4는 본 발명의 추가적인 실시예에 따른 지능형 시스템 진단 방법의 순서도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
도 1은 본 발명의 일 실시예에 따른 지능형 시스템 진단 장치의 블록도이다.
본 발명에 있어서, 시스템은 예를 들어, 센서 네트워크, LTE(Long Term Evolution) 시스템, UMTS(Universal Mobile Telecommunication System), WiMAX(Worldwide Interoperability for Microwave Access), Core Network, 홈 네트워크 등과 같은 다양한 형태의 시스템을 포함할 수 있으나, 반드시 이에 한정되는 것은 아니며, 정보를 처리하거나 저장할 수 있는 하나 이상의 장치들이 유선 또는 무선 네트워크를 통해 상호 협력하여 서비스를 제공하거나 작업을 수행한다면 그 형태와 종류에 제한되지 않는다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 지능형 시스템 진단 장치(100)는 판단부(110), 수집부(130) 및 분석부(150)를 포함한다.
지능형 시스템 진단 장치(100)는 예를 들어, 시스템을 구성하는 하나 이상의 장치들과 유선 또는 무선 네트워크를 통해 직간접적으로 연결되는 독립적인 장치로 구현될 수 있으나 반드시 이에 한정되는 것은 아니며, 예를 들어, 시스템을 구성하는 특정 장치에 포함된 일 구성으로 구현될 수도 있다.
판단부(110)는 시스템 장애 발생 시 기 설정된 장애 유형에 기초하여 발생된 장애의 장애 유형을 판단한다.
예를 들어, 판단부(110)는 시스템을 구성하는 장치들의 상태를 모니터링하여 장애 발생 여부를 판단할 수 있다. 구체적으로, 판단부(110)는 기 설정된 주기에 따라 시스템을 구성하는 각각의 장치로 상태 정보 전송을 요청하고, 각각의 장치들로부터 수신된 상태 정보에 장애 메시지가 포함되어 있는지 여부에 따라 장애 발생 여부를 판단할 수 있다.
시스템을 구성하는 장치들로부터 수신되는 장애 메시지는 장애 메시지를 전송한 장치의 식별 정보, 장애 메시지 전송 시간, 장애 발생 시간, 장애 코드 등을 포함할 수 있다. 이때, 장애 코드는 장애의 증상, 장애 발생 위치 등을 표시하는 부호를 의미한다.
한편, 시스템을 구성하는 장치들은 예를 들어, 게이트웨이, 라우터, 액세스포인트, 서버 등을 포함할 수 있으나, 반드시 이에 한정되는 것은 아니며 시스템의 종류 및 구성 형태에 따라 다양한 형태의 장치들을 포함할 수 있다.
한편, 기 설정된 장애 유형은 시스템의 전반적인 운영을 담당하는 시스템 운영자, 시스템의 유지 및 보수를 담당하는 시스템 관리자 또는 시스템과 관련된 전문 지식을 가진 자(이하, 시스템 운영자 등)에 의해 미리 설정될 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 기 설정된 장애 유형 각각은 적어도 하나의 장애 코드와 연관될 수 있으며, 판단부(110)는 기 설정된 장애 유형 중 수신된 장애 메시지에 포함된 장애 코드와 연관된 장애 유형을 판단할 수 있다.
예를 들어, 시스템 운영자 등은 동일 또는 유사 시스템에 과거 발생된 장애들을 유형 별로 분류하여 하나 이상의 장애 유형을 설정할 수 있으며, 각각의 장애 유형에 해당하는 장애 발생 시 생성되는 하나 이상의 장애 코드를 설정된 장애 유형에 매핑함으로써, 설정된 장애 유형과 장애 코드를 연관시킬 수 있다.
한편, 본 발명의 일 실시예에 따르면, 판단부(110)는 기 설정된 장애 유형 중 시스템에 발생된 장애에 대응하는 장애 유형이 존재하지 않는 경우, 시스템 운영자 또는 시스템 관리자에게 장애 발생을 보고할 수 있다. 예를 들어, 판단부(110)는 시스템 자원들로부터 수신된 장애 메시지에 포함된 장애 코드를 기 설정된 장애 유형들과 연관된 장애 코드와 비교하여 발생된 장애와 연관된 장애 유형이 존재하지 않는 경우, 시스템 운영자 또는 시스템 관리자에게 장애 발생을 보고할 수 있다. 이때, 장애 발생 보고는 예를 들어, 시스템 운영자 또는 시스템 관리자의 단말로 장애 발생 메시지를 전송하거나, 장애 발생 경고등 내지는 장애 발생 경고음을 발생시키는 것을 포함할 수 있다. 이때, 장애 발생 메시지는 예를 들어, 시스템 자원들로부터 수신된 장애 메시지 내지는 장애 메시지에 포함된 장애 코드를 포함할 수 있다.
수집부(130)는 판단부(110)에 의해 판단된 장애 유형과 관련된 시스템 데이터를 수집한다. 이때, 시스템 데이터는 시스템 로그(log) 정보, 시스템의 상태와 관련된 통계 정보 및 이벤트 정보 등을 포함할 수 있으나 장애 원인 판단을 위해 시스템으로부터 수집 및 활용될 수 있는 데이터라면 그 유형과 종류에 한정되지 않는다.
한편, 장애 유형과 관련하여 요구되는 시스템 데이터는 예를 들어, 시스템 운영자 등에 의해 미리 설정될 수 있으며, 수집부(130)는 판단부(110)에 의해 판단된 장애 유형과 관련된 시스템 데이터 수집을 위한 내부 명령어를 실행하여 시스템 데이터를 수집할 수 있다.
분석부(150)는 수집부(130)에 의해 수집된 시스템 데이터로부터 장애 원인을 판단한다.
본 발명의 일 실시예에 따르면, 분석부(150)는 판단부(110)에 의해 판단된 장애 유형과 연관된 장애 진단 모델을 이용하여, 수집부(130)에 의해 수집된 시스템 데이터로부터 장애 원인을 판단할 수 있다.
일 예로, 장애 진단 모델은, 과거 장애 발생 사례에 기초하여 학습된 진단 모델을 포함할 수 있다. 구체적으로, 과거 장애 발생 사례는 과거 발생된 장애의 원인과 증상으로 이루어질 수 있으며, 진단 모델은 미리 수집된 과거 장애 발생 사례를 학습 데이터로 이용하여 신경망 네트워크 등과 같은 기계 학습 알고리즘을 이용하여 생성될 수 있다.
한편, 본 발명의 일 실시예에 따르면, 분석부(150)는 도출된 장애 원인에 기초하여 장애 확대 패턴을 예측할 수 있다. 예를 들어, 분석부(150)는 시스템을 구성하는 장치들 내지는 시스템에서 수행되는 프로세스들 사이의 연관 관계, 과거 장애 발생 사례 등에 대한 정보를 이용하여, 도출된 장애 원인과 관련된 장애 확대 패턴을 예측할 수 있다.
도 2는 본 발명의 추가적인 실시예에 따른 지능형 시스템 진단 장치의 블록도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 지능형 시스템 진단 장치(200)는 판단부(110), 수집부(130), 분석부(150) 및 장애 조치부(170)를 포함한다. 한편, 도 2에 도시된 예에서, 판단부(110), 수집부(130) 및 분석부(150)는 도 1에 도시된 구성과 동일한 구성이므로 이에 대한 상세한 설명은 생략한다.
장애 조치부(170)는 분석부(150)에 의해 판단된 장애 원인에 기초하여 장애 대응 조치를 도출할 수 있다.
본 발명의 일 실시예에 따르면, 장애 조치부(170)는 각각의 장애 원인에 대하여 기 설정된 장애 대응 조치에 기초하여 시스템에 발생된 장애에 대한 장애 대응 조치를 도출할 수 있다. 이때, 기 설정된 장애 대응 조치는 예를 들어, 시스템 운영자 등에 의해 미리 설정될 수 있으며, 하나의 장애 원인에 대하여 하나 이상의 장애 대응 조치가 설정될 수 있다.
한편, 본 발명의 일 실시예에 따르면, 장애 조치부(170)는 분석부(150)에 의해 도출된 장애 원인 및 도출된 장애 원인과 연관된 장애 확대 패턴에 기초하여 장애 대응 조치를 도출할 수 있다. 이 경우, 장애 대응 조치는 발생된 장애의 복구를 위한 조치와 장애 확대를 방지하기 위한 조치들을 포함할 수 있다.
한편, 장애 조치부(170)는 분석부(150)에 의해 판단된 장애 원인에 대한 장애 대응 조치가 도출된 경우, 도출된 장애 대응 조치에 따라 자가 조치가 가능한지 여부를 판단할 수 있다. 예를 들어, 장애 대응 조치는 장비 교체 등과 같이 사람(예를 들어, 시스템 운영자 등)에 의한 행위가 요구되는 조치와 장애 복구를 위해 미리 설정된 하나 이상의 명령어로 구성된 배치(batch) 파일의 실행 등과 같이 사람에 의한 행위를 요구하지 않는 조치를 포함할 수 있다.
장애 조치부(170)는 도출된 장애 대응 조치에 따른 자가 조치가 가능한 경우, 도출된 장애 대응 조치를 수행할 수 있다. 반면, 장애 조치부(170)는 도출된 장애 대응 조치에 따른 자가 조치가 불가능한 경우, 도출된 장애 대응 조치에 대한 정보를 시스템 운영자 또는 시스템 관리자에게 제공하여 시스템 운영자 또는 시스템 관리자가 도출된 장애 대응 조치에 따라 조치하도록 할 수 있다.
한편, 본 발명의 일 실시예에 따르면, 장애 조치부(170)는 분석부(150)에 의해 장애 원인이 도출되지 않은 경우, 수집부(130)에 의해 수집된 시스템 데이터를 시스템 관리자에게 제공할 수 있다. 즉, 장애 조치부(170)는 시스템에 발생된 장애에 대해 장애 원인을 판단할 수 없는 경우, 발생된 장애 유형과 연관하여 수집된 시스템 데이터를 시스템 운영자 또는 시스템 관리자에게 제공함으로써, 시스템 운영자 또는 시스템 관리자에 의한 장애 원인 분석 및 조치가 이루어지도록 할 수 있다.
한편, 본 발명의 일 실시예에서, 도 1 및 도 2에 도시된 판단부(110), 수집부(130), 분석부(150) 및 장애 조치부(170)는 하나 이상의 프로세서 및 그 프로세서와 연결된 컴퓨터 판독 가능 기록 매체를 포함하는 컴퓨팅 장치 상에서 구현될 수 있다. 컴퓨터 판독 가능 기록 매체는 프로세서의 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다. 컴퓨팅 장치 내의 프로세서는 각 컴퓨팅 장치로 하여금 본 명세서에서 기술되는 예시적인 실시예에 따라 동작하도록 할 수 있다. 예를 들어, 프로세서는 컴퓨터 판독 가능 기록 매체에 저장된 명령어를 실행할 수 있고, 컴퓨터 판독 가능 기록 매체에 저장된 명령어는 프로세서에 의해 실행되는 경우 컴퓨팅 장치로 하여금 본 명세서에 기술되는 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
도 3은 본 발명의 일 실시예에 따른 지능형 시스템 진단 방법의 순서도이다.
도 3에 도시된 방법은 예를 들어, 전술한 지능형 시스템 진단 장치(100)에 의해 수행될 수 있다. 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
도 3을 참조하면, 지능형 시스템 진단 장치(100)는 시스템 장애 발생 시(310), 기 설정된 장애 유형에 기초하여 발생된 장애의 장애 유형을 판단한다(320).
예를 들어, 지능형 시스템 진단 장치(100)는 시스템을 구성하는 장치들로부터 수신된 상태 정보에 장애 메시지가 포함되어 있는지 여부에 따라 장애 발생 여부를 판단할 수 있으며, 이때, 장애 메시지는 장애 메시지를 전송한 장치의 식별 정보, 장애 메시지 전송 시간, 장애 발생 시간, 장애 코드 등을 포함할 수 있다.
또한, 본 발명의 일 실시예에 따르면, 기 설정된 장애 유형 각각은 적어도 하나의 장애 코드와 연관될 수 있으며, 지능형 시스템 진단 장치(100)는 기 설정된 장애 유형 중 수신된 장애 메시지에 포함된 장애 코드와 연관된 장애 유형을 판단할 수 있다.
한편, 본 발명의 일 실시예에 따르면, 지능형 시스템 진단 장치(100)는 기 설정된 장애 유형 중 시스템에 발생된 장애에 대응하는 장애 유형이 존재하지 않는 경우, 시스템 운영자에게 장애 발생을 보고할 수 있다.
이후, 지능형 시스템 진단 장치(100)는 발생된 장애의 장애 유형과 관련된 시스템 데이터를 수집한다(330).
이때, 수집되는 시스템 데이터는 시스템 로그(log) 정보, 시스템의 상태와 관련된 통계 정보 및 이벤트 정보 등을 포함할 수 있으나 장애 원인 판단을 위해 시스템으로부터 수집 및 활용될 수 있는 데이터라면 그 유형과 종류에 한정되지 않는다.
이후, 지능형 시스템 진단 장치(100)는 발생된 장애의 장애 유형과 연관된 장애 진단 모델을 이용하여, 수집된 시스템 데이터로부터 장애 원인을 판단한다(340).
본 발명의 일 실시예에 따르면, 장애 진단 모델은, 과거 장애 발생 사례에 기초하여 학습된 진단 모델을 포함할 수 있다. 구체적으로, 과거 장애 발생 사례는 과거 발생된 장애의 원인과 증상으로 이루어질 수 있으며, 진단 모델은 미리 수집된 과거 장애 발생 사례를 학습 데이터로 이용하여 신경망 네트워크 등과 같은 기계 학습 알고리즘을 이용하여 생성될 수 있다.
한편, 본 발명의 일 실시예에 따르면, 지능형 시스템 진단 장치(100)는 도출된 장애 원인에 기초하여 장애 확대 패턴을 예측할 수 있다. 예를 들어, 지능형 시스템 진단 장치(100)는 시스템을 구성하는 장치들 내지는 시스템에서 수행되는 프로세스들 사이의 연관 관계, 과거 장애 발생 사례 등에 대한 정보를 이용하여, 도출된 장애 원인과 관련된 장애 확대 패턴을 예측할 수 있다.
도 4는 본 발명의 추가적인 실시예에 따른 지능형 시스템 진단 방법의 순서도이다.
도 4에 도시된 방법은 예를 들어, 전술한 지능형 시스템 진단 장치(200)에 의해 수행될 수 있다. 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
한편, 도 4에 도시된 순서도에서 410 단계 내지 440 단계는 도 3에 도시된 310 단계 내지 340 단계와 동일하므로, 이에 대한 상세한 설명은 생략한다.
도 4를 참조하면, 지능형 시스템 진단 장치(200)는 발생된 장애에 대한 장애 원인 판단 후(440), 판단된 장애 원인에 대한 장애 대응 조치를 도출한다(450).
본 발명의 일 실시예에 따르면, 지능형 시스템 진단 장치(200)는 각각의 장애 원인에 대하여 기 설정된 장애 대응 조치에 기초하여 시스템에 발생된 장애에 대한 장애 대응 조치를 도출할 수 있다.
한편, 본 발명의 일 실시예에 따르면, 지능형 시스템 진단 장치(200)는 판단된 장애 원인과 연관된 장애 확대 패턴이 존재하는 경우, 장애 원인 및 장애 확대 패턴에 기초하여 장애 대응 조치를 도출할 수 있다. 이 경우, 장애 대응 조치는 발생된 장애의 복구를 위한 조치와 장애 확대를 방지하기 위한 조치들을 포함할 수 있다.
한편, 본 발명의 일 실시예에 따르면, 발생된 장애에 대한 장애 원인이 도출되지 않은 경우, 지능형 시스템 진단 장치(200)는 수집된 시스템 데이터를 시스템 운영자 또는 시스템 관리자에게 제공할 수 있다.
이후, 지능형 시스템 진단 장치(200)는 도출된 장애 대응 조치에 기초하여 발생된 장애에 대한 자가 조치 가능 여부를 판단한다(460).
이때, 자가 조치 가능한 경우, 지능형 시스템 진단 장치(200)는 도출된 장애 대응 조치에 따라 장애 대응 조치를 수행한다(470).
반면, 자가 조치 불가능한 경우, 지능형 시스템 진단 장치(200)는 도출된 장애 대응 조치에 대한 정보를 시스템 운영자 또는 시스템 관리자에게 제공한다(480).
한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나, 또는 컴퓨터 소프트웨어 분야에서 통상적으로 사용 가능한 것일 수 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100, 200: 지능형 시스템 진단 장치
110: 판단부
130: 수집부
150: 분석부
170: 장애 조치부

Claims (25)

  1. 시스템 장애 발생 시 기 설정된 장애 유형에 기초하여 발생된 장애의 장애 유형을 판단하는 판단부;
    상기 발생된 장애의 장애 유형과 관련된 시스템 데이터를 수집하는 수집부; 및
    상기 발생된 장애의 장애 유형과 연관된 장애 진단 모델을 이용하여, 상기 수집된 시스템 데이터로부터 장애 원인을 판단하는 분석부를 포함하는 지능형 시스템 진단 장치.
  2. 청구항 1에 있어서,
    상기 기 설정된 장애 유형은, 기 설정된 적어도 하나의 장애 코드와 연관되며,
    상기 판단부는, 상기 기 설정된 장애 유형 중 상기 시스템의 자원들로부터 수신된 장애 메시지에 포함된 장애 코드와 연관된 장애 유형을 판단하는 지능형 시스템 진단 장치.
  3. 청구항 1에 있어서,
    상기 판단부는, 상기 기 설정된 장애 유형 중 상기 발생된 장애에 대응하는 장애 유형이 존재하지 않는 경우, 시스템 운영자 또는 시스템 관리자에게 장애 발생을 보고하는 지능형 시스템 진단 장치.
  4. 청구항 1에 있어서,
    상기 시스템 데이터는, 시스템 로그(log) 정보, 시스템의 상태와 관련된 통계 정보 및 이벤트 정보 중 적어도 하나를 포함하는 지능형 진단 장치.
  5. 청구항 1에 있어서,
    상기 장애 진단 모델은, 과거 장애 발생 사례에 기초하여 학습된 진단 모델을 포함하는 지능형 시스템 진단 장치.
  6. 청구항 1에 있어서,
    상기 장애 원인에 기초하여, 장애 대응 조치를 도출하는 장애 조치부를 더 포함하는 지능형 시스템 진단 장치.
  7. 청구항 6에 있어서,
    상기 장애 조치부는, 적어도 하나 이상의 장애 원인에 대응하는 기 설정된 장애 대응 조치에 기초하여 상기 장애 대응 조치를 도출하는 지능형 시스템 진단 장치.
  8. 청구항 6에 있어서,
    상기 장애 조치부는, 상기 장애 원인이 도출되지 않은 경우, 상기 수집된 시스템 데이터를 시스템 운영자 또는 시스템 관리자에게 제공하는 지능형 시스템 진단 장치.
  9. 청구항 6에 있어서,
    상기 분석부는, 상기 장애 원인에 기초하여 장애 확대 패턴을 판단하고,
    상기 장애 조치부는, 상기 장애 원인 및 상기 장애 확대 패턴에 기초하여 상기 장애 대응 조치를 도출하는 시스템 진단 장치.
  10. 청구항 6에 있어서,
    상기 장애 조치부는, 상기 도출된 장애 대응 조치에 기초하여 상기 발생된 장애에 대한 자가 조치 가능 여부를 판단하는 지능형 시스템 진단 장치.
  11. 청구항 10에 있어서,
    상기 장애 조치부는, 상기 판단 결과 자가 조치 가능한 경우, 상기 도출된 장애 대응 조치를 수행하는 지능형 시스템 진단 장치.
  12. 청구항 10에 있어서,
    상기 장애 조치부는, 상기 판단 결과 자가 조치가 불가능한 경우, 상기 도출된 장애 대응 조치에 대한 정보를 시스템 운영자 또는 시스템 관리자에게 제공하는 지능형 시스템 진단 장치.
  13. 시스템 장애 발생 시 기 설정된 장애 유형에 기초하여 발생된 장애의 장애 유형을 판단하는 단계;
    상기 발생된 장애의 장애 유형과 관련된 시스템 데이터를 수집하는 단계; 및
    상기 발생된 장애의 장애 유형과 연관된 장애 진단 모델을 이용하여, 상기 수집된 시스템 데이터로부터 장애 원인을 판단하는 단계를 포함하는 지능형 시스템 진단 방법.
  14. 청구항 13에 있어서,
    상기 기 설정된 장애 유형은, 기 설정된 적어도 하나의 장애 코드와 연관되며,
    상기 장애 유형을 판단하는 단계는, 상기 기 설정된 장애 유형 중 상기 시스템의 자원들로부터 수신된 장애 메시지에 포함된 장애 코드와 연관된 장애 유형을 판단하는 지능형 시스템 진단 방법.
  15. 청구항 13에 있어서,
    상기 장애 유형을 판단하는 단계는, 상기 기 설정된 장애 유형 중 상기 발생된 장애에 대응하는 장애 유형이 존재하지 않는 경우, 시스템 운영자 또는 시스템 관리자에게 장애 발생을 보고하는 단계를 더 포함하는 지능형 시스템 진단 방법.
  16. 청구항 13에 있어서,
    상기 시스템 데이터는, 시스템 로그(log) 정보, 시스템의 상태와 관련된 통계 정보 및 이벤트 정보 중 적어도 하나를 포함하는 지능형 진단 방법.
  17. 청구항 13에 있어서,
    상기 장애 진단 모델은, 과거 장애 발생 사례에 기초하여 학습된 진단 모델을 포함하는 지능형 시스템 진단 방법.
  18. 청구항 13에 있어서,
    상기 장애 원인에 기초하여, 장애 대응 조치를 도출하는 단계를 더 포함하는 지능형 시스템 진단 방법.
  19. 청구항 18에 있어서,
    상기 도출하는 단계는, 적어도 하나 이상의 장애 원인에 대응하는 기 설정된 장애 대응 조치에 기초하여 상기 장애 대응 조치를 도출하는 지능형 시스템 진단 방법.
  20. 청구항 18에 있어서,
    상기 도출하는 단계는, 상기 장애 원인이 도출되지 않은 경우, 상기 수집된 시스템 데이터를 시스템 운영자 또는 시스템 관리자에게 제공하는 단계를 더 포함하는 지능형 시스템 진단 방법.
  21. 청구항 18에 있어서,
    상기 장애 유형을 판단하는 단계는, 상기 장애 원인에 기초하여 장애 확대 패턴을 판단하는 단계를 더 포함하고,
    상기 도출하는 단계는, 상기 장애 원인 및 상기 장애 확대 패턴에 기초하여 상기 장애 대응 조치를 도출하는 시스템 진단 방법.
  22. 청구항 18에 있어서,
    상기 도출된 장애 대응 조치에 기초하여 상기 발생된 장애에 대한 자가 조치 가능 여부를 판단하는 단계를 더 포함하는 지능형 시스템 진단 방법.
  23. 청구항 22에 있어서,
    상기 자가 조치가 가능한 경우, 상기 도출된 장애 대응 조치를 수행하는 단계를 더 포함하는 지능형 시스템 진단 방법.
  24. 청구항 22에 있어서,
    상기 자가 조치가 불가능한 경우, 상기 도출된 장애 대응 조치에 대한 정보를 시스템 운영자 또는 시스템 관리자에게 제공하는 단계를 더 포함하는 지능형 시스템 진단 방법.
  25. 하드웨어와 결합되어,
    시스템 장애 발생시 기 설정된 장애 유형에 기초하여 발생된 장애의 장애 유형을 판단하는 단계;
    상기 발생된 장애의 장애 유형과 관련된 시스템 데이터를 수집하는 단계; 및
    상기 발생된 장애의 장애 유형과 연관된 장애 진단 모델을 이용하여, 상기 수집된 시스템 데이터로부터 장애 원인을 판단하는 단계를 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램.










KR1020150065569A 2015-05-11 2015-05-11 지능형 시스템 진단 장치 및 방법 KR20160132698A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150065569A KR20160132698A (ko) 2015-05-11 2015-05-11 지능형 시스템 진단 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150065569A KR20160132698A (ko) 2015-05-11 2015-05-11 지능형 시스템 진단 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20160132698A true KR20160132698A (ko) 2016-11-21

Family

ID=57538034

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150065569A KR20160132698A (ko) 2015-05-11 2015-05-11 지능형 시스템 진단 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20160132698A (ko)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180108446A (ko) * 2017-03-23 2018-10-04 (주)모아데이타 Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
KR20190099710A (ko) * 2018-02-19 2019-08-28 주식회사 케이티 네트워크 장애 처리 시스템 및 방법
KR20200049028A (ko) * 2018-10-31 2020-05-08 주식회사 엘지씨엔에스 장애 유형 기반의 서버 장애 진단 및 대응 방법
KR20200070942A (ko) * 2018-12-10 2020-06-18 주식회사 케이티 트래픽 누수 자동 탐지 방법 및 그 장치
KR102202527B1 (ko) * 2020-03-04 2021-01-13 주식회사 쓰리아이씨 발전소 내 전력장애 발생방향 결정시스템
KR102244142B1 (ko) * 2020-09-29 2021-04-23 (주)시큐레이어 인공지능 기반으로 서비스를 식별 및 제어하고 장애를 탐지하는 기법을 사용한 능동 장애 복구 방법 및 장치
KR20210108340A (ko) * 2021-08-12 2021-09-02 (주)와치텍 언어학적 분석 기법을 이용한 it 인프라 장애 학습 및 분석 시스템
KR102432284B1 (ko) 2021-07-28 2022-08-12 인프라닉스 아메리카 코퍼레이션 It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법
KR102488984B1 (ko) * 2021-11-19 2023-01-13 한국항공우주연구원 인공지능 기반 위성 지상국 실시간 장애 탐지 방법 및 시스템
KR102509382B1 (ko) * 2021-09-14 2023-03-15 (주)와치텍 머신러닝을 이용한 빅데이터 기반의 it인프라 이벤트 제어 방안
CN117435441A (zh) * 2023-12-21 2024-01-23 国网山东省电力公司信息通信公司 一种基于日志数据的故障诊断方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040001076A (ko) 2002-06-26 2004-01-07 에스케이 텔레콤주식회사 이동통신 시스템에서 발생하는 장애 메시지의 분석 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040001076A (ko) 2002-06-26 2004-01-07 에스케이 텔레콤주식회사 이동통신 시스템에서 발생하는 장애 메시지의 분석 방법

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180108446A (ko) * 2017-03-23 2018-10-04 (주)모아데이타 Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
KR20190099710A (ko) * 2018-02-19 2019-08-28 주식회사 케이티 네트워크 장애 처리 시스템 및 방법
KR20200049028A (ko) * 2018-10-31 2020-05-08 주식회사 엘지씨엔에스 장애 유형 기반의 서버 장애 진단 및 대응 방법
KR20200070942A (ko) * 2018-12-10 2020-06-18 주식회사 케이티 트래픽 누수 자동 탐지 방법 및 그 장치
KR102202527B1 (ko) * 2020-03-04 2021-01-13 주식회사 쓰리아이씨 발전소 내 전력장애 발생방향 결정시스템
KR102244142B1 (ko) * 2020-09-29 2021-04-23 (주)시큐레이어 인공지능 기반으로 서비스를 식별 및 제어하고 장애를 탐지하는 기법을 사용한 능동 장애 복구 방법 및 장치
US11815988B2 (en) 2021-07-28 2023-11-14 Infranics America Corp. System that automatically responds to event alarms or failures in it management in real time and its operation method
KR102432284B1 (ko) 2021-07-28 2022-08-12 인프라닉스 아메리카 코퍼레이션 It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법
KR20210108340A (ko) * 2021-08-12 2021-09-02 (주)와치텍 언어학적 분석 기법을 이용한 it 인프라 장애 학습 및 분석 시스템
KR102509382B1 (ko) * 2021-09-14 2023-03-15 (주)와치텍 머신러닝을 이용한 빅데이터 기반의 it인프라 이벤트 제어 방안
KR102488984B1 (ko) * 2021-11-19 2023-01-13 한국항공우주연구원 인공지능 기반 위성 지상국 실시간 장애 탐지 방법 및 시스템
CN117435441A (zh) * 2023-12-21 2024-01-23 国网山东省电力公司信息通信公司 一种基于日志数据的故障诊断方法及装置
CN117435441B (zh) * 2023-12-21 2024-04-26 国网山东省电力公司信息通信公司 一种基于日志数据的故障诊断方法及装置

Similar Documents

Publication Publication Date Title
KR20160132698A (ko) 지능형 시스템 진단 장치 및 방법
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
Chen et al. How incidental are the incidents? characterizing and prioritizing incidents for large-scale online service systems
KR20180108446A (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
EP3663919B1 (en) System and method of automated fault correction in a network environment
US10467087B2 (en) Plato anomaly detection
CN109669844A (zh) 设备故障处理方法、装置、设备和存储介质
KR20190021560A (ko) 빅데이터를 활용한 고장예지보전시스템 및 고장예지보전방법
US8874642B2 (en) System and method for managing the performance of an enterprise application
CN101201786A (zh) 一种故障日志监控方法及装置
US10185612B2 (en) Analyzing the availability of a system
WO2009110329A1 (ja) 障害分析装置、障害分析方法および記録媒体
JP2015028700A (ja) 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体
KR102472081B1 (ko) 공정 모니터링 시스템 및 방법
CN103518192B (zh) 大规模服务的实时诊断流水线
US8554908B2 (en) Device, method, and storage medium for detecting multiplexed relation of applications
JP5240709B2 (ja) シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
CN112769615A (zh) 一种异常分析方法及装置
CN116566810A (zh) 一种基于Spring MVC框架的系统异常处理方法、装置和设备
WO2020044898A1 (ja) 機器状態監視装置及びプログラム
KR20170127876A (ko) 로그 결함 분석 기반 장애 대응 시스템 및 방법
KR20170071818A (ko) It 서비스 건전성 자동 진단 방법 및 시스템
US20150154498A1 (en) Methods for identifying silent failures in an application and devices thereof
JP2009048291A (ja) システム解析装置及びプログラム
KR101738770B1 (ko) 엔터프라이즈 비즈니스 서비스 레벨의 통합 모니터링 방법 및 시스템