KR101741108B1 - 시스템 결함 분석 장치, 방법 및 시스템 결함을 분석하기 위한 프로그램을 저장하는 저장매체 - Google Patents

시스템 결함 분석 장치, 방법 및 시스템 결함을 분석하기 위한 프로그램을 저장하는 저장매체 Download PDF

Info

Publication number
KR101741108B1
KR101741108B1 KR1020160171682A KR20160171682A KR101741108B1 KR 101741108 B1 KR101741108 B1 KR 101741108B1 KR 1020160171682 A KR1020160171682 A KR 1020160171682A KR 20160171682 A KR20160171682 A KR 20160171682A KR 101741108 B1 KR101741108 B1 KR 101741108B1
Authority
KR
South Korea
Prior art keywords
log data
event log
information
stack
open
Prior art date
Application number
KR1020160171682A
Other languages
English (en)
Inventor
박주원
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020160171682A priority Critical patent/KR101741108B1/ko
Application granted granted Critical
Publication of KR101741108B1 publication Critical patent/KR101741108B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

본 발명은 적어도 하나 이상의 서버에서 발생하는 이벤트 로그 데이터를 기설정된 서버로 수집하는 수집모듈; 상기 수집된 이벤트 로그 데이터를 기설정된 조건에 따라 정규화하는 전처리모듈; 상기 정규화된 이벤트 로그 데이터를 기설정된 기준에 따라 군집화하는 클러스터링모듈; 및 상기 군집화된 이벤트 로그 데이터의 발생 시간 패턴에 대한 정보를 기반으로 상기 군집화된 이벤트 로그 데이터 간의 연관성을 분석하는 분석모듈;을 포함할 수 있다.

Description

시스템 결함 분석 장치, 방법 및 시스템 결함을 분석하기 위한 프로그램을 저장하는 저장매체{APPARATUS AND METHOD FOR ANALYZING SYSTEM FAULT DETECTION}
본 발명은 이벤트 로그 분석을 통한 시스템 결함 분석에 관한 것이다.
일반적으로 시스템 관리자는 시스템에 결함이 발생한 경우 결함의 원인을 파악하기 위해 이벤트 로그 데이터를 분석한다. 이벤트 로그 파일에는 Warning, Error, Critical 등 결함의 등급을 의미하는 Severity level 값뿐만 아니라 결함의 원인을 추론할 수 있는 메시지를 포함하고 있기 때문에 시스템 관리자는 이벤트 로그의 메시지를 분석함으로써 결함의 발생 원인을 추론할 수 있다.
그러나 최근 들어 시스템의 규모가 커지고 복잡해짐에 따라 발생하는 이벤트 로그 데이터의 양이 많고 시스템 구성 모듈 간 관계도 복잡해 관리자가 이벤트 로그 파일을 하나하나 분석하여 결함 원인을 파악하는 것은 거의 불가능하다. 특히, 클라우드 관리 시스템으로 많이 활용되는 오픈스택(OpenStack)의 경우 다수의 서버에 NOVA, CINDER, SWIFT, GLANCE, NEUTRON, KEYSTONE, HORIZON 등 다양한 서비스 모듈이 연계되어 실행되기 때문에 결함 발생 시 각 노드에 접속하여 서비스 모듈별로 이벤트 로그 메시지를 분석하는 것은 매우 어려운 작업이다.
전술한 NOVA 서비스의 경우 호스트 노드의 CPU, 메모리 등 컴퓨팅 자원을 이용하여 가상 노드를 만들기 위한 서비스로써 모든 컴퓨팅 노드에 설치된다. NEUTRON 서비스의 경우 가상 노드의 네트워크 연결을 지원하기 위한 서비스로써 네트워크 노드와 컴퓨팅 노드에 설치된다. KEYSTONE 서비스의 경우 사용자의 접근 관리 및 인증을 위한 서비스를 제공한다. CINDER 서비스의 경우 블록 스토리지를 제공하는 서비스로써 가상 노드의 기본 저장 영역을 제공한다. SWIFT 서비스의 경우 오브젝트 스토리지를 제공하는 서비스로써 이를 통해 아마존의 S3와 같은 서비스를 제공한다. GLANCE 서비스의 경우 가상 노드 이미지를 관리하기 위한 서비스로써 다양한 형태의 가상 노드를 이미지로 생성하여 관리할 수 있다. HORIZON 서비스의 경우 GUI를 통해 관리자가 쉽게 오픈스택 운영 및 관리를 할 수 있도록 구현된 서비스로써 웹 인터페이스를 통해 제공된다.
종래에는 시스템의 결함을 찾기 위해 시스템 레벨의 로그 메시지와 이벤트 레벨의 로그 메시지를 개별적으로 분석하였다. 이는 시스템 레벨의 로그 메시지와 이벤트 레벨의 로그 메시지 출력 항목이 상이하여 통합에 어려움이 있기 때문이다.
시스템 레벨의 로그 메시지와 이벤트 레벨의 로그 메시지를 개별적으로 분석할 경우 시스템 결함의 근본적인 원인을 찾는데 한계가 있다. 또한 기존의 로그분석기와 같은 시스로그 분석 시스템의 경우 발생 시간에 따라 메시지를 나열하기 때문에 운영자가 동일한 원인에 의해 발생한 이벤트 로그를 찾는데 어려움이 있다.
본 발명은 상기 언급한 문제점을 해결하기 위해 이벤트 로그 분석을 통한 시스템 결함 분석 장치, 방법 및 시스템 결함을 분석하기 위한 프로그램을 저장하는 저장매체에 관한 것이다.
본 발명인 시스템 결함 분석 장치는 적어도 하나 이상의 서버에서 발생하는 이벤트 로그 데이터를 기설정된 서버로 수집하는 수집모듈; 상기 수집된 이벤트 로그 데이터를 기설정된 조건에 따라 정규화하는 전처리모듈; 상기 정규화된 이벤트 로그 데이터를 기설정된 기준에 따라 군집화하는 클러스터링모듈; 및 상기 군집화된 이벤트 로그 데이터의 발생 시간 패턴에 대한 정보를 기반으로 상기 군집화된 이벤트 로그 데이터 간의 연관성을 분석하는 분석모듈;을 포함할 수 있다.
또한 본 발명인 시스템 결함 분석 방법은 수집모듈이 적어도 하나 이상의 서버에서 발생하는 이벤트 로그 데이터를 기설정된 서버로 수집하는 단계; 전처리모듈이 상기 수집된 이벤트 로그 데이터를 기설정된 조건에 따라 정규화하는 단계; 클러스터링모듈이 상기 정규화된 이벤트 로그 데이터를 기설정된 기준에 따라 군집화하는 단계; 및 분석모듈이 상기 군집화된 이벤트 로그 데이터의 발생 시간 패턴에 대한 정보를 기반으로 상기 군집화된 이벤트 로그 데이터 간의 연관성을 분석하는 단계;를 포함할 수 있다.
또한 본 발명인 시스템 결함을 분석하는 프로그램을 저장매체는 적어도 하나 이상의 서버에서 발생하는 이벤트 로그 데이터를 기설정된 서버로 수집하고, 상기 수집된 이벤트 로그 데이터를 기설정된 조건에 따라 정규화하고, 상기 정규화된 이벤트 로그 데이터를 기설정된 기준에 따라 군집화하고, 상기 군집화된 이벤트 로그 데이터의 발생 시간 패턴에 대한 정보를 기반으로 상기 군집화된 이벤트 로그 데이터 간의 연관성을 분석하고, 상기 이벤트 로그 데이터는 시스템 이벤트 로그 데이터 및 오픈스택 이벤트 로그 데이터를 포함하고, 상기 시스템 이벤트 로그 데이터는 시스템 레벨의 로그 데이터이며, 상기 오픈스택 이벤트 로그 데이터는 오픈스택 상에 제공되는 개별 응용 서비스 레벨의 로그 데이터인 것을 포함할 수 있다.
본 발명은 관리자가 결함의 원인을 신속히 파악할 수 있는 메시지 기반 로그 분석을 제공할 수 있다.
또한 본 발명은 시스템 레벨과 응용 서비스 레벨의 이벤트 로그를 모두 수집하여 로그간 연관성을 분석함으로써 결함 발생의 근본원인을 파악할 수 있다.
또한 본 발명은 이벤트 로그 메시지를 비지도 학습(unsupervised learning) 기반으로 그룹화함으로써 모델 생성시 관리자가 메시지를 분류해줘야 하는 어려움을 해결할 수 있다.
또한 본 발명은 시간에 따른 동적 패턴의 유사도를 분석하는 DTW(Dynamic Time Warping)기법을 활용함으로써 시간 동기화가 정확히 일치하지 않는 분산 시스템에서 발생하는 발생 패턴을 정확히 분석할 수 있다.
또한 본 발명은 시스템 레벨의 이벤트 로그와 응용 서비스 레벨의 이벤트 로그를 통합 분석하여 결함 원인을 정확히 파악할 수 있다.
도 1은 이벤트 로그 기반 연관성 분석 프레임 워크의 일 실시예를 설명하는 도면이다.
도 2는 오픈스택에 구현한 본 발명의 일 실시예를 설명하는 도면이다.
도 3은 메시지 군집화 방법의 일 실시예를 설명하는 도면이다.
도 4는 시스템 결함 분석 장치의 일 실시예를 설명하기 위한 도면이다.
도 5는 시스템 결함 분석 방법의 일 실시예를 설명하기 위한 도면이다.
본 발명의 일 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
도 1은 이벤트 로그 기반 연관성 분석 프레임 워크의 일 실시예를 설명하는 도면이다.
도 1을 참조하면, 본 발명인 이벤트 로그 기반 연관성 분석 프레임 워크는 수집부(100), 정규화부(110), 군집화부(120) 또는 분석부(130) 중 적어도 하나 이상을 포함할 수 있다. 상기 수집부(100), 정규화부(110), 군집화부(120) 또는 분석부(130)는 각각의 하드웨어 프로세서에 의해 구현되거나 하나의 통합 프로세서로 구현될 수 있다.
한편, 아래에서 후술할 오픈스택(140, 141, 142)은 적어도 하나 이상의 서비스 모듈이 연동되어 실행되는 클라우드 관리 플랫폼이다. 오픈스택(140, 141, 142)은 일반적으로 하나의 서버가 아닌 복수의 서버에 분산되어 서비스가 실행될 수 있다. 또한 오픈스택(140, 141, 142)에서 실행되는 서비스에 따라 서로 다른 파일에 오픈스택 이벤트 로그 데이터(150, 151, 152)가 출력될 수 있다. 예를 들어, 컴퓨팅 노드에 설치되는 NOVA 서비스의 경우 /var/log/nova 파일에, NEUTRON의 경우 /var/log/neutron 파일에 오픈스택 이벤트 로그 데이터(150, 151, 152)가 각각 출력될 수 있다.
수집부(100)는 분산된 적어도 하나 이상의 서버에서 발생하는 이벤트 로그 데이터들을 기설정된 서버로 수집할 수 있다. 즉, 전술한 바와 같이 수집부(100)는 적어도 하나 이상의 서버에 적어도 하나 이상의 파일로 혼재되어 있는 이벤트 로그 데이터를 하나의 서버 또는 기설정된 서버로 수집할 수 있다. 전술한 이벤트 로그 데이터는 후술할 시스템 이벤트 로그 데이터 및 오픈스택 이벤트 로그 데이터를 포함할 수 있다. 또한 수집부(100)는 시스로그데몬에서 출력되는 시스템 이벤트 로그 데이터(시스템 레벨의 로그 데이터, 160, 161, 162)와 오픈스택 상의 개별 서비스 모듈에서 출력되는 오픈스택 이벤트 로그 데이터(응용 서비스 레벨의 로그 데이터, 150, 151, 152)를 전술한 기설정된 서버로 수집할 수 있다.
이에 대해서 구체적으로 설명하면, 전술한 바와 같이 수집부(100)가 기설정된 서버로 이벤트 로그 데이터들을 수집하기 위해, 수집부(100)는 rsyslog 서버를 아래와 같이 설정할 수 있다.
<rsyslog 서버 설정>
$ModLoad immark
$ModeLoad imtcp
$InputTCPServerRun portNum
$ModLoad ommysql
*.*:ommysql:database - server , database - name , database - userid , database - password
또한 수집부(100)는 오픈스택 이벤트 로그 데이터(140, 141, 142)가 시스로그 형태(시스템 이벤트 로그 데이터 포맷)로 시스템 로그 파일에 출력하도록 오픈스택들(140, 141, 142)을 아래와 같이 설정할 수 있다.
<오픈스택 설정>
use_syslog=True
syslog_log_facility=LOG_LOCALO
또한, 수집부(100)는 출력된 이벤트 로그 데이터(시스템 이벤트 로그 데이터(160, 161, 162), 오픈스택 이벤트 로그 데이터(150, 151, 152))를 rsyslog 클라이언트를 이용하여 특정 서버인 rsyslog 서버로 전송함으로써 전술한 바와 같이 기설정된 서버로 이벤트 로그 데이터들을 수집할 수 있다. 이를 위해 수집부(100)는 전술한 오픈스택을 구성하는 모든 노드의 아래의 설정을 통해(rsyslog.conf 파일) 전술한 rsyslog 클라이언트를 활성화 할 수 있다.
<rsyslog 클라이언트 설정>
*.* @@rsyslog_server_ip_address:portNum
정규화부(110)는 수집부(100)에 의해 수집된 이벤트 로그 데이터를 정규화할 수 있다. 즉, 정규화부(110)는 수집된 이벤트 로그 데이터를 아래에서 후술할 필터링 기법을 적용하여 중복된 이벤트 로그 데이터를 제거하거나 결함의 원인을 유추할 수 있는 정보를 추출할 수 있다. 또는 정규화부(110)는 이벤트 로그 데이터 중 중요 필드의 데이터만을 선별적으로 추출할 수 있다.
또한 정규화부(110)는 정규화된 이벤트 로그 데이터를 기설정된 기준에 따라 분류(180, 181, 182, 183, 184, 185, 186)할 수 있다. 전술한 기설정된 기준으로 단어별 분류에 대한 정보, 어구별 분류에 대한 정보 또는 동사별 분류에 대한 정보를 포함할 수 있으나 설계자 의도에 따라 변경이 가능하므로 전술한 것에 한정되지 않는다.
전술한 필터링 기법에 대해서 구체적으로 설명하면, 필터링 기법은 수집된 이벤트 로그 데이터에 포함된 대문자를 소문자로 변환하는 단계, 소문자로 변환 처리된 이벤트 로그 데이터에서 기설정된 조건에 해당하는 비단어적 정보를 제거하는 단계, 비단어적 정보가 제거된 이벤트 로그 데이터에서 가상 인스턴스에 부여된 ID와 같은 고유 값에 대응하는 정보를 제거하는 단계, 고유 값에 대응하는 정보가 제거된 이벤트 로그 데이터에서 디렉토리 경로에 대응하는 정보를 기설정된 명칭 정보로 변환하는 단계를 포함할 수 있다. 구체적으로 전술한 디렉토리 경로에 대한 정보는 영문명 path로 변경할 수 있다. 전술한 비단어적 정보란 의미를 담고 있는 단어가 아닌 기호, 숫자, 조사 또는 관사 등이며 설계자 의도에 따라 변경이 가능하므로 전술한 것에 한정되지 않는다. 또한 전술한 필터링 기법에 포함된 개별 단계는 전술한 순서에 한정되지 않는다.
군집화부(120)는 정규화된 이벤트 로그 데이터가 기설정된 기준에 따라 기분류될 경우, 기설정된 기준에 따라 분류된 이벤트 로그 데이터를 군집화 기법에 따라 군집화(187, 188, 189)할 수 있다. 또한 군집화부(120)는 정규화된 이벤트 로그 데이터가 기설정된 기준에 따라 기분류가 되지 않을 경우, 기설정된 기준에 따라 분류한 후 기설정된 기준에 따라 분류된 이벤트 로그 데이터를 군집화 기법에 따라 군집화할 수 있다. 또한 전술한 군집화 기법은 메트릭의 유클리디안거리(euclidean distance)를 기반으로 유사도에 따른 클러스터링을 의미한다.
이를 위해 군집화부(120)는 기설정된 기준에 따라 분류된 이벤트 로그 데이터 전체를 전술한 기준(단어, 어구, 동사 등)의 사용 여부에 대한 정보 또는 전술한 기준(단어, 어구, 동사 등)의 사용 빈도수에 대한 정보를 메트릭 형태로 변환할 수 있다. 전술한 군집화 기법에 대한 구체적인 내용은 도 3에서 후술한다.
분석부(130)는 DTW(Dynamic Time Warping) 분석 기법을 기반으로 전술한 군집화부(120)에 의해 군집화된 이벤트 로그 데이터 간의 연관성을 분석할 수 있다. 구체적으로 분석부(130)는 군집화된 이벤트 로그 데이터의 발생 시간 패턴을 비교함으로써 연관성을 여부를 분석할 수 있다. 또한 분석부(130)는 군집화된 이벤트 로그 데이터 간의 연관성이 있을 경우 동일한 시스템 결함으로 처리할 수 있다.
전술한 DTW(Dynamic Time Warping) 분석 기법은 시간 길이가 서로 다른 두 동적 패턴 사이의 유사도를 판별하기 위해 두 개의 순차 데이터의 시간 길이를 왜곡시킴으로써 두 패턴의 최적의 정합(matching)을 구하고, 해당 정합에서의 두 데이터 사이의 거리를 계산하는 알고리즘이다. 구체적인 내용은 아래의 제시된 수학식 1과 같다.
Figure 112016123224397-pat00001
전술한 수학식 1에서 d(xi, yj)는 길이가 각각 p, q 인 두 이벤트 데이터 발생 시간 패턴 X=(x1, x2, x3,..., xp), Y=(y1, y2, y3,..., yq)가 주어졌을 때, 전술한 시간 패턴의 정렬을 위해 만들어진 행렬에서, (i,j) 번째 요소에 대한 정보이며 이는 유클라디안 거리 (xi-yj)^2를 기반으로 계산된다. 또한 전술한 수학식 1에서 D(i, j)는 전술한 복수의 패턴 간의 누적 거리에 대한 정보이다.
도 2는 오픈스택에 구현한 본 발명의 일 실시예를 설명하는 도면이다.
도 2를 참조하면, 오픈스택 플랫폼은 네트워크 노드(230), 제어 노드(210), 인증 노드(220) 및 복수의 컴퓨팅 노드(240, 241)들을 포함하고 있다. 각각의 노드들은 관리 네트워크(250)를 통해 통신할 수 있다. 각각의 노드들은 데이터 네트워크(270)를 통해 데이터 전송을 할 수 있다. 각 노드들은 서로 다른 서버에 위치할 수 있으며 전술한 네트워크를 통해 연결되어 유기적으로 동작할 수 있다.
또한 제어 노드(210), 인증 노드(220) 또는 네트워크 노드(230)는 외부 네트워크(260)를 통해 외부 기기와 연결할 수 있다. 또한 도 1에서 전술한 수집부(100, 290, Log Collector)는 시스로그데몬에서 출력되는 시스템 이벤트 로그 데이터(150, 151, 152)와 오픈스택 이벤트 로그 데이터(140, 141, 142)를 기설정된 서버로 전송하기 위해 모든 오픈스택 노드에 rsyslog 클라이언트를 설치할 수 있다. 또한 수집부(100)는 관리 네트워크(250)에 rsyslog 서버(280)를 연결하여 전술한 이벤트 로그 데이터를 수집할 수 있다.
도 3은 메시지 군집화 방법의 일 실시예를 설명하는 도면이다.
도 3을 참조하면, 도 1에서 전술한 군집화부(120)는 기설정된 기준에 따라 기분류된 정규화된 이벤트 로그 데이터를 군집화할 수 있다. 또한 m1, m2,...mn은 전술한 정규화된 이벤트 로그 데이터를 의미하며, M은 전술한 정규화된 이벤트 로그 데이터의 개별 군집을 의미한다. 또한 t1, t2,..., tp는 전술한 정규화된 이벤트 로그 데이터에 대응하는 개별 벡터값이며 T는 전술한 개별 벡터의 개별 군집을 의미한다.
전술한 군집화 기법을 구체적으로 설명하면, 군집화부(120)는 정규화된 이벤트 로그 데이터를 입력받을 수 있다(300). 또한 군집화부(120)는 입력 값인 정규화된 이벤트 로그 데이터를 개별 군집으로 설정할 수 있다(300). 또한 군집화부(120)는 전술한 개별 군집 단위간의 유사성에 대한 정보를 추출할 수 있다(310, 320, 330). 또한 군집화부(120)는 추출된 유사성에 대한 정보가 기설정된 값(threshold) 이상일 경우 하나의 클러스터를 구성할 수 있다(340). 또한 군집화부(120)은 구성된 하나의 클러스터를 출력할 수 있다(350). 또한 군집화부(120)는 메트릭의 유클리디안 거리(euclidean distance)를 기반으로 유사도에 따른 클러스터링을 할 수 있다.
도 4는 시스템 결함 분석 장치의 일 실시예를 설명하기 위한 도면이다.
도 4를 참조하면, 시스템 결함 분석 장치는 수집모듈(400), 전처리모듈(410), 클러스터링모듈(420) 또는 분석모듈(430)을 포함할 수 있다. 수집모듈(400)은 도 1에서 전술한 수집부(100)에 대응할 수 있다. 전처리모듈(410)은 도 1에서 전술한 정규화부(110)와 대응할 수 있다. 클러스터링모듈(420)은 도 1에서 전술한 군집화부(120)와 대응할 수 있다. 또한 분석모듈(430)은 도 1에서 전술한 분석부(130)와 대응할 수 있다.
수집모듈(400)은 적어도 하나 이상의 서버에서 발생하는 이벤트 로그 데이터를 기설정된 서버로 수집할 수 있다. 또한 수집 모듈(400)은 오픈스택 이벤트 로그 데이터를 시스템 이벤트 로그 데이터 포맷으로 변환하여 출력할 수 있다.
전술한 이벤트 로그 데이터는 시스템 이벤트 로그 데이터 및 오픈스택 이벤트 로그 데이터를 포함하고, 시스템 이벤트 로그 데이터는 시스템 레벨의 로그 데이터이며, 오픈스택 이벤트 로그 데이터는 오픈스택 상에 제공되는 개별 응용 서비스 레벨의 로그 데이터일 수 있다.
또한 수집모듈(400)은 오픈스택의 개별 노드마다 개별 클라이언트를 설치하고, 개별 클라이언트를 통해 오픈스택 이벤트 로그 데이터를 수집할 수 있다.
전처리모듈(410)은 수집된 이벤트 로그 데이터를 기설정된 조건에 따라 정규화할 수 있다. 전술한 기설정된 조건은 상기 수집된 이벤트 로그 데이터에 포함된 대문자를 소문자로 변환하는 것을 포함할 수 있다.
또한 전술한 기설정된 조건은 소문자로 변환 처리된 이벤트 로그 데이터에 포함된 비단어적 요소를 제거하는 것 또는 비단어적 요소가 제거된 이벤트 로그 데이터에 포함된 고유 값에 대한 정보를 제거하는 것을 포함할 수 있다. 또한 전술한 기설정된 조건은 고유 값에 대한 정보가 제거된 이벤트 로그 데이터에 포함된 디렉토리를 표시하는 정보를 path로 변경하는 것을 포함할 수 있다.
클러스터링모듈(420)은 정규화된 이벤트 로그 데이터를 기설정된 기준에 따라 군집화할 수 있다. 전술한 기설정된 기준은 정규화된 이벤트 로그 데이터에 포함된 단어에 대한 정보를 포함할 수 있다. 분석모듈(430)은 군집화된 이벤트 로그 데이터의 발생 시간 패턴에 대한 정보를 기반으로 군집화된 이벤트 로그 데이터 간의 연관성을 분석할 수 있다.
도 5는 시스템 결함 분석 방법의 일 실시예를 설명하기 위한 도면이다.
도 5를 참조하면, 시스템 결함 분석 방법은 적어도 하나 이상의 서버에서 발생하는 이벤트 로그 데이터를 기설정된 서버로 수집하는 단계(S500), 수집된 이벤트 로그 데이터를 기설정된 조건에 따라 정규화하는 단계(S520), 정규화된 이벤트 로그 데이터를 기설정된 기준에 따라 군집화하는 단계(S530), 군집화된 이벤트 로그 데이터의 발생 시간 패턴에 대한 정보를 기반으로 상기 군집화된 이벤트 로그 데이터 간의 연관성을 분석하는 단계(S540)를 포함할 수 있다.
수집모듈이 적어도 하나 이상의 서버에서 발생하는 이벤트 로그 데이터를 기설정된 서버로 수집하는 단계(S500)를 수행할 수 있다. 이에 대한 구체적인 설명은 도 1 내지 도 4에서 전술한 바 있다.
전처리모듈이 수집된 이벤트 로그 데이터를 기설정된 조건에 따라 정규화하는 단계(S520)를 수행할 수 있다. 이에 대한 구체적인 설명은 도 1 내지 도 4에서 전술한 바 있다.
클러스터링모듈이 정규화된 이벤트 로그 데이터를 기설정된 기준에 따라 군집화하는 단계(S530)를 수행할 수 있다. 이에 대한 구체적인 설명은 도 1 내지 도 4에서 전술한 바 있다.
분석모듈이 군집화된 이벤트 로그 데이터의 발생 시간 패턴에 대한 정보를 기반으로 상기 군집화된 이벤트 로그 데이터 간의 연관성을 분석하는 단계(S540)를 수행할 수 있다. 이에 대한 구체적인 설명은 도 1 내지 도 4에서 전술한 바 있다.
본 발명의 명세서에 개시된 실시예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.
400 : 수집모듈
410 : 전처리모듈
420 : 클러스터링모듈
430 : 분석모듈

Claims (16)

  1. 적어도 하나 이상의 서버에서 발생하는 이벤트 로그 데이터를 기설정된 서버로 수집하는 수집모듈;
    상기 수집된 이벤트 로그 데이터를 기설정된 조건에 따라 정규화하는 전처리모듈;
    상기 정규화된 이벤트 로그 데이터를 기설정된 기준에 따라 군집화하는 클러스터링모듈; 및
    상기 군집화된 이벤트 로그 데이터의 발생 시간 패턴에 대한 정보를 기반으로 상기 군집화된 이벤트 로그 데이터 간의 연관성을 분석하는 분석모듈;을 포함하고,
    상기 이벤트 로그 데이터는 시스템 레벨의 시스템 이벤트 로그 데이터 및 오픈스택 상에 제공되는 개별 응용 서비스 레벨의 오픈스택 이벤트 로그 데이터를 포함하고,
    상기 수집모듈은 상기 시스템 이벤트 로그 데이터 및 상기 오픈스택 이벤트 로그 데이터를 상기 이벤트 로그 데이터로 통합 관리하여 상기 기설정된 서버로 전송하고,
    상기 기설정된 조건은 상기 수집된 이벤트 로그 데이터에 포함된 대문자를 소문자로 변환하는 것이고,
    상기 전처리모듈은 상기 소문자로 변환 처리된 이벤트 로그 데이터에 포함된 비단어적 요소를 제거하고, 상기 비단어적 요소가 제거된 이벤트 로그 데이터에 포함된 고유 값에 대한 정보를 제거하고, 상기 고유 값에 대한 정보가 제거된 이벤트 로그 데이터에 포함된 디렉토리를 표시하는 정보를 기설정된 명칭 정보로 변경하는 시스템 결함 분석 장치.
  2. 제 1 항에 있어서, 상기 수집 모듈은 상기 오픈스택 이벤트 로그 데이터를 상기 시스템 이벤트 로그 데이터 포맷으로 변환하여 출력하는 시스템 결함 분석 장치.
  3. 제 2 항에 있어서, 상기 수집모듈은 오픈스택의 개별 노드마다 개별 클라이언트를 설치하고, 상기 개별 클라이언트를 통해 상기 오픈스택 이벤트 로그 데이터를 수집하는 시스템 결함 분석 장치.
  4. 제 1 항에 있어서, 상기 기설정된 기준은 상기 정규화된 이벤트 로그 데이터에 포함된 단어에 대한 정보인 시스템 결함 분석 장치.
  5. 수집모듈이 적어도 하나 이상의 서버에서 발생하는 이벤트 로그 데이터를 기설정된 서버로 수집하는 단계;
    전처리모듈이 상기 수집된 이벤트 로그 데이터를 기설정된 조건에 따라 정규화하는 단계;
    클러스터링모듈이 상기 정규화된 이벤트 로그 데이터를 기설정된 기준에 따라 군집화하는 단계; 및
    분석모듈이 상기 군집화된 이벤트 로그 데이터의 발생 시간 패턴에 대한 정보를 기반으로 상기 군집화된 이벤트 로그 데이터 간의 연관성을 분석하는 단계;를 포함하고,
    상기 이벤트 로그 데이터는 시스템 레벨의 시스템 이벤트 로그 데이터 및 오픈스택 상에 제공되는 개별 응용 서비스 레벨의 오픈스택 이벤트 로그 데이터를 포함하고,
    상기 수집모듈은 상기 시스템 이벤트 로그 데이터 및 상기 오픈스택 이벤트 로그 데이터를 상기 이벤트 로그 데이터로 통합 관리하여 상기 기설정된 서버로 전송하고,
    상기 기설정된 조건은 상기 수집된 이벤트 로그 데이터에 포함된 대문자를 소문자로 변환하는 것이고,
    상기 전처리모듈은 상기 소문자로 변환 처리된 이벤트 로그 데이터에 포함된 비단어적 요소를 제거하고, 상기 비단어적 요소가 제거된 이벤트 로그 데이터에 포함된 고유 값에 대한 정보를 제거하고, 상기 고유 값에 대한 정보가 제거된 이벤트 로그 데이터에 포함된 디렉토리를 표시하는 정보를 기설정된 명칭 정보로 변경하는 시스템 결함 분석 방법.
  6. 제 5 항에 있어서, 상기 수집 모듈은 상기 오픈스택 이벤트 로그 데이터를 상기 시스템 이벤트 로그 데이터 포맷으로 변환하여 출력하는 시스템 결함 분석 방법.
  7. 제 6 항에 있어서, 상기 수집모듈은 오픈스택의 개별 노드마다 개별 클라이언트를 설치하고, 상기 개별 클라이언트를 통해 상기 오픈스택 이벤트 로그 데이터를 수집하는 시스템 결함 분석 방법.
  8. 적어도 하나 이상의 서버에서 발생하는 이벤트 로그 데이터를 기설정된 서버로 수집하고, 상기 수집된 이벤트 로그 데이터를 기설정된 조건에 따라 정규화하고, 상기 정규화된 이벤트 로그 데이터를 기설정된 기준에 따라 군집화하고, 상기 군집화된 이벤트 로그 데이터의 발생 시간 패턴에 대한 정보를 기반으로 상기 군집화된 이벤트 로그 데이터 간의 연관성을 분석하여 시스템 결함을 분석하기 위한 프로그램을 저장하는 저장매체로써, 상기 이벤트 로그 데이터는 시스템 이벤트 로그 데이터 및 오픈스택 이벤트 로그 데이터를 포함하고, 상기 시스템 이벤트 로그 데이터는 시스템 레벨의 로그 데이터이며, 상기 오픈스택 이벤트 로그 데이터는 오픈스택 상에 제공되는 개별 응용 서비스 레벨의 로그 데이터이고 상기 시스템 이벤트 로그 데이터 및 상기 오픈스택 이벤트 로그 데이터를 상기 이벤트 로그 데이터로 통합 관리하여 상기 기설정된 서버로 전송하고, 상기 기설정된 조건은 상기 수집된 이벤트 로그 데이터에 포함된 대문자를 소문자로 변환하는 것이고, 상기 소문자로 변환 처리된 이벤트 로그 데이터에 포함된 비단어적 요소를 제거하고, 상기 비단어적 요소가 제거된 이벤트 로그 데이터에 포함된 고유 값에 대한 정보를 제거하고, 상기 고유 값에 대한 정보가 제거된 이벤트 로그 데이터에 포함된 디렉토리를 표시하는 정보를 기설정된 명칭 정보로 변경하여 시스템 결함을 분석하기 위한 프로그램을 저장하는 저장매체.
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
KR1020160171682A 2016-12-15 2016-12-15 시스템 결함 분석 장치, 방법 및 시스템 결함을 분석하기 위한 프로그램을 저장하는 저장매체 KR101741108B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160171682A KR101741108B1 (ko) 2016-12-15 2016-12-15 시스템 결함 분석 장치, 방법 및 시스템 결함을 분석하기 위한 프로그램을 저장하는 저장매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160171682A KR101741108B1 (ko) 2016-12-15 2016-12-15 시스템 결함 분석 장치, 방법 및 시스템 결함을 분석하기 위한 프로그램을 저장하는 저장매체

Publications (1)

Publication Number Publication Date
KR101741108B1 true KR101741108B1 (ko) 2017-05-30

Family

ID=59052804

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160171682A KR101741108B1 (ko) 2016-12-15 2016-12-15 시스템 결함 분석 장치, 방법 및 시스템 결함을 분석하기 위한 프로그램을 저장하는 저장매체

Country Status (1)

Country Link
KR (1) KR101741108B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108122310A (zh) * 2017-11-20 2018-06-05 电子科技大学 一种基于WiFi信道状态信息和动态时间规整的人流量统计方法
CN112800101A (zh) * 2019-11-13 2021-05-14 中国信托登记有限责任公司 一种基于FP-growth算法异常行为检测方法及应用该方法的模型
KR102523671B1 (ko) * 2022-11-07 2023-04-20 메타빌드 주식회사 자율 주행 시스템의 로그 기반 이상 탐지 시스템 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366394A (ja) * 2002-03-28 2002-12-20 Hitachi Ltd ログデータの収集管理方法
KR100645529B1 (ko) * 2005-08-11 2006-11-14 엔에이치엔(주) 로그 가공이 가능한 로그 관리 시스템 및 이를 이용한 로그관리 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366394A (ja) * 2002-03-28 2002-12-20 Hitachi Ltd ログデータの収集管理方法
KR100645529B1 (ko) * 2005-08-11 2006-11-14 엔에이치엔(주) 로그 가공이 가능한 로그 관리 시스템 및 이를 이용한 로그관리 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Automatic Log Analysis using Machine Learning: Awesome Automatic Log Analysis version 2.0", Weixi Li(2013)*

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108122310A (zh) * 2017-11-20 2018-06-05 电子科技大学 一种基于WiFi信道状态信息和动态时间规整的人流量统计方法
CN112800101A (zh) * 2019-11-13 2021-05-14 中国信托登记有限责任公司 一种基于FP-growth算法异常行为检测方法及应用该方法的模型
KR102523671B1 (ko) * 2022-11-07 2023-04-20 메타빌드 주식회사 자율 주행 시스템의 로그 기반 이상 탐지 시스템 및 방법

Similar Documents

Publication Publication Date Title
CN111736875B (zh) 版本更新监控方法、装置、设备及计算机存储介质
US8098585B2 (en) Ranking the importance of alerts for problem determination in large systems
Lou et al. Mining dependency in distributed systems through unstructured logs analysis
Han et al. {FRAPpuccino}: Fault-detection through Runtime Analysis of Provenance
Gainaru et al. Event log mining tool for large scale HPC systems
Li et al. An integrated framework on mining logs files for computing system management
US7496795B2 (en) Method, system, and computer program product for light weight memory leak detection
US20160124792A1 (en) Fault analysis apparatus, fault analysis method, and recording medium
KR101741108B1 (ko) 시스템 결함 분석 장치, 방법 및 시스템 결함을 분석하기 위한 프로그램을 저장하는 저장매체
CN113254255B (zh) 一种云平台日志的分析方法、系统、设备及介质
CN110178121A (zh) 一种数据库的检测方法及其终端
CN112540905A (zh) 一种微服务架构下系统风险评估方法、装置、设备及介质
CN112799785B (zh) 虚拟机集群迁移方法、装置、设备和介质
Pitakrat et al. A framework for system event classification and prediction by means of machine learning
Gurumdimma et al. Towards detecting patterns in failure logs of large-scale distributed systems
WO2021109874A1 (zh) 拓扑图生成方法、异常检测方法、装置、设备及存储介质
Wang et al. A Log‐Based Anomaly Detection Method with Efficient Neighbor Searching and Automatic K Neighbor Selection
CN111274084A (zh) 故障诊断方法、装置、设备及计算机可读存储介质
CN112306820A (zh) 一种日志运维根因分析方法、装置、电子设备及存储介质
CN113835918A (zh) 一种服务器故障分析方法及装置
CN114298558B (zh) 电力网络安全研判系统及其研判方法
CN111488947A (zh) 电力系统设备的故障检测方法与装置
Chen et al. Exploiting local and global invariants for the management of large scale information systems
Reidemeister et al. Diagnosis of recurrent faults using log files
WO2022042126A1 (en) Fault localization for cloud-native applications

Legal Events

Date Code Title Description
AMND Amendment
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant