KR20230149054A

KR20230149054A - 로그 데이터의 패턴 생성 방법 및 장치

Info

Publication number: KR20230149054A
Application number: KR1020220048231A
Authority: KR
Inventors: 조종윤; 김수정; 김성일
Original assignee: 삼성에스디에스 주식회사
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2023-10-26

Abstract

로그 데이터에서 관심 영역을 지정하고, 상기 지정된 관심 영역을 복수의 토큰으로 토큰화하며, 상기 복수의 토큰에 대응되는 복수의 요소 패턴을 생성하고. 유전 알고리즘을 이용하여 상기 복수의 요소 패턴으로부터 상기 관심 영역에 대한 패턴을 생성하는 로그 데이터의 패턴 생성 방법 및 그 장치가 제공된다.

Description

로그 데이터의 패턴 생성 방법 및 장치{METHOD AND APPARATUS FOR GENERATING A PATTERN OF LOG DATA}

본 개시는 로그 데이터의 패턴을 생성하는 방법 및 장치에 관한 것이다. 보다 자세하게는, 유전 알고리즘을 이용하여 로그 데이터의 패턴을 자동으로 생성하는 방법 및 장치에 관한 것이다.

컴퓨터, 서버, 모바일 기기, 임베디드 기기에 이르기까지 소프트웨어가 동작하는 장치에는 시간의 흐름에 따라 텍스트 형식으로 로그가 기록되고, 로그는 모니터링, 사고 분석, 데이터 복원 등에 이용된다. 이 때, 로그를 활용하기 위해서는 각 시스템이나 동작마다 다른 형태로 저장되어 있는 로그들 중 원하는 메시지 패턴이 포함된 부분을 추출해야 한다.

로그 데이터는 일반적으로 앞부분은 로그가 저장되는 시간이 기록되고, 뒷부분은 저장하고자 하는 컨텐츠들이 기록된다. 그런데, 뒷부분의 컨텐츠는 시스템을 만든 사람이 정의한 로그 저장 패턴에 따라 달라지므로 추출하고자 하는 패턴을 일반화하기 불가능하다. 또한, 하나의 시스템이 아니라 복수의 시스템이 하나의 로그 파일로 저장되는 경우, 같은 시스템의 로그를 분류하는데 어려움이 있다.

이 때, 로그 데이터의 일반화된 패턴을 생성하기 위해 다양한 경우의 수를 만드는 방법을 사용할 경우, 생성되는 패턴의 수가 늘어나는 규모를 예측할 수 없고, 특정 로그 건을 대입했을 때 발생하는 예외 패턴을 처리하는데 적합하지 않다.

이에, 적은 컴퓨팅 리소스와 짧은 시간 내에 로그 데이터의 패턴을 생성할 수 있는 기술이 요구된다.

미국등록특허 제11113317호 (2018.03.29 공개)

본 개시가 해결하고자 하는 기술적 과제는, 로그 데이터를 추출할 수 있는 패턴을 신속하고 편리하게 생성할 수 있는 방법 및 장치를 제공하는 것이다.

본 개시가 해결하고자 하는 다른 기술적 과제는, 적은 컴퓨팅 리소스를 사용하여 로그 데이터의 패턴을 생성할 수 있는 방법 및 장치를 제공하는 것이다.

본 개시가 해결하고자 하는 또 다른 기술적 과제는, 짧은 시간 내에 사용자가 원하는 로그 데이터의 패턴을 도출할 수 있는 방법 및 장치를 제공하는 것이다.

본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한 본 개시의 일 실시예에 따른 로그 데이터의 패턴 생성 방법은, 로그 데이터에서 관심 영역을 지정하는 단계, 상기 지정된 관심 영역을 복수의 토큰으로 토큰화하고, 상기 복수의 토큰에 대응되는 복수의 요소 패턴을 생성하는 단계 및 유전 알고리즘을 이용하여 상기 복수의 요소 패턴으로부터 상기 관심 영역에 대한 패턴을 생성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 복수의 토큰 중 적어도 일부는 공백 토큰을 포함할 수 있다.

일 실시예에서, 상기 로그 데이터는 복수의 로그 레코드를 포함할 수 있고, 상기 관심 영역은 상기 복수의 로그 레코드 중에서 일부에 대해서만 지정될 수 있다.

일 실시예에서, 상기 복수의 요소 패턴은 상기 복수의 토큰 중 적어도 일부를 그대로 포함할 수 있다.

일 실시예에서, 상기 복수의 요소 패턴을 생성하는 단계는 상기 복수의 토큰 중 적어도 일부를 해당 토큰의 길이 정보로 치환함으로써 상기 요소 패턴을 생성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 복수의 요소 패턴을 생성하는 단계는 상기 복수의 토큰 중 적어도 일부를 정규표현식으로 변환하는 단계를 포함할 수 있다.

일 실시예에서, 상기 복수의 요소 패턴을 생성하는 단계는 상기 복수의 토큰 중 제1 토큰에 상기 제1 토큰에 인접한 문자 또는 문자열을 부가하여 제2 토큰을 생성하는 단계와 상기 제2 토큰에 대응되는 요소 패턴을 생성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 관심 영역에 대한 패턴을 생성하는 단계는 상기 복수의 요소 패턴을 조합하여 제1 해집합을 생성하는 단계, 상기 제1 해집합에 대해 변이 연산 또는 교차 연산을 수행하여 제2 해집합을 생성하는 단계, 상기 제1 해집합 및 상기 제2 해집합에 대해 평가 연산을 수행하는 단계 및 상기 평가 연산의 결과에 기초하여 상기 관심 영역에 대한 패턴을 생성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 평가 연산의 결과에 기초하여 상기 관심 영역에 대한 패턴을 생성하는 단계는 상기 평가 연산의 결과에 기초하여 상기 제1 해집합 및 상기 제2 해집합 중에서 일부의 해를 제외하여 제3 해집합을 구성하는 단계, 상기 제3 해집합에 대해 상기 변이 연산 또는 상기 교차 연산을 다시 수행하여 제4 해집합을 생성하는 단계 및 상기 제3 해집합 및 상기 제4 해집합에 대한 평가 연산의 결과에 기초하여 상기 관심 영역에 대한 패턴을 생성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 평가 연산을 수행하는 단계는 상기 수행된 평가 연산의 결과를 이용하여 상기 제1 해집합 및 상기 제2 해집합 중 적어도 일부에 대한 평가 연산을 생략하는 단계를 포함할 수 있다.

일 실시예에서, 상기 평가 연산은 상기 제1 해집합 및 상기 제2 해집합에 포함된 각 해가 상기 관심 영역에 매칭되는 정도를 평가함으로써 수행될 수 있다.

상기 기술적 과제를 해결하기 위한 본 개시의 다른 실시예에 따른 로그 데이터의 패턴 생성 방법은, 상기 생성된 패턴을 상기 로그 데이터에 적용하여 추출된 영역과 희망 영역을 비교하는 단계, 상기 추출된 영역 중에서 상기 희망 영역에 부합하지 않는 영역을 비-관심 영역으로 지정하는 단계 및 상기 지정된 비-관심 영역을 상기 유전 알고리즘에 반영하고 재실행하여 상기 관심 영역에 대한 패턴을 다시 생성하는 단계를 더 포함할 수 있다. 이 때, 상기 희망 영역은 상기 관심 영역과 상기 로그 데이터의 다른 레코드에서 상기 관심 영역에 대응되는 영역을 포함할 수 있다.

일 실시예에서, 상기 비-관심 영역은 상기 유전 알고리즘의 평가 연산에 반영될 수 있다.

상기 기술적 과제를 해결하기 위한 본 개시의 다른 실시예에 따른 로그 데이터의 패턴 생성 방법은, 상기 생성된 패턴을 상기 로그 데이터에 적용하여 추출된 영역과 희망 영역을 비교하는 단계, 상기 희망 영역 중 상기 추출된 영역에서 제외된 영역을 추가 영역으로 지정하는 단계 및 상기 지정된 추가 영역에 대응되는 요소 패턴을 상기 유전 알고리즘의 해집합에 추가하고 상기 유전 알고리즘을 재실행하여 상기 관심 영역에 대한 패턴을 다시 생성하는 단계를 더 포함할 수 있다. 이 때, 상기 희망 영역은 상기 관심 영역과 상기 로그 데이터의 다른 레코드에서 상기 관심 영역에 대응되는 영역을 포함할 수 있다.

상기 기술적 과제를 해결하기 위한 본 개시의 일 실시예에 따른 로그 데이터의 패턴 생성 장치는 프로세서 및 명령어를 저장하는 메모리를 포함할 수 있고, 상기 명령어는 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금, 로그 데이터에서 관심 영역을 지정하는 단계, 상기 지정된 관심 영역을 복수의 토큰으로 토큰화하고, 상기 복수의 토큰에 대응되는 복수의 요소 패턴을 생성하는 단계 및 유전 알고리즘을 이용하여 상기 복수의 요소 패턴으로부터 상기 관심 영역에 대한 패턴을 생성하는 단계를 수행하도록 할 수 있다.

도 1은 본 개시의 일 실시예에 따른, 로그 데이터의 패턴 생성 방법을 나타내는 순서도이다.
도 2는 본 개시의 일 실시예에 따른, 초기 상태의 로그 데이터가 디스플레이된 화면의 예시도이다.
도 3은 사용자에 의해 지정된 관심 영역을 나타내는 화면의 예시도이다.
도 4는 도 1에 도시된 일부 동작을 설명하기 위한 예시도이다.
도 5는 도 1에 도시된 일부 동작의 세부 프로세스를 설명하기 위한 예시적인 흐름도이다.
도 6은 도 5에 도시된 일부 동작을 설명하기 위한 예시도이다.
도 7은 도 1에 도시된 일부 동작을 설명하기 위한 예시도이다.
도 8은 도 1에 도시된 일부 동작을 설명하기 위한 예시도이다.
도 9는 도 1에 도시된 일부 동작을 설명하기 위한 예시도이다.
도 10은 본 개시의 몇몇 실시예들에 따른 컴퓨팅 장치의 하드웨어 구성도이다.

이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명의 기술적 사상을 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.

본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하, 도면들을 참조하여 본 개시의 몇몇 실시예들을 설명한다.

도 1은 본 개시의 일 실시예에 따른, 로그 데이터의 패턴 생성 방법을 나타내는 순서도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.

도 1에 도시된 바와 같이, 상기 로그 데이터의 패턴 생성 방법은 사용자가 로그 데이터에서 관심 영역을 지정하는 단계 S100에서 시작된다. 이 때, 상기 관심 영역의 지정은 예를 들어 사용자의 마우스 드래그 입력에 의해 수행될 수 있다. 본 단계의 세부 프로세스에 대해서는 도 2 및 도 3을 참조하여 후술하도록 한다.

단계 S200에서, 상기 지정된 관심 영역이 복수의 토큰으로 토큰화 될 수 있고, 상기 복수의 토큰에 대응되는 복수의 요소 패턴이 생성될 수 있다. 본 단계의 세부 프로세스에 대해서는 도 4를 참조하여 후술하도록 한다.

단계 S300에서, 유전 알고리즘을 이용하여 상기 복수의 요소 패턴으로부터 상기 관심 영역에 대한 패턴이 생성될 수 있다. 본 단계의 세부 프로세스에 대해서는 도 5 및 도 6을 참조하여 후술하도록 한다.

단계 S400에서, 로그 데이터의 패턴 생성 절차가 계속 진행될지 여부가 판정될 수 있다. 단계 S300에서 생성된 패턴에 대한 평가에 기초하여, 상기 평가의 결과가 기준치를 초과하는 경우에는, 상기 패턴이 성공적으로 생성된 것이라는 판단 하에 절차가 종료될 수 있고, 상기 평가의 결과가 기준치 미만인 경우에는, 상기 패턴의 생성에 실패한 것으로 판단되어 절차가 종료될 수 있다. 또한, 상기 평가의 결과가 기준치 범위 이내인 경우에는, 단계 S500이 수행될 수 있다.

단계 S500에서, 단계 S300에서 생성된 패턴을 로그 데이터에 적용하여 추출된 영역과 희망 영역을 비교할 수 있다. 이 때, 상기 희망 영역은 상기 관심 영역과 상기 로그 데이터의 다른 레코드에서 상기 관심 영역에 대응되는 영역을 포함할 수 있다.

또한, 상기 추출된 영역 중에서 상기 희망 영역에 부합하지 않은 영역이 비-관심 영역으로 지정될 수 있다. 이 때, 상기 지정된 비-관심 영역을 단계 S300의 유전 알고리즘에 반영하고 재실행함으로써 상기 관심 영역에 대한 패턴이 다시 생성될 수 있다. 본 단계의 세부 프로세스에 대해서는 도 8을 참조하여 후술하도록 한다.

단계 S600에서, 단계 S300에서 생성된 패턴을 로그 데이터에 적용하여 추출된 영역과 희망 영역을 비교할 수 있다. 이 때, 상기 희망 영역은 상기 관심 영역과 상기 로그 데이터의 다른 레코드에서 상기 관심 영역에 대응되는 영역을 포함할 수 있다.

또한, 상기 희망 영역 중 상기 추출된 영역에서 제외된 영역이 추가 영역으로 지정될 수 있다. 이 때, 상기 지정된 추가 영역에 대응되는 요소 패턴이 단계 S300의 유전 알고리즘의 해집합에 추가될 수 있다. 나아가, 상기 유전 알고리즘이 재실행됨으로써 상기 관심 영역에 대한 패턴이 다시 생성될 수 있다. 본 단계의 세부 프로세스에 대해서는 도 9를 참조하여 후술하도록 한다.

도 2는 본 개시의 일 실시예에 따른, 초기 상태의 로그 데이터가 디스플레이된 화면의 예시도이다.

도 2에 도시된 바와 같이, 초기 상태의 로그 데이터(20)가 표시될 수 있다. 이해의 편의를 위해, 도 2에 도시된 초기 상태의 로그 데이터(20)에는 총 6건의 로그 레코드가 포함되는 것으로 가정하여 설명하도록 한다.

이 때, 상기 로그 데이터는 성격에 따라 분류될 수 있다. 예를 들면, 상기 로그 데이터는"TIMESTAMP - URGENCY [CATEGORY] - MESSAGE" 형식으로 분류될 수 있다.

즉, 상기 로그 데이터(20)에 포함된 특정 로그 레코드(20a)를 참조하면, "2015-07-29 17:41:41,648"부분은 "TIMESTAMP"부분에 대응될 수 있고, "INFO [main:QuorumPeer@913]"부분은 "URGENCY [CATEGORY]"부분에 대응될 수 있으며, "tickTime set to 2000"부분은 "MESSAGE"부분에 각각 대응될 수 있다.

한편, 사용자는 로그 데이터의 일부를 확인하고 추출하고자 하는 영역을 관심 영역으로 지정할 수 있다. 즉, 사용자는 직관적으로 로그 데이터 중 특정 영역이 추출되었으면 하는 의도를 가질 수 있고, 이를 위해 추출하고자 하는 특정 영역을 관심 영역으로 지정할 수 있다. 이 때, 상기 관심 영역은 색상, 글씨체, 글씨 굵기, 밑줄 등 다양한 방법을 통해 다른 영역과 시각적으로 구분될 수 있다.

이하, 로그 데이터에서 관심 영역이 지정되는 단계 S100에 대해 도 3을 참조하여 상세하게 설명하도록 한다.

도 3은 사용자에 의해 지정된 관심 영역을 나타내는 화면의 예시도이다.

도 3에 도시된 바와 같이, 로그 데이터(20)는 제1 로그 레코드(30a), 제2 로그 레코드(30b), 제3 로그 레코드(30c), 제4 로그 레코드(30d), 제5 로그 레코드(30e) 및 제6 로그 레코드(30f)를 포함할 수 있다. 이 때, 상기 복수의 로그 레코드는 로깅 시간에 따라 구분되어 배열된 것일 수 있다.

사용자는 "TIMESTAMP - URGENCY [CATEGORY] - MESSAGE" 형식으로 분류된 상기 복수의 로그 데이터 중에서 "MESSAGE"부분만 추출하고자 할 수 있다. 이 때, 사용자는 추출하고자 하는 영역을 하이라이팅 함으로써 관심 영역으로 지정할 수 있다. 예를 들면, 제1 로그 레코드(30a) 중 "MESSAGE"부분인 "My election bind port: 0.0.0.0/0.0.0.0:3888"부분, 제2 로그 레코드(30b) 중 "MESSAGE"부분인 "autopurge.snapRetainCount set to 3"부분 및 제4 로그 레코드(30d) 중 "MESSAGE"부분인 "Starting quorum peer"부분이 각각 하이라이팅 됨으로써 관심영역으로 지정될 수 있다.

한편, 상기 복수의 로그 데이터 전체에 대하여 영역이 지정될 필요가 있는 것은 아니다. 즉, 로그 레코드의 수와 무관하게 패턴의 특징이 반영될 수 있는 일부 로그 데이터에 대한 영역만이 지정될 수 있다. 예를 들어, 도 3을 참조하면, 초기 로그 레코드 6개 중에서 총 3개의 로그 레코드(30a, 30b, 30d)에 대해서만 관심 영역으로 지정될 수 있다.

도 4는 도 1에 도시된 일부 동작을 설명하기 위한 예시도이다.

단계 S200에서, 단계 S100에서 지정된 관심 영역이 복수의 토큰으로 토큰화 될 수 있다. 이 때, 상기 토큰화는 관심 영역에 포함된 문자들이 동일한 종류의 문자들로만 구성된 단위로 분리되는 과정일 수 있다. 예를 들면, 공백류(white space, tab, new line)와 비공백류(공백을 제외한 나머지 문자)로 구분되거나, 특정 기호(comma)와 비특정 기호(comma 제외) 등으로 구분될 수 있다. 또한, 상기 복수의 토큰 중 적어도 일부는 공백 토큰을 포함할 수 있다.

예를 들면, 도 4에 도시된 표(40a)를 참조하면, 단계 S100을 통해 지정된 관심 영역이 "123 - abc"일 수 있다. 이 때, 상기 관심 영역은 "123", "띄어쓰기 한칸", "-", "띄어쓰기 한칸", "abc"의 복수의 토큰으로 토큰화될 수 있다.

한편, 단계 S200을 통해 상기 복수의 토큰에 대응되는 복수의 요소 패턴이 생성될 수 있다. 이 때, 토큰에 대응되는 요소 패턴은 다양한 방법으로 생성될 수 있다.

예를 들면, 도 4에 도시된 표(40b)를 참조하면, 상기 복수의 요소 패턴은 상기 복수의 토큰 중 적어도 일부를 그대로 포함할 수 있고, 상기 복수의 요소 패턴은 상기 복수의 토큰 중 적어도 일부가 해당 토큰의 길이 정보로 치환되어 생성된 것일 수 있다. 또한, 상기 복수의 요소 패턴은 상기 복수의 토큰 중 적어도 일부가 띄어쓰기(공백) 단위로 구분되어 생성된 것일 수 있다.

나아가, 상기 복수의 요소 패턴은 상기 각각의 토큰이 정규표현식으로 표현된 패턴으로 변환된 것일 수 있다. 이 때, 도 4에 도시된 표(40c)를 참조하면, "123"은 "\d+", "\S+", "[\S\s]+" 등으로 각각 표현될 수 있고, "-"는 "-", "\S+", "[\S\s]+" 등으로 각각 표현될 수 있으며, "abc"는 "[a-zA-Z]+", "\S+", "[\S\s]+" 등으로 각각 표현될 수 있으므로 다양한 요소 패턴이 생성될 수 있다.

한편, 전체 문자열에서 특정 문자열이 추출되는 경우, 특정 문자열에만 집중하여 패턴이 탐색되는 경우에는 탐색 공간이 매우 넓지만, 패턴의 전후 정보를 함께 이용하여 제약 조건을 늘리면 탐색 공간이 줄어들 수 있다. 예를 들면, 사용자가"2022-02-10 14:10:22"라는 문자열에서 월에 해당하는 "02"를 추출하고자 하는 경우, 월의 특징(01~12 사이의 값)에만 집중하면 추출되기 어렵지만, 전후 정보인 "-" 기호를 이용하면 "-(\d+)-"와 같이 쉽게 추출될 수 있다.

이에, 상기 복수의 요소 패턴을 생성하는 단계 S200에서, 상기 복수의 토큰 중 제1 토큰에 상기 제1 토큰에 인접한 문자 또는 문자열을 부가하여 제2 토큰이 생성될 수 있고, 상기 생성된 제2 토큰에 대응되는 요소 패턴이 생성될 수 있다.

도 5는 도 1에 도시된 일부 동작의 세부 프로세스를 설명하기 위한 예시적인 흐름도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.

도 5를 참조하면, 유전 알고리즘을 이용하여 복수의 요소 패턴으로부터 관심 영역에 대한 패턴을 생성하는 단계 S300은 후술되는 단계 S310 내지 단계 S350을 통해 수행될 수 있다.

한편, 유전 알고리즘은 익히 알려진 것과 같이 해집합 내에서 해의 변이 또는 교차를 통해 최적의 해를 탐색해 나가는 과정이므로, 이에 대한 자세한 설명은 생략하도록 한다.

단계 S310에서, 단계 S200을 통해 생성된 복수의 요소 패턴이 조합됨으로써 제1 해집합이 생성될 수 있다. 이 때, 상기 제1 해집합은 초기 해집합을 의미할 수 있고, 상기 해집합은 복수의 해로 구성된 집합일 수 있다. 또한, 상기 해는 상기 복수의 요소 패턴이 임의로 조합되어 생성된 하나의 패턴을 의미할 수 있고, 상기 해는 사용자에 의해 미리 지정된 개수만큼 생성될 수 있다.

이하, 도 6을 참조하여 복수의 요소 패턴을 조합하여 제1 해집합이 생성되는 과정에 대해 설명하도록 한다.

예를 들면, 도 6에 도시된 표(40a)를 참조하면, 단계 S100을 통해 지정된 관심 영역이 "123 - abc"일 수 있다. 이 때, 상기 관심 영역은 "123", "띄어쓰기 한칸", "-", "띄어쓰기 한칸", "abc"의 복수의 토큰으로 토큰화될 수 있다.

복수의 토큰들은 각각에 대응되는 요소 패턴으로 표현될 수 있다. 도 6에 도시된 표(60a)를 참조하면, "123"은 "\d+", "\S+", "[\S\s]+" 등으로 각각 표현될 수 있고, "띄어쓰기 한칸"은 "\s"으로 표현될 수 있다. 또한, "-"는 "-", "\S+", "[\S\s]+" 등으로 각각 표현될 수 있으며, "abc"는 "abc" "[a-zA-Z]+", "\S+", "[\S\s]+" 등으로 각각 표현될 수 있다.

한편, 제1 해집합을 구성하는 복수의 해는 사용자에 의해 미리 지정된 개수만큼 생성될 수 있다. 이에, 제1 해집합은 도 6에 도시된 표(60c)와 같이 다양한 형태로 생성된 복수의 해를 포함할 수 있다.

예를 들면, 제1 해집합은 {123, 공백, -, 공백, abc}, {123, 공백, -, 공백, [a-zA-Z]+}, {123, 공백, -, 공백, \S+}, {\d+, 공백, -, \s, [a-zA-Z]+}, {[\S\s]+?, \s, [\S\s]+?, \s, [\S\s]+?} 등의 해들로 구성될 수 있다.

다시 도 5를 참조하여, 복수의 요소 패턴으로부터 관심 영역에 대한 패턴을 생성하는 단계 S300의 세부 프로세스에 대해 설명하도록 한다.

단계 S320에서, 상기 제1 해집합에 대해 변이 연산 및/또는 교차 연산이 수행됨으로써 제2 해집합이 생성될 수 있다.

보다 구체적으로, 제1 해집합의 각 해들을 이루는 요소 패턴에 대해 변이 연산이 수행됨으로써 상기 요소 패턴에 유전자 변이를 일으킨 해들로 구성된 제2 해집합이 생성될 수 있다. 이 때, 상기 변이 연산은 사용자에 의해 설정된 기준에 따른 연산이 아닌, 임의적으로 변경되는 연산일 수 있다.

예를 들면, 제1 해집합에 포함된 요소 패턴이 {A, B, C}로 구성된 경우, {A, B, C}는 변이 연산을 통해 {A1, B, C}, {A2, B, C}, ??, {AX, BY, CZ} 등과 같이 변경될 수 있고, 상기 변경된 요소 패턴을 포함하는 제2 해집합이 생성될 수 있다.

또한, 제1 해집합 내의 서로 다른 해들의 임의의 지점이 잘라져 각 해들이 두 부분으로 분리될 수 있고, 한 해의 앞부분이 다른 해의 뒷부분과 접합될 수 있다. 이에, 제1 해집합의 해들이 서로 부분적으로 섞인 새로운 해들로 구성된 제2 해집합이 생성될 수 있다.

예를 들면, 제1 해집합에 포함된 요소 패턴이 {A, B, C}와 {D, E, F}인 경우, 교차 연산을 통해 {A, B, F}와 {D, E, C}를 포함하는 제2 해집합이 생성될 수 있다.

단계 S330에서, 상기 제1 해집합 및 상기 제2 해집합에 대한 평가 연산이 수행될 수 있고, 상기 평가 연산의 결과에 기초하여 관심 영역에 대한 패턴이 생성될 수 있다. 이 때, 상기 평가 연산은 사용자가 단계 S100에서 지정한 관심 영역을 평가 대상으로 하여 수행될 수 있다.

또한, 상기 평가 연산은 상기 제1 해집합 및 상기 제2 해집합에 포함된 각 해가 상기 관심 영역에 매칭되는 정도를 평가함으로써 수행될 수 있다. 이 때, 상기 관심 영역에 매칭되는 정도는 수치화 된 평가 점수로 산출될 수 있다.

한편, 유전 알고리즘을 이용한 과정에서 생성되는 중간 해는 임의적으로 생성되므로, 이전에 생성된 해가 다시 생성될 수도 있다. 해의 적합성 여부를 판별하기 위한 평가 연산은 비교적 많은 연산 작업을 필요로 하나, 본 개시의 실시예에 따르면 각각의 해의 적합도에 대한 평가 연산의 결과가 별도의 메모리 영역에 저장될 수 있고, 동일한 해가 발생되는 경우 상기 저장된 결과를 참조함으로써 평가 연산이 빠르게 수행될 수 있다.

즉, 상기 평가 연산이 수행되는 과정에서, 기 수행된 평가 연산의 결과를 이용하여 상기 제1 해집합 및 상기 제2 해집합 중 적어도 일부에 대한 평가 연산이 생략될 수 있다.

상기 관심 영역에 대한 패턴을 생성하는 단계 S330에서, 상기 평가 연산의 결과에 기초하여 상기 제1 해집합 및 상기 제2 해집합 중에서 일부의 해가 제외됨으로써 제3 해집합이 구성될 수 있다. 또한, 상기 제3 해집합에 대해 상기 변이 연산 및/또는 상기 교차 연산을 다시 수행하여 제4 해집합을 생성될 수 있다. 나아가, 상기 제3 해집합 및 상기 제4 해집합에 대한 평가 연산의 결과에 기초하여 상기 관심 영역에 대한 패턴이 생성될 수 있다.

단계 S400에서, 특정 조건 충족시키는 경우에는 단계 S300가 종료될 수 있다. 즉, 유전 알고리즘을 이용하는 단계 S320과 단계 S330이 반복적으로 수행되었음에도 최적의 해가 도출되지 않았거나 해를 찾지 못한 경우, 단계 S300이 종료될 수 있다. 이하, 상기 특정 조건에 포함될 수 있는 두 가지의 경우에 대하여 자세하게 설명하도록 한다.

첫째로, 상기 단계 S330에서 수행된 평가 연산에 기초하여 가장 좋은 평가 점수를 받은 해가 유전 알고리즘을 이용한 과정의 일정 반복 횟수 동안 바뀌지 않은 경우에는 단계 S300이 종료될 수 있다.

예를 들어, 사용자에 의해 사전에 설정된 값이 10회이면, 유전 알고리즘을 반복하는 도중에 10회 동안 최고점인 해의 변동이 없는 경우에는 상기 유전 알고리즘이 조기에 종료될 수 있다.

두 번째로, 사용자에 의해 사전에 설정된 반복 횟수에 도달할 때까지 단계 S310, S320, S330이 반복될 수 있다. 이 때, 상기 반복 횟수에 도달한 경우에는 단계 S200에서 생성된 제2 해집합의 가장 높은 평가 점수에 대응되는 해가 추출될 수 있고, 단계 S300이 종료될 수 있다.

이에, 상기 조건들을 충족시키는 경우 절차를 종료시킴으로써 관심 영역 내의 데이터 상호 간에 공통 규칙이 존재하지 않거나 유전 알고리즘의 구현상의 이유로 최적의 해를 탐색하지 못하는 경우와 같이, 특정 패턴에 수렴하지 못하고 절차가 무한히 반복되는 상황이 방지될 수 있다.

도 7은 도 1에 도시된 일부 동작을 설명하기 위한 예시도이다.

단계 S300을 통해 생성된, 관심 영역에 대한 패턴을 로그 데이터에 적용하여 추출된 영역과 희망 영역이 비교될 수 있다. 이 때, 상기 희망 영역은 상기 관심 영역과 상기 로그 데이터의 다른 레코드에서 상기 관심 영역에 대응되는 영역을 포함할 수 있다.

도 7에 도시된 화면(70)을 참조하면, 단계 S300을 통해 생성된 관심 영역에 대한 패턴을 로그 데이터에 적용하여 추출된 영역이 하이라이팅 되어 표시될 수 있다. 지정된 관심 영역에 비추어 보면, 사용자가 분류 단위 기준으로 "MESSAGE"부분만 추출하고 싶은 의도가 있는 것으로 해석될 수 있다. 따라서, 로그 데이터의 패턴 생성이 완료된 것으로 판단될 수 있고, 나아가 절차가 종료될 수 있다.

이하, 상기 추출된 영역과 상기 희망 영역을 비교한 결과, 상기 추출된 영역 중에서 상기 희망 영역에 부합하지 않는 영역 또는 상기 희망 영역 중 상기 추출된 영역에서 제외된 영역이 존재하는 경우, 추가적으로 진행될 수 있는 절차에 대하여 도 8 및 도9를 참조하여 설명하도록 한다.

도 8은 도 1에 도시된 일부 동작을 설명하기 위한 예시도이다.

상기 추출된 영역 중에서 상기 희망 영역에 부합하지 않는 영역(80b)이 비-관심 영역으로 지정될 수 있다. 이 때, 상기 지정된 비-관심 영역은 상기 유전 알고리즘에 반영되어 재실행됨으로써 상기 관심 영역에 대한 패턴이 다시 생성될 수 있다.

또한, 상기 지정된 비-관심 영역은 상기 유전 알고리즘의 평가 연산에 반영될 수 있다. 보다 자세하게는, 상기 지정된 비-관심 영역은 단계 S300이 실행되는 경우, 상기 비-관심 영역을 포함하는 해에 대한 평가 점수가 낮게 산출되거나 아예 무효로 처리될 수 있다.

도 8에 도시된 화면(80a)을 참조하면, 제3 로그 레코드(30c)에서 "URGENCY [CATEGORY]"부분인 "main:DatadirCleanupManager@79"부분(80b)이 비-관심 영역으로 지정될 수 있다.

도 9는 도 1에 도시된 일부 동작을 설명하기 위한 예시도이다.

상기 희망 영역 중 상기 추출된 영역에서 제외된 영역이 추가 영역으로 지정될 수 있다. 이 때, 상기 지정된 추가 영역에 대응되는 요소 패턴이 상기 유전 알고리즘의 해집합에 추가될 수 있고, 상기 유전 알고리즘이 재실행됨으로써 상기 관심 영역에 대한 패턴이 다시 생성될 수 있다.

도 9에 도시된 화면(90a)을 참조하면, 제3 로그 레코드(30c)에서 "MESSAGE"부분인 "autopurge"부분(90b)이 추가 영역으로 지정될 수 있다.

도 10은 본 개시의 몇몇 실시예들에 따른 컴퓨팅 장치의 하드웨어 구성도이다. 도 10에 도시된 컴퓨팅 장치(1000)는, 예를 들어 로그 데이터의 패턴 생성 장치일 수 있다. 하나 이상의 프로세서(1100), 시스템 버스(1600), 통신 인터페이스(1200), 프로세서(1100)에 의하여 수행되는 컴퓨터 프로그램(1500)을 로드(load)하는 메모리(1400)와, 컴퓨터 프로그램(1500)을 저장하는 스토리지(1300)를 포함할 수 있다.

프로세서(1100)는 컴퓨팅 장치(1000)의 각 구성의 전반적인 동작을 제어한다. 프로세서(1100)는 본 개시의 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 메모리(1400)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(1400)는 본 개시의 다양한 실시예들에 따른 방법/동작들을 실행하기 위하여 스토리지(1300)로부터 하나 이상의 컴퓨터 프로그램(1500)을 로드(load) 할 수 있다. 버스(1600)는 컴퓨팅 장치(1000)의 구성 요소 간 통신 기능을 제공한다. 통신 인터페이스(1200)는 컴퓨팅 장치(1000)의 인터넷 통신을 지원한다. 스토리지(1300)는 하나 이상의 컴퓨터 프로그램(1500)을 비임시적으로 저장할 수 있다. 컴퓨터 프로그램(1500)은 본 개시의 다양한 실시예들에 따른 방법/동작들이 구현된 하나 이상의 명령어들(instructions)을 포함할 수 있다. 컴퓨터 프로그램(1500)이 메모리(1400)에 로드 되면, 프로세서(1100)는 상기 하나 이상의 명령어들을 실행시킴으로써 본 개시의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.

지금까지 도 1 내지 도 10을 참조하여 본 개시의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

지금까지 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 발명이 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컴퓨팅 장치에 의하여 수행되는 방법에 있어서,
로그 데이터에서 관심 영역을 지정하는 단계;
상기 지정된 관심 영역을 복수의 토큰으로 토큰화하고, 상기 복수의 토큰에 대응되는 복수의 요소 패턴을 생성하는 단계; 및
유전 알고리즘을 이용하여 상기 복수의 요소 패턴으로부터 상기 관심 영역에 대한 패턴을 생성하는 단계를 포함하는,
로그 데이터의 패턴 생성 방법.
제1 항에 있어서,
상기 복수의 토큰 중 적어도 일부는 공백 토큰을 포함하는,
로그 데이터의 패턴 생성 방법.
제1 항에 있어서,
상기 로그 데이터는 복수의 로그 레코드를 포함하고,
상기 관심 영역은 상기 복수의 로그 레코드 중에서 일부에 대해서만 지정되는,
로그 데이터의 패턴 생성 방법.
제1 항에 있어서,
상기 복수의 요소 패턴은 상기 복수의 토큰 중 적어도 일부를 그대로 포함하는,
로그 데이터의 패턴 생성 방법.
제1 항에 있어서,
상기 복수의 요소 패턴을 생성하는 단계는,
상기 복수의 토큰 중 적어도 일부를 해당 토큰의 길이 정보로 치환함으로써 상기 요소 패턴을 생성하는 단계를 포함하는,
로그 데이터의 패턴 생성 방법.
제1 항에 있어서,
상기 복수의 요소 패턴을 생성하는 단계는,
상기 복수의 토큰 중 적어도 일부를 정규표현식으로 변환하는 단계를 포함하는,
로그 데이터의 패턴 생성 방법.
제1 항에 있어서,
상기 복수의 요소 패턴을 생성하는 단계는,
상기 복수의 토큰 중 제1 토큰에 상기 제1 토큰에 인접한 문자 또는 문자열을 부가하여 제2 토큰을 생성하는 단계; 및
상기 제2 토큰에 대응되는 요소 패턴을 생성하는 단계를 포함하는,
로그 데이터의 패턴 생성 방법.
제1 항에 있어서,
상기 관심 영역에 대한 패턴을 생성하는 단계는,
상기 복수의 요소 패턴을 조합하여 제1 해집합을 생성하는 단계;
상기 제1 해집합에 대해 변이 연산 또는 교차 연산을 수행하여 제2 해집합을 생성하는 단계;
상기 제1 해집합 및 상기 제2 해집합에 대해 평가 연산을 수행하는 단계; 및
상기 평가 연산의 결과에 기초하여 상기 관심 영역에 대한 패턴을 생성하는 단계를 포함하는,
로그 데이터의 패턴 생성 방법.
제8 항에 있어서,
상기 평가 연산의 결과에 기초하여 상기 관심 영역에 대한 패턴을 생성하는 단계는,
상기 평가 연산의 결과에 기초하여 상기 제1 해집합 및 상기 제2 해집합 중에서 일부의 해를 제외하여 제3 해집합을 구성하는 단계;
상기 제3 해집합에 대해 상기 변이 연산 또는 상기 교차 연산을 다시 수행하여 제4 해집합을 생성하는 단계; 및
상기 제3 해집합 및 상기 제4 해집합에 대한 평가 연산의 결과에 기초하여 상기 관심 영역에 대한 패턴을 생성하는 단계를 포함하는,
로그 데이터의 패턴 생성 방법.
제8 항에 있어서,
상기 평가 연산을 수행하는 단계는,
기 수행된 평가 연산의 결과를 이용하여 상기 제1 해집합 및 상기 제2 해집합 중 적어도 일부에 대한 평가 연산을 생략하는 단계를 포함하는,
로그 데이터의 패턴 생성 방법.
제8 항에 있어서,
상기 평가 연산은 상기 제1 해집합 및 상기 제2 해집합에 포함된 각 해가 상기 관심 영역에 매칭되는 정도를 평가함으로써 수행되는,
로그 데이터의 패턴 생성 방법.
제1 항에 있어서,
상기 생성된 패턴을 상기 로그 데이터에 적용하여 추출된 영역과 희망 영역을 비교하는 단계 - 상기 희망 영역은 상기 관심 영역과 상기 로그 데이터의 다른 레코드에서 상기 관심 영역에 대응되는 영역을 포함함 - ;
상기 추출된 영역 중에서 상기 희망 영역에 부합하지 않는 영역을 비-관심 영역으로 지정하는 단계; 및
상기 지정된 비-관심 영역을 상기 유전 알고리즘에 반영하고 재실행하여 상기 관심 영역에 대한 패턴을 다시 생성하는 단계를 더 포함하는,
로그 데이터의 패턴 생성 방법.
제12 항에 있어서,
상기 비-관심 영역은 상기 유전 알고리즘의 평가 연산에 반영되는,
로그 데이터의 패턴 생성 방법.
제1 항에 있어서,
상기 생성된 패턴을 상기 로그 데이터에 적용하여 추출된 영역과 희망 영역을 비교하는 단계 - 상기 희망 영역은 상기 관심 영역과 상기 로그 데이터의 다른 레코드에서 상기 관심 영역에 대응되는 영역을 포함함 - ;
상기 희망 영역 중 상기 추출된 영역에서 제외된 영역을 추가 영역으로 지정하는 단계; 및
상기 지정된 추가 영역에 대응되는 요소 패턴을 상기 유전 알고리즘의 해집합에 추가하고 상기 유전 알고리즘을 재실행하여 상기 관심 영역에 대한 패턴을 다시 생성하는 단계를 더 포함하는,
로그 데이터의 패턴 생성 방법.
프로세서; 및
명령어를 저장하는 메모리를 포함하고,
상기 명령어는 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금,
로그 데이터에서 관심 영역을 지정하는 단계,
상기 지정된 관심 영역을 복수의 토큰으로 토큰화하고, 상기 복수의 토큰에 대응되는 복수의 요소 패턴을 생성하는 단계 및
유전 알고리즘을 이용하여 상기 복수의 요소 패턴으로부터 상기 관심 영역에 대한 패턴을 생성하는 단계를 수행하도록 하는,
로그 데이터의 패턴 생성 장치.